CN114492383A - 一种数字货币交易地址的实体名称识别方法和装置 - Google Patents
一种数字货币交易地址的实体名称识别方法和装置 Download PDFInfo
- Publication number
- CN114492383A CN114492383A CN202111564485.3A CN202111564485A CN114492383A CN 114492383 A CN114492383 A CN 114492383A CN 202111564485 A CN202111564485 A CN 202111564485A CN 114492383 A CN114492383 A CN 114492383A
- Authority
- CN
- China
- Prior art keywords
- transaction
- entity
- name
- word
- transaction address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- 230000008520 organization Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 235000015122 lemonade Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种数字货币交易地址的实体名称识别方法和装置,所述方法包括:从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。应用本发明能从公开信息中识别出更多的交易地址的实体信息,以提高从公开信息中识别交易地址的实体信息的识别率。
Description
技术领域
本发明涉及计算机技术领域,特别是指一种数字货币交易地址的实体名称识别方法和装置。
背景技术
对数字货币交易中的匿名交易地址进行标注,从而可以确定匿名用户的真实身份。目前,对交易地址进行标注的方法,主要是应用数字货币地址聚类进行交易层的身份溯源,使用启发式方法将属于同一个实体的多个数字货币地址归类到一个地址集群。目前数字货币交易中的交易地址聚类最常用的方法包括,共同输入法、找零地址启发式方法等。
此外,还可通过多种开源的信息,比如公开的众包网站或社交平台上的用户信息进行信息收集,预先对一部分交易地址标注出实体信息;进而,根据集群中一些预先标注有实体信息的地址,对集群中其它匿名地址进行标注,从而达到对大量新增交易的交易地址进行实时快速标注,身份识别的目的。
然而,目前通常只能通过从开源的信息收集的结构化的语言信息中识别出交易地址的实体信息;比如,只能从网站或社交平台上的用户信息,这种结构化的语言信息中识别交易地址的实体信息;而对于大量的非结构化的信息,比如新闻报道和事件等信息,则无法从中识别出有效的交易地址的实体信息。也就是说,目前从公开信息中识别交易地址的实体信息的方法,识别率低。
发明内容
有鉴于此,本发明的目的在于提出一种数字货币交易地址的实体名称识别方法和装置,以提高从公开信息中识别交易地址的实体信息的识别率,即能够从公开信息中识别出更多的交易地址的实体信息。
基于上述目的,本发明提供一种数字货币交易地址的实体名称识别方法,包括:
从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;
将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;
根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。
3.其中,所述语言表征模型具体根据如下方法预先训练得到:
生成多个正、负训练样本,组成训练样本集;其中,所述正训练样本中包括:标注为隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;所述负训练样本中包括:没有标注隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;
利用所述训练样本集对语言表征模型进行训练。
可选的,在所述根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称之后,还包括:
根据该实体名称对该交易地址进行标注;
获取数字货币区块链中新增的数字货币交易的交易数据;
对所述交易数据中的交易地址进行聚类;
针对聚类得到的集群,识别出所述集群中预先标注有实体名称的交易地址,并将该实体名称识别为所述集群中其它交易地址的实体名称,并根据该实体名称对所述集群以及所述集群中其它交易地址进行标注。
可选的,在所述根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称之后,还包括:对于所有识别为交易地址的实体名称进行两两检测,确定出属于同一实体的不同实体名称:
对于待检测的两个实体名称,计算两者之间的字符串相似度;
若计算的相似度大于阈值,则确定这两个实体名称属于同一实体。
可选的,在所述针对聚类得到的集群,识别出所述集群中预先标注有实体名称的交易地址,并将该实体名称识别为所述集群中其它交易地址的实体名称,并根据该实体名称对所述集群以及所述集群中其它交易地址进行标注之后,还包括:
将标注了同一实体名称的不同集群进行关联;以及
将标注了属于同一实体不同实体名称的集群进行关联。
本发明还提供一种数字货币交易地址的实体名称识别装置,包括:
文字信息解析模块,用于从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;
关系确定模块,用于将识别出的交易地址分别与每个名称类型的词语配对后,将配对的每对词语,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对;
实体名称识别模块,用于将具有隶属关系的词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。
本发明还提供一种电子设备,包括中央处理单元、信号处理和存储单元,以及存储在信号处理和存储单元上并可在中央处理单元上运行的计算机程序,其中,所述中央处理单元执行如上所述的数字货币交易地址的实体名称识别方法。
本发明技术方案中,从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。这样,通过预先训练的语言表征模型,即使对于非结构化的语言文字,也能识别出其中词语之间的隶属关系,从而对识别为交易地址的词语通过判断其隶属的实体名称,从而可以确定该交易地址的实体信息。相比于现有的仅能通过结构化语言识别出交易地址的实体信息,本发明技术方案可以从更多的公开信息中识别出更多的交易地址的实体信息,具有更高的交易地址实体信息的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数字货币交易地址的实体名称识别方法流程图;
图2为本发明实施例提供的语言表征模型训练方法流程图;
图3为本发明实施例提供的判断同一实体的不同实体名称的方法流程图;
图4为本发明实施例提供的对聚类得到的集群进行交易地址标注的方法流程图;
图5为本发明实施例提供的一种结合共同输入法、创币交易聚类启发式、矿池地址聚类启发式方法对交易数据中的交易地址进行聚类的方法流程图;
图6为本发明实施例提供的一种数字货币交易地址的实体名称识别装置的内部结构框图;
图7为本发明实施例提供的一种电子设备硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
本发明技术方案中,从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。这样,通过预先训练的语言表征模型,即使对于非结构化的语言文字,也能识别出其中词语之间的隶属关系,从而对识别为交易地址的词语通过判断其隶属的实体名称,从而可以确定该交易地址的实体信息。相比于现有的仅能通过结构化语言识别出交易地址的实体信息,本发明技术方案可以从更多的公开信息中识别出更多的交易地址的实体信息,具有更高的交易地址实体信息的识别率。
下面结合附图详细说明本发明实施例的技术方案。
本发明实施例提供的一种数字货币交易地址的实体名称识别方法,流程如图1所示,包括如下步骤:
步骤S101:从待识别的文字信息中识别出名称类型的词语;
其中,待识别的文字信息可以是从开源的信息中提取的信息,比如网站或社交平台上的用户信息,以及新闻报道、事件中自动提取的交易事件信息;
本步骤中,对于待识别的文字信息,从中识别所有的句号,以句子为单位,进行语句划分;进而分别将所述文字信息中的每个语句的信息依次输入到HanLP(自然语言处理)工具中进行分词、词性标注和命名实体识别,从而识别出的Person(人名)、Organization(组织名)、Postal code(数字字母组合字符串)三种类型的词语,作为识别出的名称类型的词语,存储于列表1中。
更优地,本步骤中还可扫描所述文字信息的分词结果,仅保留名词词性的词语存储于列表2中;
进而对于列表2中的每个词语,判断其是否满足如下条件之一;如果是,则将该词语存储于列表3中;
条件一:所述词语为专有名词;
条件二:所述词语与数字货币交易常见实体列表中的实体名称之一匹配;
条件三:所述词语与知识库中的实体名称之一匹配;
将列表1和列表3去重合并后得到的列表中的各词语,作为最终识别的名称类型的词语。
此外,对于从所述文字信息中识别出的名称类型的词语,可以作为待匹配的实体名称先进行分类:
在数字货币交易溯源中,规定了九类实体,包括:不合法实体、交易平台类实体、数字货币服务商类实体、组织类实体、勒索软件类实体、数字货币地址实体、地址片段实体、交易ID实体和其他类实体。
可以根据实体名称判断其属于哪类实体,具体方法包括:1、借助从公开情报来源中提取的地址标签,查询交易平台、勒索软件和组织类实体;2、基于公开的知识库,提取实体描述和属性信息,基于KNN分类算法(K最邻近分类算法)对实体进行分类。
步骤S102:利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址。
步骤S103:将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中。
具体地,对于识别出的每个交易地址,将该交易地址分别与每个名称类型的词语配对;
对于每个配对得到的词语对,将该词语对的两个词语,以及包含这两个词语的语句输入到预先训练得到的语言表征模型中。
例如,对于包含一个交易地址和一个名称类型的词语的词语对,将该词语对中的交易地址、名称类型的词语,以及包含该交易地址的语句、包含该名称类型的词语的语句输入到预先训练得到的语言表征模型中;由语言表征模型根据输入的语句判定该词语对中的两个词语是否具有隶属关系。
步骤S104:根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。
具体地,对于所述语言表征模型判断为具有隶属关系的词语对,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称后,为该交易地址标注所述实体名称。
上述的语言表征模型是预先训练得到的,具体方法流程,如图2所示,包括如下步骤:
步骤S201:生成训练样本集。
生成多个正、负训练样本,组成训练样本集;
其中,所述正训练样本中包括:标注为隶属关系的交易地址和实体名称,以及包括该实体名称的语句包括该交易地址的语句;
所述负训练样本中包括:没有标注隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;
其中,负训练样本可以是标注了其它关系的训练样本:
标注了攻击(attack)关系的负训练样本包括:标注为攻击关系的词语对,以及包含该词语对的语句信息;
标注了交易(trans)关系的负训练样本包括:标注为交易关系的词语对,以及包含该词语对的语句信息;
标注了未知(unknown)关系的负训练样本包括:标注为未知关系的词语对,以及包含该词语对的语句信息。
步骤S202:利用所述训练样本集对语言表征模型进行训练。
本步骤中,利用所述训练样本集对基于BERT(全称为Bidirectional EncoderRepresentation from Transformers,是一个预训练的语言表征模型)的模型进行训练;
具体地,将所述训练样本集中的训练样本依次输入到语言表征模型中,根据语言表征模型的输出与训练样本中预先标注的关系之间的差异,对语言表征模型的参数进行调整。
当训练次数达到设定值,或语言表征模型的输出已收敛,则完成对所述语言表征模型的训练。
考虑到由于新闻报道中存在大量的消息模糊、不完整,实体信息存在别名的问题,因此,本发明技术方案还提供了一种判断两个实体名称是否属于同一实体的方法:对于所有识别为交易地址的实体名称可进行两两检测,确定出属于同一实体的不同实体名称,具体方法流程如图3所示,包括如下步骤:
步骤S301:对于待检测的两个实体名称,计算两者之间的字符串相似度;
本步骤中,对于待检测的两个实体名称,计算两者之间的字符串相似度,比如计算两个实体名称之间字符串的Levenshtein(莱文斯坦)相似度。
步骤S302:判断计算的相似度是否大于阈值;若是,则确定这两个实体名称属于同一实体,设置这两个实体名称的关联关系;否则,执行如下步骤S303。
具体地,本领域技术人员可以根据经验设置阈值,例如可以将阈值设置为0.7。
步骤S303:查询公用知识库(比如WikiData知识库),若所述公用知识库记载了这两个实体名称中一个为另一个的别名,则确定这两个实体名称属于同一实体,设置这两个实体名称的关联关系;否则,确定这两个实体名称不属于同一实体。
进一步,在获得部分标注了实体名称的交易地址后,还可对通过聚类方法为更多的数字货币(比如比特币)交易的交易地址进行标注,具体方法流程如图4所示,包括如下步骤:
步骤S401:获取数字货币(比如比特币)区块链中新增的数字货币(比如比特币)交易的交易数据。
具体地,在一笔数字货币(比如比特币)交易中,资金的发送方称为输入,接收方称为输出,一笔普通的数字货币(比如比特币)交易中输入和输出中可能含有一个或多个数字货币(比如比特币)的交易地址。使用一个交易地址进行数字货币(比如比特币)交易的实体可能是一个数字货币(比如比特币)用户、一个交易平台或某个勒索软件团伙等,这个实体可能拥有一个或多个数字货币(比如比特币)的交易地址。
在一个示例性的实施例中,可以利用数字货币(比如比特币)的全节点实时解析数字货币(比如比特币)区块链中最新的区块数据及交易数据,并存入数据库中。具体地,可以每隔设定时间段,比如每隔10分钟,定时提取数字货币(比如比特币)区块链中最新的区块数据及交易数据,即新增的数字货币(比如比特币)交易的交易数据。
步骤S402:对所述交易数据中的交易地址进行聚类。
具体地,在提取出新增的数字货币交易的交易数据后,本步骤中,实时解析数字货币交易的数据,并应用多种聚类方法对解析出的交易地址进行聚类。例如,可以采用共同输入法、找零地址启发式方法进行聚类。
在一个示例性的实施例中,可以结合共同输入法、创币交易聚类启发式、矿池地址聚类启发式方法对数字货币(比如比特币)交易数据中的交易地址进行聚类,具体方法流程如图5所示,包括如下子步骤:
子步骤S501:对交易数据中的每笔数字货币交易,确定所述数字货币交易的输入、输出的交易地址;
本子步骤中,将提取的未聚类区块的所有数字货币交易,存入一个列表中,遍历每一笔数字货币交易,解析出所述数字货币交易的输入和输出的交易地址。
子步骤S502:根据每笔数字货币交易的交易特征,过滤掉混币交易。
具体地,如果一笔数字货币交易满足以下特征,则可以判断其是一笔CoinJoin(混币)交易,不适用于以下的聚类方法:
特征一:交易的输入输出的交易地址数的特征:输入的交易地址数量不小于2,且输出的交易数量不小于4,且输入的交易地址数量不大于输出的交易地址数量,不小于输出的交易地址数量的1/2;
特征二:交易输出地址特征:输出的交易地址不包含OP_RETURN(比特币备注信息)类型的地址,并且输出的交易地址不包含SatoshiDice(骰子网)类型地址;并且,存在至少一组输出值相同的输出集合,且最多的输出值相同的输出的个数必须小于或等于输入数;
特征三:交易输入输出值特征:输出值相同的输出的集合的元素个数总和大于总输入个数的50%。
在过滤掉混币交易后,对其它数字货币交易的交易地址进行聚类:
子步骤S503:对其它数字货币交易的每笔数字货币交易进行遍历。
本子步骤中,将过滤掉CoinJoin(混币)交易后,其它剩下的数字货币交易进行遍历,并根据如下子步骤进行交易地址的聚类:
子步骤S504:若当前遍历的数字货币交易判断为创币交易,则将所述数字货币交易的输出的交易地址聚类到同一集群;
子步骤S505:判断当前遍历的数字货币交易是否为单输入交易,若是,则执行子步骤S506;否则,执行如下子步骤S507。
子步骤S506:若当前遍历的数字货币交易为单输入交易,在判断该数字货币交易的输入的交易地址不属于如何已有集群后,新建一个包含该交易地址的集群;之后直接跳转到子步骤S510。
子步骤S507:若当前遍历的数字货币交易判断为多输入交易,进一步判断其输入的交易地址中有几个隶属于已有集群的交易地址;若判断其输入的交易地址中有一个交易地址隶属于一个已有集群,且其它交易地址不属于任何已有集群,则执行如下子步骤S508;若判断其输入的交易地址中有多个交易地址分别隶属于多个已有集群,则执行如下子步骤S509;其它情况则直接执行子步骤S510;
子步骤S508:若当前遍历的数字货币交易判断为多输入交易,且判断其输入的交易地址中有一个交易地址隶属于一个已有集群,且其它交易地址不属于任何已有集群,则将其输入的其它交易地址加入到该集群;之后直接跳转到子步骤S510。
子步骤S509:若当前遍历的数字货币交易判断为多输入交易,且其输入的交易地址中有多个交易地址分别隶属于多个已有集群,则将所述多个已有集群进行合并,其输入的其它交易地址加入到合并后得到的集群中;之后直接跳转到子步骤S510。
子步骤S510:若当前遍历的数字货币交易,其输出的交易地址个数大于等于设定值,且有一个交易地址已标注的实体名称为矿池标签,则将其输出的交易地址聚类到同一集群。
步骤S403:针对聚类得到的集群,识别出所述集群中预先标注有实体名称的交易地址,并根据识别的交易地址的实体名称为所述集群中其它交易地址进行标注。
本步骤中,利用聚类的结果,查找出预先标注有实体名称的交易地址,即标注有原始标签的交易地址所在集群,并根据原始标签判断该集群是交易所或服务类地址集群还是用户的钱包地址集群,再对该地址集群进行标注,从而实现对集群中其它匿名交易地址的标注;从而基于对交易地址标注的实体名称,准确判断集群中交易地址的真实身份。
步骤S404:将标注了同一实体名称的不同集群进行关联;以及将标注了属于同一实体不同实体名称的集群进行关联。
基于上述的数字货币交易地址的实体名称识别方法,本发明实施例提供的一种数字货币交易地址的实体名称识别装置,其内部结构如图6所示,包括:文字信息解析模块601、关系确定模块602、实体名称识别模块603;
其中,文字信息解析模块601用于从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;
关系确定模块602用于将识别出的交易地址分别与每个名称类型的词语配对后,将配对的每对词语,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对;
实体名称识别模块603用于将具有隶属关系的词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。
进一步,本发明实施例提供的一种数字货币交易地址的实体名称识别装置,还可包括:模型训练模块604。
模型训练模块604用于利用所述训练样本集对语言表征模型进行训练;其中,所述训练样本集中的正训练样本包括:标注为隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;所述训练样本集中的负训练样本包括:没有标注隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句。
上述的数字货币交易地址的标注装置中各模块的功能的实现方法可参考上述图1、2、3、4、5所示流程各步骤中的方法,此处不再赘述。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的数字货币交易地址的实体名称识别方法。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,可以与非线性接收机相连,从非线性接收机接收信息,实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明技术方案中,从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。这样,通过预先训练的语言表征模型,即使对于非结构化的语言文字,也能识别出其中词语之间的隶属关系,从而对识别为交易地址的词语通过判断其隶属的实体名称,从而可以确定该交易地址的实体信息。相比于现有的仅能通过结构化语言识别出交易地址的实体信息,本发明技术方案可以从更多的公开信息中识别出更多的交易地址的实体信息,具有更高的交易地址实体信息的识别率。
实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数字货币交易地址的实体名称识别方法,其特征在于,包括:
从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;
将识别出的交易地址分别与每个名称类型的词语配对后,将配对得到的词语对,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;
根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。
2.根据权利要求1所述的方法,其特征在于,所述语言表征模型具体根据如下方法预先训练得到:
生成多个正、负训练样本,组成训练样本集;其中,所述正训练样本中包括:标注为隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;所述负训练样本中包括:没有标注隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;
利用所述训练样本集对语言表征模型进行训练。
3.根据权利要求1所述的方法,其特征在于,所述从待识别的文字信息中识别出名称类型的词语,具体包括:
对所述文字信息进行语句划分;
将划分得到的每个语句依次输入到自然语言处理工具;
将所述自然语言处理工具识别出的人名、组织名、数字字母组合字符串类型的词语,作为识别出的名称类型的词语。
4.根据权利要求3所述的方法,其特征在于,在所述将所述自然语言处理工具识别出的人名、组织名、数字字母组合字符串类型的词语,作为识别出的名称类型的词语之后,还包括:
将所述识别出的名称类型的词语存储于列表1中;
扫描所述文字信息的分词结果,保留名词词性的词语存储于列表2中;
对于列表2中的每个词语,判断其是否满足如下条件之一;如果是,则将该词语存储于列表3中;
条件一:所述词语为专有名词;
条件二:所述词语与数字货币交易常见实体列表中的实体名称之一匹配;
条件三:所述词语与知识库中的实体名称之一匹配;
将列表1和列表3去重合并后得到的列表中的各词语,作为最终识别的名称类型的词语。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称之后,还包括:
根据该实体名称对该交易地址进行标注;
获取数字货币区块链中新增的数字货币交易的交易数据;
对所述交易数据中的交易地址进行聚类;
针对聚类得到的集群,识别出所述集群中预先标注有实体名称的交易地址,并将该实体名称识别为所述集群中其它交易地址的实体名称,并根据该实体名称对所述集群以及所述集群中其它交易地址进行标注。
6.根据权利要求5所述的方法,其特征在于,在所述根据所述语言表征模型的输出确定出具有隶属关系的词语对后,将该词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称之后,还包括:对于所有识别为交易地址的实体名称进行两两检测,确定出属于同一实体的不同实体名称:
对于待检测的两个实体名称,计算两者之间的字符串相似度;
若计算的相似度大于阈值,则确定这两个实体名称属于同一实体。
7.根据权利要求6所述的方法,其特征在于,在所述针对聚类得到的集群,识别出所述集群中预先标注有实体名称的交易地址,并将该实体名称识别为所述集群中其它交易地址的实体名称,并根据该实体名称对所述集群以及所述集群中其它交易地址进行标注之后,还包括:
将标注了同一实体名称的不同集群进行关联;以及
将标注了属于同一实体不同实体名称的集群进行关联。
8.一种数字货币交易地址的实体名称识别装置,其特征在于,包括:
文字信息解析模块,用于从待识别的文字信息中识别出名称类型的词语,并利用数字货币交易地址的正则表达式从所述文字信息中识别出数字货币交易的交易地址;
关系确定模块,用于将识别出的交易地址分别与每个名称类型的词语配对后,将配对的每对词语,以及包含这对词语的语句输入到预先训练得到的语言表征模型中;根据所述语言表征模型的输出确定出具有隶属关系的词语对;
实体名称识别模块,用于将具有隶属关系的词语对中的名称类型的词语,识别为该词语对中的交易地址的实体名称。
9.根据权利要求8所述的装置,其特征在于,还包括:
模型训练模块,用于利用所述训练样本集对语言表征模型进行训练;其中,所述训练样本集中的正训练样本包括:标注为隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句;所述训练样本集中的负训练样本包括:没有标注隶属关系的交易地址和实体名称,以及包括该实体名称的语句、包括该交易地址的语句。
10.一种电子设备,包括中央处理单元、信号处理和存储单元,以及存储在信号处理和存储单元上并可在中央处理单元上运行的计算机程序,其特征在于,所述中央处理单元执行所述程序时实现如权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564485.3A CN114492383B (zh) | 2021-12-20 | 2021-12-20 | 一种数字货币交易地址的实体名称识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564485.3A CN114492383B (zh) | 2021-12-20 | 2021-12-20 | 一种数字货币交易地址的实体名称识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492383A true CN114492383A (zh) | 2022-05-13 |
CN114492383B CN114492383B (zh) | 2024-09-10 |
Family
ID=81494569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564485.3A Active CN114492383B (zh) | 2021-12-20 | 2021-12-20 | 一种数字货币交易地址的实体名称识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492383B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460551A (zh) * | 2018-10-29 | 2019-03-12 | 北京知道创宇信息技术有限公司 | 签名信息提取方法及装置 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111159408A (zh) * | 2019-12-31 | 2020-05-15 | 湖南星汉数智科技有限公司 | 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质 |
CN111475566A (zh) * | 2019-12-31 | 2020-07-31 | 众安信息技术服务有限公司 | 一种区块链资金可疑交易模式的识别方法及装置 |
WO2021043085A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN112686654A (zh) * | 2021-01-21 | 2021-04-20 | 北京工业大学 | 区块链数字货币交易的识别方法、装置、电子设备及存储介质 |
CN112749561A (zh) * | 2020-04-17 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN112784015A (zh) * | 2021-01-25 | 2021-05-11 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN112801783A (zh) * | 2020-12-31 | 2021-05-14 | 北京知帆科技有限公司 | 一种基于数字货币交易特征的实体识别方法及装置 |
CN113570464A (zh) * | 2021-09-07 | 2021-10-29 | 北京科技大学 | 一种数字货币交易社区识别方法、系统、设备及存储介质 |
-
2021
- 2021-12-20 CN CN202111564485.3A patent/CN114492383B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460551A (zh) * | 2018-10-29 | 2019-03-12 | 北京知道创宇信息技术有限公司 | 签名信息提取方法及装置 |
WO2021043085A1 (zh) * | 2019-09-04 | 2021-03-11 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
CN111159408A (zh) * | 2019-12-31 | 2020-05-15 | 湖南星汉数智科技有限公司 | 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质 |
CN111475566A (zh) * | 2019-12-31 | 2020-07-31 | 众安信息技术服务有限公司 | 一种区块链资金可疑交易模式的识别方法及装置 |
CN112749561A (zh) * | 2020-04-17 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种实体识别方法及设备 |
CN112801783A (zh) * | 2020-12-31 | 2021-05-14 | 北京知帆科技有限公司 | 一种基于数字货币交易特征的实体识别方法及装置 |
CN112686654A (zh) * | 2021-01-21 | 2021-04-20 | 北京工业大学 | 区块链数字货币交易的识别方法、装置、电子设备及存储介质 |
CN112784015A (zh) * | 2021-01-25 | 2021-05-11 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN113570464A (zh) * | 2021-09-07 | 2021-10-29 | 北京科技大学 | 一种数字货币交易社区识别方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114492383B (zh) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
US20230013306A1 (en) | Sensitive Data Classification | |
US11409642B2 (en) | Automatic parameter value resolution for API evaluation | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
EP3358476A1 (en) | Method and apparatus for constructing decision model, computer device and storage device | |
CN108885623A (zh) | 基于知识图谱的语意分析系统及方法 | |
CN109508879B (zh) | 一种风险的识别方法、装置及设备 | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN113743111A (zh) | 基于文本预训练和多任务学习的金融风险预测方法及装置 | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN110688540B (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
JP5098631B2 (ja) | メール分類システム、メール検索システム | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
CN114092948A (zh) | 一种票据识别方法、装置、设备以及存储介质 | |
CN112801784A (zh) | 一种数字货币交易所的比特币地址挖掘方法及装置 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN114492383B (zh) | 一种数字货币交易地址的实体名称识别方法和装置 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN114328884A (zh) | 一种图文去重方法及装置 | |
CN113010573A (zh) | 一种关联关系提取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |