CN112422712B - 一种分布式域名存储方法及系统 - Google Patents
一种分布式域名存储方法及系统 Download PDFInfo
- Publication number
- CN112422712B CN112422712B CN202011250147.8A CN202011250147A CN112422712B CN 112422712 B CN112422712 B CN 112422712B CN 202011250147 A CN202011250147 A CN 202011250147A CN 112422712 B CN112422712 B CN 112422712B
- Authority
- CN
- China
- Prior art keywords
- domain name
- isax
- text data
- vector
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种分布式域名存储方法及系统,包括:提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。本发明提供的分布式域名存储方法及系统,通过将域名相关的文本数据转换成特征向量,并获取与之对应的iSAX编码,以通过裂化iSAX向量空间的方式,实现域名的分布存储,实现了根据不同域的相近特征进行聚类和整合对域名进行分布式储存的目的,有效的提高了域名查询的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式域名存储方法及系统。
背景技术
域名服务器(Domain Name Server,DNS)是进行域名(domain name)和与之对应的IP地址(IP address)转换的服务器,域名服务器每天解析数十亿到上百亿条的域名请求。海量域名储存在单一服务器有一定困难,需要进行分布式储存。
由于域名长短不一,无意义词较多,IP地址不定,且域名间的相似度不好定义。故传统的基于域名结构的树形结构分类储存,存在较大的局限性,无法把不同域的相近特征进行聚类和整合。
例如,现有技术中记载了一种海量时间序列的分布式索引方法,是利用iSAX编码来归类不同数据,再利用索引进行快速查询。但该方案只是针对于时间序列,而不能对域名等文本类数据进行处理。
有鉴于此,亟需提供一种适用于域名的分布式储存方法,以根据不同域的相近特征进行聚类和整合,有效的实现域名的分布式储存。
发明内容
针对现有技术存在的问题,本发明实施例提供一种分布式域名存储方法及系统。
本发明提供一种分布式域名存储方法,包括:提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
根据本发明提供的一种分布式域名存储方法,所述提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量,包括:提取域名中所包含的所述域名文本数据;以点作为分割词,对所述域名文本数据进行分割处理,获取多个目标域名文本数据;将每个所述目标域名文本数据输入至预先构建的Bert词嵌入算法模型,获取由所述Bert词嵌入算法模型输出的目标域名特征向量;每个所述目标域名特征向量与每个所述目标域名文本数据对应。
根据本发明提供的一种分布式域名存储方法,在对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码之前,对每个所述域名特征向量进行降维处理,具体包括:基于算数平均值,将所有的目标域名特征向量均分为多个目标域名特征向量集;分别计算每个所述目标域名特征向量集中所有的目标域名特征向量的向量平均值,作为所述目标域名特征向量集的表征向量,完成对所述域名特征向量的降维处理。
根据本发明提供的一种分布式域名存储方法,所述对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码,包括:根据将浮点数空间按照遵循正态分布划分的形成的等概率区间,对所述域名特征向量进行离散符号化表示,获取与所述域名特征向量对应的iSAX编码。
根据本发明提供的一种分布式域名存储方法,所述iSAX编码是由多个SAX码元以及表示每个码元基数的数值构成。
根据本发明提供的一种分布式域名存储方法,所述根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域,包括:根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,获取多个子区域;确定每个所述子区域对应的分布存储节点,以将所述iSAX编码存储于所述分布存储节点。
根据本发明提供的一种分布式域名存储方法,所述根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,包括:
若任一目标iSAX编码所对应的域名数量所述域名数大于第一预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作;
或者,若任一目标iSAX编码所对应的域名数量与其他的iSAX编码所对应的域名数量之间的差值大于第二预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作。
本发明还提供一种分布式域名存储系统,包括:向量提取模块、向量编码模块和数据分布模块。
向量提取模块在于用于提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;
向量编码模块主要用于对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;
数据分布模块主要用于根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述分布式域名存储方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述分布式域名存储方法的步骤。
本发明提供的分布式域名存储方法及系统,通过将域名相关的文本数据转换成特征向量,并获取与之对应的iSAX编码,以通过裂化iSAX向量空间的方式,实现域名的分布存储,实现了根据不同域的相近特征进行聚类和整合对域名进行分布式储存的目的,有效的提高了域名查询的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的分布式域名存储方法的流程示意图之一;
图2是本发明提供的iSAX字符表示的流程示意图;
图3是本发明提供的分布式域名存储方法的流程示意图之二;
图4是本发明提供的iSAX编码分布于iSAX向量空间的各子区域的示意图;
图5是本发明提供的分布式域名存储系统的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明实施例所提供的分布式域名存储方法和系统。
由于现有的域名存储一般是采用划分空间和提取特征等方式进行的,但仅采用划分空间的存储方式保留了存储对象的空间信息,但基本上都是固定划分空间,实际数据的分布存储可能并不均匀,对于后期的索引而言,会导致查询效率的降低。基于特征提取的存储方式,通常无法保留存储对象的空间信息。因此,本发明实施例提供一种分布式域名存储方法能综合考虑到存储对象的域名特征和空间分布的均匀性。
图1是本发明提供的分布式域名存储方法的流程示意图之一,如图1所示,包括但不限于以下步骤:
步骤S1:提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;
步骤S2:对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;
步骤S3:根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
关于步骤S1,由于域名文本数据的长短不一,且无意义词较多,所以基于纯文字本身的相似分类非常困难。而近年来,从计算机视觉到自然语言处理再到时间序列预测,神经网络、深度学习的应用越来越广泛。基于特征向量的预训练模型应用场景越来越多,因此在本发明实施例中可以利用神经网络、深度学习来对域名文本数据进行处理,以提取每个域名文本数据的序列特征并向量化表示,生成与之对应的域名特征向量。
进一步地,在步骤S2中,本发明实施例采用可索引的符号近似聚集(indexableSymbolic Aggregate Approximation,iSAX)编码方法,对步骤S1中所所述域名特征向量进行iSAX字符表示,实现将每个域名特征向量表示为对应的iSAX编码。
其中,现有的SAX字符表示是先将某一时间序列转换成均值为0标准差为1的标准序列后,假设标准化后的序列近似服从正态分布,对标准序列使用分段聚集近似(PiecewiseAggregateApproximation,PAA)进行分割,最后根据正态分布的概率区间将PAA标识的序列离散化为符号串。本发明实施例所使用的iSAX字符表示是在SAX的基础上提出的根据数据量大小动态变化的符号化表示方法,是用基数大小标识二进制位来标记数据的密集程度。
具体地,区别现有技术所普遍采用的直接对时间序列上的域名文本数据,直接进行编码的方式,本发明实施例所提供的分布式域名存储方法,是通过对域名文本数据进行特征提取,生成域名特征向量;再利用iSAX字符表示分别对每个域名特征向量进行编码,获取对应的向量iSAX编码。
进一步地,iSAX字符表示通过将原始的浮点数空间(即iSAX向量空间)划分为遵循正态分布的区域,每个原始的浮点都可以由一个与其所属的区域相对应的字符(或少量位)来表示。由于其充分考虑了iSAX字符表示的每个字符的可变码,并因此可以构建大小适应的子区域。即本发明实施例所提出的根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域,可以视为在iSAX编码的根节点中,以每个字符的基数为1开始并通过一次将基数增加一个字符的裂变方式,来逐步执行拆分整个iSAX向量空间,可以构建平衡的各个子区域,最后,可以根据分区,把不同子区域储存在不同的分布存储节点上。
可选地,图2是本发明提供的iSAX字符表示的流程示意图,如图2所示,在浮点空间,假设设置大于5的为11码,0到5为10码,0到-5是01码,小于-5是00码。则从整体看,仅需要知道码的最高位1是大于零的(11和10都大于零),如果10和11对应的数据不多的话,可以整体看作1*(*可以为0或1)。而如果10和11对应的数据很多,可以将其继续细分为110、111、101、100。按上述思路,这样可以在构建索引的时候,使树形结构的节点数据量趋于平衡。
可选地,图3是本发明提供的分布式域名存储方法的流程示意图之二,如图3所示,整个分布式域名存储的步骤主要包括:
首先获取到待存储的所有域名数据;利用Bert词嵌入算法模型对域名数据进行特征提取,获取每个域名数据对应的域名特征向量,组成域名向量数据。然后,分别计算域名向量数据中的每个域名特征向量的iSAX编码,获取所有的向量iSAX编码。最后,依据向量iSAX编码的数据量,分割iSAX空间,以实现将iSAX编码所对应的域名文本数据的分发。
本发明实施例提供的分布式域名存储方法,通过将域名相关的文本数据转换成特征向量,并获取与之对应的iSAX编码,以通过裂化iSAX向量空间的方式,实现域名的分布存储,实现了根据不同域的相近特征进行聚类和整合对域名进行分布式储存的目的,有效的提高了域名查询的效率。
基于上述实施例的内容,作为一种可选实施例,步骤S1中所述的提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量,主要包括但不限于以下步骤:
提取域名中所包含的所述域名文本数据;
以点作为分割词,对所述域名文本数据进行分割处理,获取多个目标域名文本数据;
将每个所述目标域名文本数据输入至预先构建的Bert词嵌入算法模型,获取由所述Bert词嵌入算法模型输出的目标域名特征向量;
每个所述目标域名特征向量与每个所述目标域名文本数据对应。
域名是是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。通过DNS来将域名和IP地址相互映射,使人们更方便地访问互联网,而不用去记住能够被机器直接读取的IP地址数串。
在本发明实施例中以域名中的点作为分割词,对整个域名文本数据进行分割处理,并将分割后获取的文本数据称作目标域名文本数据。
进一步地,在本发明实施例中主要是利用预先构建的Bert词嵌入算法模型,对每个目标域名文本数据进行特征识别以及将识别后的域名特征生成一个对应的目标域名特征向量。
其中,Bert词嵌入算法模型(Bidirectional Encoder Representations fromTransformers,BERT)是通过在海量的语料的基础上,运行自监督学习方法为单词学习一个最优特征向量表示。所构建的BERT模型是一种预训练语言表示的方法,在大量文本语料(如维基百科)上训练了一个通用的“语言理解”模型。BERT模型的优点在于,其是一个用在预训练NLP上的无监督的、深度双向编码器表示,使用预训练的BERT模型来进行文本数据的特征向量化具有更好的表现。
可选的,在利用BERT模型对域名文本数据进行向量化之前,还可以收集各类型的文本数据样本作为训练样本集和验证集,对其进行预训练,以有效的提高模型的精度和鲁棒性。
本发明实施例提供的分布式域名存储方法,首先对域名文本数据进行分割处理,并利用预先构建的Bert词嵌入算法模型将域名文本数据转换成对应的特征向量表示,其有效实现了将长短不一的文本数据转换成统一的特征向量,并滤除了其中较多的无意义词的干扰,以为后期利用iSAX字符表示对其进行编码提供基础,且有效的提高了域名查询的效率。
基于上述实施例的内容,作为一种可选实施例,在对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码之前,对每个所述域名特征向量进行降维处理,具体包括:
基于算数平均值,将所有的目标域名特征向量均分为多个目标域名特征向量集;
分别计算每个所述目标域名特征向量集中所有的目标域名特征向量的向量平均值,作为所述目标域名特征向量集的表征向量,完成对所述域名特征向量的降维处理。
具体地,在本发明实施例中,采用iSAX字符表示对域名特征向量进行编码化,包括先通过将特征分成相等的部分并计算每个段的平均值,采用这种平均值表示方式,可以减少原域名特征向量的维数。
例如:可以根据自定义把域名特征向量分成相等的部分,比如整个目标域名特征向量存在100个点,可以自定义将每5个点所包含的特征向量作为1组(以下称为目标域名特征向量集),这样可以把100个点所对应的目标域名特征向量分成了20个数量相等的目标域名特征向量集。
然后,计算数量相等的目标域名特征向量集之中所有目标域名特征向量的平均值,即计算5个点的向量平均值,并以所述向量平均值来近似表示这5个点所对应的目标域名特征向量,减少数据量。算出平均值后,原来5个点对应的目标域名特征向量,现在由一个向量平均值表示,有效的实现了降维的目的。
本发明实施例提供的分布式域名存储方法,在获取域名特征向量对应的iSAX编码之前,先对其进行降维处理,有效的减少了编码的数据处理量,提高了编码的效率,也精简了后续进行分布式域名存储的难度。
基于上述实施例的内容,作为一种可选实施例,步骤S2中所述的对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码,主要包括但不限于以下步骤:
根据将浮点数空间按照遵循正态分布划分的形成的等概率区间,对所述域名特征向量进行离散符号化表示,获取与所述域名特征向量对应的iSAX编码。
在本发明实施例提供的分布式域名存储方法中,利用iSAX字符表示通过将浮点数空间划分为遵循正态分布的等概率区间,每个浮点数都可以由一个与其所属的区间相对应的离散符号(或少量位)来表示,所述离散符号即为所述域名特征向量对应的iSAX编码。
本发明实施例提供的考虑了SAX字符表示的每个字符的可变码,并因此可以构建大小适应的子区域。
进一步地,所述iSAX编码(以下称为单词)是由多个SAX码元(以下称为字符)以及表示每个码元基数的数值(以下称为数字)构成。
具体地,每个单词是由多个字符和表示字符位数的数字组成。每个单词代表域名特征向量中可用的向量数据。
其中,单词中的每个字符都带有一个表示其基数的数字(描述该字符的位数)。
图4是本发明提供的iSAX编码分布于iSAX向量空间的各子区域的示意图,如图4所示,图中单词大小为2个字符,最大基数为2位,其中每个字符具有2位完整基数,每个字符对应一个SAX编码。
例如:对于单词11012,其中包括两个字符“1”和“01”,其中字符“1”的基数为1,字符“01”的基数为2,则相当于每个不同的字符对应一个不同的iSAX编码。
作为可选地实施例,所述根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域,具体包括:
根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,获取多个子区域;
确定每个所述子区域对应的分布存储节点,以将所述iSAX编码存储于所述分布存储节点。
进一步地,如果减少每个单词中第二个字符的基数,则可以用一个iSAX编码来表示它们两个:11012。这是因为11对应于10和11,针对基数最后一位,由于该位两个码的数据太少被合并了。
本发明实施例通过在根节点中以每个字符的基数为1开始,通过一次将基数增加一个字符来逐步执行裂变操作,可以构建平衡的多个子区域。在基数少的情况下,还可以利用位掩码操作来有效地计算。
如图4所示,最后划分的子区域有4个,将每个子区域分配到1台机器上,保证了分区之间的数据基本平衡,且有效的实现了相近特征的聚类和整合。
本发明实施例提供的分布式域名存储方法,基于创建的每个iSAX编码,可以拆分整个iSAX向量空间,使得各个分区数据量保持平衡(如图4所示)。最后,我们根据分区获得的子区域,把不同子区域内的iSAX编码储存在不同的分布式节点上,以实现对于域名文本数据的分布式存储,有效的实现了根据不同域的相近特征进行聚类和整合,平均的实现域名的分布式储存。
基于上述实施例的内容,作为一种可选实施例,所述根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,包括:
若任一目标iSAX编码所对应的域名数量所述域名数大于第一预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作;
或者,若任一目标iSAX编码所对应的域名数量与其他的iSAX编码所对应的域名数量之间的差值大于第二预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作。
需要说明的是,在本发明实施例所提供的分布式域名存储方法,并不需要对每个域名均进行裂变,可以根据域名特征向量的整体数量来合理的决定裂变方向。
例如:现有100000个域名,其中30000个域名编码化后的iSAX编码为1101,70000个域名编码化后的iSAX编码为1111。
这样由于第二个字符的两个节点数据多,分布不平衡,因此需要对其进行裂变。具体地,可以将其裂变成11102和11112。
如果裂变后的两个节点一个包含的域名数为30000,另一个包含的域名数为40000。两者之间的差值小于第二阈值(假设第二阈值为15000),且总数均小于第一预设阈值(假设第一预设阈值为50000),则无需再对其进行裂变操作了。
在第一预设阈值为50000的情况下,如果裂变后的两个节点中的一个包含的域名数为1万,另一个为6万(大于第一预设阈值)。则需要对包含六万个域名的节点再次进行裂变操作为:111103和111113。
本发明实施例提供的分布式域名存储方法,依据iSAX编码的不同,裂变iSAX向量空间,把数据均衡的分布到不同的节点,保证了数据分布存储的均衡。
图5是本发明提供的分布式域名存储系统的结构示意图,如图5所示,包括但不限于向量提取模块1、向量编码模块2和数据分布模块3。其中,向量提取模块主要用于提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;向量编码模块2主要用于对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;数据分布模块3主要用于根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
具体地,本发明实施例提供的分布式域名存储系统,首先利用向量提取模块1获取到待存储的所有域名数据并利用Bert词嵌入算法模型对域名数据进行特征提取,获取每个域名数据对应的域名特征向量,组成域名向量数据。然后,利用向量编码模块2分别计算域名向量数据中的每个域名特征向量的iSAX编码,获取所有的向量iSAX编码。最后,利用数据分布模块3依据向量iSAX编码的数据量,分割iSAX空间,以实现将iSAX编码所对应的域名文本数据的分发。
本发明实施例提供的分布式域名存储系统,通过将域名相关的文本数据转换成特征向量,并获取与之对应的iSAX编码,以通过裂化iSAX向量空间的方式,实现域名的分布存储,实现了根据不同域的相近特征进行聚类和整合对域名进行分布式储存的目的,有效的提高了域名查询的效率。
需要说明的是,本发明实施例提供的分布式域名存储系统,在具体执行时,可以基于上述任一实施例所述的分布式域名存储方法来实现,对此本实施例不作赘述。
图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行分布式域名存储方法,该方法包括:提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的分布式域名存储方法,该方法包括:提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的分布式域名存储方法,该方法包括:提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种分布式域名存储方法,其特征在于,包括:
提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;
对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;
根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点;
其中,所述提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量,具体包括:
提取域名中所包含的所述域名文本数据;
以点作为分割词,对所述域名文本数据进行分割处理,获取多个目标域名文本数据;
将每个所述目标域名文本数据输入至预先构建的Bert词嵌入算法模型,获取由所述Bert词嵌入算法模型输出的目标域名特征向量;
每个所述目标域名特征向量与每个所述目标域名文本数据对应;
在对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码之前,对每个所述域名特征向量进行降维处理,具体包括:
基于算数平均值,将所有的目标域名特征向量均分为多个目标域名特征向量集;
分别计算每个所述目标域名特征向量集中所有的目标域名特征向量的向量平均值,作为所述目标域名特征向量集的表征向量,完成对所述域名特征向量的降维处理;
所述对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码,包括:
根据将浮点数空间按照遵循正态分布划分的形成的等概率区间,对所述域名特征向量进行离散符号化表示,获取与所述域名特征向量对应的iSAX编码;
所述根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域,包括:
根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,获取多个子区域;
确定每个所述子区域对应的分布存储节点,以将所述iSAX编码存储于所述分布存储节点。
2.根据权利要求1所述的分布式域名存储方法,其特征在于,所述iSAX编码是由多个SAX码元以及表示每个码元基数的数值构成。
3.根据权利要求1所述的分布式域名存储方法,其特征在于,所述根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,包括:
若任一目标iSAX编码所对应的域名数量所述域名数大于第一预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作;
或者,若任一目标iSAX编码所对应的域名数量与其他的iSAX编码所对应的域名数量之间的差值大于第二预设阈值,则对所述目标iSAX编码对应的iSAX向量空间进行裂变操作。
4.一种分布式域名存储系统,其特征在于,包括:
向量提取模块,用于提取域名文本数据,并获取所述域名文本数据所对应的域名特征向量;
向量编码模块,用于对所述域名特征向量进行iSAX字符表示,获取对应的iSAX编码;
数据分布模块,用于根据所述iSAX编码将所述域名文本数据分布于iSAX向量空间的一个子区域;每个所述子区域对应一个分布存储节点;
其中,所述向量提取模块还用于:
提取域名中所包含的所述域名文本数据;
以点作为分割词,对所述域名文本数据进行分割处理,获取多个目标域名文本数据;
将每个所述目标域名文本数据输入至预先构建的Bert词嵌入算法模型,获取由所述Bert词嵌入算法模型输出的目标域名特征向量;
每个所述目标域名特征向量与每个所述目标域名文本数据对应;
所述向量编码模块还用于:
根据将浮点数空间按照遵循正态分布划分的形成的等概率区间,对所述域名特征向量进行离散符号化表示,获取与所述域名特征向量对应的iSAX编码;
所述数据分布模块还用于:
根据所有域名文本数据对应的所述iSAX编码所对应的域名数量,对所述iSAX向量空间进行裂变操作,获取多个子区域;
确定每个所述子区域对应的分布存储节点,以将所述iSAX编码存储于所述分布存储节点;
所述分布式域名存储系统,还用于对每个所述域名特征向量进行降维处理,具体包括:
基于算数平均值,将所有的目标域名特征向量均分为多个目标域名特征向量集;
分别计算每个所述目标域名特征向量集中所有的目标域名特征向量的向量平均值,作为所述目标域名特征向量集的表征向量,完成对所述域名特征向量的降维处理。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述分布式域名存储方法步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述分布式域名存储方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250147.8A CN112422712B (zh) | 2020-11-10 | 2020-11-10 | 一种分布式域名存储方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011250147.8A CN112422712B (zh) | 2020-11-10 | 2020-11-10 | 一种分布式域名存储方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112422712A CN112422712A (zh) | 2021-02-26 |
CN112422712B true CN112422712B (zh) | 2023-05-23 |
Family
ID=74782319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011250147.8A Active CN112422712B (zh) | 2020-11-10 | 2020-11-10 | 一种分布式域名存储方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112422712B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
CN108319678A (zh) * | 2018-01-30 | 2018-07-24 | 复旦大学 | 一种海量时间序列的分布式索引方法 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
-
2020
- 2020-11-10 CN CN202011250147.8A patent/CN112422712B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104486461A (zh) * | 2014-12-29 | 2015-04-01 | 北京奇虎科技有限公司 | 域名分类方法和装置、域名识别方法和系统 |
CN108319678A (zh) * | 2018-01-30 | 2018-07-24 | 复旦大学 | 一种海量时间序列的分布式索引方法 |
CN111680511A (zh) * | 2020-04-21 | 2020-09-18 | 华东师范大学 | 一种多神经网络协作的军事领域命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
"MTSAX:一种新的多元轨迹索引方法";王飞,庞悦,周向东,陈海波;《计算机工程》;20180531;第44卷(第5期);全文 * |
"基于SAX的时间序列相似性度量方法";李桂玲,王元珍,杨林权,吴湘宁;《计算机应用研究》;20120331;第29卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112422712A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108416058A (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN107832458A (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN113315789B (zh) | 一种基于多级联合网络的Web攻击检测方法及系统 | |
JP2013206193A (ja) | 情報変換プログラム、情報変換装置および情報変換方法 | |
CN115344693B (zh) | 一种基于传统算法和神经网络算法融合的聚类方法 | |
CN112395425A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN114492429A (zh) | 文本主题的生成方法、装置、设备及存储介质 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN115982144A (zh) | 相似文本去重方法、装置、存储介质及电子装置 | |
CN112422712B (zh) | 一种分布式域名存储方法及系统 | |
CN117235137A (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116956954A (zh) | 文本翻译方法、装置、电子设备及存储介质 | |
CN112953914A (zh) | 一种dga域名检测分类方法及装置 | |
CN113505231B (zh) | 开放层次结构关系的发现方法、装置和电子设备 | |
CN115204146B (zh) | 关键词抽取方法、装置、计算机设备及存储介质 | |
CN112256838B (zh) | 相似域名查找方法、装置及电子设备 | |
CN116150379B (zh) | 短信文本分类方法、装置、电子设备及存储介质 | |
CN115688771B (zh) | 一种文书内容比对性能提升方法及系统 | |
CN111476037B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN108073939A (zh) | 一种数据聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |