CN116186154A - 数据同步方法及装置 - Google Patents
数据同步方法及装置 Download PDFInfo
- Publication number
- CN116186154A CN116186154A CN202211680677.5A CN202211680677A CN116186154A CN 116186154 A CN116186154 A CN 116186154A CN 202211680677 A CN202211680677 A CN 202211680677A CN 116186154 A CN116186154 A CN 116186154A
- Authority
- CN
- China
- Prior art keywords
- data
- group
- synchronized
- priority
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000001360 synchronised effect Effects 0.000 claims abstract description 310
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000004590 computer program Methods 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Synchronisation In Digital Transmission Systems (AREA)
Abstract
本申请涉及一种数据同步方法及装置。属于计算机技术领域,所述方法包括:通过高频词汇库,确定获取的各组待同步数据对应的特征数据,并根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。本方法提高了具有优先级的待同步数据写入速率,缩小了具有优先级的数据写入ElasticSearch的速率与数据从数据源读的速率的差距,进而提高了具有优先级的待同步数据的同步效率,可满足时效性较高场景的要求。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据同步方法及装置。
背景技术
ElasticSearch是一个实时的分布式存储、搜索、分析的引擎,可应用于文本检索和日志分析等搜索场景。
目前随着ElasticSearch搜索引擎的快速发展,在海量数据场景下,数据从数据源读的速率和数据写入ElasticSearch的速率是不对称的,数据写入ElasticSearch的速率远小于数据从数据源读的速率,无法满足时效性较高的场景的要求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据写入速率的数据同步方法及装置。
第一方面,本申请提供了一种数据同步方法。该方法包括:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
在其中一个实施例中,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:
通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
在其中一个实施例中,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:
根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
在其中一个实施例中,根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:
对各组待同步数据进行压缩处理,得到各组压缩数据;
根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;
对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
在其中一个实施例中,根据高频词汇库,确定各组待同步数据对应的特征数据,包括:
根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
在其中一个实施例中,该方法,还包括:
对历史同步数据进行分词处理,得到切分词汇;
对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或清洗处理;
根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇;
根据所述高频词汇,构建高频词汇库。
第二方面,本申请还提供了一种数据同步装置。该装置包括:
获取模块,用于获取至少一组待同步数据;
第一确定模块,用于根据高频词汇库,确定各组待同步数据对应的特征数据;
第二确定模块,用于根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
划分模块,用于根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
上述数据同步方法及装置,通过高频词汇库,确定获取的各组待同步数据对应的特征数据,并根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。本申请通过高频词汇库,确定各组待同步数据对应的特征数据,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,通过两个队列,同时对具有优先级和不具有优先级的待同步数据同时进行数据同步处理,提高了数据写入ElasticSearch的速率,此外,由于本方案对于具有优先级的待同步数据,采用专门的队列进行数据写入,极大地提高了具有优先级的待同步数据写入速率,缩小了具有优先级的数据写入ElasticSearch的速率与数据从数据源读的速率的差距,进而也提高了具有优先级的待同步数据的同步效率,可满足时效性较高场景的要求。
附图说明
图1为本实施例提供的数据同步方法的应用环境图;
图2为本实施例提供的第一种数据同步方法的流程示意图;
图3为本实施例提供的对各组序列化同步结果进行数据同步处理的流程示意图;
图4为本实施例提供的得到各组序列化同步结果的流程示意图;
图5为本实施例提供的第二种数据同步方法的流程示意图;
图6为本实施例提供的第三种数据同步方法的流程示意图;
图7为本实施例提供的第一种数据同步装置的结构框图;
图8为本实施例提供的第二种数据同步装置的结构框图;
图9为本实施例提供的第三种数据同步装置的结构框图;
图10为本实施例提供的计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据同步方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。具体的,用户可通过终端102输入待同步数据,服务器104从终端102以抓取的形式获取各组待同步数据,服务器104通过高频词汇库,确定获取的各组待同步数据对应的特征数据,并根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等智能设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在其中一个实施例中,提供了一种数据同步方法,该方法适用于将待同步数据写入至搜索引擎的场景,以该方法应用于图1中的服务器为例进行说明,如图2所示,包括以下步骤:
S201,获取至少一组待同步数据。
其中,待同步数据是指需要写入到搜索引擎(例如ElasticSearch搜索引擎),以供后续进行搜索的数据。
可选的,本实施例中可通过从数据库中以数据抓取形式或用户上传的形式,获取至少一组待同步数据。
S202,根据高频词汇库,确定各组待同步数据对应的特征数据。
其中,高频词汇库是指用于存储出现频次较高的词汇的数据库;特征数据是指基于高频词汇库确定的,且用于确定各组待同步数据的优先级的数据。
本实施例一种可选的实施方式为:对各组待同步数据进行分词处理和预处理,得到切分词汇,将各组待同步数据的切分词汇与高频词汇库中的各高频词汇进行匹配,将匹配成功的切分词汇作为特征数据,进而确定各组待同步数据对应的特征数据。其中,分词处理可利用ansj分词器对各组待同步数据进行分词处理;预处理包括清洗和/或去重处理,清洗处理主要去除各组待同步数据的特殊字符及首位空格;去重处理是去除长尾词、地市开头、公司、有限公司等结尾的高频词汇。
本实施例另一种可选的实施方式为:根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。可选的,提取每组待同步数据的词向量,根据词向量在高频词汇库中出现的次数,作为特征数据,进而确定各组待同步数据对应的特征数据。
S203,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
若本实施例的特征数据为与高频词汇库中各高频词汇匹配成功的切分词汇,本实施例一种可选的实施方式为:判断各组待同步数据中是否存在特征数据,进而确定各组待同步数据对应的优先级。例如,若存在特征数据,则确定该组待同步数据具有优先级,可享受优先级;若不存在特征数据,则确定该组待同步数据不具有优先级,不可享受优先级。
若本实施例是以提取每组待同步数据的词向量,根据词向量在高频词汇库中出现的次数,作为特征数据,则本实施例一种可选的实施方式为:将各组待同步数据对应的特征数据,输入至预先训练好的优先级确定模型,由优先级确定模型确定各组待同步数据对应的优先级。本实施例另一种可选的实施方式为:将各组待同步数据对应的特征数据,与享受优先级的特征数据进行相似度匹配,根据相似度匹配结果,确定各组待同步数据对应的优先级。例如,若相似度匹配结果高于预设相似度阈值,则确定该组待同步数据具有优先级,可享受优先级;若相似度匹配结果低于预设相似度阈值,则确定该组待同步数据不具有优先级,不可享受优先级。其中,相似度匹配结果可通过计算各组待同步数据对应的特征数据与享受优先级的特征数据之间的距离得到。
可选的,本实施例中的优先级确定模型可通过Knn模型训练得到,Knn模型训练时的训练集包括优先训练集和正常训练集,可通过预设时段(例如过去两周)内搜索和/或点击的各公司数据确定优先训练集和正常训练集,可选的,根据搜索和/或点击超过预设次数(例如50次)的公司数据确定优先训练集,根据未超过预设次数(例如50次)的公司数据确定正常训练集;具体如下:以各公司数据提取1001维度的词向量,首位用于确定优先级,以0或1表示,后面1000词向量表示高频词汇库中各高频词汇在每家公司数据中出现的次数,形成训练特征数据,其中,搜索和/或点击超过预设次数的公司数据对应的训练特征数据的首位用1表示,作为优先特征数据,保存至优先训练集;搜索和/或点击未超过预设次数的公司数据对应的训练特征数据的首位用0表示,作为正常特征数据,保存至正常训练集,基于优先训练集和正常训练集对Knn模型进行训练,得到优先级确定模型。
S204,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
其中,队列是指将待同步数据写入至搜索引擎的队列;需要说明的是,本实施例的队列包括优选队列和正常队列两种,其中,优先队列是用于存储具有优先级的待同步数据,正常队列是用于存储不具有优先级的待同步数据。
可选的,本实施例中先确定各组待同步数据对应的优先级,对享有优先级的各组待同步数据按照数据获取顺序写入到优先队列中,对不享有优先级的各组待同步数据按照数据获取顺序写入到正常队列中,并同时对各队列中的待同步数据进行数据同步处理。其中,本实施例中的优先队列也可再划分优先层次,例如一级优先队列,二级优先队列等,一级优先队列相较于二级优先队列,优先级更高。
本实施例的数据同步方法,通过高频词汇库,确定获取的各组待同步数据对应的特征数据,并根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。本申请通过高频词汇库,确定各组待同步数据对应的特征数据,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,通过两个队列,同时对具有优先级和不具有优先级的待同步数据同时进行数据同步处理,提高了数据写入ElasticSearch的速率,此外,由于本方案对于具有优先级的待同步数据,采用专门的队列进行数据写入,极大地提高了具有优先级的待同步数据写入速率,缩小了具有优先级的数据写入ElasticSearch的速率与数据从数据源读的速率的差距,进而也提高了具有优先级的待同步数据的同步效率,可满足时效性较高场景的要求。
在其中一个实施例中,为了加快数据同步速率,如图3所示,S204的一种可选实施方式,包括:
S301,根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果。
其中,序列化处理是指采用序列化技术对各组待同步数据进行处理,使各组待同步数据使用“零拷贝”技术写入到对应的队列;序列化同步结果是指对各组待同步数据进行序列化处理后得到的结果。
可选的,本实施例中根据各组待同步数据对应的优先级,对各组待同步数据通过protocol buffer编码对数进行了序列化处理,得到各组序列化同步结果。
S302,将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
本实施例一种可选的实施方式为:将各组序列化同步结果划分到至少两个队列中,控制各队列同步工作,将各队列的各组序列化同步结果同步写入到搜索引擎,进行数据同步处理。
本实施例另一种可选的实施方式为:将各组序列化同步结果划分到至少两个队列中,向下游的搜索引擎发送拉取命令,以使下游的搜索引擎同时从各队列中拉取各组序列化同步结果进行数据同步处理。
本实施例采用序列化技术对各组待同步数据进行序列化处理,使各组待同步数据以“零拷贝”技术写入各队列,提高了数据写入速率,进而提高了数据同步效率。
在其中一个实施例中,为了进一步提高各组待同步数据的数据同步效率,如图4所示,S301一种可选的实施方式,包括:
S401,对各组待同步数据进行压缩处理,得到各组压缩数据。
其中,压缩处理是指在不丢失有用信息的前提下,缩减数据量以减少存储空间;压缩数据是指各组待同步数据经过压缩处理后得到的数据。
可选的,本实施例中可利用GZIP压缩技术对各组待同步数据进行压缩处理,得到各组压缩数据。
S402,根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签。
其中,优先级标签是指根据各组待同步数据对应的优先级,为各组待同步数据添加的相应的标签。
本实施例一种可选的实施方式为:根据各组待同步数据对应的优先级,确定各组压缩数据对应的优先级标签,利用标签添加技术为各组压缩数据添加对应的优先级标签。
本实施例另一种可选的实施方式为:将各组待同步数据及各组待同步数据对应的优先级,输入至神经网络模型,有神经网络模型为各组压缩数据添加优先级标签。
S403,对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
需要说明的是,对添加有优先级标签的各组压缩数据进行序列化处理的过程,在上述实施例中已经进行了详细说明,在此不再赘述。
本实施例通过对各组待同步数据进行压缩处理,得到各组压缩数据,根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签,再对添加有优先级标签的各组压缩数据进行序列化处理,不仅提升了数据同步效率,也保证了各组待同步数据同步时的完整性。
在其中一个实施例中,为了构建高频词汇库,如图5所示,本实施例中一种数据同步方法可选的实施方式为:
S501,对历史同步数据进行分词处理,得到切分词汇。
其中,切分词汇是指对历史同步数据进行分词处理后,得到的词汇。
可选的,本实施例中可利用但不限于ansj分词器对历史同步数据进行分词处理,得到切分词汇。
S502,对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或清洗处理。
其中,筛选词汇是指对切分词汇进行预处理后,得到的词汇。
本实施例一种可选的实施方式为:将切分词汇输入至预处理模型,由预处理模型对切分词汇进行预处理,得到筛选词汇;其中,预处理模型对切分词汇执行去重和/或清洗等预处理操作。
本实施例另一种可选的实施方式为:对切分词汇分别进行去重和清洗处理,得到筛选词汇。
本实施例中的清洗处理主要清洗切分词汇的特殊字符和首尾空格。去重处理主要是去除长尾词、地市开头、公司、有限公司等结尾的高频词汇。
S503,根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇。
其中,高频词汇是指高频率出现的词汇。
可选的,本实施例中根据筛选词汇在历史同步数据中出现的频次,对筛选词汇进行排序,将排序靠前(例如前1000)的筛选词汇,确定为高频词汇。
S504,根据所述高频词汇,构建高频词汇库。
S505,获取至少一组待同步数据。
S506,根据高频词汇库,确定各组待同步数据对应的特征数据。
S507,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
S508,根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
本实施例中通过对历史同步数据进行分词处理和预处理得到筛选词汇,再基于筛选词汇出现的频次,确定高频词汇,根据高频词汇建立高频词汇库,为确定各组待同步数据的优先级,提供了判断依据。
在其中一个实施例中,如图6所示,本实施例中一种数据同步方法可选的实施方式为:
S601,对历史同步数据进行分词处理,得到切分词汇。
S602,对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或筛选处理。
S603,根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇。
S604,根据所述高频词汇,构建高频词汇库。
S605,获取至少一组待同步数据。
S606,根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
S607,通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
S608,对各组待同步数据进行压缩处理,得到各组压缩数据。
S609,根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签。
S6010,对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
S6011,将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
本实施例通过高频词汇库,确定各组待同步数据对应的特征数据,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,通过两个队列,同时对具有优先级和不具有优先级的待同步数据同时进行数据同步处理,提高了数据写入ElasticSearch的速率,此外,由于本方案对于具有优先级的待同步数据,采用专门的队列进行数据写入,极大地提高了具有优先级的待同步数据写入速率,缩小了具有优先级的数据写入ElasticSearch的速率与数据从数据源读的速率的差距,进而也提高了具有优先级的待同步数据的同步效率,可满足时效性较高场景的要求。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据同步方法的数据同步装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据同步装置实施例中的具体限定可以参见上文中对于数据同步方法的限定,在此不再赘述。
在其中一个实施例中,如图7所示,提供了一种数据同步装置1,包括:获取模块10、第一确定模块20、第二确定模块30和划分模块40,其中:
获取模块10,用于获取至少一组待同步数据;
第一确定模块20,用于根据高频词汇库,确定各组待同步数据对应的特征数据;
第二确定模块30,用于根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
划分模块40,用于根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
在其中一个实施例中,如图7所示,上图7中的第二确定模块30具体用于:通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
在其中一个实施例中,在图7的基础上,如图8所示,上图7中的划分模块40进一步包括:
序列化单元401,用于根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
划分单元402,用于将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
在其中一个实施例中,如图8所示,上图8中的序列化单元401,具体用于:对各组待同步数据进行压缩处理,得到各组压缩数据;根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
在其中一个实施例中,如图7所示,上图7中的第一确定模块20,具体用于:根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
在其中一个实施例中,在图7的基础上,如图9所示,上图7中的数据同步装置1,还包括:
分词模块50,用于对历史同步数据进行分词处理,得到切分词汇;
预处理模块60,用于对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或筛选处理;
排序模块70,用于根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇;
构建模块80,用于根据所述高频词汇,构建高频词汇库。
上述数据同步装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待同步数据和历史同步数据等相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据同步方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:
通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:
根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:
对各组待同步数据进行压缩处理,得到各组压缩数据;
根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;
对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据高频词汇库,确定各组待同步数据对应的特征数据,包括:
根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:该方法,还包括:
对历史同步数据进行分词处理,得到切分词汇;
对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或筛选处理;
根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇;
根据所述高频词汇,构建高频词汇库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:
通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:
根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:
对各组待同步数据进行压缩处理,得到各组压缩数据;
根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;
对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据高频词汇库,确定各组待同步数据对应的特征数据,包括:
根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:该方法,还包括:
对历史同步数据进行分词处理,得到切分词汇;
对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或筛选处理;
根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇;
根据所述高频词汇,构建高频词汇库。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:
通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:
根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:
对各组待同步数据进行压缩处理,得到各组压缩数据;
根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;
对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据高频词汇库,确定各组待同步数据对应的特征数据,包括:
根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤,该方法,还包括:
对历史同步数据进行分词处理,得到切分词汇;
对切分词汇进行预处理,得到筛选词汇;其中预处理包括去重和/或筛选处理;
根据筛选词汇在历史同步数据中出现的频次,从筛选词汇中确定高频词汇;
根据所述高频词汇,构建高频词汇库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据同步方法,其特征在于,所述方法包括:
获取至少一组待同步数据;
根据高频词汇库,确定各组待同步数据对应的特征数据;
根据所述各组待同步数据对应的特征数据,确定所述各组待同步数据对应的优先级;
根据所述各组待同步数据对应的优先级,将所述各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
2.根据权利要求1所述的方法,其特征在于,所述根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级,包括:
通过优先级确定模型,根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级。
3.根据权利要求1所述的方法,其特征在于,所述根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理,包括:
根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果;
将各组序列化同步结果划分到至少两个队列中,并同时对各队列中的各组序列化同步结果进行数据同步处理。
4.根据权利要求3所述的方法,其特征在于,所述根据各组待同步数据对应的优先级,对各组待同步数据进行序列化处理,得到各组序列化同步结果,包括:
对各组待同步数据进行压缩处理,得到各组压缩数据;
根据各组待同步数据对应的优先级,为各组压缩数据添加优先级标签;
对添加有优先级标签的各组压缩数据进行序列化处理,得到各组序列化同步结果。
5.根据权利要求1所述的方法,其特征在于,所述根据高频词汇库,确定各组待同步数据对应的特征数据,包括:
根据高频词汇库中各高频词汇在每组待同步数据中出现的次数,确定每组待同步数据对应的特征数据。
6.根据权利要求1所述的方法,其特征在于,所述的方法,还包括:
对历史同步数据进行分词处理,得到切分词汇;
对所述切分词汇进行预处理,得到筛选词汇;其中所述预处理包括去重和/或清洗处理;
根据所述筛选词汇在所述历史同步数据中出现的频次,从所述筛选词汇中确定高频词汇;
根据所述高频词汇,构建高频词汇库。
7.一种数据同步装置,其特征在于,包括:
获取模块,用于获取至少一组待同步数据;
第一确定模块,用于根据高频词汇库,确定各组待同步数据对应的特征数据;
第二确定模块,用于根据各组待同步数据对应的特征数据,确定各组待同步数据对应的优先级;
划分模块,用于根据各组待同步数据对应的优先级,将各组待同步数据划分到至少两个队列中,并同时对各队列中的待同步数据进行数据同步处理。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的数据同步方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据同步方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据同步方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211680677.5A CN116186154A (zh) | 2022-12-27 | 2022-12-27 | 数据同步方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211680677.5A CN116186154A (zh) | 2022-12-27 | 2022-12-27 | 数据同步方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186154A true CN116186154A (zh) | 2023-05-30 |
Family
ID=86437536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211680677.5A Pending CN116186154A (zh) | 2022-12-27 | 2022-12-27 | 数据同步方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186154A (zh) |
-
2022
- 2022-12-27 CN CN202211680677.5A patent/CN116186154A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | 1xn pattern for pruning convolutional neural networks | |
CN107423376B (zh) | 一种有监督深度哈希快速图片检索方法及系统 | |
CN106852185A (zh) | 基于字典的并行压缩编码器 | |
CN110610510B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
EP4154185A2 (en) | Modeling dependencies with global self-attention neural networks | |
US10438092B2 (en) | Systems and methods for converting massive point cloud datasets to a hierarchical storage format | |
CN110941598A (zh) | 一种数据去重方法、装置、终端及存储介质 | |
CN109165307B (zh) | 一种特征检索方法、装置和存储介质 | |
US20230123941A1 (en) | Multiscale Quantization for Fast Similarity Search | |
CN106778079A (zh) | 一种基于MapReduce的DNA序列k‑mer频次统计方法 | |
CN108572789A (zh) | 磁盘存储方法和装置、消息推送方法和装置及电子设备 | |
CN109901978A (zh) | 一种Hadoop日志无损压缩方法和系统 | |
CN113032621B (zh) | 数据采样方法、装置、计算机设备和存储介质 | |
CN117332766A (zh) | 流程图生成方法、装置、计算机设备和存储介质 | |
CN109213972A (zh) | 确定文档相似度的方法、装置、设备和计算机存储介质 | |
CN116186154A (zh) | 数据同步方法及装置 | |
CN112148872B (zh) | 自然对话主题分析方法、装置、电子设备和存储介质 | |
CN110941730A (zh) | 基于人脸特征数据偏移的检索方法与装置 | |
Zhou et al. | LGBM‐CBFS: A Heuristic Feature Sampling Method Based on Tree Ensembles | |
CN110895573A (zh) | 一种检索方法和装置 | |
Beffel | The application of the expectation maximization algorithm onto big data | |
CN116012918A (zh) | 一种人脸识别模型的训练方法、装置及存储介质 | |
CN117389960A (zh) | 文件解析方法、装置、设备、存储介质和程序产品 | |
CN117133076A (zh) | 排队方法、装置、计算机设备和存储介质 | |
CN117473975A (zh) | 地址资源匹配方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000 Applicant after: Qichacha Technology Co.,Ltd. Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province Applicant before: Qicha Technology Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information |