CN116244488A - 一种目标数据识别方法及识别装置 - Google Patents
一种目标数据识别方法及识别装置 Download PDFInfo
- Publication number
- CN116244488A CN116244488A CN202211544718.8A CN202211544718A CN116244488A CN 116244488 A CN116244488 A CN 116244488A CN 202211544718 A CN202211544718 A CN 202211544718A CN 116244488 A CN116244488 A CN 116244488A
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- segment
- window
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000001360 synchronised effect Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 17
- 239000012634 fragment Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种目标数据识别方法及识别装置,所述方法包括:获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对比对数据进行分段以获取分段后的数据段;以并行方式对各数据段按照预设窗口长度进行遍历以计算预存历史存储数据中的数据列表;分别对各窗口内的所有权重值进行筛选处理以获取各所述窗口对应的权重值,并根据权重值识别各窗口内的目标数据。本发明实施例的技术方案通过根据预设识别条件对比对数据进行分段得到数据段,进而分别对数据段进行并行处理能够加快目标数据的识别效率,进而避免目标数据识别效率低造成的限制目标数据识别速度的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种目标数据识别方法及识别装置。
背景技术
在互联网海量数据搜索的过程中往往需要耗费大量的时间,并浏览或检索海量信息后才能对所需搜索的目标数据给出一个相关的搜索结果,导致搜索的数据中仍具有很多与目标数据不相关联的数据,导致目标数据有效信息搜集的效果差异较大。
出现上述这种情况的出现很大程度上是由于互联网海量数据中各数据之间的数据查询的关键词接近。为了能够更好的针对不同数据进行识别,需要提供一种如何在海量的历史存储数据中进行目标数据识别,从而避免出现目标数据识别速度慢,耗时较高的问题。
发明内容
本发明的目的在于提供一种目标数据识别方法及识别装置,进而至少在一定程度上克服目标数据识别速度较慢,耗时较高的问题,以提高识别效率和提高识别质量。
为实现上述目的,本发明提供了以下技术方案:
根据本发明的第一方面,提供了一种目标数据识别方法,包括:
获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据;
根据预设识别条件对所述比对数据进行分段以获取分段后的数据段;
以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;
分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
在本发明的进一步方案中,所述预设识别条件为所述用户终端输入的识别条件,根据识别条件处理比对数据,进行分段以获取分段后的数据段,将根据各个所述数据段建立预设窗口进行同步分析。
在本发明的进一步方案中,所述预设识别条件包括数据链条件和预设分段数据点。
在本发明的进一步方案中,所述根据预设识别条件对所述比对数据进行分段以获取分段后的数据段,包括:
根据预存历史存储数据所在的数据链对所述比对数据进行划分得到各数据链对应的数据区块段数据;
根据预设分段数据点对各所述数据区块段数据分段以获取至少一个数据段。
在本发明的进一步方案中,所述预设分段数据点包括预设分段长度或预设分段数量。
在本发明的进一步方案中,对各所述数据段按照预设窗口长度进行遍历以计算所述预存历史存储数据中的数据列表,包括:
通过预设工具在各所述数据段对应的预存历史存储数据中查找被待识别数据覆盖的首个数据点;
从各所述数据段对应的所述首个数据点开始,以预设窗口长度遍历各所述数据段以计算各所述数据点对应的权重值。
在本发明的进一步方案中,所述计算各所述数据点对应的权重值,包括:
计算各所述数据点上覆盖的所有所述待识别数据与预存历史存储数据相似度;
计算各所述数据点对应相似度的平均值,并将所述平均值配置为各所述数据点为激活点的权重值。
在本发明的进一步方案中,所述分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据,包括:
分别对各所述窗口内的所有所述权重值并行执行筛选处理,以获取符合预设权重阈值的所述窗口对应的目标数据。
在本发明的进一步方案中,所述权重值的获取包括:将当前并行方式读取的各所述数据段作为输入数据带入权重值计算模型,以输出当前各所述数据段中每个所述数据段对应的权重值。
在本发明的进一步方案中,所述目标数据识别方法,还包括根据所述权重值判断各所述窗口内是否存在目标数据,包括:
在各所述窗口对应的数据段中识别的权重值大于预设阈值的连续区域,并将所述连续区域配置为所述窗口中的目标数据;其中,所述连续区域包括连续至少预设数量的数据点对应的权重值。
在本发明的进一步方案中,所述以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表通过矩阵阵列分布方式输入进行并行实现。
根据本发明的第二方面,提供了一种目标数据识别装置,包括:
数据分段模块,用于获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段;
权重计算模块,用于以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;
目标数据识别模块,用于分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据,并根据所述权重值判断各所述窗口内是否存在目标数据。
在本发明的进一步方案中,所述目标数据识别模块包括:
筛选单元,用于分别对各所述窗口内的所有所述权重值并行执行筛选处理,以获取符合预设权重阈值的所述窗口对应的目标数据。
根据本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的目标数据识别方法。
根据本发明实施例的第四方面,提供了一种电子设备,包括:
处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的目标数据识别方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明的一种实施例所提供的目标数据识别方法中,首先获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段,随后以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;最后分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
本发明实施例提供的技术方案通过根据预设识别条件对比对数据进行分段得到数据段,进而分别对数据段进行并行处理能够加快目标数据的识别效率,进而避免目标数据识别效率低造成的限制目标数据识别速度的问题。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。在附图中:
图1示意性示出本发明示例性实施例中一种目标数据识别方法的流程图;
图2示意性示出本发明示例性实施例中一种目标数据识别方法中各个步骤的流程图;
图3示意性示出本发明示例性实施例中根据预设识别条件对所述比对数据进行分段以获取分段后的数据段的方法的流程图;
图4示意性示出本发明示例性实施例中对各所述数据段按照预设窗口长度进行遍历以计算所述预存历史存储数据中的数据列表的方法的流程图;
图5示意性示出本发明示例性实施例中计算各所述数据点对应的权重值的方法的流程图;
图6示意性示出本发明示例性实施例中一种目标数据识别装置的组成示意图;
图7示意性示出了适于用来实现本发明示例性实施例的电子设备的计算机系统的结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
由于目前数据的搜索及识别目标数据的计算过程中,只能通过单线程对待识别数据进行遍历识别目标数据,而后续步骤需要基于识别目标数据的结果进行,因此识别目标数据的步骤成为目前进行目标数据识别的限速步骤。基于上述原因,本申请的实施例提供了一种目标数据识别方法和识别装置,可以通过提高目标数据的识别速度进而提高目标数据识别速度。
在一些实施方式中,目标数据识别方法可以应用在计算机设备,该计算机设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备,当然也不限于此。
请参照图1,图1为本申请目标数据识别方法的流程示意图。本申请的实施例中,所述目标数据识别方法,可以应用于对历史存储数据的目标数据识别过程中,该方法包括以下步骤S10-步骤S30:
步骤S10,获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段。
步骤S20,以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表。
步骤S30,分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
根据本示例性实施例中所提供的目标数据识别方法中,通过根据预设识别条件对比对数据进行分段得到数据段,进而分别对数据段进行并行处理能够加快目标数据的识别效率,进而避免目标数据识别效率低造成的限制目标数据识别速度的问题。
下面,参见图2所示,将结合附图及实施例对本示例性实施例中的目标数据识别方法的各个步骤进行更详细的说明。
步骤S110,获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段。
在本发明的一种示例实施例中,在进行目标数据识别的过程中,识别目标数据所需的数据为待识别数据与预存历史存储数据的比对数据,其中所述比对数据为将待识别数据覆盖至预存历史存储数据中匹配的部分所产生的数据,其中,所述覆盖仅为将其覆盖在预存历史存储数据,并不替代预存历史存储数据中匹配的部分。通过这种比对数据,能够将待识别数据与预存历史存储数据中匹配的部分对应起来,进而便于进行进一步计算识别待识别数据中的目标数据。
在本发明的一种示例实施例中,所述预存历史存储数据可以包括各终端设备及服务器中已知的历史存储数据。所述待识别数据为将需要测试的历史存储数据随机打断得到多个的测试数据片段,因此待识别数据的数量也为多个。同时,为了提高对测试数据片段的搜索和识别能力,可以通过扩增技术将测试数据片段进行扩增,并将扩增后的测试数据片段作为待识别数据。
在本发明的一种示例实施例中,所述预设识别条件包括数据链条件和预设分段数据点,此时,所述根据预设识别条件对所述比对数据进行分段以获取分段后的数据段,参照图3所示,可以包括步骤S210至步骤S220:
步骤S210,根据预存历史存储数据所在的数据链对所述比对数据进行划分得到各数据链对应的数据区块段数据。
在本发明的一种示例实施例中,预设历史数据可以包括多个数据链的数据,可以先根据预设历史数据所在的数据链将比对数据划分为各数据链对应的数据区块段数据。
步骤S220,根据预设分段数据点对各所述数据区块段数据分段以获取至少一个数据段。
在本发明的一种示例实施例中,所述预设分段数据点包括预设分段长度或预设分段数量。由于各个数据链对应的数据区块段数据仍然有可能很长,因此可以通过设置预设分段长度或者预设分段数量,将各数据链对应的数据区块段数据划分为至少一个数据段。具体的,所述预设分段长度和预设数量可以根据预存历史存储数据所属终端设备进行设置,亦可以根据用户的需求进行设置,本发明对此不做特殊限制。例如,预设分段长度为100个字符,则将数据区块段数据每100个字符划分为一个数据段;再如,预设分段数量为10,则将数据区块段数据平均分段为10个数据段。
在本发明的一种示例实施例中,在预设历史数据包括多个数据链的数据时,对数据链进行分段处理的步骤也可以通过矩阵阵列分布方式输入进行服务器计算并行实现。具体的,可以所有数据链输入服务器计算,针对每个数据链并行执行分段处理的步骤。
步骤S120,以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表。
在本发明的一种示例实施例中,预设窗口长度可以根据目标数据识别的需求进行设置,也可以与目标数据识别系统的窗口长度设置保持一致。具体的,可以设置为50个字符。
在本发明的一种示例实施例中,所述以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表可以通过服务器计算并行实现。具体的,通过步骤S110对比对数据进行分段得到数据段之后,将分段数据输入服务器计算,并行执行遍历计算。此外,也可以使用其他方式实现并行遍历,本发明对此不做特殊限定。通过并行的方式同时对各个数据段进行遍历,避免了单线程对待识别数据进行遍历的步骤,提高了遍历对比数据识别目标数据的速度,避免应识别速度较慢造成的限制目标数据识别速度的问题。
进一步的,参照图4所示,所述对各所述数据段按照预设窗口长度进行遍历以计算所述预存历史存储数据中的数据列表,包括如下步骤S310至步骤S320:
步骤S310,通过预设工具在各所述数据段对应的预存历史存储数据中查找被待识别数据覆盖的首个数据点。
步骤S320,从各所述数据段对应的所述首个数据点开始,以预设窗口长度遍历各所述数据段以计算各所述数据点对应的权重值。
在本发明的一种示例实施例中,由于多个待识别数据不一定能够完全覆盖预存历史存储数据,因此在对每个数据段进行遍历时,可以先通过预设工具识别所述数据段中被待识别数据覆盖的首个数据点,随后以首个数据点为起点,以预设窗口长度进行遍历,分别计算各窗口中的各所述数据点对应的权重值。
在本发明的一种示例实施例中,所述计算各所述数据点对应的权重值,参照图5所示,包括如下步骤S410至步骤S420:
步骤S410,计算各所述数据点上覆盖的所有所述待识别数据与预存历史存储数据相似度。
在本发明的一种示例实施例中,多个待识别数据可以重复覆盖在预存历史存储数据上的数据点,对应的被覆盖的某个数据点上可能同时覆盖有多个待识别数据。针对某一数据点,需要计算在该数据点上覆盖的所有待识别数据与所述待识别数据覆盖的预存历史存储数据的相似度。进一步的,还可以对计算得到的相似度进行归一化之后,再进行后续的计算过程。
步骤S420,计算各所述数据点对应相似度的平均值,并将所述平均值配置为各所述数据点为激活点的权重值。
在本发明的一种示例实施例中,可以计算所述数据点对应的所有待识别数据的相似度的平均值,并将平均值配置为数据点为激活点的权重值。
步骤S130,分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
在本发明的一种示例实施例中,分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据,可以包括:分别对各所述窗口内的所有所述权重值并行执行筛选处理,以获取符合预设权重阈值的所述窗口对应的目标数据。
在本发明的一种示例实施例中,所述筛选处理的步骤也可以通过服务器计算并行实现。具体的,可以将预设窗口长度中的所有数据点和相应的权重值输入服务器计算,并行执行筛选处理。进一步的,所述筛选处理可以包括高斯滤波处理,通过高斯滤波处理能够得到最终各个数据点的权重值,进而得到各个窗口对应的权重值。通过并行的执行筛选处理能够避免目前中循环累加每个数据点的权重值导致的筛选效率低下的问题。
在本发明的一种示例实施例中,根据所述权重值判断各所述窗口内是否存在目标数据,包括:在各所述窗口对应的数据段中识别的权重值大于预设阈值的连续区域,并将所述连续区域配置为所述窗口中的目标数据。
在本发明的一种示例实施例中,所述连续区域包括至少预设数量的数据点对应的权重值。所述预设阈值和所述预设数量可以根据不同终端设备进行设置,也可以根据目标数据识别的需求进行设置。例如,在50个字符的窗口中,当预设阈值为35,预设数量为50时,则在当前50个字符对应的激活曲线中查找连续50个以上的数据点对应的权重值大于35的区域,该区域则为识别的目标数据。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
此外,在本发明的示例性实施方式中,还提供了一种目标数据识别装置。参照图6所示,所述目标数据识别装置500包括:数据分段模块510,权重计算模块520和目标数据识别模块530。
其中,所述数据分段模块510可以用于获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段;
所述权重计算模块520可以用于以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;
所述目标数据识别模块530可以用于分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据,并根据所述权重值判断各所述窗口内是否存在目标数据。
在本发明的进一步方案中,所述目标数据识别模块包括筛选单元531,可以用于分别对各所述窗口内的所有所述权重值并行执行筛选处理,以获取符合预设权重阈值的所述窗口对应的目标数据。
在本发明的进一步方案中,所述数据分段模块510可以用于根据预存历史存储数据所在的数据链对所述比对数据进行划分得到各数据链对应的数据区块段数据;根据预设分段数据点对各所述数据区块段数据分段以获取至少一个数据段。
在本发明的进一步方案中,所述预设分段数据点包括预设分段长度或预设分段数量。
在本发明的进一步方案中,所述权重计算模块520可以用于通过预设工具在各所述数据段对应的预存历史存储数据中查找被待识别数据覆盖的首个数据点;从各所述数据段对应的所述首个数据点开始,以预设窗口长度遍历各所述数据段以计算各所述数据点对应的权重值。
在本发明的进一步方案中,所述权重计算模块520可以用于计算各所述数据点上覆盖的所有所述待识别数据与预存历史存储数据相似度;计算各所述数据点对应相似度的平均值,并将所述平均值配置为各所述数据点为激活点的权重值。
在本发明的进一步方案中,所述权重值的获取包括:将当前并行方式读取的各所述数据段作为输入数据带入权重值计算模型,以输出当前各所述数据段中每个所述数据段对应的权重值。
在本发明的进一步方案中,所述目标数据识别模块530可以用于在各所述窗口对应的数据段中识别的权重值大于预设阈值的连续区域,并将所述连续区域配置为所述窗口中的目标数据;其中,所述连续区域包括连续至少预设数量的数据点对应的权重值。
在本发明的进一步方案中,所述以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表通过矩阵阵列分布方式输入进行并行实现。
由于本发明的示例实施例的目标数据识别装置的各个功能模块与上述目标数据识别方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的目标数据识别方法的实施例。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本发明的示例性实施例中,还提供了一种能够实现上述目标数据识别方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本发明的这种实施例的电子设备。图7显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:上述至少一个处理器601、上述至少一个存储器602、连接不同系统组件(包括存储器602和处理器601)的总线603、显示器604。
其中,所述存储器存储有程序代码,所述程序代码可以被所述处理器601执行,使得所述处理器601执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
例如,所述处理器601可以执行如图2中所示的步骤S110:获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段;S120:以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;S130:分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
又如,所述的电子设备可以实现如图2至图5所示的各个步骤。
存储器602可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器,还可以进一步包括只读存储器(ROM)。
存储器602还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线603可以为表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线603与电子设备的其它模块通信。应当明白,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAI D系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施例的方法。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
在本发明的示例性实施例中,描述了根据本发明的实施例的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本申请提供一种目标数据识别方法和识别装置,首先获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段,随后以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;最后分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
本发明实施例提供的技术方案通过根据预设识别条件对比对数据进行分段得到数据段,进而分别对数据段进行并行处理能够加快目标数据的识别效率,进而避免目标数据识别效率低造成的限制目标数据识别速度的问题。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种目标数据识别方法,其特征在于,所述目标数据识别方法包括以下步骤:
获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段;
以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;
分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据。
2.根据权利要求1所述的目标数据识别方法,其特征在于,所述预设识别条件包括数据链条件和预设分段数据点;
所述根据预设识别条件对所述比对数据进行分段以获取分段后的数据段,包括:
根据预存历史存储数据所在的数据链对所述比对数据进行划分得到各数据链对应的数据区块段数据;
根据预设分段数据点对各所述数据区块段数据分段以获取至少一个数据段。
3.根据权利要求2所述的目标数据识别方法,其特征在于,所述预设分段数据点包括预设分段长度或预设分段数量。
4.根据权利要求1所述的目标数据识别方法,其特征在于,对各所述数据段按照预设窗口长度进行遍历以计算所述预存历史存储数据中的数据列表,包括:
通过预设工具在各所述数据段对应的预存历史存储数据中查找被待识别数据覆盖的首个数据点;
从各所述数据段对应的所述首个数据点开始,以预设窗口长度遍历各所述数据段以计算各所述数据点对应的权重值。
5.根据权利要求4所述的目标数据识别方法,其特征在于,所述计算各所述数据点对应的权重值,包括:
计算各所述数据点上覆盖的所有所述待识别数据与预存历史存储数据相似度;
计算各所述数据点对应相似度的平均值,并将所述平均值配置为各所述数据点为激活点的权重值。
6.根据权利要求1所述的目标数据识别方法,其特征在于,所述分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据,包括:
分别对各所述窗口内的所有所述权重值并行执行筛选处理,以获取符合预设权重阈值的所述窗口对应的目标数据。
7.根据权利要求6所述的目标数据识别方法,其特征在于,所述权重值的获取包括:将当前并行方式读取的各所述数据段作为输入数据带入权重值计算模型,以输出当前各所述数据段中每个所述数据段对应的权重值。
8.根据权利要求1所述的目标数据识别方法,其特征在于,根据所述权重值判断各所述窗口内是否存在目标数据,包括:
在各所述窗口对应的数据段中识别的权重值大于预设阈值的连续区域,并将所述连续区域配置为所述窗口中的目标数据;其中,所述连续区域包括连续至少预设数量的数据点对应的权重值。
9.根据权利要求1所述的目标数据识别方法,其特征在于,所述以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表通过矩阵阵列分布方式输入进行并行实现。
10.一种目标数据识别装置,其特征在于,包括:
数据分段模块,用于获取待识别数据,将所述待识别数据与预存历史存储数据比对,获得比对数据,根据预设识别条件对所述比对数据进行分段以获取分段后的数据段;
权重计算模块,用于以并行方式读取各所述数据段,并按照预设窗口长度进行同步遍历,在所述预存历史存储数据中进行对撞分析,确定对撞获取的数据列表;
目标数据识别模块,用于分别对所述数据列表中各数据的关键数据点进行提取,根据预设识别条件判断各所述窗口内数据的权重值,并根据所述权重值确定各所述窗口内的目标数据,并根据所述权重值判断各所述窗口内是否存在目标数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211544718.8A CN116244488A (zh) | 2022-12-02 | 2022-12-02 | 一种目标数据识别方法及识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211544718.8A CN116244488A (zh) | 2022-12-02 | 2022-12-02 | 一种目标数据识别方法及识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116244488A true CN116244488A (zh) | 2023-06-09 |
Family
ID=86630250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211544718.8A Withdrawn CN116244488A (zh) | 2022-12-02 | 2022-12-02 | 一种目标数据识别方法及识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244488A (zh) |
-
2022
- 2022-12-02 CN CN202211544718.8A patent/CN116244488A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113342345A (zh) | 深度学习框架的算子融合方法、装置 | |
CN110363121B (zh) | 指纹图像处理方法及装置、存储介质和电子设备 | |
CN107203504B (zh) | 字符串替换方法和装置 | |
CN111612037A (zh) | 异常用户检测方法、装置、介质及电子设备 | |
CN112784961A (zh) | 超网络的训练方法、装置、电子设备和存储介质 | |
CN113392303A (zh) | 后台爆破方法、装置、设备和计算机可读存储介质 | |
CN113128209A (zh) | 用于生成词库的方法及装置 | |
CN113904943A (zh) | 账号检测方法、装置、电子设备和存储介质 | |
CN112783508A (zh) | 文件的编译方法、装置、设备以及存储介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
KR20230133808A (ko) | Roi 검출 모델 훈련 방법, 검출 방법, 장치, 설비 및 매체 | |
CN116244488A (zh) | 一种目标数据识别方法及识别装置 | |
CN110797081B (zh) | 激活区域识别方法及装置、存储介质及电子设备 | |
CN113495841B (zh) | 一种兼容性检测方法、装置、设备、存储介质及程序产品 | |
CN112003819B (zh) | 识别爬虫的方法、装置、设备和计算机存储介质 | |
CN114492370A (zh) | 网页识别方法、装置、电子设备和介质 | |
CN114445682A (zh) | 训练模型的方法、装置、电子设备、存储介质及产品 | |
US20230081957A1 (en) | Motion search method and apparatus, electronic device and storage medium | |
CN115131709B (zh) | 视频类别预测方法、视频类别预测模型的训练方法及装置 | |
CN114117181B (zh) | 网站翻页逻辑的获取、及网站翻页控制方法和装置 | |
CN111563438B (zh) | 一种用于视频结构化的目标排重方法和装置 | |
CN110647519B (zh) | 对测试样本中的缺失属性值进行预测的方法及装置 | |
CN114693950B (zh) | 一种图像特征提取网络的训练方法、装置及电子设备 | |
CN117688342B (zh) | 一种基于模型的设备状态预测方法、电子设备及存储介质 | |
CN108536362B (zh) | 用于识别操作的方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230609 |
|
WW01 | Invention patent application withdrawn after publication |