CN114676774A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114676774A CN114676774A CN202210299138.0A CN202210299138A CN114676774A CN 114676774 A CN114676774 A CN 114676774A CN 202210299138 A CN202210299138 A CN 202210299138A CN 114676774 A CN114676774 A CN 114676774A
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- determining
- sample
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000002372 labelling Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000002159 abnormal effect Effects 0.000 description 23
- 238000012360 testing method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000013107 unsupervised machine learning method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种数据处理方法、装置、设备及存储介质,涉及数据处理技术领域,尤其涉及大数据、信息流、智能搜索、深度学习技术领域。具体实现方案为:获取待处理数据,基于预置的样本集对待处理数据进行处理,确定待处理数据与样本集包括的至少一个样本数据之间的至少一个相似度值,然后基于至少一个相似度值,在至少一个样本数据中,确定出目标匹配数据,最后根据目标匹配数据的标注信息,确定待处理数据的属性信息。该技术方案可以准确的确定出目标匹配数据,为后续确定出待处理数据的属性信息奠定了基础,从而提高了数据处理效率和数据处理效果。
Description
技术领域
本公开涉及数据处理中的大数据、信息流、智能搜索、深度学习技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着网络技术的发展,大数据遍布各个领域,大数据中包含丰富的信息,但同时不可避免的存在异常数据,这给后续的使用带来了不便,如何准确的识别大数据中的异常数据非常重要。
在实际应用中,由于异常数据形式多样,与时俱变,需要一种异常数据识别方法以提高大数据中的异常数据识别效果,提高数据的稳定性。
发明内容
本公开提供了一种数据处理方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种数据处理方法,包括:
获取待处理数据;
基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;
基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;
根据所述目标匹配数据的标注信息,确定所述待处理数据的属性信息。
根据本公开的第二方面,提供了一种数据处理装置,包括:
获取单元,用于获取待处理数据;
处理单元,用于基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;
匹配确定单元,用于基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;
属性确定单元,用于根据所述目标匹配数据的标注信息,确定所述待处理数据的属性信息。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
根据本公开的技术方案,能够准确的确定出数据的属性信息,提高了数据处理效率和处理效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例所适用的一种应用场景示意图;
图2是本公开第一实施例提供的数据处理方法的流程示意图;
图3是本公开第二实施例提供的数据处理方法的流程示意图;
图4是本公开第三实施例提供的数据处理方法的流程示意图;
图5是本公开第四实施例提供的数据处理方法的流程示意图;
图6是本公开实施例提供的一种数据处理装置的结构示意图;
图7是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
数据处理是指使用电子计算机对大量的原始数据或资料进行录入、编辑、汇总、计算、分析、预测、存储管理等的操作过程。数据的形式可以是数字、文字、图像或声音等。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取出相对有价值、有意义的数据。数据处理贯穿于社会生产和社会生活的各个领域。
可选的,大数据是数据处理的一个对象,其是一种规模达到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
现阶段,大数据已耳熟能详,遍布各个领域,大数据中包含丰富的信息,同时,也不可避免的含有异常数据,这给后续的分析和分析带来了困扰。异常数据的存在形式多样,且与时俱变,一种方式中,可以采用有监督机器学习模型进行异常监测,但是这种方法对于样本的制作较为严格,例如,需要样本的特征维度统一,花费的制作周期长,而且,还需考虑正负样本的均衡性等等,存在异常监测效率低、耗费时间长的问题。另一种方式中,可以采用无监督机器学习模型针对数据的具体特征进行监督,但是该方法对于数据中的随机时序序列监测效果差。因而,为了克服异常监测效率低、耗费时间长、监测效果差的问题,亟需一种异常数据流的监测方法,用于确定大数据中的异常数据。
在相关技术中,通常的异常数据检测方法普遍集中于低维空间的数据监测,主要包含基于统计的方法、无监督机器学习方法。统计方法有代表性的包含四分位距(interquartile range,IQR)、零-均值(Z-score)标准化方法;无监督机器学习方法主要是基于密度的噪声应用空间聚类(density-based spatial clustering of applicationswith noise,DBSCAN)方法、孤立森林(Isolation Forest)等方法。其中,IQR方法通过计算四分位数判别数据中是否存在异常值,判别的对象是基于数值型的,该方法简单易行但容易造成误判;Z-score标准化方法应用的前提是假定数据服从正态分布,然而实际应用中,数据大多不服从正态分布;DBSCAN聚类方法只适用于低维空间数据,数据聚类时需要反复调参才能达到较好的效果;孤立森林方法适用于连续数据,不适用于特别高维的数据,在实际应用中有一定的局限性。
由上述分析可知,相关技术中的异常数据检测方法的使用均存在一定的局限性,存在检测效果差的问题,而且数据的分布、形态随着时间的变化会不断更新,这给异常数据的检测带来了更大的挑战。
针对上述技术问题,本公开实施例的技术构思过程如下:发明人在研究现有异常检测的过程中发现,可以基于时间序列直接采集样本,无需加工,能够保持原始数据的全部特征,从而快捷的创建样本集,进而在异常值监测时,只需输入待处理数据的原始序列,通过计算待处理数据与样本集中各样本数据的相似度值,便可快速准确匹配到相关样本,基于相关样本的标注信息,给出待处理数据的属性信息,例如,异常情况、类别信息等。
基于上述技术构思过程,本公开的实施例提供了一种数据处理方法,通过获取待处理数据,基于预置的样本集对待处理数据进行处理,确定待处理数据与样本集包括的至少一个样本数据之间的至少一个相似度值,然后基于至少一个相似度值,在至少一个样本数据中,确定出目标匹配数据,最后根据目标匹配数据的标注信息,确定待处理数据的属性信息。该技术方案可以准确的确定出目标匹配数据,为后续确定出待处理数据的属性信息奠定了基础,从而提高了数据处理效率和数据处理效果。
本公开提供一种数据处理方法、装置、设备及存储介质,应用于数据处理中的大数据、信息流、智能搜索、深度学习技术领域,能够准确的确定出数据的属性信息,提高了数据处理效率和处理效果。
需要说明的是,本实施例中的待处理数据并不是针对某一特定场景中的数据,并不能反映出某一特定场景的信息,而且,本实施例中的待处理数据以及样本集中均来自于公开数据集。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
可理解,本公开的实施例主要以应用于大数据场景进行解释说明,主要用于检测大数据中的异常数据,而且,本实施例中的各数据可以是高维的时序数据,其不对数据的维度进行限定。可选的,本公开实施例的技术方案还可以应用于其他的场景,例如,用户行为识别、广告推荐以及时序预测等,本实施例并不对应用的场景进行限定。
示例性的,图1是本公开实施例所适用的一种应用场景示意图。如图1所示,该应用场景示意图可以包括:终端设备11、网络12、服务器13和处理设备14。
可选的,终端设备11可以通过网络12与服务器13进行通信,使得服务器13可以获取到用户的数据处理指令,从而基于该数据处理指令确定出待处理数据,并将其传输至处理设备14。相应的,处理设备14可以从服务器13接收到该待处理数据,并执行本公开实施例的技术方案。
可选的,处理设备14还可以直接接收处理人员通过终端设备11发送的数据处理指令,基于该数据处理指令从自身的数据库或者其他设备中获取待处理数据,进而执行本公开实施例的技术方案。
可理解,本公开的实施例并不限定处理设备14获取待处理数据的具体方式,其可以根据实际场景确定,此处不作赘述。
在本实施例中,处理设备14可以基于获取到的待处理数据,执行本申请提供的数据处理方法的程序代码,以确定待处理数据的属性信息。
可选的,图1所示的应用场景还可以包括数据存储设备15,该数据存储设备15既可以与服务器13连接,也可以与处理设备14连接,用于存储服务器13输出的数据和/或处理设备14输出的数据处理结果。
需要说明的是,附图1仅是本公开实施例提供的一种应用场景的示意图,本公开实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定,例如,在图1中,数据存储设备15相对服务器13或处理设备14可以是外部存储器,在其它情况下,也可以将数据存储设备15置于服务器13或处理设备14中,处理设备14既可以是独立于服务器13单独存在的设备,也可以是集成于服务器13的一个组件,本申请实施例并不对其进行限定。
还需要说明的是,本公开实施例中处理设备14可以是终端设备,也可以是服务器或者虚拟机等,还可以是一个或多个服务器和/或计算机等组成的分布式计算机系统等。其中,该终端设备包括但不限于:智能手机、笔记本电脑、台式电脑、平台电脑、车载设备、智能穿戴设备等,本公开实施例不作限定。服务器可以为普通服务器或者云服务器,云服务器又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
值得说明的是,本公开的产品实现形态是包含在平台软件中,并部署在处理设备(也可以是计算云或移动终端等具有计算能力的硬件)上的程序代码。在图1所示的系统结构图中,本公开的程序代码可以存储在处理设备内部。运行时,程序代码运行于处理设备的主机内存和/或GPU内存。
本公开实施例中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面,结合上述图1所示的应用场景,通过具体实施例对本公开的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
示例性的,图2是本公开第一实施例提供的数据处理方法的流程示意图。该方法以图1中的处理设备作为执行主体进行解释说明。如图2所示,该数据处理方法可以包括如下步骤:
S201、获取待处理数据。
在本公开的实施例中,处理设备可以从其他设备接收待处理数据,例如,基于获取到的链接或网址从服务器获取待处理数据,从关联的数据平台获取待处理数据等,也可以从自身存储的数据库中读取待处理数据(此时,处理设备中部署有数据库)。本公开的实施例并不对待处理数据的获取过程进行限定,其可以根据实际场景确定。
可理解,在本公开的实施例中,处理设备获取到的待处理数据通常是未经处理的数据,这样该待处理数据可以保留数据的全部特征,进而可以保证属性信息识别的准确率,增强数据识别的稳定性。
可选的,本实施例以大数据中的异常数据检测进行解释说明,因此,在本实施例中,待处理数据可以是大数据中的某个测试数据。
S202、基于预置的样本集对待处理数据进行处理,确定待处理数据与样本集包括的至少一个样本数据之间的至少一个相似度值。
可选的,处理设备中预置有样本集,该样本集可以包括至少一个样本数据,且在样本集包括至少两个样本数据时,所述至少两个样本数据是不同的样本数据。
在本实施例中,样本集中的样本数据是按照采集的时间先后顺序进行排列的,每个样本数据的长度取决于各自的访问时长及检索内容,且每个样本数据均携带有标注信息,该标注信息主要包含类别和标签,其是通过人工标注的。
其中,类别主要是用于区分样本数据属于哪个领域;标签主要是用于标识该样本数据是否为正常数据。
示例性的,表1为样本集中各样本数据的格式。如表1所示,基于样本数据来源和/或内容可以确定样本数据的类别和标签。可选的,标签可以利用0和1表示,若样本数据的标签为1,则表示该样本数据正常;若样本数据的标签为0,则表示该样本数据异常。
例如,样本数据P1的内容包括“math”,“english”,“physics”,“chemistry”,“exam”,Chinese”等,此时,类别为学生“student”,由于样本数据P1中的各个对象拼写均正确,则标签为1;样本数据P2的内容包括“doc”,“laa”,“la”,“al”,“allal”,“hhhhh”等,其对应的类别为医院“hospital”,由于样本数据P2中存在拼写错误的对象,则标签为0;类似的,样本数据Pn的内容包括“python”,“c language”,“java”,“php”,“matlab”,其对应的类别为程序“programmer”,由于样本数据Pm中的各个对象拼写均正确,则标签为1。
表1 样本集中各样本数据的格式
其中,P1代表第一个样本数据,P2代表第二个样本数据,Pm代表第m个样本数据,其他依此类推。
相应的,在本公开的实施例中,可以基于待处理数据的内容和样本集中各样本数据的内容,计算待处理数据与样本集中各样本数据之间的各相似度值。
示例性的,数据的内容可以理解成数据包括的对象,因而,可以基于待处理数据包括的对象与样本集中各样本数据包括的对象,计算待处理数据与样本集中各样本数据之间的各相似度值。
S203、基于上述至少一个相似度值,在至少一个样本数据中,确定出目标匹配数据。
可选的,在将待处理数据和样本集中的至少一个样本数据进行相似度分析得到至少一个相似度值之后,可以按照设定规则对至少一个相似度值进行分析,从而在至少一个相似度值对应的至少一个样本数据中确定出目标匹配数据。
示例性的,设定规则可以是从上述至少一个相似度值中确定出最大相似度值,然后将该最大相似度值对应的样本数据确定为目标匹配数据。其中,相似度值越大,两个数据的特征越相似。
S204、根据目标匹配数据的标注信息,确定待处理数据的属性信息。
在本实施例中,由于目标匹配数据是从样本集中筛选处理的样本数据,其也携带有标注信息,因而,可以基于目标数据的标注信息,确定待处理数据的属性信息。例如,给予待处理数据赋予与目标匹配数据相同的类别和标签。
示例性的,根据目标匹配数据的类别,确定待处理数据所属的类别;根据目标匹配数据是否异常,判定该待处理数据是否异常。
可理解,本公开的技术方案可以基于时间序列采集样本,得到样本集和待处理数据,无需进行加工处理,直接保持了原始数据的全部特征,在后续数据处理,例如,异常值监测时,只需输入待处理数据的原始访问序列,通过计算待处理数据与样本集中各样本数据的相似度值便可快速准确匹配到相关样本,进而确定出待处理数据的类别及异常监测结果等属性信息。
本公开的实施例中,通过获取待处理数据,基于预置的样本集对待处理数据进行处理,确定待处理数据与样本集包括的至少一个样本数据之间的至少一个相似度值,然后基于至少一个相似度值,在至少一个样本数据中,确定出目标匹配数据,最后根据目标匹配数据的标注信息,确定待处理数据的属性信息。该技术方案可以准确的确定出目标匹配数据,为后续确定出待处理数据的属性信息奠定了基础,从而提高了数据处理效率和数据处理效果。
为使读者更深刻地理解本公开的实现原理,现结合以下图3至图5对图2所示的实施例进行进一步细化。
可选的,在上述图2所示实施例的基础上,图3是本公开第二实施例提供的数据处理方法的流程示意图。如图3所示,在本公开的实施例中,上述S202可以包括如下步骤:
S301、对待处理数据和样本集包括的至少一个样本数据进行数值化处理,得到待处理数据对应的待处理数值序列和至少一个样本数据对应的至少一个样本数值序列。
在本实施例中,为了量化待处理数据与样本集中各样本数据的关系,并且考虑时序特性,需分别将待处理数据数据与样本集包括的至少一个样本数据进行数值化,其中,时序特性可以体现各样本数据中对象的重要程度。
可选的,在本公开的实施例中可以采用数值转换工具进行数值化处理,例如,采用开源的字符串(string)转整型(int)的工具进行数值化。
示例性的,假设待处理数据用T={w1,w2,...,wn}表示,样本集用P={P1,P2,...,Pm}表示,则待处理数据T={w1,w2,...,wn}数值化的结果为测试数值序列样本集P={P1,P2,...,Pm}中的各样本数据经数值化后的结果为至少一个样本数值序列
可理解,在实际应用中,待处理数据包括的对象数量与样本集中各样本数据包括的对象数量可以相同,也可以不同,本实施例不对其进行限定。
S302、计算待处理数值序列与至少一个样本数值序列之间的至少一个距离。
示例性的,在本实施例中,为了比较待处理数据和上述样本集中各样本数据之间的相似度,可以计算它们之间的距离,距离越小,相似度越高。
可选的,假设是至少一个样本数值序列中的第i个样本数值序列,相应的,待处理数值序列与之间的距离函数用表示。距离函数取决于实际采用的距离度量,在动态时间规整(dynamic time warping,DTW)算法中通常采用欧氏距离。
S303、根据上述至少一个距离,确定待处理数据与至少一个样本数据之间的至少一个相似度值。
在本实施例中,通过待处理数值序列与至少一个样本数值序列之间的至少一个距离来表征待处理数据与至少一个样本数据之间的相似度值,但距离越小,相似度越高。
可理解,在确定出上述至少一个距离后,一方面可以通过距离与相似度之间的关系,利用距离来表征相似度的大小;另一方面也可以通过一定的规则变换可以确定出待处理数据与至少一个样本数据之间的至少一个相似度值,例如,相似度Sim与距离d之间的关系可以用下式表示,Sim=1/d,因而,上述至少一个距离d={d1,d2,...,dm}对应的至少一个相似度为Sim={1/d1,1/d2,...,1/dm}。
可选的,在本公开的实施例中,参照图3所示,上述S203可以包括如下步骤:
S304、确定出至少一个相似度值中的最大相似度值。
示例性的,在确定出至少一个相似度值后,可以基于设定规则确定最大相似度值。
例如,设定规则可以是首先对上述至少一个相似度值进行大小顺序,然后确定出其中的最大相似度值。再比如,设定规则还可以是按照至少一个相似度值的确定顺序,依次对比相邻的两个相似度值,在所有的相似度值均参与对比后,从中确定出最大相似度值。
可理解,本公开实施例并不限定确定最大相似度的具体方式,其可以根据实际需求设定,此处不作赘述。
S305、判定最大相似度值是否大于或等于预置的相似度阈值;若是,执行S306;若否,执行S307至S309。
在本实施例中,处理设备中预置有相似度阈值,为了确定出满足要求的目标匹配数据,可以首先将确定的最大相似度与预置的相似度阈值进行比较,判定最大相似度值是否大于或等于预置的相似度阈值,然后再根据判断结果执行后续的操作。
S306、确定最大相似度值对应的样本数据为目标匹配数据。
作为一种示例,响应于最大相似度值大于或等于相似度阈值,确定该最大相似度值对应的样本数据为目标匹配数据。
示例性的,当利用距离表征相似度值时,假设,给定一个最小距离阈值ε,如果min(d)=min{d1,d2,...,dm}=dp≤ε,即,若上述至少一个距离中的最小距离dp小于或等于设定的最小距离阈值ε,则确定待处理数据的特征与最小距离dp对应样本数据的特征相似,该最小距离dp对应样本数据即是最大相似度对应的样本数据,从而可以将最小距离dp对应样本数据确定为目标匹配数据。
示例性的,假设给定一个最大相似度阈值δ,如果 即,若上述至少一个相似度值中的最大相似度1/dp大于或等于设定的最大相似度阈值δ,则确定待处理数据的特征与最大相似度1/dp对应样本数据的特征相似,从而可以将最大相似度1/dp对应样本数据确定为目标匹配数据。
在该步骤中,通过比较待处理数据与样本集中各样本数据的相似度,能够准确的确定出相似度满足要求的目标匹配数据,从而可以自动的完成数据处理的过程,提高了数据处理效率和数据处理精度。
S307、输出处理提示。
作为另一种示例,响应于最大相似度值小于相似度阈值,输出处理提示。
示例性的,当样本集中各样本数据与待处理数据之间的最大相似度小于设定的相似度阈值,此时可以通过输出处理提示,例如,在处理设备具有人机交互界面时,通过人机交互界面输出该处理提示,以便人工处理上述待处理数据。
可理解,在最大相似度值小于相似度阈值时,若处理设备具有语音提示功能,则还可以通过语音输出处理提示,以便处理人员及时获知处理任务。
S308、获取处理人员针对该处理提示作出的处理结果和标注信息。
示例性的,处理人员获知到该处理指示后,可人工分析待处理处理的属性信息,并给出处理结果。
可选的,为了完善样本集中样本数据的多样性,处理人员对待处理数据作出处理结果后,还可以对其进行标注,例如,标注待处理数据的类别和/或标签,使得待处理数据携带标注信息。
S309、将携带有标注信息的待处理数据添加至样本集。
可选的,在获取到携带有标注信息的待处理数据后,为了使得处理设备可以针对更多的数据完成数据处理过程,还可以将携带有标注信息的待处理数据添加至样本集,以丰富样本集中的样本数据。
在本公开的实施例中,对于不满足相似度值条件的待处理数据,通过人工处理、信息标注等操作后,将其增加到样本集,可以完善样本集中的样本类型,为后续完成闭环自动处理奠定了基础。
在上述各实施例的基础上,图4是本公开第三实施例提供的数据处理方法的流程示意图。如图4所示,在本公开的实施例中,在上述S202之前,该数据处理方法还可以包括如下步骤:
S401、基于待处理数据包括的对象和预置数据库中各数据包括的对象,确定待处理数据与各数据之间的匹配度。
示例性的,处理设备中可以存在预置数据库,该预置数据库中存在多条数据,每条数据均具有标注信息。
例如,假设预置数据库S由不同的数据流Si,i=1,2,3,...,n组成,表示为:S={S1,S2,...,Sn}。该预置数据库的数据采集时按照时间顺序进行排列,不同的数据长度取决于各自的访问时长及检索内容,采集后的数据序列采用人工方式进行标注,标注的内容主要包含类别和标签,类别主要是用于区分数据属于哪个领域,标签用于标识该数据是否正常,1表示该数据正常,0代表异常。
通常情况下,对于一条待处理数据,可以在该预置数据库中查询与该待处理数据相似的目标匹配数据。然而,当预置数据库中的数据量较大时,直接在预置数据库中进行查询,可能存在查询时间较长的问题,因而,为了缩短查询时间,减少后续的计算量,本实施例中,可以首先基于待处理数据包括的对象和预置数据库中各数据包括的对象,计算待处理数据与各数据之间的匹配度,进而从中确定出具有较高匹配度的样本集。
在本公开的实施例中,数据包括的对象可以解释为数据在各个维度上的值,例如,待处理数据T={w1,w2,...,wn}包括的对象为w1,w2,...,wn;类似的,预置数据库中各数据包括的对象可以采用的方式进行解释,此处不作赘述。
在本实施例的一种可能实现中,该步骤S401可以通过如下步骤实现:
A1、基于待处理数据包括的对象和预置数据库中各数据包括的对象,确定各数据与待处理数据具有的各相同对象数量。
A2、确定各相同对象数量与待处理数据包括对象总数之间的各比值;
A3、基于各比值,确定待处理数据与各数据之间的匹配度。
在该可能的实现中,待处理数据T={w1,w2,...,wn}与预置数据库S={S1,S2,...,Sn}中第i个数据Si的匹配度计算公式如公式(1)所示:
其中,ρ(T,Si)表示待处理数据T与数据Si的匹配度,C(·)表示计数,T∩Si表示T与Si的交集,即T与Si中相同的对象,即,C(T∩Si)表示待处理数据T与数据Si具有的相同对象数量,C(T)表示待处理数据T包括的对象总数。
类似的,基于上述公式(1),可以计算出待处理数据T与预置数据库S中各数据之间的匹配度ρ={ρ1,ρ2,...,ρn}。
在本实施例的另一种可能实现中,该步骤S401可以通过如下步骤实现:
B1、基于待处理数据包括的对象和预置数据库中各数据包括的对象,确定各数据与待处理数据具有的相同对象数量;
B2、基于各数据与待处理数据具有的相同对象数量,确定待处理数据与各数据之间的匹配度。
在该可能的实现中,待处理数据T={w1,w2,...,wn}与预置数据库S={S1,S2,...,Sn}中第i个数据Si的匹配度计算公式如公式(2)所示:
ρ(T,Si)=C(T∩Si) 公式(2)
其中,ρ(T,Si)表示待处理数据T与数据Si的匹配度,C(·)表示计数,T∩Si表示T与Si的交集,即T与Si中相同的对象,即,C(T∩Si)表示待处理数据T与数据Si具有的相同对象数量。
类似的,基于上述公式(2),可以计算出待处理数据T与预置数据库S中各数据之间的匹配度ρ={ρ1,ρ2,...,ρn}。
可理解,本公开的实施例并不限定匹配度的实际计算方式,其可以根据实际应用情况自行设计匹配度的方法,此处不作赘述。
S402、从预置数据库中,确定出样本集,该样本集包括的各样本数据与待处理数据之间的匹配度均大于或等于匹配度阈值。
在该步骤中,可以将待处理数据与预置数据库中各数据之间的匹配度与预设的匹配度阈值进行比较,从预置数据库中筛选出匹配度均大于或等于匹配度阈值的至少一个数据,从而组成上述的样本集。
示例性的,在得到待处理数据T与预置数据库S中各数据之间的匹配度ρ={ρ1,ρ2,...,ρn}后,可以找出ρ中值大于匹配度阈值θ的匹配度集合,例如,{ρl,ρk,...,ρm},进而根据匹配度集合的下标索引,找出匹配度集合对应的数据集合{Sl,Sk,...,Sm},进而形成样本集且Sl,Sk,...,Sm在中也是按照时间先后顺序排列的。
值得说明的是,在本步骤中,针对基于上述公式(1)确定的匹配度,预设的匹配度阈值θ∈[0,1],θ值越大,表示待处理数据和数据的匹配可能性越大,且θ的具体取值可根据预置数据库中的数据总量而定,例如,θ=0.5,此处不作限定。
在本步骤中,针对基于上述公式(2)确定的匹配度,预设的匹配度阈值θ为大于1的整数,θ值越大,表示待处理数据和数据的匹配可能性越大,且θ的具体取值也可根据预置数据库中的数据总量而定,此处不作限定。
本公开的实施例中,基于待处理数据包括的对象和预置数据库中各数据包括的对象,确定待处理数据与各数据之间的匹配度,从预置数据库中,确定出样本集,该样本集包括的各样本数据与待处理数据之间的匹配度均大于或等于匹配度阈值。该技术方案,可以缩小查询的数据量,缩短查询时间,减少了后续的计算量,在保证处理精度的前提下,提高了处理效率。
基于上述各实施例的技术方案,下述通过图5所示的实施例给出一个实施例,用于简单介绍本公开的完整实现方案。图5是本公开第四实施例提供的数据处理方法的流程示意图。如图5所示,该数据处理方法可以包括如下步骤:
S501、利用按照时间顺序采集的数据,生成样本数据库。
可选的,该样本数据库为上述图4所示实施例中的预置数据库。
S502、获取测试数据流。
可选的,该测试数据流即上述各实施例中的待处理数据。
S503、对测试数据与样本数据库中的各数据进行匹配计算,从样本数据库中,筛选出最小匹配样本集。
S504、对S503中的最小匹配样本集和S502中的待处理数据分别进行数值转换,得到最小匹配样本数值集和测试数值序列。
S505、针对最小匹配样本数值集和测试数值序列,计算相似度。
S506、求最大相似度值。
可选的,基于DTW算法求最大相似度值。
S507、基于该最大相似度值和相似度阈值,判断最小匹配样本数据集中是否存在目标匹配数据;若是,转到S508;若否,执行S509;
S508、基于目标匹配数据,输出处理结果;
S509、获取进行人工批注后的测试数据流,并添加至S501的样本数据库。
示例性的,本公开实施例的方案涉及到样本数据库的创建,测试数据与样本数据库中进行匹配计算,得到最小样本集,继而,通过数值转换,将测试数据与样本最小集分别转换为数值类型,分别计算样本集中每个子样本序列与测试数值序列的相似度值,最后找出全部相似度值中最大值,通过该最大值可以查找出测试数据与样本数据库中哪个样本数据或哪些样本数据匹配,从而可以推断出测试数据的属性信息,如果没有找到最佳匹配(相似度值不满足预设的阈值),则可以将测试数据流作为新的样本类型加入到样本数据库,供后续使用。
可理解,本实施例中各步骤的具体实现可以参见上述各实施例中的记载,此处不作赘述。
综合上述各实施例可知,本公开的实施例提出了高维数据的处理方法,克服了样本特征维度要求统一的限制,解决了样本数据库制作周期长、人工提取特征难的问题,其保持了原始数据的全部特征,具有识别准确率高、稳定性强的特点。此外,在本实施例中,构建样本数据库时,只需按照时间序列采集样本,为加快计算效率还给出了匹配度的计算方式,能够为快速匹配出相似的子集,进一步的,采用动态规整值进行计算,能够有效计算出不同长度的两个序列的相似度值,随着测试的不断进行,样本数据库会持续完善,形成闭环异常监测,为后续得到精确的处理结果奠定了基础,提高了自动化程度。
图6是本公开实施例提供的一种数据处理装置的结构示意图。本实施例提供的数据处理装置可以为一种电子设备或者为电子设备中的装置。如图6所示,本公开实施例提供的数据处理装置600可以包括:
获取单元601,用于获取待处理数据;
处理单元602,用于基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;
匹配确定单元603,用于基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;
属性确定单元604,用于根据所述目标匹配数据的标注信息,确定所述待处理数据的属性信息。
在本公开实施例的一种可能实现中,所述处理单元602,包括:
第一处理模块,用于对所述待处理数据和所述样本集包括的至少一个样本数据进行数值化处理,得到所述待处理数据对应的待处理数值序列和所述至少一个样本数据对应的至少一个样本数值序列;
第二处理模块,用于计算所述待处理数值序列与所述至少一个样本数值序列之间的至少一个距离;
第三处理模块,用于根据所述至少一个距离,确定所述待处理数据与所述至少一个样本数据之间的至少一个相似度值。
在本公开实施例的一种可能实现中,所述匹配确定单元603,包括:
第一确定模块,用于确定出所述至少一个相似度值中的最大相似度值;
判定模块,用于判定所述最大相似度值是否大于或等于预置的相似度阈值;
第二确定模块,用于响应于所述最大相似度值大于或等于所述相似度阈值,确定所述最大相似度值对应的样本数据为目标匹配数据。
在该种可能实现中,该数据处理装置还包括:
输出单元(未示出),用于响应于所述最大相似度值小于所述相似度阈值,输出处理提示;
捕获单元(未示出),用于获取处理人员针对所述处理提示作出的处理结果和标注信息;
添加单元(未示出),用于将携带有所述标注信息的所述待处理数据添加至所述样本集。
在本公开实施例的一种可能实现中,所述装置还包括:
匹配度确定单元(未示出),用于基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度;
样本集确定单元(未示出),用于从所述预置数据库中,确定出所述样本集,所述样本集包括的各样本数据与所述待处理数据之间的匹配度均大于或等于匹配度阈值。
在本公开实施例的一种可能实现中,所述匹配度确定单元,包括:
第一数量统计模块,用于基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的各相同对象数量;
比值确定模块,用于确定各相同对象数量与所述待处理数据包括对象总数之间的各比值;
第一匹配度确定模块,用于基于各比值,确定所述待处理数据与各数据之间的匹配度。
在本公开实施例的一种可能实现中,所述匹配度确定单元,包括:
第二数量统计模块,用于基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的相同对象数量;
第二匹配度确定模块,用于基于各数据与所述待处理数据具有的相同对象数量,确定所述待处理数据与各数据之间的匹配度。
本实施例提供的数据处理装置,可用于执行上述任意方法实施例中的数据处理方法,其实现原理和技术效果类似,此处不做作赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图7是用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如,数据处理方法。例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(″Virtual Private Server″,或简称″VPS″)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (17)
1.一种数据处理方法,包括:
获取待处理数据;
基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;
基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;
根据所述目标匹配数据的标注信息,确定所述待处理数据的属性信息。
2.根据权利要求1所述的方法,其中,所述基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值,包括:
对所述待处理数据和所述样本集包括的至少一个样本数据进行数值化处理,得到所述待处理数据对应的待处理数值序列和所述至少一个样本数据对应的至少一个样本数值序列;
计算所述待处理数值序列与所述至少一个样本数值序列之间的至少一个距离;
根据所述至少一个距离,确定所述待处理数据与所述至少一个样本数据之间的至少一个相似度值。
3.根据权利要求1或2所述的方法,其中,所述基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据,包括:
确定出所述至少一个相似度值中的最大相似度值;
判定所述最大相似度值是否大于或等于预置的相似度阈值;
响应于所述最大相似度值大于或等于所述相似度阈值,确定所述最大相似度值对应的样本数据为目标匹配数据。
4.根据权利要求3所述的方法,还包括:
响应于所述最大相似度值小于所述相似度阈值,输出处理提示;
获取处理人员针对所述处理提示作出的处理结果和标注信息;
将携带有所述标注信息的所述待处理数据添加至所述样本集。
5.根据权利要求1至4任一项所述的方法,还包括:
基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度;
从所述预置数据库中,确定出所述样本集,所述样本集包括的各样本数据与所述待处理数据之间的匹配度均大于或等于匹配度阈值。
6.根据权利要求5所述的方法,其中,所述基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度,包括:
基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的各相同对象数量;
确定各相同对象数量与所述待处理数据包括对象总数之间的各比值;
基于各比值,确定所述待处理数据与各数据之间的匹配度。
7.根据权利要求5所述的方法,其中,所述基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度,包括:
基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的相同对象数量;
基于各数据与所述待处理数据具有的相同对象数量,确定所述待处理数据与各数据之间的匹配度。
8.一种数据处理装置,包括:
获取单元,用于获取待处理数据;
处理单元,用于基于预置的样本集对所述待处理数据进行处理,确定所述待处理数据与所述样本集包括的至少一个样本数据之间的至少一个相似度值;
匹配确定单元,用于基于所述至少一个相似度值,在所述至少一个样本数据中,确定出目标匹配数据;
属性确定单元,用于根据所述目标匹配数据的标注信息,确定所述待处理数据的属性信息。
9.根据权利要求8所述的装置,其中,所述处理单元,包括:
第一处理模块,用于对所述待处理数据和所述样本集包括的至少一个样本数据进行数值化处理,得到所述待处理数据对应的待处理数值序列和所述至少一个样本数据对应的至少一个样本数值序列;
第二处理模块,用于计算所述待处理数值序列与所述至少一个样本数值序列之间的至少一个距离;
第三处理模块,用于根据所述至少一个距离,确定所述待处理数据与所述至少一个样本数据之间的至少一个相似度值。
10.根据权利要求8或9所述的装置,其中,所述匹配确定单元,包括:
第一确定模块,用于确定出所述至少一个相似度值中的最大相似度值;
判定模块,用于判定所述最大相似度值是否大于或等于预置的相似度阈值;
第二确定模块,用于响应于所述最大相似度值大于或等于所述相似度阈值,确定所述最大相似度值对应的样本数据为目标匹配数据。
11.根据权利要求10所述的装置,还包括:
输出单元,用于响应于所述最大相似度值小于所述相似度阈值,输出处理提示;
捕获单元,用于获取处理人员针对所述处理提示作出的处理结果和标注信息;
添加单元,用于将携带有所述标注信息的所述待处理数据添加至所述样本集。
12.根据权利要求8至11任一项所述的装置,还包括:
匹配度确定单元,用于基于所述待处理数据包括的对象和预置数据库中各数据包括的对象,确定所述待处理数据与各数据之间的匹配度;
样本集确定单元,用于从所述预置数据库中,确定出所述样本集,所述样本集包括的各样本数据与所述待处理数据之间的匹配度均大于或等于匹配度阈值。
13.根据权利要求12所述的装置,其中,所述匹配度确定单元,包括:
第一数量统计模块,用于基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的各相同对象数量;
比值确定模块,用于确定各相同对象数量与所述待处理数据包括对象总数之间的各比值;
第一匹配度确定模块,用于基于各比值,确定所述待处理数据与各数据之间的匹配度。
14.根据权利要求12所述的装置,其中,所述匹配度确定单元,包括:
第二数量统计模块,用于基于所述待处理数据包括的对象和所述预置数据库中各数据包括的对象,确定各数据与所述待处理数据具有的相同对象数量;
第二匹配度确定模块,用于基于各数据与所述待处理数据具有的相同对象数量,确定所述待处理数据与各数据之间的匹配度。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299138.0A CN114676774A (zh) | 2022-03-25 | 2022-03-25 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299138.0A CN114676774A (zh) | 2022-03-25 | 2022-03-25 | 数据处理方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676774A true CN114676774A (zh) | 2022-06-28 |
Family
ID=82073866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210299138.0A Pending CN114676774A (zh) | 2022-03-25 | 2022-03-25 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676774A (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150170044A1 (en) * | 2013-12-13 | 2015-06-18 | International Business Machines Corporation | Pattern based audio searching method and system |
CN106528599A (zh) * | 2016-09-23 | 2017-03-22 | 深圳凡豆信息科技有限公司 | 一种海量音频数据中的字符串快速模糊匹配算法 |
CN109635867A (zh) * | 2018-12-10 | 2019-04-16 | 合肥工业大学 | 用于度量海洋移动目标轨迹相似性的方法及系统 |
CN111191028A (zh) * | 2019-12-16 | 2020-05-22 | 浙江大搜车软件技术有限公司 | 样本标注方法、装置、计算机设备和存储介质 |
CN111640453A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语谱图匹配方法、装置、设备及计算机可读存储介质 |
CN111930792A (zh) * | 2020-06-23 | 2020-11-13 | 北京大米科技有限公司 | 数据资源的标注方法、装置、存储介质及电子设备 |
CN112101184A (zh) * | 2020-09-11 | 2020-12-18 | 电子科技大学 | 一种基于半监督学习的无线跨域动作识别方法 |
CN112200049A (zh) * | 2020-09-30 | 2021-01-08 | 华人运通(上海)云计算科技有限公司 | 对路面地形进行数据标注的方法、装置、设备及存储介质 |
CN112287957A (zh) * | 2020-01-22 | 2021-01-29 | 京东安联财产保险有限公司 | 目标匹配方法与装置 |
CN112364124A (zh) * | 2020-11-19 | 2021-02-12 | 湖南红网新媒体集团有限公司 | 一种文本相似度匹配及计算方法、系统和装置 |
CN112446399A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 标签确定方法、装置和系统 |
WO2021068524A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 图像匹配方法、装置、计算机设备及存储介质 |
CN112836013A (zh) * | 2021-01-29 | 2021-05-25 | 北京大米科技有限公司 | 一种数据标注的方法、装置、可读存储介质和电子设备 |
CN113360656A (zh) * | 2021-06-29 | 2021-09-07 | 未鲲(上海)科技服务有限公司 | 异常数据检测方法、装置、设备及存储介质 |
CN113658594A (zh) * | 2021-08-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 歌词识别方法、装置、设备、存储介质及产品 |
CN113657177A (zh) * | 2021-07-22 | 2021-11-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113742387A (zh) * | 2020-05-29 | 2021-12-03 | 中兴通讯股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
CN113806483A (zh) * | 2021-09-17 | 2021-12-17 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及计算机程序产品 |
CN114036283A (zh) * | 2021-11-18 | 2022-02-11 | 阳光保险集团股份有限公司 | 一种文本匹配的方法、装置、设备和可读存储介质 |
-
2022
- 2022-03-25 CN CN202210299138.0A patent/CN114676774A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150170044A1 (en) * | 2013-12-13 | 2015-06-18 | International Business Machines Corporation | Pattern based audio searching method and system |
CN106528599A (zh) * | 2016-09-23 | 2017-03-22 | 深圳凡豆信息科技有限公司 | 一种海量音频数据中的字符串快速模糊匹配算法 |
CN109635867A (zh) * | 2018-12-10 | 2019-04-16 | 合肥工业大学 | 用于度量海洋移动目标轨迹相似性的方法及系统 |
CN112446399A (zh) * | 2019-09-02 | 2021-03-05 | 华为技术有限公司 | 标签确定方法、装置和系统 |
WO2021068524A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 图像匹配方法、装置、计算机设备及存储介质 |
CN111191028A (zh) * | 2019-12-16 | 2020-05-22 | 浙江大搜车软件技术有限公司 | 样本标注方法、装置、计算机设备和存储介质 |
CN112287957A (zh) * | 2020-01-22 | 2021-01-29 | 京东安联财产保险有限公司 | 目标匹配方法与装置 |
CN111640453A (zh) * | 2020-05-13 | 2020-09-08 | 广州国音智能科技有限公司 | 语谱图匹配方法、装置、设备及计算机可读存储介质 |
CN113742387A (zh) * | 2020-05-29 | 2021-12-03 | 中兴通讯股份有限公司 | 数据处理方法、设备及计算机可读存储介质 |
CN111930792A (zh) * | 2020-06-23 | 2020-11-13 | 北京大米科技有限公司 | 数据资源的标注方法、装置、存储介质及电子设备 |
CN112101184A (zh) * | 2020-09-11 | 2020-12-18 | 电子科技大学 | 一种基于半监督学习的无线跨域动作识别方法 |
CN112200049A (zh) * | 2020-09-30 | 2021-01-08 | 华人运通(上海)云计算科技有限公司 | 对路面地形进行数据标注的方法、装置、设备及存储介质 |
CN112364124A (zh) * | 2020-11-19 | 2021-02-12 | 湖南红网新媒体集团有限公司 | 一种文本相似度匹配及计算方法、系统和装置 |
CN112836013A (zh) * | 2021-01-29 | 2021-05-25 | 北京大米科技有限公司 | 一种数据标注的方法、装置、可读存储介质和电子设备 |
CN113360656A (zh) * | 2021-06-29 | 2021-09-07 | 未鲲(上海)科技服务有限公司 | 异常数据检测方法、装置、设备及存储介质 |
CN113657177A (zh) * | 2021-07-22 | 2021-11-16 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113658594A (zh) * | 2021-08-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 歌词识别方法、装置、设备、存储介质及产品 |
CN113806483A (zh) * | 2021-09-17 | 2021-12-17 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备及计算机程序产品 |
CN114036283A (zh) * | 2021-11-18 | 2022-02-11 | 阳光保险集团股份有限公司 | 一种文本匹配的方法、装置、设备和可读存储介质 |
Non-Patent Citations (1)
Title |
---|
刘宇翔;金泽宇;蔡莲红;李锦珑;: "面向视唱评价的声乐自动标注系统", 清华大学学报(自然科学版), no. 12, 15 December 2011 (2011-12-15), pages 50 - 55 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN114549874A (zh) | 多目标图文匹配模型的训练方法、图文检索方法及装置 | |
CN112990035B (zh) | 一种文本识别的方法、装置、设备以及存储介质 | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
US12118770B2 (en) | Image recognition method and apparatus, electronic device and readable storage medium | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
US12086171B2 (en) | Word mining method and apparatus, electronic device and readable storage medium | |
CN114692778B (zh) | 用于智能巡检的多模态样本集生成方法、训练方法及装置 | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN113657249B (zh) | 训练方法、预测方法、装置、电子设备以及存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN113408280A (zh) | 负例构造方法、装置、设备和存储介质 | |
CN117952108A (zh) | 一种实体识别方法、装置、电子设备及介质 | |
CN116305171B (zh) | 一种组件漏洞分析方法、装置、设备和存储介质 | |
CN116340831B (zh) | 一种信息分类方法、装置、电子设备及存储介质 | |
CN117611005A (zh) | 客服服务质量的评估方法、装置、设备及存储介质 | |
CN117076610A (zh) | 一种数据敏感表的识别方法、装置、电子设备及存储介质 | |
CN114201607B (zh) | 一种信息处理的方法和装置 | |
CN114676774A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115292506A (zh) | 应用于办公领域的知识图谱本体构建方法和装置 | |
CN114120410A (zh) | 用于生成标签信息的方法、装置、设备、介质和产品 | |
CN114444514A (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
CN116127948B (zh) | 待标注文本数据的推荐方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |