CN114706927B - 基于人工智能的数据批量标注方法及相关设备 - Google Patents
基于人工智能的数据批量标注方法及相关设备 Download PDFInfo
- Publication number
- CN114706927B CN114706927B CN202210378553.5A CN202210378553A CN114706927B CN 114706927 B CN114706927 B CN 114706927B CN 202210378553 A CN202210378553 A CN 202210378553A CN 114706927 B CN114706927 B CN 114706927B
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- preset
- numerical
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 65
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 118
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 52
- 230000015654 memory Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 17
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 210000004027 cell Anatomy 0.000 description 14
- 230000007774 longterm Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013075 data extraction Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于人工智能的数据批量标注方法、装置、电子设备及存储介质,基于人工智能的数据批量标注方法包括:获取待标注数据,统计预设维度下所有待标注数据的维度值得到各预设维度的维度数据集;基于数值型维度值的占比将维度数据集分为数值型维度数据集和非数值型维度数据集;依据预设损失函数和非数值型维度数据集训练映射模型;基于映射模型将非数值型维度数据集映射为数值型维度数据集;依据预设计算模型和所有数值型维度数据集计算待标注数据的标准属性值;基于标准属性值标注待标注数据以获取标注结果。本申请可依据标签的标注逻辑灵活设计计算模型得到待标注数据准确的标准属性值,从而提高数据的批量标注的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的数据批量标注方法、装置、电子设备及存储介质。
背景技术
数据标注是在数据分析行业中的重要一环,通过数据标注得到数据标签可以准确描述业务实体的特征,随着大数据时代的到来,人工标注的方法已经不能满足庞大的数据量,如何实现数据批量化的快速标注成为行业的焦点。
目前,通常利用无监督的聚类算法对数据进行分类,再基于分类结果对同一类的数据进行标注以实现数据的批量标注,然而,由于不同标签的标注逻辑不同,这种方法不能适应不同标签的标注逻辑,数据批量标注的准确性较低。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的数据批量标注方法及相关设备,以解决如何提高数据批量标注的准确性这一技术问题,其中,相关设备包括基于人工智能的数据批量标注装置、电子设备及存储介质。
本申请基于人工智能的数据批量标注方法,所述方法包括:
获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值;
基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集;
当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型;
基于映射模型将所述非数值型维度数据集映射为数值型维度数据集;
依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值;
依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
在一些实施例中,所述基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,包括:
计算每一个维度数据集中数值型维度值数量的占比;
若所述占比等于1,则所述维度数据集的分类结果为数值型维度数据集;
若所述占比不等于1,则所述维度数据集的分类结果为非数值型维度数据集。
在一些实施例中,所述依据预设的损失函数和所述非数值型维度数据集训练映射模型,包括:
搭建映射模型,所述映射模型由LSTM模型和全连接层串联而成;
挑选所述非数值型维度数据集中任意两个维度值构成样本对,并基于两个维度值的内容获取所述样本对的标签;
将所有样本对以及所述样本对的标签作为训练数据集;
依据预设的损失函数和所述训练数据集训练所述映射模型。
在一些实施例中,所述依据预设的损失函数和所述训练数据集训练所述映射模型包括:
搭建结构相同且参数共享的两个映射模型;
将每组样本对中的两个维度值同时输入两个映射模型中得到第一输出结果和第二输出结果;
基于预设的损失函数计算所述第一输出结果和所述第二输出结果以获取所述映射模型的损失值;
基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成训练。
在一些实施例中,所述预设的损失函数满足关系式:
其中,N为训练过程中一个批次数据的数据量,即输入N组样本对后计算一次损失函数值;为第i组样本对的标签,取值为0或1;Di为第i组样本对中第一输出结果/>和第二输出结果/>的欧式距离,满足关系式:/>Y为预设阈值,所述预设阈值越大表示不同类别的维度值对应的输出结果之间差异越大,所述预设阈值的取值为0.05。
在一些实施例中,所述预设计算模型满足关系式:
其中,M表示标签对应的预设维度的数量;Qm表示第m个预设维度对应的数值型维度数据集;表示所述数值型维度数据集Qm中数据ID为k的待标注数据的维度值;max(Qm),min(Qm)分别为所述数值型维度数据集Qm中维度值的最大值和最小值;Wm为第m个预设维度的预设权重,反应预设维度m对标准属性值的影响程度;Fk为数据ID为k的待标注数据的标准属性值,取值范围为[0,1],所述预设维度和每一个预设维度对应的预设权重与标签的标注逻辑有关。
在一些实施例中,所述依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签包括:
若标签类型为数值标签,则将所述标准属性值与预设区间进行对比,若所述标准属性值位于预设区间内,将所述预设区间对应的标签作为所述标准属性值对应的待标注数据的标注结果;
若所述标签类型为排名标签,对所有标准属性值按照从大到小的顺序进行排列以获取每一个待标注数据的排名,将所述待标注数据的排名与预设排名区间进行对比,若所述待标注数据的排名位于预设排名区间内,将所述预设排名区间对应的标签作为所述待标注数据的标注结果。
本申请实施例还提供一种基于人工智能的数据批量标注装置,包括:
查询单元,用于获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值;
分类单元,用于基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集;
训练单元,用于当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型;
映射单元,用于基于映射模型将所述非数值型维度数据集映射为数值型维度数据集;
计算单元,用于依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值;
标注单元,用于依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
本申请实施例还提供一种电子设备,包括:
存储器,存储至少一个指令;
处理器,执行所述存储器中存储的指令以实现所述的基于人工智能的数据批量标注方法。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的基于人工智能的数据批量标注方法。
综上,本申请能够从不同数据源中获取待标注数据,并依据映射模型将待标注数据中不同维度的非数值型维度值映射为数值型维度值,进一步可依据标签的标注逻辑灵活设计计算模型,对数值型维度值进行计算以标准属性值,标准属性值可以准确反应待标注数据与标签相关联的特征,进而提高数据的批量标注的准确性。
附图说明
图1是本申请所涉及的基于人工智能的数据批量标注方法的较佳实施例的流程图。
图2是本申请所涉及的映射模型的结构示意图。
图3是本申请所涉及的基于人工智能的数据批量标注装置的较佳实施例的功能模块图。
图4是本申请所涉及的基于人工智能的数据批量标注方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本申请,所述描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请实施例提供一种基于人工智能的数据批量标注方法,可应用于一个或者多个电子设备中,电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
电子设备可以是任何一种可与客户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
电子设备还可以包括网络设备和/或客户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。
电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
如图1所示,是本申请基于人工智能的数据批量标注方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S10,获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值。
在一个可选的实施例中,依据ETL的数据抽取任务从不同的数据源中采集所有待标注数据,所述数据源可以是表、文件、http接口等所述待标注数据的所有来源,所述待标注数据包括数据ID和不同维度的维度值,所述数据ID为待标注数据的唯一标识,可以是字母也可以是数字,本申请不做限制,所述不同维度反应了待标注数据的不同属性,如年龄、成绩、性别等。其中,ETL即Extract Transform Load,描述数据抽取、转换、加载的过程,所述数据抽取任务可以支持任何类型的数据输入。
该可选的实施例中,依据标签的标注逻辑确定预设维度,所述预设维度可以是一个也可以是多个。示例性的,若所述标签包括“中年、老年、青年”三个子标签,则预设维度仅包括年龄一个维度;若所述标签包括“业务能力高,业务能力中,业务能力低”三个子标签,由于业务能力为综合指标,仅凭借单一维度的维度值很难准确判断业务能力的高低,则预设维度包括与业务能力相关的所有维度,比如“同行评价”、“顾客评价”、“管理者评价”等。
该可选的实施例中,通过智能搜索引擎在所述待标注数据的所有维度中搜索预设维度的固定字段来提取每一个待标注数据的数据ID和预设维度对应的维度值,进一步,存储相同维度的所有维度值以及维度值对应的数据ID以构成所述维度的维度数据集,所述维度数据集与所述预设维度一一对应。其中,所述智能搜索是结合了人工智能技术的新一代搜索引擎,该引擎除了能提供传统的快速检索、相关度排序等功能,还能提供内容的语义理解、关键词信息筛选和推送等功能。
如此,能够基于ETL的数据抽取任务从所有数据源获取待标注数据,并获取待标注数据中与标签相关的所有维度的维度数据集。
S11,基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集。
在一个可选的实施例中,所述基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,包括:
计算每一个维度数据集中数值型维度值数量的占比;
若所述占比等于1,则所述维度数据集的分类结果为数值型维度数据集;
若所述占比不等于1,则所述维度数据集的分类结果为非数值型维度数据集。
在一个可选的实施例中,所述数值型维度数据集中的维度值全为数值型维度值,可直接进行加、减、乘、除的运算以及大小的比较,所述数值型维度值包括整型维度值、单精度型维度值和双精度型维度值;所述非数值型维度数据集中的维度值存在非数值型维度值,是不可直接运算的字符,所述非数值型维度值包括字符型维度值、布尔型维度值以及字符串型维度值。
示例性的,假设年龄维度对应的维度数据集为{25,23,22},即所有维度值均为数字型,则所述维度数据集为数值型维度数据集;由于维度数据集中的维度值来自不同数据源,不能保障所有维度值均为数字型,故若年龄维度对应的维度数据集为{25,二十三,twenty-two}时,则所述维度数据集为非数值型维度数据集。
如此,能够对不同维度的维度数据集进行分类,对不同类别的维度数据集采用不同的处理方法。
S12,当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型。
在一个可选的实施例中,所述依据预设的损失函数和所述非数值型维度数据集训练映射模型,包括:
搭建映射模型,所述映射模型由LSTM模型和全连接层串联而成;
挑选所述非数值型维度数据集中任意两个维度值构成样本对,并基于两个维度值的内容获取所述样本对的标签;
将所有样本对以及所述样本对的标签作为训练数据集;
依据预设的损失函数和所述训练数据集训练所述映射模型。
该可选的实施例中,将所述非数值型维度数据集中的维度值作为训练数据,依据预设的损失函数训练映射模型,所述映射模型可以将非数值型维度数据集中的维度值映射为数值型维度值,由于不同维度的内容不同,为了保证映射模型输出的正确性,所述映射模型与所述非数值型维度数据集一一对应,本申请中所述映射模型由LSTM模型和全连接网络构成。
该可选的实施例中,所述LSTM模型为长短时记忆模型,可以获取文本数据的短时特征向量和长时特征向量,所述文本数据由多个文本参数构成,所述短时特征向量反应文本数据某一文本参数的特征,所述长时特征向量反应文本数据的总体特征。所述LSTM模型由多个细胞串联而成,第t个细胞的输入包括三部分:第t-1个细胞的短时特征向量ht-1、长时特征向量Ct-1以及文本数据中第t个文本参数Xt;第t个细胞的输出包括两部分:第t个细胞的短时特征向量ht以及长时特征向量Ct,所述第t个细胞的计算公式如下:
ft(ht-1,Ct-1,Xt)=ht,Ct
其中,ft表示所述LSTM模型中第t个细胞,ht为短时特征向量,可以反应所述文本数据中第t个文本参数Xt的特征;Ct为长时特征向量,可以反应所述文本数据中从起始文本参数到第t个文本参数Xt的总体特征。
该可选的实施例中,获取所述LSTM最后一个细胞输出的长时特征向量作为目标向量,所述目标向量的尺寸为N行1列,其中,N由所述LSTM的网络结构决定,所述目标向量可以反应所述LSTM输出的文本数据的总体特征;进一步将目标向量送入全连接网络,所述全连接网络包括输入层、多个中间层和输出层三部分,所述输入层包括N个神经元,用于接收所述目标向量,该可选的实施例中所述中间层的数量为三层,每个中间层中神经元的数量只需满足逐层递减即可,所述输出层包括一个神经元,用于获取输出结果,所述输出结果可以表征所述LSTM模型输入的文本数据,输出结果的取值范围为[0,1]。至此,完成所述映射模型的搭建,所述映射模型的结构示意图如图2所示。
该可选的实施例中,将所述非数值型维度数据集中的维度值两两配对获取多组样本对,人为的获取每组样本对的标签,若所述样本对中的两个维度值属于相同类别,则所述样本对的标签为1,若样本对中的两个维度值不属于相同类别,则所述样本对的标签为0。示例性的,假设样本对中两个维度值分别为25和twenty-five,表示两个不同数据类型的维度值对应的内容相同,则两个维度值属于相同类别,所述样本对的标签为1,假设样本对中两个维度值分别为25和二十三,表示两个不同数据类型的维度值对应的内容不同,则两个维度值不属于相同类别,所述样本对的标签为0。需要说明的是,该步骤不需要获取每一个维度值对应的真实标签,只需要判断所述样本对中两个维度值是否属于相同类别即可。
该可选的实施例中,所述依据预设的损失函数和所述训练数据集训练所述映射模型包括:
搭建结构相同且参数共享的两个映射模型;
将每组样本对中的两个维度值分别输入两个映射模型中得到第一输出结果和第二输出结果;
基于预设的损失函数计算所述第一输出结果和所述第二输出结果以获取所述映射模型的损失值;
基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成训练。
该可选的实施例中,将多组样本对以及样本对对应的标签作为训练数据训练所述映射模型。在训练过程中,将每组样本对中的两个维度值分别输入两个映射模型中得到第一输出结果和第二输出结果,由于第一映射模型和第二映射模型的参数是共享的,故所述两个维度值的处理过程是完全相同的。
该可选的实施例中,若所述样本对的标签为1,则所述样本对中的两个维度值属于相同类别,所述第一输出结果和所述第二输出结果的差值应该为0;若所述样本对的标签为0,则所述样本对中的两个维度值的类别不同,所述第一输出结果和所述第二输出结果的差值应该较大,所述差值越大则表示不同类别之间差异越大,为使所述映射模型的输出结果满足上述关系,故预设的损失函数为:
其中,N为训练过程中一个批次数据的数据量,即输入N组样本对后计算一次损失函数值;为第i组样本对的标签,取值为0或1;Di为第i组样本对中第一输出结果/>和第二输出结果/>的欧式距离,满足关系式:/>Y为预设阈值,所述预设阈值越大表示不同类别的维度值对应的输出结果之间差异越大,所述预设阈值的取值为0.05。
该可选的实施例中,基于预设的损失函数计算所述映射模型的损失值,基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成所述非数值型维度数据集对应的映射模型的训练。
该可选的实施例中,所述映射模型与所述非数值型维度数据集一一对应,所述映射模型训练完毕后,后续可直接调用所述非数值型维度数据集对应的映射模型,无需再次训练。需要说明的是,调用过程中只需要调用两个参数共享的映射模型中的任意一个即可。
如此,完成每一个非数值型维度数据集对应的映射模型的训练过程,训练完毕后,在后续的数据批量标注的过程中无需再次训练。
S13,基于映射模型将所述非数值型维度数据集映射为数值型维度数据集。
在一个可选的实施例中,获取所述非数值型维度数据集对应的映射模型,将所述非数值型维度数据集中的每一个维度值输入到映射模型中得到输出结果,所述输出结果为数值型数据,取值范围为[0,1],将所述非数值型维度数据集映射为数值型维度数据集,按照同样的方法可以将所有的非数值型维度数据集映射为对应的数值型维度数据集。
如此,借助所述非数值型维度数据集对应的映射模型将所述非数值型维度数据集转换为数值型维度数据集,所有预设维度对应的维度数据集均为数值型维度数据集,为后续数据批量标注提供数据基础。
S14,依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值。
在一个可选的实施例中,借助每一个非数值型维度数据的映射模型将所有的非数值型维度数据的映射为数值型维度数据集,至此可以得到每一个预设维度对应的数值型维度数据集;所述数值型维度数据集与所述预设维度一一对应,所述数值型维度数据集包括待标注数据的数据ID以及所述数据ID对应的维度值,所述预设计算模型与标签的标注逻辑有关,不同标签对应的预设维度和每一个预设维度对应的预设权重不同,从而导致不同标签的预设计算模型不同。以数据ID为k的待标注数据为例,所述数据ID与待标注数据一一对应,依据要标注的标签获取所述数据ID为k的待标注数据对应的预设维度,提取所述待标注数据在不同维度数据集中的维度值,则依据所述预设计算模型计算数据ID为k的待标注数据的标准属性值Fk的计算过程如下:
其中,M表示标签对应的预设维度的数量;Qm表示第m个预设维度对应的数值型维度数据集;表示所述数值型维度数据集Qm中数据ID为k的待标注数据的维度值;max(Qm),min(Qm)分别为所述数值型维度数据集Qm中维度值的最大值和最小值;Wm为第m个预设维度的预设权重,反应预设维度m对标准属性值的影响程度;Fk为数据ID为k的待标注数据的标准属性值,取值范围为[0,1],所述预设维度和每一个预设维度对应的预设权重与标签的标注逻辑有关;基于所述预设计算模型遍历所有的待标注数据以获取每一个待标注数据的标准属性值。
示例性的,假设所述标签包括“业务能力高,业务能力中,业务能力低”三个子标签,依据所述标签的标注逻辑,所述标签对应的预设维度包括与业务能力相关的“同行评价”、“顾客评价”共两种预设维度,获取两种预设维度对应的数值型维度数据集Q1,Q2,同样依据标签的标注逻辑分别获取两种预设维度对应的预设权重W1=0.4,W2=0.6,则依据所述业务能力高、业务能力中、业务能力低的标签对应的预设计算模型计算数据ID为k的待标注数据的标准属性值如下:
其中Fk为数据ID为k的待标注数据的标准属性值,分别为数据ID为k的待标注数据在数值型维度数据集Q1,Q2中的维度值。
如此,能够依据标签的具体标注逻辑灵活设计预设计算模型,进而获取每一个待标注数据的标准属性值,标准属性值可以准确反应待标注数据与标签相关联的特征,从而提高后续数据的批量标注的准确性。
S15,依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
在一个可选的实施例中,若标签类型为数值标签,则依据数据ID获取每一个待标注数据的标准属性值,将所述标准属性值与预设区间进行对比,若所述标准属性值位于预设区间内,将所述预设区间对应的标签作为所述标准属性值对应的待标注数据的标注结果。
示例性的,假设数值标签包括“中年、老年、青年”三个子标签,设定青年的预设区间为[0.18,0.3],中年的预设区间为(0.3,0.6],老年的预设区间为(0.6,1],则依据数据ID获取每一个待标注数据的标准属性值,若所述标准属性值位于预设区间[0.18,0.3]内,则所述标准属性值对应的待标注数据的标注结果为青年。
该可选的实施例中,若所述标签类型为排名标签,对所有标准属性值按照从大到小的顺序进行排列以获取每一个待标注数据的排名,将所述待标注数据的排名与预设排名区间进行对比,若所述待标注数据的排名位于预设排名区间内,将所述预设排名区间对应的标签作为所述待标注数据的标注结果。
示例性的,假设排名标签包括“业务能力高,业务能力中,业务能力低”三个子标签,设定待标注数据的排名位于前20%时认为业务能力高,则子标签“业务能力高”的预设排名区间为[0,20%],同理,设定子标签“业务能力中”的预设排名区间为(20%,60%],子标签“业务能力低”的预设排名区间为(60%,1],则依据数据ID获取每一个待标注数据的排名,若所述排名位于预设排名区间(20%,60%]内,则所述待标注数据的标注结果为业务能力中。
如此,依据标签类型和所述待标注数据的标准属性值实现数据的批量标注,可依据不同标签的标注逻辑灵活调整预设区间,获取准确的数据标注结果。
请参见图3,图3是本申请基于人工智能的数据批量标注装置的较佳实施例的功能模块图。基于人工智能的数据批量标注装置11包括查询单元110、分类单元111、训练单元112、映射单元113、计算单元114、标注单元115。本申请所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
在一个可选的实施例中,查询单元110用于获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值。
在一个可选的实施例中,依据ETL的数据抽取任务从不同的数据源中采集所有待标注数据,所述数据源可以是表、文件、http接口等所述待标注数据的所有来源,所述待标注数据包括数据ID和不同维度的维度值,所述数据ID为待标注数据的唯一标识,可以是字母也可以是数字,本申请不做限制,所述不同维度反应了待标注数据的不同属性,如年龄、成绩、性别等。其中,ETL即Extract Transform Load,描述数据抽取、转换、加载的过程,所述数据抽取任务可以支持任何类型的数据输入。
该可选的实施例中,依据标签的标注逻辑确定预设维度,所述预设维度可以是一个也可以是多个。示例性的,若所述标签包括“中年、老年、青年”三个子标签,则预设维度仅包括年龄一个维度;若所述标签包括“业务能力高,业务能力中,业务能力低”三个子标签,由于业务能力为综合指标,仅凭借单一维度的维度值很难准确判断业务能力的高低,则预设维度包括与业务能力相关的所有维度,比如“同行评价”、“顾客评价”、“管理者评价”等。
该可选的实施例中,通过智能搜索引擎在所述待标注数据的所有维度中搜索预设维度的固定字段来提取每一个待标注数据的数据ID和预设维度对应的维度值,进一步,存储相同维度的所有维度值以及维度值对应的数据ID以构成所述维度的维度数据集,所述维度数据集与所述预设维度一一对应。其中,所述智能搜索是结合了人工智能技术的新一代搜索引擎,该引擎除了能提供传统的快速检索、相关度排序等功能,还能提供内容的语义理解、关键词信息筛选和推送等功能。
在一个可选的实施例中,分类单元111用于基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集。
在一个可选的实施例中,所述基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,包括:
计算每一个维度数据集中数值型维度值数量的占比;
若所述占比等于1,则所述维度数据集的分类结果为数值型维度数据集;
若所述占比不等于1,则所述维度数据集的分类结果为非数值型维度数据集。
在一个可选的实施例中,所述数值型维度数据集中的维度值全为数值型维度值,可直接进行加、减、乘、除的运算以及大小的比较,所述数值型维度值包括整型维度值、单精度型维度值和双精度型维度值;所述非数值型维度数据集中的维度值存在非数值型维度值,是不可直接运算的字符,所述非数值型维度值包括字符型维度值、布尔型维度值以及字符串型维度值。
示例性的,假设年龄维度对应的维度数据集为{25,23,22},即所有维度值均为数字型,则所述维度数据集为数值型维度数据集;由于维度数据集中的维度值来自不同数据源,不能保障所有维度值均为数字型,故若年龄维度对应的维度数据集为{25,二十三,twenty-two}时,则所述维度数据集为非数值型维度数据集。
在一个可选的实施例中,训练单元112用于当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型。
在一个可选的实施例中,所述依据预设的损失函数和所述非数值型维度数据集训练映射模型,包括:
搭建映射模型,所述映射模型由LSTM模型和全连接层串联而成;
挑选所述非数值型维度数据集中任意两个维度值构成样本对,并基于两个维度值的内容获取所述样本对的标签;
将所有样本对以及所述样本对的标签作为训练数据集;
依据预设的损失函数和所述训练数据集训练所述映射模型。
该可选的实施例中,将所述非数值型维度数据集中的维度值作为训练数据,依据预设的损失函数训练映射模型,所述映射模型可以将非数值型维度数据集中的维度值映射为数值型维度值,由于不同维度的内容不同,为了保证映射模型输出的正确性,所述映射模型与所述非数值型维度数据集一一对应,本申请中所述映射模型由LSTM模型和全连接网络构成。
该可选的实施例中,所述LSTM模型为长短时记忆模型,可以获取文本数据的短时特征向量和长时特征向量,所述文本数据由多个文本参数构成,所述短时特征向量反应文本数据某一文本参数的特征,所述长时特征向量反应文本数据的总体特征。所述LSTM模型由多个细胞串联而成,第t个细胞的输入包括三部分:第t-1个细胞的短时特征向量ht-1、长时特征向量Ct-1以及文本数据中第t个文本参数Xt;第t个细胞的输出包括两部分:第t个细胞的短时特征向量ht以及长时特征向量Ct,所述第t个细胞的计算公式如下:
ft(ht-1,Ct-1,Xt)=ht,Ct
其中,ft表示所述LSTM模型中第t个细胞,ht为短时特征向量,可以反应所述文本数据中第t个文本参数Xt的特征;Ct为长时特征向量,可以反应所述文本数据中从起始文本参数到第t个文本参数Xt的总体特征。
该可选的实施例中,获取所述LSTM最后一个细胞输出的长时特征向量作为目标向量,所述目标向量的尺寸为N行1列,其中,N由所述LSTM的网络结构决定,所述目标向量可以反应所述LSTM输出的文本数据的总体特征;进一步将目标向量送入全连接网络,所述全连接网络包括输入层、多个中间层和输出层三部分,所述输入层包括N个神经元,用于接收所述目标向量,该可选的实施例中所述中间层的数量为三层,每个中间层中神经元的数量只需满足逐层递减即可,所述输出层包括一个神经元,用于获取输出结果,所述输出结果可以表征所述LSTM模型输入的文本数据,输出结果的取值范围为[0,1]。至此,完成所述映射模型的搭建,所述映射模型的结构示意图如图2所示。
该可选的实施例中,将所述非数值型维度数据集中的维度值两两配对获取多组样本对,人为的获取每组样本对的标签,若所述样本对中的两个维度值属于相同类别,则所述样本对的标签为1,若样本对中的两个维度值不属于相同类别,则所述样本对的标签为0。示例性的,假设样本对中两个维度值分别为25和twenty-five,表示两个不同数据类型的维度值对应的内容相同,则两个维度值属于相同类别,所述样本对的标签为1,假设样本对中两个维度值分别为25和二十三,表示两个不同数据类型的维度值对应的内容不同,则两个维度值不属于相同类别,所述样本对的标签为0。需要说明的是,该步骤不需要获取每一个维度值对应的真实标签,只需要判断所述样本对中两个维度值是否属于相同类别即可。
该可选的实施例中,所述依据预设的损失函数和所述训练数据集训练所述映射模型包括:
搭建结构相同且参数共享的两个映射模型;
将每组样本对中的两个维度值分别输入两个映射模型中得到第一输出结果和第二输出结果;
基于预设的损失函数计算所述第一输出结果和所述第二输出结果以获取所述映射模型的损失值;
基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成训练。
该可选的实施例中,将多组样本对以及样本对对应的标签作为训练数据训练所述映射模型。在训练过程中,将每组样本对中的两个维度值分别输入两个映射模型中得到第一输出结果和第二输出结果,由于第一映射模型和第二映射模型的参数是共享的,故所述两个维度值的处理过程是完全相同的。
该可选的实施例中,若所述样本对的标签为1,则所述样本对中的两个维度值属于相同类别,所述第一输出结果和所述第二输出结果的差值应该为0;若所述样本对的标签为0,则所述样本对中的两个维度值的类别不同,所述第一输出结果和所述第二输出结果的差值应该较大,所述差值越大则表示不同类别之间差异越大,为使所述映射模型的输出结果满足上述关系,故预设的损失函数为:
其中,N为训练过程中一个批次数据的数据量,即输入N组样本对后计算一次损失函数值;为第i组样本对的标签,取值为0或1;Di为第i组样本对中第一输出结果/>和第二输出结果/>的欧式距离,满足关系式:/>Y为预设阈值,所述预设阈值越大表示不同类别的维度值对应的输出结果之间差异越大,所述预设阈值的取值为0.05。
该可选的实施例中,基于预设的损失函数计算所述映射模型的损失值,基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成所述非数值型维度数据集对应的映射模型的训练。
该可选的实施例中,所述映射模型与所述非数值型维度数据集一一对应,所述映射模型训练完毕后,后续可直接调用所述非数值型维度数据集对应的映射模型,无需再次训练。需要说明的是,调用过程中只需要调用两个参数共享的映射模型中的任意一个即可。
在一个可选的实施例中,映射单元113用于基于映射模型将所述非数值型维度数据集映射为数值型维度数据集。
在一个可选的实施例中,获取所述非数值型维度数据集对应的映射模型,将所述非数值型维度数据集中的每一个维度值输入到映射模型中得到输出结果,所述输出结果为数值型数据,取值范围为[0,1],将所述非数值型维度数据集映射为数值型维度数据集,按照同样的方法可以将所有的非数值型维度数据集映射为对应的数值型维度数据集。
在一个可选的实施例中,计算单元114用于依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值。
在一个可选的实施例中,借助每一个非数值型维度数据的映射模型将所有的非数值型维度数据的映射为数值型维度数据集,至此可以得到每一个预设维度对应的数值型维度数据集;所述数值型维度数据集与所述预设维度一一对应,所述数值型维度数据集包括待标注数据的数据ID以及所述数据ID对应的维度值,所述预设计算模型与标签的标注逻辑有关,不同标签对应的预设维度和每一个预设维度对应的预设权重不同,从而导致不同标签的预设计算模型不同。以数据ID为k的待标注数据为例,所述数据ID与待标注数据一一对应,依据要标注的标签获取所述数据ID为k的待标注数据对应的预设维度,提取所述待标注数据在不同维度数据集中的维度值,则依据所述预设计算模型计算数据ID为k的待标注数据的标准属性值Fk的计算过程如下:
其中,M表示标签对应的预设维度的数量;Qm表示第m个预设维度对应的数值型维度数据集;表示所述数值型维度数据集Qm中数据ID为k的待标注数据的维度值;max(Qm),min(Qm)分别为所述数值型维度数据集Qm中维度值的最大值和最小值;Wm为第m个预设维度的预设权重,反应预设维度m对标准属性值的影响程度;Fk为数据ID为k的待标注数据的标准属性值,取值范围为[0,1],所述预设维度和每一个预设维度对应的预设权重与标签的标注逻辑有关;基于所述预设计算模型遍历所有的待标注数据以获取每一个待标注数据的标准属性值。
示例性的,假设所述标签包括“业务能力高,业务能力中,业务能力低”三个子标签,依据所述标签的标注逻辑,所述标签对应的预设维度包括与业务能力相关的“同行评价”、“顾客评价”共两种预设维度,获取两种预设维度对应的数值型维度数据集Q1,Q2,同样依据标签的标注逻辑分别获取两种预设维度对应的预设权重W1=0.4,W2=0.6,则依据所述业务能力高、业务能力中、业务能力低的标签对应的预设计算模型计算数据ID为k的待标注数据的标准属性值如下:
其中Fk为数据ID为k的待标注数据的标准属性值,分别为数据ID为k的待标注数据在数值型维度数据集Q1,Q2中的维度值。
在一个可选的实施例中,标注单元115用于依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
在一个可选的实施例中,若标签类型为数值标签,则依据数据ID获取每一个待标注数据的标准属性值,将所述标准属性值与预设区间进行对比,若所述标准属性值位于预设区间内,将所述预设区间对应的标签作为所述标准属性值对应的待标注数据的标注结果。
示例性的,假设数值标签包括“中年、老年、青年”三个子标签,设定青年的预设区间为[0.18,0.3],中年的预设区间为(0.3,0.6],老年的预设区间为(0.6,1],则依据数据ID获取每一个待标注数据的标准属性值,若所述标准属性值位于预设区间[0.18,0.3]内,则所述标准属性值对应的待标注数据的标注结果为青年。
该可选的实施例中,若所述标签类型为排名标签,对所有标准属性值按照从大到小的顺序进行排列以获取每一个待标注数据的排名,将所述待标注数据的排名与预设排名区间进行对比,若所述待标注数据的排名位于预设排名区间内,将所述预设排名区间对应的标签作为所述待标注数据的标注结果。
示例性的,假设排名标签包括“业务能力高,业务能力中,业务能力低”三个子标签,设定待标注数据的排名位于前20%时认为业务能力高,则子标签“业务能力高”的预设排名区间为[0,20%],同理,设定子标签“业务能力中”的预设排名区间为(20%,60%],子标签“业务能力低”的预设排名区间为(60%,1],则依据数据ID获取每一个待标注数据的排名,若所述排名位于预设排名区间(20%,60%]内,则所述待标注数据的标注结果为业务能力中。
由以上技术方案可以看出,本申请能够从不同数据源中获取待标注数据,并依据映射模型将待标注数据中不同维度的非数值型维度值映射为数值型维度值,进一步可依据标签的标注逻辑灵活设计计算模型,对数值型维度值进行计算以标准属性值,标准属性值可以准确反应待标注数据与标签相关联的特征,进而提高数据的批量标注的准确性。
请参见图4,是本申请实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令,处理器13用执行所述储器中存储的计算机可读指令以实现上述任一实施例所述的基于人工智能的数据批量标注方法。
在一个可选的实施例中,电子设备1还包括总线、存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于人工智能的数据批量标注程序。
图4仅示出了具有存储器12和处理器13的电子设备1,本领域技术人员可以理解的是,图4示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
结合图1,电子设备1中的所述存储器12存储多个计算机可读指令以实现一种基于人工智能的数据批量标注方法,所述处理器13可执行所述多个指令从而实现:
获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值;
基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集;
当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型;
基于映射模型将所述非数值型维度数据集映射为数值型维度数据集;
依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值;
依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,电子设备1可以是总线型结构,也可以是星形结构,电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如电子设备1还可以包括输入输出设备、网络接入设备等。
需要说明的是,电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质可以是非易失性的,也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的数据批量标注程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于人工智能的数据批量标注程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于人工智能的数据批量标注方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如,所述计算机程序可以被分割成查询单元110、分类单元111、训练单元112、映射单元113、计算单元114、标注单元115。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(Processor)执行本申请各个实施例所述的基于人工智能的数据批量标注方法的部分。
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存储器及其他存储器等。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图4中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
本申请实施例还提供一种计算机可读存储介质(图未示),计算机可读存储介质中存储有计算机可读指令,计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的数据批量标注方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (8)
1.一种基于人工智能的数据批量标注方法,其特征在于,所述方法包括:
获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值;
基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集;
当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型包括:搭建映射模型,所述映射模型由LSTM模型和全连接层串联而成;挑选所述非数值型维度数据集中任意两个维度值构成样本对,并基于两个维度值的内容获取所述样本对的标签;将所有样本对以及所述样本对的标签作为训练数据集;依据预设的损失函数和所述训练数据集训练所述映射模型;
基于映射模型将所述非数值型维度数据集映射为数值型维度数据集;
依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值;所述预设计算模型满足关系式:
其中,M表示标签对应的预设维度的数量;Qm表示第m个预设维度对应的数值型维度数据集;表示所述数值型维度数据集Qm中数据ID为k的待标注数据的维度值;max(Qm),min(Qm)分别为所述数值型维度数据集Qm中维度值的最大值和最小值;Wm为第m个预设维度的预设权重,反映预设维度m对标准属性值的影响程度;Fk为数据ID为k的待标注数据的标准属性值,取值范围为[0,1],所述预设维度和每一个预设维度对应的预设权重与标签的标注逻辑有关;
依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
2.如权利要求1所述的基于人工智能的数据批量标注方法,其特征在于,所述基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,包括:
计算每一个维度数据集中数值型维度值数量的占比;
若所述占比等于1,则所述维度数据集的分类结果为数值型维度数据集;
若所述占比不等于1,则所述维度数据集的分类结果为非数值型维度数据集。
3.如权利要求1所述的基于人工智能的数据批量标注方法,其特征在于,所述依据预设的损失函数和所述训练数据集训练所述映射模型包括:
搭建结构相同且参数共享的两个映射模型;
将每组样本对中的两个维度值同时输入两个映射模型中得到第一输出结果和第二输出结果;
基于预设的损失函数计算所述第一输出结果和所述第二输出结果以获取所述映射模型的损失值;
基于梯度下降法不断迭代更新所述映射模型中的参数以获取新的损失值,直到损失函数的数值不再降低时停止迭代,完成训练。
4.如权利要求3所述的基于人工智能的数据批量标注方法,其特征在于,所述预设的损失函数满足关系式:
其中,N为训练过程中一个批次数据的数据量,即输入N组样本对后计算一次损失函数值;为第i组样本对的标签,取值为0或1;Di为第i组样本对中第一输出结果/>和第二输出结果/>的欧式距离,满足关系式:/>Y为预设阈值,所述预设阈值越大表示不同类别的维度值对应的输出结果之间差异越大,所述预设阈值的取值为0.05。
5.如权利要求1所述的基于人工智能的数据批量标注方法,其特征在于,所述依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签包括:
若标签类型为数值标签,则将所述标准属性值与预设区间进行对比,若所述标准属性值位于预设区间内,将所述预设区间对应的标签作为所述标准属性值对应的待标注数据的标注结果;
若所述标签类型为排名标签,对所有标准属性值按照从大到小的顺序进行排列以获取每一个待标注数据的排名,将所述待标注数据的排名与预设排名区间进行对比,若所述待标注数据的排名位于预设排名区间内,将所述预设排名区间对应的标签作为所述待标注数据的标注结果。
6.一种基于人工智能的数据批量标注装置,其特征在于,所述装置包括:
查询单元,用于获取待标注数据,并依据预设维度查询所述待标注数据得到每一个预设维度的维度数据集,所述维度数据集中包括每一个待标注数据的数据ID和所述维度的维度值;
分类单元,用于基于数值型维度值的占比对所述维度数据集进行分类得到分类结果,所述分类结果包括数值型维度数据集和非数值型维度数据集;
训练单元,用于当所述分类结果为非数值型维度数据集时,依据预设的损失函数和所述非数值型维度数据集训练映射模型包括:搭建映射模型,所述映射模型由LSTM模型和全连接层串联而成;挑选所述非数值型维度数据集中任意两个维度值构成样本对,并基于两个维度值的内容获取所述样本对的标签;将所有样本对以及所述样本对的标签作为训练数据集;依据预设的损失函数和所述训练数据集训练所述映射模型;
映射单元,用于基于映射模型将所述非数值型维度数据集映射为数值型维度数据集;
计算单元,用于依据预设计算模型计算所有数值型维度数据集中的维度值得到每一个待标注数据的标准属性值;所述预设计算模型满足关系式:
其中,M表示标签对应的预设维度的数量;Qm表示第m个预设维度对应的数值型维度数据集;表示所述数值型维度数据集Qm中数据ID为k的待标注数据的维度值;max(Qm),min(Qm)分别为所述数值型维度数据集Qm中维度值的最大值和最小值;Wm为第m个预设维度的预设权重,反映预设维度m对标准属性值的影响程度;Fk为数据ID为k的待标注数据的标准属性值,取值范围为[0,1],所述预设维度和每一个预设维度对应的预设权重与标签的标注逻辑有关;标注单元,用于依据预设标签类型和所述标准属性值对待标注数据进行标注以获取标注结果,所述标签类型包括数值标签和排名标签。
7.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至5中任意一项所述的基于人工智能的数据批量标注方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的基于人工智能的数据批量标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210378553.5A CN114706927B (zh) | 2022-04-12 | 2022-04-12 | 基于人工智能的数据批量标注方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210378553.5A CN114706927B (zh) | 2022-04-12 | 2022-04-12 | 基于人工智能的数据批量标注方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114706927A CN114706927A (zh) | 2022-07-05 |
CN114706927B true CN114706927B (zh) | 2024-05-03 |
Family
ID=82174362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210378553.5A Active CN114706927B (zh) | 2022-04-12 | 2022-04-12 | 基于人工智能的数据批量标注方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114706927B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144120A (zh) * | 2019-12-27 | 2020-05-12 | 北京知道创宇信息技术股份有限公司 | 一种训练语句的获取方法、装置、存储介质及电子设备 |
CN111680895A (zh) * | 2020-05-26 | 2020-09-18 | 中国平安财产保险股份有限公司 | 数据自动标注方法、装置、计算机设备及存储介质 |
CN112215336A (zh) * | 2020-09-30 | 2021-01-12 | 招商局金融科技有限公司 | 基于用户行为的数据标注方法、装置、设备及存储介质 |
CN113570286A (zh) * | 2021-09-24 | 2021-10-29 | 平安科技(深圳)有限公司 | 基于人工智能的资源分配方法、装置、电子设备及介质 |
WO2021238337A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 用于实体标注的方法和装置 |
-
2022
- 2022-04-12 CN CN202210378553.5A patent/CN114706927B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144120A (zh) * | 2019-12-27 | 2020-05-12 | 北京知道创宇信息技术股份有限公司 | 一种训练语句的获取方法、装置、存储介质及电子设备 |
CN111680895A (zh) * | 2020-05-26 | 2020-09-18 | 中国平安财产保险股份有限公司 | 数据自动标注方法、装置、计算机设备及存储介质 |
WO2021238337A1 (zh) * | 2020-05-29 | 2021-12-02 | 华为技术有限公司 | 用于实体标注的方法和装置 |
CN112215336A (zh) * | 2020-09-30 | 2021-01-12 | 招商局金融科技有限公司 | 基于用户行为的数据标注方法、装置、设备及存储介质 |
CN113570286A (zh) * | 2021-09-24 | 2021-10-29 | 平安科技(深圳)有限公司 | 基于人工智能的资源分配方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114706927A (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN110222709B (zh) | 一种多标签智能打标方法及系统 | |
CN110674312B (zh) | 构建知识图谱方法、装置、介质及电子设备 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
US20220101057A1 (en) | Systems and methods for tagging datasets using models arranged in a series of nodes | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN114416939A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113656690A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN114706927B (zh) | 基于人工智能的数据批量标注方法及相关设备 | |
CN114580354B (zh) | 基于同义词的信息编码方法、装置、设备和存储介质 | |
CN113591881B (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN116150185A (zh) | 基于人工智能的数据标准提取方法、装置、设备及介质 | |
CN114996400A (zh) | 裁判文书处理方法、装置、电子设备及存储介质 | |
CN113627186B (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN115169360A (zh) | 基于人工智能的用户意图识别方法及相关设备 | |
CN114706985A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN114818686A (zh) | 基于人工智能的文本推荐方法及相关设备 | |
CN114139530A (zh) | 同义词提取方法、装置、电子设备及存储介质 | |
CN114398877A (zh) | 基于人工智能的主题提取方法、装置、电子设备及介质 | |
JP2022111020A (ja) | 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置 | |
CN112597208A (zh) | 企业名称检索方法、企业名称检索装置及终端设备 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |