CN116049347A - 一种基于词融合的序列标注方法及相关设备 - Google Patents
一种基于词融合的序列标注方法及相关设备 Download PDFInfo
- Publication number
- CN116049347A CN116049347A CN202210726962.XA CN202210726962A CN116049347A CN 116049347 A CN116049347 A CN 116049347A CN 202210726962 A CN202210726962 A CN 202210726962A CN 116049347 A CN116049347 A CN 116049347A
- Authority
- CN
- China
- Prior art keywords
- data unit
- data units
- category
- model
- unclassified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 60
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 122
- 238000000034 method Methods 0.000 claims abstract description 98
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000009826 distribution Methods 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 9
- 239000013604 expression vector Substances 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 26
- 238000007726 management method Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000010295 mobile communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于词融合的序列标注方法及相关设备。根据该基于词融合的序列标注方法,对于简单词,端侧设备可以通过分类器模块以及词融合模块在表示模型部分逐层合并,从而改变上传至云侧的表示向量的数量。在一些可能的实现方式中,云侧设备也可以在表示模型部分进行合并。上述方式可以避免第三方拦截或云侧获取表示向量后,使用还原模型映射为用户隐私信息,从而规避隐私攻击。同时,因为随着层数增加,表示向量的数量缩减,因此可以减少上层网络的计算量,加速序列标注进程,实现更快的命名实体识别和信息抽取。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种基于词融合的序列标注方法及相关设备。
背景技术
在如今这个信息时代,自然语言处理(Natural Language Processing,NLP)正在成为人们生活中不可或缺的一部分。NLP的工作原理大概包括:(1)接收自然语言;(2)转译自然语言;(3)分析自然语言并输出结果。NLP可以让计算机“理解”自然语言,从而在语言方面实现人与计算机的交互,进一步的,使得利用计算机的数据处理量大、计算速度快、逻辑性强等优点来辅助人们更方便地获取信息变成可能。
序列标注(Sequence Labeling)任务是NLP中的重要一环。序列标注任务可以将语言序列转化为标注序列,由此作为许多自然语言处理任务的基础。序列标注任务,尤其是其包括的命名实体识别和槽位识别,通常包含隐私信息。在使用命名实体识别服务时,用户通常需要将文本或经过部分计算得到词表示发送给云侧进行后续处理。然而,发送给云侧的数据存在隐私泄漏的风险。
因此,如何保证隐私攻击者无法通过云侧接收的词表示还原出用户的隐私信息是现实世界中一个广受关注的问题。
发明内容
本申请提供了一种基于词融合的序列标注方法及相关设备。根据该基于词融合的序列标注方法,端侧设备可以根据数据单元对应的类别,对表示模型中的数据单元逐层合并,使得端侧设备上传至云侧的数据单元(包括表示向量和类别)的数量减少。这种方式可以避免第三方获取上传至云侧的数据单元并将其还原成用户隐私信息,从而规避隐私攻击。在一种可能的实现方式中,云测设备接收端侧设备发送的数据单元(包括表示向量和类别)之后,可以基于表示模型继续对该数据单元进行处理(例如,对数据单元进行合并等)。可理解,上述方式,比如对数据单元进行合并,在一定程度上可以减少计算量,加快序列标注进程。
第一方面,本申请提供一种基于词融合的序列标注方法。根据该方法,第一设备确定第一输入数据单元中的未分类数据单元。第一设备确定该未分类数据单元中的可分类数据单元,以及该可分类数据单元的类别,并基于第一输入数据单元中的已分类数据单元的类别和该可分类数据单元的类别,确定第一输入数据单元中的可合并数据单元。第一设备还可以对该可合并数据单元进行合并,得到合并后的数据单元。在满足预设条件的情况下,第一设备将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。其中,第一输入数据单元为输入到第l层表示模型的数据单元;l为正整数。每一个数据单元具有对应的表示向量和类别。
在本申请提供的方案中,第一设备可以确定第一输入数据单元(即输入到第l层表示模型的数据单元)中的未分类数据单元,并确定该未分类数据单元中的可分类数据单元,以及该可分类数据单元对应的类别。第一设备确定该可分类数据单元对应的类别后,第l层表示模型中的数据单元对应的类别得以更新。本申请中可以将该更新后的第l层表示模型中的数据单元记为第一更新数据单元。第一设备可以基于更新后的第l层表示模型中的数据单元(即第一更新数据单元)对应的类别,确定可合并数据单元,并对该可合并数据单元进行合并,从而得到合并后的数据单元。可理解,这里所提及的合并包括数据单元对应的表示向量的合并,以及数据单元对应的类别的合并。还需要说明的是,合并之后,第l层表示模型中的数据单元得以再次更新。本申请中可以将该再次更新后的第l层表示模型中的数据单元记为第二更新数据单元。可理解,第二更新数据单元可以包括合并后的数据单元和第一更新数据单元中未合并的数据单元。可理解,在满足预设条件的情况下,第一设备可以将当前的第l层表示模型中的数据单元(即第二更新数据单元)对应的表示向量和类别发送给第二设备。在本申请的一些实施例中,在满足预设条件的情况下,第一设备可以将当前的第l层表示模型中的数据单元发送给第二设备。可理解,当前的第l层表示模型中的数据单元可以包括表示向量和类别。这种方式可以避免第三方获取上传至云侧的数据单元并将其还原成用户隐私信息,从而规避隐私攻击。并且,上述方式中,第一设备可以对数据单元进行合并,在一定程度上可以减少计算量,加快序列标注进程,实现更快的命名实体识别和信息抽取。
可理解,未分类数据单元指的是未确定类别的数据单元。数据单元与输入到第一设备中的输入文本分词后的最小切分单元是对应的。数据单元可以包括表示向量和类别。数据单元包括的表示向量和类别可以理解为数据单元对应的表示向量和类别。第一设备可以包括多层表示模型。表示模型可以用于将输入文本分词后的最小切分单元转化为向量。可理解,表示模型用于对输入文本进行信息抽取,还可以将抽取的信息表示为向量。已分类数据单元指的是具有确定的类别的数据单元。
可理解,第一输入数据单元中的可合并数据单元可以理解为类别更新后的第一输入数据单元(即第一更新数据单元)中的可合并数据单元。
在本申请的一些实施例中,表示模型可以为序列标注模型中的模块。
结合第一方面,在一种可能的实现方式中,第一设备确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别,具体包括:第一设备确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布。第一设备确定未分类数据单元的不确定度。不确定度用于衡量所述未分类数据单元的类别的不确定性。第一设备确定未分类数据单元中的不确定度小于筛选阈值的未分类数据单元为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。
在本申请提供的方案中,可分类数据单元满足类别添加条件。在本申请的一些实施例中,类别添加条件为不确定度小于筛选阈值。也就是说,未分类数据单元中不确定度小于筛选阈值的数据单元为可分类数据单元。第一设备可以将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。通过这种方式,第一设备可以进一步确定第一输入数据单元中的部分或全部未分类数据单元的类别,便于后续进行类别的合并处理。
在本申请的一些实施例中,第一设备可以基于序列标注模型中的分类器模块进行上述分类处理。
在本申请的一些实施例中,在第l层表示模型为第一设备中的最高层表示模型的情况下,未分类数据单元中不确定度小于筛选阈值的数据单元为可分类数据单元。可理解,筛选阈值的相关描述可以参考后文,在此不展开说明。
可理解,本申请中所提及的未分类数据单元与候选类别集合中的类别相对应的概率指的是:未分类数据单元的类别为候选类别集合中的类别的概率。本申请中所提及的未分类数据单元对于所述候选类别集合的概率分布指的是:未分类数据单元的类别为候选类别集合中的若干类别时的概率分布情况。
结合第一方面,在一种可能的实现方式中,未分类数据单元的不确定度为所述概率分布的熵,或者,未分类数据单元的不确定度为1与未分类数据单元对应的概率分布中的最大概率的差值。
在本申请的一些实施例中,第一设备可以根据未分类数据单元对应的概率分布的熵来确定该未分类数据单元的不确定度。
在本申请的一些实施例中,第一设备还可以根据未分类数据单元对应的概率分布中的最大概率来确定该未分类数据单元的不确定度。具体地,第一设备可以确定1与未分类数据单元对应的概率分布中的最大概率的差值为该未分类数据单元的不确定度。第一设备还可以确定未分类数据单元对应的概率分布中的最大概率与1的差值的绝对值为该未分类数据单元的不确定度。当然,第一设备还可以通过其他方式确定数据单元的不确定度,本申请对此不作限制。
结合第一方面,在一种可能的实现方式中,第一设备确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别,具体包括:第一设备确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布。在第l层表示模型为序列标注模型的最高层表示模型的情况下,所述第一设备确定未分类数据单元均为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。可理解,序列标注模型可以部署在第一设备中,也可以部署在第一设备和第二设备中。
在本申请提供的方案中,可分类数据单元满足类别添加条件。在本申请的一些实施例中,类别添加条件为第l层表示模型为序列标注模型的最高层表示模型。也就是说,在第l层表示模型为序列标注模型的最高层表示模型的情况下,未分类数据单元可以均为可分类数据单元。第一设备可以将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。通过这种方式,第一设备可以进一步确定第一输入数据单元中的部分或全部未分类数据单元的类别,便于后续进行类别的合并处理。
在本申请的一些实施例中,第一设备可以基于序列标注模型中的分类器模块进行上述分类处理。
可理解,候选类别集合包括数据单元对应的若干候选类别。数据单元的类别表示方式可以参考后文,在此不展开说明。
结合第一方面,在一种可能的实现方式中,可合并数据单元为第一输入数据单元中的类别对应的实体一致,且位置相邻的数据单元。第一设备对可合并数据单元进行合并,得到合并后的数据单元,具体包括:第一设备基于合并规则对可合并数据单元对应的类别进行合并,以及基于合并模型对可合并数据单元对应的表示向量进行合并,得到合并后的类别和表示向量。合并后的类别和表示向量与合并后的数据单元相对应。合并规则包括合并前的数据单元的类别和合并后的数据单元的类别的对应关系。合并模型可以为神经网络模型。
在本申请提供的方案中,在满足合并规则的情况下,第一设备可以对第一输入数据单元中的类别对应的实体一致,且位置相邻的数据单元(即可合并数据单元)进行合并。具体地,第一设备可以基于合并规则对可合并数据单元对应的类别进行合并,以及基于合并模型对可合并数据单元对应的表示向量进行合并。可理解,多个可合并数据单元可以合并为更少的数据单元。例如,第一输入数据单元中存在5个可合并数据单元,前2个可合并数据单元可以合并为1个数据单元,后3个可合并数据单元可以合并为1个数据单元。这种方式可以避免第三方获取上传至云侧的数据单元并将其还原成用户隐私信息,从而规避隐私攻击。由于合并后数据单元减少,这种方式还可以在一定程度上减少计算量,加快序列标注进程。
在本申请的一些实施例中,合并模型用于对数据单元对应的向量进行合并。合并模型可以由多层感知机、采样(pooling)层、全连层和卷积层等模型中的一个或多个组成。多层感知机、pooling层、全连层和卷积层的相关描述可以参考相关技术文档,本申请对此不展开说明。当然,合并模型还可以包括其他类型的神经网络模型,本申请对此不作限制,具体可参见相关技术文档。
可理解,合并规则和合并模型可以参考后文,在此不展开说明。
在本申请的一些实施例中,第一设备可以基于序列标注模型中的词融合模块进行上述合并处理。
结合第一方面,在一种可能的实现方式中,第一设备对可合并数据单元进行合并之后,该方法还包括:第一设备可以对合并的过程进行记录,并保存合并记录。合并记录可以包括合并次数和合并的数据单元的位置。合并的数据单元的位置包括合并前的数据单元的位置和合并后的数据单元的位置。
在本申请提供的方案中,第一设备可以保存合并记录,以便后续还原输入文本分词后的最小切分单元对应的类别,以及调整部署在第一设备的表示模型的层数。合并次数可以包括表示模型中的数据单元的合并总次数。合并次数还可以包括每一层表示模型中的数据单元的合并次数。可理解,合并记录可以包括每一层表示模型中合并前的数据单元的位置和合并后的数据单元的位置,以及相应的表示模型的层数。
结合第一方面,在一种可能的实现方式中,预设条件可以包括:第l层表示模型为第一设备中的最高层表示模型。
在本申请提供的方案中,第一设备中的最高层表示模型可以预先设置。在第l层表示模型为所述第一设备中的最高层表示模型的情况下,第一设备可以将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。
在本申请的一些实施例中,序列标注模型的前l层表示模型部署在第一设备中,后x层表示模型部署在第二设备中。也就是说,第一设备中存储有序列标注模型的前l层表示模型的参数,而第二设备中存储有序列标注模型的后x层表示模型的参数。可理解,l和x的值可以预先设置,本申请对此不作限制。预先设置l和x的值的考虑因素可以为端侧计算压力、平均端到端时延和隐私预算等因素中的一个或多个。需要说明的是,第一设备和第二设备中还可以包括相应的分类器模块和词融合模块的参数。
示例性的,l=3,x=4。也就是说,序列标注模型共包括7层表示模型。其中,前3层表示模型部署在第一设备中,后4层表示模型部署在第二设备中。
结合第一方面,在一种可能的实现方式中,预设条件还包括:合并次数超过预设合并次数,或者,当前的第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值;初始数据单元为输入到第一层表示模型的数据单元。
在本申请提供的方案中,在合并次数超过预设合并次数,或者,当前的第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值的情况下,第一设备可以将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。可理解,初始数据单元为输入到第一设备中的第一层表示模型的数据单元,也可以理解为输入到序列标注模型的第一层表示模型的数据单元。在本申请的一些实施例中,初始数据单元的数量与token的数量是一样的。即初始数据单元的数量与输入文本分词后的最小切分单元的数量是一样的。
可理解,预设合并次数和预设比值的相关描述可以参考后文,在此不展开说明。
在本申请的一些实施例中,第一设备和第二设备均包括序列标注模型的全部参数。例如,第一设备和第二设备均包括序列标注模型的每一层表示模型的模型参数。部署在第一设备和第二设备中的表示模型的层数是动态变化的。例如,在合并次数超过预设合并次数,或者,当前的第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值的情况下,第一设备可以将当前这一层表示模型中的数据单元对应的表示向量和类别发送给第二设备。
示例性的,序列标注模型共包括7层表示模型。第一设备在对输入到第3层表示模型的数据单元进行处理(例如,分类、合并等)之后,可以确定合并次数超过预设合并次数。在这种情况下,第一设备可以将当前第3层表示模型中的数据单元发送给第二设备。可理解,数据单元可以包括表示向量和类别。这也就意味着,第一设备将当前的第3层表示模型中的数据单元对应的表示向量和类别发送给第二设备。相应的,第二设备接收该数据单元之后,可以将该数据单元作为第4层表示模型的输入。值得注意的是,这里所提及的第4层表示模型指的是整个序列标注模型的第4层表示模型。可理解,第二设备可以基于序列标注模型后4层表示模型的模型参数,来对接收的数据单元进行处理,并将处理后的结果返回给第一设备。
示例性的,序列标注模型共包括7层表示模型。输入到序列标注模型的第一层表示模型的数据单元的数量为6。第一设备在对输入到第3层表示模型的数据单元进行处理(例如,分类、合并等)之后,可以确定当前的第3层表示模型中的数据单元的数量为3。当前的第3层表示模型中的数据单元的数量与初始数据单元的数量的比值为1/2。预设比值为2/3,而1/2<2/3。在这种情况下,第一设备可以将当前第3层表示模型中的数据单元发送给第二设备。可理解,数据单元可以包括表示向量和类别。这也就意味着,第一设备将当前的第3层表示模型中的数据单元对应的表示向量和类别发送给第二设备。相应的,第二设备接收该数据单元之后,可以将该数据单元作为第4层表示模型的输入。值得注意的是,这里所提及的第4层表示模型指的是整个序列标注模型的第4层表示模型。可理解,第二设备可以基于序列标注模型后4层表示模型的模型参数,来对接收的数据单元进行处理,并将处理后的结果返回给第一设备。
结合第一方面,在一种可能的实现方式中,预设条件还包括:l满足预设层数范围。
在本申请提供的方案中,在l满足预设层数范围的情况下,合并次数超过预设合并次数,或者,当前的第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值,第一设备可以将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。
在本申请的一些实施例中,第一设备和第二设备均包括序列标注模型的全部参数。例如,第一设备和第二设备均包括序列标注模型的每一层表示模型的模型参数。部署在第一设备和第二设备中的表示模型的层数是动态变化的。但是,部署在第一设备和第二设备中的表示模型的层数的范围是预先设置的。例如,在当前的表示模型的层数满足预设层数范围的情况下,一旦合并次数超过预设合并次数,或者,当前的第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值,第一设备可以将当前层表示模型中的数据单元对应的表示向量和类别发送给第二设备。但是,在当前的表示模型的层数为预设层数范围的最高层的情况下,第一设备不考虑合并次数,以及当前层表示模型中的数据单元与初始数据单元的数量的比值,第一设备可以将当前层表示模型中的数据单元对应的表示向量和类别发送给第二设备。
可理解,预设层数范围的相关描述可以参考后文,在此不展开说明。
需要说明的是,预设条件可以包括后文所提及的上传条件。
结合第一方面,在一种可能的实现方式中,在不满足预设条件的情况下,第一设备可以将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第l+1层表示模型。
在本申请提供的方案中,在不满足预设条件的情况下,第一设备可以将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第l+1层表示模型,并将其作为第l+1层表示模型的输入。第一设备还可以对输入到第l+1层表示模型的数据单元进行上文所述的处理。这种方式可以通过多层表示模型逐层提取信息,为后续分类和合并做准备。
结合第一方面,在一种可能的实现方式中,第一设备将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备之后,该方法还包括:第一设备可以接收第二设备发送的第m层表示模型中的数据单元对应的类别和更新后的合并记录。第一设备还可以基于第m层表示模型中的数据单元对应的类别和更新后的合并记录还原输入到第一设备的文本分词后的最小切分单元对应的类别。其中,第m层表示模型为第二设备中的最高层表示模型。更新后的合并记录包括第一设备中的表示模型中的数据单元的合并记录和第二设备中的表示模型中的数据单元的合并记录。
在本申请提供的方案中,序列标注模型可以一部分部署在端侧,一部分部署在云侧。可理解,端侧设备(即第一设备)可以将若干表示向量和类别发送给云侧设备,云侧设备也可以进行相应的处理。例如,云侧设备(即第二设备)可以继续通过表示模型、分类器模块和词融合模块进行信息提取、分类和合并等。相应的,端侧设备可以接收云侧设备发送的类别和合并记录,并基于该类别和合并记录对输入文本分词后的最小切分单元的类别进行还原。可理解,输入文本分词后的最小切分单元可以为单词,也可以理解为后文提及的实体。
第二方面,本申请提供了一种基于词融合的序列标注方法。该方法可以包括:第二设备接收第一设备发送的第二输入数据单元。第二设备对第二输入数据单元进行处理,得到处理后的数据单元。第二设备将处理后的数据单元对应的类别发送给第一设备。其中,第二输入数据单元为第一设备中的最高层表示模型输出的数据单元。每一个数据单元具有对应的表示向量和类别。处理后的数据单元包括处理后的数据单元对应的类别。
在本申请提供的方案中,第二设备(即云侧设备)可以接收第一设备(即端侧设备)发送的第二输入数据单元,并对第二输入数据单元进行处理,并将处理后的数据单元对应的类别发送给第一设备。第二设备对第二输入数据单元进行的处理可以包括:第二设备对第二输入数据单元对应的表示向量和类别进行处理。例如,合并处理。这种方式可以减少端侧的计算压力,加快序列标注进程。
结合第二方面,在一种可能的实现方式中,第二设备对第二输入数据单元进行处理,具体包括:第二设备可以确定第二输入数据单元中的未分类数据单元。可理解,第二输入数据单元为输入到第m层表示模型的数据单元。m为正整数。第二设备还可以确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别,并基于第二输入数据单元中的已分类数据单元的类别和可分类数据单元的类别,确定第二输入数据单元中的可合并数据单元。第二设备还可以对可合并数据单元进行合并,得到合并后的数据单元。
在本申请提供的方案中,第二设备可以对表示模型中的数据单元进行合并,合并后数据单元的数量减少,减少了计算压力,加快了序列标注进程。
在本申请的一些实施例中,第m层表示模型可以理解为整个序列标注模型的第m层表示模型。
在本申请的一些实施例中,第m层表示模型可以理解为部署在第二设备中的第m层表示模型。例如,整个序列标注模型的第5层表示模型到第10层表示模型部署在第二设备中。整个序列标注模型的第5层表示模型可以理解为部署在第二设备中的第1层表示模型。
结合第二方面,在一种可能的实现方式中,得到合并后的数据单元之后,该方法还包括:
在第m层表示模型为第二设备中的最高层表示模型的情况下,处理后的数据单元为当前的第m层表示模型中的数据单元。在第m层表示模型不为第二设备中的最高层表示模型的情况下,第二设备可以将当前的第m层表示模型中的数据单元发送给第m+1层表示模型。
在本申请提供的方案中,云侧设备(即第二设备)也可以部署有多层表示模型,从而减小端侧设备的计算压力。
可理解,当前的第m层表示模型中的数据单元包括合并后的数据单元和第二输入数据单元中的未合并数据单元。可理解,这里所提及的未合并数据单元可以为类别更新后的第二输入数据单元中的未合并数据单元。
结合第二方面,在一种可能的实现方式中,第二设备对可合并数据单元进行合并之后,该方法还包括:第二设备保存合并记录。合并记录包括合并的数据单元的位置。合并的数据单元的位置包括合并前的数据单元的位置和合并后的数据单元的位置。得到处理后的数据单元之后,该方法还包括:第二设备将合并记录发送给第一设备。
在本申请提供的方案中,云侧设备(即第二设备)还可以将合并记录发送给第一设备,以便后续对输入文本分词后的最小切分单元对应的类别的进行还原处理。可理解,这里所提及的合并记录可以包括第一设备和第二设备中每一层表示模型中合并前的数据单元的位置和合并后的数据单元的位置,以及相应的表示模型的层数。
结合第二方面,在一种可能的实现方式中,可合并数据单元为第二输入数据单元中的类别对应的实体一致,且位置相邻的数据单元。第二设备对可合并数据单元进行合并,得到合并后的数据单元,具体包括:第二设备基于合并规则对可合并数据单元对应的类别进行合并,以及基于合并模型对可合并数据单元对应的表示向量进行合并,得到合并后的类别和表示向量。合并后的类别和表示向量与合并后的数据单元相对应。合并规则包括合并前的数据单元的类别和合并后的数据单元的类别的对应关系。合并模型可以为神经网络模型。
在本申请提供的方案中,第二设备可以对表示模型中的数据单元进行合并,合并后数据单元的数量减少,减少了计算压力,加快了序列标注进程。可理解,合并模型的相关描述可以参考上文。
在本申请的一些实施例中,第二设备可以基于序列标注模型中的词融合模块进行上述合并处理。
结合第二方面,在一种可能的实现方式中,第二设备确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别,具体包括:第二设备确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布。第二设备确定未分类数据单元的不确定度。未分类数据单元的不确定度为该概率分布的熵。不确定度用于衡量未分类数据单元的类别的不确定性。第二设备确定未分类数据单元中的不确定度小于筛选阈值的未分类数据单元为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。
在本申请的一些实施例中,第二设备可以基于序列标注模型中的分类器模块进行上述分类处理。
结合第二方面,在一种可能的实现方式中,未分类数据单元的不确定度为所述概率分布的熵,或者,未分类数据单元的不确定度为1与未分类数据单元对应的概率分布中的最大概率的差值。
在本申请的一些实施例中,第二设备可以根据未分类数据单元对应的概率分布的熵来确定该未分类数据单元的不确定度。
在本申请的一些实施例中,第二设备还可以根据未分类数据单元对应的概率分布中的最大概率来确定该未分类数据单元的不确定度。具体地,第二设备可以确定1与未分类数据单元对应的概率分布中的最大概率的差值为该未分类数据单元的不确定度。第一设备还可以确定未分类数据单元对应的概率分布中的最大概率与1的差值的绝对值为该未分类数据单元的不确定度。当然,第二设备还可以通过其他方式确定数据单元的不确定度,本申请对此不作限制。
结合第二方面,在一种可能的实现方式中,第二设备确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别,具体包括:第二设备确定所述未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布。在第m层表示模型为第二设备中的最高层表示模型的情况下,第二设备确定未分类数据单元均为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。
在本申请的一些实施例中,第二设备可以基于序列标注模型中的分类器模块进行上述分类处理。
第三方面,本申请提供了一种电子设备。该电子设备可以包括一个或多个存储器、一个或多个处理器。该存储器用于存储计算机程序。该处理器用于:确定第一输入数据单元中的未分类数据单元;确定该未分类数据单元中的可分类数据单元,以及该可分类数据单元的类别,并基于第一输入数据单元中的已分类数据单元的类别和该可分类数据单元的类别,确定第一输入数据单元中的可合并数据单元;对该可合并数据单元进行合并,得到合并后的数据单元;在满足预设条件的情况下,将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。其中,第一输入数据单元为输入到第l层表示模型的数据单元;l为正整数。每一个数据单元具有对应的表示向量和类别。
结合第三方面,在一种可能的实现方式中,处理器,在用于确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别时,具体可以用于:确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布;确定未分类数据单元的不确定度;确定未分类数据单元中的不确定度小于筛选阈值的未分类数据单元为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。其中,未分类数据单元的不确定度为所述概率分布的熵。不确定度用于衡量所述未分类数据单元的类别的不确定性。
结合第三方面,在一种可能的实现方式中,处理器,在用于确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别时,具体可以用于:确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布;在第l层表示模型为序列标注模型中的最高层表示模型的情况下,确定未分类数据单元均为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。可理解,序列标注模型部署在所述第一设备,或者所述第一设备和所述第二设备中。
结合第三方面,在一种可能的实现方式中,可合并数据单元为第一输入数据单元中的类别对应的实体一致,且位置相邻的数据单元。处理器,在用于对可合并数据单元进行合并,得到合并后的数据单元时,具体可以用于:基于合并规则对可合并数据单元对应的类别进行合并,以及基于合并模型对可合并数据单元对应的表示向量进行合并,得到合并后的类别和表示向量。合并后的类别和表示向量与合并后的数据单元相对应。合并规则包括合并前的数据单元的类别和合并后的数据单元的类别的对应关系。合并模型可以为神经网络模型。
结合第三方面,在一种可能的实现方式中,处理器,在用于对可合并数据单元进行合并之后,还可以用于:对合并的过程进行记录,并保存合并记录。合并记录可以包括合并次数和合并的数据单元的位置。合并的数据单元的位置包括合并前的数据单元的位置和合并后的数据单元的位置。
结合第三方面,在一种可能的实现方式中,预设条件可以包括:第l层表示模型为第一设备中的最高层表示模型。
结合第三方面,在一种可能的实现方式中,合并次数超过预设合并次数,或者,当前的第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值;初始数据单元为输入到第一层表示模型的数据单元。
结合第三方面,在一种可能的实现方式中,预设条件还包括:l满足预设层数范围。
结合第三方面,在一种可能的实现方式中,在不满足预设条件的情况下,处理器,还可以用于:将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第l+1层表示模型。
结合第三方面,在一种可能的实现方式中,处理器,在用于将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备之后,还可以用于:接收第二设备发送的第m层表示模型中的数据单元对应的类别和更新后的合并记录;基于第m层表示模型中的数据单元对应的类别和更新后的合并记录还原输入到第一设备的文本分词后的最小切分单元对应的类别。其中,第m层表示模型为第二设备中的最高层表示模型。更新后的合并记录包括第一设备中的表示模型中的数据单元的合并记录和第二设备中的表示模型中的数据单元的合并记录。
第四方面,本申请提供了一种电子设备。该电子设备可以包括一个或多个存储器、一个或多个处理器。该存储器用于存储计算机程序。该处理器用于:接收第一设备发送的第二输入数据单元;对第二输入数据单元进行处理,得到处理后的数据单元;将处理后的数据单元对应的类别发送给第一设备。其中,第二输入数据单元为第一设备中的最高层表示模型输出的数据单元。每一个数据单元具有对应的表示向量和类别。处理后的数据单元包括处理后的数据单元对应的类别。
结合第四方面,在一种可能的实现方式中,处理器,在用于对第二输入数据单元进行处理时,具体用于:确定第二输入数据单元中的未分类数据单元;确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别,并基于第二输入数据单元中的已分类数据单元的类别和可分类数据单元的类别,确定第二输入数据单元中的可合并数据单元;对可合并数据单元进行合并,得到合并后的数据单元。可理解,第二输入数据单元为输入到第m层表示模型的数据单元。m为正整数。
结合第四方面,在一种可能的实现方式中,在第m层表示模型为第二设备中的最高层表示模型的情况下,处理后的数据单元为当前的第m层表示模型中的数据单元。处理器,在用于得到合并后的数据单元之后,还可以用于:在第m层表示模型不为第二设备中的最高层表示模型的情况下,将当前的第m层表示模型中的数据单元发送给第m+1层表示模型。
结合第四方面,在一种可能的实现方式中,处理器,在用于对可合并数据单元进行合并之后,还可以用于:保存合并记录。合并记录包括合并的数据单元的位置。合并的数据单元的位置包括合并前的数据单元的位置和合并后的数据单元的位置。处理器,在用于得到处理后的数据单元之后,还可以用于:将合并记录发送给第一设备。
结合第四方面,在一种可能的实现方式中,可合并数据单元为第二输入数据单元中的类别对应的实体一致,且位置相邻的数据单元。处理器,在用于对可合并数据单元进行合并,得到合并后的数据单元时,具体用于:基于合并规则对可合并数据单元对应的类别进行合并,以及基于合并模型对可合并数据单元对应的表示向量进行合并,得到合并后的类别和表示向量。合并后的类别和表示向量与合并后的数据单元相对应。合并规则包括合并前的数据单元的类别和合并后的数据单元的类别的对应关系。合并模型可以为神经网络模型。
结合第四方面,在一种可能的实现方式中,处理器,在用于确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别时,具体用于:确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布;确定未分类数据单元的不确定度;确定未分类数据单元中的不确定度小于筛选阈值的未分类数据单元为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。其中,未分类数据单元的不确定度为该概率分布的熵。不确定度用于衡量未分类数据单元的类别的不确定性。
结合第四方面,在一种可能的实现方式中,处理器,在用于确定未分类数据单元中的可分类数据单元,以及可分类数据单元的类别时,具体用于:确定未分类数据单元与候选类别集合中的类别相对应的概率,得到未分类数据单元对于候选类别集合的概率分布;在第m层表示模型为第二设备中的最高层表示模型的情况下,=确定未分类数据单元均为可分类数据单元,并将可分类数据单元对应的概率分布中概率最大的候选类别确定为可分类数据单元的类别。
第五方面,本申请提供一种计算机存储介质,包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行上述第一方面中任一种可能的实现方式。
第六方面,本申请提供一种计算机存储介质,包括计算机指令,当该计算机指令在电子设备上运行时,使得该电子设备执行上述第二方面中任一种可能的实现方式。
第七方面,本申请实施例提供一种芯片,该芯片可以应用于电子设备,该芯片包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行上述第一方面中任一种可能的实现方式。
第八方面,本申请实施例提供一种芯片,该芯片可以应用于电子设备,该芯片包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行上述第二方面中任一种可能的实现方式。
第九方面,本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行上述第一方面任一种可能的实现方式。
第十方面,本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行上述第二方面任一种可能的实现方式。
可理解,上述第三方面提供的电子设备、第五方面提供的计算机存储介质、第七方面提供的芯片,以及第九方面提供的计算机程序产品均用于执行上述第一方面中任一种可能的实现方式。因此,其所能达到的有益效果可参考上述第一方面中任一种可能的实现方式的有益效果,此处不再赘述。上述第四方面提供的电子设备、第六方面提供的计算机存储介质、第八方面提供的芯片,以及第十方面提供的计算机程序产品均用于执行上述第一方面中任一种可能的实现方式。因此,其所能达到的有益效果可参考上述第一方面中任一种可能的实现方式的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种序列标注模型的原理图;
图2为本申请实施例提供的一种训练还原模型获取隐私信息的原理图;
图3为本申请实施例提供的一种利用还原模型进行逆推攻击的示意图;
图4为本申请实施例提供的一种序列标注系统架构的示意图;
图5A-图5D为本申请实施例提供的一组用户界面示意图;
图6为本申请实施例提供的一种序列标注模型的示意图;
图7为本申请实施例提供的一种基于词融合的序列标注方法的流程图;
图8为本申请实施例提供的一种通过表示模型得到数据单元的原理图;
图9为本申请实施例提供的又一种序列标注模型的原理图;
图10为本申请实施例提供的又一种基于词融合的序列标注方法的流程图;
图11为本申请实施例提供的一种第一设备的硬件结构示意图;
图12为本申请实施例提供的一种第一设备的软件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
应当理解,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
序列标注任务包括命名实体识别、词性标注和槽位识别等任务。其中,命名实体识别和槽位识别通常包含隐私信息。序列标注任务可以基于规则匹配或信息抽取模型来实现。为了便于描述,本申请中将实现序列标注任务的模型称为序列标注模型。
目前,序列标注模型一般由多层表示模型和分类模型组成。一般句式越复杂,性能要求越高,就需要序列标注模型中的表示模型包括更多的层数,才能较好的进行信息加工。序列标注模型的输入一般为文本,输出一般为表示向量。如图1所示,文本“Johnlivedin3rdstreet”可以输入到序列标注模型中。可理解,文本在输入到序列标注模型之前,需要进行预处理(例如,分词等)。经过该预处理,输入的文本变成了若干token,并且,该若干token对应若干表示向量。其中,token指的是输入文本分词后的最小切分单元。token可以为词语、字、字母等。该若干表示向量可以作为序列标注模型中的第一层表示模型的输入。序列标注模型可以基于其多层表示模型对输入的若干表示向量进行更新,最终输出新的表示向量以及token对应的类型。例如,文本“John lived in 3rd street”经过预处理之后,可以得到5个token:“John”、“lived”、“in”、“3rd”和“street”。若以BIO标注体系为例,“John”对应的类型为B-PER,“lived”对应的类型为O,“in”对应的类型为O,“3rd”对应的类型为B-LOC,“street”对应的类型为I-LOC。其中,B-PER的含义为人物实体的开头,O的含义为其他字符,B-LOC的含义为位置实体的开头,I-LOC的含义为位置实体的中间。可理解,BIO标注体系的相关描述可以参考相关技术文档,本申请对此不展开说明。
在实现序列标注时,为了达到高质量识别效果,可以使用大量真实数据来训练大型序列标注模型。但是,在实际操作过程中,大模型无法全部放在端侧。具体地,序列标注模型可以完全部署在云侧,或者,一部分部署在端侧一部分部署在云侧(基于端侧数据获取的表示向量需要上传至云侧进行后续处理)。然而,表示向量与用户的隐私信息密切相关,上述方式很可能存在云侧隐私泄露的风险。
在序列标注模型一部分部署在端侧一部分部署在云侧的情况下,很可能出现黑盒攻击。隐私攻击者能获取序列标注模型的中间层的词表示(即表示向量)。因此,隐私攻击者可以利用额外数据训练一个还原模型,并利用该还原模型来实现基于词表示还原对应文本,以此来获取原始文本中的隐私信息。
现有的隐私保护方法主要包括:在训练阶段(训练序列标注模型的阶段)添加额外目标,或者在推理阶段(使用序列标注模型的阶段)添加噪音。然而,在训练阶段添加额外目标对还原文本的影响比较有限,隐私攻击者依旧可以还原出相关隐私信息,而在推理阶段添加噪音则会使得性能有较大幅度的下降。
示例性的,如图2所示,隐私攻击者可以利用“明天去五道口听讲座”、“五月10日还款到期,还欠100万”、“基于向量混淆的隐私保护系统”和“新街口要开面包店”等额外数据来训练还原模型。而用户数据为“明天需要还款100万”,该文本输入至端侧(即用户终端,比如手机等)的序列标注模型后,可以得到加噪后的表示向量z。该加噪后的表示向量z上传至云侧之后,被隐私攻击者获取。隐私攻击者将该加噪后的表示向量z输入至其训练所得的还原模型之后,可以输出得到用户的隐私信息,即“明天需要还款100万”。
对于常用的序列标注模型而言,其表示模型部分经常使用双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)和基于变换网络的双向编码表示(Bi-directional Encoder Representation from Transformers,BERT)等结构。经过表示模型之后输出的表示向量的数量与前处理分词后的文本输入长度(即分词数量)一致。也就意味着,隐私攻击者可以通过简单的反向策略构建还原模型,并得到字准率极高的攻击效果。可理解,字准率指的是字符识别准确率。即识别对的字符数占总识别出来字符数的比例。也就是说,隐私攻击者可以得到准确率极高的用户隐私信息。
可理解,BiLSTM是由前向长短时记忆(Long Short-Term Memory,LSTM)和后向LSTM组合而成。其中,LSTM是一种循环神经网络((Recurrent Neural Network,RNN)。LSTM非常适合用于对时序数据的建模,如文本数据。这是由于LSTM设计的特点,使其可以更好的捕捉到较长距离的依赖关系。通俗来说,LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息。但是,LSTM无法编码从后到前的信息。由于BiLSTM是由前向LSTM和后向LSTM组成,所以BiLSTM可以更好的捕捉双向的语义依赖。因此,BiLSTM常被用来建模上下文信息。
可理解,BERT是一个预训练的语言表征模型。与以往采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练的方式不同,BERT通过设置一个比语言模型(Language Model,LM)更简单的任务来做预训练,并且使用基于变换网络(Transformer)的编码器(Encoder)来进行预训练从而使得模型变深。该模型捕捉到的是真正意义上的双向上下文(bi-directional context)信息,该模型使用了遮蔽语言模型(Masked LM,MLM)和下一句预测(Next Sentence Prediction,NSP)这两种方法分别捕捉词语和句子级别的表示(representation),以致能生成深度的双向语言表征。可理解,相较于传统的预训练语言模型,BERT可以显著提高序列标注任务的准确率。
示例性的,如图3所示,文本“John lived in 3rd street”输入到序列标注模型之后,经过多层表示模型可以得到5个表示向量。隐私攻击者可以通过还原模型进行逆推攻击,基于该5个表示向量得到5个词——“John”、“lived”、“in”、“3rd”和“street”,从而得到完整的用户隐私信息——“John lived in 3rd street”。
因此,如何保证隐私攻击者无法根据云侧获取的表示向量还原出用户的隐私信息是目前亟待解决的问题。
为了解决上述问题,本申请提供了一种基于词融合的序列标注方法及相关设备。根据该基于词融合的序列标注方法,端侧设备可以通过分类器模块以及词融合模块,对于简单词,在表示模型部分逐层尝试合并,从而改变上传至云侧的表示向量的数量。在一些可能的实现方式中,云侧设备也可以在表示模型部分进行合并。上述方式可以避免被第三方拦截或云侧获取后,使用还原模型映射为用户隐私信息,从而规避隐私攻击。同时,因为随着层数增加,表示向量的数量缩减,因此可以减少上层网络的计算量,加速序列标注进程,实现更快的命名实体识别和信息抽取。
下面介绍本申请提供的一种序列标注的系统架构。
请参阅图4,图4为本申请实施例提供的一种序列标注系统架构的示意图。
如图4所示,序列标注模型可以部署在端侧和云侧。用户将文本输入至端侧设备之后,端侧设备利用序列标注模型对该输入的文本进行分词表示。由于序列标注模型中包括若干层表示模型,每一层表示模型可以输出若干表示向量。端侧设备可以将部署在端侧的最高层的表示模型所输出的表示向量上传到云侧。云侧设备接收该表示向量之后,可以继续对该表示向量进行处理。例如,云侧设备可以继续通过表示模型来对接收的表示向量进行处理。
可理解,端侧设备指的是终端设备,具体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、笔记本电脑、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)或专门的照相机(例如,单反相机、卡片式相机)等设备,本申请实施例对端侧设备的具体类型不作任何限制。
可理解,云侧设备指的是部署在云环境上的一个或多个计算设备,或者边缘环境中的一个或多个计算设备。例如,云侧设备可以包括云服务器、中心服务器等。以云服务器为例进行说明,云服务器指的是用于提供计算、存储、通信资源的中心计算设备集群,云服务器是具有高度分布式、高度虚拟化等特点的一类服务器,其计算资源是从大量经过整合虚拟化的物理服务器中调度获取的,从节点规模看,这样的虚拟化规模可能是几台、数十台、数百台物理服务器,也可能是跨数据中心的成千上万台实体硬件构建起来的大型云端虚拟资源池。
下面首先介绍本申请提供的一些序列标注的场景。
可理解,本申请的说明书和权利要求书及附图中的术语“界面”和“用户界面”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphicuser interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在端侧设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
端侧设备可以检测到作用于文本上的用户操作。响应于该用户操作,端侧设备可以显示如图5A所示的用户界面100。用户界面可以包括复制控件101。端侧设备可以检测到作用于复制控件101的用户操作。响应于该用户操作,端侧设备可以将该文本复制到剪贴板。
可理解,本申请中所提及的用户操作可以包括但不限于触摸(例如,点击等)、声控、手势等操作,本申请对此不作限制。
端侧设备可以检测到用户输入到搜索栏中的“日历”,然后对该输入内容进行搜索,并且显示如图5B所示的用户界面200。用户界面200可以包括搜索栏201和日历快捷控件202。如图5B所示,搜索栏201中显示有用户输入的“日历”。日历快捷控件202用于启动日历应用程序。日历应用程序为包括日期、日程等相关信息的应用程序。
端侧设备可以检测到作用于日历快捷控件202上的用户操作。响应于该用户操作,端侧设备可以显示如图5C所示的用户界面300。用户界面300可以包括显示区域301。显示区域301用于提示用户是否需要根据复制内容创建日程。显示区域301可以显示复制内容,即“明天早上9点我们在五角场地铁站集合!”。显示区域301可以包括取消控件3011和确定控件3012。取消控件3011用于放弃根据复制内容创建日程。确定控件3012用于确定根据复制内容创建日程。
端侧设备可以检测到作用于确定控件3012上的用户操作。响应于该用户操作,端侧设备可以利用序列标注模型获取复制内容中的时间和地点。可理解,端侧设备可以显示如图5D所示的用户界面400。用户界面400可以包括显示区域401和显示区域402。显示区域401用于显示复制内容中的地点。显示区域402用于显示复制内容中的时间。
需要说明的是,端侧设备在利用序列标注模型获取复制内容中的时间和地点的过程中,可以将由复制内容提取的表示向量上传至云侧,并利用云侧设备强大的计算能力来进行进一步处理,从而得到复制内容中的时间和地点。可理解,序列标注模型的相关描述可参考下文,在此不展开说明。
值得注意的是,除了上述日程信息抽取、日期时间识别、地址识别外,本申请还可以提供其他序列标注场景。例如,人名识别、兴趣点(Point of Interest,POI)识别、音乐专辑信息抽取、航班短信信息抽取、贷款还款提醒信息抽取等。
可理解,在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
还需要说明的是,上述用户界面仅为本申请提供的一些示例,不应视为对本申请的限制。
下面介绍本申请提供的一种序列标注模型。
请参阅图6,图6为本申请实施例提供的一种序列标注模型的示意图。
如图6所示,序列标注模型可以包括表示模块、分类器模块和词融合模块。其中:
表示模块可以用于进行文本的信息提取。表示模块的常见结构包括:RNN、Bi-LSTM、Transformer、卷积神经网络(Convolutional Neural Network,CNN)等。表示模块包括多层表示模型。每一层表示模型可以输出若干表示向量。
分类器模块可以包括分类器。该分类器是针对表示模块中的模型进行训练所得的。分类器模块可以用于判断对应层中各个数据单元对应的类别。可理解,数据单元可以与输入文本分词后的最小切分单元对应(比如,上文所提及的token)。值得注意的是,数据单元可以包括若干表示向量和类别。可理解,分类器模块的输入为表示模块中各层表示模型中的各个表示向量,而分类器模块的输出为候选类别及其概率分布。
需要说明的是,分类器训练的优化目标为:其中,f(l)(Xj;θ)为表示模块中第l层第j个token所对应的表示向量,Yj为第j个token的实际类别,P(Yj|f(l)(Xj;θ))为第l层第j个token的表示向量推断出的实际类别的概率。
可理解,对应有分类器的表示模型可以预先设置,本申请对此不作限制。例如,每一层表示模型都可以预先设置有对应的分类器。再例如,仅第3层表示模型和第7层表示模型预先设置有对应的分类器。
词融合模块用于对分类器确定的连续相同类别的数据单元所包括的表示向量进行合并,并输出合并后的表示向量和类别。
下面介绍本申请提供的一种基于词融合的序列标注方法。
请参阅图7,图7为本申请实施例提供的一种基于词融合的序列标注方法的流程图。该序列标注方法可以包括但不限于以下步骤:
S701:第一设备确定输入到第l层表示模型中的每个数据单元对应的表示向量。其中,l为正整数。
可理解,第一设备的第l层表示模型的输入为若干数据单元。该若干数据单元可以包括若干表示向量和相应的类别。也就是说,数据单元可以与表示向量对应,数据单元也可以与类别对应。第一设备可以基于输入到第l层表示模型的若干数据单元所包括的表示向量和类别,采取RNN、Bi-LSTM、Transformer等结构来计算其表示模块中第l层表示模型中的每个数据单元所对应的表示向量。可理解,上述计算所得的第l层表示模型的表示向量的数量与输入到第l层表示模型的表示向量的数量一致。另外,第一设备可以根据输入到第l层表示模型的数据单元所对应的类别来确定第l层表示模型中的数据单元的初始类别。
值得注意的是,第一设备可以为端侧设备。
还值得注意的是,本申请中所提及的输入到第l层表示模型的数据单元与第l层表示模型中的数据单元的含义是有区别的。输入到第l层表示模型的数据单元经过处理后,所得到的数据单元中的表示向量和类别可能发生变化。
可理解,根据上文,数据单元与输入文本分词后的最小切分单元相对应。如图8所示,第一设备可以将文本“John lived in 3rd street”输入到序列标注模型,经过表示模块的第1层表示模型之后,原先的文本可以分为5个元素,即5个数据单元。这5个数据单元可以对应5个表示向量。另外,这5个数据单元中还可以包括确定类别的数据单元。例如,第2层表示模型中的第一个数据单元对应的类别为B-PER。
需要说明的是,表示向量的表现形式可以为数字、数组等,本申请对此不作限制。例如,365420、2589、[[1.2,-0.2],[0.9,-0.7]]等。
还需要说明的是,数据单元的类别指的是数据单元所对应的实体的类别。可理解,文本中的实体可以包括三大类(实体类、时间类和数字类)和七小类(人物、机构、地点/位置、时间、日期、货币和百分比)。如下表1,表1为本申请提供的实体的类别和示例。当然,实体还可以包括其他内容,本申请对此不作限制。
表1
实体类别 | 示例 |
人物(PERSON) | John、Jane、Amy、小红、明明 |
位置(LOCATION) | <![CDATA[3<sup>rd</sup>street、第一街道、第二街区]]> |
机构(ORGANIZATION) | 第一机构 |
日期(DATE) | October,3月,2022-3-3 |
时间(TIME) | 03:33:00AM,22:30:03 |
货币(MONEY) | Thirtydollars,3元 |
百分比(PERCENT) | 10%,百分之二十 |
在本申请的一些实施例中,实体的类别可以包括两种表示方法。第一种表示方法为:数据单元的类别可以包括实体的开头、实体的中间和其他。其中,实体的开头可以用B表示,具体含义为数据单元表示的词在一个组块的开始。实体的中间可以用I表示,具体含义为数据单元表示的词在一个组块的中间。其他可以用O表示,具体含义为数据单元表示的词不在任意一个组块内。第二种表示方法为:数据单元的类别可以包括实体的开头、实体的中间、实体的末端、实体本身和其他。其中,实体的开头、实体的中间和其他的相关描述与第一种表示方法相同。实体的末尾可以用E表示,具体含义为数据单元表示的词在一个组块的末端。实体本身可以用S表示,具体含义为数据单元表示的词就是一个组块,即该组块只有一个词。可理解,这里所提及的组块可以理解为实体。而实体可以包括多个词。例如,上文所提及的“3rdstreet”为位置实体,且这个位置实体包括2个词。
当然,实体的类别还可以存在其他表示方法,本申请对此不作限制。
结合上述示例,在本申请的一些实施例中,数据单元的类别可以包括:B-PERSON、I-PERSION、B-LOCATION、I-LOCATION和O。B-PERSON表示的是人物实体的开头,可以如上文简写成B-PER。I-PERSION表示的是人物实体的中间,可以如上文简写成I-PER。B-LOCATION表示的是位置实体的开头,可以如上文简写成B-LOC。I-LOCATION表示的是位置实体的中间,可以如上文简写成I-LOC。O表示的是其他字符。
在本申请的又一些实施例中,数据单元的类别可以如表2所示,具体可以结合上文来理解表2。当然,数据单元的类别可以包括更多或更少的类别,本申请对此不作限制。
表2
数据单元的类别 | 含义 |
B-PERSON(B-PER) | 人物实体的开头 |
I-PERSON(I-PER) | 人物实体的中间 |
E-PERSON(E-PER) | 人物实体的末端 |
B-LOCATION(B-LOC) | 位置实体的开头 |
I-LOCATION(I-LOC) | 位置实体的中间 |
E-LOCATION(E-LOC) | 位置实体的末端 |
B-DATE | 日期实体的开头 |
I-DATE | 日期实体的中间 |
E-DATE | 日期实体的末端 |
B-TIME | 时间实体的开头 |
I-TIME | 时间实体的中间 |
E-TIME | 时间实体的末端 |
… | … |
示例性的,数据单元可以为2345671B-DATE。这表明该数据单元对应的表示向量为2345671,该数据单元对应的类别为B-DATE。
示例性的,数据单元可以为1635654uncertain。这表明该数据单元对应的表示向量为1635654,该数据单元对应的类别还不确定。
示例性的,数据单元可以为[[1.0,-0.9],[0.1,0.3]]B-LOCATION。这表明该数据单元对应的表示向量为[[1.0,-0.9],[0.1,0.3]],该数据单元对应的类别为B-LOCATION。
可理解,在l=1的情况下,第一设备可以通过分词工具来对输入文本进行分词处理,并得到若干元素。例如,输入文本“John lived in 3rd street”经过预处理之后,可以得到5个元素:“John”、“lived”、“in”、“3rd”和“street”。可理解,分词工具可以为分词器(tokenizer),tokenizer的相关描述可以参考相关技术文档,本申请不展开说明。第一设备还可以对该若干元素进行向量映射,即将该若干元素映射为若干向量。具体地,第一设备可以在映射表中查找与相应元素对应的表示向量。可理解,这一部分可以参考相关技术文档中对embedding(嵌入)的描述,本申请不展开说明。
S702:第一设备确定第l层表示模型中的未分类数据单元,并确定该未分类数据单元的不确定度。未分类数据单元指的是未确定类别的数据单元。
第一设备可以根据输入到第l层表示模型的数据单元的初始类别来确定第l层表示模型中的未分类数据单元,然后通过分类器模块来确定第l层表示模型中的未分类数据单元的不确定度。可理解,不确定度用于衡量确定未分类数据单元的类别的不确定性。
示例性的,若输入到第l层表示模型的第一个数据单元1635654uncertain,第一设备可以确定第l层表示模型中的第一个数据单元的初始类别为uncertain,并确定该数据单元为未分类数据单元。
下面简单介绍数据单元的类别的不确定度的计算方法。
方式一:
第一设备可以确定数据单元对于候选类别集合的概率,并对其进行归一化,得到第l层表示模型的第j个数据单元的类别为第y个候选类别的概率分布。为了便于描述,本申请中可以将候选类型集合记为Y,将数据单元对于候选类别集合的概率记为P(Y|f(l)(Xj;θ)),将第l层表示模型的第j个数据单元的类别为第y个候选类别的概率分布记为
方式二:
第一设备可以确定数据单元对于候选类别集合的概率,并对其进行归一化,得到第l层表示模型的第j个数据单元的类别为第y个候选类别的概率分布。为了便于描述,本申请中可以将第l层表示模型的第j个数据单元的类别为第y个候选类别的概率分布记为第一设备可以确定第l层表示模型的第j个数据单元对应的概率分布中的最大概率为max并确定该数据单元的不确定度为:
S703:第一设备基于第l层表示模型中的未分类数据单元的不确定度,确定该未分类数据单元中的可分类数据单元以及可分类数据单元的类别。可分类数据单元指的是满足类别添加条件的数据单元。
第一设备根据第l层表示模型中的未分类数据单元的不确定度并基于该不确定度来查找该未分类数据单元中的可分类数据单元和可分类数据单元的类别。可理解,可分类数据单元指的是可以确定数据单元的类别的数据单元。可分类数据单元满足类别添加条件。
在本申请的一些实施例中,类别添加条件为:不确定度小于筛选阈值,或者,第l层为序列标注模型的表示模块中的最高层。
S704:第一设备基于第l层表示模型中的数据单元的类别,确定第l层表示模型中的可合并数据单元,并根据合并规则对可合并数据单元的类别进行合并,以及根据合并模型对可合并数据单元对应的表示向量进行合并,得到合并后的数据单元。可合并数据单元包括类别对应的实体相同且位置相邻的数据单元。
第一设备可以在第l层表示模型中的数据单元中查找类别对应的实体相同且位置相邻的数据单元(即可合并数据单元),并根据合并规则将该位置相邻的数据单元的类别进行合并。即将该位置相邻的数据单元合并为1个数据单元。
在本申请的一些实施例中,第一设备可以通过词融合模块来将可合并数据单元进行合并。
例如,类别为B-PERSON和类别为I-PERSON所对应的实体的都为PERSON(即人物实体)。而类别为B-LOCATION、类别为I-LOCATION和类别为E-LOCATION所对应的实体都为LOCATION(即位置实体)。
示例性的,图9所示的序列标注模型的表示模块中的第2层的第4个数据单元的类别为L-B,第2层的第5个数据单元的类别为L-I。也就是说,输入到第3层的第4个数据单元和第5个数据单元的初始类别分别为L-B和L-I。L-B为B-LOCATION的简写形式,而L-I为I-LOCATION的简写形式。也就意味着,该第4个数据单元和第5个数据单元对应的类别的实体是一样的。并且,该第4个数据单元和第5个数据单元为相邻数据单元。第一设备可以合并第3层中的第4个数据单元和第5个数据单元。图9所示的序列标注模型的表示模块中的第4层的第1个数据单元的类别为T-B,第4层的第2个数据单元的类别为T-I。也就是说,输入到第5层的第1个数据单元和第2个数据单元的初始类别分别为T-B和T-I。T-B为B-TIME的简写形式,而T-I为I-TIME的简写形式。也就意味着,该第1个数据单元和第2个数据单元对应的类别的实体是一样的。并且,该第1个数据单元和第2个数据单元为相邻数据单元。第一设备可以合并输入到第5层的第1个数据单元和第2个数据单元,得到合并后的数据单元。可理解,该合并后的数据单元为第5层的第1个数据单元。
需要说明的是,合并规则可以参考如下表3。可理解,表3所示的合并规则可以结合使用。并且,本申请中的合并规则可以包括表3中更多或更少的内容。可理解,表3所示的合并规则仅为本申请给出的示例,本申请不限于表3所示的合并规则。
表3
可理解,可合并数据单元并不都可以进行合并。例如,表3所示的相邻的两个数据单元的初始类别均为B-PERSON。也就是说,这两个数据单元的初始类别对应的实体是一样的。但是,这两个数据单元无法合并。再例如,表4所示的相邻的两个数据单元的初始类别为E-PERSON和B-PERSON。也就是说,这两个数据单元的初始类别对应的实体是一样的。但是,E-PERSON对应的数据单元在B-PERSON对应的数据单元的前面,这两个数据单元无法合并。
可理解,第一设备可以通过合并模型来对可合并数据单元对应的表示向量进行合并。合并模型可以为神经网络模型。例如,合并模型可以由多层感知机、采样层(pooling层)、全连层和卷积层等模型中的一个或多个组成。当然,合并模型还可以包括其他类型的神经网络模型,本申请对此不作限制。可理解,关于合并模型的相关描述可以参考相关技术文档,本申请在此不展开说明。
需要说明的是,第一设备可以对上述合并进行记录,并保存合并记录。可理解,该合并记录可以包括合并次数和合并的数据单元的位置。
示例性的,第l层的合并记录可以包括(1,2,3)-1。这表示第l层表示模型的第1个数据单元、第2个数据单元和第3个数据单元所对应的表示向量和类别可以合并,并且,这三个数据单元最终合并成了一个数据单元,该合并后的数据单元为第l层表示模型更新后的第1个数据单元。
当然,合并记录还可以有其他表现形式,本申请对此不作限制。
S705:在第l层为第一设备中的表示模型的最高层的情况下,第一设备将当前的第l层表示模型中的数据单元所对应的表示向量和类别发送给第二设备。
可理解,第一设备对第l层表示模型中的可合并数据单元进行合并之后,即对可合并数据单元对应的表示向量和类别分别进行合并之后,第l层表示模型中的数据单元的数量、对应的表示向量和类别会相应更新。更新后的数据单元所对应的表示向量和类别即为第l层表示模型最终输出的内容。也就是说,当前的第l层表示模型中的数据单元指的是第l层表示模型中更新后的数据单元,即包括合并后的数据单元以及未合并的数据单元。在第l层为表示模型的最高层的情况下,第一设备可以将当前的第l层表示模型中的数据单元所对应的表示向量和类别发送给云侧设备。即第一设备可以将更新后的数据单元对应的表示向量和类别发送给第二设备。可理解,第二设备为云侧设备。
在本申请的一些实施例中,第一设备中的序列标注模型的最高层是基于端侧计算能力、平均端到端时延和隐私预算等实际情况来预先设置的。
需要说明的是,在第l层不为第一设备中的表示模型的最高层的情况下,第一设备确定l=l+1,并继续执行步骤S701。
S706:在当前的第l层表示模型中的数据单元满足上传条件的情况下,第一设备将该当前的第l层表示模型中的数据单元所对应的表示向量和类别发送给第二设备。
第一设备可以通过词融合模块确定第一设备中的每一层表示模型中的可合并数据单元,并对其进行合并,以及保存合并记录。可理解,该合并记录可以包括合并次数和合并的数据单元的位置。可理解,第一设备对可合并数据单元对应的表示向量和类别分别进行合并之后,表示模型中的数据单元的数量、对应的表示向量和类别会相应更新。更新后的数据单元可以作为相应层表示模型最终的输出。也就是说,更新后的数据单元所对应的表示向量和类别即为相应层表示模型最终输出的内容。
在当前的第l层表示模型中的更新后的数据单元满足上传条件的情况下,第一设备可以将当前的第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。
在本申请的一些实施例中,上传条件包括:合并次数超过预设合并次数。根据上文,合并次数指的是第一设备中的表示模型中的可合并数据单元进行合并的次数。可理解,预设合并次数可以根据实际需求(例如,端侧计算能力、平均端到端时延和隐私预算)进行设置,本申请对此不作限制。
在本申请的一些实施例中,上传条件包括:当前的第l层表示模型中的数据单元的数量与第一层表示模型中的数据单元的初始数量(即输入到第一层表示模型的数据单元的数量)的比值小于预设比值。可理解,预设比值可以根据实际需求(例如,端侧计算能力、平均端到端时延和隐私预算)进行设置,本申请对此不作限制。例如,预设比值可以为0.5。
需要说明的是,在当前的第l层表示模型中的数据单元不满足上传条件的情况下,第一设备确定l=l+1,并继续执行步骤S701。
S707:在l为预设层数最大值,或者,l满足预设层数范围且当前的第l层表示模型中的数据单元满足上传条件的情况下,第一设备将该当前的第l层表示模型中的数据单元所对应的表示向量和类别发送给第二设备。
在本申请的一些实施例中,l为预设层数最大值,则第一设备可以将该当前的第l层表示模型中的数据单元所对应的表示向量和类别发送给第二设备,相关描述可以参考步骤S705,在此不再赘述。可理解,预设层数最大值可以为第一设备中表示模型的最高层数。
可理解,预设层数最大值为预设层数范围的上限。预设层数最大值可以根据实际需求(例如,端侧计算能力、平均端到端时延和隐私预算)进行设置,本申请对此不作限制。
在本申请的一些实施例中,l满足预设层数范围,并且当前的第l层表示模型中的数据单元满足上传条件,则第一设备可以将该当前的第l层表示模型中的数据单元所对应的表示向量和类别发送给第二设备。上传条件的相关描述可以参考步骤S706,在此不再赘述。
可理解,预设层数范围可以根据实际需求(例如,端侧计算能力、平均端到端时延和隐私预算)进行设置,本申请对此不作限制。
需要说明的是,在l满足预设层数范围且l不为预设层数最大值,并且当前的第l层表示模型中的数据单元不满足上传条件的情况下,第一设备确定l=l+1,并继续执行步骤S701。
可理解,步骤S705、步骤S706和步骤S707为并列的三个步骤,第一设备可以选择其中一个步骤来执行。
下面介绍本申请提供的又一种基于词融合的序列标注方法。
请参阅图10,图10为本申请实施例提供的又一种基于词融合的序列标注方法的流程图。该序列标注方法可以包括但不限于以下步骤:
S1001:第二设备接收第一设备发送的数据单元。该数据单元包括其对应的表示向量和类别。
根据步骤S705-步骤S707,在满足相应条件的情况下,第一设备可以将第l层表示模型中的合并更新后的数据单元发送给第二设备。相应的,第二设备可以接收第一设备发送的数据单元。该数据单元可以包括该数据单元对应的表示向量和类别。
S1002:第二设备基于接收的第一设备发送的数据单元,确定第m层表示模型中每个数据单元对应的表示向量。其中,m为大于1的正整数。
在本申请的一些实施例中,m=l+1。
可理解,步骤S1002的相关描述可以参考步骤S701,在此不再赘述。
S1003:第二设备确定第m层表示模型中的未分类数据单元,并确定该未分类数据单元的不确定度。未分类数据单元指的是未确定类别的数据单元。
第二设备可以在第m层表示模型中的数据单元中确定未分类数据单元,并通过分类器模块确定第m层表示模型中的未分类数据单元的不确定度。不确定度的确定方法可以参考步骤S702,在此不再赘述。
S1004:第二设备基于第m层表示模型中的未分类数据单元的不确定度,确定该未分类数据单元中的可分类数据单元以及可分类数据单元的类别。
可理解,步骤S1004的相关描述可以参考步骤S703,在此不再赘述。
S1005:第二设备基于第m层表示模型中的数据单元的类别,确定第m层表示模型中的可合并数据单元,并根据合并规则对可合并数据单元的类别进行合并,以及根据合并模型对可合并数据单元对应的表示向量进行合并,得到合并后的数据单元。
可理解,步骤S1005的相关描述可以参考步骤S704,在此不再赘述。
S1006:在第m层为第二设备中的表示模型的最高层的情况下,第二设备将当前的第m层表示模型中的数据单元所对应的类别和合并记录发送给第一设备。
可理解,第一设备和第二设备中的表示模型的总层数可以根据实际需求预先设置,本申请对此不作限制。
第二设备可以根据序列标注模型中的表示模型的总层数,以及第一设备中的表示模型的层数,来确定第二设备中的表示模型的层数。在第m层为第二设备中的表示模型的最高层的情况下,第二设备可以将当前的第m层表示模型中的数据单元所对应的类别和合并记录发送给第一设备。相应的,第一设备接收该类别和合并记录后,可以根据类别和合并记录逆推输入文本中的命名实体。
需要说明的是,在第m层不为第二设备中的表示模型的最高层的情况下,第二设备确定m=m+1,并继续执行步骤S1002。
下面介绍本申请实施例涉及的装置。
图11为本申请实施例提供的一种第一设备的硬件结构示意图。
第一设备可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(Universal Serial Bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(Subscriber Identification Module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对第一设备的具体限定。在本申请另一些实施例中,第一设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics Processingunit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是第一设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
在本申请提供的实施例中,第一设备可以通过处理器110执行所述序列标注方法。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为第一设备充电,也可以用于第一设备与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他第一设备,例如AR设备等。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过第一设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为第一设备100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
第一设备的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。第一设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在第一设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。
无线通信模块160可以提供应用在第一设备上的包括无线局域网(WirelessLocal Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(Frequency Modulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,第一设备的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得第一设备可以通过无线通信技术与网络以及其他设备通信。
第一设备通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode的,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Mini LED,Micro LED,Micro-OLED,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在一些实施例中,第一设备可以包括1个或N个显示屏194,N为大于1的正整数。
第一设备可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现获取功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像或视频。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像或视频信号。ISP将数字图像或视频信号输出到DSP加工处理。DSP将数字图像或视频信号转换成标准的RGB,YUV等格式的图像或视频信号。在一些实施例中,第一设备可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像或视频信号,还可以处理其他数字信号。例如,当第一设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。第一设备可以支持一种或多种视频编解码器。这样,第一设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(Moving Picture Experts Group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现第一设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展第一设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行第一设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像视频播放功能等)等。存储数据区可存储第一设备使用过程中所创建的数据(比如音频数据,电话本等)等。
第一设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。第一设备可以设置至少一个麦克风170C。
耳机接口170D用于连接有线耳机。
传感器模块180可以包括1个或多个传感器,这些传感器可以为相同类型或不同类型。可理解,图11所示的传感器模块180仅为一种示例性的划分方式,还可能有其他划分方式,本申请对此不作限制。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。当有触摸操作作用于显示屏194,第一设备根据压力传感器180A检测所述触摸操作强度。第一设备也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。
陀螺仪传感器180B可以用于确定第一设备的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定第一设备围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。
气压传感器180C用于测量气压。在一些实施例中,第一设备通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。第一设备可以利用磁传感器180D检测翻盖皮套的开合。
加速度传感器180E可检测第一设备在各个方向上(一般为三轴)加速度的大小。当第一设备静止时可检测出重力的大小及方向。还可以用于识别第一设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。第一设备可以通过红外或激光测量距离。在一些实施例中,拍摄场景,第一设备可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。第一设备通过发光二极管向外发射红外光。第一设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定第一设备附近有物体。当检测到不充分的反射光时,第一设备可以确定第一设备附近没有物体。
环境光传感器180L用于感知环境光亮度。
指纹传感器180H用于获取指纹。
温度传感器180J用于检测温度。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于第一设备的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。第一设备可以接收按键输入,产生与第一设备的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和第一设备的接触和分离。第一设备可以支持1个或N个SIM卡接口,N为大于1的正整数。第一设备通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,第一设备采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在第一设备中,不能和第一设备分离。
第一设备的软件结构可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。
图12为本申请实施例提供的一种第一设备的软件结构示意图。
如图12所示,本申请涉及的第一设备的软件框架可以包括应用程序层,应用程序框架层(framework,FWK)、系统库、安卓运行时、硬件抽象层和内核层(kernel)。
其中,应用程序层可以包括一系列应用程序包,例如相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序(也可以称为应用)。其中,相机用于获取图像和视频。关于应用程序层的其他应用,可以参考常规技术中的介绍和说明,本申请不展开说明。
可理解,应用程序层可以包括功能接口。第一设备可以通过该功能接口调用上述序列标注模型,或者通过该功能接口实现上述序列标注方法。
应用程序框架层为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图12所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供第一设备的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,第一设备振动,指示灯闪烁等。
运行时(Runtime)包括核心库和虚拟机。Runtime负责系统的调度和管理。
核心库包含两部分:一部分是编程语言(例如,java语言)需要调用的功能函数,另一部分是系统的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的编程文件(例如,java文件)执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(Surface Manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),二维图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了二维(2-Dimensional,2D)和三维(3-Dimensional,3D)图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现3D图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
硬件抽象层(HAL)是位于操作系统内核与上层软件之间的接口层,其目的在于将硬件抽象化。硬件抽象层是设备内核驱动的抽象接口,用于实现向更高级别的Java API框架提供访问底层设备的应用编程接口。HAL包含多个库模块,例如相机HAL模块、显示屏、蓝牙、音频等。其中每个库模块都为特定类型的硬件组件实现一个接口。当系统框架层API要求访问便携设备的硬件时,Android操作系统将为该硬件组件加载库模块。
内核层是Android操作系统的基础,Android操作系统最终的功能都是通过内核层完成。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动,虚拟卡驱动。
需要说明的是,本申请提供的图8所示的第一设备的软件结构示意图仅作为一种示例,并不限定Android操作系统不同分层中的具体模块划分,具体可以参考常规技术中对Android操作系统软件结构的介绍。另外,本申请提供的拍摄方法还可以基于其他操作系统实现,本申请不再一一举例。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (23)
1.一种基于词融合的序列标注方法,其特征在于,所述方法包括:
第一设备确定第一输入数据单元中的未分类数据单元;所述第一输入数据单元为输入到第l层表示模型的数据单元;所述l为正整数;每一个数据单元具有对应的表示向量和类别;
所述第一设备确定所述未分类数据单元中的可分类数据单元,以及所述可分类数据单元的类别;
所述第一设备基于所述第一输入数据单元中的已分类数据单元的类别和所述可分类数据单元的类别,确定所述第一输入数据单元中的可合并数据单元;
所述第一设备对所述可合并数据单元进行合并,得到合并后的数据单元;
在满足预设条件的情况下,所述第一设备将当前的所述第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备。
2.如权利要求1所述的方法,其特征在于,所述第一设备确定所述未分类数据单元中的可分类数据单元,以及所述可分类数据单元的类别,具体包括:
所述第一设备确定所述未分类数据单元与候选类别集合中的类别相对应的概率,得到所述未分类数据单元对于所述候选类别集合的概率分布;
所述第一设备确定所述未分类数据单元的不确定度;所述不确定度用于衡量所述未分类数据单元的类别的不确定性;
所述第一设备确定所述未分类数据单元中的不确定度小于筛选阈值的未分类数据单元为所述可分类数据单元,并将所述可分类数据单元对应的概率分布中概率最大的候选类别确定为所述可分类数据单元的类别。
3.如权利要求2所述的方法,其特征在于,所述未分类数据单元的不确定度为所述未分类数据单元对应的概率分布的熵,或者,所述未分类数据单元的不确定度为1与所述未分类数据单元对应的概率分布中的最大概率的差值。
4.如权利要求1所述的方法,其特征在于,所述第一设备确定所述未分类数据单元中的可分类数据单元,以及所述可分类数据单元的类别,具体包括:
所述第一设备确定所述未分类数据单元与候选类别集合中的类别相对应的概率,得到所述未分类数据单元对于所述候选类别集合的概率分布;
在所述第l层表示模型为序列标注模型的最高层表示模型的情况下,所述第一设备确定所述未分类数据单元均为所述可分类数据单元,并将所述可分类数据单元对应的概率分布中概率最大的候选类别确定为所述可分类数据单元的类别;所述序列标注模型部署在所述第一设备,或者所述第一设备和所述第二设备中。
5.如权利要求1-4任一项所述的方法,其特征在于,所述可合并数据单元为所述第一输入数据单元中的类别对应的实体一致,且位置相邻的数据单元;所述第一设备对所述可合并数据单元进行合并,得到合并后的数据单元,具体包括:
所述第一设备基于合并规则对所述可合并数据单元对应的类别进行合并,以及基于合并模型对所述可合并数据单元对应的表示向量进行合并,得到合并后的类别和表示向量;所述合并后的类别和表示向量与所述合并后的数据单元相对应;所述合并规则包括合并前的数据单元的类别和合并后的数据单元的类别的对应关系;所述合并模型为神经网络模型。
6.如权利要求5所述的方法,其特征在于,所述第一设备对所述可合并数据单元进行合并之后,所述方法还包括:
所述第一设备对所述合并的过程进行记录,并保存合并记录;所述合并记录包括合并次数和合并的数据单元的位置;所述合并的数据单元的位置包括合并前的数据单元的位置和合并后的数据单元的位置。
7.如权利要求5所述的方法,其特征在于,所述预设条件包括:所述第l层表示模型为所述第一设备中的最高层表示模型。
8.如权利要求6所述的方法,其特征在于,所述预设条件包括:所述合并次数超过预设合并次数,或者,所述当前的所述第l层表示模型中的数据单元与初始数据单元的数量的比值小于预设比值;所述初始数据单元为输入到第一层表示模型的数据单元。
9.如权利要求8所述的方法,其特征在于,所述预设条件还包括:所述l满足预设层数范围。
10.如权利要求5所述的方法,其特征在于,在不满足预设条件的情况下,所述第一设备将所述当前的所述第l层表示模型中的数据单元对应的表示向量和类别发送给第l+1层表示模型。
11.如权利要求6-10任一项所述的方法,其特征在于,所述第一设备将当前的所述第l层表示模型中的数据单元对应的表示向量和类别发送给第二设备之后,所述方法还包括:
所述第一设备接收所述第二设备发送的第m层表示模型中的数据单元对应的类别和更新后的合并记录;
所述第一设备基于所述第m层表示模型中的数据单元对应的类别和所述更新后的合并记录还原输入到所述第一设备的文本分词后的最小切分单元对应的类别;
其中,所述第m层表示模型为所述第二设备中的最高层表示模型;所述更新后的合并记录包括所述第一设备中的表示模型中的数据单元的合并记录和所述第二设备中的表示模型中的数据单元的合并记录。
12.一种基于词融合的序列标注方法,其特征在于,所述方法包括:
第二设备接收第一设备发送的第二输入数据单元;所述第二输入数据单元为所述第一设备中的最高层表示模型输出的数据单元;每一个数据单元具有对应的表示向量和类别;
所述第二设备对所述第二输入数据单元进行处理,得到处理后的数据单元;所述处理后的数据单元包括所述处理后的数据单元对应的类别;
所述第二设备将所述处理后的数据单元对应的类别发送给所述第一设备。
13.如权利要求12所述的方法,其特征在于,所述第二设备对所述第二输入数据单元进行处理,具体包括:
所述第二设备确定所述第二输入数据单元中的未分类数据单元;所述第二输入数据单元为输入到第m层表示模型的数据单元;所述m为正整数;
所述第二设备确定所述未分类数据单元中的可分类数据单元,以及所述可分类数据单元的类别;
所述第二设备基于所述第二输入数据单元中的已分类数据单元的类别和所述可分类数据单元的类别,确定所述第二输入数据单元中的可合并数据单元;
所述第二设备对所述可合并数据单元进行合并,得到合并后的数据单元。
14.如权利要求13所述的方法,其特征在于,所述得到合并后的数据单元之后,所述方法还包括:
在所述第m层表示模型为所述第二设备中的最高层表示模型的情况下,所述处理后的数据单元为当前的所述第m层表示模型中的数据单元;
在所述第m层表示模型不为所述第二设备中的最高层表示模型的情况下,所述第二设备将当前的所述第m层表示模型中的数据单元发送给第m+1层表示模型。
15.如权利要求14所述的方法,其特征在于,所述第二设备对所述可合并数据单元进行合并之后,所述方法还包括:
所述第二设备保存合并记录;所述合并记录包括合并次数和合并的数据单元的位置;所述合并的数据单元的位置包括合并前的数据单元的位置和合并后的数据单元的位置;
所述得到处理后的数据单元之后,所述方法还包括:所述第二设备将所述合并记录发送给所述第一设备。
16.如权利要求15所述的方法,其特征在于,所述可合并数据单元为所述第二输入数据单元中的类别对应的实体一致,且位置相邻的数据单元;所述第二设备对所述可合并数据单元进行合并,得到合并后的数据单元,具体包括:
所述第二设备基于合并规则对所述可合并数据单元对应的类别进行合并,以及基于合并模型对所述可合并数据单元对应的表示向量进行合并,得到合并后的类别和表示向量;所述合并后的类别和表示向量与所述合并后的数据单元相对应;所述合并规则包括合并前的数据单元的类别和合并后的数据单元的类别的对应关系;所述合并模型为神经网络模型。
17.如权利要求13-16任一项所述的方法,其特征在于,所述第二设备确定所述未分类数据单元中的可分类数据单元,以及所述可分类数据单元的类别,具体包括:
所述第二设备确定所述未分类数据单元与候选类别集合中的类别相对应的概率,得到所述未分类数据单元对于所述候选类别集合的概率分布;
所述第二设备确定所述未分类数据单元的不确定度;所述不确定度用于衡量所述未分类数据单元的类别的不确定性;
所述第二设备确定所述未分类数据单元中的不确定度小于筛选阈值的未分类数据单元为所述可分类数据单元,并将所述可分类数据单元对应的概率分布中概率最大的候选类别确定为所述可分类数据单元的类别。
18.如权利要求17所述的方法,其特征在于,所述未分类数据单元的不确定度为所述概率分布的熵,或者,所述未分类数据单元的不确定度为1与所述未分类数据单元对应的概率分布中的最大概率的差值。
19.如权利要求13-16任一项所述的方法,其特征在于,所述第二设备确定所述未分类数据单元中的可分类数据单元,以及所述可分类数据单元的类别,具体包括:
所述第二设备确定所述未分类数据单元与候选类别集合中的类别相对应的概率,得到所述未分类数据单元对于所述候选类别集合的概率分布;
在所述第m层表示模型为所述第二设备中的最高层表示模型的情况下,所述第二设备确定所述未分类数据单元均为所述可分类数据单元,并将所述可分类数据单元对应的概率分布中概率最大的候选类别确定为所述可分类数据单元的类别。
20.一种电子设备,包括一个或多个存储器、一个或多个处理器,其特征在于,所述存储器用于存储计算机程序;所述处理器用于调用所述计算机程序,使得所述电子设备执行权利要求1-11中任一项所述的方法。
21.一种电子设备,包括一个或多个存储器、一个或多个处理器,其特征在于,所述存储器用于存储计算机程序;所述处理器用于调用所述计算机程序,使得所述电子设备执行权利要求12-19中任一项所述的方法。
22.一种计算机存储介质,其特征在于,包括:计算机指令;当所述计算机指令在电子设备上运行时,使得所述电子设备执行权利要求1-11中任一项所述的方法。
23.一种计算机存储介质,其特征在于,包括:计算机指令;当所述计算机指令在电子设备上运行时,使得所述电子设备执行权利要求12-19中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210726962.XA CN116049347B (zh) | 2022-06-24 | 2022-06-24 | 一种基于词融合的序列标注方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210726962.XA CN116049347B (zh) | 2022-06-24 | 2022-06-24 | 一种基于词融合的序列标注方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049347A true CN116049347A (zh) | 2023-05-02 |
CN116049347B CN116049347B (zh) | 2023-10-31 |
Family
ID=86118678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210726962.XA Active CN116049347B (zh) | 2022-06-24 | 2022-06-24 | 一种基于词融合的序列标注方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049347B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370334A1 (en) * | 2018-06-02 | 2019-12-05 | Apple Inc. | Privatized apriori algorithm for sequential data discovery |
CN110738309A (zh) * | 2019-09-27 | 2020-01-31 | 华中科技大学 | Ddnn的训练方法和基于ddnn的多视角目标识别方法和系统 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN111159409A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
WO2021121198A1 (zh) * | 2020-09-08 | 2021-06-24 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN113297375A (zh) * | 2021-05-17 | 2021-08-24 | 广州锋网信息科技有限公司 | 一种基于标签的文档分类方法、系统、装置及存储介质 |
CN113312543A (zh) * | 2020-02-27 | 2021-08-27 | 华为技术有限公司 | 基于联合学习的个性化模型训练方法、电子设备和介质 |
CN113536793A (zh) * | 2020-10-14 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN113947083A (zh) * | 2021-02-04 | 2022-01-18 | 复旦大学 | 一种文档级别命名实体识别方法 |
CN113971405A (zh) * | 2021-12-01 | 2022-01-25 | 苏州科技大学 | 基于albert模型融合的医疗命名实体识别系统及其方法 |
-
2022
- 2022-06-24 CN CN202210726962.XA patent/CN116049347B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370334A1 (en) * | 2018-06-02 | 2019-12-05 | Apple Inc. | Privatized apriori algorithm for sequential data discovery |
CN110738309A (zh) * | 2019-09-27 | 2020-01-31 | 华中科技大学 | Ddnn的训练方法和基于ddnn的多视角目标识别方法和系统 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN111159409A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
CN113312543A (zh) * | 2020-02-27 | 2021-08-27 | 华为技术有限公司 | 基于联合学习的个性化模型训练方法、电子设备和介质 |
WO2021121198A1 (zh) * | 2020-09-08 | 2021-06-24 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN113536793A (zh) * | 2020-10-14 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种实体识别方法、装置、设备以及存储介质 |
CN113947083A (zh) * | 2021-02-04 | 2022-01-18 | 复旦大学 | 一种文档级别命名实体识别方法 |
CN113297375A (zh) * | 2021-05-17 | 2021-08-24 | 广州锋网信息科技有限公司 | 一种基于标签的文档分类方法、系统、装置及存储介质 |
CN113971405A (zh) * | 2021-12-01 | 2022-01-25 | 苏州科技大学 | 基于albert模型融合的医疗命名实体识别系统及其方法 |
Non-Patent Citations (3)
Title |
---|
PENG, ML 等: "Learning Task-Specific Representation for Novel Words in Sequence Labeling", PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, pages 5146 - 5152 * |
王旭阳 等: "融合多类别基分类器的序列标注算法", 传感器与微系统, pages 148 - 150 * |
范守祥;姚俊萍;李晓军;马可欣;: "基于序列标注反馈模型的方面信息提取方法", 计算机工程与设计, no. 09, pages 251 - 257 * |
Also Published As
Publication number | Publication date |
---|---|
CN116049347B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091132B (zh) | 基于人工智能的图像识别方法、装置、计算机设备及介质 | |
CN110097019B (zh) | 字符识别方法、装置、计算机设备以及存储介质 | |
CN111738122B (zh) | 图像处理的方法及相关装置 | |
CN110750992B (zh) | 命名实体识别方法、装置、电子设备及介质 | |
CN112036331B (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN110110145A (zh) | 描述文本生成方法及装置 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN112989767B (zh) | 医学词语标注方法、医学词语映射方法、装置及设备 | |
CN112069309A (zh) | 信息获取方法、装置、计算机设备及存储介质 | |
CN112163428A (zh) | 语义标签的获取方法、装置、节点设备及存储介质 | |
WO2022073417A1 (zh) | 融合场景感知机器翻译方法、存储介质及电子设备 | |
CN111930964B (zh) | 内容处理方法、装置、设备及存储介质 | |
CN111881315A (zh) | 图像信息输入方法、电子设备及计算机可读存储介质 | |
CN112163717A (zh) | 人口数据预测方法、装置、计算机设备及介质 | |
CN114359225B (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN111753498A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114281956A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN111341307A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113822084A (zh) | 语句翻译方法、装置、计算机设备及存储介质 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN113761195A (zh) | 文本分类方法、装置、计算机设备及计算机可读存储介质 | |
CN113642359B (zh) | 人脸图像生成方法、装置、电子设备及存储介质 | |
CN113570510A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112287070A (zh) | 词语的上下位关系确定方法、装置、计算机设备及介质 | |
CN116049347B (zh) | 一种基于词融合的序列标注方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |