CN112818692A - 命名实体识别和处理方法、装置、设备及可读存储介质 - Google Patents
命名实体识别和处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN112818692A CN112818692A CN202110159586.6A CN202110159586A CN112818692A CN 112818692 A CN112818692 A CN 112818692A CN 202110159586 A CN202110159586 A CN 202110159586A CN 112818692 A CN112818692 A CN 112818692A
- Authority
- CN
- China
- Prior art keywords
- corpus data
- entity
- target
- queue
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 147
- 230000007246 mechanism Effects 0.000 claims abstract description 92
- 238000010606 normalization Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000001939 inductive effect Effects 0.000 claims description 4
- 239000000463 material Substances 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 54
- 230000008569 process Effects 0.000 description 13
- 238000013507 mapping Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002708 enhancing effect Effects 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种命名实体识别和处理方法,该方法包括:获取待处理的样本数据集,并对样本数据集进行预处理,得到目标样本集;利用目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;获取待识别的语料数据,并根据所述目标识别模型创建对语料数据进行处理的队列机制;根据所述队列机制,对语料数据进行识别处理,得到识别实体集;对所述识别实体集进行归一化处理,得到目标实体集。本发明还公开了一种命名实体识别和处理装置、设备及可读存储介质。本发明通过对获取的样本数据集进行预处理提高了模型的识别准确率,根据队列机制对语料数据进行识别提高了模型识别的鲁棒性,进而提高了命名实体识别和归一化处理结果的准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种命名实体识别和处理方法、装置、设备及可读存储介质。
背景技术
目前命名实体的识别技术中,普遍是基于规则和词典的方法或基于统计的方法,基于规则的方法多采用语言学专家构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方法,以模式和字符串相匹配为主要手段,这类方法大多依赖于知识库和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性差,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价太大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。基于统计的方法过于依赖语料库,而大规模通用的高质量语料库又比较少。在对识别结果进行归一化处理时普遍采用直接规则转化的方法,存在的问题是规则编写困难,且容易互相交叉,准确率不高。
发明内容
本发明的主要目的在于提供一种命名实体识别和处理方法、装置、设备及可读存储介质,旨在解决现有命名实体识别技术存在规则编写困难、耗时长且错误率高,导致命名实体归一化处理结果准确率低的技术问题。
此外,为实现上述目的,本发明还提供一种命名实体识别和处理方法,所述方法包括以下步骤:
获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集;
利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;
获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制;
根据所述队列机制,对所述语料数据进行识别处理,得到识别实体集;
对所述识别实体集进行归一化处理,得到目标实体集。
可选地,所述对所述样本数据集进行预处理,得到目标样本集的步骤,包括:
对所述样本数据集进行分类处理,将所述样本数据集划分为第一类实体集和第二类实体集;
对所述第一类实体集进行归纳总结处理,并对所述第二类实体集进行增强处理,得到目标样本集。
可选地,所述对所述第二类实体集进行增强处理的步骤,包括:
对所述第二类实体集进行标注,得到标注实体集;
对所述标注实体集进行改写转换处理,得到实体增强集;
利用所述实体增强集对所述标注实体集进行替换和标志位遮掩处理,以完成对所述第二类实体集的增强处理。
可选地,所述根据所述目标识别模型创建对所述语料数据进行处理的队列机制的步骤,包括:
创建对所述语料数据的进行传输的前置层、中间层和后置层;
获取队列参数,并根据所述队列参数在所述队列机制的中间层和后置层中,创建所述语料数据的等待队列;
将所述目标识别模型中的第一识别模型和第二识别模型,设置到所述队列机制的前置层;
将所述目标识别模型中的第三识别模型,设置到所述队列机制的后置层以完成队列机制的创建,其中,所述第三识别模型用于对语料数据中的第二类实体集进行识别,所述第一识别模型用于对所述第三识别模型进行异常兜底识别。
可选地,所述队列参数包括队列长度和等待时长,所述根据所述队列机制,对所述语料数据进行识别处理的步骤,包括:
将所述语料数据发送至所述队列机制的前置层进行过滤清洗处理,得到第一目标语料数据,并对所述第一目标语料数据中的第一类实体集进行识别处理;
将所述第一目标语料数据发送至所述队列机制的中间层,并对所述第一目标语料数据进行合并处理,得到第二目标语料数据;
对所述队列机制的后置层进行检测,以将所述第二目标语料数据转发到所述队列机制的后置层,对所述第二目标语料数据中的第二类实体集进行识别处理。
可选地,所述将所述第一目标语料数据发送至所述队列机制的中间层,并对所述第一目标语料数据进行合并处理,得到第二目标语料数据的步骤,包括:
将所述第一目标语料数据发送至所述队列机制的中间层的第一等待队列中,并判断所述第一等待队列中的语料数据是否达到第一预设队列长度;
若所述第一等待队列中的语料数据达到第一预设队列长度,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据;
若所述第一等待队列中的语料数据未达到第一预设队列长度,判断所述第一等待队列中的语料数据中的第一语料数据的等待时长,是否超过了预设时长,若是,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据,其中,所述第一语料数据是第一个被发送至所述第一等待队列中的语料数据。
可选地,所述对所述队列机制的后置层进行检测,以将所述第二目标语料数据转发到所述队列机制的后置层,对所述第二目标语料数据中的第二类实体集进行识别处理的步骤,包括:
对所述队列机制的后置层中的第二等待队列进行检测,以判断所述第二等待队列中的语料数据是否超过第二预设队列长度;
若所述第二等待队列中的语料数据未超过第二预设队列长度,则将所述第二目标语料数据发送至所述第二等待队列中进行识别处理;
若所述第二等待队列中的语料数据超过第二预设队列长度,则生成转发拒绝指令;
根据所述转发拒绝指令,将所述第二目标语料数据发送至所述队列机制的前置层,以对所述第二目标语料数据进行后置层异常兜底识别处理。
此外,为实现上述目的,本发明还提供一种命名实体识别和处理装置,所述命名实体识别和处理装置包括:
样本处理模块,用于获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集;
模型训练模块,用于利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;
队列创建模块,用于获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制;
实体识别模块,用于根据所述队列机制,对所述语料数据进行识别处理,得到识别实体集;
归一化处理模块,用于对所述识别实体集进行归一化处理,得到目标实体集。
此外,为实现上述目的,本发明还提供一种命名实体识别和处理设备,所述命名实体识别和处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的命名实体识别和处理程序,所述命名实体识别和处理程序被所述处理器执行时实现如上述的命名实体识别和处理方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有命名实体识别和处理程序,所述命名实体识别和处理程序被处理器执行时实现如上述的命名实体识别和处理方法的步骤。
本发明实施例提出的一种命名实体识别和处理方法、装置、设备及可读存储介质。与现有技术中,命名实体识别技术存在规则编写困难、耗时长且错误率高,导致命名实体归一化识别结果准确率低相比,本发明实施例中,通过获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集,利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型,获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制,根据所述队列机制,对所述语料数据进行识别处理,得到识别实体集,对所述识别实体集进行归一化处理,得到目标实体集。即通过利用预处理后的样本数据,对预设待训练识别模型进行迭代训练,提高了识别模型的识别准确率,通过建立队列机制对待识别的语料数据进行识别,在队列机制中增加兜底模型,对模型的识别进行异常兜底,增加了识别的鲁棒性,从而提高了对命名实体识别的准确率,对通过识别得到的识别实体集进行归一化处理,提高了命名实体的归一化处理结果的准确率。
附图说明
图1为本发明实施例提供的设备一种实施方式的硬件结构示意图;
图2为本发明命名和实体识别和处理方法第一实施例的流程示意图;
图3为本发明命名和实体识别和处理方法第一实施例中根据队列机制对语料数据进行识别的过程示意图;
图4为本发明命名和实体识别和处理方法第一实施例中根据队列机制对语料数据进行识别和归一化处理的过程示意图;
图5为本发明命名和实体识别和处理装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例命名实体识别和处理终端(又叫终端、设备或者终端设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及命名实体识别和处理程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的命名实体识别和处理程序,所述命名实体识别和处理程序被处理器执行时实现下述实施例提供的命名实体识别和处理方法中的操作。
基于上述设备硬件结构,提出了本发明命名实体识别和处理方法的实施例。
参照图2,在本发明命名实体识别和处理方法的第一实施例中,所述命名实体识别和处理方法包括:
步骤S10,获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集;
本发明中的命名实体识别和处理方法,用于识别和处理命名实体,特别是业务数据中的命名实体,例如银行的业务数据,由于业务数据来源多,结构复杂,且数据使用不规范等问题,导致业务数据中命名实体存在不标准、不统一等问题,在做数据分析或开展下游业务时,常常需要对海量的业务数据进行处理,例如,识别出业务数据中的命名实体,并将识别到的命名实体进行标准化处理。可知地,命名实体一般包括实体名、时间表达式和日期表达式等,其中,实体名包括人名、机构名、地名,时间表达式包括日期、时间和持续时间,数值表达式包括金额、度量衡、百分比以及基数等。
在本实施例中以银行业务数据为例,获取银行的业务数据作为样本数据集,在银行业务中,产生的数据一般都以命名实体相关联,其中,个人基本信息如姓名、身份证号、银行账号等都是确定的,可以作为结构化的数据进行标准化处理,但对于金额、时间等可以通过个人的表达方式确定的数据,不同的用户根据个人习惯可能有不同的表达方式,且存在不规范数据,因此,需要进行预处理,对样本数据中的命名实体进行归纳总结和增强等处理,从样本数据集中获取需要识别的命名实体的常用表达式,以扩充识别模型识别基础的语料信息,提高模型的识别准确率。
步骤S20,利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;
利用通过对样本数据集进行预处理得到的目标样本集,对预设待训练基础模型进行迭代训练,得到的目标识别模型可以适应中文表达的多样性。目标识别模型中包括多个识别模型,用于识别不同类型或不同的命名实体。以银行业务数据为例,在银行的业务数据中,常见的有可以简单枚举出的规则型命名实体和无法通过简单枚举的统计型命名实体,其中,规则型命名实体如银行卡尾号、银行卡类型、个人证件类型等,统计型命名实体包括时间实体和金额实体,由于中文表达的多样性,以及大小写和阿拉伯数字的混合,使得时间实体和金额实体的表达无法像规则型命名实体一样简单枚举。
本实施例中仅以规则型命名实体、统计型命名实体中的时间实体和金额实体为例,预设待训练识别模型的优选模型可以是,BERT(Bidirectional EncoderRepresentation from Transformers,来自变压器的双向编辑器表示模型)模型和LSTM-CRF(Long Short Term Memory-Conditional Random Fields,基于条件随机场和长短期记忆的双向编辑器表示模型)模型,用于识别统计型实体、TextCNN(Text ConvolutionalNeural Networks,文本卷积神经网络模型)模型,用于对统计型的时间实体进行识别和分类,而规则型命名实体可以通过创建的映射字典直接进行提取。利用目标样本集对BERT模型和LSTM-CRF模型进行迭代训练,得到增强型的BERT-LSTM-CRF模型,以及用于兜底的LSTM-CRF模型,对TextCNN进行迭代训练,得到增强型的TextCNN模型,可以对BERT-LSTM-CRF模型和LSTM-CRF模型识别出的统计型命名实体,在后续处理时进行进一步的识别分类。
需要说明的是,上述识别模型仅为本发明命名实体识别的优选模型,并不用于限制本发明命名实体识别方法中的识别模型。在对模型进行迭代训练时,还可以利用获取的业务数据对模型进行预训练,再利用经过预处理的目标样本集进行迭代训练,能够使训练后的模型的识别准确率更高。
步骤S30,获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制;
在本实施例中,本发明中的命名实体识别和处理方法可以设置有命名实体识别和处理系统,以下以命名实体识别和处理系统(简称系统)为例进行说明,该系统可以与多个业务终端相连接,并能同时对多个业务终端中产生的业务数据进行识别和处理,因此,系统获取的待识别语料数据可以是来自多个业务系统的多组数据,也可以是来自于同一个业务系统不同终端的业务数据,在此不作具体限定。
在对获取的语料数据进行识别和处理时,根据待识别的语料数据的传输规则,在系统中创建队列机制,创建队列机制的目的是为了防止多端业务数据同时接入系统进行识别处理时,系统因数据拥堵而产生异常。采用队列机制可以缓解系统高峰时期的数据处理压力,防止数据过载,增加系统的鲁棒性。
创建的队列机制包括前置层、中间层和后置层,其中,系统的前置层用于连接业务终端获取待识别的语料数据,并对获取的语料数据中的命名实体进行识别和归一化处理;系统的中间层包括等待队列,是待识别语料数据的转发层,用于将多组数据进行合并打包,统一发送到后置层进行识别处理;系统的后置层用于对语料数据进行命名实体识别,并按照语料数据的传输规则将识别结果返回到前置层,当检测到后置层识别异常时,向前置层发送后置层识别异常的反馈信息,并在前置层对待识别数据进行识别处理,因此,队列机制的前置层还可以对后置层的识别进行异常兜底。同时,可以将多个前置层获取的业务终端的待识别语料数据,在系统的中间层统一合并打包并压缩发送到系统的后置层进行批量的命名实体识别处理,在命名实体识别阶段再次实现批量加速,提高了命名实体的识别效率。
系统前置层在获取到待识别的语料数据后,还对获取的语料数据进行简单的处理,例如过滤清洗等,这是由于对于不同类型的命名实体,识别和归一化处理的方式不同,因此对获取的语料数据进行过滤清洗,对于无法识别的数据进行清洗过滤,对缺失数据进行补全等。
需要说明的是,创建的队列机制中的前置层、中间层和后置层的数量并一定是相同的,一般地,前置层可以连接业务终端,因此数量可以是最多的,一个中间层可以对应多个前置层,同样地,一个后置层也可以对应多个中间层。
步骤S40,根据所述队列机制,对所述语料数据进行识别,得到识别实体集;
系统的前置层可获取待识别的语料数据,并对获取的待识别的语料数据进行预处理,得到可以直接进行识别的语料数据,根据系统创建的队列机制进行命名实体识别时,在系统前置层、中间层和后置层中,分别对语料数据进行不同的识别及传输处理。当系统检测到后置层完成实体识别任务后,将后置层的识别结果反馈到前置层。
步骤S50,对所述识别实体集进行归一化处理,得到目标实体集。
对语料数据进行识别得到实体识别集后,需要对识别实体集中的命名实体进行归一化处理,归一化处理的原因在于,对于金额、时间等通过表达式确定的数据,不同的用户根据个人习惯可能有不同的表达方式,且存在不规范数据,例如时间实体的表达式为“%年%月%日”形式,根据该时间实体的表达式,“2021年1月1日”即为规范的表达式,而“2021.01.01”、“元旦”、“2021/01/01”等形式的都为不规范的表达式,因此,需要对这部分数据进行识别和归一化处理,将命名实体统一规范,在统一命名实体的规范时,并不是仅仅将命名实体处理为一种形式的命名实体,而是可以有多种表达,统一的目的在于,对于各种规范下的不规范表达进行处理,例如上述的时间实体,可以是“%年%月%日”,也可以是形如“2021.01.01”和“2021/01/01”的形式,在“%年%月%日”的规范下,可能存在“%月%日”式的表达,此时需要对命名实体进行补全,使得命名实在归一化的同时,也存在多样化,从而能够适应不同的业务需求。
在系统前置层对识别实体集进行归一化处理,在对识别实体集进行归一化处理时,不同类型的实体对应不同的归一化函数或归一化处理规则,例如,对于规则型实体集,可直接利用归一化映射字典进行映射,对于统计型实体,例如时间实体,在对时间实体进行归一化处理时,可以先将时间实体进行细分,例如,利用上述TextCNN模型,对时间实体进行分类,将时间实体按照格式细分为预设数量的类别,包括标准格式、星期格式、假期格式等,每一个时间格式都对应编写相应的正则表达式,在从待识别的语料数据中识别出时间实体后,可以采用如遍历或匹配的方式,根据识别得到的时间实体的格式类别确定对应的正则表达式,根据正则表达式将识别得到的时间实体转化为标准时间格式。根据归一化函数或归一化处理规则,完成对实体识别集中实体的归一化处理后,得到目标实体集,该目标实体集中的实体即为标准化或归一化的命名实体。
由于系统中建立了队列机制,在系统的前置层和后置层都可能对语料数据进行识别,因此,得到的实体识别集中,包括前置层得到的第一识别实体集和后置层得到的第二识别实体集。在对识别结果进行归一化处理时,先对第一识别实体集进行归一化处理,得到第一目标实体集,第一识别实体集包括规则型实体集,根据目标映射字典对提取的规则型实体集进行映射,确定命名实体的标准格式,以及不同实体的归一化处理规则或正则表达式。对第二识别实体集中的实体进行归一化处理时,具体的处理过程或处理规则包括:先利用归一化处理模型对命名实体的类别进行细分,确定识别得到的命名实体属于哪一细类,然后通过每一细类的命名实体对应的正则表达式,再次确定命名实体是否属于该细类,如果是,则根据对应的正则表达式将命名实体转换为标准格式,得到第二识别实体对应的第二目标实体集,将第一目标实体集和第二目标实体集整合,得到目标实体集。
更具体地,例如在对统计型实体进行归一化处理时,以时间实体为例,先利用TextCNN模型对识别得到的时间实体进行细分类,在细分类时,可以是将时间实体与时间实体的每一细类进行匹配,并分别预测匹配度得分,得分最高的即为该时间实体对应的细类,根据每个时间实体对应的细类,确定每个时间实体对应的正则表达式,然后根据正则表达式确定对应的归一化处理规则或函数,按照归一化处理规则或函数对命名实体进行改写、转换等处理,将第二识别实体集中的命名实体处理为归一化的命名实体,得到第二目标实体集。
可知地,在对统计型命名实体进行归一化处理时,统计型命名实体的细分类别与正则表达式呈一一对应关系,即每一个命名实体的细分类别都有其对应的正则表达式。在对统计型的命名实体进行归一化处理时,先按照细分类别对命名实体进行分类,确定每个命名实体的细分类别,根据细分类别确定正则表达式,根据正则表达式将命名实体转化为标准格式。当根据正则表达式无法将某个时间实体转化为标准格式时,可能是由于该时间实体的表述方式过于模糊导致模型在对其识别后,进行类别细分时产生分类错误,在通过正则表达式确认无法对其进行归一化处理后,可以将剩余的类别中匹配度得分最高的一个类别,作为该时间实体的细分类别,并利用对应的正则表达式对其进行归一化处理。由此可知,在对时间实体的归一化处理中,按照命名实体的类别进行细分,使不同类别的命名实体相互隔离,通过正则表达式对时间实体的类别进行二次验证,从而使时间实体的归一化处理结果更加准确,可知地,在本实施例中,其他命名实体的归一化处理结果也可以通过与时间实体相同或相似的方法达到同样的效果,该方法包括但不限于对命名实体进行类别划分,对不同类别的命名实体利用不同的正则表达式进行类别二次验证和标准格式转换,以在归一化处理时将不同类别的命名实体进行隔离处理。
步骤S30的细化,包括步骤A1-A4:
步骤A1,创建对所述语料数据的进行传输的前置层、中间层和后置层;
步骤A2,获取队列参数,并根据所述队列参数在所述队列机制的中间层和后置层中,创建所述语料数据的等待队列;
步骤A3,将所述目标识别模型中的第一识别模型和第二识别模型,设置到所述队列机制的前置层;
步骤A4,将所述目标识别模型中的第三识别模型,设置到所述队列机制的后置层以完成队列机制的创建,其中,所述第三识别模型用于对语料数据中的第二类实体集进行识别,所述第一识别模型用于对所述第三识别模型进行异常兜底识别。
在创建系统的队列机制时,首先要获取队列参数,其中,队列参数包括队列长度、等待时间和请求数量等,根据获取的队列参数,在系统的中间层和后置层中创建待识别的语料数据的等待队列,中间层的等待队列,用于向后置层合并转发系统前置层获取的待识别的语料数据,后置层的等待队列用于存放中间层转发的语料数据。系统前置层和后置层中都设置有实体识别模型,由于系统前置层要对后置层进行异常兜底,且要对识别实体集进行归一化处理,因此,系统前置层设置有实体识别模型和归一化处理模型,将目标识别模型中的第一识别模型和第二识别模型设置到系统的前置层,将目标识别模型中的第三识别模型设置到系统的后置层。
以上述目标识别模型为例,LSTM-CRF模型为第一识别模型、TextCNN模型为第二识别模型,BERT-LSTM-CRF模型为第三识别模型,将训练好的模型根据需求分别设置到系统的前置层和后置层后,即完成对系统队列机制的创建。
步骤S40的细化,包括步骤B1-B3:
步骤B1,将所述语料数据发送至所述队列机制的前置层进行过滤清洗处理,得到第一目标语料数据,并对所述第一目标语料数据中的第一类实体集进行识别处理;
步骤B2,将所述第一目标语料数据发送至所述队列机制的中间层,并对所述第一目标语料数据进行合并处理,得到第二目标语料数据;
步骤B3,对所述队列机制的后置层进行检测,以将所述第二目标语料数据转发到所述队列机制的后置层,对所述第二目标语料数据中的第二类实体集进行识别处理。
根据上述创建的队列机制,以上述识别模型和命名实体为例,在对待识别的语料数据进行识别时,先在系统的前置层对获取的语料数据进行简单的清洗过滤处理,得到第一目标语料数据,并对第一目标语料数据进行提取,从中抽取规则型实体集,得到第一识别实体集,然后将第一目标语料数据发送到系统的中间层等待转发,在系统的中间层对第一目标数据进行合并和批量转发,例如,在中间层的等待队列中,有来自与不同业务终端连接的前置层的多个语料数据,形如“第一目标语料数据1”、“第一目标语料数据2”、“第一目标语料数据3”、......、“第一目标语料数据n”,在系统的中间层,可以对多个语料数据进行合并,得到第二目标语料数据,实现对语料数据的合并转发,合并后的语料数据可以是“第一目标语料数据1,第一目标语料数据2,第一目标语料数据3,......,第一目标语料数据n”。当数据量较大时,还可以对合并后的语料数据进行压缩处理,得到第二目标语料数据,对压缩后的数据进行传输,可以有效减少网络传输的压力。
在将第二目标语料数据发送到系统后置层中时,先对系统后置层的第二等待队列进行检测,当确认等待队列中的剩余队列长度足够时,再将第二目标语料数据发送到后置层的第二等待队列中,等待识别处理。
步骤B2的细化,包括步骤B21-B23:
步骤B21,将所述第一目标语料数据发送至所述队列机制的中间层的第一等待队列中,并判断所述第一等待队列中的语料数据是否达到第一预设队列长度;
步骤B22,若所述第一等待队列中的语料数据达到第一预设队列长度,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据;
步骤B23,若所述第一等待队列中的语料数据未达到第一预设队列长度,判断所述第一等待队列中的语料数据中的第一语料数据的等待时长,是否超过了预设时长,若是,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据,其中,所述第一语料数据是第一个被发送至所述第一等待队列中的语料数据。
当语料数据被发送到系统中间层时,判断系统中间层的队列长度是否超过第一预设队列长度,若是,则将语料数据合并转发到系统后置层,若系统中间层的队列长度未超过预设队列长度,判断语料数据的实际等待时间是否超过等待队列预设的等待时间,若是,则将等待队列中的语料数据合并转发到系统后置层,其中,语料数据在中间等待队列中的实际等待时长,应当以最早被发送到等待队列中的语料数据的等待时长为判断标准。
例如,若中间层的队列长度为100条语料数据,当队列中的语料数据达到50条时,即合并转发到系统后置层进行识别,可以防止数据过载,若中间层的等待队列中的语料数据未达到50条的队列长度,但是最早被发送到等待队列中的语料数据的等待时长已经超过预设时长,则将等待队列中目前已有的语料数据合并或转发到后置层中。当检测到有大量语料数据识别请求时,将语料数据发送到中间层的等待队列中进行合并压缩,然后统一转发到后置层。极端情况下,请求识别的语料数据超过了中间层等待队列的最大队列长度,则对于超过中间层队列长度部分的语料数据生成数据发送拒绝指令,拒绝前置层的发送请求,前置层在接收到中间层的拒绝指令后,利用前置层的兜底模型对语料数据进行识别和处理。通过设置队列长度和转发等待时长双重转发阈值,既可以防止数据过载,又减少了数据拥堵,从而增加了系统的鲁棒性,同时,系统前置层获取的待识别的语料数据,在系统的中间层被合并压缩后,打包转发到系统的后置层,进行批量识别处理,提高了系统对命名实体进行识别时的处理效率。
步骤B3的细化,包括步骤B31-B34:
步骤B31,对所述队列机制的后置层中的第二等待队列进行检测,以判断所述第二等待队列中的语料数据是否超过第二预设队列长度;
步骤B32,若所述第二等待队列中的语料数据未超过第二预设队列长度,则将所述第二目标语料数据发送至所述第二等待队列中进行识别处理;
步骤B33,若所述第二等待队列中的语料数据超过第二预设队列长度,则生成转发拒绝指令;
步骤B34,根据所述转发拒绝指令,将所述第二目标语料数据发送至所述队列机制的前置层,以对所述第二目标语料数据进行后置层异常兜底识别处理。
当语料数据从中间层的等待队列中被转发到后置层时,先对后置层的等待队列进行检测,判断后置层的等待队列中语料数据的队列长度是否超过第二预设队列长度,若未超过,则将合并后的语料数据发送到后置层的等待队列中等待识别处理,若后置层的等待队列中的语料数据超过了第二预设队列长度,则生成转发拒绝指令,拒绝中间层的数据转发请求,中间层在接收到转发拒绝指令后,将数据原路返回对应的前置层,由前置层进行兜底识别。后置层的队列长度
若有多个后置层,则可以筛选出等待队列中的语料数据的队列长度未超过第二预设队列长度的后置层,例如通过遍历的形式筛选出等待队列中语料数据未超过第二预设队列长度的后置层,并从中确定队列长度最短的一个目标队列,将中间层的语料数据发送至该目标队列中。
系统后置层在接收到中间层转发的语料数据后,逐条对等待队列中的语料数据进行批量识别,得到第二识别实体集,将第二识别实体集通过中间层反馈到系统前置层,统一进行归一化处理。如图4所示,图4为根据队列机制对获取的语料数据进行识别和归一化处理的过程示意图,在图4中,前置层获取待识别的语料数据后,对语料数据进行过滤清洗,得到第一目标语料数据并从中识别提取第一识别实体集,然后将第一目标语料数据发送到中间层的等待队列中等待合并转发,在中间层的等待队列中,可能存在来自多个前置层的第一目标语料数据,构成数据等待队列如上所述的“第一目标语料数据1”、“第一目标语料数据2”、“第一目标语料数据3”、“......”、“第一目标语料数据n”。当语料数据的队列长度超过预设队列长度或等待时长超过预设时长时,系统将中间层的等待队列中的语料数据进行合并转发,合并后的数据如“第一目标语料数据1,第一目标语料数据2,第一目标语料数据3,......,第一目标语料数据n”,将多条数据合并为一条数据转发到系统的后置层进行批量识别。在将数据转发到后置层时,若合并后的数据量较大,可以对数据进行压缩以提高数据的传输效率。在系统后置层对语料数据进行识别后,得到的第二识别实体集可以是“第二识别实体集1,第二识别实体集2,第二识别实体集3,......,第二识别实体集n”,将第二识别实体集发送到系统中间层,在系统中间层中对后置层反馈的识别结果进行拆分后,得到多个前置层对应的第二识别实体集,并对应发送到各个前置层中进行进一步的归一化处理。
如图3所示,图3是本实施例中根据队列机制对获取的语料数据进行识别的过程示意图,若以上述的银行业务数据和识别模型为例,在图3中,待识别的语料数据即为银行业务数据,前置层的第一识别模型和第二识别模型分别为LSTM-CRF模型和TextCNN模型,后置层的第三识别模型为BERT-LSTM-CRF模型,当语料数据被发送至系统前置层后,先对数据进行过滤清洗处理,然后进行规则型实体集的抽取,再将语料数据发送至中间层的等待队列中,从中间层的等待队列被合并转发至后置层进行时间实体的识别,后置层的实体识别结果被发送至前置层统一进行归一化处理。
在本实施例中,通过获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集,利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型,获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制,根据所述队列机制,对所述语料数据进行识别处理,得到识别实体集,对所述识别实体集进行归一化处理,得到目标实体集。即通过利用预处理后的样本数据,对预设待训练识别模型进行迭代训练,提高了识别模型的识别准确率,通过建立队列机制对待识别的语料数据进行识别,在队列机制中增加兜底模型,对模型的识别进行异常兜底,增加了识别的鲁棒性,从而提高了对命名实体识别和归一化处理结果的准确率,在对通过识别得到的识别实体集进行归一化处理时,对识别实体集中的命名实体的类别进行细分并进行二次确认,从而在归一化处理时对不同类别的命名实体进行隔离,提高了命名实体的归一化处理结果的准确率。
进一步地,在本发明上述实施例的基础上,提出了本发明方法的第二实施例。
本实施例是第一实施例中步骤S10细化的步骤,包括步骤C1-C2:
步骤C1,对所述样本数据集进行分类处理,将所述样本数据集划分为第一类实体集和第二类实体集;
步骤C2,对所述第一类实体集进行归纳总结处理,并对所述第二类实体集进行增强处理,得到目标样本集。
本实施例是对上述实施例中,样本数据集预处理过程的细化,在本实施例中,以上述实施例中的业务数据和识别模型为例进行说明。本实施例中所述的分类处理包括对不同类型的实体的分类处理、同类型的不同实体的分类处理,以及同一个实体的不同的命名格式的分类处理,在对获取语料数据进行预处理时,先根据预设分类标准,将待识别的语料数据中不同类型的实体划分为两大类,得到第一类实体集和第二类实体集,其中,在本实施例中,第一类实体集包括规则型实体集,第二类实体集包括统计型实体集。
对第一类实体集进行归纳总结,得到语料数据对应的目标映射字典,例如,规则型实体中的银行卡类型,目标映射字典中对应的映射应包括所有的银行卡类型,如“借记卡”、“信用卡”、“储蓄卡”等。然后对第二类实体集进行增强处理,即得到目标样本集。
其中,步骤C2中,对第二类实体集进行增强处理的过程,包括步骤C21-C23:
步骤C21,对所述第二类实体集进行标注,得到标注实体集;
步骤C22,对所述标注实体集进行改写转换处理,得到实体增强集;
步骤C23,利用所述实体增强集对所述标注实体集进行替换和标志位遮掩处理,以完成对所述第二类实体集的增强处理。
对样本数据集进行预处理,主要是对样本数据集中的命名实体进行分类增强处理,具体地,例如,对规则型实体,通过归纳总结规则进行增强,得到归一化映射字典,对统计型实体,以金额实体和时间实体为例,可以通过对金额实体进行改写转换和遮掩标志位进行增强,例如,语料数据中有“本次缴费总计1000元”的金额实体,增加标志位后,变为“本次缴费总计#1000#元”,然后利用带有标志位的样本数据对识别模型进行训练,在实际识别时不带标志位的业务数据相当于进行了标志位遮掩,在进行命名实体识别时,由于标志位的存在,能大大提高对金额实体的识别准确率,但是金额实体一般存在大写和小写等,在对金额实体增加标志位之前,需要先进行大小写转换和改写,例如,统一转换为阿拉伯数字的表达。对于时间实体如,可以通过拆分将时间实体拆分为方向前缀、数字、时间单位等部分,然后新增、删减、替换、交换等方式,对时间实体进行增强处理,例如将“前两个月”拆分为“方向前缀+时间段”两部分,“前”为方向前缀,“两个月”为时间段,然后再通过新增、替换等方式转换为标准时间格式,完成对时间实体的增强处理。
具体地,先对所述第二类实体集进行标注标注,得到标注实体集,在该标注实体集中,标注了不同实体的命名,例如时间实体、金额实体等,对经过标注的标注实体集中的各个实体集进行增强处理,其中,在对同一实体的不同的命名格式进行分类处理时,以时间实体为例,利用归一化处理的TextCNN模型中的格式细分类别,将时间实体按照下列所示的19类划分标准进行划分:
(1)标准时间格式——2009年5月1号
(2)星期格式——星期六
(3)假期格式——元旦
(4)缺省表达-日——3号
(5)缺省表达-月——10月
(6)缺省表达-月日——5月1日
(7)缺省表达-年——2019年
(8)缺省表达-年月——2018年2月
(9)时间点+方向——2019年5月之后
(10)方向+时间点——到今年3月
(11)时间段+方向——两年后
(12)方向+时间段——前两个月
(13)一月的一部分——这月的第一周
(14)一年的一部分——今年的第一季度
(15)精准偏移时间表达——今年、昨天、去年
(16)时态——现在,当前
(17)特殊事件时间表达——暑假、双十一等
(18)时间段——三月到四月
(19)模糊时间——月底
根据实际的业务需求,可以将不同的实体按照更多或更少的分类标准进行划分,在此不做具体限定。对于每一类时间实体,都有对应的增强处理方式,并编写有对应的正则表达式和归一化处理规则,在确定时间实体的正则表达式时,利用TextCNN模型对从语料数据中识别出的时间实体类别进行细分,并预测该时间实体与上述19类标准的匹配度得分,匹配度越高则得分越高,最终得分最高的标准对应正则表达式即为该时间实体的正则表达式,在进行时间实体的识别时,利用该正则表达式可以将该表达式下的时间实体转化为标准格式。在本实施例中,利用命名实体的细分类别对不同类别的时间实体进行隔离,并利用正则表达式对时间实体的细分类别进行二次验证,从而进一步提高了命名实体归一化处理结果的准确性。
通过对第二类实体集进行标注得到的标注实体集中,包括第一实体集和第二实体集,第一实体集是需要通过改写转换和标志位遮掩处理对命名实体进行增强的实体集,如金额实体,第二实体集是需要通过拆分改写对命名实体进行增强处理的实体集,如时间实体。以时间实体和金额实体为例,在对时间实体进行处理时,将时间实体的命名拆分为方向前缀、数字、时间单位三部分,对拆分出的三部分分别进行新增、删减、替换、交换等,处理为与上述19类标准格式相符合的数据,从而得到时间实体增强集。在对金额实体进行处理时,分别采用阿拉伯数字与汉语大写数字互转、阿拉伯数字与数字中文混合表达互转、随机生成整数及小数替换、随机生成超大数和超小数替换,对金额单位进行新增、删减、替换、交换等处理策略,将得到的增强命名实体对原命名实体进行改写转换,并增加金额实体标志位后,对标志位进行遮掩处理,得到金额实体增强集。对第二类实体集中的第一实体集和第二实体集都进行增强处理,得到第一实体增强集和第二实体增强集后,即完成了对第二类实体集的增强处理。
在对第二类实体集进行归一化处理时,同样以时间实体和金额实体为例,根据归一化处理规则,将时间实体增强集统一转换为正则表达式对应的标准格式,并结合上下文对标准时间格式进行时间补全和合并得到标准且准确的时间实体。对于金额实体,使用正则表达式识别出标准的阿拉伯金额实体,然后判断金额实体中是否存在连续金额实体命名表述,若存在则将其归一化为金额实体区间命名,最后结合上下文判断是否存在模糊金额实体命名表述,若存在也将其归一化为金额实体命名区间表达,其中,连续金额实体命名表述如“2000到3000元”,模糊金额实体命名表述如“大约2000元”、“2000元左右”等。
在本实施例中,通过对对获取的样本数据集进行分类处理,将所述样本数据集划分为第一类实体集和第二类实体集,对所述第一类实体集进行归纳总结处理,并对所述第二类实体集进行增强处理,得到目标样本集,即通过对样本数据集进行预处理,对识别模型的识别信息进行补充,提高了识别模型对命名实体的识别准确率。
此外,参照图5,本发明实施例还提出一种命名实体识别和处理装置,所述命名实体识别和处理装置包括:
样本处理模块10,用于获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集;
模型训练模块20,用于利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;
队列创建模块30,用于获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制;
实体识别模块40,用于根据所述队列机制,对所述语料数据进行识别处理,得到识别实体集
归一化处理模块50,用于对所述识别实体集进行归一化处理,得到目标实体集。
可选地,所述样本处理模块10,包括:
实体分类单元,用于对所述样本数据集进行分类处理,将所述样本数据集划分为第一类实体集和第二类实体集;
实体增强单元,用于对所述第一类实体集进行归纳总结处理,并对所述第二类实体集进行增强处理,得到目标样本集。
可选地,所述实体增强单元,包括:
标注子单元,用于对所述第二类实体集进行标注,得到标注实体集;
增强子单元,用于对所述标注实体集进行改写转换处理,得到实体增强集;
转换子单元,用于利用所述实体增强集对所述标注实体集进行替换和标志位遮掩处理,以完成对所述第二类实体集的增强处理。
可选地,所述队列创建模块30,包括:
传输层划分单元,用于创建对所述语料数据的进行传输的前置层、中间层和后置层;
队列创建单元,用于获取队列参数,并根据所述队列参数在所述队列机制的中间层和后置层中,创建所述语料数据的等待队列;
第一模型设置单元,用于将所述目标识别模型中的第一识别模型和第二识别模型,设置到所述队列机制的前置层;
第二模型设置单元,用于将所述目标识别模型中的第三识别模型,设置到所述队列机制的后置层以完成队列机制的创建,其中,所述第三识别模型用于对语料数据中的第二类实体集进行识别,所述第一识别模型用于对所述第三识别模型进行异常兜底识别。
可选地,所述实体识别模块40,包括:
识别单元,用于将所述语料数据发送至所述队列机制的前置层进行过滤清洗处理,得到第一目标语料数据,并对所述第一目标语料数据中的第一类实体集进行识别处理;
合并转发单元,用于将所述第一目标语料数据发送至所述队列机制的中间层,并对所述第一目标语料数据进行合并处理,得到第二目标语料数据;
检测单元,用于对所述队列机制的后置层进行检测,以将所述第二目标语料数据转发到所述队列机制的后置层,对所述第二目标语料数据中的第二类实体集进行识别处理。
可选地,所述合并转发单元,包括:
第一判断子单元,用于将所述第一目标语料数据发送至所述队列机制的中间层的第一等待队列中,并判断所述第一等待队列中的语料数据是否达到第一预设队列长度;
合并子单元,用于若所述第一等待队列中的语料数据达到第一预设队列长度,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据;
第二判断子单元,用于若所述第一等待队列中的语料数据未达到第一预设队列长度,判断所述第一等待队列中的语料数据中的第一语料数据的等待时长,是否超过了预设时长,若是,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据,其中,所述第一语料数据是第一个被发送至所述第一等待队列中的语料数据。
可选地,所述检测单元,包括:
检测子单元,用于对所述队列机制的后置层中的第二等待队列进行检测,以判断所述第二等待队列中的语料数据是否超过第二预设队列长度;
第一转发子单元,用于若所述第二等待队列中的语料数据未超过第二预设队列长度,则将所述第二目标语料数据发送至所述第二等待队列中进行识别处理;
指令生成子单元,用于若所述第二等待队列中的语料数据超过第二预设队列长度,则生成转发拒绝指令;
第二转发子单元,用于根据所述转发拒绝指令,将所述第二目标语料数据发送至所述队列机制的前置层,以对所述第二目标语料数据进行后置层异常兜底识别处理。
此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有命名实体识别和处理程序,所述命名实体识别和处理程序被处理器执行时实现上述实施例提供的命名实体识别和处理方法中的操作。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的命名实体识别和处理方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种命名实体识别和处理方法,其特征在于,所述命名实体识别和处理方法包括以下步骤:
获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集;
利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;
获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制;
根据所述队列机制,对所述语料数据进行识别处理,得到识别实体集;
对所述识别实体集进行归一化处理,得到目标实体集。
2.如权利要求1所述的命名实体识别和处理方法,其特征在于,所述对所述样本数据集进行预处理,得到目标样本集的步骤,包括:
对所述样本数据集进行分类处理,将所述样本数据集划分为第一类实体集和第二类实体集;
对所述第一类实体集进行归纳总结处理,并对所述第二类实体集进行增强处理,得到目标样本集。
3.如权利要求2所述的命名实体识别和处理方法,其特征在于,所述对所述第二类实体集进行增强处理的步骤,包括:
对所述第二类实体集进行标注,得到标注实体集;
对所述标注实体集进行改写转换处理,得到实体增强集;
利用所述实体增强集对所述标注实体集进行替换和标志位遮掩处理,以完成对所述第二类实体集的增强处理。
4.如权利要求1所述的命名实体识别和处理方法,其特征在于,所述根据所述目标识别模型创建对所述语料数据进行处理的队列机制的步骤,包括:
创建对所述语料数据的进行传输的前置层、中间层和后置层;
获取队列参数,并根据所述队列参数在所述队列机制的中间层和后置层中,创建所述语料数据的等待队列;
将所述目标识别模型中的第一识别模型和第二识别模型,设置到所述队列机制的前置层;
将所述目标识别模型中的第三识别模型,设置到所述队列机制的后置层以完成队列机制的创建,其中,所述第三识别模型用于对语料数据中的第二类实体集进行识别,所述第一识别模型用于对所述第三识别模型进行异常兜底识别。
5.如权利要求4所述的命名实体识别和处理方法,其特征在于,所述队列参数包括队列长度和等待时长,所述根据所述队列机制,对所述语料数据进行识别处理的步骤,包括:
将所述语料数据发送至所述队列机制的前置层进行过滤清洗处理,得到第一目标语料数据,并对所述第一目标语料数据中的第一类实体集进行识别处理;
将所述第一目标语料数据发送至所述队列机制的中间层,并对所述第一目标语料数据进行合并处理,得到第二目标语料数据;
对所述队列机制的后置层进行检测,以将所述第二目标语料数据转发到所述队列机制的后置层,对所述第二目标语料数据中的第二类实体集进行识别处理。
6.如权利要求5所述的命名实体识别和处理方法,其特征在于,所述将所述第一目标语料数据发送至所述队列机制的中间层,并对所述第一目标语料数据进行合并处理,得到第二目标语料数据的步骤,包括:
将所述第一目标语料数据发送至所述队列机制的中间层的第一等待队列中,并判断所述第一等待队列中的语料数据是否达到第一预设队列长度;
若所述第一等待队列中的语料数据达到第一预设队列长度,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据;
若所述第一等待队列中的语料数据未达到第一预设队列长度,判断所述第一等待队列中的语料数据中的第一语料数据的等待时长,是否超过了预设时长,若是,则将所述第一等待队列中的语料数据进行合并,得到第二目标语料数据,其中,所述第一语料数据是第一个被发送至所述第一等待队列中的语料数据。
7.如权利要求4所述的命名实体识别和处理方法,其特征在于,所述对所述队列机制的后置层进行检测,以将所述第二目标语料数据转发到所述队列机制的后置层,对所述第二目标语料数据中的第二类实体集进行识别处理的步骤,包括:
对所述队列机制的后置层中的第二等待队列进行检测,以判断所述第二等待队列中的语料数据是否超过第二预设队列长度;
若所述第二等待队列中的语料数据未超过第二预设队列长度,则将所述第二目标语料数据发送至所述第二等待队列中进行识别处理;
若所述第二等待队列中的语料数据超过第二预设队列长度,则生成转发拒绝指令;
根据所述转发拒绝指令,将所述第二目标语料数据发送至所述队列机制的前置层,以对所述第二目标语料数据进行后置层异常兜底识别处理。
8.一种命名实体识别和处理装置,其特征在于,所述命名实体识别和处理装置包括:
样本处理模块,用于获取待处理的样本数据集,并对所述样本数据集进行预处理,得到目标样本集;
模型训练模块,用于利用所述目标样本集对预设待训练识别模型进行迭代训练,得到目标识别模型;
队列创建模块,用于获取待识别的语料数据,并根据所述目标识别模型创建对所述语料数据进行处理的队列机制;
实体识别模块,用于根据所述队列机制,对所述语料数据进行识别处理,以从所述目标数据增强集中提取识别实体集;
归一化处理模块,用于对所述识别实体集进行归一化处理,得到目标实体集。
9.一种命名实体识别和处理设备,其特征在于,所述命名实体识别和处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的命名实体识别和处理程序,所述命名实体识别和处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的命名实体识别和处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有命名实体识别和处理程序,所述命名实体识别和处理程序被处理器执行时实现如权利要求1至7中任一项所述的命名实体识别和处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159586.6A CN112818692B (zh) | 2021-02-03 | 2021-02-03 | 命名实体识别和处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159586.6A CN112818692B (zh) | 2021-02-03 | 2021-02-03 | 命名实体识别和处理方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818692A true CN112818692A (zh) | 2021-05-18 |
CN112818692B CN112818692B (zh) | 2024-05-28 |
Family
ID=75861650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110159586.6A Active CN112818692B (zh) | 2021-02-03 | 2021-02-03 | 命名实体识别和处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818692B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255353A (zh) * | 2021-05-31 | 2021-08-13 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种实体标准化方法 |
CN113343701A (zh) * | 2021-06-30 | 2021-09-03 | 广东电网有限责任公司 | 一种电力设备故障缺陷文本命名实体的抽取方法及装置 |
CN113986508A (zh) * | 2021-11-01 | 2022-01-28 | 同济大学 | 基于pn机模型的业务流网分解方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365229A1 (en) * | 2017-06-19 | 2018-12-20 | Vettd, Inc. | Systems and methods to determine and utilize semantic relatedness between multiple natural language sources to determine strengths and weaknesses |
CN111581376A (zh) * | 2020-04-17 | 2020-08-25 | 中国船舶重工集团公司第七一四研究所 | 一种知识图谱自动构建系统及方法 |
-
2021
- 2021-02-03 CN CN202110159586.6A patent/CN112818692B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365229A1 (en) * | 2017-06-19 | 2018-12-20 | Vettd, Inc. | Systems and methods to determine and utilize semantic relatedness between multiple natural language sources to determine strengths and weaknesses |
CN111581376A (zh) * | 2020-04-17 | 2020-08-25 | 中国船舶重工集团公司第七一四研究所 | 一种知识图谱自动构建系统及方法 |
Non-Patent Citations (1)
Title |
---|
丁晟春 等: "基于Bi-LSTM-CRF的商业领域命名实体识别", 现代情报, no. 03 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255353A (zh) * | 2021-05-31 | 2021-08-13 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种实体标准化方法 |
CN113343701A (zh) * | 2021-06-30 | 2021-09-03 | 广东电网有限责任公司 | 一种电力设备故障缺陷文本命名实体的抽取方法及装置 |
CN113986508A (zh) * | 2021-11-01 | 2022-01-28 | 同济大学 | 基于pn机模型的业务流网分解方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112818692B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818692A (zh) | 命名实体识别和处理方法、装置、设备及可读存储介质 | |
US10380237B2 (en) | Smart optical input/output (I/O) extension for context-dependent workflows | |
WO2020224131A1 (zh) | 票据识别方法、装置、电子设备和计算机可读存储介质 | |
CN111428599A (zh) | 票据识别方法、装置和设备 | |
US11909902B2 (en) | Communication terminal and method of providing unified interface to the same | |
US20210042362A1 (en) | Electronic device for executing recommended application and operating method thereof | |
CN112784112B (zh) | 报文校验方法及装置 | |
JP2022088602A (ja) | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム | |
EP4120167A1 (en) | Abnormal behavior detection method and apparatus, and electronic device and computer-readable storage medium | |
CN113051362A (zh) | 数据的查询方法、装置和服务器 | |
CN111753744A (zh) | 用于票据图像分类的方法、装置、设备及可读存储介质 | |
CN114092948B (zh) | 一种票据识别方法、装置、设备以及存储介质 | |
CN116304007A (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN113868252A (zh) | 数据库模式匹配方法及装置、sql查询语句生成方法 | |
WO2024179519A1 (zh) | 语义识别方法及其装置 | |
CN114328884B (zh) | 一种图文去重方法及装置 | |
CN113535125A (zh) | 金融需求项生成方法及装置 | |
CN108572997B (zh) | 一种具有网络属性的多源数据的整合存储系统及方法 | |
WO2015160988A1 (en) | Smart optical input/output (i/o) extension for context-dependent workflows | |
US20210109960A1 (en) | Electronic apparatus and controlling method thereof | |
TWI678672B (zh) | 帳務資料查詢方法及帳務系統 | |
CN113536831A (zh) | 基于图像识别的助读方法、装置、设备和计算机可读介质 | |
CN114299522A (zh) | 图像识别方法装置、设备和存储介质 | |
CN114091431A (zh) | 事项信息提取方法、装置、计算机设备及存储介质 | |
CN116882406A (zh) | 信息抽取方法、信息抽取装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |