CN113486173B - 文本标注神经网络模型及其标注方法 - Google Patents

文本标注神经网络模型及其标注方法 Download PDF

Info

Publication number
CN113486173B
CN113486173B CN202110653794.1A CN202110653794A CN113486173B CN 113486173 B CN113486173 B CN 113486173B CN 202110653794 A CN202110653794 A CN 202110653794A CN 113486173 B CN113486173 B CN 113486173B
Authority
CN
China
Prior art keywords
labeling
feature vector
text
vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110653794.1A
Other languages
English (en)
Other versions
CN113486173A (zh
Inventor
邓松
李前亮
胡琦聪
袁玲玲
翟羽佳
岳东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110653794.1A priority Critical patent/CN113486173B/zh
Publication of CN113486173A publication Critical patent/CN113486173A/zh
Application granted granted Critical
Publication of CN113486173B publication Critical patent/CN113486173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供了一种文本标注神经网络模型及其标注方法,其技术要点是,所述模型至少包括文本标注处理器、文本质量评价器、文本标注数据融合器;所述文本标注处理器包括可参数化的滤波器,所述可参数化的滤波器配置为,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;所述文本质量评价器配置为,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括评价信息的局部向量;所述文本标注数据融合器配置为,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量,至少解决相关技术中过分依赖人工评价的标注质量问题。

Description

文本标注神经网络模型及其标注方法
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本标注神经网络模型及其标注方法。
背景技术
电力系统中包含海量文本数据,大量实用信息通过文本形式保存在信息管理系统中,存在海量电力领域专有名词需要标注。对于非/半结构化的文本信息处理,十分依赖自然语言处理技术。其中,深度学习(Deep Learning)是近年来一个十分热门的研究领域,该领域起源于二十世纪四十年代提出的“神经网络”模型。深度学习的本质是一种通用的特征学习方法,其核心思想是提取底层特征,组合高层的神经网络模型,以发现数据的分布规律。在二十世纪的人工智能和机器学习等领域的研究中,受计算能力的制约,神经网络几乎无法被训练。随着计算机计算能力的提高,深度学习研究有了长足的发展,在图像处理、语音识别、自然语言处理等领域有了取得了突破性的研究成果。
NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,旨在设计算法使计算机像人一样理解和处理自然语言(如中文、英文等),实现人与计算机之间的有效沟通。自然语言处理任务包含中文分词、情感分析、句法分析、机器翻译等。自然语言处理流程可以大致分为五个步骤。第一步是获取材料。第二步是对语义材料的预处理包含文本清洗、文本标注等。第三步是文本词汇向量化,将文本词汇映射为计算机能理解的多维向量。第四步是模型训练,运用深度学习模型完成自然语言处理任务。第五步是模型评价,常用的评价指标包含准确率、召回率等。
文本标注是自然语言处理的基础环节,也是关键环节。文本标注越准确,标注的数据量越大,训练模型性效果就越好。文本标注的任务比较多,不同任务的质量标注特征各有不同,一份文本数据标注任务往往需要多名标注员合作完成。文本标注的质量直接决定了自然语言处理技术的实现效果。
现有的相关技术中,通常采用人工评价文本标注质量或简单的数据清洗代替文本标注的质量评估,其中人工评价即有专家阅读全部标注数据集或抽样部分标注数据集,对于不同标注员标注数据的融合,也十分依赖人工评价手动融合。此类方法存在人力成本极高、耗时较长的缺点。
针对相关技术中,如何解决电力领域文本质量评价过分依赖人工评价与如何有效融合不同标注员的文本标注数据,提高文本标注质量的问题,目前尚未有有效的解决办法。
发明内容
本申请实施例提供了一种文本标注神经网络模型及其标注方法,以至少解决相关技术中过分依赖人工评价的标注质量问题。
在本申请的一个实施例中,提出了一种文本标注神经网络模型,所述模型至少包括文本标注处理器、文本质量评价器、文本标注数据融合器;所述文本标注处理器包括可参数化的滤波器,所述可参数化的滤波器是对卷积滤波器的训练参数进行训练后得到的,所述可参数化的滤波器配置为,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;所述文本质量评价器配置为,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括评价信息的局部向量;所述文本标注数据融合器配置为,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
在本申请的一个实施例中,还提出了一种文本标注方法,应用于上述文本标注神经网络模型,所述方法包括:将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括量化评价信息的局部向量;输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量所述训练方法包括:获取训练数据,其中,所述训练数据包括第一音频信号以及对应的第一标注文本;构建包含神经网络滤波器、神经网络编码器、激活函数输出层的初始神经网络模型,其中,所述神经网络滤波器包括可参数化的带通滤波器,所述可参数化的带通滤波器是对卷积带通滤波器的训练参数进行训练后得到的;使用所述训练数据训练所述初始神经网络模型的训练参数,并通过损失函数在训练过程中优化所述初始神经网络模型,得到目标神经网络模型。
在本申请的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本申请的一个实施例中,还提出了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本申请实施例,通过建立文本标注处理器、文本质量评价器、文本标注数据融合器的神经网络模型,通过对文本标注K折交叉验证,实现对不同特征标注准确度的量化评价,基于决策树模型,提取出不同标注特征的最优数据集,最终实现文本标注数据的融合,提升文本标注数据质量。解决了相关技术中过分依赖人工评价与质量不高的问题,可以准确评价不同标注员不同特征标注质量,可以高质量融合不同标注员的标注数据,提升自然语言处理模型训练效果、在不同场景下识别文本识别准确率,完成对文本标注数据的快速评价,有效融合不同标注员的文本标注数据,提高文本标注质量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种文本标注神经网络模型的文本标注方法的移动终端的硬件结构框图;
图2是根据本申请实施例的文本标注神经网络模型一种可选的结构示意图;
图3是根据本申请实施例的一种可选的文本标注示意图;
图4是根据本申请实施例的文本标注处理器一种可选的结构示意图;
图5是根据本申请实施例的文本质量评价器一种可选的结构示意图;
图6是根据本申请实施例的文本标注数据融合器一种可选的结构示意图;
图7是根据本申请实施例文本标注方法的一种可选的流程图;
图8是根据本申请实施例文本标注方法一种可选的流程图;
图9是根据本申请实施例的一种可选的电子装置结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1 是本申请实施例的一种文本标注方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个) 处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的文本标注网络模型的对应方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102 远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
图2是根据本申请实施例的文本识别神经网络模型一种可选的结构示意图,如图2所示,本申请实施例提供了一种文本标注神经网络模型,其特征在于,所述模型至少包括文本标注处理器、文本质量评价器、文本标注数据融合器;
文本标注处理器包括可参数化的滤波器,可参数化的滤波器是对卷积滤波器的训练参数进行训练后得到的,可参数化的滤波器配置为,将目标文本数据向量化并标注,以输出目标文本数据的第一特征向量;
文本质量评价器配置为,输入第一特征向量,对第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,第二特征向量包括评价信息的局部向量;
文本标注数据融合器配置为,输入第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
需要说明的是,本申请实施例中涉及的神经网络滤波器可以是可参数化的带通滤波器,可参数化的带通滤波器可以是SincNet卷积滤波器或其他任何可训练的卷积滤波器经过训练后得到的,通过构建可参数化的带通滤波器可使改进后的神经网络模型只关注文本数据中对性能有重要作用的滤波器参数。文本标注处理器将文本映射为多维向量,通过模型训练可以准确的预测判断该词汇是否属于特征词汇,为后续文本质量评价做好了准备。
本实施例中的文本标注处理器是基于BilSTM-CRF神经网络模型,实际应用中,其他类型的可实现此功能的神经网络模型依然可以属于本申请的保护范围,该模型实现了文本到向量的多维映射,通过训练该模型可以完成实体命名识别任务,准确的预测文本中的词汇是否属于特征词汇。
参考图3、图4,可选的实施方式中,文本标注处理器包括:依次连接的数据量化层、线性层、筛选输出层;
数据量化层配置为,接收目标文本数据的输入,对目标文本数据进行向量化处理;
线性层配置为,对数据量化层数输出的特征向量作为时间步输入,获得时间步的完整隐藏向量;
筛选输出层配置为,对线性层输出的完整隐藏向量进行特征筛选,并将其转换为所述目标文本数据的第一特征向量。
需要说明的是,其中,数据量化层可配置为look-up层,实现词到向量的映射。
线性层可配置为双向长短期记忆模型LSTM(LongShort Term Dependency)层,将各个字向量作为各个时间步的输入,再将前向隐藏状态和后向隐藏状态/>进行拼接,得到该时间步完整的隐藏状态/>
筛选输出层可配置为CRF层,该层具有一个状态转移矩阵的参数,在全局特征上获取局部特征,通过这一层,模型可以有效地利用过去的标签和未来的标签来预测当前的标签,准确获取文本的最优序列标注。
参考图5,可选的实施方式中,所述文本质量评价器包括交叉验证层,
交叉验证层配置为,将第一特征向量分配给不同标注员,对不同标注员的标注的特征向量进行k折交叉验证,获得对不同标注员的对不同特征标注的准确率评分,转化准确率为局部向量,将分别带有评价信息的不同标注员的标注的特征向量,转化为第二特征向量。
需要说明的是,文本质量评价器通过交叉验证依次对不同标注员的不同标注特征进行评价。每一次选取一个标注员的标注数据作为验证集,其余标注数据集作为验证集。。并将不同标注员的标注数据集进行k折交叉验证进行训练。将处理器模型训练结果与验证集进行比较,对不同标注员的不同特征标注进行准确率评分,该评分表示标注员对于不同特征标注的准确情况。标注评价下面公式表示:
其中score为标注评价结果,表示特征标注的准确率。TP为模型预测为正类实际标注也为正类的特征标注个数。FP为模型预测为正类然而实际标注结果为负类的特征标注个数。
参考图6,需要说明的是,文本标注数据融合器主要通过文本质量评价器评价结果对不同标注员标注数据集进行融合。基于决策树模型计算不同标注数据集信息熵,提升文本标注数据集质量,获得最大信息增益。信息增益下面公式表示:
其中IG(Y∣X)为决策特征信息增益,表示信息不确定性减少的程度。信息增益越大,则这个特征的选择性越好。H(Y)为决策特征的信息熵,b表示决策特征的不确定性。信息熵越大,则该特征的不确定性越大。H(Y∣X)为决策特征的条件熵,表示在一个确定条件下,决策特征的不确定性。
根据本申请实施例的又一个方面,还提供了一文本标注方法,应用于上述文本标注网络模型。图7是根据本申请实施例文本标注神经网络模型的文本标注方法一种可选的流程图,如图7所示,所述方法包括:
步骤S702,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;
步骤S704,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括量化评价信息的局部向量;
步骤S706,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
需要说明的是,在构建好初始文本标注神经网络模型后,需要使用训练数据对构建好的初始模型进行训练,主要是对初始模型内的训练参数进行训练,通过损失函数不断对初始模型进行优化,最终得到目标文本标注神经网络模型。在对初始模型训练的过程中,主要是针对神经网络滤波器的训练参数进行训练,使得训练后的神经网络滤波器能够有效对目标文本数据进行向量化标注。
可选的实施方式中,所述目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量,可以通过以下步骤实现:
S1,接收目标文本数据的输入,对所述目标文本数据进行向量化处理;
S2,对所述数据量化层数输出的特征向量作为时间步输入,获得时间步的完整隐藏向量;
S3,对所述线性层输出的完整隐藏向量进行特征筛选,并将其转换为所述目标文本数据的第一特征向量。
可选的实施方式中,所述输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,所述第二特征向量包括量化评价信息的局部向量,可以通过以下步骤实现:
S1,将所述第一特征向量分配给不同标注员,对不同标注员的标注的特征向量进行k折交叉验证,获得对不同标注员的对不同特征标注的准确率评分,转化准确率为局部向量;
S2,将分别带有评价信息的不同标注员的标注的特征向量,转化为第二特征向量。
需要说明的是,将一份待标注的电力领域文本数据分为k份,共有k个标注员参与标注任务,分别记为P1,P2,…,Pk,其中P1 为第一个标注员,每个标注员需要标注n份待标注文本数据 (1<n<k),共有m类标注特征。从K个标注员数据中选取一个标注员的数据样本作为验证集,剩下K-1个样本作为训练集,依次取遍所有K个标注员数据作为验证集,最后统计不同标注员不同特征标注准确率。
可选的实施方式中,所述输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量,可以通过以下步骤实现:
S1,基于决策树模型计算所述第二特征向量的不同标注数据集信息熵,获得最大信息增益,
S2,根据最大信息增益对第二特征向量进行提取并融合,转化为最优标注向量。
需要说明的是,将文本质量评价器中得出文本标注评价作为数据特征,基于决策树模型实现多文本标注数据集融合。将每一类特征看成一种划分可能,共有m类待标注特征,决策树模型最大树深度即为m。从根节点开始,选择可获得最大信息增益的特征进行节点划分,划分的准则为实现增益的最大化,根据决策树模型,选取不同特征的最优数据集为最优数据集,融合最优标注数据集提升文本标注质量。
对于文本标注神经网络模型中的其他训练参数的训练过程同上,此处不再赘述。
需要说明的是,参考图8,在实际训练过程中,文本标注神经网络模型中的所有训练参数是同时进行训练的,实际训练与标注过程如下:
S1:搭建文本标注神经网络模型,进入S2;
S2:训练模型的第一层为look-up层,基于CBOW的模型建立神经网络模型对待标注文本进行向量化表示,实现词到向量的映射。通过对待标注文本进行词向量训练,得到文本中所有词对应的词向量,作为后续命名实体识别BiLSTM-CRF模型的输入,进入S3;
S3:模型的第二层为双向LSTM层,将各个字向量作为各个时间步的输入,再将前向隐藏状态和后向隐藏状态/>进行拼接,得到该时间步完整的隐藏状态用一个线性层将隐藏向量从m维映射为k维(k是标注的标签数)得到pi∈Rk,pi中的每一维pij为字xi到特征标注j的打分值,进入S4;
S4:模型的第三层为CRF层。通过这一层,模型可以有效地利用过去的标签和未来的标签来预测当前的标签,通过CRF模型,在全局特征上获取局部特征,准确获取文本的最优序列标注。进入 S5;
S5:将一份待标注的电力领域文本数据分为k份,共有k个标注员参与标注任务,分别记为P1,P2,…,Pk,其中P1为第一个标注员,每个标注员需要标注n份待标注文本数据(1<n<k),共有 m类标注特征。进入S6;
S6:从K个标注员数据中选取一个标注员的数据样本作为验证集,剩下K-1个样本作为训练集,依次取遍所有K个标注员数据作为验证集。进入S7,
S7:根据模型训练效果,对所有标注员的的标注数据集进行评价,计算标注准确率进入S8;
S8:搭建文本标注数据融合器所需要结构树模型,决策树模型最大树深度为m,进入S9;
S9:从根节点开始,选择可获得最大信息增益的特征进行节点划分,每次决策划分的标准是获取最大信息增益。计算信息增益
进入S10;
S10:基于决策树模型,融合不同特征的最优数据集为标注文本数据集,提升文本标注质量,进入S11;
S11:结束。
根据上述完整的文本标注方法的实现过程,举例如下应用实例:
现有一电力企业希望构建基于知识图谱的专家系统,需要根据电力相关文献完成知识抽取工作。需要对一电力文本完成标注工作,并根据标注质量评价做出相应的标注修改。根据标注好的数据集完成相应的自然语言处理模型训练,完成专家系统的构建。
其具体的实施方案为:
(1)搭建所需要的文本标注训练模型
(2)将一份待标注的电力文本需完成6类特征标注,将该电力文本分为10份,分别记为T1,T2…,T10。共有10个标注员参与标注任务,分别记P1,P2,…,P10,每个人需要完成3份文本标注工作。
(3)所有标注员完成标注任务后,对标注文本进行评价。从10 个标注员数据中选取一个标注员的数据样本作为验证集,剩下9个样本作为训练集,依次取遍所有K个标注员数据作为验证集,最后统计不同标注员不同特征标注正确率,计算损失函数做为相应的评价标准。
(4)搭建所需要决策树模型,决策树模型最大树深度为6。
(5)从根节点开始,选择可获得最大信息增益的特征进行节点划分,每次决策划分的标准是获取最大信息增益。
(6)基于决策树模型,融合不同特征的最优数据集做为标注文本数据集,提升文本标注质量。
根据本申请实施例的又一个方面,还提供了一种用于实施上述文本标注方法的电子装置,上述电子装置可以但不限于应用于服务器中。如图9所示,该电子装置包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;
S2,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括量化评价信息的局部向量;
S3,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器902可用于存储软件程序以及模块,如本申请实施例中的文本标注神经网络模型的训练方法和装置对应的程序指令/ 模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本标注神经网络模型的训练方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于储存文本标注神经网络模型的训练方法的程序步骤。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述文本标注神经网络模型中的文本标注处理器、文本质量评价器、文本标注数据融合器等。此外,还可以包括但不限于上述文本标注神经网络模型中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器908,用于显示可疑帐号的告警推送;和连接总线910,用于连接上述电子装置中的各个模块部件。
本申请的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;
S2,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括量化评价信息的局部向量;
S3,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种文本标注神经网络模型,其特征在于,所述模型至少包括文本标注处理器、文本质量评价器、文本标注数据融合器;
所述文本标注处理器包括可参数化的滤波器,所述可参数化的滤波器是对卷积滤波器的训练参数进行训练后得到的,所述可参数化的滤波器配置为,将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;
所述文本质量评价器配置为,输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括评价信息的局部向量;
所述文本标注数据融合器配置为,输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量;
所述文本标注处理器包括:依次连接的数据量化层、线性层、筛选输出层;
所述数据量化层配置为,接收目标文本数据的输入,对所述目标文本数据进行向量化处理;
所述线性层配置为,对所述数据量化层数输出的特征向量作为时间步输入,获得时间步的完整隐藏向量;
所述筛选输出层配置为,对所述线性层输出的完整隐藏向量进行特征筛选,并将其转换为所述目标文本数据的第一特征向量。
2.根据权利要求1所述的文本标注神经网络模型,其特征在于,所述文本质量评价器包括交叉验证层,
所述交叉验证层配置为,将所述第一特征向量分配给不同标注员,对不同标注员的标注的特征向量进行k折交叉验证,获得对不同标注员的对不同特征标注的准确率评分,转化准确率为局部向量,将分别带有评价信息的不同标注员的标注的特征向量,转化为第二特征向量。
3.一种文本标注方法,其特征在于,运用权利要求1-2所任一所述的文本标注神经网络模型,所述方法包括:
将目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量;
输入所述第一特征向量,对所述第一特征向量进行深度学习后,输出验证后的第二特征向量,其中,所述第二特征向量包括量化评价信息的局部向量;
输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量。
4.根据权利要求3所述的文本标注方法,其特征在于,所述目标文本数据向量化并标注,以输出所述目标文本数据的第一特征向量,其中,包括:接收目标文本数据的输入,对所述目标文本数据进行向量化处理;对所述数据量化层数输出的特征向量作为时间步输入,获得时间步的完整隐藏向量;对所述线性层输出的完整隐藏向量进行特征筛选,并将其转换为所述目标文本数据的第一特征向量。
5.根据权利要求4所述的文本标注方法,其特征在于,将所述第一特征向量分配给不同标注员,对不同标注员的标注的特征向量进行k折交叉验证,获得对不同标注员的对不同特征标注的准确率评分,转化准确率为局部向量,将分别带有评价信息的不同标注员的标注的特征向量,转化为第二特征向量。
6.根据权利要求5所述的文本标注方法,其特征在于,所述输入所述第二特征向量,并至少根据所述第二特征向量输出目标文本数据对应的最优标注向量,其中,包括:基于决策树模型计算所述第二特征向量的不同标注数据集信息熵,获得最大信息增益,根据最大信息增益对第二特征向量进行提取并融合,转化为最优标注向量。
7.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求3至6任一项中所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求3至6任一项中所述的方法。
CN202110653794.1A 2021-06-11 2021-06-11 文本标注神经网络模型及其标注方法 Active CN113486173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110653794.1A CN113486173B (zh) 2021-06-11 2021-06-11 文本标注神经网络模型及其标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110653794.1A CN113486173B (zh) 2021-06-11 2021-06-11 文本标注神经网络模型及其标注方法

Publications (2)

Publication Number Publication Date
CN113486173A CN113486173A (zh) 2021-10-08
CN113486173B true CN113486173B (zh) 2023-09-12

Family

ID=77934803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110653794.1A Active CN113486173B (zh) 2021-06-11 2021-06-11 文本标注神经网络模型及其标注方法

Country Status (1)

Country Link
CN (1) CN113486173B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962965B (zh) * 2021-10-26 2023-06-09 腾讯科技(深圳)有限公司 图像质量评价方法、装置、设备以及存储介质
CN115601772B (zh) * 2022-12-15 2023-05-02 南京邮电大学 一种基于多模态学习的美学质量评价模型和方法
CN116776154B (zh) * 2023-07-06 2024-04-09 华中师范大学 一种ai人机协同数据标注方法和系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
US10832003B2 (en) * 2018-08-26 2020-11-10 CloudMinds Technology, Inc. Method and system for intent classification
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN112087473A (zh) * 2019-06-13 2020-12-15 重庆理工大学 文档下载方法、装置、计算机可读存储介质和计算机设备
US10949456B2 (en) * 2019-03-29 2021-03-16 Knowtions Research Inc. Method and system for mapping text phrases to a taxonomy
CN112541503A (zh) * 2020-12-11 2021-03-23 南京邮电大学 基于上下文注意力机制和信息融合的实时语义分割方法
CN112687263A (zh) * 2021-03-11 2021-04-20 南京硅基智能科技有限公司 语音识别神经网络模型及其训练方法、语音识别方法
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
WO2021082366A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110569702B (zh) * 2019-02-14 2021-05-14 创新先进技术有限公司 视频流的处理方法和装置
CN112906361A (zh) * 2021-02-09 2021-06-04 上海明略人工智能(集团)有限公司 文本数据的标注方法和装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049755B (zh) * 2014-06-18 2017-01-18 中国科学院自动化研究所 信息处理方法及装置
US11170287B2 (en) * 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US11748613B2 (en) * 2019-05-10 2023-09-05 Baidu Usa Llc Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832003B2 (en) * 2018-08-26 2020-11-10 CloudMinds Technology, Inc. Method and system for intent classification
CN110569702B (zh) * 2019-02-14 2021-05-14 创新先进技术有限公司 视频流的处理方法和装置
US10949456B2 (en) * 2019-03-29 2021-03-16 Knowtions Research Inc. Method and system for mapping text phrases to a taxonomy
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN112087473A (zh) * 2019-06-13 2020-12-15 重庆理工大学 文档下载方法、装置、计算机可读存储介质和计算机设备
WO2021082366A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN112541503A (zh) * 2020-12-11 2021-03-23 南京邮电大学 基于上下文注意力机制和信息融合的实时语义分割方法
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112906361A (zh) * 2021-02-09 2021-06-04 上海明略人工智能(集团)有限公司 文本数据的标注方法和装置、电子设备和存储介质
CN112687263A (zh) * 2021-03-11 2021-04-20 南京硅基智能科技有限公司 语音识别神经网络模型及其训练方法、语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Data Filter Function Incremental Mining based on Feature Selection in an Active Distribution Network;Song Deng;IET Cyber-physical Systems:Theory & Applications;全文 *

Also Published As

Publication number Publication date
CN113486173A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN113486173B (zh) 文本标注神经网络模型及其标注方法
CN109815339B (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110457689B (zh) 语义处理方法及相关装置
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN110659392B (zh) 检索方法及装置、存储介质
CN109117477A (zh) 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN114373554A (zh) 利用药物知识和句法依存关系的药物相互作用关系抽取方法
CN116775497B (zh) 数据库测试用例生成需求描述编码方法
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN111368552B (zh) 一种面向特定领域的网络用户群组划分方法及装置
CN112417874A (zh) 命名实体的识别方法和装置、存储介质、电子装置
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN114238622A (zh) 关键信息的提取方法和装置、存储介质及电子装置
CN113763934A (zh) 音频识别模型的训练方法、装置和存储介质及电子设备
CN111222533B (zh) 一种基于依赖树的深度学习视觉问答方法及系统
CN114385776A (zh) 信息定位方法、存储介质及装置
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
CN110162356B (zh) 页面的融合方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant