CN112182157A - 在线序列标注模型的训练方法、在线标注方法及相关设备 - Google Patents

在线序列标注模型的训练方法、在线标注方法及相关设备 Download PDF

Info

Publication number
CN112182157A
CN112182157A CN202011052029.6A CN202011052029A CN112182157A CN 112182157 A CN112182157 A CN 112182157A CN 202011052029 A CN202011052029 A CN 202011052029A CN 112182157 A CN112182157 A CN 112182157A
Authority
CN
China
Prior art keywords
model
online
training
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011052029.6A
Other languages
English (en)
Other versions
CN112182157B (zh
Inventor
张涛
黄少波
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011052029.6A priority Critical patent/CN112182157B/zh
Publication of CN112182157A publication Critical patent/CN112182157A/zh
Application granted granted Critical
Publication of CN112182157B publication Critical patent/CN112182157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于人工智能领域,涉及在线序列标注模型的训练方法及相关设备,所述方法包括:根据预先标记的数据量不大于第一阈值的第一数据集对预设的序列标注模型进行离线训练,得到离线标注模型;从至少一个数据源中获取未标记的数据输入至离线标注模型中进行离线标注得到第二数据集,第二数据集的数据量大于第一数据集的数据量,且不低于第二阈值;将第二数据集中的数据输入CRF++工具中进行模型训练,得到在线序列标注模型。本申请还提供在线文本标注方法及相关设备。此外,本申请还涉及区块链技术,第一数据集和第二数据集中包含的隐私数据可存储于区块链中。本申请方案可得到高效且高精确度的在线序列标注模型,给在线文本的处理带来很大的效率提升。

Description

在线序列标注模型的训练方法、在线标注方法及相关设备
技术领域
本申请涉及人工智能技术领域,尤其涉及基于CRF++工具的在线序列标注模型的训练方法、装置、计算机设备及存储介质,此外,还涉及一种在线标注方法、系统及相关设备。
背景技术
随着计算机硬件水平的不断提升,在大数据、大算力的条件下,基于深度学习的自然语言处理相关技术取得了很大的进步,比如BERT预训练模型技术。在常规的分词与命名实体识别任务当中,通常的模型框架为引入BERT预训练模型,再引入Bi-LSTM解决文本的长依赖问题,最后接CRF层进行标签预测,以取得最优的预测结果。
但在实际应用场景当中,往往要求预测更准且更快,即要求高并发、低延时的算法处理能力,前述通常的模型框架在处理速度仅能达到秒级,无法支撑处理速度达到毫秒级的线上场景,如何获得可以实现线上场景的文本的准确快速标注的模型成为亟待解决的问题。
发明内容
本申请实施例的目的在于提出一种基于CRF++工具的在线序列标注模型的训练方法、装置、计算机设备及存储介质,以解决现有技术中通常的模型框架在处理速度仅能达到秒级,无法支撑处理速度达到毫秒级的线上场景的问题。此外,本申请实施例还提出一种在线标注方法、系统及相关设备。
为了解决上述技术问题,本申请实施例提供一种基于CRF++工具的在线序列标注模型的训练方法,采用了如下所述的技术方案:
一种基于CRF++工具的在线序列标注模型的训练方法,包括下述步骤:
获取预先标记的第一数据集,根据所述第一数据集对预设的序列标注模型进行离线训练,得到模型输出结果满足预设要求的离线标注模型,其中所述第一数据集的数据量不大于预先设定的第一阈值;
从至少一个数据源中获取未标记的数据,将所述未标记的数据输入至所述离线标注模型中,以对所述未标记的数据进行离线标注,得到第二数据集,其中所述第二数据集的数据量大于所述第一数据集的数据量,且所述第二数据集的数据量不低于预先设定的第二阈值;
将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
为了解决上述技术问题,本申请实施例还提供一种基于CRF++工具的在线序列标注模型的训练装置,采用了如下所述的技术方案:
第一模型训练模块,用于获取预先标记的第一数据集,根据所述第一数据集对预设的序列标注模型进行离线训练,得到模型输出结果满足预设要求的离线标注模型,其中所述第一数据集的数据量不大于预先设定的第一阈值;
离线标注模块,用于从至少一个数据源中获取未标记的数据,将所述未标记的数据输入至所述离线标注模型中,以对所述未标记的数据进行离线标注,得到第二数据集,其中所述第二数据集的数据量大于所述第一数据集的数据量,且所述第二数据集的数据量不低于预先设定的第二阈值;
第二模型训练模块,用于将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
为了解决上述技术问题,本申请实施例还提供一种在线文本标注方法,包括下述步骤:
接收用户终端发送的在线文本标注指令,根据所述在线文本标注指令获取待标注的文本;
将所述待标注的文本输入预设的在线序列标注模型中,输出文本的序列,其中,所述预设的在线序列标注模型根据如上所述的基于CRF++工具的在线序列标注模型的训练方法获得;
将所述文本的序列反馈至用户终端。
为了解决上述技术问题,本申请实施例还提供一种在线文本标注系统,包括:
数据获取模块,用于接收用户终端发送的在线文本标注指令,根据所述在线文本标注指令获取待标注的文本;
在线标注模块,用于将所述待标注的文本输入预设的在线序列标注模型中,输出文本的序列,其中,所述预设的在线序列标注模型根据如上所述的基于CRF++工具的在线序列标注模型的训练方法获得;
发送模块,用于将所述文本的序列反馈至用户终端。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于CRF++工具的在线序列标注模型的训练方法的步骤,或者实现如上所述的在线文本标注方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于CRF++工具的在线序列标注模型的训练方法的步骤,或者实现如上所述的在线文本标注方法的步骤。
与现有技术相比,本申请实施例提供的基于CRF++工具的在线序列标注模型的训练方法、装置、计算机设备及存储介质主要有以下有益效果:
通过离线训练出高精确度的离线标注模型,再通过离线标注模型对大量未标注的语料进行预测,实现文本的自动标注,再将标注的数据结合CRF++工具进行训练,得到高效且高精确度的在线序列标注模型,给在线文本的处理带来了很大的效率提升。
而采用所述在线序列标注模型进行文本标注的在线文本标注方法、系统及相关设备相应地具有上述有益效果。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,下面描述中的附图对应于本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的基于CRF++工具的在线序列标注模型的训练方法的一个实施例的流程图;
图3是根据本申请的BERT-Bi-LSTM-CRF模型框架示意图;
图4是根据本申请的基于CRF++工具的在线序列标注模型的训练装置的一个实施例的结构示意图;
图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于CRF++工具的在线序列标注模型的训练方法和在线文本标注方法一般由服务器执行,相应地,基于CRF++工具的在线序列标注模型的训练装置和在线文本标注系统一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本申请的基于CRF++工具的在线序列标注模型的训练方法的一个实施例的流程图。所述的基于CRF++工具的在线序列标注模型的训练方法包括以下步骤:
S201,获取预先标记的第一数据集,根据所述第一数据集对预设的序列标注模型进行离线训练,得到模型输出结果满足预设要求的离线标注模型,其中所述第一数据集的数据量不大于预先设定的第一阈值;
S202,从至少一个数据源中获取未标记的数据,将所述未标记的数据输入至所述离线标注模型中,以对所述未标记的数据进行离线标注,得到第二数据集,其中所述第二数据集的数据量大于所述第一数据集的数据量,且所述第二数据集的数据量不低于预先设定的第二阈值;
S203,将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
下面对上述步骤进行展开说明。
对于步骤S201,第一数据集中包含的数据是指被文本被标记后形成的数据,文本标记即为对文本进行数据预处理,本步骤基于少量人工标注的数据训练离线标注模型,即第一数据集的数据量较小,只要满足模型训练和模型验证所需的数据量即可,因此可设定满足离线训练的数据的数据量阈值即可,即所述第一阈值。
在本实施例中,所述模型输出结果满足预设要求是指训练得到的离线标注模型的标注准确率达到预设阈值。
在本申请实施例中预设的序列标注模型为高精度深度学习模型,具体可以采用多种模型框架,比如基于BERT的模型框架。在一些实施例中,所述预设的序列标注模型采用BERT-Bi-LSTM-CRF的模型框架,该模型框架具有高精度但处理速度较慢的特性,由于离线标注模型不用于线上环境,可以只考虑模型的精准度,忽略预测速度。
下面以一个具体例子说明S201的过程,在分词的任务当中,以采用BIS的标注方式(b为开头,i为片段的非开头,s为片段仅一个字符)对文本进行标注为例,例如句子“今天深圳湾的人很多”的分词结果为:“今天|深圳湾|的|人|很多”,此时数据预处理当中的标注结果如下:
今b
天i
深b
圳i
湾i
的s
人s
很b
多i
对若干文本句子采用上述的标记方式进行标注后,形成第一数据集,可从第一数据集中抽取部分数据作为BERT-Bi-LSTM-CRF模型框架的训练数据,另一部分数据用作BERT-Bi-LSTM-CRF模型框架的验证数据,具体结合图3所示BERT-Bi-LSTM-CRF模型框架示意图,通过BERT预训练将分词转为向量,通过双向LSTM学习上下文关系,最后完成对于每个分词的标签预测,由于BERT对文本特征的表征能力强,BERT-Bi-LSTM-CRF模型框架可以达到非常高的精度,因训练速度较慢需要耗费大量时间,以至于无法实现线上预测。本申请实施例先通过离线训练的方式对预设的序列标注模型进行训练,不需要考虑硬件和时间的瓶颈,可得到高精度的离线标注模型,在离线情况下满足高准确率。
对于步骤S202,通过步骤S201得到的高精度的离线标注模型可对于大批量无标注的文本语料进行预测,得到大量的标注数据,以解决步骤S203中通过CRF++工具进行模型训练时训练数据不足的问题,同时避免耗费大量的人工去进行数据的标注,节省资源。
具体的,所述数据源可以是互联网或业务日志,即无标注的文本语料可以是在互联网、业务日志等数据源获取的大量的原始数据,本步骤中自动标注的数据非常大,比如预先标记的第一数据集的数据有10条,本步骤中自动标注的数据可能上亿条,为了满足后续CRF++工具进行模型训练时训练数据的数据量要求,所述第二数据集的数据量不能低于某个值,可通过预先设定的第二阈值来对这个数据量进行限定,以从互联网或业务日志中获取相应的数量的原始数据,互联网上可以采集的文本语料非常巨大,可根据实际项目需要采集相应数量的文本语料进行结果预测,实现文本自动标注。
对于步骤S203,CRF++工具为序列标注工具,其训练完成的模型在上线当中具有非常好的速度优势,但其训练过程需要大量的训练数据,本步骤通过第二数据集中的大量的有标注数据即可实现CRF++工具的训练,得到在线序列标注模型,以此在线序列标注模型作为线上文本标注的实际模型,能够在线上环境使用,在保持高精度的同时在线标注速度相比上述离线标注模型的在线标注速度更快。
在一些实施例中,所述将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型包括:
获取CRF++工具训练指令,根据所述CRF++工具训练指令获取CRF++工具序列标注模板;根据所述CRF++工具训练指令,使所述CRF++工具通过所述第二数据集中的标记数据和所述CRF++工具序列标注模板进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
本申请实施例一种示例性的CRF++工具序列标注模板的设计如下:
#Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]
#Bigram
B
其中,对于U00:%x[-2,0],模板表达的意思为当前的标签与当前字符为值与往前数的第二个字符相关;U05:%x[-2,0]/%x[-1,0]/%x[0,0]表示当前字符的标签与包括当前位置的三个字符值相关,以此类推。
在本申请实施例中,CRF++工具训练指令可为“crf_learn-f 5-p 10-c4.0template train.data model.txt–t”,在此CRF++工具训练指令中的参数解释说明如下:
“crf_leran”为CRF++工具的训练工具;
“-f 5”为特征出现频率的最低频次;
“-p 12”为设置CRF++工具开启的线程数,可以有效利用多核加速训练过程;
“-c 4.0”为CRF++工具训练超参数,用于调整模型训练过程当中可能出现的过拟合或者欠拟合,C值越大,越容易导致过拟合,具体参数的设置需要采用多轮实验以确定最佳参数;
“train.data”为训练数据;
“model”为生成的模型名;
“-t”此参数用于设置最终生成明文的CRF++工具模型文件,即model.txt。
最终可得到相应的训练模型文件model.txt,此模型即为最终应用于线上环境的在线序列标注模型,具有高精度和高效的预测速度。本实施例中CRF++工具通过简单的模板配置可以实现模型的训练,得到快速且精准的在线序列标注模型。
在本实施例中,在所述得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型之后,所述方法还包括:在将所述在线序列标注模型进行上线之前,对所述在线序列标注模型进行验证,当验证合格时保留所述在线序列标注模型,否则对所述在线序列标注模型重新进行训练,直到训练的所述在线序列标注模型验证合格时停止训练,输出最终的在线序列标注模型。此处为对完成的在线序列标注模型进行上线前的评测,在一些实施例中,所述对所述在线序列标注模型进行验证包括:将验证集输入所述在线序列标注模型得到预测结果,将所述预测结果与预先标注的结果进行对比,根据所述预测结果与所述预先标注的结果的差异大小判断预测准确率,当所述预测准确率达到预设阈值时验证合格。
在本申请实施例中,所述在线序列标注模型的精准度可以达到基于BERT模型的模型框架的相关深度算法任务的精度,同时在处理速度上具有极大的优势,相比于基于BERT的模型框架的相关深度算法,在保证精度的情况下,效率提升上百倍,给在线业务的处理带来了很大的效率提升。
本申请实施例上述S201的离线标注模型的训练阶段和S202的在线序列标注模型的训练阶段可以在同一硬件环境下实现,也可以在不同硬件环境下实现,两个训练阶段是相互独立的阶段,在线序列标注模型训练完成后,进行模型上线时,在JAVA项目当中对在线序列标注模型进行调用,最后发布到指定的Maven库当中,其他的业务方可以调用该在线序列标注模型进行在线文本标注。
需要强调的是,为进一步保证信息的私密和安全性,上述第一数据集和第二数据集中包含的隐私数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请提供的基于CRF++工具的在线序列标注模型的训练方法,通过离线训练出高精确度的离线标注模型,再通过离线标注模型对大量未标注的语料进行预测,实现文本的自动标注,再将标注的数据结合CRF++工具进行训练,得到高效且高精确度的在线序列标注模型,给在线文本的处理带来了很大的效率提升。此外,本申请提供的基于CRF++工具的在线序列标注模型的训练方法具有较大的应用范围和场景,常见的训练标注任务均可以采用本申请实施例得到的高效且高精确度的在线序列标注模型,在例如命名实体识别、分词等常见的序列标注均可以采用,本申请的在线序列标注模型在不同场景上具有较强的通用性,通过简单的配置,即可实现模型的应用和技术的迁移。
本申请还提供了一种在线文本标注方法的一个实施例,所述在线文本标注方法包括:接收用户终端发送的在线文本标注指令,根据所述在线文本标注指令获取待标注的文本,将所述待标注的文本输入预设的在线序列标注模型中,输出文本的序列,将所述文本的序列反馈至用户终端;其中,所述预设的在线序列标注模型根据上述的基于CRF++工具的在线序列标注模型的训练方法获得。具体的,可在用户终端的界面提供在线文本标注的入口,由用户通过该入口在线输入待标注的文本或文本存储地址并提交,生成包含有待标注的文本或文本存储地址的在线文本标注指令,服务端在接收到在线文本标注指令后直接读取待标注的文本或根据文本存储地址从目标数据库中读取待标注的文本,并获取预设的在线序列标注模型,将待标注的文本输入至在线序列标注模型中即可得到文本的序列,服务端在获取到文本的序列后再将其反馈至用户终端的界面。
本申请实施例提供的在线文本标注方法采用上述实施例的在线序列标注模型进行文本标注,相应地具有上述基于CRF++工具的在线序列标注模型的训练方法的实施例所具有的有益效果。
本申请上述实施例提供的基于CRF++工具的在线序列标注模型的训练方法和在线文本标注方法可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请上述实施例提供的基于CRF++工具的在线序列标注模型的训练方法和在线文本标注方法可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图2所示基于CRF++工具的在线序列标注模型的训练方法的实现,本申请提供了一种基于CRF++工具的在线序列标注模型的训练装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例所述的基于CRF++工具的在线序列标注模型的训练装置包括:第一模型训练模块401、离线标注模块402以及第二模型训练模块403。其中,所述第一模型训练模块401用于获取预先标记的第一数据集,根据所述第一数据集对预设的序列标注模型进行离线训练,得到模型输出结果满足预设要求的离线标注模型,其中所述第一数据集的数据量不大于预先设定的第一阈值;所述离线标注模块402用于从至少一个数据源中获取未标记的数据,将所述未标记的数据输入至所述离线标注模型中,以对所述未标记的数据进行离线标注,得到第二数据集,其中所述第二数据集的数据量大于所述第一数据集的数据量,且所述第二数据集的数据量不低于预先设定的第二阈值;所述第二模型训练模块403用于将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
具体的,第一模型训练模块401获得的第一数据集中包含的数据是指被文本被标记后形成的数据,文本标记即为对文本进行数据预处理,基于少量人工标注的数据训练离线标注模型,即第一数据集的数据量较小,只要满足模型训练和模型验证所需的数据量即可,因此可设定满足离线训练的数据的数据量阈值即可,即所述第一阈值。在本申请实施例中第一模型训练模块401采用的预设的序列标注模型为高精度深度学习模型,具体可以采用多种模型框架,比如基于BERT的模型框架。在一些实施例中,所述预设的序列标注模型采用BERT-Bi-LSTM-CRF的模型框架,该模型框架具有高精度但处理速度较慢的特性,第一模型训练模块401采用BERT-Bi-LSTM-CRF的模型框架进行离线模型训练的过程可参考上述方法实施例中的相关内容,在此不作展开。本申请实施例先通过离线训练的方式对预设的序列标注模型进行训练,不需要考虑硬件和时间的瓶颈,可得到高精度的离线标注模型,在离线情况下满足高准确率。
在本实施例中,离线标注模块402通过第一模型训练模块401得到的高精度的离线标注模型可对于大批量无标注的文本语料进行预测,得到大量的标注数据,以解决第二模型训练模块403通过CRF++工具进行模型训练时训练数据不足的问题,同时避免耗费大量的人工去进行数据的标注,节省资源。
进一步的,本实施例中所述数据源可以是互联网或业务日志,即无标注的文本语料可以是在互联网、业务日志等数据源获取的大量的原始数据,为了满足后续CRF++工具进行模型训练时训练数据的数据量要求,所述第二数据集的数据量不能低于某个值,可通过预先设定的第二阈值来对这个数据量进行限定,以从互联网或业务日志中获取相应的数量的原始数据,互联网上可以采集的文本语料非常巨大,离线标注模块402可根据实际项目需要采集相应数量的文本语料进行结果预测,实现文本自动标注。
进一步的,本实施例中CRF++工具为序列标注工具,其训练完成的模型在上线当中具有非常好的速度优势,第二模型训练模块403通过第二数据集中的大量的有标注数据即可实现CRF++工具的训练,得到在线序列标注模型,以此在线序列标注模型作为线上文本标注的实际模型,能够在线上环境使用,在保持高精度的同时在线标注速度相比上述离线标注模型的在线标注速度更快。
在一些实施例中,所述第二模型训练模块403将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型时,具体用于获取CRF++工具训练指令,根据所述CRF++工具训练指令获取CRF++工具序列标注模板;根据所述CRF++工具训练指令,使所述CRF++工具通过所述第二数据集中的标记数据和所述CRF++工具序列标注模板进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。其中,CRF++工具序列标注模板的设计可参考上述方法实施例的相关内容,在此不作展开。本实施例中CRF++工具通过简单的模板配置可以实现模型的训练,得到快速且精准的在线序列标注模型。
在本实施例中,基于CRF++工具的在线序列标注模型的训练装置还可包括验证模块,用于在所述得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型之后,以及在将所述在线序列标注模型进行上线之前,对所述在线序列标注模型进行验证,当验证合格时保留所述在线序列标注模型,否则对所述在线序列标注模型重新进行训练,直到训练的所述在线序列标注模型验证合格时停止训练,输出最终的在线序列标注模型。
在一些实施例中,所述验证模块对所述在线序列标注模型进行验证时,具体用于将验证集输入所述在线序列标注模型得到预测结果,将所述预测结果与预先标注的结果进行对比,根据所述预测结果与所述预先标注的结果的差异大小判断预测准确率,当所述预测准确率达到预设阈值时验证合格。
在本申请实施例中,所述在线序列标注模型的精准度可以达到基于BERT模型的模型框架的相关深度算法任务的精度,同时在处理速度上具有极大的优势,相比于基于BERT的模型框架的相关深度算法,在保证精度的情况下,效率提升上百倍,给在线业务的处理带来了很大的效率提升。
本申请实施例中第一模型训练模块401离线标注模型的训练阶段和第二模型训练模块403的在线序列标注模型的训练阶段可以在同一硬件环境下实现,也可以在不同硬件环境下实现,两个训练阶段是相互独立的阶段,在线序列标注模型训练完成后,进行模型上线时,在JAVA项目当中对在线序列标注模型进行调用,最后发布到指定的Maven库当中,其他的业务方可以调用该在线序列标注模型进行在线文本标注。
本申请提供的基于CRF++工具的在线序列标注模型的训练装置,通过离线训练出高精确度的离线标注模型,再通过离线标注模型对大量未标注的语料进行预测,实现文本的自动标注,再将标注的数据结合CRF++工具进行训练,得到高效且高精确度的在线序列标注模型,给在线文本的处理带来了很大的效率提升。
本申请还提供了一种在线文本标注系统的一个实施例,所述在线文本标注系统包括数据获取模块、在线标注模块、发送模块,其中,所述数据获取模块用于接收用户终端发送的在线文本标注指令,根据所述在线文本标注指令获取待标注的文本;所述在线标注模块用于将所述待标注的文本输入预设的在线序列标注模型中,输出文本的序列,其中,所述预设的在线序列标注模型根据上述实施例提供的基于CRF++工具的在线序列标注模型的训练方法获得;所述发送模块用于将所述文本的序列反馈至用户终端。具体的,可在用户终端的界面提供在线文本标注的入口,由用户通过该入口在线输入待标注的文本或文本存储地址并提交,生成包含有待标注的文本或文本存储地址的在线文本标注指令,服务端在接收到在线文本标注指令后直接读取待标注的文本或根据文本存储地址从目标数据库中读取待标注的文本,并获取预设的在线序列标注模型,将待标注的文本输入至在线序列标注模型中即可得到文本的序列,服务端在获取到文本的序列后再将其反馈至用户终端的界面。
本申请实施例提供的在线文本标注系统采用上述实施例的在线序列标注模型进行文本标注,相应地具有上述基于CRF++工具的在线序列标注模型的训练方法的实施例所具有的有益效果。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。所述计算机设备5包括通过系统总线相互通信连接存储器51、处理器52、网络接口53,所述存储器51中存储有计算机可读指令,所述处理器52执行所述计算机可读指令时实现上述方法实施例中所述的基于CRF++工具的在线序列标注模型的训练方法或在线文本标注方法的步骤,并具有与上述基于CRF++工具的在线序列标注模型的训练方法或在线文本标注方法相对应的有益效果,在此不作展开。
需要指出的是,图中仅示出了具有存储器51、处理器52、网络接口53的计算机设备5,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
在本实施例中,所述存储器51至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器51可以是所述计算机设备5的内部存储单元,例如该计算机设备5的硬盘或内存。在另一些实施例中,所述存储器51也可以是所述计算机设备5的外部存储设备,例如该计算机设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器51还可以既包括所述计算机设备5的内部存储单元也包括其外部存储设备。本实施例中,所述存储器51通常用于存储安装于所述计算机设备5的操作系统和各类应用软件,例如对应于上述基于CRF++工具的在线序列标注模型的训练方法或在线文本标注方法的计算机可读指令等。此外,所述存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制所述计算机设备5的总体操作。本实施例中,所述处理器52用于运行所述存储器51中存储的计算机可读指令或者处理数据,例如运行对应于所述基于CRF++工具的在线序列标注模型的训练方法或在线文本标注方法的计算机可读指令。
所述网络接口53可包括无线网络接口或有线网络接口,该网络接口53通常用于在所述计算机设备5与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于CRF++工具的在线序列标注模型的训练方法或在线文本标注方法的步骤,并具有与上述基于CRF++工具的在线序列标注模型的训练方法或在线文本标注方法相对应的有益效果,在此不作展开。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于CRF++工具的在线序列标注模型的训练方法,其特征在于,包括下述步骤:
获取预先标记的第一数据集,根据所述第一数据集对预设的序列标注模型进行离线训练,得到模型输出结果满足预设要求的离线标注模型,其中所述第一数据集的数据量不大于预先设定的第一阈值;
从至少一个数据源中获取未标记的数据,将所述未标记的数据输入至所述离线标注模型中,以对所述未标记的数据进行离线标注,得到第二数据集,其中所述第二数据集的数据量大于所述第一数据集的数据量,且所述第二数据集的数据量不低于预先设定的第二阈值;
将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
2.根据权利要求1所述的基于CRF++工具的在线序列标注模型的训练方法,其特征在于,所述将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型包括:
获取CRF++工具训练指令,根据所述CRF++工具训练指令获取CRF++工具序列标注模板;
根据所述CRF++工具训练指令,使所述CRF++工具通过所述第二数据集中的标记数据和所述CRF++工具序列标注模板进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
3.根据权利要求1或2所述的基于CRF++工具的在线序列标注模型的训练方法,其特征在于,在所述得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型之后,所述方法还包括:
在将所述在线序列标注模型进行上线之前,对所述在线序列标注模型进行验证,当验证合格时保留所述在线序列标注模型,否则对所述在线序列标注模型重新进行训练,直到训练的所述在线序列标注模型验证合格时停止训练,输出最终的在线序列标注模型。
4.根据权利要求3所述的基于CRF++工具的在线序列标注模型的训练方法,其特征在于,所述对所述在线序列标注模型进行验证包括:
将验证集输入所述在线序列标注模型得到预测结果,将所述预测结果与预先标注的结果进行对比,根据所述预测结果与所述预先标注的结果的差异大小判断预测准确率,当所述预测准确率达到预设阈值时验证合格。
5.根据权利要求1或2所述的基于CRF++工具的在线序列标注模型的训练方法,其特征在于,所述预设的序列标注模型采用BERT-Bi-LSTM-CRF的模型框架。
6.一种基于CRF++工具的在线序列标注模型的训练装置,其特征在于,
第一模型训练模块,用于获取预先标记的第一数据集,根据所述第一数据集对预设的序列标注模型进行离线训练,得到模型输出结果满足预设要求的离线标注模型,其中所述第一数据集的数据量不大于预先设定的第一阈值;
离线标注模块,用于从至少一个数据源中获取未标记的数据,将所述未标记的数据输入至所述离线标注模型中,以对所述未标记的数据进行离线标注,得到第二数据集,其中所述第二数据集的数据量大于所述第一数据集的数据量,且所述第二数据集的数据量不低于预先设定的第二阈值;
第二模型训练模块,用于将所述第二数据集中的标记数据输入至CRF++工具中进行模型训练,得到标注速度大于所述离线标注模型的标注速度的在线序列标注模型。
7.一种在线文本标注方法,其特征在于,包括下述步骤:
接收用户终端发送的在线文本标注指令,根据所述在线文本标注指令获取待标注的文本;
将所述待标注的文本输入预设的在线序列标注模型中,输出文本的序列,其中,所述预设的在线序列标注模型根据权利要求1至5任一项所述的基于CRF++工具的在线序列标注模型的训练方法获得;
将所述文本的序列反馈至用户终端。
8.一种在线文本标注系统,其特征在于,包括:
数据获取模块,用于接收用户终端发送的在线文本标注指令,根据所述在线文本标注指令获取待标注的文本;
在线标注模块,用于将所述待标注的文本输入预设的在线序列标注模型中,输出文本的序列,其中,所述预设的在线序列标注模型根据权利要求1至5任一项所述的基于CRF++工具的在线序列标注模型的训练方法获得;
发送模块,用于将所述文本的序列反馈至用户终端。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的基于CRF++工具的在线序列标注模型的训练方法的步骤,或者实现如权利要求7所述的在线文本标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的基于CRF++工具的在线序列标注模型的训练方法的步骤,或者实现如权利要求7所述的在线文本标注方法的步骤。
CN202011052029.6A 2020-09-29 2020-09-29 在线序列标注模型的训练方法、在线标注方法及相关设备 Active CN112182157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011052029.6A CN112182157B (zh) 2020-09-29 2020-09-29 在线序列标注模型的训练方法、在线标注方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011052029.6A CN112182157B (zh) 2020-09-29 2020-09-29 在线序列标注模型的训练方法、在线标注方法及相关设备

Publications (2)

Publication Number Publication Date
CN112182157A true CN112182157A (zh) 2021-01-05
CN112182157B CN112182157B (zh) 2023-09-22

Family

ID=73947029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011052029.6A Active CN112182157B (zh) 2020-09-29 2020-09-29 在线序列标注模型的训练方法、在线标注方法及相关设备

Country Status (1)

Country Link
CN (1) CN112182157B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883734A (zh) * 2021-01-15 2021-06-01 成都链安科技有限公司 区块链安全事件舆情监测方法及系统
CN117473321A (zh) * 2023-11-07 2024-01-30 摩尔线程智能科技(北京)有限责任公司 文本标注方法、装置和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
US20180239830A1 (en) * 2017-02-17 2018-08-23 Microsoft Technology Licensing, Llc Using log data to train for automated sourcing
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN109299296A (zh) * 2018-11-01 2019-02-01 郑州云海信息技术有限公司 一种交互式图像文本标注方法与系统
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置
US20180239830A1 (en) * 2017-02-17 2018-08-23 Microsoft Technology Licensing, Llc Using log data to train for automated sourcing
CN109299458A (zh) * 2018-09-12 2019-02-01 广州多益网络股份有限公司 实体识别方法、装置、设备及存储介质
CN109299296A (zh) * 2018-11-01 2019-02-01 郑州云海信息技术有限公司 一种交互式图像文本标注方法与系统
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883734A (zh) * 2021-01-15 2021-06-01 成都链安科技有限公司 区块链安全事件舆情监测方法及系统
CN112883734B (zh) * 2021-01-15 2023-01-10 成都链安科技有限公司 区块链安全事件舆情监测方法及系统
CN117473321A (zh) * 2023-11-07 2024-01-30 摩尔线程智能科技(北京)有限责任公司 文本标注方法、装置和存储介质

Also Published As

Publication number Publication date
CN112182157B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112182157B (zh) 在线序列标注模型的训练方法、在线标注方法及相关设备
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN113947095A (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN113052262A (zh) 表单生成方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN113569998A (zh) 票据自动识别方法、装置、计算机设备及存储介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN115757731A (zh) 对话问句改写方法、装置、计算机设备及存储介质
CN114398466A (zh) 基于语义识别的投诉分析方法、装置、计算机设备及介质
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN117195886A (zh) 基于人工智能的文本数据处理方法、装置、设备及介质
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN114091451A (zh) 一种文本分类方法、装置、设备及存储介质
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116363686B (zh) 一种在线社交网络视频平台来源检测方法及其相关设备
CN117235260A (zh) 基于人工智能的文本标注方法、装置、设备及存储介质
CN116450724A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant