CN109271630B - 一种基于自然语言处理的智能标注方法及装置 - Google Patents
一种基于自然语言处理的智能标注方法及装置 Download PDFInfo
- Publication number
- CN109271630B CN109271630B CN201811058770.6A CN201811058770A CN109271630B CN 109271630 B CN109271630 B CN 109271630B CN 201811058770 A CN201811058770 A CN 201811058770A CN 109271630 B CN109271630 B CN 109271630B
- Authority
- CN
- China
- Prior art keywords
- labeling
- data
- training
- marking
- automatic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于自然语言处理的智能标注方法及装置,包括:训练标注模型;获取待标注数据,根据所述标注模型,对所述待标注数据进行自动标注;记录标注操作信息。通过本发明公开的自然语言处理的智能标注方法,能够解决现有技术中自然语言标注数据需要人工处理,标注数据速度慢,数据标注成本高的技术问题。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于自然语言处理的智能标注方法。
背景技术
为了应对自然语言处理的人工智能快速发展,然而现有技术中的自然语言标注数据的处理手段往往存在着数据量少、以及提高标注数据的快速堆积和降低数据标注的成本的技术问题。通常为了堆积大量标注数据,采用的是人工标注,但人工标注成本随数据量增加而增加,且数据标注是一个持久的过程,而标注数据在人工智能算法学习中处于重要的地位。人工标注数据意味着标注数据量少,而标注数据量少,则训练出来的算法模型准确率可能就越低,因此,如何设计一种新的基于自然语言处理的智能标注方法是本领域技术人员亟待解决的技术问题。
发明内容
本发明的目的在于克服现有的技术不足,提供一种基于自然语言处理的智能标注方法,能够解决现有技术中自然语言标注数据需要人工处理,标注数据速度慢,数据标注成本高的技术问题。
本发明的一种实施例公开了以下技术方案来实现其目的:
一种基于自然语言处理的智能标注方法,包括:
训练标注模型;
获取待标注数据,根据所述标注模型,对所述待标注数据进行自动标注;
记录标注操作信息;
进一步的,所述训练标注模型包括:
所述训练标注模型包括通过人工标注训练;半自动标注训练:自动标注训练。
进一步的,所述人工标注训练包括:
所述人工标注训练根据数据类别获取对应的已标注数据或历史数据。作为所述标注模型的训练依据;
根据人工标注过程中产生的日志信息,获取标注操作数据;
根据标注数据和标注操作数据,采用卷积神经网络CNN模型训练所述标注模型。
进一步的,所述半自动标注训练包括:
根据所述标注模型,对数据进行标注并存储于半自动标注库,对标注过程中的标注操作进行记录;
复审所述半自动标注库中的标注数据,对错误的标注数据进行修改,记录标注操作数据;
对半自动标注库中存储的标注操作数据与修改后的标注数据使用修正算法修正;
根据修正后的所述标注操作记录和标注数据再次训练标注算法模型;
进一步的,所述自动标注训练包括:
所述自动标注训练通过对所述自动标注的数据进行概率抽取并存储于半自动标注库,执行所述半自动标注训练;
进一步的,所述修正算法为期望最大化修正算法。
本发明的有益效果在于:
1)本发明通过将自动标注生成的标注数据进行一定概率抽取,抽取的数据直接进入半自动标注库,能够提高标注算法准确率。
2) 通过人工标注、半自动标注和自动标注得到的输出数据反复训练标注模型,通过卷积神经网络的学习过程来得到更好的自然语言处理的智能标注精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据一个实施例的自然语言处理的智能标注方法的流程示意图;
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
根据附图1示出的一种实施例,公开了以下技术方案来实现其目的:
一种基于自然语言处理的智能标注方法,包括:
训练标注模型;
获取待标注数据,根据所述标注模型,对所述待标注数据进行自动标注;
记录标注操作信息;
进一步的,所述训练标注模型包括:
所述训练标注模型包括通过人工标注训练;半自动标注训练:自动标注训练。
进一步的,所述人工标注训练包括:
所述人工标注训练根据数据类别获取对应的已标注数据或历史数据。作为所述标注模型的训练依据;
根据人工标注过程中产生的日志信息,获取标注操作数据;
根据标注数据和标注操作数据,采用卷积神经网络CNN模型训练所述标注模型。
进一步的,所述半自动标注训练包括:
根据所述标注模型,对数据进行标注并存储于半自动标注库,对标注过程中的标注操作进行记录;
复审所述半自动标注库中的标注数据,对错误的标注数据进行修改,记录标注操作数据;
对半自动标注库中存储的标注操作数据与修改后的标注数据使用修正算法修正;
根据修正后的所述标注操作记录和标注数据再次训练标注算法模型;
进一步的,所述自动标注训练包括:
所述自动标注训练通过对所述自动标注的数据进行概率抽取并存储于半自动标注库,执行所述半自动标注训练。
进一步的,所述修正算法为期望最大化修正算法。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (2)
1.一种基于自然语言处理的智能标注方法,包括:
训练标注模型;
获取基于自然语言处理的待标注数据,根据所述标注模型,对所述待标注数据进行自动标注;
记录标注操作信息;
所述训练标注模型包括:
通过人工标注训练;半自动标注训练;自动标注训练;
所述人工标注训练包括:
根据数据类别获取对应的已标注数据或历史数据,作为所述标注模型的训练依据;
根据人工标注过程中产生的日志信息,获取标注操作数据;
根据标注数据和标注操作数据,采用卷积神经网络CNN模型训练所述标注模型;
所述半自动标注训练包括:
根据所述标注模型,对数据进行标注并存储于半自动标注库,对标注过程中的标注操作进行记录;
复审所述半自动标注库中的标注数据,对错误的标注数据进行修改,记录标注操作数据;
对半自动标注库中存储的标注操作数据与修改后的标注数据使用修正算法修正;
根据修正后的所述标注操作数据和标注数据再次训练标注算法模型;
所述自动标注训练包括:
通过对自动标注的数据进行概率抽取并存储于半自动标注库,执行所述半自动标注训练。
2.根据权利要求1所述的一种基于自然语言处理的智能标注方法,其特征在于:
所述修正算法为期望最大化算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058770.6A CN109271630B (zh) | 2018-09-11 | 2018-09-11 | 一种基于自然语言处理的智能标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058770.6A CN109271630B (zh) | 2018-09-11 | 2018-09-11 | 一种基于自然语言处理的智能标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271630A CN109271630A (zh) | 2019-01-25 |
CN109271630B true CN109271630B (zh) | 2022-07-05 |
Family
ID=65188482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811058770.6A Active CN109271630B (zh) | 2018-09-11 | 2018-09-11 | 一种基于自然语言处理的智能标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271630B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902765A (zh) * | 2019-03-22 | 2019-06-18 | 北京滴普科技有限公司 | 一种支持人工智能的智能云标记方法 |
CN110069602B (zh) * | 2019-04-15 | 2021-11-19 | 网宿科技股份有限公司 | 语料标注方法、装置、服务器及存储介质 |
CN110457683B (zh) * | 2019-07-15 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型优化方法、装置、计算机设备及存储介质 |
CN110705271B (zh) * | 2019-09-27 | 2024-01-26 | 中国建设银行股份有限公司 | 一种提供自然语言处理服务的系统及方法 |
CN112613413A (zh) * | 2020-12-25 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 易腐垃圾分类质量判定方法、装置及计算机可读存储介质 |
CN112784997B (zh) * | 2021-01-22 | 2023-11-10 | 北京百度网讯科技有限公司 | 标注复核方法、装置、设备、存储介质以及程序产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254192A (zh) * | 2011-07-13 | 2011-11-23 | 北京交通大学 | 基于模糊k近邻的三维模型半自动标注方法及系统 |
CN103246770A (zh) * | 2013-05-08 | 2013-08-14 | 南京大学 | 一种基于活动图模型的系统行为仿真方法 |
CN105426358A (zh) * | 2015-11-09 | 2016-03-23 | 中国农业大学 | 一种疾病名词自动识别方法 |
CN105955955A (zh) * | 2016-05-05 | 2016-09-21 | 东南大学 | 一种基于纠错输出编码的无需消歧的无监督词性标注方法 |
CN107491439A (zh) * | 2017-09-07 | 2017-12-19 | 成都信息工程大学 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
CN107729921A (zh) * | 2017-09-20 | 2018-02-23 | 厦门快商通科技股份有限公司 | 一种机器主动学习方法及学习系统 |
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108182448A (zh) * | 2017-12-22 | 2018-06-19 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055309A1 (en) * | 2009-08-30 | 2011-03-03 | David Gibor | Communication in Context of Content |
-
2018
- 2018-09-11 CN CN201811058770.6A patent/CN109271630B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254192A (zh) * | 2011-07-13 | 2011-11-23 | 北京交通大学 | 基于模糊k近邻的三维模型半自动标注方法及系统 |
CN103246770A (zh) * | 2013-05-08 | 2013-08-14 | 南京大学 | 一种基于活动图模型的系统行为仿真方法 |
CN105426358A (zh) * | 2015-11-09 | 2016-03-23 | 中国农业大学 | 一种疾病名词自动识别方法 |
CN105955955A (zh) * | 2016-05-05 | 2016-09-21 | 东南大学 | 一种基于纠错输出编码的无需消歧的无监督词性标注方法 |
CN107491439A (zh) * | 2017-09-07 | 2017-12-19 | 成都信息工程大学 | 一种基于贝叶斯统计学习的医学古汉语句子切分方法 |
CN107729921A (zh) * | 2017-09-20 | 2018-02-23 | 厦门快商通科技股份有限公司 | 一种机器主动学习方法及学习系统 |
CN108009589A (zh) * | 2017-12-12 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 样本数据处理方法、装置和计算机可读存储介质 |
CN108182448A (zh) * | 2017-12-22 | 2018-06-19 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108491373A (zh) * | 2018-02-01 | 2018-09-04 | 北京百度网讯科技有限公司 | 一种实体识别方法及系统 |
Non-Patent Citations (5)
Title |
---|
An interactive tool for manual, semi-automatic and automatic video annotation;Bianco Simone 等;《Computer Vision and Image Understanding》;20150228;第131卷;88-99 * |
Concurrent activity recognition with multimodal CNN-LSTM structure;Li Xinyu 等;《网页在线公开:https://arxiv.org/abs/1702.01638》;20170206;1-14 * |
从文本中构建领域本体技术综述;任飞亮 等;《计算机学报》;20170506;第42卷(第3期);654-676 * |
基于XML自动评阅系统的设计与实现;邢飞 等;《电子技术》;20101108;第47卷(第9期);37-40 * |
基于时间集成与自适应谐振的深度学习方法研究;宋跃忠;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20150215(第02期);I140-138 * |
Also Published As
Publication number | Publication date |
---|---|
CN109271630A (zh) | 2019-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271630B (zh) | 一种基于自然语言处理的智能标注方法及装置 | |
CN109741332B (zh) | 一种人机协同的图像分割与标注方法 | |
CN110704633B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
TWI621077B (zh) | 理賠單據的字元識別方法及伺服器 | |
CN110134949B (zh) | 一种基于教师监督的文本标注方法和设备 | |
US11100917B2 (en) | Generating ground truth annotations corresponding to digital image editing dialogues for training state tracking models | |
CN111291566B (zh) | 一种事件主体识别方法、装置、存储介质 | |
CN107527070B (zh) | 维度数据和指标数据的识别方法、存储介质及服务器 | |
CN111191429A (zh) | 数据表格自动填充的系统和方法 | |
CN116955604A (zh) | 一种日志检测模型的训练方法、检测方法、装置 | |
CN110110622B (zh) | 一种基于图像处理的医疗文本检测方法、系统和存储介质 | |
CN111611788B (zh) | 一种数据处理的方法及装置、电子设备、存储介质 | |
CN109062888A (zh) | 一种出现错误文本输入时的自纠正方法 | |
CN111274812B (zh) | 一种人物关系识别方法、设备及存储介质 | |
CN115238702B (zh) | 一种实体库处理方法及存储介质 | |
CN110197175A (zh) | 一种图书书名定位及词性标注的方法及系统 | |
CN109670554B (zh) | 深度学习系统中数据集标注的管理方法和装置 | |
CN112181951A (zh) | 一种异构数据库数据迁移方法、装置及设备 | |
CN111724314A (zh) | 一种医疗影像中特殊标记的检测与去除方法 | |
CN110851400A (zh) | 文本数据的处理方法及装置 | |
CN111462760A (zh) | 声纹识别系统、方法、装置及电子设备 | |
CN114637845B (zh) | 模型测试方法、装置、设备和存储介质 | |
CN114267087B (zh) | 一种基于小样本机器学习模型的动作注册方法及其系统 | |
CN116596923B (zh) | 基于边缘检测的园林植物识别方法及系统 | |
CN113283242B (zh) | 一种基于聚类与预训练模型结合的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |