CN117591885A - 数据标注方法、装置、终端设备以及存储介质 - Google Patents
数据标注方法、装置、终端设备以及存储介质 Download PDFInfo
- Publication number
- CN117591885A CN117591885A CN202311680683.5A CN202311680683A CN117591885A CN 117591885 A CN117591885 A CN 117591885A CN 202311680683 A CN202311680683 A CN 202311680683A CN 117591885 A CN117591885 A CN 117591885A
- Authority
- CN
- China
- Prior art keywords
- labeling
- data
- marking
- user
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 290
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 abstract description 12
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 244000303258 Annona diversifolia Species 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种数据标注方法、装置、终端设备以及存储介质,其数据标注方法包括:在获取用户的对话信息时,通过预设语言大模型,解析对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到初始待标注数据的长度超过预设阈值时,通过预设摘要模型对初始待标注数据进行摘要提取,得到目标待标注数据;通过语言大模型,基于标注模板,对目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据标注方法、装置、终端设备以及存储介质。
背景技术
随着大数据时代的到来,人们越来越意识到数据在自然语言处理领域中的重要性。高质量且数量众多的数据对于大模型训练和应用起到了至关重要的作用。在传统的标注模式下,通常需要花费大量的人力来保证标注质量和数量,这将导致标注成本异常高昂、标注效率极其低下。
例如,基于规则的数据标注方法需要投入大量的时间和人力来制定和更新标注方案,难以应对复杂的语义关系;基于统计学习的数据标注方法需要处理特征提取、大模型调参等问题,且对不同领域、不同场景的适应能力较差;基于深度学习的数据标注方法需要耗费大量的标注数据和计算资源,且大模型的训练与调试过程需要专业知识和技能;混合方法虽然能够结合不同方法的优势,但设计和调整不同方法的参数也需要投入大量的时间和人力,且难以实现统一的优化和调试。
因此,有必要提出一种提升标注效率、降低标注成本的数据标注方案。
发明内容
本申请的主要目的在于提供一种数据标注方法、装置、终端设备以及存储介质,旨在解决数据标注效率低、标注成本高的技术问题。
为实现上述目的,本申请提供一种数据标注方法,所述数据标注方法包括:
在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
可选地,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤包括:
通过所述语言大模型,确定与所述标注模板中的内容存在包含关系和/或关联关系的提示词;
根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
可选地,所述根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果的步骤包括:
发送所述提示词给所述用户,以供所述用户对所述提示词进行修正,得到修正后的提示词;
根据所述修正后的提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
可选地,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤包括:
在接收所述用户的第一对话信息时,解析所述第一对话信息中的内容;
在所述第一对话信息中的内容为标注请求时,向所述用户询问标注字段和标注范围问题;
在接收所述用户的第二对话信息时,解析所述第二对话信息中的内容,若所述第二对话信息中的内容为标注字段和标注范围答案,则根据所述标注字段和标注范围答案,生成所述标注模板;
向所述用户询问所述初始待标注数据,以通过预设文件服务器,获得所述初始待标注数据。
可选地,所述目标待标注数据的标注过程包括:
获取标注进度;所述标注进度包括已标注数据的数量、准确性、错误比例;
将所述标注进度发送给所述用户。
可选地,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤之后,还包括:
确定所述标注结果的标注状态;所述标注状态包括已确认、未标注、标注失败;
采用不同的标签对所述标注状态进行标识,得到标识后的标注结果。
可选地,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤之前,还包括:
基于预设的可插拔模式,接入所述语言大模型。
本申请实施例还提出一种数据标注装置,所述数据标注装置包括:
解析模块,用于在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
提取模块,用于在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
标注模块,用于通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据标注程序,所述数据标注程序被所述处理器执行时实现如上所述的数据标注方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据标注程序,所述数据标注程序被处理器执行时实现如上所述的数据标注方法的步骤。
本申请实施例提出的数据标注方法、装置、终端设备以及存储介质,通过在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
附图说明
图1为本申请数据标注装置所属终端设备的功能模块示意图;
图2为本申请数据标注方法第一示例性实施例的流程示意图;
图3为本申请数据标注方法第二示例性实施例的流程示意图;
图4为本申请数据标注方法的系统架构示意图;
图5为本申请数据标注方法业务流程示意图;
图6为本申请数据标注方法语言大模型标注流程示意图;
图7为本申请数据标注方法第三示例性实施例的流程示意图;
图8为本申请数据标注方法第四示例性实施例的流程示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
本申请实施例考虑到,针对数据标注这一问题,随着大数据时代的到来,人们越来越意识到数据在自然语言处理领域中的重要性。高质量且数量众多的数据对于大模型训练和应用起到了至关重要的作用。在传统的标注模式下,通常需要花费大量的人力来保证标注质量和数量,这将导致标注成本异常高昂、标注效率极其低下。因此,有效提升标注效率、降低标注成本,对于标注领域的应用尤为关键。目前市面上常见的自动化文本标注方案包括以下几种:
1)基于规则的文本标注:通过明确的规则对文本进行标注。例如,根据特定的语法规则将文本进行分割,再根据事先设定好的标签体系进行标注;2)基于统计学习的文本标注:通过使用统计学算法对文本进行特征提取,再根据这些特征进行分类或回归;3)基于深度学习的文本标注:使用深度学习大模型自动从文本中提取实体、关系等信息,并将其标注;4)混合方法:将基于规则的方法、基于统计学习的方法和基于深度学习的方法进行结合。例如,可以先使用基于规则的方法对文本进行初步标注,然后再使用基于统计学习或深度学习的方法对初步标注结果进行调整和优化,从而得到更加准确的标注结果。
但是,上述自动化文本标注方案仍存在诸多需要解决的问题。基于规则的文本标注方法需要投入大量的时间和人力来制定和更新标注方案,难以应对复杂的语义关系。基于统计学习的文本标注方法虽可通过训练提高准确性,但需要处理特征提取、大模型调参等问题,且对不同领域、不同场景的适应能力较差。基于深度学习的文本标注方案虽然表现出高效、精准的特点,但需要耗费大量的标注数据和计算资源,且大模型的训练与调试过程需要专业知识和技能。而混合方法虽然能够结合不同方法的优势,但设计和调整不同方法的参数也需要投入大量的时间、人力,且难以实现统一的优化和调试。
因此,本申请实施例提出了一种基于语言大模型的对话式自动文本标注方法,使用大型自然语言处理(LLM)大模型(例如GPT-4)实现文本自动标注,不需要过多的人工干预,可以自动化地进行标注,降低了标注成本,提升了标注效率。此外,还可以自动地根据不同的应用场景和领域,从文本中提取有用的信息,并将其标注,从而提高了数据标注质量和适应性。
具体地,参照图1,图1为本申请数据标注装置所属终端设备的功能模块示意图。该数据标注装置可以为独立于终端设备的、能够进行数据标注的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该数据标注装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及数据标注程序,数据标注装置可以将对话信息、标注模板、初始待标注数据、预设阈值、目标待标注数据、标注结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的数据标注程序被处理器执行时实现以下步骤:
在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
进一步地,存储器130中的数据标注程序被处理器执行时还实现以下步骤:
通过所述语言大模型,确定与所述标注模板中的内容存在包含关系和/或关联关系的提示词;
根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
进一步地,存储器130中的数据标注程序被处理器执行时还实现以下步骤:
发送所述提示词给所述用户,以供所述用户对所述提示词进行修正,得到修正后的提示词;
根据所述修正后的提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
进一步地,存储器130中的数据标注程序被处理器执行时还实现以下步骤:
在接收所述用户的第一对话信息时,解析所述第一对话信息中的内容;
在所述第一对话信息中的内容为标注请求时,向所述用户询问标注字段和标注范围问题;
在接收所述用户的第二对话信息时,解析所述第二对话信息中的内容,若所述第二对话信息中的内容为标注字段和标注范围答案,则根据所述标注字段和标注范围答案,生成所述标注模板;
向所述用户询问所述初始待标注数据,以通过预设文件服务器,获得所述初始待标注数据。
进一步地,存储器130中的数据标注程序被处理器执行时还实现以下步骤:
获取标注进度;所述标注进度包括已标注数据的数量、准确性、错误比例;
将所述标注进度发送给所述用户。
进一步地,存储器130中的数据标注程序被处理器执行时还实现以下步骤:
确定所述标注结果的标注状态;所述标注状态包括已确认、未标注、标注失败;
采用不同的标签对所述标注状态进行标识,得到标识后的标注结果。
进一步地,存储器130中的数据标注程序被处理器执行时还实现以下步骤:
基于预设的可插拔模式,接入所述语言大模型。
本实施例通过上述方案,具体通过在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请数据标注方法第一示例性实施例的流程示意图。所述数据标注方法包括:
步骤S210,在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
本实施例方法的执行主体可以是一种数据标注装置,也可以是一种数据标注终端设备或服务器,本实施例以数据标注装置进行举例,该数据标注装置可以集成在具有数据处理功能的智能手机、平板电脑等终端设备上。
具体地,语言大模型可以是一个提前训练好的自然语言处理(NLP)领域中的深度学习大模型,如GPT3.5-turbo、GPT4(Generative Pre-trained Transformer)、Llama2等,用于理解用户的对话信息,生成标注模板。
标注模板可以是一种结构化的规则集,定义了标注的方式、要素和规则,用于指导预言大模型对待标注数据进行标注的过程。
初始待标注数据可以是语言大模型主动提示用户上传或用户主动上传的需要进行标注的数据,初始待标注数据可以是文本、图像、语音等形式。
步骤S220,在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
具体地,摘要模型可以是一个传统的摘要提取大模型,用于对长度超过预设阈值的初始待标注数据中的内容进行摘要提取,得到经过摘要提取后的、较为精简的待标注数据,用于减少数据规模,提高标注效率。
为了控制数据的规模,避免标注过程变得繁琐和低效,可以对初始待标注数据进行长度检测,判断是否超过了预先设定的阈值,如果长度超过阈值,说明数据可能较为庞大,则调用摘要模对初始待标注数据进行处理。
步骤S230,通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
具体地,标注结果是基于标注模板和语言大模型对提示词的理解而得到的,反映了对目标待标注数据进行标注的决策和操作。标注结果可以包括已标注数据的标签、分类、关键信息等。
通过语言大模型基于标注模板来对数据进行标注,得到标注结果,可以结合标注结果和待标注数据,可以用于训练机器学习大模型、评估大模型性能、开发和改进算法。
示例性地,用户可以平台上与语言大模型进行对话,通过在平台上提出标注问题或需求,然后系统使用预设语言大模型解析对话内容,生成标注模板,进而主动提示用户或用户主动上传待标注产品数据集。在系统检测这个产品数据集,系统调用摘要模型来对上传的待标注产品数据集进行摘要提取,可以得到简化后的目标待标注数据。最后,系统调用语言大模型,以供语言大模型基于标注模板,对目标待标注数据进行标注,生成最终的标注结果。
本实施例通过上述方案,具体通过在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
参照图3,图3为本申请数据标注方法第二示例性实施例的流程示意图。基于上述图2所示的实施例,步骤S210,在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据,包括:
步骤S310,在接收所述用户的第一对话信息时,解析所述第一对话信息中的内容;
具体地,当用户以对话方式发送信息时,语言大模型可以解析这个信息中的内容,以了解用户的标注需求或请求。这可能包括用户提到的数据类型、标注任务类型等信息。
步骤S320,在所述第一对话信息中的内容为标注请求时,向所述用户询问标注字段和标注范围问题;
具体地,如果语言大模型理解到用户的信息属于数据标注请求,则语言大模型向用户询问关于标注字段和标注范围的问题,用于明确用户的具体标注需求和任务范围。
步骤S330,在接收所述用户的第二对话信息时,解析所述第二对话信息中的内容,若所述第二对话信息中的内容为标注字段和标注范围答案,则根据所述标注字段和标注范围答案,生成所述标注模板;
具体地,当用户根据标注字段和标注范围问题,回复并发送第二对话信息时,语言大模型再次解析第二对话信息中的内容。如果内容包含标注字段和标注范围的答案,则根据用户提供的标注字段和标注范围答案,系统生成标注模板。这个模板定义了如何对标注数据进行标注的规则和结构。在生成标注模板之后,语言大模型主动向用户询问关于待标注数据的信息,可以是用户上传数据或提供数据的位置。
步骤S340,向所述用户询问所述初始待标注数据,以通过预设文件服务器,获得所述初始待标注数据。
具体地,系统可以通过文件服务器获取用户提供的初始待标注数据,可以是文本、图像、音频等各种形式的数据。
进一步地,步骤S230,通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果,包括:
步骤S350,通过所述语言大模型,确定与所述标注模板中的内容存在包含关系和/或关联关系的提示词;
具体地,使用语言大模型(例如GPT)对标注模板中的内容进行解析和理解,以识别其中与目标待标注数据存在包含关系和/或关联关系的提示词。
包含关系指的是标注模板中的词汇可能完全或部分包含于目标数据中,而关联关系表示标注模板中的词汇与目标数据之间存在某种联系。
步骤S360,根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
具体地,在确定了与标注模板存在关系的提示词后,语言大模型可以使用这些提示词对目标待标注数据进行标注,例如,可以将提示词与目标数据进行正则匹配,确定何种标签或标注方式最适合目标数据。正则匹配可以用于处理目标待标注数据中的特定格式、结构或模式。
进一步地,步骤S360,根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果,包括:
步骤S361,发送所述提示词给所述用户,以供所述用户对所述提示词进行修正,得到修正后的提示词;
具体地,在系统确定提示词后,为了提升数据标注精确度,可以将初始的提示词回复给用户,以便用户可以根据收到的提示词进行修正,补充或更改其中的信息,以确保提示词准确地反映了他们的意图或标注要求。
步骤S362,根据所述修正后的提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
具体地,修正后的提示词将被用于标注流程。这可能涉及将修正后的提示词与数据库中的标签、关键词或模板进行匹配。此外,正则匹配(正则表达式匹配)可能用于处理特定格式或结构的数据。
进一步地,步骤S210,在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据之前,还包括:
步骤A200,基于预设的可插拔模式,接入所述语言大模型。
具体地,系统提供了可插拔式的大模型选择功能,即提供API方式的标注能力,方便第三方系统快速接入,用户可以根据自己的预算和需求选择适合的大模型,使得系统的灵活性和扩展性提升。由此,可快速将该标注工具结合到各种场景的机器学习训练场景,大幅缩短模型训练的时间周期。
示例性地,本申请实例提供一种大模型对话式自动化文本标注系统,该系统架构参照图4,图4为本申请数据标注方法的系统架构示意图,图中示出的各模块功能如下:
会话管理:用户以会话的形式,告知大模型本次的标注需求;模板设计:大模型向用户提问确定标注的字段及范围,根据用户的答案生成对应的标注模板;数据导入:大模型向用户再次确认标注类型与标注字段,并上传数据;提示词设计: 上传数据后,用户可根据自己的需要设计提示词来提升大模型的标注效果,并通过发送测试案例测试准确性;大模型标注:大模型在用户选择大模型、保存提示词后开始标注。对于大模型标注完成的数据,用户可进行重新标注,说明:大模型对传入的对话文本有长度限制,使用传统大模型对超过长度限制的标注内容做了摘要抽取;标注结果查看:用户可查看标注结果。同时,可修改标注结果、提交大模型未完成的标注结果、手动确认标注结果;数据概览:用户可查看大模型标注的进度、准确性,错误比例;数据导出:对于标注完成的作业,可导出定制化的标注结果;API对接:允许用户通过API服务对接已有的标注会话,从而以接口的方式提供标注能力,只需传少量的参数就可以快速接入。
本申请实施例可实现对话式创建标注项目。在试标过程中,可通过修改提示词来调试标注精确度,并可根据用户成本预算定制化地选择满足标注需求的大型大模型。参照图5,图5为本申请数据标注方法业务流程示意图,具体步骤如下:
步骤A10,描述标注需求。大模型会以对话的形式向用户询问标注需求,从而确定标注类型。在此基础上大模型向用户发起提问,以确定标注字段。用户可在此模块通过选择不同的会话,来查找历史的标注记录。大模型向用户再次确认标注类型与标注字段后,提示用户进行数据上传;
步骤A20,上传数据包。对话结束后,用户上传待标注的数据集压缩包文件。压缩包解压后,系统会根据读取的数据条目生成作业;
步骤A30,调整提示词。数据上传后进入试标阶段,系统根据标注类型提供默认提示词,用户可以根据输入和输出的动态情况调整提示词,以达到优化标注效果的作用。大模型在回答时,会优先考虑上一轮对话的回答,再基于上下义理解用户用意。如果用户提示与默认提示相矛盾,机器人会以默认提示为准;
步骤A40,大模型标注。试标完成进入大模型标注阶段,大模型根据提示词对数据集进行标注。目前,系统对接了GPT3.5-turbo、GPT4、Llama2等。大模型与系统间的对接采用可插拔的设计,以便未来进行更多大模型的拓展。标注过程中,用户可查看大模型标注的进度,包括已标注数量、准确性,错误比例,同时标注进度也会实时更新;
步骤A50,检查标注结果。标注结束后,用户可查看标注结果。系统以不同颜色标签标识标注状态。绿色为已确认,黄色为未标注,红色为标注失败。用户可根据标签和打标结果进行人工确认。对于标注失败的数据,用户可手动对其进行标注。否则,标注失败的数据将不会包含标注结果在最终的打包结果中;
步骤A60,导出标注结果。人工确认后,对于标注完成的作业,用户可选择对标注结果的输出结构进行定制化操作,最后,下载标注结果压缩包文件。
参照图6,图6为本申请数据标注方法语言大模型标注流程示意图。提示词设置:为了降低用户设置提示词的操作复杂性,可以将与标注内容无关的部分使用占位符替代,在正式与大模型对话时才替换为正式的内容。示例性地,已有提示词案例参照如下:
你的任务是按照我提供的标注规则从我提供的标签中对我说的内容选择最合适的标签。
标注规则如下:
''
{rule}
''
我说的内容是:
''
{content}
''
标签如下:
''
{label}
''
请按照标注规则{rule},选择合适的标签{label}。
其中,{label}占位符是在对话时发送的标签,{content}占位符是在对话时发送的待标注内容,{rule}则为详细的标注规则描述;
设置大模型参数:语言大模型为可插拔式,用户可以选择最合适的大模型;为了让大模型返回更准确、更快速,经过多次调试后给出以下高级参数值:大模型最大输出token数:300(输出值长度满足要求且能够更快速的回答)温度:0.5(过高或过低都会影响到后续的标注结果提取);
调用大模型:在调用大模型标注前会对对话内容长度做判断,若文本超过用户选择大模型可接受的文本长度,系统会先调用传统大模型对标注内容做文本摘要抽取,然后再调用大模型进行标注,下载标注结果时会将提取好的文本摘要一并打包。
正则匹配标注结果:由于大模型的返回具有一定的随机性,标注结果并不完全按照提示词设置的格式返回,通过正则匹配获取可用的标注结果,能使得标注准确率大幅提升,实测提升约25%。由此,实现了一种基于大语言大模型的对话式自动文本标注方法、装置,基于真实的文本需求,分别就人工、GPT3.5大模型、GPT4大模型、Llama2大模型对相同的1000条数据进行了标注,总体结果如下表1:
表1
如表1所示,语言大模型标注在标注效率上比人工提升至少20倍。此外,本申请实施例还在流程上提供用户调整环节,进而通过大语言大模型对文本类数据进行标注,不仅大幅地提升了标注效率,还有效地降低了标注成本。
本实施例通过上述方案,具体通过用户通过对话形式输入标注方法和上传待标注数据,系统则通过语言大模型和摘要模型来解析和处理这些信息,最终生成标注结果,提供了一种系统与用户之间交互性强且友好的方式,对话式的标注项目创建方式极大地降低了用户的学习成本,实现开箱即用的同时,利用了预训练的语言大模型和摘要模型来提高系统的自动化处理能力。
参照图7,图7为本申请数据标注方法第三示例性实施例的流程示意图。基于上述图2所示的实施例,所述目标待标注数据的标注过程包括:
步骤S710,获取标注进度;所述标注进度包括已标注数据的数量、准确性、错误比例;
具体地,标注进度可以是在进行数据标注任务时,系统能够实时地、定期地获取标注的进展情况。标注进度可以是一个指标,用于用户了解已完成标注工作的程度和质量。已标注数据的数量可以表示已完成标注的数据条目或样本的总数,用于量化标注任务的完成情况。准确性可以表示标注的数据与真实值之间的一致性程度,用于反映标注工作的质量。错误比例可以表示在标注过程中发现的错误占已标注数据的比例,用于帮助识别和纠正标注过程中的问题。
步骤S720,将所述标注进度发送给所述用户。
具体地,在数据标注任务中,将标注进度信息及时地发送给用户是一种透明、协作的方式。可以通过系统通知、报告、仪表板等形式实现。例如,如果发现错误比例较高,用户可能提供更明确的标注指南或进行额外的培训,以改善标注质量。
本实施例通过上述方案,具体通过向用户提供标注进度信息增加了透明度,用户可以及时获得标注任务的最新状态,了解已完成的工作量和标注质量,并通过标注进度信息识别和反馈问题。
参照图8,图8为本申请数据标注方法第四示例性实施例的流程示意图。基于上述图2所示的实施例,步骤S230,通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果,包括:
步骤S810,确定所述标注结果的标注状态;所述标注状态包括已确认、未标注、标注失败;
具体地,通过对已进行标注的数据进行状态分类,以便更好地了解和管理标注工作的进展和质量。标注状态表示了每个标注数据的当前处理状况。
其中,已确认可以表示该数据已被经过审核或确认,标注过程已经完成,结果是可信的;未标注可以表示该数据尚未被标注;标注失败可以表示在标注过程中发生了错误或无法完成标注,需要进一步处理或修复。
步骤S820,采用不同的标签对所述标注状态进行标识,得到标识后的标注结果。
具体地,每个标注状态都会被分配一个唯一的标签,以便系统或平台能够方便地对数据进行跟踪和管理。这些标签通常是预定义的,可以根据具体情况进行扩展。
本实施例通过上述方案,具体通过标识不同的标注状态,可以实时监控标注进展,及时发现问题并采取相应措施;将标注状态信息共享给相关人员,提高标注工作的透明度,使得所有参与者都能清晰地了解数据标注的状态;不同的标注状态可以帮助管理者更精细地管理标注过程,提升数据标注精确度。
此外,本申请实施例还提出一种数据标注装置,所述数据标注装置包括:
解析模块,用于在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
提取模块,用于在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
标注模块,用于通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
本实施例实现数据标注的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据标注程序,所述数据标注程序被所述处理器执行时实现如上所述的数据标注方法的步骤。
由于本数据标注程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据标注程序,所述数据标注程序被处理器执行时实现如上所述的数据标注方法的步骤。
由于本数据标注程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的数据标注方法、装置、终端设备以及存储介质,通过在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。基于本方案,通过生成式语言大模型的理解文本能力,并在待标注数据的长度超出阈值时,进行摘要提取,进而可以根据文本内容进行标注,无需人工制定标注方案、处理特征提取或大模型调参等,有效解决数据标注效率低、标注成本高的技术问题。
需要说明的是,在本文中,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种数据标注方法,其特征在于,所述数据标注方法包括以下步骤:
在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
2.如权利要求1所述的数据标注方法,其特征在于,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤包括:
通过所述语言大模型,确定与所述标注模板中的内容存在包含关系和/或关联关系的提示词;
根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
3.如权利要求2所述的数据标注方法,其特征在于,所述根据所述提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果的步骤包括:
发送所述提示词给所述用户,以供所述用户对所述提示词进行修正,得到修正后的提示词;
根据所述修正后的提示词,对所述目标待标注数据进行正则匹配并标注,得到所述标注结果。
4.如权利要求1所述的数据标注方法,其特征在于,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤包括:
在接收所述用户的第一对话信息时,解析所述第一对话信息中的内容;
在所述第一对话信息中的内容为标注请求时,向所述用户询问标注字段和标注范围问题;
在接收所述用户的第二对话信息时,解析所述第二对话信息中的内容,若所述第二对话信息中的内容为标注字段和标注范围答案,则根据所述标注字段和标注范围答案,生成所述标注模板;
向所述用户询问所述初始待标注数据,以通过预设文件服务器,获得所述初始待标注数据。
5.如权利要求1所述的数据标注方法,其特征在于,所述目标待标注数据的标注过程包括:
获取标注进度;所述标注进度包括已标注数据的数量、准确性、错误比例;
将所述标注进度发送给所述用户。
6.如权利要求1所述的数据标注方法,其特征在于,所述通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果的步骤之后,还包括:
确定所述标注结果的标注状态;所述标注状态包括已确认、未标注、标注失败;
采用不同的标签对所述标注状态进行标识,得到标识后的标注结果。
7.如权利要求1所述的数据标注方法,其特征在于,所述在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据的步骤之前,还包括:
基于预设的可插拔模式,接入所述语言大模型。
8.一种数据标注装置,其特征在于,所述数据标注装置包括:
解析模块,用于在获取用户的对话信息时,通过预设语言大模型,解析所述对话信息中的内容,得到标注模板,以及,获取初始待标注数据;
提取模块,用于在检测到所述初始待标注数据的长度超过预设阈值时,通过预设摘要模型对所述初始待标注数据进行摘要提取,得到目标待标注数据;
标注模块,用于通过所述语言大模型,基于所述标注模板,对所述目标待标注数据进行标注,得到标注结果。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据标注程序,所述数据标注程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据标注程序,所述数据标注程序被处理器执行时实现如权利要求1-7中任一项所述的数据标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311680683.5A CN117591885A (zh) | 2023-12-08 | 2023-12-08 | 数据标注方法、装置、终端设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311680683.5A CN117591885A (zh) | 2023-12-08 | 2023-12-08 | 数据标注方法、装置、终端设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117591885A true CN117591885A (zh) | 2024-02-23 |
Family
ID=89911437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311680683.5A Pending CN117591885A (zh) | 2023-12-08 | 2023-12-08 | 数据标注方法、装置、终端设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591885A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098522A (zh) * | 2024-04-28 | 2024-05-28 | 北方健康医疗大数据科技有限公司 | 基于大模型的医疗数据的标注方法、系统及介质 |
-
2023
- 2023-12-08 CN CN202311680683.5A patent/CN117591885A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098522A (zh) * | 2024-04-28 | 2024-05-28 | 北方健康医疗大数据科技有限公司 | 基于大模型的医疗数据的标注方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650231B2 (en) | Method, device and server for recognizing characters of claim document, and storage medium | |
US10929458B2 (en) | Automated presentation control | |
CN117591885A (zh) | 数据标注方法、装置、终端设备以及存储介质 | |
US11030537B2 (en) | Intelligent inferences of authoring from document layout and formatting | |
WO2021139243A1 (zh) | 基于人机交互的数据处理方法、装置、设备及存储介质 | |
US20190057335A1 (en) | Targeted data element detection for crowd sourced projects with machine learning | |
CN116910561A (zh) | 数据集构建的方法和服务器 | |
CN111126058B (zh) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 | |
CN113312468A (zh) | 基于对话模式的话术推荐方法、装置、设备及介质 | |
US11841884B2 (en) | Method to guided contract drafting using an interactive chatbot | |
Sánchez-Charles et al. | Worker ranking determination in crowdsourcing platforms using aggregation functions | |
CN114385694A (zh) | 一种数据加工处理方法、装置、计算机设备及存储介质 | |
US20240046033A1 (en) | Intelligent electronic signature platform | |
CN113645357B (zh) | 通话质检方法、装置、计算机设备和计算机可读存储介质 | |
CN115905490A (zh) | 人机交互对话方法、装置以及设备 | |
US11605187B1 (en) | Drawing function identification in graphics applications | |
CN114969544A (zh) | 基于热点数据的推荐内容生成方法、装置、设备及介质 | |
CN111143643B (zh) | 元素识别方法、装置、可读存储介质和电子设备 | |
CN113642337B (zh) | 数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质 | |
CN117667979B (zh) | 基于大语言模型的数据挖掘方法、装置、设备及介质 | |
CN110955433B (zh) | 一种自动化部署脚本的生成方法及装置 | |
CN117493530B (zh) | 资源需求分析方法、装置、电子设备以及存储介质 | |
US20220374116A1 (en) | Systems and methods for improved annotation workflows | |
CN117474095A (zh) | 标注数据的处理方法、装置及电子设备 | |
CN118312592A (zh) | 智能客服方法、系统及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |