CN110362822A - 用于模型训练的文本标注方法、装置、计算机设备及存储介质 - Google Patents
用于模型训练的文本标注方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110362822A CN110362822A CN201910524497.XA CN201910524497A CN110362822A CN 110362822 A CN110362822 A CN 110362822A CN 201910524497 A CN201910524497 A CN 201910524497A CN 110362822 A CN110362822 A CN 110362822A
- Authority
- CN
- China
- Prior art keywords
- text
- marked
- samples
- task
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012550 audit Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 7
- 238000007726 management method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 235000021167 banquet Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了用于模型训练的文本标注方法、装置、计算机设备及存储介质,涉及文本处理技术领域。本发明通过建立与待标注文本样本关联的任务表单,从而方便于对标注数据进行统一管理;获取待标注文本样本根据待标注文本样本对任务数据进行标注,并对已标注文本样本的任务数据进行审核,从而保证标注数据的准确性;将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据,以便于根据训练数据对数据集模型训练,从而提高模型训练的精准度,本发明可采用区块链实现对任务表单的加密存储。
Description
技术领域
本发明涉及文本处理技术领域,尤其涉及用于模型训练的文本标注方法、装置、计算机设备及存储介质。
背景技术
目前在文本处理领域常用的技术手段主要是:利用大规模的人工标注样本作为训练文本,对神经网络模型进行训练,以便于利用训练后的神经网络模型对待处理的文本数据进行处理,从而提高处理效率。神经网络模型的训练结果与人工标注样本的数量及标注准确性直接相关。目前获得文本人工标注数据的方法主要通过专门的标注人员、外包或众包的方式人工对文本进行标注。但是,由于文本标注是一项枯燥、简单重复的劳动,长时间的枯燥标注容易出现标注错误,且用时长、效率低。
发明内容
针对现有的人工标注样本容易出现错误存在误差的问题,现提供一种旨在可提高标注准确性、用时短、效率高的用于模型训练的文本标注方法、装置、计算机设备及存储介质。
为实现上述目的,本发明提供一种用于模型训练的文本标注方法,包括下述步骤:
S1.建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号;
S2.根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本;
S3.对所述待标注文本样本进行文本识别获取文本语义数据,对所述文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中;
S4.对已标注文本样本的任务数据进行审核;
S5.将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据,结束。
优选的,所述任务数据包括:标注类型和语料标签;
所述标注类型包括:文本对话类,和/或文本比对类,和/或分词类,和/或语句分类;
在所述步骤S1中建立与至少一个待标注文本样本关联的任务表单,包括:
根据待标注文本样本的类型选择相应的标注类型建立与待标注文本样本关联的任务表单。
优选的,当所述待标注文本样本对应的标注类型为文本对话类时,所述待标注文本样本为一段文本对话,每一段文本对话对应一条任务数据;
在所述步骤S3包括:
所述文本对话中每一句话对应一语料标签;
分别依据每一句话的内容选择相应的语料标签。
优选的,当所述待标注文本样本对应的标注类型为文本比对类时,所述待标注文本样本为一对句子,每一对句子对应一条任务数据;
在所述步骤S3包括:
依据每一对句子的内容是否相同选择相应的语料标签。
优选的,当所述待标注文本样本对应的标注类型为语句分类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;
在所述步骤S3包括:
依据所述句子的内容选择相应的语料标签。
优选的,当所述待标注文本样本对应的标注类型为分词类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;
在所述步骤S3包括:
依据所述句子中的词语词性选择相应的语料标签。
优选的,还包括:
S6.将审核未通过的所述任务数据进行标记;
S7.修改经标记后的所述任务数据,返回执行步骤S3。
为实现上述目的,本发明还提供一种用于模型训练的文本标注装置,其特征在于,包括:
存储单元,用于存储至少一个待标注文本样本;
建立单元,用于建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号;
提取单元,用于根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本;
标注单元,用于对所述待标注文本样本进行文本识别获取文本语义数据,对所述文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中;
审核单元,用于对已标注文本样本的任务数据进行审核;
生成单元,用于将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。
为实现上述目的,本发明还提供一种计算机设备,其包括多个计算机设备,各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述多个计算机设备的处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时实现上述方法的步骤
本发明提供的用于模型训练的文本标注方法、装置、计算机设备及存储介质,通过建立与待标注文本样本关联的任务表单,从而方便于对标注数据进行统一管理;获取待标注文本样本根据待标注文本样本对任务数据进行标注,并对已标注文本样本的任务数据进行审核,从而保证标注数据的准确性;将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据,以便于根据训练数据对数据集模型训练,从而提高模型训练的精准度、用时短且效率高。
附图说明
图1为本发明所述的用于模型训练的文本标注方法实施例一的方法流程图;
图2为本发明所述的用于模型训练的文本标注装置实施例二的模块图;
图3为本发明所述的计算机设备一实施例的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的用于模型训练的文本标注方法、装置、计算机设备及存储介质,适用于保险业务领域,为标注人员提供一种具有统计标注人员标注准确率及工作效率的任务管理方法。本发明通过建立与待标注文本样本关联的任务表单,从而方便于对标注数据进行统一管理;获取待标注文本样本根据待标注文本样本对任务数据进行标注,并对已标注文本样本的任务数据进行审核,从而保证标注数据的准确性;将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据,以便于根据训练数据对数据集模型训练,从而提高模型训练的精准度。
实施例一
请参阅图1,本实施例的一种用于模型训练的文本标注方法,提供一存储单元,用于存储至少一个待标注文本样本,包括下述步骤:
S1.建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号;
其中,所述任务数据可包括:标注类型和语料标签,每条任务数据可包括一个语料标签或多个语料标签;
进一步地,所述标注类型可包括:文本对话类,和/或文本比对类,和/或分词类,和/或语句分类;
在所述步骤S1中建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号,包括:
所述任务表单为预设模板,所述预设模板包括多条任务数据,逐条将任务数据与存储单元中的每一待标注文本样本的标识号进行关联,从而生成任务表单。在本步骤中,根据待标注文本样的类型选择相应的标注类型建立与至少一个待标注文本样本关联的任务表单。
需要说明的是:与同一任务表单关联的待标注文本样的数据类型为同一类型,相应的同一任务表单中的标注类型为同一类型。一个任务表单中可关联多个待标注文本样本。
在本步骤中,文本对话类对应的待标注文本样本是指两个对象互相对话的一段对话文,与文本对话类对应的语料标签可以是与保险相关的内容,如:理赔金额、理赔条件、优惠活动、保险年限、保险金额、保险类型等;文本对话类的待标注文本样本可是预先存储的文本样本,也可是预先将音频信息转换为文本数据的样本。文本比对类对应的待标注文本样本是指两个句子(即:一对句子),与文本比对类对应的语料标签可以是表示相关度的内容,如:相似、不相似,相同、不相同等。分词类对应的待标注文本样本是指一个句子,与分词类对应的语料标签可以是与语法类词语相关的内容,如:主语、谓语、宾语、定语、状语等。语句分类对应的待标注文本样本是指一个句子,与语句分类对应的语料标签可以是体现语句内容所涉及的领域或体现语句表示的情感的内容,如:体育、娱乐、科技、房产、车险、人身保险、好评、差评、中评等。
上述的四种类型文本样本可以是同一种数据格式,也可以是不同的数据格式。
在实际应用中,可通过管理服务器基于大量的待标注文本样本(如:100段对话)建立一任务表单,其中,每段对话在该任务表单中对应一条任务数据。可根据待标注文本样本的不同的类型,建立相应的任务表单。
S2.根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本;
在本步骤中,为了避免接收到的待标注文本样本存在异常,如:格式不符合预设要求或格式不匹配无法加载等,可先对待标注文本样本进行预处理,将其转换为标准格式的文本,以便于后续对该待标注文本样本进行语义识别。
S3.对所述待标注文本样本进行文本识别获取文本语义数据,对所述文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中;
当所述待标注文本样本对应的标注类型为文本对话类时,所述待标注文本样本为一段文本对话,每一段文本对话对应一条任务数据;在所述步骤S3可包括:
所述文本对话中每一句话对应一语料标签;分别依据每一句话的内容选择相应的语料标签。
作为举例而非限定,以客户与坐席的一段文本对话为例,通过文本识别逐句识别每句话的内容以获取相应的文本语义数据,采用分类器对文本语义数据进行分类,从而获取与该句话对应的语料标签,采用该语料标签标注该对话的意图,例如通过语义识别分类后得知:第1句、第2句、第4句、第7句的内容核心语义与理赔条件有关就可将相应的第1句、第2句、第4句、第7句标注为理赔条件的语料标签;第3句、第5句、第6句、第8句的内容核心语义与理赔金额有关就可将相应的第3句、第5句、第6句、第8句标注为理赔金额的语料标签。
当所述待标注文本样本对应的标注类型为文本比对类时,所述待标注文本样本为一对句子,每一对句子对应一条任务数据;在所述步骤S3可包括:
依据每一对句子的内容是否相同选择相应的语料标签。
在本步骤中,进行标签标注时需采用文本识别对每个句子分别进行语义识别以生成文本语义数据,再判断两个文本语义数据是否相同,若是,则可标记为相同的语料标签;若否,则可标记为不相同的语料标签。
当所述待标注文本样本对应的标注类型为语句分类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;在所述步骤S3的具体过程可包括:
依据所述句子的内容选择相应的语料标签。
在本步骤中,进行标注时需判断一句话中所表达的内容涉及哪一领域,或判断一句话中所表达的内容属于哪一种情绪表达以便于标注语句的意图,如:体育类、娱乐类、科技类、房产类、车险类、人身保险类、好评、差评、中评等,根据领域或情绪选择相应的标签进行标注。
当所述待标注文本样本对应的标注类型为分词类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;在所述步骤S2中根据所述待标注文本样本对所述任务数据进行标注的具体过程可包括:
依据所述句子中的词语词性选择相应的语料标签。
在本实施例中,进行标注时需对待标注文本样本进行分析,提取文本句子中的主语、谓语、宾语等,以便于标注语句的意图。
在步骤S3中通过标注客户端对待标注文本样本进行标注。
S4.对已标注文本样本的任务数据进行审核;
在本步骤中,为了提高标注的准确性,当完成标注后,可对已标注文本样本的任务数据进行审核具体地,所述步骤S4可包括:
采用隐马尔可夫模型对已标注文本样本的任务数据进行审核,判断所述已标注样本图片的任务数据与经已标注文本样本获取的任务数据是否一致。
隐马尔可夫模型中状态是不直接可见的,但输出依赖于该状态下,是可见的。每个状态通过可能的输出记号有了可能的概率分布。因此,通过一个HMM产生标记序列提供了有关状态的一些序列的信息。需要说明的是"隐藏"指的是,该模型经其传递的状态序列,而不是模型的参数;即使这些参数是精确已知的,仍把该模型称为一个"隐藏"的马尔可夫模型。
S5.将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。
具体地,在任务表单中提取所有审核通过的任务数据,生成一任务列表,逐个将所述任务列表中的每一条任务数据及与该任务数据对应的标识号对应的已标注文本样本关联生成训练数据,以供后续的文本模型进行训练。
S6.将审核未通过的所述任务数据进行标记;
S7.修改经标记后的所述任务数据,返回执行步骤S3。
在本实施例中,若任务数据未通过审核,则对该任务数据进行标记,并将该标注数据返回至标注任务中,重新标注,完成标注后,再对任务数据重新审核,以保证任务数据的准确性。
在本实施例中,通过建立与至少一个待标注文本样本关联的任务表单,从而方便于对标注数据进行统一管理;获取待标注文本样本根据待标注文本样本对任务数据进行标注,并对已标注文本样本的任务数据进行审核,从而保证标注数据的准确性;将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据,以便于根据训练数据对数据集模型训练,从而提高模型训练的精准度。
实施例二
请参阅图2,本实施例的一种用于模型训练的文本标注装置2,包括:建立单元21、标注单元22、审核单元23、生成单元24、存储单元25和提取单元26,其中:
存储单元25,用于存储至少一个待标注文本样本;
建立单元21,用于建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号;所述任务数据包括:标注类型和语料标签;所述标注类型包括:文本对话类,和/或文本比对类,和/或分词类,和/或语句分类;采用建立单元21根据待标注文本样的类型选择相应的标注类型建立与至少一个待标注文本样本关联的任务表单。
提取单元26,用于根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本;
标注单元22,用于对所述待标注文本样本进行文本识别获取文本语义数据,对所述文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中;
当所述待标注文本样本对应的标注类型为文本对话类时,所述待标注文本样本为一段文本对话,每一段文本对话对应一条任务数据;所述文本对话中每一句话对应一语料标签;分别依据每一句话的内容选择相应的语料标签;
当所述待标注文本样本对应的标注类型为文本比对类时,所述待标注文本样本为一对句子,每一对句子对应一条任务数据;依据每一对句子的内容是否相同选择相应的语料标签。
当所述待标注文本样本对应的标注类型为语句分类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;依据所述句子的内容选择相应的语料标签。
当所述待标注文本样本对应的标注类型为分词类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;依据所述句子中的词语词性选择相应的语料标签。
审核单元23,用于对已标注文本样本的任务数据进行审核;
生成单元24,用于将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。
在实际应用中,可通过管理服务器基于大量的待标注文本样本(如:100段对话)建立一任务表单,其中,每段对话在该任务表单中对应一条任务数据。可根据待标注文本样本的不同的类型,建立相应的任务表单。对待标注文本样本进行文本识别获取文本语义数据,对文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中进行标注,标注完成后,可将审核通过的任务数据的任务列表及关联的已标注文本样本生成训练数据供后续的文本模型进行训练。
需要说明的是:可通过管理服务器对任务表单进行监控管理,从而了解标注进度,完成情况,标注准确率等;可通过标注客户端对完成的标注任务及正在标注的任务进行管理修改。通过分级管理的方式保证了数据的安全性。
在本实施例中,通过建立与至少一个待标注文本样本关联的任务表单,从而方便于对标注数据进行统一管理;获取待标注文本样本根据待标注文本样本对任务数据进行标注,并对已标注文本样本的任务数据进行审核,从而保证标注数据的准确性;将审核通过的任务数据的任务列表及对应的已标注文本样本生成训练数据,以便于根据训练数据对数据集模型训练,从而提高模型训练的精准度。
本技术方案可基于区块链实现,利用区块链数据库作为区块存储系统,将建立单元21建立的任务表单在区块链数据库中的节点存储进行加密,由验证节点验证任务表单的加密是否成功,以证明该任务表单确实由区块链数据库中的某一节点所对应的证明用户端所上传。
实施例三:
为实现上述目的,本发明还提供一种计算机设备,该计算机设备3包括多个计算机设备3,实施例二的用于模型训练的文本标注装置2的组成部分可分散于不同的计算机设备3中,计算机设备3可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备3至少包括但不限于:可通过系统总线相互通信连接的存储器31、处理器32、网络接口33以及用于模型训练的文本标注装置2(参考图3)。需要指出的是,图3仅示出了具有组件-的计算机设备3,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,所述存储器31至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器31可以是计算机设备3的内部存储单元,例如该计算机设备3的硬盘或内存。在另一些实施例中,存储器31也可以是计算机设备3的外部存储设备,例如该计算机设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器31还可以既包括计算机设备3的内部存储单元也包括其外部存储设备。本实施例中,存储器31通常用于存储安装于计算机设备3的操作系统和各类应用软件,例如实施例一的用于模型训练的文本标注装置2的程序代码等。此外,存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器32在一些实施例中可以是中央处理器32(Central Processing Unit,CPU)、控制器、微控制器、微处理器32、或其他数据处理芯片。该处理器32通常用于控制计算机设备3的总体操作例如执行与所述计算机设备3进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器32用于运行所述存储器31中存储的程序代码或者处理数据,例如运行所述的用于模型训练的文本标注装置2等。
所述网络接口33可包括无线网络接口33或有线网络接口33,该网络接口33通常用于在所述计算机设备3与其他计算机设备3之间建立通信连接。例如,所述网络接口33用于通过网络将所述计算机设备3与外部终端相连,在所述计算机设备3与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件31-33的计算机设备3,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器31中的所述用于模型训练的文本标注装置2还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器31中,并由一个或多个处理器32(本实施例为处理器32)所执行,以完成本发明。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器32执行时实现相应功能。本实施例的计算机可读存储介质用于存储用于模型训练的文本标注装置2,被处理器32执行时实现实施例一的用于模型训练的文本标注方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种用于模型训练的文本标注方法,其特征在于,提供一存储单元,用于存储至少一个待标注文本样本,包括下述步骤:
S1.建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号;
S2.根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本;
S3.对所述待标注文本样本进行文本识别获取文本语义数据,对所述文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中;S4.对已标注文本样本的任务数据进行审核;
S5.将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。
2.根据权利要求1所述的用于模型训练的文本标注方法,其特征在于,所述任务数据包括:标注类型和语料标签;
所述标注类型包括:文本对话类,和/或文本比对类,和/或分词类,和/或语句分类;
在所述步骤S1中建立与至少一个待标注文本样本关联的任务表单,包括:
根据待标注文本样本的类型选择相应的标注类型建立与待标注文本样本关联的任务表单。
3.根据权利要求2所述的用于模型训练的文本标注方法,其特征在于,当所述待标注文本样本对应的标注类型为文本对话类时,所述待标注文本样本为一段文本对话,每一段文本对话对应一条任务数据;
在所述步骤S3包括:
所述文本对话中每一句话对应一语料标签;
分别依据每一句话的内容选择相应的语料标签。
4.根据权利要求2所述的用于模型训练的文本标注方法,其特征在于,当所述待标注文本样本对应的标注类型为文本比对类时,所述待标注文本样本为一对句子,每一对句子对应一条任务数据;
在所述步骤S3包括:
依据每一对句子的内容是否相同选择相应的语料标签。
5.根据权利要求2所述的用于模型训练的文本标注方法,其特征在于,当所述待标注文本样本对应的标注类型为语句分类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;
在所述步骤S3包括:
依据所述句子的内容选择相应的语料标签。
6.根据权利要求2所述的用于模型训练的文本标注方法,其特征在于,当所述待标注文本样本对应的标注类型为分词类时,所述待标注文本样本为一个句子,每一个句子对应一条任务数据;
在所述步骤S3包括:
依据所述句子中的词语词性选择相应的语料标签。
7.根据权利要求1所述的用于模型训练的文本标注方法,其特征在于,还包括:
S6.将审核未通过的所述任务数据进行标记;
S7.修改经标记后的所述任务数据,返回执行步骤S3。
8.一种用于模型训练的文本标注装置,其特征在于,包括:
存储单元,用于存储至少一个待标注文本样本;
建立单元,用于建立一任务表单,所述任务表单中的每一条任务数据关联一幅待标注文本样本的标识号;
提取单元,用于根据所述任务表单中所述任务数据关联的标识号从所述存储单元中提取与所述标识号对应的所述待标注文本样本;
标注单元,用于对所述待标注文本样本进行文本识别获取文本语义数据,对所述文本语义数据进行分类,并根据分类结果生成标签,将所述标签添加至所述待标注文本样本关联的任务数据中;
审核单元,用于对已标注文本样本的任务数据进行审核;
生成单元,用于将审核通过的所述任务数据的任务列表及对应的所述已标注文本样本生成训练数据。
9.一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524497.XA CN110362822B (zh) | 2019-06-18 | 2019-06-18 | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524497.XA CN110362822B (zh) | 2019-06-18 | 2019-06-18 | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362822A true CN110362822A (zh) | 2019-10-22 |
CN110362822B CN110362822B (zh) | 2024-07-02 |
Family
ID=68216308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524497.XA Active CN110362822B (zh) | 2019-06-18 | 2019-06-18 | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362822B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991181A (zh) * | 2019-11-29 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 用于增强已标注样本的方法和设备 |
CN111046927A (zh) * | 2019-11-26 | 2020-04-21 | 北京达佳互联信息技术有限公司 | 标注数据的处理方法、装置、电子设备及存储介质 |
CN111125312A (zh) * | 2019-12-24 | 2020-05-08 | 深圳视界信息技术有限公司 | 一种文本标注方法及系统 |
CN111882291A (zh) * | 2020-06-30 | 2020-11-03 | 达闼机器人有限公司 | 用户数据处理方法、区块链网络、存储介质及节点设备 |
CN112613501A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN113127635A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及系统,存储介质和电子设备 |
CN113298326A (zh) * | 2021-07-27 | 2021-08-24 | 成都西辰软件有限公司 | 智能化电子化事件监督方法、设备及存储介质 |
WO2021169208A1 (zh) * | 2020-02-25 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN116226557A (zh) * | 2022-12-29 | 2023-06-06 | 中国科学院信息工程研究所 | 待标注数据的拾取方法、装置、电子设备和存储介质 |
CN117521115A (zh) * | 2024-01-04 | 2024-02-06 | 广东工业大学 | 一种数据保护方法、装置及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247700A (zh) * | 2017-04-27 | 2017-10-13 | 北京捷通华声科技股份有限公司 | 一种添加文本标注的方法及装置 |
CN108241741A (zh) * | 2017-12-29 | 2018-07-03 | 深圳市金立通信设备有限公司 | 一种文本分类方法、服务器及计算机可读存储介质 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
-
2019
- 2019-06-18 CN CN201910524497.XA patent/CN110362822B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247700A (zh) * | 2017-04-27 | 2017-10-13 | 北京捷通华声科技股份有限公司 | 一种添加文本标注的方法及装置 |
CN108241741A (zh) * | 2017-12-29 | 2018-07-03 | 深圳市金立通信设备有限公司 | 一种文本分类方法、服务器及计算机可读存储介质 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046927B (zh) * | 2019-11-26 | 2023-05-30 | 北京达佳互联信息技术有限公司 | 标注数据的处理方法、装置、电子设备及存储介质 |
CN111046927A (zh) * | 2019-11-26 | 2020-04-21 | 北京达佳互联信息技术有限公司 | 标注数据的处理方法、装置、电子设备及存储介质 |
CN110991181A (zh) * | 2019-11-29 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 用于增强已标注样本的方法和设备 |
CN110991181B (zh) * | 2019-11-29 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 用于增强已标注样本的方法和设备 |
CN111125312A (zh) * | 2019-12-24 | 2020-05-08 | 深圳视界信息技术有限公司 | 一种文本标注方法及系统 |
CN113127635A (zh) * | 2019-12-31 | 2021-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及系统,存储介质和电子设备 |
CN113127635B (zh) * | 2019-12-31 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及系统,存储介质和电子设备 |
WO2021169208A1 (zh) * | 2020-02-25 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN111882291A (zh) * | 2020-06-30 | 2020-11-03 | 达闼机器人有限公司 | 用户数据处理方法、区块链网络、存储介质及节点设备 |
CN112613501A (zh) * | 2020-12-21 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
WO2022134588A1 (zh) * | 2020-12-21 | 2022-06-30 | 深圳壹账通智能科技有限公司 | 信息审核分类模型的构建方法和信息审核方法 |
CN113298326B (zh) * | 2021-07-27 | 2021-10-26 | 成都西辰软件有限公司 | 智能化电子化事件监督方法、设备及存储介质 |
CN113298326A (zh) * | 2021-07-27 | 2021-08-24 | 成都西辰软件有限公司 | 智能化电子化事件监督方法、设备及存储介质 |
CN116226557A (zh) * | 2022-12-29 | 2023-06-06 | 中国科学院信息工程研究所 | 待标注数据的拾取方法、装置、电子设备和存储介质 |
CN116226557B (zh) * | 2022-12-29 | 2024-04-19 | 中国科学院信息工程研究所 | 待标注数据的拾取方法、装置、电子设备和存储介质 |
CN117521115A (zh) * | 2024-01-04 | 2024-02-06 | 广东工业大学 | 一种数据保护方法、装置及计算机存储介质 |
CN117521115B (zh) * | 2024-01-04 | 2024-04-23 | 广东工业大学 | 一种数据保护方法、装置及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110362822B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362822A (zh) | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 | |
EP3432197B1 (en) | Method and device for identifying characters of claim settlement bill, server and storage medium | |
CN110704633A (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN110502608A (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN111984779B (zh) | 一种对话文本分析方法、装置、设备和可读介质 | |
CN109299094A (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
WO2019075967A1 (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN111898550B (zh) | 建立表情识别模型方法、装置、计算机设备及存储介质 | |
CN111858913A (zh) | 一种自动生成文本摘要的方法和系统 | |
CN110363222A (zh) | 用于模型训练的图片标注方法、装置、计算机设备及存储介质 | |
CN110119353A (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN114240672A (zh) | 绿色资产的占比的识别方法及相关产品 | |
CN112527666A (zh) | 业务流程自动化测试方法、装置及计算机设备 | |
CN113902569A (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
EP4198777A1 (en) | Sample classification method and apparatus, electronic device and storage medium | |
CN110750637A (zh) | 文本摘要提取方法、装置、计算机设备及存储介质 | |
CN113724738B (zh) | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 | |
CN115686495A (zh) | 应用的生成方法、装置和服务器 | |
CN111767399B (zh) | 一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质 | |
CN112115212B (zh) | 参数识别方法、装置和电子设备 | |
CN115221323A (zh) | 基于意图识别模型的冷启动处理方法、装置、设备及介质 | |
CN114357164A (zh) | 情感-原因对抽取方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |