CN116504230A - 数据闭环方法、装置、计算机设备及计算机可读存储介质 - Google Patents
数据闭环方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116504230A CN116504230A CN202310473254.4A CN202310473254A CN116504230A CN 116504230 A CN116504230 A CN 116504230A CN 202310473254 A CN202310473254 A CN 202310473254A CN 116504230 A CN116504230 A CN 116504230A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- prediction result
- target
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000002372 labelling Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012550 audit Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 44
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种数据闭环方法、装置、计算机设备及计算机可读存储介质,涉及智能驾驶领域。数据闭环方法包括:将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;将已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;基于标注的已知预测结果数据,训练目标模型;将未知数据转化为有效数据;对有效数据进行标注,得到标注的有效数据;基于标注的已知预测结果数据和标注的有效数据,增量训练目标模型。将算法模型无法识别的未知数据转换为有效数据,不需要人工干预的情况下实现数据扩容。基于标注的已知预测结果数据和标注的有效数据,增量训练算法模型,使得交互设备利用算法模型能够更准确识别出用户语音设备。
Description
技术领域
本发明涉及智能驾驶领域,具体涉及一种数据闭环方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着人工智能技术的快速发展,各种算法模型被广泛应用于车辆的智能驾驶领域。智能驾驶车辆不仅能够自主行驶,还能够对用户语音进行识别,并执行对应用户语音的动作。通常智能驾驶车辆还包括交互设备,交互设备利用语音识别模型等算法模型对用户的语音进行识别。同时,通过采集车辆运行过程中的车端数据,将算法模型识别并输出预测结果的车端数据进行标注。通过标注后数据,对算法模型进行迭代更新,提升模型的性能,使得车辆能够准确识别更多种类的用户语音。
由于每个用户的表述习惯存在区别,会采集到大量出现叠词、多词及少词等用户表述错误的无效数据,无效数据是算法模型无法识别并输出结果的数据。然而,通常采集到的车端数据中存在大量的无效数据,使得可用于算法模型迭代的标注后数据的数量较少,导致算法模型的性能低下,进而导致在实际语音交互场景下,交互设备利用算法模型无法准确识别出用户语音。
发明内容
本发明的目的之一在于提供一种数据闭环方法,以解决现有技术中在实际语音交互场景下,交互设备利用算法模型无法准确识别出用户语音的问题;目的之二在于提供一种数据闭环装置;目的之三在于提供一种计算机设备;目的之四在于提供一种计算机可读存储介质。
为了实现上述目的,第一方面,本申请提供一种数据闭环方法,数据闭环方法包括:
将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;
将已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;
基于标注的已知预测结果数据,训练目标模型;
将未知数据转化为有效数据,其中,有效数据为包括预测结果的数据;
对有效数据进行标注,得到标注的有效数据;
基于标注的已知预测结果数据和标注的有效数据,增量训练目标模型。
本申请的实施例中,将未知数据转化为有效数据,包括:
对未知数据进行数据纠错处理,并将纠错后的未知数据输入至预设多任务模型,得到有效数据。
本申请的实施例中,对有效数据进行标注,得到标注的有效数据之后,还包括:
获取标注的有效数据的审核信息;
基于审核信息更新标注的有效数据。
本申请的实施例中,基于审核信息更新标注的有效数据之后,还包括:
将更新后的标注的有效数据上传至云端数据库。
本申请的实施例中,将获取到的目标数据进行分类,得到未知数据和已知预测结果数据,包括:
间隔获取目标数据;
基于目标数据中的结构化信息、文本信息及预测结果信息,将目标数据确定为未知数据和已知预测结果数据。
本申请的实施例中,数据闭环方法还包括:
对标注的已知预测结果数据进行数据预处理,将标注的已知预测结果数据的格式转换为预设格式。
本申请的实施例中,数据闭环方法还包括:
获取其他目标数据;
对目标数据与其他目标数据进行数据合并对齐处理,更新目标数据。
本申请的实施例中,预设标注模型的训练过程包括:
将已知预测结果数据确定为高置信度数据和低置信度数据,并基于高置信度数据构建训练集;
基于训练集,训练预设半监督模型;
将低置信度数据输入至预设半监督模型,得到低置信度数据的伪标签数据;
基于训练集和伪标签数据,训练预设半监督模型,得到预设标注模型。
第二方面,本申请提供一种数据闭环装置,数据闭环装置包括:
数据分类模块,用于将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;
已知预测结果数据标注模块,用于将已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;
模型训练模块,用于基于标注的已知预测结果数据,训练目标模型;
数据转化模块,用于将未知数据转化为有效数据,其中,有效数据为包括预测结果的数据;
有效数据标注模块,用于对有效数据进行标注,得到标注的有效数据;
模型增量训练模块,用于基于标注的已知预测结果数据和标注的有效数据,增量训练目标模型。
第三方面,本申请提供一种计算机设备,计算机设备包括存储器及处理器,存储器存储有计算机程序,计算机程序在处理器执行时,实现如第一方面的数据闭环方法。
第四方面,本申请提供一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如第一方面的数据闭环方法。
本发明的有益效果:
(1)将算法模型无法识别的未知数据转换为有效数据,不需要人工干预的情况下实现数据扩容;
(2)基于标注的已知预测结果数据和标注的有效数据,增量训练算法模型,使得交互设备利用算法模型能够更准确识别出用户语音设备。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示出了本申请实施例提供的数据闭环方法的流程图;
图2示出了本申请实施例提供的云端数据库的应用示例图;
图3示出了本申请实施例提供的预设标注模型的训练过程的流程图;
图4示出了本申请实施例提供的数据闭环装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
请参阅图1,图1示出了本申请实施例提供的数据闭环方法的流程图。
图1中的数据闭环方法包括:
S110,将获取到的目标数据进行分类,得到未知数据和已知预测结果数据。
数据闭环是一种包括数据的采集、加工、分析及应用等环节的数据处理流程,数据经历一个循环闭合的过程,使得数据形成良性循环和回馈。自然语言理解(NaturalLanguage Understanding,NLU)引擎的埋点数据将上传至云端数据库,获取云端数据库的目标数据,其中,目标数据的类型是根据实际需求设置的,在此不做限定。为便于理解,本申请的实施例中目标数据为用于智能驾驶的车端数据,且车端数据具体为算法模型进行语音识别的数据。将目标数据进行分类,得到未知数据和已知预测结果数据,其中,未知数据则为车端的算法模型无法识别的数据,进而导致了算法模型无法输出数据的预测结果。
本申请的实施例中,数据闭环方法还包括:
获取其他目标数据;
对目标数据与其他目标数据进行数据合并对齐处理,更新目标数据。
在目标数据的数据不足的情况,可以获取其他目标数据,以通过其他目标数据训练算法模型,其中,其他目标数据为与目标数据存在相似的数据。由于目标数据与其他目标数据的存在区别,需要对目标数据与其他目标数据进行数据合并对齐处理,更新目标数据。具体地,数据合并对齐处理包括对齐处理与合并处理。对齐处理用于将目标数据与其他目标数据进行结构对齐,以及对不存在特征的字段进行填充。合并处理用于将目标数据与其他目标数据进行合并,其中,可以通过映射表进行数据合并,在此不做赘述。
本申请的实施例中,将获取到的目标数据进行分类,得到未知数据和已知预测结果数据,包括:
间隔获取目标数据;
基于目标数据中的结构化信息、文本信息及预测结果信息,将目标数据确定为未知数据和已知预测结果数据。
车端的算法模型是一种线上模型,需要实时输出预测结果。通常车端的算法模型识别目标数据时会忽略目标数据中结构化信息,以提高预测效率。数据闭环过程中,基于目标数据中的结构化信息、文本信息及预测结果信息,将目标数据确定为未知数据和已知预测结果数据,以提高算法模型对未知数据和已知预测结果数据的识别率。
具体地,用户语音识别场景中,结构化信息包括但不限于操作信息、对话状态管理信息、拒识信息、声学特征、信源信息、前后景信息等。利用包括结构化信息的未知数据和已知预测结果数据训练算法模型,能够提高算法模型的多样性并提高算法模型的泛化能力。文本信息包括但不限于单轮文本信息及上下文文本信息等。用户语音识别场景,将用户语音转换为文本之后,通常需要结合上下文文本信息确定用户语音中信息。对文本信息进行文本拼接或向量拼接,能够提高算法模型对数据的识别率。将目标数据确定为未知数据和已知预测结果数据时,保留结构化信息和文本信息,能够提高训练的算法模型性能。
预测结果信息包括已知预测结果和未知预测结果,将未知预测结果的目标数据确定为未知数据,并将已知预测结果的目标数据确定已知预测结果数据。预测结果为车端的算法模型输出的预测结果,可直接将已知预测结果数据输入至预设标注模型,对已知预测结果数据进行标注,提高数据标注效率。
S120,将已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据。
已知预测结果数据为车端的算法模型可以识别的数据,并输出数据的预测结果,已知预测结果数据为具有可靠性的数据。直接将已知预测结果的数据输入至预设标注模型,利用预设标准模型对已知预测结果的数据进行标注,得到标注的已知预测结果数据,不需要人工标注数据,提高了数据的标注效率。
本申请的实施例中,数据闭环方法还包括:
对标注的已知预测结果数据进行数据预处理,将标注的已知预测结果数据的格式转换为预设格式。
数据预处理包括但不限于标准化处理、数值化处理、one-hot(独热编码)处理、异常值检测处理、离散化处理、对齐与截断处理、分词处理及停用词处理。具体地,标准化处理用于将不同渠道和不同量级的数据转化至统一范围内。数值化处理用于将的文本信息转化为数值信息。one-hot处理用于将分类变量转化为二进制向量。异常值检测处理用于检测异常数据。离散化处理用于将已知预测结果数据映射至有限空间中。由于输入至算法模型的数据具有长度限制,对齐与截断处理用于截断超过长度限制的已知预测结果数据,或用于补齐未超过长度限制的已知预测结果数据。分词处理用于对已知预测结果数据进行分词处理,以提供对比词组。停用词处理用于滤除已知预测结果数据中低信息词语,保留高信息词汇。
S130,基于标注的已知预测结果数据,训练目标模型。
为便于理解,本申请的实施例中目标模型为语音识别模型。将标注的已知预测结果数据输入至目标模型,训练目标模型,以更新目标模型的参数。将训练后的目标模型上传至云端数据库,以更新车端的算法模型,使得车端的算法模型能够更准确识别数据。
S140,将未知数据转化为有效数据。
对用户语音进行识别时,用户语音对应的文本错误、自动语音识别(AutomaticSpeech Recognition,ASR)转换错误、误唤醒识别错误、噪音的自动语音识别转化错误等异常,都会导致产生未知数据。对未知数据进行纠错处理,将未知数据转化为有效数据,其中,有效数据为包括预测结果的数据。具体地,可利用算法模型将未知数据转化为有效数据,也可以根据未知数据的参数将未知数据转化为有效数据,在此不做赘述。
本申请的实施例中,将未知数据转化为有效数据,包括:
对未知数据进行数据纠错处理,并将纠错后的未知数据输入至预设多任务模型,得到有效数据。
将未知数据识别转化为有效数据之前,对未知数据进行数据纠错处理,纠正有效数据传输过程或存储过程中的错误数据,以提高预设多任务模型对未知数据的识别率。将纠错后的未知数据输入至预设多任务模型,得到有效数据。需要理解的是,预设多任务模型的网络结构是根据实际需求设置的,在此不做限定。为便于理解,本申请的实施例中多任务模型包括分类模型、词槽模型、相似度模型及字符纠错模型。具体地,分类模型用于分类未知数据的类别。词槽模型用于确定满足用户对话意图时的信息条件。相似度模型用于确定未知数据与其它数据的相似度。字符纠错模型用于纠正未知数据中多词、少词、叠词及音词混淆等字符错误。利用预设多任务模型对未知数据进行纠错,将未知数据转化为有效数据。对标注的已知预测结果数据进行数据预处理,将标注的已知预测结果数据的格式转换为预设格式,使得算法模型能够准确提取已知预测结果数据的特征。
本申请的实施例中,对有效数据进行标注,得到标注的有效数据之后,还包括:
获取标注的有效数据的审核信息;
基于审核信息更新标注的有效数据。
获取标注的有效数据之后,需对标注的有效数据进行审核。具体地,发送数据审核请求至审核终端设备,接收审核终端设备发送的标注的有效数据的审核信息。基于审核信息,确定标注的有效数据存在的多词、少词、叠词、音词混淆错误及标注错误,进而更新标注的有效数据,得到语句通顺的有效数据。需要理解的是,可以根据更新后的标注的有效数据,优化预设多任务模型,使得预设多任务模型能够更准确地将未知数据转化为有效数据。需要理解的是,可以对标注的有效数据进行人工审核,以控制审核终端设备生成审核信息,在此不做赘述。
本申请的实施例中,基于审核信息更新标注的有效数据之后,还包括:
将更新后的标注的有效数据上传至云端数据库。
将更新后的标注的有效数据上传至云端数据库,以对标注的有效数据进行统一存储管理。将数据存储至云端数据库,增强数据的存储安全性和可靠性。同时,通过不断增加云端数据库的数据量,使得车端的计算机设备能够通过云端数据库进行计算,降低了车端的计算机设备的计算负荷。
请参阅图2,图2示出了本申请实施例提供的云端数据库的应用示例图。
管理集群210获取多个自然语言理解引擎220的埋点数据,其中,管理集群210包括的通信设备是根据实际需求设置的,在此不做限定。为便于理解,本申请的实施例中管理集群210为Kubernetes,以将数据闭环过程容器化。同时,图中仅示出一个自然语言理解引擎220。管理集群210将埋点数据上传至云端数据库230,以统一存储管理多个自然语言理解引擎220的埋点数据。管理集群210间隔获取云端数据库230的目标数据,以通过目标数据训练目标模型,实现数据闭环。同时,将目标数据确定为未知数据与已知预测结果数据。将未知数据转化为有效数据,对有效数据进行标注和更新,并将更新后的标注的有效数据上传至云端数据库230。
S150,对有效数据进行标注,得到标注的有效数据。
未知数据转化为有效数据之后,车端的算法模型能够识别有效数据,并输出预测结果。对有效数据进行标注,得到标注的有效数据。
S160,基于标注的已知预测结果数据和标注的有效数据,增量训练目标模型。
将标注的已知预测结果数据和标注的有效数据一并输入至目标模型,增量训练目标模型,以更新目标模型的参数。将增量训练后的目标模型上传至云端数据库,以更新车端的算法模型,使得车端的算法模型能够更准确识别数据。将算法模型无法识别的未知数据转换为有效数据,不需要人工干预的情况下实现数据扩容。同时,基于标注的已知预测结果数据和标注的有效数据,增量训练算法模型,使得交互设备利用算法模型能够更准确识别出用户语音设备。
请参阅图3,图3示出了本申请实施例提供的预设标注模型的训练过程的流程图。图3中的预设标注模型的训练过程包括:
S310,将已知预测结果数据确定为高置信度数据和低置信度数据,并基于高置信度数据构建训练集。
将已知预测结果数据确定为高置信度数据和低置信度数据。利用高置信度数据进行低置信度数据的自训练,提高数据的标注准确率。具体地,基于高置信度数据构建样本集,其中,样本集包括训练集和测试集。
S320,基于训练集,训练预设半监督模型。
将训练集输入至预设半监督模型,训练预设半监督模型。训练后的预设半监督模型用于输出数据的标签预测结果。
S330,将低置信度数据输入至预设半监督模型,得到低置信度数据的伪标签数据。
将低置信度数据输入至训练后的预设半监督模型,利用预设半监督模型预测低置信度数据的类标签。将正确率高于预设阈值的类标签确定为低置信度数据的伪标签,并对低置信度数据添加标签,得到伪标签数据,其中,预设阈值是根据实际需求设置的,在此不做限定。
S340,基于训练集和伪标签数据,训练预设半监督模型,得到预设标注模型。
将训练集和伪标签数据输入至预设半监督模型,再次训练预设半监督模型,得到预设标注模型。将测试集输入至预设标注模型,利用预设标注模型输出测试集中的高置信度数据的类标签,进而测试预设标注模型。
本申请提供一种数据闭环方法,包括:将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;将已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;基于标注的已知预测结果数据,训练目标模型;将未知数据转化为有效数据;对有效数据进行标注,得到标注的有效数据;基于标注的已知预测结果数据和标注的有效数据,增量训练目标模型。将算法模型无法识别的未知数据转换为有效数据,不需要人工干预的情况下实现数据扩容。同时,基于标注的已知预测结果数据和标注的有效数据,增量训练算法模型,使得交互设备利用算法模型能够更准确识别出用户语音设备。
实施例2
请参阅图4,图4示出了本申请实施例提供的数据闭环装置的结构示意图。图4中的数据闭环装置400包括:
数据分类模块410,用于将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;
已知预测结果数据标注模块420,用于将已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;
模型训练模块430,用于基于标注的已知预测结果数据,训练目标模型;
数据转化模块440,用于将未知数据转化为有效数据,其中,有效数据为包括预测结果的数据;
有效数据标注模块450,用于对有效数据进行标注,得到标注的有效数据;
模型增量训练模块460,用于基于标注的已知预测结果数据和标注的有效数据,增量训练目标模型。
本申请的实施例中,数据转化模块440,包括:
对未知数据进行数据纠错处理,并将纠错后的未知数据输入至预设多任务模型,得到有效数据。
本申请的实施例中,数据闭环装置400,还包括:
获取标注的有效数据的审核信息;
基于审核信息更新标注的有效数据。
本申请的实施例中,数据闭环装置400,还包括:
将更新后的标注的有效数据上传至云端数据库。
本申请的实施例中,数据分类模块410,包括:
数据获取子模块,用于间隔获取目标数据;
数据确定子模块,用于基于目标数据中的结构化信息、文本信息及预测结果信息,将目标数据确定为未知数据和已知预测结果数据。
本申请的实施例中,数据闭环装置400,还包括:
对标注的已知预测结果数据进行数据预处理,将标注的已知预测结果数据的格式转换为预设格式。
本申请的实施例中,数据闭环装置400,还包括:
获取其他目标数据;
对目标数据与其他目标数据进行数据合并对齐处理,更新目标数据。
本申请的实施例中,预设标注模型的训练过程包括:
将已知预测结果数据确定为高置信度数据和低置信度数据,并基于高置信度数据构建训练集;
基于训练集,训练预设半监督模型;
将低置信度数据输入至预设半监督模型,得到低置信度数据的伪标签数据;
基于训练集和伪标签数据,训练预设半监督模型,得到预设标注模型。
数据闭环装置400,用于执行上述的数据闭环方法中的对应步骤,各个功能的具体实施,在此不再一一描述。此外,实施例1中可选示例也同样适用于实施例2的数据闭环装置400。
本申请实施例还提供一种计算机设备,计算机设备包括存储器及处理器,存储器存储有计算机程序,计算机程序在处理器执行时,实现如实施例1的数据闭环方法。
本实施例中的数据分类模块410、已知预测结果数据标注模块420、模型训练模块430、数据转化模块440、有效数据标注模块450及模型增量训练模块460等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中在实际语音交互场景下,交互设备利用算法模型无法准确识别出用户语音的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现如实施例1的数据闭环方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种数据闭环方法,其特征在于,所述方法包括:
将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;
将所述已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;
基于所述标注的已知预测结果数据,训练目标模型;
将所述未知数据转化为有效数据,其中,所述有效数据为包括预测结果的数据;
对所述有效数据进行标注,得到标注的有效数据;
基于所述标注的已知预测结果数据和所述标注的有效数据,增量训练所述目标模型。
2.根据权利要求1所述的数据闭环方法,其特征在于,所述将所述未知数据转化为有效数据,包括:
对所述未知数据进行数据纠错处理,并将纠错后的未知数据输入至预设多任务模型,得到有效数据。
3.根据权利要求1所述的数据闭环方法,其特征在于,所述对所述有效数据进行标注,得到标注的有效数据之后,还包括:
获取所述标注的有效数据的审核信息;
基于所述审核信息更新所述标注的有效数据。
4.根据权利要求3所述的数据闭环方法,其特征在于,所述基于所述审核信息更新所述标注的有效数据之后,还包括:
将更新后的所述标注的有效数据上传至云端数据库。
5.根据权利要求1所述的数据闭环方法,其特征在于,所述将获取到的目标数据进行分类,得到未知数据和已知预测结果数据,包括:
间隔获取目标数据;
基于所述目标数据中的结构化信息、文本信息及预测结果信息,将所述目标数据确定为未知数据和已知预测结果数据。
6.根据权利要求1所述的数据闭环方法,其特征在于,所述方法还包括:
对所述标注的已知预测结果数据进行数据预处理,将所述标注的已知预测结果数据的格式转换为预设格式。
7.根据权利要求1所述的数据闭环方法,其特征在于,所述方法还包括:
获取其他目标数据;
对所述目标数据与所述其他目标数据进行数据合并对齐处理,更新所述目标数据。
8.根据权利要求1所述的数据闭环方法,其特征在于,所述预设标注模型的训练过程包括:
将所述已知预测结果数据确定为高置信度数据和低置信度数据,并基于所述高置信度数据构建训练集;
基于所述训练集,训练所述预设半监督模型;
将所述低置信度数据输入至所述预设半监督模型,得到所述低置信度数据的伪标签数据;
基于所述训练集和所述伪标签数据,训练所述预设半监督模型,得到所述预设标注模型。
9.一种数据闭环装置,其特征在于,所述装置包括:
数据分类模块,用于将获取到的目标数据进行分类,得到未知数据和已知预测结果数据;
已知预测结果数据标注模块,用于将所述已知预测结果的数据输入至预设标注模型,得到标注的已知预测结果数据;
模型训练模块,用于基于所述标注的已知预测结果数据,训练目标模型;
数据转化模块,用于将所述未知数据转化为有效数据,其中,所述有效数据为包括预测结果的数据;
有效数据标注模块,用于对所述有效数据进行标注,得到标注的有效数据;
模型增量训练模块,用于基于所述标注的已知预测结果数据和所述标注的有效数据,增量训练所述目标模型。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如权利要求1至8中任一项所述的数据闭环方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的数据闭环方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310473254.4A CN116504230A (zh) | 2023-04-27 | 2023-04-27 | 数据闭环方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310473254.4A CN116504230A (zh) | 2023-04-27 | 2023-04-27 | 数据闭环方法、装置、计算机设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116504230A true CN116504230A (zh) | 2023-07-28 |
Family
ID=87319774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310473254.4A Pending CN116504230A (zh) | 2023-04-27 | 2023-04-27 | 数据闭环方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116504230A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665025A (zh) * | 2023-07-31 | 2023-08-29 | 福思(杭州)智能科技有限公司 | 数据闭环方法和系统 |
-
2023
- 2023-04-27 CN CN202310473254.4A patent/CN116504230A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665025A (zh) * | 2023-07-31 | 2023-08-29 | 福思(杭州)智能科技有限公司 | 数据闭环方法和系统 |
CN116665025B (zh) * | 2023-07-31 | 2023-11-14 | 福思(杭州)智能科技有限公司 | 数据闭环方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113837370B (zh) | 用于训练基于对比学习的模型的方法和装置 | |
CN111881973A (zh) | 一种样本选择方法、装置、存储介质及电子设备 | |
CN113221555B (zh) | 一种基于多任务模型的关键词识别方法、装置及设备 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN116504230A (zh) | 数据闭环方法、装置、计算机设备及计算机可读存储介质 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN109597982B (zh) | 摘要文本识别方法及装置 | |
CN112214966A (zh) | 基于深度神经网络的实体及关系联合抽取方法 | |
CN113553847A (zh) | 用于对地址文本进行解析的方法、装置、系统和存储介质 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN116628177B (zh) | 针对网络安全平台的交互数据处理方法及系统 | |
CN111274812B (zh) | 一种人物关系识别方法、设备及存储介质 | |
CN116204648A (zh) | 样本确定方法、装置、计算机设备及计算机可读存储介质 | |
CN116702765A (zh) | 一种事件抽取方法、装置及电子设备 | |
CN110852103A (zh) | 一种命名实体识别方法及装置 | |
CN116680368A (zh) | 一种基于贝叶斯分类器的水利知识问答方法、设备及介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN115629995A (zh) | 基于多依赖lstm的软件缺陷定位方法、系统及设备 | |
CN113033817B (zh) | 基于隐空间的ood检测方法、装置、服务器及存储介质 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN117523218A (zh) | 标签生成、图像分类模型的训练、图像分类方法及装置 | |
CN112256841B (zh) | 文本匹配和对抗文本识别方法、装置及设备 | |
CN110210518B (zh) | 提取降维特征的方法和装置 | |
CN111581270A (zh) | 一种数据抽取方法和装置 | |
CN112487811A (zh) | 基于强化学习的级联信息提取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |