CN114116967A - 数据的清洗方法、装置、电子设备及计算机可读介质 - Google Patents
数据的清洗方法、装置、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN114116967A CN114116967A CN202111326649.9A CN202111326649A CN114116967A CN 114116967 A CN114116967 A CN 114116967A CN 202111326649 A CN202111326649 A CN 202111326649A CN 114116967 A CN114116967 A CN 114116967A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- data
- language representation
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种数据的清洗方法、装置、电子设备及计算机可读介质,属于数据处理技术领域。该方法包括:获取知识库中的待处理节点下的子问题以及预先训练的语言表征模型,并通过所述语言表征模型得到各个所述子问题对应的特征向量;根据所述待处理节点下的所有子问题对应的特征向量构建所述待处理节点对应的向量检索库;确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度;将所述相似度大于或等于相似度阈值的子问题重新放入所述知识库,并将所述相似度小于所述相似度阈值的子问题从所述知识库中清除。本公开通过使用语言表征模型建立节点的向量检索库并对子问题进行清洗,可以确保同一节点下子问题高度相似。
Description
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种数据的清洗方法、数据的清洗装置、电子设备及计算机可读介质。
背景技术
在智能客服机器人建设中,知识库建设是一项极其重要的步骤。然而在构建知识库的过程中,由于知识管理员水平不一致,新增的知识库问题质量参差不齐,必然会出现知识库问题繁冗,同一节点下子问题区别较大等问题,最终导致客服机器人回答不够准确。
在目前的知识库建设中,知识库中的问题主要是依靠知识管理人员凭经验进行清洗,耗时耗力。
鉴于此,本领域亟需一种数据的清洗方法,能够快速自动化地对知识库问题进行清洗,从而提高智能客服机器人的回答准确率。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据的清洗方法、数据的清洗装置、电子设备及计算机可读介质,进而至少在一定程度上能够快速自动化地对知识库问题进行清洗,从而提高智能客服机器人的回答准确率。
根据本公开的第一个方面,提供一种数据的清洗方法,包括:
获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过所述语言表征模型得到各个所述子问题对应的特征向量;
根据所述待处理节点下的所有子问题对应的特征向量构建所述待处理节点对应的向量检索库;
确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度;
将所述相似度大于或等于相似度阈值的子问题重新放入所述知识库,并将所述相似度小于所述相似度阈值的子问题从所述知识库中清除。
在本公开的一种示例性实施例中,所述语言表征模型的训练方法包括:
获取训练语料和原始语言表征模型,其中,所述训练语料中包括知识库数据、客服问答数据以及指定领域的新闻数据;
通过所述训练语料对所述原始语言表征模型进行字词级别的预训练,得到语言表征预训练模型;
获取指定领域的监督学习任务数据,并通过所述监督学习任务数据对所述语言表征预训练模型进行任务级别的预训练,得到所述语言表征模型。
在本公开的一种示例性实施例中,所述通过所述训练语料对所述原始语言表征模型进行预训练,得到语言表征预训练模型,包括:
使用全词掩码的方式通过所述训练语料对所述原始语言表征模型进行预训练,得到语言表征预训练模型。
在本公开的一种示例性实施例中,所述通过所述监督学习任务数据对所述语言表征预训练模型进行任务级别的预训练,得到所述语言表征模型,包括:
从所述监督学习任务数据中提取所述指定领域的专有词组,并通过所述指定领域的专有词组采用全词掩码的方式对所述语言表征预训练模型进行任务级别的预训练,得到所述语言表征模型;
其中,所述任务级别的预训练的训练时间与所述训练语料的字符总数相匹配。
在本公开的一种示例性实施例中,所述方法还包括:
根据第一预设精度和第二预设精度对所述语言表征模型进行混合精度训练。
在本公开的一种示例性实施例中,所述确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度,包括:
通过所述向量检索库对所述待处理节点下的子问题对应的特征向量进行检索排序,得到所述子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度。
在本公开的一种示例性实施例中,所述通过所述语言表征模型得到各个所述子问题对应的特征向量,包括:
通过所述语言表征模型中的语句编码服务,将各个所述子问题映射成预设长度的特征向量。
根据本公开的第二方面,提供一种数据的清洗装置,包括:
特征向量确定模块,用于获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过所述语言表征模型得到各个所述子问题对应的特征向量;
检索库构建模块,用于根据所述待处理节点下的所有子问题对应的特征向量构建所述待处理节点对应的向量检索库;
相似度确定模块,用于确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度;
子问题清洗模块,用于将所述相似度大于或等于相似度阈值的子问题重新放入所述知识库,并将所述相似度小于所述相似度阈值的子问题从所述知识库中清除。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据的清洗方法。
根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的数据的清洗方法。
本公开示例性实施例可以具有以下有益效果:
本公开示例实施方式的数据的清洗方法中,通过预先训练的语言表征模型得到待处理节点下的各个子问题对应的特征向量,并建立待处理节点对应的向量检索库,然后基于向量的检索方式,通过计算子问题与向量检索库中的特征向量的相似度,根据相似度阈值进行同一节点下的子问题清洗。本公开示例实施方式中的数据的清洗方法,一方面,可以对知识库中的子问题进行快速准确的清洗,确保不同节点下的子问题高度可区分,同一节点下的子问题高度相似,从而提升知识库问题的质量,提高智能客服机器人的回答准确率,提升客户使用感受;另一方面,基于语言表征模型,不仅能够使得句子的表达能力更加丰富,还可以在知识库维护阶段快速自动化地对知识库子问题进行清洗,从而减少知识库维护的人力成本,并且能够方便地进行场景迁移,进而快速、精准地覆盖各个渠道,实现产品体系化、智能化效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开示例实施方式的数据的清洗方法的流程示意图;
图2示出了本公开示例实施方式的语言表征模型的训练方法的流程示意图;
图3示意性示出了根据本公开的一个具体实施方式的保险领域的语言表征模型的预训练架构图;
图4示出了根据本公开的一个具体实施方式中数据的清洗方法的流程示意图;
图5示出了本公开示例实施方式的数据的清洗装置的框图;
图6示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式首先提供了一种数据的清洗方法。参考图1所示,上述数据的清洗方法可以包括以下步骤:
步骤S110.获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过语言表征模型得到各个子问题对应的特征向量。
步骤S120.根据待处理节点下的所有子问题对应的特征向量构建待处理节点对应的向量检索库。
步骤S130.确定待处理节点下的子问题对应的特征向量与向量检索库中的特征向量之间的相似度。
步骤S140.将相似度大于或等于相似度阈值的子问题重新放入知识库,并将相似度小于相似度阈值的子问题从知识库中清除。
本公开示例实施方式的数据的清洗方法中,通过预先训练的语言表征模型得到待处理节点下的各个子问题对应的特征向量,并建立待处理节点对应的向量检索库,然后基于向量的检索方式,通过计算子问题与向量检索库中的特征向量的相似度,根据相似度阈值进行同一节点下的子问题清洗。本公开示例实施方式中的数据的清洗方法,一方面,可以对知识库中的子问题进行快速准确的清洗,确保不同节点下的子问题高度可区分,同一节点下的子问题高度相似,从而提升知识库问题的质量,提高智能客服机器人的回答准确率,提升客户使用感受;另一方面,基于语言表征模型,不仅能够使得句子的表达能力更加丰富,还可以在知识库维护阶段快速自动化地对知识库子问题进行清洗,从而减少知识库维护的人力成本,并且能够方便地进行场景迁移,进而快速、精准地覆盖各个渠道,实现产品体系化、智能化效果。
下面,结合图2至图4对本示例实施方式的上述步骤进行更加详细的说明。
在步骤S110中,获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过语言表征模型得到各个子问题对应的特征向量。
本示例实施方式中,知识库中的节点可以用于对知识库中包含所有问题进行分类,同一个节点中包含一个类型的子问题。服务器在获取知识库中某一节点下的子问题时,可以先获取节点对应的标识,然后通过节点标识获取该节点下同一类型的所有子问题。
语言表征模型可以用于获取子问题语句中的语义向量,该模型输出的特征向量,可以全面、准确地输入语句的整体语义信息。语言表征模型可以使用BERT(BidirectionalEncoder Representations from Transformers,基于变换器的双向编码器表征)模型,其模型架构基于Transformer(变换器),实现了多层双向的Transformer编码器。
具体的,当语言表征模型应用于保险领域时,可以基于保险领域语料预训练得到保险领域专属的InsuranceBert模型。InsuranceBert模型在网络结构上采用与BERT模型相同的架构,包含了InsuranceBert-Base和InsuranceBert-Large两个版本,其中,InsuranceBert-Base采用了12层Transformer结构,InsuranceBert-Large采用了24层Transformer结构。考虑到在实际使用中的便利性和普遍性,本示例实施方式中使用的InsuranceBert模型是InsuranceBert-Base版本。
本示例实施方式中,可以通过语言表征模型中的语句编码服务,将各个子问题映射成预设长度的特征向量。具体的,可以采用Bert-as-service服务构建基于InsuranceBert的句向量作为子问题的特征向量。其中,Bert-as-service服务用BERT作为句子编码器,可以将句子映射成固定长度的向量表示。举例而言,将子问题语句输入InsuranceBert模型之后,可以输出一个多维的特征向量,例如3×512的多维矩阵。
本示例实施方式中,在获取知识库中的待处理节点下的所有子问题之后,由于原始子问题可能存在空字符、错别字等,因此还需要对其进行文本处理。具体采用的数据清洗可以包括:unicode(统一码)字符、空字符、错别字纠正等。
在步骤S120中,根据待处理节点下的所有子问题对应的特征向量构建待处理节点对应的向量检索库。
本示例实施方式中,可以根据同一待处理节点下的所有子问题对应的特征向量,构建该节点对应的向量检索库,用于对节点下的所有子问题进行清洗。举例而言,可以使用ElasticSearch(搜索服务器)根据构建的特征向量创建向量检索库,并定期更新检索库。
在步骤S130中,确定待处理节点下的子问题对应的特征向量与向量检索库中的特征向量之间的相似度。
本示例实施方式中,可以通过向量检索库对待处理节点下的子问题对应的特征向量进行检索排序,得到子问题对应的特征向量与向量检索库中的特征向量之间的相似度。其中,向量检索技术就是在一个给定向量数据集中,按照某种度量方式,检索出与查询向量相近的多个向量。使用向量检索技术可以减少候选向量集,降低单个向量计算的复杂度,从而提高数据清洗的效率。
在步骤S140中,将相似度大于或等于相似度阈值的子问题重新放入知识库,并将相似度小于相似度阈值的子问题从知识库中清除。
本示例实施方式中,可以根据相似度阈值判断当前待清洗子问题与检索库中其他子问题的相似度,进而获得待清洗子问题候选集。通过对候选子问题进行审核,将审核通过的子问题重新放入知识库,从而不断迭代更新清洗知识库中各个节点下的子问题。
本示例实施方式中,如图2所示,上述语言表征模型的训练方法具体可以包括以下几个步骤:
步骤S210.获取训练语料和原始语言表征模型。
其中,训练语料中可以包括知识库数据、客服问答数据以及指定领域的新闻数据。
举例而言,基于保险领域的InsuranceBert模型,主要可以包含三大类保险领域的语料,分别如下:
(1)知识库数据:包含知识库全量问题、答案数据,其中问题数据24w+,答案数据889w+,同时还包含产品条款数据2w+。
(2)QA问答数据:涉及微保、官网等多渠道客服系统聊天会话数据共1980w+,其中还包含已公开保险领域QA问答数据1.6w+。
(3)保险领域新闻数据:从各个网站渠道收集的保险类新闻、知识点数据,其中新闻类数据约200w+,保险知识点数据8w+。
对于上述各类语料进行筛选、预处理之后得到最终用于模型训练的语料,共包含45亿Tokens(字符数量),远大于原始中文BERT模型的训练规模,从而提升模型的训练效果。
本示例实施方式中,通过整合保险领域的大量数据,可以使训练数据更加贴近实际业务场景,然后自主训练基于保险领域的预训练InsuranceBert模型。
本示例实施方式中,语言表征模型可以采用两大类预训练任务,分别是字词级别的预训练和任务级别的预训练。两类预训练任务的细节详述如下。
步骤S220.通过训练语料对原始语言表征模型进行字词级别的预训练,得到语言表征预训练模型。
本示例实施方式中,可以使用全词掩码的方式通过训练语料对原始语言表征模型进行预训练,得到语言表征预训练模型。
原始中文BERT模型在中的预训练任务可以包括MLM(Mask Language Model,掩码语言模型)任务,即词预测任务,以及NSP(Next Sentence Prediction,下一句预测)任务。本示例实施方式中字词级别的预训练,去除了原生BERT模型中的NSP任务,只保留MLM任务,并且采用全词Mask(掩码)方式,即WWM(Whole Word Masking,全词掩码),保险领域为IWWM(Insurance Whole Word Mask),通过训练语料对原始语言表征模型进行预训练,得到语言表征预训练模型。其中预训练最大句子长度为512。
原始中文BERT模型在分词的时候使用的是WordPiece算法,而基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。在全词掩码的方式中,如果一个完整的词的部分WordPiece子词被Mask,则同属该词的其他部分也会被Mask,即全词Mask。
原始中文BERT模型中,输入是以字为粒度进行切分,既没有考虑到传统NLP中的中文分词(CWS),也没有考虑到领域内共现单词或词组之间的关系,从而无法学习到领域内隐含的先验知识,降低了模型的学习效果。因此,本示例实施方式中将全词Mask的方法应用在保险领域语料的预训练中,即对组成的同一个词的汉字全部进行Mask。通过使用基于目前各系统会话数据、专业保险术语等构建出保险领域内约有2万词语的词典,然后抽取预训练语料和保险词典中共现的单词或词组进行全词Mask预训练,从而使模型学习到领域内的先验知识,如保险学概念、保险概念之间的相关性等,从而增强模型的学习效果。
通过字词级别的预训练得到训练好的语言表征预训练模型之后,可以通过任务级别的预训练进行语义层的测试和调优。
步骤S230.获取指定领域的监督学习任务数据,并通过监督学习任务数据对语言表征预训练模型进行任务级别的预训练,得到语言表征模型。
本示例实施方式中,为了让模型更好地学习到指定领域的语义层知识,更全面地学习到指定领域的词句的特征分布,可以引入监督学习任务数据,以保险领域为例,可以包括以下四类有监督学习任务相关数据,分别是:客服语义匹配数据、客服会话场景分类数据、客服核保会话实体识别任务数据、外呼意图识别数据。在领域数据预训练基础上,再进行任务级别的预训练。
具体的,可以从监督学习任务数据中提取指定领域的专有词组,并通过指定领域的专有词组采用全词掩码的方式对语言表征预训练模型进行任务级别的预训练,得到语言表征模型;其中,任务级别的预训练的训练时间与训练语料的字符总数相匹配。
为了取得更好的模型学习效果,可以延长模型第二阶段预训练的训练时间至与第一阶段的tokens总量一致。同时,为了更充分地利用预训练语料,可以采用类似Roberta模型(改进版Bert模型)的动态掩盖mask机制,将dupe-factor参数设置为10。其中,dupe-factor参数是训练过程中的一个参数,可以提高泛化性。
本示例实施方式中,还可以根据第一预设精度和第二预设精度对语言表征模型进行混合精度训练。
一般深度学习模型训练过程采用单精度(Float 32)和双精度(Double)数据类型,导致预训练模型对于机器显存具有很高的要求。为了进一步减少显存开销、加快模型预训练和推理速度,可以采用FP32和FP16混合的训练方式。使用混合精度训练可以加速训练过程同时减少显存开销,兼顾FP32的稳定性和FP16的速度。在保证模型准确率不下降的情况下,降低模型的显存占用约一半,提高模型的训练速度约3倍。
本示例实施方式中,为了对比基线效果,可以从实际业务中抽象出四类典型的保险领域典型数据集,包括句子级和篇章级任务,将InsuranceBert模型与目前现有的原始中文BERT模型、BERT-wwm-ext模型和RoBERTa-wwm-ext模型这三类在中文领域应用广泛的模型进行下游任务的对比测试在实验中,为了保持测试的公平性,对于四个模型均直接使用了BERT-wwm-ext的最佳学习率:2e-5,而没有进一步优化最佳学习率。所有实验结果均为五次实验测试结果的平均值,评价指标为F1-score(F1分数)。具体实验结果如下:
实验一:保险领域语义匹配任务
(1)实验任务
此任务来自于在线智能客服机器人系统中智能语义匹配模块,对客户的会话内容进行精确解读匹配,从而快速回答用户问题。
(2)实验数据
该任务的数据集共包含16w+条样本,其中训练集数据约12w+条,验证集数据包含3w条,测试集数据约1w+条,各类别分布情况如下:
(3)实验结果
TASK/MODEL | Google-BERT | BERT-wwm-ext | RoBERTa-wwm-ext | InsuranceBERT |
语义匹配 | 90.1% | 92.59% | 95.45% | 96.72% |
实验二:保险领域场景分类任务
(1)实验任务
此任务来自于在线智能知识库系统相关模块,对用户会话数据按照文本内容进行场景类型分类,打上标签,从而方便用户更及时、更精准地触达感兴趣的内容。
(2)实验数据
该任务的数据集共包含25w条样本,共包含有80+类别。其中训练集数据约20w条,验证集数据约3w+条,测试集数据约2w+条,各类别分布情况如下:
(3)实验结果
TASK/MODEL | Google-BERT | BERT-wwm-ext | RoBERTa-wwm-ext | InsuranceBERT |
场景分类 | 80.35% | 82.08% | 84.52% | 86.62% |
实验三:保险领域意图识别任务
(1)实验任务
此任务来自于在线智能核保机器人相关模块,对用户会话内容进行意图识别,判断是否为核保相关问题,从而快速进行核保相关任务。
(2)实验数据
该任务的数据集共包含5.6k条样本,其中训练集数据约4.5k条,测试集数据约2.1k条,各类别分布情况如下:
(3)实验结果
TASK/MODEL | Google-BERT | BERT-wwm-ext | RoBERTa-wwm-ext | InsuranceBERT |
意图识别 | 86.25% | 88.9% | 89.80% | 90.52% |
实验四:保险领域实体识别任务
(1)实验任务
此任务来自于在线智能核保机器人相关模块,其核心任务是对进入核保流程的用户会话内容中出现的实体(疾病),进行实体识别和提取。
(2)实验数据
该任务的数据集共包含5.6k条样本,包含700多个疾病。其中训练集数据约4.5k条,测试集数据约2.1k条。
(3)实验结果
在本示例实施方式的基线测试中,以保险场景中所遇到的四类实际业务问题和数据入手进行对比实验,包括智能客服语义匹配任务、客服会话场景分类任务、核保客服意图识别任务和核保客服会话实体识别任务,通过对比InsuranceBert模型和Google原生中文BERT模型、BERT-wwm-ext模型和RoBERTa-wwm-ext模型这三种通用领域的预训练模型,可以看出,本示例实施方式中的InsuranceBert模型的效果有提升显著,在F1-score上平均可以提升1.5个百分点。
如图3所示是根据本公开的一个具体实施方式的保险领域的语言表征模型InsuranceBert的预训练架构图。通过将保险领域的字符向量(Token Embedding)、句子向量(Sentence Embedding)和位置向量(Position Embedding)输入Transformer Encoder(编码器),然后进行字词级别的预训练和任务级别的预训练,得到保险领域的InsuranceBert预训练模型。
如图4所示是本公开的一个具体实施方式中数据的清洗方法的完整流程图,是对本示例实施方式中的上述步骤的举例说明,其中,步骤S410为模型训练阶段,步骤S420至步骤S460为模型应用阶段。该流程图的具体步骤如下:
步骤S410.预训练InsuranceBert模型。
基于保险领域语料预训练InsuarnceBert模型。
步骤S420.构建特征向量。
基于InsuranceBert预训练模型,结合上述实验一的保险领域语义匹配任务获得的Fine-tune(微调)模型,然后启动Bert-as-service服务构建特征向量。
步骤S430.构建检索库。
根据步骤S420中构建的特征向量使用ElasticSearch创建向量检索库,并定期更新检索库,其中,知识库中的子问题可以不定期更新。
步骤S440.文本处理。
原始子问题可能存在空字符、错别字等,采用的数据清洗包括:unicode字符、空字符、错别字纠正等。
步骤S450.检索排序。
使用步骤S430创建的检索库对知识库中同一节点下的子问题进行向量化检索排序,得到子问题相似度,然后根据阈值(可根据需要配置阈值)判断当前待清洗子问题的相似度,进而获得待清洗子问题候选集。
步骤S460.审核入库。
对子问题候选集中待清洗的子问题进行审核,审核通过的子问题入库,从而不断迭代更新清洗知识库中的子问题。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本公开还提供了一种数据的清洗装置。参考图5所示,该数据的清洗装置可以包括特征向量确定模块510、检索库构建模块520、相似度确定模块530以及子问题清洗模块540。其中:
特征向量确定模块510可以用于获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过语言表征模型得到各个子问题对应的特征向量;
检索库构建模块520可以用于根据待处理节点下的所有子问题对应的特征向量构建待处理节点对应的向量检索库;
相似度确定模块530可以用于确定待处理节点下的子问题对应的特征向量与向量检索库中的特征向量之间的相似度;
子问题清洗模块540可以用于将相似度大于或等于相似度阈值的子问题重新放入知识库,并将相似度小于相似度阈值的子问题从知识库中清除。
在本公开的一些示例性实施例中,本公开提供的一种数据的清洗装置还可以包括语言模型训练模块,该语言模型训练模块可以包括训练语料获取单元、字词预训练单元以及任务预训练单元。其中:
训练语料获取单元可以用于获取训练语料和原始语言表征模型,其中,训练语料中包括知识库数据、客服问答数据以及指定领域的新闻数据;
字词预训练单元可以用于通过训练语料对原始语言表征模型进行字词级别的预训练,得到语言表征预训练模型;
任务预训练单元可以用于获取指定领域的监督学习任务数据,并通过监督学习任务数据对语言表征预训练模型进行任务级别的预训练,得到语言表征模型。
在本公开的一些示例性实施例中,字词预训练单元可以包括预训练模型确定单元,可以用于使用全词掩码的方式通过训练语料对原始语言表征模型进行预训练,得到语言表征预训练模型。
在本公开的一些示例性实施例中,任务预训练单元可以包括监督任务训练单元,可以用于从监督学习任务数据中提取指定领域的专有词组,并通过指定领域的专有词组采用全词掩码的方式对语言表征预训练模型进行任务级别的预训练,得到语言表征模型;
其中,任务级别的预训练的训练时间与训练语料的字符总数相匹配。
在本公开的一些示例性实施例中,语言模型训练模块还可以包括混合精度训练单元,可以用于根据第一预设精度和第二预设精度对语言表征模型进行混合精度训练。
在本公开的一些示例性实施例中,相似度确定模块530可以包括向量检索排序单元,可以用于通过向量检索库对待处理节点下的子问题对应的特征向量进行检索排序,得到子问题对应的特征向量与向量检索库中的特征向量之间的相似度。
在本公开的一些示例性实施例中,特征向量确定模块510可以包括语句编码单元,可以用于通过语言表征模型中的语句编码服务,将各个子问题映射成预设长度的特征向量。
上述数据的清洗装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明,此处不再赘述。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种数据的清洗方法,其特征在于,包括:
获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过所述语言表征模型得到各个所述子问题对应的特征向量;
根据所述待处理节点下的所有子问题对应的特征向量构建所述待处理节点对应的向量检索库;
确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度;
将所述相似度大于或等于相似度阈值的子问题重新放入所述知识库,并将所述相似度小于所述相似度阈值的子问题从所述知识库中清除。
2.根据权利要求1所述的数据的清洗方法,其特征在于,所述语言表征模型的训练方法包括:
获取训练语料和原始语言表征模型,其中,所述训练语料中包括知识库数据、客服问答数据以及指定领域的新闻数据;
通过所述训练语料对所述原始语言表征模型进行字词级别的预训练,得到语言表征预训练模型;
获取指定领域的监督学习任务数据,并通过所述监督学习任务数据对所述语言表征预训练模型进行任务级别的预训练,得到所述语言表征模型。
3.根据权利要求2所述的数据的清洗方法,其特征在于,所述通过所述训练语料对所述原始语言表征模型进行预训练,得到语言表征预训练模型,包括:
使用全词掩码的方式通过所述训练语料对所述原始语言表征模型进行预训练,得到语言表征预训练模型。
4.根据权利要求2所述的数据的清洗方法,其特征在于,所述通过所述监督学习任务数据对所述语言表征预训练模型进行任务级别的预训练,得到所述语言表征模型,包括:
从所述监督学习任务数据中提取所述指定领域的专有词组,并通过所述指定领域的专有词组采用全词掩码的方式对所述语言表征预训练模型进行任务级别的预训练,得到所述语言表征模型;
其中,所述任务级别的预训练的训练时间与所述训练语料的字符总数相匹配。
5.根据权利要求2所述的数据的清洗方法,其特征在于,所述方法还包括:
根据第一预设精度和第二预设精度对所述语言表征模型进行混合精度训练。
6.根据权利要求1所述的数据的清洗方法,其特征在于,所述确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度,包括:
通过所述向量检索库对所述待处理节点下的子问题对应的特征向量进行检索排序,得到所述子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度。
7.根据权利要求1所述的数据的清洗方法,其特征在于,所述通过所述语言表征模型得到各个所述子问题对应的特征向量,包括:
通过所述语言表征模型中的语句编码服务,将各个所述子问题映射成预设长度的特征向量。
8.一种数据的清洗装置,其特征在于,包括:
特征向量确定模块,用于获取知识库中的待处理节点下的所有子问题以及预先训练的语言表征模型,并通过所述语言表征模型得到各个所述子问题对应的特征向量;
检索库构建模块,用于根据所述待处理节点下的所有子问题对应的特征向量构建所述待处理节点对应的向量检索库;
相似度确定模块,用于确定所述待处理节点下的子问题对应的特征向量与所述向量检索库中的特征向量之间的相似度;
子问题清洗模块,用于将所述相似度大于或等于相似度阈值的子问题重新放入所述知识库,并将所述相似度小于所述相似度阈值的子问题从所述知识库中清除。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述处理器执行时,使得所述处理器实现如权利要求1至7中任一项所述的数据的清洗方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的数据的清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111326649.9A CN114116967A (zh) | 2021-11-10 | 2021-11-10 | 数据的清洗方法、装置、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111326649.9A CN114116967A (zh) | 2021-11-10 | 2021-11-10 | 数据的清洗方法、装置、电子设备及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114116967A true CN114116967A (zh) | 2022-03-01 |
Family
ID=80378081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111326649.9A Pending CN114116967A (zh) | 2021-11-10 | 2021-11-10 | 数据的清洗方法、装置、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114116967A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545041A (zh) * | 2022-11-25 | 2022-12-30 | 神州医疗科技股份有限公司 | 一种增强医疗语句语义向量表示的模型构造方法及系统 |
-
2021
- 2021-11-10 CN CN202111326649.9A patent/CN114116967A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545041A (zh) * | 2022-11-25 | 2022-12-30 | 神州医疗科技股份有限公司 | 一种增强医疗语句语义向量表示的模型构造方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
Rashid et al. | A survey paper: areas, techniques and challenges of opinion mining | |
Fouad et al. | ArWordVec: efficient word embedding models for Arabic tweets | |
KR20190133931A (ko) | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
CN115757695A (zh) | 一种日志语言模型训练方法及系统 | |
Chandola et al. | Online resume parsing system using text analytics | |
CN114722198A (zh) | 产品分类编码确定方法、系统及相关装置 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN114116967A (zh) | 数据的清洗方法、装置、电子设备及计算机可读介质 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
Gurin | Methods for Automatic Sentiment Detection | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN115080741A (zh) | 一种问卷调查分析方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |