CN113934833A - 训练数据的获取方法、装置、系统及存储介质 - Google Patents

训练数据的获取方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN113934833A
CN113934833A CN202111282914.8A CN202111282914A CN113934833A CN 113934833 A CN113934833 A CN 113934833A CN 202111282914 A CN202111282914 A CN 202111282914A CN 113934833 A CN113934833 A CN 113934833A
Authority
CN
China
Prior art keywords
statement
sentence
semantic representation
sentences
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111282914.8A
Other languages
English (en)
Inventor
张晗
杜新凯
吕超
谷姗姗
韩佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202111282914.8A priority Critical patent/CN113934833A/zh
Publication of CN113934833A publication Critical patent/CN113934833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请的一些实施例提供训练数据的获取方法、装置、系统及存储介质,该训练数据的获取方法包括:根据目标语义表征模型获取多个语句中各语句的语义表征向量;根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值;若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。本申请一些实施例可以构造出具有语义匹配层面的负样本数据,进而使得采用这些负样本数据训练得到的文本匹配模型具有较强的语义匹配能力。

Description

训练数据的获取方法、装置、系统及存储介质
技术领域
本申请涉及文本匹配技术领域,具体而言,本申请的实施例涉及训练数据的获取方法、装置、系统及存储介质。
背景技术
在对文本匹配模型进行训练时,需要对该模型的负样本进行构造,而构造的负样本的质量决定了被训练的文本匹配模型的匹配效果。
以下以文本匹配模型中的问句匹配模型为例来示例性说明目前在构造负样本数据时存在的问题。
问句匹配模型输入的是一对问句,输出的结果是该问句对是否相似。在常见的问答系统中根据用户输入的一个问句与知识库中的所有问句进行文本匹配计算得到与用户输入的问句的相似问句。相比于单个文本输入的模型如新闻分类模型,问句匹配模型在数据准备阶段需要构造正样本和负样本。本申请的发明人在研究中发现,由于相关技术在负样本的构造时只从字面或者词汇层面确认两个问句是否匹配,而并未核实两个问句在语义层面是否匹配,因此当后续使用这些负样本数据训练问句匹配模型训练得到的问句匹配模型也缺乏语句之间语义层面的匹配能力。
因此,如何提升负样本训练数据的质量成了亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供训练数据的获取方法、装置、系统及存储介质,通过本申请的实施例的技术方案可以构造语义层面的负样本数据集,进而使得待训练的文本匹配模型具有较强的语义匹配能力。
第一方面,本申请实施例提供了一种训练数据的获取方法,所述获取方法包括:根据目标语义表征模型获取多个语句中各语句的语义表征向量;根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句;若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。
本申请实施例通过将目标语义表征模型应用到负样本的数据获取中,由于采用语义表征模型得到的语义表征向量可以表达各语句语义层面的特征,因此使得基于这些向量得到的相似语句具有语义匹配层面属性,提升了负样本数据的质量,并最终提升了基于该负样本对语句匹配模型进行训练的训练结果。
在一些实施例,所述根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,包括:将所述多个语句中任一语句与剩余各语句分别组成一个语句对,得到多个语句对,其中,所述多个语句对中任一语句对包括所述任一语句和所述任一语句的参考语句;从存储单元读取所述多个语句对中任一语句对对应的两个语义表征向量,其中,所述存储单元用于存储所述多个语句中各语句的语义表征向量;根据所述两个语义表征向量和所述相似度算法,获取所述任一语句对的相似度值。
本申请实施例通过两两组成语句对的方式来读取成对的语义表征向量,进而根据成对的语义表征向量逐一计算各语句对的相似度值。通过组成多个语句对,便于从存储单元逐一读取一对语义表征向量并对两个语句的相似度进行计算,确认两个语句是否相似。
在一些实施例,所述根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,包括:将所述多个相似度值按照预设的规则进行排序,获取排序队列;根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似。
本申请实施例通过排序可以很快速的确认所述任一语句与任一参考语句的相似度的值在所有相似度值排序中的相对位置,进而使得筛选出的参考语句与待分析语句的相似概率更大,提升筛选出的负样本数据质量。
在一些实施例,所述将所述多个相似度值按照预设的规则进行排序,包括:将所述相似度值按照从大到小的顺序进行排序;所述根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之前的位置,则确认所述任一语句与所述参考语句相似。
本申请实施例通过将相似度值按照从大到小的顺序进行排序,获取相似度值靠前的语句对,确认所述任一语句与所述参考语句相似,便于快速的筛选出负样本数据。
在一些实施例,所述将所述多个相似度值按照预设的规则进行排序,包括:将所述相似度值按照从小到大的顺序进行排序;所述与根据所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之后的位置,则确认所述任一语句与所述参考语句相似。
本申请实施例通过将相似度值按照从小到大的顺序进行排序,获取相似度值靠后的语句对,确认所述任一语句与所述参考语句相似,便于快速获取负样本数据,与从大到小的排序方式相比提供了另一种可能的实现示例。
在一些实施例,在确认所述任一语句与所述任一参考语句不属于相同的语句簇之前,所述获取方法还包括:根据聚类算法获取各标准语句的所有相似语句,得到与所述各标准语句对应的语句簇;或者,根据聚类算法把所有语句聚类为多个语句簇。
本申请实施例通过采用聚类算法事先划分出与各标准语句对应的语句簇,即统计出每个语句的所有相似语句,或者将所有语句划分为多个簇,便于后续结合相似度值确认任一语句与参考语句是否为一组负样本数据,提升了获取方法的效率。
在一些实施例,所述相似度算法采用余弦相似度算法。
本申请实施例通过采用余弦相似度算法可以方便的计算语句对中的两个语句的相似度,提升整体方法的流程实现效率。
在一些实施例,在根据目标语义表征模型获取多个语句中各语句的语义表征向量之前,所述获取方法还包括:对获取的原始语句进行预处理,得到预处理后的数据,其中,所述预处理包括去除所述原始语句中的噪声和/或将所述原始语句中长度大于设定阈值的语句进行切分;将所述预处理后的数据划分为训练数据集和验证数据集;根据所述训练数据集中的数据对构建的初始语义表征模型进行训练,得到待验证语义表征模型;根据所述验证数据集确认所述待验证语义表征模型通过验证,则得到所述目标语义表征模型。
本申请实施例通过对语义表征模型进行训练以及验证,获取的目标语义表征模型。该目标语义表征模型可以得到各语句的表征向量,语义匹配的准确率较高,具有较强的语义匹配能力。
在一些实施例,所述相似度算法包括余弦相似度算法、杰卡德相似算法和皮尔逊相关算法中的任一种。
本申请实施例提供了多种相似度的计算算法,可选择性较广泛,还可以在不同的应用场景下选择不同的算法计算。
第二方面,本申请实施例提供了一种文本匹配模型的训练方法,该训练方法通过第一方面中的任意实施例的方法得到的负样本数据训练文本匹配模型。
本申请实施例提供利用上述第一方面的任意实施例的方法得到的负样本数据训练文本匹配模型的方法,使得训练后的文本匹配模型具有较强的语义匹配能力,准确率较高。
第三方面,本申请实施例提供了一种训练数据的获取装置,包括:获取模块,被配置为根据目标语义表征模型获取多个语句中各语句的语义表征向量;计算模块,被配置为根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句;数据采集模块,被配置为若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。
第四方面,本申请实施例提供了一种文本匹配模型的训练装置,所述装置包括一个或多个模块,所述一个或多个模块被配置为第一方面中的任意实施例的方法得到的负样本数据训练文本匹配模型。
第五方面,本申请实施例提供了一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行第一方面中的任意实施例的相应方法的操作。
第六方面,本申请实施例提供了一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行第一方面中的任意实施例的相应方法的操作。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种训练语义表征模型得到目标语义表征模型的方法流程图;
图2为本申请实施例提供的训练数据的获取方法流程图;
图3为本申请实施例提供的基于预训练语言模型BERT的训练方法流程图;
图4为本申请实施例提供的基于目标BERT模型获取问句匹配模型的训练数据的方法流程图;
图5为本申请实施例提供的训练数据的获取装置的组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术例中,问句匹配模型属于文本匹配模型的一种。问句匹配模型输入的是一对问句,输出的结果是该问句对是否相似。常见的应用场景是在问答系统(QuestionAnswering,简称QA)中根据用户输入的问句与系统知识数据库的问句进行文本匹配,通过计算得到相似问句进而得到对应的答案。由于问句匹配模型输入的样本是一对问句,相比于单文本输入的模型如新闻分类模型,其在数据准备阶段需要构造正负样本。而且在工业界发现,负样本的质量往往决定了模型效果的上限。在实际应用场景中,在训练问句匹配模型时,收集的标注数据集通常是标准问句与相似问句的形式。正样本的构造是在同一标准问句下,将两个相似问句组合。而负样本的构造通常分为是基于字面、词汇层面的匹配关系,通过随机采样方法得到的负样本。正如背景技术部分所描述的,这种负样本的构造方法只考虑了词汇层面的匹配问题,进而使得该数据训练的问句匹配模型缺乏语言知识和语义层面的匹配能力。
由上述相关技术可知,传统问句匹配模型的负样本数据的构造,往往只基于随机采样方法。这种方法构造的负样本过于简单,导致训练模型阶段出现过拟合现象。而也有采用一些简单无监督相似度算法的负样本构造方法,该类方法只考虑了字面或者词汇层面的匹配关系,缺乏语义层面的匹配能力。
鉴于此,本申请的实施例将语义表征模型应用到待训练的文本匹配模型的负样本数据的获取方法中,该方法达到了负样本数据增强的效果,降低了训练模型阶段出现过拟合现象的概率,而且获取的负样本数据更接近负样本,使得采用这些负样本数据后续训练的文本匹配模型也具有较强的语义匹配能力。
例如,在本申请的一些实施例中选择语言表征模型(Bidirectional EncoderRepresentations from Transformers,简称BERT)作为提取语句的语义表征向量的语义模型。可以理解的是,语言表征模型BERT属于预训练语言模型,预训练语言模型作为自然语言处理(Natural Language Processing)领域一个前沿方向,在文本分类、文本匹配、实体识别等各种自然语言处理任务的实际应用场景中被深度应用。谷歌在2019年发布开源的预训练的语言表征模型(Bidirectional Encoder Representations from Transformers,简称BERT)后,该领域的研究和应用愈发火热。预训练思想的本质是模型参数不再随机初始化,而是通过一些任务来进行参数训练。例如掩码语言模型(Masked Language Model)在大规模文本语料库上进行预训练,然后对特定任务的小数据集进行微调,这种处理方法已经成为目前训练自然语言模型的新范式,其优点在于降低特定自然语言处理任务模型的成本和训练难度,提升模型效果。
可以理解的是,本申请的一些实施例为了能够通过语义表征向量表征各语句,需要预先对该语义表征模型进行训练,得到目标语义表征模型,其中,该目标语义表征模型能够提取输入的各语句的语义特征,得到各语句的语义表征向量。
下面示例性介绍对语义表征模型进行训练得到目标语义表征模型的过程。
如图1所示,本申请的一些实施例提供了一种训练语义表征模型得到目标语义表征模型的方法,该方法包括:S210,对获取的原始语句进行预处理,得到预处理后的数据,其中,所述预处理包括去除所述原始语句中的噪声和/或将所述原始语句中长度大于设定阈值的语句进行切分。S220,将所述预处理后的数据划分为训练数据集和验证数据集。S230,根据所述训练数据集中的数据对构建的初始语义表征模型进行训练,得到待验证语义表征模型。S240,根据所述验证数据集确认所述待验证语义表征模型通过验证,则得到所述目标语义表征模型。
需要说明的是,在执行S210之前还需要预先收集原始语句。例如,在本申请的一些实施例中,收集业务QA系统标注或相关的语句,这些语句不限于标准问句、相似问句、推荐问句和标准答案等文本数据。
为了提升训练集和验证集中数据的质量,在本申请的一些实施例中,S210包括去除原始语句中的噪音(例如,这些噪音包括:特殊字符、空格、乱码的字符),具体地,可以利用构建的正则表达式清理原始语句中的噪音。
为了提升训练集和验证集中数据的质量,在本申请的一些实施例中,S210还包括对过长的语句进行截断处理,例如,对话文本长度过长的用python脚本将其截断。
可以理解的是,在本申请的一些实施例中也可以对收集的原始语句既进行去噪又进行截断处理。
为了提升得到的目标语义表征模型提取的语义特征的准确性,需要合理的划分训练集和验证集。例如,在本申请的一些实施例中可以使用python将预处理后的数据集按合适比例进行切分,得到训练集和验证集,其中,训练集用于对语义表征模型进行训练,验证集验证由训练集数据训练后得到的语义表征模型是否满足目标语义表征模型的要求。
在得到目标语义表征模型后,可以将训练好的目标语义表征模型对应的文件进行保存。
需要说明的是,本申请的一些实施例的语义表征模型包括:BERT模型、文本分类的卷积神经网络模型(即TextCNN模型)和Transformer模型中的任一种模型。
下面结合训练得到的目标语义表征模型示例性阐述本申请实施例提供的训练数据的获取方法的具体过程。
请参见图2,图2为本申请实施例提供的训练数据的获取方法流程图。
本申请实施例提供的训练数据的获取方法可以包括:S110,根据目标语义表征模型获取多个语句中各语句的语义表征向量。S120,根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句。S130,若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。
下面示例性阐述上述过程。
S110涉及的目标语义表征模型是通过上述图1的方式训练得到的,本申请的一些实施例也可以采用不同于图1的训练过程得到目标语义表征模型,图1的训练过程只作为一个具体示例。
可以理解的是,在执行S110之前还需要预先收集多个语句,例如,在本申请的一些实施例中,S110的多个语句是从相关业务问答系统中采集人工标注的标准问句以及与该标准问句对应的相似问句得到的数据集。
S110示例性包括:将多个语句中各语句分别输入目标语义表征模型,该目标语义表征模型会输出与各语句分别对应的语义表征向量,这是由于训练好的目标语义表征模型可以提取出输入语句的语义表征向量。
在本申请的一些实施例中S110还包括将目标语义表征模型采集的各语义表征向量进行存储,以便后续再根据相似度算法计算两两语句之间的相似度。
为了得到每一个语句与剩余各语句的相似度值的大小,需要计算该语句与剩余各语句之间的相似度,因此在本申请的一些实施例中,S120示例性包括:将S110得到的多个语句中任一语句与剩余各语句分别组成一个语句对,得到多个语句对,其中,所述多个语句对中任一语句对包括该任一语句和该任一语句的参考语句;从存储单元读取多个语句对中任一语句对对应的两个语义表征向量,其中,所述存储单元用于存储所述多个语句中各语句的语义表征向量;根据两个语义表征向量和相似度算法,获取该任一语句对的相似度值。
例如,S110得到10个语句,以这十条语句中的第一语句为例示例性阐述S120。在执行S120是将这十条语句中的第一语句与剩余九条语句分别组成一个语句对,得到九个语句对,之后再分别计算这九个语句对的相似度值,就得到了与第一语句对应得到所有相似度的值。
例如,在本申请的一些实施例中,将S110中获取的各语句的语义表征向量存储在存储单元。利用任一机器语言(即Python、Java等等)中的数据组合功能,将多个语句中任一语句与剩余各语句分别组成一个二元组合,即语句对,得到多个语句对。从存储单元中获取任一语句对对应的两个语义表征向量,利用相似度算法计算该语句对的相似度。
为了得到与任一语句组成负样本数据的参考语句,需要将与该任一语句的语义相似度较高且和参考语句不属于同一个语句簇的(即被聚类算法没有分到一个语句簇内或者被人工标注为不相似的语句)筛选出来,与该任一语句组成负样本数据。例如,在本申请的一些实施例中S130涉及的根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似的过程示例性包括:将得到的与该任一语句对应的所有相似度值按照预设的规则进行排序,获取排序队列;根据与参考语句对应的相似度值在所述排序队列中的位置,确认该任一语句与所述任一参考语句相似。
需要说明的是,语句簇是根据聚类算法获取各标准语句的所有相似语句,得到与所述各标准语句对应的语句簇;或者,根据聚类算法把所有语句聚类为多个语句簇。
例如,在本申请的一些实施例中,首先在业务系统内获取到设定的多个标准语句。然后利用聚类算法将系统中各标准语句的相似语句组成一个语句簇,进而得到各标准语句对应的语句簇。最后得到多个语句簇。其中,通过人工或者其他方式(例如,机器处理)获取标准问句,各标准问句可以表征对应簇的具体语义。
在本申请的另一些实施例中,首先在业务系统中采集多个语句,之后利用聚类算法将采集得到的所有语句划分为多个语句簇。
另外,聚类算法包括但不限于K均值聚类算法、均值漂移聚类算法、高斯混合模型的最大期望聚类算法和凝聚层次聚类算法。
为了通过相似度值确认与任一语句语义相似的参考语句,在本申请的一些实施例中,S120的相似度算法可以采用余弦相似度算法,则S130包括:将所述相似度值按照从大到小的顺序进行排序;若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之前的位置,则确认所述任一语句与所述参考语句相似。
需要说明的是,上述采用的相似度算法包括但不限于余弦相似度算法、杰卡德相似算法和皮尔逊相关算法。
在本申请的一些实施例中,任一语句的负样本数据是从与该任一语句不在同一个语句簇中的参考语句中筛选得到的。例如,任一语句为第一问句,S130包括:获取负样本数据设置值(例如,该值为5,即为该任一语句查找到5对负样本数据)。将S120获取的相似度值按照从大到小的顺序排列。从大到小遍历排序结果,若确认某一参考语句与该第一问句不属于相同的问句簇,并且与该参考语句对应的相似度值排序靠前,则该参考语句可以与第一问句组成一对负样本数据。重复该过程查找到与负样本数据设置值的数目相同个数的参考语句,即找到了第一问句的所有负样本数据。
可以理解的是,也可以对相似度值进行从小到大的排序,相应的将排序靠后的多个参考语句作为第一问句的相似语句,为避免重复在此不做过多赘述。
下面以BERT这个语义表征模型为例,并结合获取问句匹配模型的负样本数据的过程为例示例性阐述语义表征模型的训练过程和负样本数据获取过程。
参见附图3,图3示出了本申请一些实施例提供的基于预训练语言模型BERT的训练方法流程图,该训练方法包括:
S101,数据采集。
对业务QA系统的相关文本的原始数据进行采集,可以包括收集业务QA系统标注或相关的文本数据,这些文本数据包括但不限于标准问题、相似问题、推荐问题和标准答案等文本。
S102,数据预处理。
由于S101收集的原始数据有较多的噪声,比如无意义的特殊字符,空格,乱码的字符,因此S102可以利用正则表达式对这些噪声进行清理。
若S101采集得到的原始数据的对话文本长度超出设定阈值,则S102用具有切分功能的Python脚本将其截断。
S103,数据集的准备。
S103将S102处理后的原始数据按照设定的比例分为训练数据集和验证数据集,分别用于模型的训练和验证。
S104,训练模型。
利用S103得到的训练数据集对语言预训练模型BERT进行训练,得到待验证BERT模型。然后,利用验证数据集确认待验证BERT模型通过验证,则得到目标BERT模型。其中,目标BERT模型中保存有目标模型文件。
参见附图4,图4示出了本申请实施例提供的基于目标BERT模型获取问句匹配模型的训练数据的方法流程图,该获取训练数据的方法的流程具体包括:
S201,收集问句簇数据,该步骤示例性包括如下子步骤:
利用聚类算法获取标准问句的所有相似语句,并将与同一标准问句对应的相似问句标记为一个问句簇,多个标准问句则对应多个问句簇。
作为一个示例,QA系统为保险理赔系统,该系统中的标准问句包括:理赔到账时间,则利用K均值聚类算法得到该标准语句的相似语句包括:一般几个工作日可以到账。一般几天理赔成功。一般报案后多久理赔呢?一般理赔时间多久?为什么我的理赔还没下来?为何我的赔付还没到账?什么时候能理赔下来?已经申请理赔了,多久到账?等,执行S201之后会将该理赔到账时间和所有相似问句人工标注为一个问句簇。
作为另一个示例,可以根据聚类算法把所有语句聚类为多个语句簇。QA系统为保险理赔系统,该系统中的所有问句包括:理赔到账时间。一般几个工作日可以到账。一般几天理赔成功。一般报案后多久理赔呢?如何变更受益人。你好,我想变更受益人。修改受益人。变更保险受益人。你好,我的受益人可以变更吗?变更收益人咋个变更。等,执行S201之后聚类算法会将所有语句聚类为两个问句簇。一个问句簇是关于理赔到账时间的问题,另一个问句簇是关于受益人变更的问题。
S202,基于目标BERT模型(作为目标语义表征模型一个具体实例)获取问句表征向量。
对BERT模型采用图3的流程进行训练得到目标BERT模型,将各问句输入目标BERT模型,该模型会输出多个问句簇中各个问句的语义表征向量,并将所有语义表征向量存储在存储单元。例如,存储单元包括外部存储器或者磁盘等。
S203,计算问句对的余弦相似度。
将任一问句与剩余的问句分别进行组合(例如,利用具有组合功能的Python脚本实现组合),获取多个问句对(属于语句对的具体示例)。之后再从S202中的存储单元获取与各问句对对应的两个语义表征向量。最后根据两个语义表征向量和相似度算法,获取任一问句对的相似度值。
S204,排序抽取负样本,组成训练数据集的数据。
下面以第一问句和第二问句示例性阐述这个步骤。
将S203得到的与第一问句对应的所有相似度值按照从大到小的顺序进行排序,正序遍历排序结果,若确定第二问句与该问句组成的问句对的相似度值的排序靠前且确认该第二问句与第一问句不在同一个问句簇中,则确认该第一问句和第二问句组成负样本数据。当查找到的负样本的数目大于设置值时,即获取到的全部负样本数据。这些负样本数据可以为待训练的相似语句识别模型的训练数据。
可以理解的是,待训练的相似语句识别模型为文本匹配模型的一种。
另外,本申请实施例还提供了一种文本匹配模型的训练方法,该训练方法通过上述训练数据的获取方法获取的负样本数据来训练文本匹配模型。
与相关技术在负样本数据获取时仅考虑了语句之间的字符或词汇的相似性不同,本申请的实施例将目标语义表征模型提取的各语句的语义特征应用到文本匹配模型的训练数据的获取中,提升了模型的语义匹配能力。
请参考图5,图5示出了本申请实施例提供的训练数据的获取装置的组成框图。应理解,该训练数据的获取装置与上述图2方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该训练数据的获取装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图5的训练数据的获取装置包括至少一个能以软件或固件的形式存储于存储器中或固化在训练数据的获取装置中的软件功能模块,该获取装置包括:获取模块310、计算模块320以及数据采集模块330。
获取模块310被配置为根据目标语义表征模型获取多个语句中各语句的语义表征向量。计算模块320,被配置为根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句。数据采集模块330,被配置为若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。
在本申请的一些实施例中,计算模块320被配置为:将所述多个语句中任一语句与剩余各语句分别组成一个语句对,得到多个语句对,其中,所述多个语句对中任一语句对包括所述任一语句和所述任一语句的参考语句;从存储单元读取所述多个语句对中任一语句对对应的两个语义表征向量,其中,所述存储单元用于存储所述多个语句中各语句的语义表征向量;根据所述两个语义表征向量和所述相似度算法,获取所述任一语句对的相似度值。
在本申请的一些实施例中,数据采集模块330被配置为:将所述多个相似度值按照预设的规则进行排序,获取排序队列;根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似。
在本申请的一些实施例中,相似度算法采用余弦相似度算法,其中,数据采集模块330还可以被配置为:将所述相似度值按照从大到小的顺序进行排序;所述根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之前的位置,则确认所述任一语句与所述参考语句相似。
在本申请的一些实施例中,相似度算法采用余弦相似度算法,数据采集模块330还可以被配置为:将所述相似度值按照从小到大的顺序进行排序;所述与根据所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之后的位置,则确认所述任一语句与所述参考语句相似。
在本申请的一些实施例中,图5的训练数据的获取装置还可以包括训练模块(图中未示出),训练模块被配置为对获取的原始语句进行预处理,得到预处理后的数据,其中,所述预处理包括去除所述原始语句中的噪声和/或将所述原始语句中长度大于设定阈值的语句进行切分;将所述预处理后的数据划分为训练数据集和验证数据集;根据所述训练数据集中的数据对构建的初始语义表征模型进行训练,得到待验证语义表征模型;根据所述验证数据集确认所述待验证语义表征模型通过验证,则得到所述目标语义表征模型。
在本申请的一些实施例中,数据采集模块330还可以被配置为:根据聚类算法获取各标准语句的所有相似语句,得到与所述各标准语句对应的语句簇;或者,根据聚类算法把所有语句聚类为多个语句簇。
在本申请的一些实施例中,相似度算法包括余弦相似度算法、杰卡德相似算法和皮尔逊相关算法中的任一种。
本申请的一些实施例还提供了一种文本匹配模型的训练装置,所述装置包括一个或多个模块,所述一个或多个模块被配置为采用图2中任意实施例的方法得到的负样本数据训练文本匹配模型。
本申请的一些实施例还提供一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行图2中任意实施例的方法的操作。
本申请的一些实施例还提供一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行图2中任意实施例的方法的操作。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种训练数据的获取方法,其特征在于,所述获取方法包括:
根据目标语义表征模型获取多个语句中各语句的语义表征向量;
根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句;
若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。
2.根据权利要求1所述的获取方法,其特征在于,所述根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,包括:
将所述多个语句中任一语句与剩余各语句分别组成一个语句对,得到多个语句对,其中,所述多个语句对中任一语句对包括所述任一语句和所述任一语句的参考语句;
从存储单元读取所述多个语句对中任一语句对对应的两个语义表征向量,其中,所述存储单元用于存储所述多个语句中各语句的语义表征向量;
根据所述两个语义表征向量和所述相似度算法,获取所述任一语句对的相似度值。
3.根据权利要求1-2任一项所述的获取方法,其特征在于,所述根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,包括:
将所述多个相似度值按照预设的规则进行排序,获取排序队列;
根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似。
4.根据权利要求2所述的获取方法,其特征在于,所述将所述多个相似度值按照预设的规则进行排序,包括:
将所述相似度值按照从大到小的顺序进行排序;
所述根据与所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:
若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之前的位置,则确认所述任一语句与所述参考语句相似。
5.根据权利要求2所述的获取方法,其特征在于,所述将所述多个相似度值按照预设的规则进行排序,包括:
将所述相似度值按照从小到大的顺序进行排序;
所述与根据所述任一参考语句对应的相似度值在所述排序队列中的位置,确认所述任一语句与所述任一参考语句相似,包括:
若确认与所述任一参考语句对应的相似度值在所述排序队列中位于设置位置之后的位置,则确认所述任一语句与所述参考语句相似。
6.根据权利要求1所述的获取方法,其特征在于,在确认所述任一语句与所述任一参考语句不属于相同的语句簇之前,所述获取方法还包括:
根据聚类算法获取各标准语句的所有相似语句,得到与所述各标准语句对应的语句簇;或者,
根据聚类算法把所有语句聚类为多个语句簇。
7.根据权利要求1所述的获取方法,其特征在于,在根据目标语义表征模型获取多个语句中各语句的语义表征向量之前,所述获取方法还包括:
对获取的原始语句进行预处理,得到预处理后的数据,其中,所述预处理包括去除所述原始语句中的噪声和/或将所述原始语句中长度大于设定阈值的语句进行切分;
将所述预处理后的数据划分为训练数据集和验证数据集;
根据所述训练数据集中的数据对构建的初始语义表征模型进行训练,得到待验证语义表征模型;
根据所述验证数据集确认所述待验证语义表征模型通过验证,则得到所述目标语义表征模型。
8.一种训练数据的获取装置,其特征在于,包括:
获取模块,被配置为根据目标语义表征模型获取多个语句中各语句的语义表征向量;
计算模块,被配置为根据所述语义表征向量和相似度算法获取所述多个语句中任一语句与剩余各语句的相似度值,得到多个相似度值,其中,所述剩余各语句组成所述任一语句的参考语句;
数据采集模块,被配置为若根据所述多个相似度值的大小关系确认所述任一语句与任一参考语句相似,且确认所述任一语句与所述任一参考语句不属于相同的语句簇,则确认所述任一语句和所述参考语句组成一组负样本数据。
9.一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求1-7中任一项所述的相应方法的操作。
10.一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求1-7中任一项所述的相应方法的操作。
CN202111282914.8A 2021-11-01 2021-11-01 训练数据的获取方法、装置、系统及存储介质 Pending CN113934833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111282914.8A CN113934833A (zh) 2021-11-01 2021-11-01 训练数据的获取方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111282914.8A CN113934833A (zh) 2021-11-01 2021-11-01 训练数据的获取方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN113934833A true CN113934833A (zh) 2022-01-14

Family

ID=79285315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111282914.8A Pending CN113934833A (zh) 2021-11-01 2021-11-01 训练数据的获取方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113934833A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965018A (zh) * 2023-01-04 2023-04-14 北京百度网讯科技有限公司 信息生成模型的训练方法、信息生成方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965018A (zh) * 2023-01-04 2023-04-14 北京百度网讯科技有限公司 信息生成模型的训练方法、信息生成方法和装置
CN115965018B (zh) * 2023-01-04 2024-04-26 北京百度网讯科技有限公司 信息生成模型的训练方法、信息生成方法和装置

Similar Documents

Publication Publication Date Title
CN109522556B (zh) 一种意图识别方法及装置
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN106328147B (zh) 语音识别方法和装置
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN111428485A (zh) 司法文书段落分类方法、装置、计算机设备及存储介质
CN113780007A (zh) 语料筛选方法、意图识别模型优化方法、设备及存储介质
CN113821605A (zh) 一种事件抽取方法
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113990352A (zh) 用户情绪识别与预测方法、装置、设备及存储介质
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质
CN115687790B (zh) 基于大数据的广告推送方法、系统及云平台
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
CN111159360B (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置
CN114610576A (zh) 一种日志生成监控方法和装置
CN112632229A (zh) 文本聚类方法及装置
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN113239164B (zh) 多轮对话流程构建方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination