CN113408301A - 一种样本处理方法、装置、设备和介质 - Google Patents

一种样本处理方法、装置、设备和介质 Download PDF

Info

Publication number
CN113408301A
CN113408301A CN202110785709.7A CN202110785709A CN113408301A CN 113408301 A CN113408301 A CN 113408301A CN 202110785709 A CN202110785709 A CN 202110785709A CN 113408301 A CN113408301 A CN 113408301A
Authority
CN
China
Prior art keywords
sample
clustering
text
initial training
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110785709.7A
Other languages
English (en)
Inventor
张玉皓
李薛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110785709.7A priority Critical patent/CN113408301A/zh
Publication of CN113408301A publication Critical patent/CN113408301A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种样本处理方法、装置、设备和介质,其中,方法包括:获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。解决了现有技术中采集到的预设文本匹配模型的训练样本数据中负样本标签错误及重复率高,导致样本数据质量低的问题,实现了根据初始训练样本中查询文本相似度及样本时间戳进行样本去重,提升预设文本匹配模型的训练样本的质量。

Description

一种样本处理方法、装置、设备和介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种样本处理方法、装置、设备和介质。
背景技术
在知识问答系统中,会根据用户输入的查询文本内容,为用户提供与查询文本相关联的文本内容,如与关键字相关联的多篇文章,以供用户点击阅读。其中,知识问答系统给用户反馈的文章的排序,会直接影响用户对知识问答系统的使用体验。
知识问答系统是以用户输入查询文本后,是否点击查看系统反馈相关文章的行为分别作为知识问答系统模型训练的正样本和负样本的。
但是,在实现本发明的过程中,发现现有技术中至少存在以下技术问题:知识问答系统模型训练过程中,负样本的选取过于粗糙,在一些情况下,知识问答系统根据查询文本反馈的文章没有被点击的行为,并不是负样本,模型训练样本质量有待提升,学习结果依赖于样本数据质量的知识问答系统模型还需要进一步优化。
发明内容
本发明实施例提供了一种样本处理方法、装置、设备和介质,以实现提高模型训练样本的质量,使文本匹配模型得到更好地学习,训练得到的文本匹配模型输出结果准确度更高。
第一方面,本发明实施例提供了一种样本处理方法,该方法包括:
获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;
根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
第二方面,本发明实施例还提供了一种样本处理装置,该装置包括:
文本聚类模块,用于获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;
样本处理模块,用于根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的一种样本处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种样本处理方法。
上述发明中的实施例具有如下优点或有益效果:
本发明实施例,通过对预设文本匹配模型的初始训练样本中的查询文本,即输入至预设文本匹配模型中的关键字,进行聚类处理;然后,将聚类后的查询文本按照类别及对应的样本时间戳,进行样本的去重和修正,即将一定时间内产生的多个初始训练样本去重或修正样本对应的标签,最终得到样本数据质量更加的目标模型训练样本。解决了现有技术中采集到的预设文本匹配模型的训练样本数据中负样本标签错误及重复率高,导致样本数据质量低的问题,实现了根据初始训练样本中查询文本相似度及样本时间戳进行样本去重,提升预设文本匹配模型的训练样本的质量。
附图说明
图1是本发明实施例一提供的一种样本处理方法的流程图;
图2是本发明实施例一提供的一种文本查询记录数据图;
图3是本发明实施例一提供的一种文本查询的文本匹配结果展示图;
图4是本发明实施例二提供的一种样本处理方法流程图;
图5是本发明实施例二提供的一种查询文本聚类分析过程示意图;
图6是本发明实施例三提供的一种样本处理装置结构示意图;
图7是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种样本处理方法的流程图,本实施例可适用于构造优质的文本匹配模型/问答模型的训练样本的情况。该方法可以由样本处理装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图1所示,样本处理方法包括以下步骤:
S110、获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字。
其中,预设文本匹配模型可以是知识问答系统的问答模型,为查询的问题匹配答案;或者是文章匹配模型,为输入的关键字或关键词匹配相关的文本内容,相应的,查询文本作为输入至预设文本匹配模型中的关键字,可以是单个的字,也可以是多个字组成的词或短语,或者还可以是句子等不同长度的文本。通常,预设文本匹配模型输出的与查询文本匹配的结果是经过排序的,而输出结果的排序的准确度依赖于CTR(Click-Through-Rate)即点击通过率技术。在输出结果需要排序的文本匹配模型的驯良样本通常是以查询后点击或未点击文本的行文作为模型训练样本的。假设用户在知识问答系统等预设文本匹配模型中输入一个查询文本之后,问答系统反馈了20条相关文本,用户点击了其中的一条文本,那么最终可以采集得到20条样本,其中包含1条正样本,19条负样本,即将一次查询中点击查看反馈文本的行为为正样本,同一次文本查询中,查询到但是未点击文本的行为作为负样本。
但是,通过上述样本采集方式得到的负样本存在较大的噪声。例如,如图2所示的文本查询数据表所示,一条样本包含有时间、样本序号、查询文本、用户标识及点击文本标识等信息。一个用户在前后几秒钟时间内输入了4个不同的查询文本,查询文本对应的A、B、C、D及E等字母分别表示不同文字,该用户在前3次查询中均未点击任何文本,文本标识为nan(表示空),在第4次查询中,点击了标识为21508的文本内容,那么4条查询记录就会被作为3个负样本和1个正样本。但是,进一步的,参考图3中所展示的根据查询文本展示的文本匹配结果,4条查询记录中均展示了标识为21508的用户所感兴趣的文章,且均排在第一的位置,只不过因为一些原因,用户在前几次查询后没有点击查看文章。也就是说四次查询行为展示的文本列表不完全相同,但是排在第一位的文章是相同的用户却没有点击。这四次进行查询的查询文本是相似的,甚至可以考虑为一次查询,通过上述表格确定的负样本不一定是真正的负样本。之所以产生这种现象的原因可能是用户输入查询文本后虽然未点击任一个匹配到的文本,但是在文本列表展示的部分摘要内容中已经得到了想要的信息,而不再继续查看;或者是由于网络的卡顿,用户多次重复输入了不同但是相近的查询文本来查找对应的文本内容。
而在本实施例中,为了将低负样本中的噪声,首先对查询文本进行聚类处理,从而依据查询文本的相似性,从语义上对初始训练样本中的负样本进行修正和去重。
具体的,查询文本的聚类可以在常用的聚类方法如划分法、层次法、基于密度的方法、基于网格的方法或基于模型的方法中选择一个适于文本分类场景的算法即可。示例性的,可以采用划分法中的K-means聚类方法,在N各查询文本中,构造K个分组,最终得到K个聚类类别,其中,N和K均为自然数,且K小于。在聚类分析的过程中,可以随机或是按照预设的分类规则选取K个分组的聚类中心,进行聚类,得到聚类结果。
S120、根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
具体的,在对负样本进行去重和修正时,除了考虑查询文本在语义上的近似程度,还要考虑各初始训练样本的采集时间。只有在相近的时间内的多次查询,才有可能被考虑作为一次查询。针对聚类结果中属于同一类的查询文本,可以根据各查询文本对应初始训练样本的时间戳对各初始训练样本进行分组。即预先设定了一个时间窗口,在同一个时间窗口内的文本查询与匹配可以考虑作为一次查询。在实现的过程中,可以按照各查询文本对应的初始训练样本的时间戳的时间顺序对初始训练样本进行排序,假设时间窗口的长度是20秒,那么从排序在第一的初始训练样本开始,与该排序第一的初始训练样本的时间戳的差值在20秒之内的时间戳对应的初始训练文本即可分为一组,同一个样本不会被分到两个样本组中。
进一步的,当同一个分组中的初始训练样本同时包括正样本和负样本时,将该分组中负样本修正为正样本,并将修正后的各正样本去重为一条正样本;当同一个分组中的初始训练样本均为负样本时,将各负样本去重为一条负样本。仍然以图2中的4条查询记录样本为例,该4条样本可以分为一组,可以将这4条样本去重为1条正样本。通过该步骤的处理,提升了模型训练样本数据集的准确率,同时,也能够降低数据集冗余度,达到了优化模型训练样本质量的效果。
本实施例的技术方案,通过对预设文本匹配模型的初始训练样本中的查询文本,即输入至预设文本匹配模型中的关键字,进行聚类处理;然后,将聚类后的查询文本按照类别及对应的样本时间戳,进行样本的去重和修正,即将一定时间内产生的多个初始训练样本去重或修正样本对应的标签,最终得到样本数据质量更加的目标模型训练样本。解决了现有技术中采集到的预设文本匹配模型的训练样本数据中负样本标签错误及重复率高,导致样本数据质量低的问题,实现了根据初始训练样本中查询文本相似度及样本时间戳进行样本去重,提升预设文本匹配模型的训练样本的质量。
实施例二
图2为本发明实施例二提供的一种样本处理方法的流程图,本实施例与上述实施例中的样本处理方法属于同一个发明构思,进一步的描述了样本处理的文本聚类的过程。该方法可以由样本处理装置执行,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图2所示,样本处理方法包括以下步骤:
S210、获取预设文本匹配模型的初始训练样本,并将所述初始训练样本中查询文本转换为文本向量。
在该步骤中,主要是对初始训练样本进行数据的预处理,将查询文本转换为文本向量,可以使计算机直接有效的理解文本的含义。具体的,可以通过word2vec工具实现文本向量的转换,即图5中将原始文本向量化表示为文本向量的过程。
S220、基于遗传算法在所述文本向量中选取预设数量文本向量作为聚类中心,进行文本向量聚类处理,当聚类效果满足预设条件时,完成所述聚类处理。
在进行查询文本也即对应文本向量的聚类分析时,聚类中心的选取是否合理,会影响聚类算法中代价函数收敛情况,相较于随机选定一定数量的聚类中心进行聚类分析,还是希望能够找到能够使分类结果更加准确,聚类效果更优的聚类中心,完成最终的聚类分析。
因此,在本实施例中,通过遗传算法的种群迭代,确定多组不同的聚类中心,进行多次聚类过程,已确定最佳的聚类中心及最优的聚类效果。具体的,可以参考图5所示的文本向量的聚类过程:
首先,从经过向量化表示的文本向量中,随机选取k个向量作为遗传算法第一代的初始种群点,以及聚类算法“k-means算法”中的初始聚类中心。
在遗传算法中,可以预先设定迭代的次数,随机选取的k个向量即为第一代的初始种群,该初始种群经过种群变异、种群交叉、计算代价函数及轮盘赌选择过程得到新的种群,当新的种群使遗传算法模型的代价函数值不再降低时,得到最优的种群,进而可以基于最优的种群确定下一代的初始种群点。
在聚类算法“k-means算法”中,则以随机选取的k个向量作为第一次聚类的初始聚类中心,进而再以遗传算法中,每一代的初始种群点作为再一次聚类的初始聚类中心,进行多次聚类分析过程。在每一次的聚类分析过程中,计算非聚类中心的文本向量分别到各个初始聚类中心的文本向量的距离,并将各非聚类中心的文本向量归类于距离最小的初始聚类中心;然后,重新计算分类后各簇的中心点,当中心点不再变化时,完成一次聚类过程。每次聚类分析过程的最后,还要统计该聚类结果中,簇内各文本向量至对应的聚类中心的距离之和,以及各簇的聚类中心的距离之和,用以作为聚类代价,判断聚类的效果。因为,好的聚类模型要求簇内间距小,簇间间距大。查询文本经过文本向量化表示后,较适合用欧氏距离来衡量聚类效果。每一次聚类分析后的聚类代价结果,也会影响到遗传算法中的代价函数的数值,在一种可能的实施方式中,遗传算法中的代价函数与k-means聚类过程中的聚类代价函数是相同的,均采用簇内与簇间的向量的欧式距离值作为评判的数值标准。
随着遗传算法中的多次迭代,也会进行相应次数的k-means聚类分析过程。从而,也会得到多个代价函数的计算结果,当聚类算法中的代价函数与遗传算法中代价函数同时满足收敛条件时,则可以结束聚类操作以及所述遗传算法的迭代过程,确定最终的聚类结果。其中,代价函数满足收敛条件,可以是聚类结果中,簇内距离已经达到最小值,或者综合考虑,簇内距离以及簇间距离,数值达到一个最优的结果时,认为代价函数已经收敛。
在本实施例中,基于遗传算法,考虑到代际之间的影响,迭代选择不同的初始种群点(即初始聚类中心),优化聚类效果,可以使各文本向量在语义上实现更优的分类效果,进一步提升模型训练样本的质量。
S230、根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
本实施例的技术方案,通过对预设文本匹配模型的初始训练样本中的查询文本,即输入至预设文本匹配模型中的关键字,基于遗传算法进行聚类处理;然后,将聚类后的查询文本按照类别及对应的样本时间戳,进行样本的去重和修正,即将一定时间内产生的多个初始训练样本去重或修正样本对应的标签,最终得到样本数据质量更加的目标模型训练样本。解决了现有技术中采集到的预设文本匹配模型的训练样本数据中负样本标签错误及重复率高,导致样本数据质量低的问题,实现了根据初始训练样本中查询文本相似度及样本时间戳进行样本去重,提升预设文本匹配模型的训练样本的质量。
进一步的,在对预设文本匹配模型的训练样本进行处理之后,还可以利用优化后的样本进行模型训练,使模型得到更好的学习,从而得到目标文本匹配模型。在使用目标文本匹配模型时,可以将获取到的文本匹配关键字,作为查询文本输入到目标文本匹配模型中,得到目标文本匹配结果。
在一个具体的实例中,利用知识问答系统进行测试,经验证,在30S时间窗口长度下,采用样本处理方法优化模型训练样本之后,文本匹配有效性从从81%提升到85%。提升了客服的查询体验。以下是本发明实施例提供的样本处理装置的实施例,该装置与上述各实施例的样本处理方法属于同一个发明构思,可实现上述各实施例的样本处理方法。在样本处理装置的实施例中未详尽描述的细节内容,可以参考上述样本处理方法的实施例。
实施例三
图6为本发明实施例三提供的样本处理装置的结构示意图,本实施例可适用于构造优质的文本匹配模型/问答模型的训练样本的情况,该装置可以由软件和/或硬件的方式来实现,集成于具有应用开发功能的计算机设备中。
如图6所示,样本处理装置包括:文本聚类模块310和样本处理模块320。
文本聚类模块310,用于获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;样本处理模块320,用于根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
本实施例的技术方案,通过对预设文本匹配模型的初始训练样本中的查询文本,即输入至预设文本匹配模型中的关键字,进行聚类处理;然后,将聚类后的查询文本按照类别及对应的样本时间戳,进行样本的去重和修正,即将一定时间内产生的多个初始训练样本去重或修正样本对应的标签,最终得到样本数据质量更加的目标模型训练样本。解决了现有技术中采集到的预设文本匹配模型的训练样本数据中负样本标签错误及重复率高,导致样本数据质量低的问题,实现了根据初始训练样本中查询文本相似度及样本时间戳进行样本去重,提升预设文本匹配模型的训练样本的质量。
可选的,文本聚类模块310具体包括:
向量转换子模块,用于将所述查询文本转换为文本向量;
文本聚类子模块,用于基于遗传算法在所述文本向量中选取预设数量文本向量作为聚类中心,进行文本向量聚类处理;当聚类效果满足预设条件时,完成所述聚类处理。
可选的,所述文本聚类子模块具体用于:
随机选取预设数量文本向量作为遗传算法第一代的初始种群点和第一次聚类中的聚类中心点,进行遗传计算和聚类分析;
将遗传算法中历次迭代的初始种群点作为历次聚类分析的聚类中心点。
可选的,所述文本聚类子模块还用于:
当聚类算法中的代价函数与遗传算法中代价函数同时满足收敛条件时,结束聚类操作以及所述遗传算法的迭代过程。
可选的,所述样本处理模块320具体用于:
针对聚类结果中属于同一类的文本向量,根据各文本向量对应初始训练样本的时间戳对各初始训练样本进行分组;
当同一个分组中的初始训练样本同时包括正样本和负样本时,将该分组中负样本修正为正样本,并将修正后的各正样本去重为一条正样本;
当同一个分组中的初始训练样本均为负样本时,将各负样本去重为一条负样本。
可选的,所述样本处理模块320还用于:
按照各文本向量对应初始训练样本的时间戳的时间顺序对初始训练样本进行排序;
将排序后的初始训练样本中,属于同一个预设长度时间窗口内的初始训练样本作为一组样本。
可选的,样本处理装置还包括:
模型训练模块,用于通过所述目标模型训练样本,对所述预设文本匹配模型进行模型训练,得到目标文本匹配模型。
可选的,样本处理装置还包括:
文本匹配模块,用于获取文本匹配关键字;将所述文本匹配关键字输入所述目标文本匹配模型中,得到目标文本匹配结果。
本发明实施例所提供的样本处理装置可执行本发明任意实施例所提供的样本处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
图7为本发明实施例四提供的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。计算机设备12可以任意具有计算能力的终端设备,如智能控制器及服务器、手机等终端设备。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的样本处理方法,该方法包括:
获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;
根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
实施例五
本实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的样本处理方法,包括:
获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;
根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种样本处理方法,其特征在于,所述方法包括:
获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;
根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
2.根据权利要求1所述的方法,其特征在于,所述对所述初始训练样本中所有的查询文本进行聚类处理,包括:
将所述查询文本转换为文本向量;
基于遗传算法在所述文本向量中选取预设数量文本向量作为聚类中心,进行文本向量聚类处理;
当聚类效果满足预设条件时,完成所述聚类处理。
3.根据权利要求2所述的方法,其特征在于,所述基于遗传算法在所述文本向量中选取预设数量文本向量作为聚类中心,进行文本向量聚类处理,包括:
随机选取预设数量文本向量作为遗传算法第一代的初始种群点和第一次聚类中的聚类中心点,进行遗传计算和聚类分析;
将遗传算法中历次迭代的初始种群点作为历次聚类分析的聚类中心点。
4.根据权利要求3所述的方法,其特征在于,所述当聚类效果满足预设条件时,完成所述聚类处理,包括:
当聚类算法中的代价函数与遗传算法中代价函数同时满足收敛条件时,结束聚类操作以及所述遗传算法的迭代过程。
5.根据权利要求1所述的方法,其特征在于,所述根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,包括:
针对聚类结果中属于同一类的文本向量,根据各文本向量对应初始训练样本的时间戳对各初始训练样本进行分组;
当同一个分组中的初始训练样本同时包括正样本和负样本时,将该分组中负样本修正为正样本,并将修正后的各正样本去重为一条正样本;
当同一个分组中的初始训练样本均为负样本时,将各负样本去重为一条负样本。
6.根据权利要求5所述的方法,其特征在于,所述根据各文本向量对应初始训练样本的时间戳对各初始训练样本进行分组,包括:
按照各文本向量对应初始训练样本的时间戳的时间顺序对初始训练样本进行排序;
将排序后的初始训练样本中,属于同一个预设长度时间窗口内的初始训练样本作为一组样本。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述目标模型训练样本,对所述预设文本匹配模型进行模型训练,得到目标文本匹配模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取文本匹配关键字;
将所述文本匹配关键字输入所述目标文本匹配模型中,得到目标文本匹配结果。
9.一种样本处理装置,其特征在于,所述装置包括:
文本聚类模块,用于获取预设文本匹配模型的初始训练样本,并对所述初始训练样本中的查询文本进行聚类处理,其中,所述查询文本为输入至所述预设文本匹配模型中的关键字;
样本处理模块,用于根据聚类处理的结果及各初始训练样本的时间戳,对所述初始训练样本中负样本进行去重和修正,得到目标模型训练样本。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的样本处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的样本处理。
CN202110785709.7A 2021-07-12 2021-07-12 一种样本处理方法、装置、设备和介质 Pending CN113408301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110785709.7A CN113408301A (zh) 2021-07-12 2021-07-12 一种样本处理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110785709.7A CN113408301A (zh) 2021-07-12 2021-07-12 一种样本处理方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113408301A true CN113408301A (zh) 2021-09-17

Family

ID=77686037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110785709.7A Pending CN113408301A (zh) 2021-07-12 2021-07-12 一种样本处理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113408301A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610484A (zh) * 2023-07-19 2023-08-18 苏州浪潮智能科技有限公司 一种模型训练方法、故障预测方法、系统、设备以及介质
CN116662327A (zh) * 2023-07-28 2023-08-29 南京芯颖科技有限公司 一种用于数据库的数据融合清理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610484A (zh) * 2023-07-19 2023-08-18 苏州浪潮智能科技有限公司 一种模型训练方法、故障预测方法、系统、设备以及介质
CN116610484B (zh) * 2023-07-19 2023-11-03 苏州浪潮智能科技有限公司 一种模型训练方法、故障预测方法、系统、设备以及介质
CN116662327A (zh) * 2023-07-28 2023-08-29 南京芯颖科技有限公司 一种用于数据库的数据融合清理方法
CN116662327B (zh) * 2023-07-28 2023-09-29 南京芯颖科技有限公司 一种用于数据库的数据融合清理方法

Similar Documents

Publication Publication Date Title
CN104834651B (zh) 一种提供高频问题回答的方法和装置
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN108027814B (zh) 停用词识别方法与装置
CN113408301A (zh) 一种样本处理方法、装置、设备和介质
CN112667805A (zh) 一种工单类别确定方法、装置、设备及介质
CN110222192A (zh) 语料库建立方法及装置
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN112035626A (zh) 一种大规模意图的快速识别方法、装置和电子设备
CN111209469A (zh) 一种个性化推荐方法、装置、计算机设备及存储介质
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN112434134A (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112215007A (zh) 基于leam模型的机构命名实体归一化方法和系统
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
CN111597400A (zh) 基于寻路算法的计算机检索系统及方法
CN109241281B (zh) 软件失效原因生成方法、装置及设备
CN114742062B (zh) 文本关键词提取处理方法及系统
CN107622048B (zh) 一种文本模式识别方法及系统
CN112215006B (zh) 机构命名实体归一化方法和系统
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN111382265B (zh) 搜索方法、装置、设备和介质
CN112989050A (zh) 一种表格分类方法、装置、设备及存储介质
CN111949765A (zh) 基于语义的相似文本搜索方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination