CN113268564B - 相似问题的生成方法、装置、设备及存储介质 - Google Patents
相似问题的生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113268564B CN113268564B CN202110567582.1A CN202110567582A CN113268564B CN 113268564 B CN113268564 B CN 113268564B CN 202110567582 A CN202110567582 A CN 202110567582A CN 113268564 B CN113268564 B CN 113268564B
- Authority
- CN
- China
- Prior art keywords
- target
- text
- untrained
- character
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种相似问题的生成方法、装置、设备及存储介质,其中方法包括:将目标标准问题文本输入目标相似问题生成模型进行相似问题生成得到待分析的相似问题集合;根据目标标准问题文本进行未训练过字符查找得到未训练过字符集合;采用滑窗扫描方法根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写得到待优化的相似问题集合;根据目标标准问题文本对待优化的相似问题集合进行优化处理得到目标相似问题集合。实现了自动化进行相似问题的生成,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,优化处理有利于提高确定的相似问题的准确性。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种相似问题的生成方法、装置、设备及存储介质。
背景技术
在现阶段的问答机器人应用中,智能客服是一个重要的版块。智能客服在应用过程中,不仅需要回答大量的常用的问题,还需要回答少量的不常见和/或定制化的问题,才能够最大程度的覆盖客户的需求,增加智能客服的使用率和减少转人工服务的比例。基于上述需求,问答机器人的智能客服需要有对大量的常用问题的回答能力,同时也需要对特定并有时效性的问题有回答并且实时跟进更新的能力。传统智能客服使用的问答匹配系统大多数为基于全文检索系统与深度语义匹配的端到端构架,端到端构架的好处是模型的构造与训练比较简单直接,参数量大的模型在大量数据集中表现较好,缺点是采用分类模型每一次推理的时间消耗较大和黑盒模型的可解释性不强。与此同时,不断有新增知识更新迭代进知识库,新的标准问题在刚入知识库时所对应的相似问题数量极少,导致覆盖面窄,从而使基于此类数据集训练得到的问答匹配系统在新增知识的覆盖度上会有一定劣势。为了扩充现有知识库中新增知识的相似问题以使其在确保相似问题多样性的同时达到要求相似问题的数量规模,采用人工扩写相似问题的方法,从而增加了人工成本,而且因受人常规思维的限制,导致不容易将相似问题写得全面,影响了模型的训练效果。
发明内容
本申请的主要目的为提供一种相似问题的生成方法、装置、设备及存储介质,旨在解决现有技术采用人工扩写相似问题的方法,因受人常规思维的限制,导致不容易将相似问题写得全面的技术问题。
为了实现上述发明目的,本申请提出一种相似问题的生成方法,所述方法包括:
获取目标标准问题文本;
将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
本申请还提出了一种相似问题的生成装置,所述装置包括:
文本获取模块,用于获取目标标准问题文本;
待分析的相似问题集合确定模块,用于将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
未训练过字符集合确定模块,用于根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
待优化的相似问题集合确定模块,用于采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
目标相似问题集合确定模块,用于根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的相似问题的生成方法、装置、设备及存储介质,通过首先将目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合,从而实现了自动化进行相似问题的生成,避免受人常规思维的限制,导致不容易将相似问题写得全面的技术问题;而且根据目标标准问题文本进行未训练过字符查找,得到未训练过字符集合,采用滑窗扫描方法,根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合,最后根据目标标准问题文本对待优化的相似问题集合进行优化处理,得到目标相似问题集合,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,通过优化处理有利于提高确定的相似问题的准确性。
附图说明
图1为本申请一实施例的相似问题的生成方法的流程示意图;
图2为本申请一实施例的相似问题的生成装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术中的现有技术采用人工扩写相似问题的方法,因受人常规思维的限制,导致不容易将相似问题写得全面的技术问题,本申请提出了一种相似问题的生成方法,所述方法应用于人工智能技术领域。所述相似问题的生成方法,通过对目标标准问题文本采用目标相似问题生成模型进行相似问题生成,然后采用滑窗扫描方法对目标相似问题生成模型生成的相似问题进行未训练过字符填写,最后对未训练过字符填写后的所有相似问题进行优化处理,将优化处理处理后的相似问题作为目标相似问题集合,从而实现了自动化进行相似问题的生成,避免受人常规思维的限制,导致不容易将相似问题写得全面的技术问题,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,通过优化处理有利于提高确定的相似问题的准确性。
参照图1,本申请实施例中提供一种相似问题的生成方法,所述方法包括:
S1:获取目标标准问题文本;
S2:将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
S3:根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
S4:采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
S5:根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
本实施例通过首先将目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合,从而实现了自动化进行相似问题的生成,避免受人常规思维的限制,导致不容易将相似问题写得全面的技术问题;而且根据目标标准问题文本进行未训练过字符查找,得到未训练过字符集合,采用滑窗扫描方法,根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合,最后根据目标标准问题文本对待优化的相似问题集合进行优化处理,得到目标相似问题集合,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,通过优化处理有利于提高确定的相似问题的准确性。
对于S1,可以从数据库中获取目标标准问题文本,也可以获取用户输入的目标标准问题文本,还可以从第三方应用系统获取目标标准问题文本。
目标标准问题文本,也就是需要生成相似问题的标准问题的文本数据。
对于S2,将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,将生成的每个相似问题作为一个待分析的相似问题,将所有待分析的相似问题作为待分析的相似问题集合。
目标相似问题生成模型,是基于GPT2预训练模型训练得到的模型。GPT2预训练模型,是一个在海量数据集上基于Transformer训练的巨大模型,用于根据已有句子的一部分来预测下一个字符会是什么。
对于S3,可以从数据库中获取字符编码字典,也可以获取用户输入的字符编码字典,还可以从第三方应用系统获取字符编码字典;分别将所述目标标准问题文本中每个字符在所述字符编码字典中进行查找,得到编码查找结果;当存在所述编码查找结果为失败时,将所述编码查找结果为失败的每个字符作为一个未训练过字符;将所有未训练过字符作为未训练过字符集合。
字符编码字典中的所有字符是在训练初始模式得到目标相似问题生成模型的过程中使用过的字符。字符编码字典包括:字符、编码,每个字符对应一个编码,编码具有唯一性。
未训练过字符,是指在训练初始模式得到目标相似问题生成模型的过程中未使用过的字符。
可以理解的是,未训练过字符是指生僻字。比如,目标标准问题文本为“髌骨可以投保吗”,此时髌为生僻字,在此举例不做具体限定。
对于S4,采用滑窗扫描方法,针对所述未训练过字符集合中每个未训练过字符,根据所述目标标准问题文本分别在所述待分析的相似问题集合中每个待分析的相似问题进行滑窗,在每个位置观测滑窗里面相对位置相同的字符个数,相对位置相同的字符个数最多的位置为未训练过字符的插入位置。
比如,所述目标标准问题文本为“髌骨可以投保吗”,待分析的相似问题为“我摔碎了[UNK]骨,可以买保险吗”,待分析的相似问题中的“[UNK]”是未训练过字符标识字符,滑窗在待分析的相似问题中滑到了“了[UNK]骨”时,滑窗中与“髌骨”相对位置相同的字符个数最多,所以未训练过字符“髌”在待分析的相似问题“我摔碎了[UNK]骨,可以买保险吗”中可以替换“了[UNK]骨”中的未训练过字符标识字符[UNK],从而得到待优化的相似问题为“我摔碎了髌骨,可以买保险吗”,在此举例不做具体限定。
对于S5,因为所述待优化的相似问题集合中的相似问题数量还是比较多,为了在相似问题的准确性和多样性之间权衡,以使最终得到的目标相似问题集合不要过于泛化,采用编辑距离算法根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,将优化处理后的所述待优化的相似问题集合作为目标相似问题集合。从而有利于提高确定的相似问题的准确性。
目标相似问题集合,也就是目标标准问题文本对应的最终的相似问题的集合。
在一个实施例中,上述将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合的步骤之前,还包括:
S21:获取多个第一训练样本,所述多个第一训练样本中的每个第一训练样本包括:条款样本文本;
S22:采用所述多个第一训练样本对初始模型进行训练,将训练结束的所述初始模型作为条款训练后的模型,其中,所述初始模型是基于GPT2预训练模型得到的模型;
S23:获取多个第二训练样本,所述多个第二训练样本中的每个第二训练样本包括:标准问题样本文本、相似问题标定值集合;
S24:采用所述多个第二训练样本对所述条款训练后的模型进行训练,将训练结束的所述条款训练后的模型作为所述目标相似问题生成模型。
本实施例实现了先采用多个第一训练样本对初始模型进行训练,训练结束得到条款训练后的模型,然后采用第二训练样本对条款训练后的模型进行训练,训练结束得到目标相似问题生成模型,因第一训练样本包括条款样本文本,从而条款训练后的模型对法律、法规、合同具有预测下一个字符的能力,因第二训练样本包括:标准问题样本文本、相似问题标定值集合,从而使目标相似问题生成模型在对法律、法规、合同具有预测下一个字符的能力的基础上,对问题具有预测下一个字符的能力,使目标相似问题生成模型在进行相似问题生成时符合法律、法规、合同的用语,提高了目标相似问题生成模型生成相似问题的准确性,从而提高了最终确定的目标相似问题集合的准确性。
对于S21,可以从数据库中获取多个第一训练样本,也可以获取用户输入的多个第一训练样本,还可以从第三方应用系统获取多个第一训练样本。
条款样本文本,是法律、法规、合同中任一种的一条条款的文本数据。可以根据目标相似问题生成模型的应用场景确定。比如,目标相似问题生成模型应用于保险行业时,条款样本文本可以是保险合同中的一条条款的文本内容,条款样本文本也可以是保险相关的法律中的一条条款的文本内容,条款样本文本还可以是保险相关的法规中的一条条款的文本内容,在此举例不做具体限定。
对于S22,采用随机掩码方法,根据所述多个第一训练样本对初始模型进行训练,也就是将所述条款样本文本输入所述初始模型进行下一个字符预测,将下一个字符预测得到的数据作为一个条款预测值,根据条款预测值对初始模型进行训练,将训练结束的所述初始模型作为条款训练后的模型。
下一个字符预测,也就是采用所述条款样本文本中的条款样本文本的n-1个字符预测第n个字符。
对于S23,可以从数据库中获取多个第二训练样本,也可以获取用户输入的多个第二训练样本,还可以从第三方应用系统获取多个第二训练样本。
每个第二训练样本包括一个标准问题样本文本和一个相似问题标定值集合。
在同一个第二训练样本中,相似问题标定值集合中的相似问题标定值是对标准问题样本文本的相似问题的标定的结果。
相似问题标定值集合中包括一个或多个相似问题标定值。
对于S24,采用随机掩码方法,将标准问题样本文本输入所述条款训练后的模型进行下一个字符预测,获取所述条款训练后的模型的分类概率预测层输出的下一个字符分类概率预测值,采用所述条款训练后的模型的采样层根据所述下一个字符分类概率预测值进行相似问题生成,根据生成的所有相似问题和相似问题标定值集合对所述条款训练后的模型进行训练,将训练结束的所述条款训练后的模型作为所述目标相似问题生成模型。
所述条款训练后的模型的采样层,采用吉布斯采样方法。
在一个实施例中,上述采用所述多个第一训练样本对初始模型进行训练,将训练结束的所述初始模型作为条款训练后的模型的步骤,包括:
S221:从所述多个第一训练样本中获取一个所述第一训练样本作为目标第一训练样本;
S222:采用随机掩码方法,对所述目标第一训练样本的所述条款样本文本进行单字符掩码,得到待预测的条款文本集合;
S223:根据所述待预测的条款文本集合和所述目标第一训练样本的所述条款样本文本,确定所述待预测的条款文本集合中各个待预测的条款文本各自对应的目标条款标定值;
S224:从所述待预测的条款文本集合中提取一个所述待预测的条款文本作为目标条款文本;
S225:将所述目标条款文本输入所述初始模型进行下一个字符预测,得到条款预测值;
S226:将所述条款预测值和所述目标条款文本对应的所述目标条款标定值输入第一损失函数进行损失值计算,得到所述初始模型的第一损失值,根据所述第一损失值更新所述初始模型的参数,更新后的所述初始模型被用于下一次计算所述条款预测值;
S227:重复执行所述从所述待预测的条款文本集合中提取一个所述待预测的条款文本作为目标条款文本的步骤,直至完成所述待预测的条款文本集合中所有所述待预测的条款文本的提取;
S228:重复执行所述从所述多个第一训练样本中获取一个所述第一训练样本作为目标第一训练样本的步骤,直至所述第一损失值达到第一收敛条件或所述初始模型的迭代次数达到第二收敛条件,将所述第一损失值达到所述第一收敛条件或所述初始模型的迭代次数达到所述第二收敛条件的所述初始模型,确定为所述条款训练后的模型;
其中,所述第一损失函数采用交叉熵函数。
本实施例实现了采用随机掩码方法,根据所述多个第一训练样本对初始模型进行训练,因第一训练样本包括条款样本文本,从而条款训练后的模型对法律、法规、合同具有预测下一个字符的能力,使目标相似问题生成模型在进行相似问题生成时符合法律、法规、合同的用语。
对于S221,依次从所述多个第一训练样本中获取一个所述第一训练样本作为目标第一训练样本。
对于S222,对所述目标第一训练样本的所述条款样本文本进行随机单字符掩码,将每次掩码后的所述条款样本文本作为待预测的条款文本;将所有待预测的条款文本作为待预测的条款文本集合。
比如,所述条款样本文本为“如何购买保险”,对所述条款样本文本进行随机单字符掩码,得到待预测的条款文本分别为:“[Mask]何购买保险”、“如[Mask]购买保险”、“如何[Mask]买保险”、“如何购[Mask]保险”、“如何购买[Mask]险”、“如何购买保[Mask]”,[Mask]是掩码符,也就说,待预测的条款文本集合为“[Mask]何购买保险”、“如[Mask]购买保险”、“如何[Mask]买保险”、“如何购[Mask]保险”、“如何购买[Mask]险”、“如何购买保[Mask]”,在此举例不做具体限定。
对于S223,将所述待预测的条款文本集合中每个待预测的条款文本与所述目标第一训练样本的所述条款样本文本进行对比,将被掩码的字符的原始字符作为待预测的条款文本对应的目标条款标定值。
比如,待预测的条款文本为“如何[Mask]买保险”,所述目标第一训练样本的所述条款样本文本为“如何购买保险”,[Mask]在“如何购买保险”中对应的原始字符为“购”,则将原始字符“购”作为“如何[Mask]买保险”对应的待预测的条款文本对应的目标条款标定值,在此举例不做具体限定。
对于S224,依次从所述待预测的条款文本集合中提取一个所述待预测的条款文本作为目标条款文本。
对于S225,将所述目标条款文本输入所述初始模型进行下一个字符预测,将预测得到的字符作为所述目标条款文本对应的条款预测值。
对于S226,将所述条款预测值和所述目标条款文本对应的所述目标条款标定值输入第一损失函数进行损失值计算,将计算得到的损失值作为第一损失值。
将所述条款预测值和所述目标条款文本对应的所述目标条款标定值输入第一损失函数进行损失值计算的具体步骤在此不做赘述。
根据所述第一损失值更新所述初始模型的参数的具体步骤在此不做赘述。
可以理解的是,根据所述第一损失值更新所述初始模型的参数,是对所述初始模型的所有参数的更新。
对于S227,重复执行步骤S224至步骤S227,直至完成所述待预测的条款文本集合中所有所述待预测的条款文本的提取。
对于S228,重复执行步骤S221至步骤S228,直至所述第一损失值达到第一收敛条件或所述初始模型的迭代次数达到第二收敛条件。将所述第一损失值达到所述第一收敛条件或所述初始模型的迭代次数达到所述第二收敛条件的所述初始模型,确定为所述条款训练后的模型,从而使条款训练后的模型对法律、法规、合同具有预测下一个字符的能力,使目标相似问题生成模型在进行相似问题生成时符合法律、法规、合同的用语。
所述第一收敛条件是指相邻两次计算的第一损失值的大小满足lipschitz条件(利普希茨连续条件)。
所述初始模型的迭代次数是指所述初始模型被训练的第一训练样本的数量,也就是说,每采用一个第一训练样本训练所述初始模型,迭代次数增加1。
第二收敛条件是个大于1的具体数值。
在一个实施例中,上述采用所述多个第二训练样本对所述条款训练后的模型进行训练,将训练结束的所述条款训练后的模型作为所述目标相似问题生成模型的步骤,包括:
S241:从所述多个第二训练样本中获取一个所述第二训练样本作为目标第二训练样本;
S242:采用随机掩码方法,对所述目标第二训练样本的所述标准问题样本文本进行单字符掩码,得到待预测的标准问题文本集合;
S243:从所述待预测的标准问题文本集合中提取一个所述待预测的标准问题文本作为目标待预测的标准问题文本;
S244:将所述目标待预测的标准问题文本输入所述条款训练后的模型进行下一个字符预测,获取所述条款训练后的模型的分类概率预测层输出的下一个字符分类概率预测值;
S245:重复执行所述从所述待预测的标准问题文本集合中提取一个所述待预测的标准问题文本作为目标待预测的标准问题文本的步骤,直至完成所述待预测的标准问题文本集合中所述待预测的标准问题文本的提取;
S246:采用所述条款训练后的模型的采样层,根据各个所述下一个字符分类概率预测值和所述目标第二训练样本的所述标准问题样本文本进行相似问题生成,得到相似问题预测值集合;
S247:根据所述相似问题预测值集合和所述目标第二训练样本的所述相似问题标定值集合对所述条款训练后的模型进行训练,重复执行所述从所述多个第二训练样本中获取一个所述第二训练样本作为目标第二训练样本的步骤,直至所述条款训练后的模型的第二损失值达到第三收敛条件或所述条款训练后的模型的迭代次数达到第四收敛条件,将所述第二损失值达到所述第三收敛条件或所述条款训练后的模型的迭代次数达到所述第四收敛条件的所述条款训练后的模型,确定为所述目标相似问题生成模型。
本实施例采用第二训练样本对条款训练后的模型进行训练,训练结束得到目标相似问题生成模型,因条款训练后的模型具有对法律、法规、合同预测下一个字符的能力,以及第二训练样本包括:标准问题样本文本、相似问题标定值集合,从而使目标相似问题生成模型在对法律、法规、合同具有预测下一个字符的能力的基础上,对问题具有预测下一个字符的能力,使目标相似问题生成模型在进行相似问题生成时符合法律、法规、合同的用语,提高了目标相似问题生成模型生成相似问题的准确性,从而提高了最终确定的目标相似问题集合的准确性。
对于S241,依次从所述多个第二训练样本中获取一个所述第二训练样本作为目标第二训练样本。
对于S242,对所述目标第二训练样本的所述标准问题样本文本进行随机单字符掩码,将每次掩码后的所述标准问题样本文本作为待预测的标准问题文本;将所有待预测的标准问题文本作为待预测的标准问题文本集合。
对于S243,依次从所述待预测的标准问题文本集合中提取一个所述待预测的标准问题文本作为目标待预测的标准问题文本。
对于S244,将所述目标待预测的标准问题文本输入所述条款训练后的模型进行下一个字符预测,将所述条款训练后的模型的分类概率预测层输出的数据作为下一个字符分类概率预测值。
对于S245,重复执行步骤S243至步骤S245,直至完成所述待预测的标准问题文本集合中所述待预测的标准问题文本的提取。
对于S246,采用所述条款训练后的模型的采样层,根据各个所述下一个字符分类概率预测值进行采样,根据采用结果和所述目标第二训练样本的所述标准问题样本文本进行相似问题生成,将生成的每个相似问题作为一个相似问题预测值,将所有相似问题预测值作为相似问题预测值集合。
所述条款训练后的模型的采样层用于实现多项式分布采用,从而实现从一个问题文本(也就是目标标准问题文本)生成多个相似问题。
对于S247,采用第二损失函数,根据所述相似问题预测值集合和所述目标第二训练样本的所述相似问题标定值集合对所述条款训练后的模型进行训练,其中,所述第二损失函数采用所述交叉熵函数。采用第二损失函数,根据所述相似问题预测值集合和所述目标第二训练样本的所述相似问题标定值集合对所述条款训练后的模型进行训练的具体步骤在此不做赘述。
所述第三收敛条件是指相邻两次采用第二损失函数根据所述相似问题预测值集合和所述目标第二训练样本的所述相似问题标定值集合计算得到的第二损失值的大小满足lipschitz条件(利普希茨连续条件)。
所述条款训练后的模型的迭代次数是指所述条款训练后的模型被训练的第二训练样本的数量,也就是说,每采用一个第一训练样本训练所述初始模型,迭代次数增加1。
第四收敛条件是个大于1的具体数值。
可以理解的是,根据所述相似问题预测值集合和所述目标第二训练样本的所述相似问题标定值集合对所述条款训练后的模型进行训练时,是对所述条款训练后的模型的所有参数进行更新。
在一个实施例中,上述采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合的步骤,包括:
S41:从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题;
S42:从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符;
S43:获取预设窗口宽度值,将所述预设窗口宽度值作为目标窗口宽度值;
S44:根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果;
S45:当所述未训练过字符填写结果为失败时,获取预设间隔字符数,将所述目标窗口宽度值与所述预设间隔字符数进行相加,得到调整后的窗口宽度值,将所述调整后的窗口宽度值作为所述目标窗口宽度值,重复执行所述根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果的步骤,直至所述未训练过字符填写结果为成功或者所述目标窗口宽度值与所述目标待分析的相似问题的字符数量相同;
S46:当所述未训练过字符填写结果为成功时,根据所述待填写的未训练过字符、所述未训练过字符填写结果和所述目标待分析的相似问题,确定修改后的相似问题;
S47:将所述修改后的相似问题作为所述目标待分析的相似问题;重复执行所述从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符的步骤,直至完成所述未训练过字符集合中所述未训练过字符的提取,将所述目标待分析的相似问题作为待优化的相似问题;
S48:重复执行所述从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题的步骤,直至完成所述待分析的相似问题集合中所述待分析的相似问题的获取;
S49:将所有所述待优化的相似问题作为所述待优化的相似问题集合。
本实施例根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成。
对于S41,依次从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题。
对于S42,依次从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符。
对于S43,可以从数据库中获取预设窗口宽度值,也可以获取用户输入的预设窗口宽度值,还可以从第三方应用系统获取预设窗口宽度值,还可以将预设窗口宽度值写入实现本申请的程序文件中。
预设窗口宽度值是一个大于1的具体数值。
可选的,所述预设窗口宽度值设置为3。
对于S44,针对所述待填写的未训练过字符,采用滑窗扫描方法,根据所述目标标准问题文本在所述目标待分析的相似问题进行滑窗,滑窗的宽度与所述目标窗口宽度值相同,在每个位置观测滑窗里面相对位置相同的字符个数,相对位置相同的字符个数最多的位置为所述待填写的未训练过字符的插入位置,当成功确定所述待填写的未训练过字符的插入位置时确定所述未训练过字符填写结果为成功,当未找到所述待填写的未训练过字符的插入位置时确定所述未训练过字符填写结果为失败。
对于S45,当所述未训练过字符填写结果为失败时,意味着滑窗宽度太小,此时可以从数据库中获取预设间隔字符数,也可以获取用户输入的预设间隔字符数,还可以从第三方应用系统获取预设间隔字符数。预设间隔字符数是一个大于0的具体数值。
其中,将所述目标窗口宽度值与所述预设间隔字符数进行相加,将相加得到的数据作为调整后的窗口宽度值,将所述调整后的窗口宽度值作为所述目标窗口宽度值以用于实现下一轮滑窗,重复执行步骤S44至步骤S45,直至所述未训练过字符填写结果为成功或者所述目标窗口宽度值与所述目标待分析的相似问题的字符数量相同。
所述未训练过字符填写结果为成功,意味着成功确定所述待填写的未训练过字符的插入位置,此时不需要再进行滑窗,因此可以确定针对所述待填写的未训练过字符的滑窗结束。
所述目标窗口宽度值与所述目标待分析的相似问题的字符数量相同,意味着目标窗口宽度值对应的滑窗一次性包括了所述目标待分析的相似问题的所有字符,此次不需要在加大目标窗口宽度值的值,因此可以确定针对所述待填写的未训练过字符的滑窗结束。
可选的,所述预设间隔字符数设置为2。
对于S46,当所述未训练过字符填写结果为成功时,意味着成功确定所述待填写的未训练过字符的插入位置,根据所述未训练过字符填写结果对应的插入位置,将所述待填写的未训练过字符插入所述目标待分析的相似问题中,将插入所述待填写的未训练过字符的所述目标待分析的相似问题作为修改后的相似问题。
对于S47,将所述修改后的相似问题作为所述目标待分析的相似问题,重复执行步骤S42至步骤S47,直至完成所述未训练过字符集合中所述未训练过字符的提取;将每个所述目标待分析的相似问题作为一个待优化的相似问题。
对于S48,重复执行步骤S41至步骤S48,直至完成所述待分析的相似问题集合中所述待分析的相似问题的获取。
在一个实施例中,上述根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果的步骤,包括:
S441:根据所述待填写的未训练过字符,从所述目标标准问题文本中进行词语提取,得到所述待填写的未训练过字符对应的原始问题词语;
S442:获取未训练过字符标识字符,根据所述未训练过字符标识字符、所述目标窗口宽度值和所述滑窗扫描方法,对所述目标待分析的相似问题进行窗口文本提取,得到相似问题窗口文本集合;
S443:分别对所述原始问题词语和所述相似问题窗口文本集合中每个相似问题窗口文本进行相同位置的字符个数统计,得到所述相似问题窗口文本集合中各个所述相似问题窗口文本各自对应的相同位置相同字符数;
S444:当不存在所述相同位置相同字符数大于0时,确定所述未训练过字符填写结果为失败;
S445:当存在所述相同位置相同字符数大于0时,确定所述未训练过字符填写结果为成功。
本实施例根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成。
对于S441,根据所述待填写的未训练过字符,从所述目标标准问题文本中进行词语提取,从而可以确定带有待填写的未训练过字符的词语,将带有待填写的未训练过字符的词语作为所述待填写的未训练过字符对应的原始问题词语,从而有利于进行相对位置相同的字符的比较。
比如,所述目标标准问题文本为“髌骨可以投保吗”,所以待填写的未训练过字符为“髌”,所以待填写的未训练过字符在所述目标标准问题文本中对应的词语是“髌骨”,因此将“髌骨”作为所述待填写的未训练过字符对应的原始问题词语,在此举例不做具体限定。
对于S442,可以从数据库中获取未训练过字符标识字符,也可以获取用户输入的未训练过字符标识字符,还可以从第三方应用系统获取未训练过字符标识字符,还可以将未训练过字符标识字符写入实现本申请的程序文件中。
未训练过字符标识字符采用[UNK]。
其中,将所述目标窗口宽度值作为滑窗的宽度,也就是滑窗中字符的最大数量与所述目标窗口宽度值相同,将所述未训练过字符标识字符作为滑窗中的任意一个位置,对所述目标待分析的相似问题进行窗口文本提取,将滑窗每次提取的文本作为相似问题窗口文本,将所有相似问题窗口文本作为相似问题窗口文本集合。
对于S443,分别对所述原始问题词语和所述相似问题窗口文本集合中每个相似问题窗口文本进行相同位置的字符个数统计,将统计得到的每个数据作为一个相同位置相同字符数。
比如,所述目标标准问题文本为“髌骨可以投保吗”,目标待分析的相似问题为“我摔碎了[UNK]骨,可以买保险吗”,目标待分析的相似问题中的“[UNK]”是未训练过字符标识字符,滑窗在待分析的相似问题中滑到了“了[UNK]骨”时,相似问题窗口文本“了[UNK]骨”与所述原始问题词语“髌骨”相对位置相同的字符个数为1,也就是字符“骨”相同,在此举例不做具体限定。
对于S444,当不存在所述相同位置相同字符数大于0时,意味着未找到所述待填写的未训练过字符的插入位置,此时可以确定所述未训练过字符填写结果为失败。
对于S445,当存在所述相同位置相同字符数大于0时,意味着成功确定所述待填写的未训练过字符的插入位置,此时可以确定所述未训练过字符填写结果为成功。
在一个实施例中,上述根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合的步骤,包括:
S51:从所述待优化的相似问题集合中提取一个待优化的相似问题作为目标待优化的相似问题;
S52:对所述目标标准问题文本和所述目标待优化的相似问题进行编辑距离计算,得到第一编辑距离;
S53:分别对所述目标待优化的相似问题和所述待优化的相似问题集合中的所述目标待优化的相似问题以外的每个所述待优化的相似问题进行编辑距离计算,得到待合计的编辑距离集合;
S54:对所述待合计的编辑距离集合进行求和计算,得到第二编辑距离;
S55:将所述第一编辑距离减去所述第二编辑距离,得到所述目标待优化的相似问题对应的编辑距离差值;
S56:重复执行所述从所述待优化的相似问题集合中提取一个待优化的相似问题作为目标待优化的相似问题的步骤,直至完成所述待优化的相似问题集合中所述待优化的相似问题的提取;
S57:将所有所述编辑距离差值进行升序排序,得到排序后的编辑距离差值集合;
S58:获取预设提取比例,采用所述预设提取比例和从头开始提取的方法,从所述排序后的编辑距离差值集合中进行所述编辑距离差值的提取,得到目标编辑距离差值集合;
S59:将所述目标编辑距离差值集合中的各个所述编辑距离差值各自对应的所述待优化的相似问题作为所述目标相似问题集合。
本实施例实现了根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,通过优化处理有利于提高确定的相似问题的准确性。
对于S51,依次从所述待优化的相似问题集合中提取一个待优化的相似问题作为目标待优化的相似问题。
对于S52,对所述目标标准问题文本和所述目标待优化的相似问题进行编辑距离计算,将计算得到的数据作为第一编辑距离。
对所述目标标准问题文本和所述目标待优化的相似问题进行编辑距离计算的具体步骤在此不做赘述。
对于S53,分别对所述目标待优化的相似问题和所述待优化的相似问题集合中的所述目标待优化的相似问题以外的每个所述待优化的相似问题进行编辑距离计算,也就是说,计算所述目标待优化的相似问题与其他所述待优化的相似问题之间的编辑距离。因此,待合计的编辑距离集合中的待合计的编辑距离的数量比所述待优化的相似问题集合中的所述待优化的相似问题的数量少1。
对于S54,对所述待合计的编辑距离集合中的所有编辑距离进行求和计算,将计算得到的数据作为第二编辑距离。
对于S55,将所述第一编辑距离减去所述第二编辑距离,将得到的数据作为所述目标待优化的相似问题对应的编辑距离差值。
对于S56,重复执行步骤S51至步骤S56,直至完成所述待优化的相似问题集合中所述待优化的相似问题的提取。
对于S57,将所有所述编辑距离差值进行升序排序,将排序后的所有所述编辑距离差值作为排序后的编辑距离差值集合。
升序排序,也就是将排在前面的所述编辑距离差值比排在后面的所述编辑距离差值的数值小。
对于S58,可以从数据库中获取预设提取比例,也可以获取用户输入的预设提取比例,还可以从第三方应用系统获预设提取比例,还可以将预设提取比例写入实现本申请的程序文件中。
其中,采用所述预设提取比例和从头开始提取的方法,从所述排序后的编辑距离差值集合中进行所述编辑距离差值的提取,将提取的所有所述编辑距离差值作为目标编辑距离差值集合。
可选的,预设提取比例设置为20%。
对于S59,将所述目标编辑距离差值集合中的每个所述编辑距离差值对应的所述待优化的相似问题作为一个目标相似问题;将所有目标相似问题作为所述目标相似问题集合。
参照图2,本申请还提出了一种相似问题的生成装置,所述装置包括:
文本获取模块100,用于获取目标标准问题文本;
待分析的相似问题集合确定模块200,用于将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
未训练过字符集合确定模块300,用于根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
待优化的相似问题集合确定模块400,用于采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
目标相似问题集合确定模块500,用于根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
本实施例通过首先将目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合,从而实现了自动化进行相似问题的生成,避免受人常规思维的限制,导致不容易将相似问题写得全面的技术问题;而且根据目标标准问题文本进行未训练过字符查找,得到未训练过字符集合,采用滑窗扫描方法,根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合,最后根据目标标准问题文本对待优化的相似问题集合进行优化处理,得到目标相似问题集合,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,通过优化处理有利于提高确定的相似问题的准确性。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存相似问题的生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种相似问题的生成方法。所述相似问题的生成方法,包括:获取目标标准问题文本;将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
本实施例通过首先将目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合,从而实现了自动化进行相似问题的生成,避免受人常规思维的限制,导致不容易将相似问题写得全面的技术问题;而且根据目标标准问题文本进行未训练过字符查找,得到未训练过字符集合,采用滑窗扫描方法,根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合,最后根据目标标准问题文本对待优化的相似问题集合进行优化处理,得到目标相似问题集合,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,通过优化处理有利于提高确定的相似问题的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种相似问题的生成方法,包括步骤:获取目标标准问题文本;将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
上述执行的相似问题的生成方法,通过首先将目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合,从而实现了自动化进行相似问题的生成,避免受人常规思维的限制,导致不容易将相似问题写得全面的技术问题;而且根据目标标准问题文本进行未训练过字符查找,得到未训练过字符集合,采用滑窗扫描方法,根据未训练过字符集合和目标标准问题文本,对待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合,最后根据目标标准问题文本对待优化的相似问题集合进行优化处理,得到目标相似问题集合,通过未训练过字符的填写使模型可以对带有未训练过字符的目标标准问题文本进行相似问题生成,通过优化处理有利于提高确定的相似问题的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种相似问题的生成方法,其特征在于,所述方法包括:
获取目标标准问题文本;
将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合;
所述采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合的步骤,包括:
从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题;
从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符;
获取预设窗口宽度值,将所述预设窗口宽度值作为目标窗口宽度值;
根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果;
当所述未训练过字符填写结果为失败时,获取预设间隔字符数,将所述目标窗口宽度值与所述预设间隔字符数进行相加,得到调整后的窗口宽度值,将所述调整后的窗口宽度值作为所述目标窗口宽度值,重复执行所述根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果的步骤,直至所述未训练过字符填写结果为成功或者所述目标窗口宽度值与所述目标待分析的相似问题的字符数量相同;
当所述未训练过字符填写结果为成功时,根据所述待填写的未训练过字符、所述未训练过字符填写结果和所述目标待分析的相似问题,确定修改后的相似问题;
将所述修改后的相似问题作为所述目标待分析的相似问题;重复执行所述从所述未训练过字符集合中提取一个未训练过字符,得到待填写的未训练过字符的步骤,直至完成所述未训练过字符集合中所述未训练过字符的提取,将所述目标待分析的相似问题作为待优化的相似问题;
重复执行所述从所述待分析的相似问题集合中获取一个待分析的相似问题作为目标待分析的相似问题的步骤,直至完成所述待分析的相似问题集合中所述待分析的相似问题的获取;
将所有所述待优化的相似问题作为所述待优化的相似问题集合;
所述根据所述目标标准问题文本、所述待填写的未训练过字符、所述滑窗扫描方法和所述目标窗口宽度值,对所述目标待分析的相似问题进行未训练过字符填写,得到未训练过字符填写结果的步骤,包括:
根据所述待填写的未训练过字符,从所述目标标准问题文本中进行词语提取,得到所述待填写的未训练过字符对应的原始问题词语;
获取未训练过字符标识字符,根据所述未训练过字符标识字符、所述目标窗口宽度值和所述滑窗扫描方法,对所述目标待分析的相似问题进行窗口文本提取,得到相似问题窗口文本集合;
分别对所述原始问题词语和所述相似问题窗口文本集合中每个相似问题窗口文本进行相同位置的字符个数统计,得到所述相似问题窗口文本集合中各个所述相似问题窗口文本各自对应的相同位置相同字符数;
当不存在所述相同位置相同字符数大于0时,确定所述未训练过字符填写结果为失败;
当存在所述相同位置相同字符数大于0时,确定所述未训练过字符填写结果为成功。
2.根据权利要求1所述的相似问题的生成方法,其特征在于,所述将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合的步骤之前,还包括:
获取多个第一训练样本,所述多个第一训练样本中的每个第一训练样本包括:条款样本文本;
采用所述多个第一训练样本对初始模型进行训练,将训练结束的所述初始模型作为条款训练后的模型,其中,所述初始模型是基于GPT2预训练模型得到的模型;
获取多个第二训练样本,所述多个第二训练样本中的每个第二训练样本包括:标准问题样本文本、相似问题标定值集合;
采用所述多个第二训练样本对所述条款训练后的模型进行训练,将训练结束的所述条款训练后的模型作为所述目标相似问题生成模型。
3.根据权利要求2所述的相似问题的生成方法,其特征在于,所述采用所述多个第一训练样本对初始模型进行训练,将训练结束的所述初始模型作为条款训练后的模型的步骤,包括:
从所述多个第一训练样本中获取一个所述第一训练样本作为目标第一训练样本;
采用随机掩码方法,对所述目标第一训练样本的所述条款样本文本进行单字符掩码,得到待预测的条款文本集合;
根据所述待预测的条款文本集合和所述目标第一训练样本的所述条款样本文本,确定所述待预测的条款文本集合中各个待预测的条款文本各自对应的目标条款标定值;
从所述待预测的条款文本集合中提取一个所述待预测的条款文本作为目标条款文本;
将所述目标条款文本输入所述初始模型进行下一个字符预测,得到条款预测值;
将所述条款预测值和所述目标条款文本对应的所述目标条款标定值输入第一损失函数进行损失值计算,得到所述初始模型的第一损失值,根据所述第一损失值更新所述初始模型的参数,更新后的所述初始模型被用于下一次计算所述条款预测值;
重复执行所述从所述待预测的条款文本集合中提取一个所述待预测的条款文本作为目标条款文本的步骤,直至完成所述待预测的条款文本集合中所有所述待预测的条款文本的提取;
重复执行所述从所述多个第一训练样本中获取一个所述第一训练样本作为目标第一训练样本的步骤,直至所述第一损失值达到第一收敛条件或所述初始模型的迭代次数达到第二收敛条件,将所述第一损失值达到所述第一收敛条件或所述初始模型的迭代次数达到所述第二收敛条件的所述初始模型,确定为所述条款训练后的模型;
其中,所述第一损失函数采用交叉熵函数。
4.根据权利要求2所述的相似问题的生成方法,其特征在于,所述采用所述多个第二训练样本对所述条款训练后的模型进行训练,将训练结束的所述条款训练后的模型作为所述目标相似问题生成模型的步骤,包括:
从所述多个第二训练样本中获取一个所述第二训练样本作为目标第二训练样本;
采用随机掩码方法,对所述目标第二训练样本的所述标准问题样本文本进行单字符掩码,得到待预测的标准问题文本集合;
从所述待预测的标准问题文本集合中提取一个所述待预测的标准问题文本作为目标待预测的标准问题文本;
将所述目标待预测的标准问题文本输入所述条款训练后的模型进行下一个字符预测,获取所述条款训练后的模型的分类概率预测层输出的下一个字符分类概率预测值;
重复执行所述从所述待预测的标准问题文本集合中提取一个所述待预测的标准问题文本作为目标待预测的标准问题文本的步骤,直至完成所述待预测的标准问题文本集合中所述待预测的标准问题文本的提取;
采用所述条款训练后的模型的采样层,根据各个所述下一个字符分类概率预测值和所述目标第二训练样本的所述标准问题样本文本进行相似问题生成,得到相似问题预测值集合;
根据所述相似问题预测值集合和所述目标第二训练样本的所述相似问题标定值集合对所述条款训练后的模型进行训练,重复执行所述从所述多个第二训练样本中获取一个所述第二训练样本作为目标第二训练样本的步骤,直至所述条款训练后的模型的第二损失值达到第三收敛条件或所述条款训练后的模型的迭代次数达到第四收敛条件,将所述第二损失值达到所述第三收敛条件或所述条款训练后的模型的迭代次数达到所述第四收敛条件的所述条款训练后的模型,确定为所述目标相似问题生成模型。
5.根据权利要求1所述的相似问题的生成方法,其特征在于,所述根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合的步骤,包括:
从所述待优化的相似问题集合中提取一个待优化的相似问题作为目标待优化的相似问题;
对所述目标标准问题文本和所述目标待优化的相似问题进行编辑距离计算,得到第一编辑距离;
分别对所述目标待优化的相似问题和所述待优化的相似问题集合中的所述目标待优化的相似问题以外的每个所述待优化的相似问题进行编辑距离计算,得到待合计的编辑距离集合;
对所述待合计的编辑距离集合进行求和计算,得到第二编辑距离;
将所述第一编辑距离减去所述第二编辑距离,得到所述目标待优化的相似问题对应的编辑距离差值;
重复执行所述从所述待优化的相似问题集合中提取一个待优化的相似问题作为目标待优化的相似问题的步骤,直至完成所述待优化的相似问题集合中所述待优化的相似问题的提取;
将所有所述编辑距离差值进行升序排序,得到排序后的编辑距离差值集合;
获取预设提取比例,采用所述预设提取比例和从头开始提取的方法,从所述排序后的编辑距离差值集合中进行所述编辑距离差值的提取,得到目标编辑距离差值集合;
将所述目标编辑距离差值集合中的各个所述编辑距离差值各自对应的所述待优化的相似问题作为所述目标相似问题集合。
6.一种相似问题的生成装置,用于实现权利要求1至5中任一项所述的方法,其特征在于,所述装置包括:
文本获取模块,用于获取目标标准问题文本;
待分析的相似问题集合确定模块,用于将所述目标标准问题文本输入目标相似问题生成模型进行相似问题生成,得到待分析的相似问题集合;
未训练过字符集合确定模块,用于根据所述目标标准问题文本进行未训练过字符查找,得到未训练过字符集合;
待优化的相似问题集合确定模块,用于采用滑窗扫描方法,根据所述未训练过字符集合和所述目标标准问题文本,对所述待分析的相似问题集合进行未训练过字符填写,得到待优化的相似问题集合;
目标相似问题集合确定模块,用于根据所述目标标准问题文本对所述待优化的相似问题集合进行优化处理,得到目标相似问题集合。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110567582.1A CN113268564B (zh) | 2021-05-24 | 2021-05-24 | 相似问题的生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110567582.1A CN113268564B (zh) | 2021-05-24 | 2021-05-24 | 相似问题的生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268564A CN113268564A (zh) | 2021-08-17 |
CN113268564B true CN113268564B (zh) | 2023-07-21 |
Family
ID=77232611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110567582.1A Active CN113268564B (zh) | 2021-05-24 | 2021-05-24 | 相似问题的生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268564B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821622B (zh) * | 2021-09-29 | 2023-09-15 | 平安银行股份有限公司 | 基于人工智能的答案检索方法、装置、电子设备及介质 |
CN116136839B (zh) * | 2023-04-17 | 2023-06-23 | 湖南正宇软件技术开发有限公司 | 法规文件花脸稿的生成方法、生成系统及相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN110110045A (zh) * | 2019-04-26 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 一种检索相似文本的方法、装置以及存储介质 |
CN110263143A (zh) * | 2019-06-27 | 2019-09-20 | 苏州大学 | 提高相关性的神经问题生成方法 |
CN111553159A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种问句生成方法及系统 |
CN111597779A (zh) * | 2020-04-23 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN111813913A (zh) * | 2019-11-27 | 2020-10-23 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN112380833A (zh) * | 2020-11-20 | 2021-02-19 | 深圳得理科技有限公司 | 一种逐句段对比的相似文本查找方法及装置 |
CN112612868A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 文本快速生成方法、计算机可读存储介质、电子设备 |
-
2021
- 2021-05-24 CN CN202110567582.1A patent/CN113268564B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363743A (zh) * | 2018-01-24 | 2018-08-03 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN110110045A (zh) * | 2019-04-26 | 2019-08-09 | 腾讯科技(深圳)有限公司 | 一种检索相似文本的方法、装置以及存储介质 |
CN110263143A (zh) * | 2019-06-27 | 2019-09-20 | 苏州大学 | 提高相关性的神经问题生成方法 |
CN111813913A (zh) * | 2019-11-27 | 2020-10-23 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN111597779A (zh) * | 2020-04-23 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
CN111553159A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种问句生成方法及系统 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN112380833A (zh) * | 2020-11-20 | 2021-02-19 | 深圳得理科技有限公司 | 一种逐句段对比的相似文本查找方法及装置 |
CN112612868A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 文本快速生成方法、计算机可读存储介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
Learning to Generate Questions by Learning What not to Generate;Bang Liu et al;《arXiv》;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113268564A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380840B (zh) | 文本纠错方法、装置、设备及介质 | |
CN108304911B (zh) | 基于记忆神经网络的知识抽取方法以及系统和设备 | |
CN111553164A (zh) | 命名实体识别模型的训练方法、装置、计算机设备 | |
CN108664589B (zh) | 基于领域自适应的文本信息提取方法、装置、系统及介质 | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN113268564B (zh) | 相似问题的生成方法、装置、设备及存储介质 | |
CN111581229A (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN113673698B (zh) | 适用于bert模型的蒸馏方法、装置、设备及存储介质 | |
CN112016319B (zh) | 预训练模型获取、疾病实体标注方法、装置及存储介质 | |
CN117194637B (zh) | 基于大语言模型的多层级可视化评估报告生成方法、装置 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN111738002A (zh) | 基于Lattice LSTM的古文领域命名实体识别方法和系统 | |
CN113487028A (zh) | 知识蒸馏方法、装置、终端设备及介质 | |
CN117271792A (zh) | 一种基于大模型构建企业领域知识库的方法 | |
CN113270103A (zh) | 基于语义增强的智能语音对话方法、装置、设备及介质 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN111897961A (zh) | 一种宽度神经网络模型的文本分类方法及相关组件 | |
CN114595158A (zh) | 基于人工智能的测试用例生成方法、装置、设备及介质 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN113486140A (zh) | 知识问答的匹配方法、装置、设备及存储介质 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
CN112766485A (zh) | 命名实体模型的训练方法、装置、设备及介质 | |
CN115905585A (zh) | 关键词与文本匹配方法、装置、电子设备和存储介质 | |
CN113239272B (zh) | 一种网络管控系统的意图预测方法和意图预测装置 | |
CN112749530B (zh) | 文本编码方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |