CN118133044A - 问题扩展方法、装置、计算机设备、存储介质和产品 - Google Patents

问题扩展方法、装置、计算机设备、存储介质和产品 Download PDF

Info

Publication number
CN118133044A
CN118133044A CN202410373260.7A CN202410373260A CN118133044A CN 118133044 A CN118133044 A CN 118133044A CN 202410373260 A CN202410373260 A CN 202410373260A CN 118133044 A CN118133044 A CN 118133044A
Authority
CN
China
Prior art keywords
text
question
texts
expanded
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410373260.7A
Other languages
English (en)
Inventor
康祖荫
陈青山
陈江枫
黄正
李冠萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202410373260.7A priority Critical patent/CN118133044A/zh
Publication of CN118133044A publication Critical patent/CN118133044A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种问题扩展方法、装置、计算机设备、存储介质和计算机程序产品,涉及大数据技术领域。方法包括:获取待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本;将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对;根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本;根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本,该方法,将第一相似文本和待扩展问题文本作为对待扩展问题文本进行文本扩展的依据,在一定程度上可以提高了问题扩展的准确性,在扩展得到的扩展问题文本的基础上,对扩展问题文本进行筛选,提高了问题扩展的准确性。

Description

问题扩展方法、装置、计算机设备、存储介质和产品
技术领域
本申请涉及人工智能技术领域,特别是涉及一种问题扩展方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着科技技术的发展,人工智能模型技术的应用也越来越广。目前,在基于大模型的知识问答中,由于大模型的知识库有限,且用户问题的表达形式和内容存在多种情况,使得用户问题可能与大模型的知识库的组织形式和内容之间存在一定的差距。通过上述分析可知,如果直接将用户问题作为检索依据,可能存在无法找到用户需要的答案的情况。所以需要对用户问题进行扩展,从而实现对用户问题进行精准回答。
目前,在对用户问题进行扩展时,通常采用对用户问题进行改写的情况,例如,将用户问题中的分词进行同义词替换,对用户问题进行文本纠错,以及,对用户问题进行停用词处理等,但是这种扩展方式流于表面,在这种方式下扩展得到的问题仍可能与大模型的知识库的组织形式和内容之间存在差距,也即,问题扩展不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高问题扩展准确性的问题扩展方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种问题扩展方法。所述方法包括:
获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
在其中一个实施例中,所述根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本,包括:针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本。
在其中一个实施例中,所述根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本之前,所述方法还包括:生成多个训练样本,其中,每个所述训练样本由输入特征数据和所述输入特征数据对应的真实标签组成,所述输入特征数据包括预设上下文文本和所述预设上下文文本对应的第一问题文本,所述真实标签包括与所述第一问题文本对应的第二问题文本;根据所述多个训练样本,迭代训练得到文本问题扩展模型。
在其中一个实施例中,所述生成多个训练样本,包括:分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据所述Y个训练问题文本两两之间的相似度,将所述Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对所述Z个问题文本对中每一问题文本对,将所述问题文本对中任一问题文本确定为所述训练样本中的第一问题文本,将所述问题文本对中除所述第一问题文本之外的问题文本确定为所述第一问题文本对应的第二问题文本;根据所述预设上下文文本、所述第一问题文本和所述第二问题文本,生成所述训练样本。
在其中一个实施例中,所述根据所述多个训练样本,对待训练文本问题扩展模型进行迭代优化,得到所述文本问题扩展模型,包括:确定所述多个训练样本的更新步长,其中,所述训练样本中问题文本对应的相似度越高,更新步长越大;根据所述多个训练样本和所述多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
在其中一个实施例中,所述根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本,包括:分别对所述M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定所述N个第二相似文本分别与所述M个第一相似文本之间的重合度;根据所述重合度和所述N个第二相似文本,确定目标问题文本。
在其中一个实施例中,所述根据所述重合度和所述N个第二相似文本,确定目标问题文本,包括:在所述N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将所述目标相似文本对应的扩展问题文本确定为所述目标问题文本。
在其中一个实施例中,所述将所述目标相似文本对应的扩展问题文本确定为所述目标问题文本包括以下各项至少之一:将相似上下文搜索时所述目标相似文本对应的扩展问题文本确定为所述目标问题文本;将更新扩展问题文本确定为所述目标问题文本,其中,所述更新扩展问题文本根据更新文本对,对所述待扩展问题文本进行文本扩展得到,所述更新文本由所述目标相似文本与所述待扩展问题文本组合得到。
第二方面,本申请还提供了一种问题扩展装置。所述装置包括:
获取模块,用于获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
组合模块,用于将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
扩展模块,用于根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
筛选模块,用于根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
在其中一个实施例中,所述扩展模块,还用于针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本。
在其中一个实施例中,所述装置还包括:训练模块,用于生成多个训练样本,其中,每个所述训练样本由输入特征数据和所述输入特征数据对应的真实标签组成,所述输入特征数据包括预设上下文文本和所述预设上下文文本对应的第一问题文本,所述真实标签包括与所述第一问题文本对应的第二问题文本;根据所述多个训练样本,迭代训练得到文本问题扩展模型。
在其中一个实施例中,所述训练模块,还用于分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据所述Y个训练问题文本两两之间的相似度,将所述Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对所述Z个问题文本对中每一问题文本对,将所述问题文本对中任一问题文本确定为所述训练样本中的第一问题文本,将所述问题文本对中除所述第一问题文本之外的问题文本确定为所述第一问题文本对应的第二问题文本;根据所述预设上下文文本、所述第一问题文本和所述第二问题文本,生成所述训练样本。
在其中一个实施例中,所述训练模块,还用于确定所述多个训练样本的更新步长,其中,所述训练样本中问题文本对应的相似度越高,更新步长越大;根据所述多个训练样本和所述多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
在其中一个实施例中,所述筛选模块,还用于分别对所述M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定所述N个第二相似文本分别与所述M个第一相似文本之间的重合度;根据所述重合度和所述N个第二相似文本,确定目标问题文本。
在其中一个实施例中,所述筛选模块,还用于在所述N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将所述目标相似文本对应的扩展问题文本确定为所述目标问题文本。
在其中一个实施例中,所述筛选模块,还用于将相似上下文搜索时所述目标相似文本对应的扩展问题文本确定为所述目标问题文本;将更新扩展问题文本确定为所述目标问题文本,其中,所述更新扩展问题文本根据更新文本对,对所述待扩展问题文本进行文本扩展得到,所述更新文本由所述目标相似文本与所述待扩展问题文本组合得到。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
上述问题扩展方法、装置、计算机设备、存储介质和计算机程序产品,获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本,一方面,将第一相似文本和待扩展问题文本共同作为对待扩展问题文本进行文本扩展的依据,在一定程度上可以提高了问题扩展的准确性,另一方面,在扩展得到的扩展问题文本的基础上,对扩展问题文本进行进一步筛选,所以,进一步提高了问题扩展的准确性。
附图说明
图1为一个实施例中问题扩展方法的应用环境图;
图2为一个实施例中问题扩展方法的流程示意图;
图3为一个实施例中一场景下目标问题文本筛选方法的流程示意图;
图4为一个实施例中文本问题扩展模型训练方法的流程示意图;
图5为一个详细实施例中问题扩展方法的流程示意图;
图6为一个详细实施例中文本问题扩展模型训练方法的流程示意图;
图7为一个实施例中问题扩展装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请所涉及的文本(包括但不限于待扩展问题文本和预设上下文文本等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本申请实施例提供的问题扩展方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
服务器104提取终端102所上传的待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,服务器104将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对,服务器104根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本,服务器104根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种问题扩展方法,以该方法应用于图1中的服务器104为例进行说明,包括:
S202,获取待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数。
其中,待扩展问题文本为等待进行问题文本扩展的问题文本,待扩展问题文本可以为等待进行问题回答的问题文本。
作为一实施例,获取待扩展问题文本,包括:获取用户设置的待扩展问题文本。
作为另一实施例,获取待扩展问题文本,包括:获取用户设置的等待进行问题回答的问题文本,并将等待进行问题回答的问题文本确定为待扩展问题文本。
如此,通过将等待进行问题回答的问题文本作为待扩展问题文本,并对待扩展问题文本进行扩展,并将扩展得到的扩展问题文本作为回答的依据,以规避由于等待进行问题回答的问题文本可能与现有的知识库的组织形式和内容之间存在一定的差距的技术缺陷,从而可实现对问题文本的精准回答。
示例性地,对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,包括:获取预设知识库,在预设知识库中对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本。
进一步地,在预设知识库中对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,包括:在预设知识库中选取与待扩展问题文本之间的相似度大于第一预设相似度阈值的M个第一相似文本。
进一步地,在预设知识库中选取与待扩展问题文本之间的相似度大于第一预设相似度阈值的M个第一相似文本,包括:若在预设知识库中选取得到的与待扩展问题文本之间的相似度大于第一预设相似度阈值的相似文本的文本数量大于M,则根据与待扩展问题文本之间的相似度,对各相似文本进行排序,得到排序结果,并将排序结果中前M个相似文本确定为M个第一相似文本。
S204,将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对。
示例性地,S204包括:针对M个第一相似文本中每一第一相似文本,将第一相似文本和待扩展问题文本进行组合,得到文本对。
S206,根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本。
作为一实施例,S206包括:针对M个文本对中每一文本对,根据文本对中的第一相似文本,确定待扩展问题文本的扩展信息,其中,扩展信息至少包括扩展分词、扩展分句和扩展字中的至少一项,根据待扩展问题文本的扩展信息,对待扩展问题文本进行文本扩展,得到扩展问题文本。
仅以由文本对中第一相似文本确定的扩展信息,作为待扩展问题文本的文本扩展依据的情况下,由于使用的扩展依据较为简单且局限,所以,可能存在扩展得到的扩展问题文本流于表面的情况。
为克服上述问题扩展流于表面的问题,作为另一实施例,S206包括:针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本,进一步地,根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本,包括:将文本对输入至预训练的文本问题扩展模型,通过文本问题扩展模型将文本对映射为扩展问题文本。
如此,由于文本问题扩展模型通常是由大量的训练样本训练得到的,文本扩展依据是文本问题扩展模型和文本对,所以,降低了扩展依据的局限性,因此,可以使得扩展得到的扩展问题文本与知识库的组织形式和内容之间的差距较小。
S208,根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本。
示例性地,S208包括:获取M个扩展问题文本对应查询得到的第二相似文本,根据第二相似文本分别与M个第一相似文本之间的关系,在M个扩展问题文本中筛选目标问题文本。
本实施例中,一方面,将第一相似文本和待扩展问题文本共同作为对待扩展问题文本进行文本扩展的依据,在一定程度上可以提高了问题扩展的准确性,另一方面,在扩展得到的扩展问题文本的基础上,对扩展问题文本进行进一步筛选,所以,进一步提高了问题扩展的准确性。
在一个实施例中,如图3所示的目标问题文本筛选方法的流程示意图,根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本,包括:
S302,分别对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数。
示例性地,S302包括:在预设知识库中对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本。
进一步地,M个扩展问题文本中每一扩展问题文本对应至少一个第二相似文本。
S304,确定N个第二相似文本分别与M个第一相似文本之间的重合度。
其中,重合度用于表征第二相似文本和第一相似文本之间文本内容的重合程度。
作为一实施例,S304包括:获取M个第一相似文本的第一文本字段,以及,获取N个第二相似文本的第二文本字段;针对N个第二相似文本中每一第二相似文本,累计第二相似文本的第二文本字段分别与M个第一相似文本中每一第一相似文本的第一文本字段的相同字段数量;将相同字段数量和第二相似文本的总文本字段之间的比值,确定为第二相似文本与第一相似文本之间的重合度。
如此,提供一种每个第一相似文本与每个第二相似文本之间的重合度的确定方式,实现第二相似文本和第一相似文本之间文本内容的重合程度的评估多样化。
作为另一实施例,S304包括:将N个第二相似文本中每一扩展问题文本对应的第二相似文本作为扩展问题文本的相似文本集合;累计相似文本集合中与M个第一相似文本相同的第二相似文本的M个文本数量;将M个文本数量确定为扩展问题文本的第二相似文本与M个第一相似文本之间的重合度。
如此,考虑到第二相似文本和扩展问题文本之间的对应关系,提供一种相似文本集合与第一相似文本之间的重合度的确定方式,实现第二相似文本和第一相似文本之间文本内容的重合程度的评估多样化。
S306,根据重合度和N个第二相似文本,确定目标问题文本。
示例性地,S306包括:在N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;根据目标相似文本,确定目标问题文本。
作为一实施例,根据目标相似文本,确定目标问题文本,包括:将目标相似文本对应的扩展问题文本确定为目标问题文本。
如此,提供一种目标问题文本筛选方法,以第一相似文本和第二相似文本之间的重合度,作为从第二相似文本中筛选目标相似文本的筛选依据,并将筛选得到的目标相似文本对应的扩展问题文本确定为目标问题文本,实现了对扩展问题文本的筛选,提高了问题扩展的准确性。
作为另一实施例,根据目标相似文本,确定目标问题文本,包括:根据目标相似文本,对待扩展问题文本进行文本扩展,得到目标问题文本。
进一步地,根据目标相似文本,对待扩展问题文本进行文本扩展,得到目标问题文本,包括:将目标相似文本中每一相似文本分别与待扩展问题文本进行组合,得到更新文本对;根据更新文本对,对待扩展问题文本进行文本扩展,得到更新扩展问题文本,将更新扩展问题文本确定为目标问题文本。
如此,提供一种目标问题文本扩展方法,在对待扩展问题文本进行扩展后,以第一相似文本和第二相似文本之间的重合度,作为从第二相似文本中筛选目标相似文本的筛选依据,并将筛选得到的目标相似文本和待扩展问题文本作为扩展依据,对待扩展问题文本进行二次扩展,得到目标问题文本,进一步提高了问题扩展的准确性。
本实施例中,将第二相似文本与第一相似文本之间的重合度,作为确定目标问题文本的依据,保证了目标问题文本是有迹可循扩展得到的,剔除了在对待扩展问题文本进行文本扩展时产生“幻觉”扩展得到的扩展问题文本,所以,保证了问题扩展的准确性。
在一个实施例中,根据M个文本对,对待扩展问题文本进行扩展,得到M个扩展问题文本的过程,由文本问题扩展模型执行,如图4所示的文本问题扩展模型训练方法的流程示意图,文本问题扩展模型的训练过程包括,包括:
S402,生成多个训练样本,其中,每个训练样本由输入特征数据和输入特征数据对应的真实标签组成,输入特征数据包括预设上下文文本和预设上下文文本对应的第一问题文本,真实标签包括与第一问题文本对应的第二问题文本。
其中,预设上下文文本从预设知识库中获取。
作为一实施例,生成多个训练样本之前,还包括:预设知识库中包含多个预设文档,针对多个预设文档中每一预设文档,对预设文档进行文本切分,得到多个预设上下文文本。
进一步地,对预设文本进行文本切分,得到多个预设上下文文本,包括:根据预设文档的语义信息,对预设文档进行文本切分,得到多个预设上下文文本。
作为一实施例,S402包括:分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对Z个问题文本对中每一问题文本对,将问题文本对中任一问题文本确定为训练样本中的第一问题文本,将问题文本对中除第一问题文本之外的问题文本确定为第一问题文本对应的第二问题文本;根据预设上下文文本、第一问题文本和第二问题文本,生成训练样本。
进一步地,分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,包括:针对X个预设上下文文本中每一预设上下文文本,获取训练好的问题文本抽取模型,将预设上下文文本输入至问题文本抽取模型,通过问题文本抽取模型将预设上下文文本映射为至少一个训练问题文本。
进一步地,根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,包括:在Y个训练问题文本两两之间的相似度中选取大于第二预设相似度阈值的多个目标相似度,将每个目标相似度对应的训练问题文本进行组合,得到Z个问题文本对。
S404,根据多个训练样本,迭代训练得到文本问题扩展模型。
作为一实施例,S404包括:针对多个训练样本中每一训练样本,训练模型输入步骤:将训练样本中的输入特征数据输入至待训练文本问题扩展模型,得到训练标签;根据训练样本中的真实标签与训练标签之间的差异,计算待训练文本问题扩展模型的模型损失;若模型损失收敛,则将待训练文本问题扩展模型确定为文本问题扩展模型;若模型损失未收敛,则对待训练文本问题扩展模型进行模型调整,并返回至训练模型输入步骤,直至模型损失收敛。
作为另一实施例,S404包括:确定多个训练样本的更新步长,其中,训练样本中问题文本对应的相似度越高,更新步长越大;根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型,其中,问题文本对应的相似度是指训练样本中第一问题文本与第二问题文本之间的相似度。
进一步地,根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型,包括:针对多个训练样本中每一训练样本,训练模型输入步骤:将训练样本中的输入特征数据输入至待训练文本问题扩展模型,得到训练标签;根据训练样本中的真实标签与训练标签之间的差异,计算待训练文本问题扩展模型的模型损失;若模型损失收敛,则将待训练文本问题扩展模型确定为文本问题扩展模型;若模型损失未收敛,则根据训练样本的更新步长,对待训练文本问题扩展模型进行模型调整,并返回至训练模型输入步骤,直至模型损失收敛。
进一步地,训练样本的更新步长越大,则当前的训练样本对应的训练轮次下对待训练文本问题扩展模型进行模型调整的幅度越大。
如此,将问题文本对应的相似度越高的训练样本,设置越高的更新步长,使得问题文本对应的相似度越高的训练样本,对待训练文本问题扩展模型的模型训练过程的贡献度越高,提高了训练得到的文本问题扩展模型的文本问题扩展准确性。
本实施例中,由于训练样本中的输入特征数据是由预设上下文文本和预设上下文文本对应的第一问题文本组成的,使得模型的输入特征数据是多维度的数据,在一定程度上可以提高训练得到的文本问题扩展模型的问题扩展准确性。
作为一种详细实施例,如图5所示,对待扩展问题进行相似上下文搜索,得到M个第一相似文本,将M个第一相似文本与待扩展问题文本进行组合,得到M个文本对,根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本;对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,确定N个第二相似文本分别与M个第一相似文本之间的重合度;根据重合度和N个第二相似文本,确定目标问题文本。
进一步地,当根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本的过程由文本问题扩展模型执行的情况下,在根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本之前,如图6所示,对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,根据预设上下文文本和Z个问题文本对,生成训练样本;确定多个训练样本的更新步长,根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
本实施例中,将第一相似文本和待扩展问题文本共同作为对待扩展问题文本进行文本扩展的依据,在一定程度上可以提高了问题扩展的准确性,另一方面,在扩展得到的扩展问题文本的基础上,对扩展问题文本进行进一步筛选,所以,进一步提高了问题扩展的准确性。
进一步地,由于训练样本中的输入特征数据是由预设上下文文本和预设上下文文本对应的第一问题文本组成的,使得模型的输入特征数据是多维度的数据,在一定程度上可以提高训练得到的文本问题扩展模型的问题扩展准确性;将问题文本对应的相似度越高的训练样本,设置越高的更新步长,使得问题文本对应的相似度越高的训练样本,对待训练文本问题扩展模型的模型训练过程的贡献度越高,提高了训练得到的文本问题扩展模型的文本问题扩展准确性。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的问题扩展方法的问题扩展装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个问题扩展装置实施例中的具体限定可以参见上文中对于问题扩展方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种问题扩展装置700,包括:获取模块702、组合模块704、扩展模块706和筛选模块708,其中:
获取模块702,用于获取待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
组合模块704,用于将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对;
扩展模块706,用于根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本;
筛选模块708,用于根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本。
在其中一个实施例中,扩展模块706,还用于针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和文本对,对待扩展问题文本进行文本扩展,得到扩展问题文本。
在其中一个实施例中,装置还包括:训练模块,用于生成多个训练样本,其中,每个训练样本由输入特征数据和输入特征数据对应的真实标签组成,输入特征数据包括预设上下文文本和预设上下文文本对应的第一问题文本,真实标签包括与第一问题文本对应的第二问题文本;根据多个训练样本,迭代训练得到文本问题扩展模型。
在其中一个实施例中,训练模块,还用于分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对Z个问题文本对中每一问题文本对,将问题文本对中任一问题文本确定为训练样本中的第一问题文本,将问题文本对中除第一问题文本之外的问题文本确定为第一问题文本对应的第二问题文本;根据预设上下文文本、第一问题文本和第二问题文本,生成训练样本。
在其中一个实施例中,训练模块,还用于确定多个训练样本的更新步长,其中,训练样本中问题文本对应的相似度越高,更新步长越大;根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
在其中一个实施例中,筛选模块708,还用于分别对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定N个第二相似文本分别与M个第一相似文本之间的重合度;根据重合度和N个第二相似文本,确定目标问题文本。
在其中一个实施例中,筛选模块708,还用于在N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将目标相似文本对应的扩展问题文本确定为目标问题文本。
在其中一个实施例中,筛选模块708,还用于将相似上下文搜索时目标相似文本对应的扩展问题文本确定为目标问题文本;将更新扩展问题文本确定为目标问题文本,其中,更新扩展问题文本根据更新文本对,对待扩展问题文本进行文本扩展得到,更新文本由目标相似文本与待扩展问题文本组合得到。
上述问题扩展装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新版本应用实例的运行状态等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问题扩展方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对;
根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和文本对,对待扩展问题文本进行文本扩展,得到扩展问题文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:生成多个训练样本,其中,每个训练样本由输入特征数据和输入特征数据对应的真实标签组成,输入特征数据包括预设上下文文本和预设上下文文本对应的第一问题文本,真实标签包括与第一问题文本对应的第二问题文本;根据多个训练样本,迭代训练得到文本问题扩展模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对Z个问题文本对中每一问题文本对,将问题文本对中任一问题文本确定为训练样本中的第一问题文本,将问题文本对中除第一问题文本之外的问题文本确定为第一问题文本对应的第二问题文本;根据预设上下文文本、第一问题文本和第二问题文本,生成训练样本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定多个训练样本的更新步长,其中,训练样本中问题文本对应的相似度越高,更新步长越大;根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定N个第二相似文本分别与M个第一相似文本之间的重合度;根据重合度和N个第二相似文本,确定目标问题文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将目标相似文本对应的扩展问题文本确定为目标问题文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将相似上下文搜索时目标相似文本对应的扩展问题文本确定为目标问题文本;将更新扩展问题文本确定为目标问题文本,其中,更新扩展问题文本根据更新文本对,对待扩展问题文本进行文本扩展得到,更新文本由目标相似文本与待扩展问题文本组合得到。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对;
根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和文本对,对待扩展问题文本进行文本扩展,得到扩展问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:生成多个训练样本,其中,每个训练样本由输入特征数据和输入特征数据对应的真实标签组成,输入特征数据包括预设上下文文本和预设上下文文本对应的第一问题文本,真实标签包括与第一问题文本对应的第二问题文本;根据多个训练样本,迭代训练得到文本问题扩展模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对Z个问题文本对中每一问题文本对,将问题文本对中任一问题文本确定为训练样本中的第一问题文本,将问题文本对中除第一问题文本之外的问题文本确定为第一问题文本对应的第二问题文本;根据预设上下文文本、第一问题文本和第二问题文本,生成训练样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定多个训练样本的更新步长,其中,训练样本中问题文本对应的相似度越高,更新步长越大;根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定N个第二相似文本分别与M个第一相似文本之间的重合度;根据重合度和N个第二相似文本,确定目标问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将目标相似文本对应的扩展问题文本确定为目标问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将相似上下文搜索时目标相似文本对应的扩展问题文本确定为目标问题文本;将更新扩展问题文本确定为目标问题文本,其中,更新扩展问题文本根据更新文本对,对待扩展问题文本进行文本扩展得到,更新文本由目标相似文本与待扩展问题文本组合得到。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待扩展问题文本,并对待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将M个第一相似文本分别与待扩展问题文本进行组合,得到M个文本对;
根据M个文本对,对待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据M个扩展问题文本对应查询得到的第二相似文本,在M个扩展问题文本中筛选目标问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和文本对,对待扩展问题文本进行文本扩展,得到扩展问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:生成多个训练样本,其中,每个训练样本由输入特征数据和输入特征数据对应的真实标签组成,输入特征数据包括预设上下文文本和预设上下文文本对应的第一问题文本,真实标签包括与第一问题文本对应的第二问题文本;根据多个训练样本,迭代训练得到文本问题扩展模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据Y个训练问题文本两两之间的相似度,将Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对Z个问题文本对中每一问题文本对,将问题文本对中任一问题文本确定为训练样本中的第一问题文本,将问题文本对中除第一问题文本之外的问题文本确定为第一问题文本对应的第二问题文本;根据预设上下文文本、第一问题文本和第二问题文本,生成训练样本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定多个训练样本的更新步长,其中,训练样本中问题文本对应的相似度越高,更新步长越大;根据多个训练样本和多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定N个第二相似文本分别与M个第一相似文本之间的重合度;根据重合度和N个第二相似文本,确定目标问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将目标相似文本对应的扩展问题文本确定为目标问题文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将相似上下文搜索时目标相似文本对应的扩展问题文本确定为目标问题文本;将更新扩展问题文本确定为目标问题文本,其中,更新扩展问题文本根据更新文本对,对待扩展问题文本进行文本扩展得到,更新文本由目标相似文本与待扩展问题文本组合得到。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (19)

1.一种问题文本扩展方法,其特征在于,所述方法包括:
获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本,包括:
针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本。
3.根据权利要求2所述的方法,其特征在于,所述根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本之前,所述方法还包括:
生成多个训练样本,其中,每个所述训练样本由输入特征数据和所述输入特征数据对应的真实标签组成,所述输入特征数据包括预设上下文文本和所述预设上下文文本对应的第一问题文本,所述真实标签包括与所述第一问题文本对应的第二问题文本;
根据所述多个训练样本,迭代训练得到文本问题扩展模型。
4.根据权利要求3所述的方法,其特征在于,所述生成多个训练样本,包括:
分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;
根据所述Y个训练问题文本两两之间的相似度,将所述Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;
针对所述Z个问题文本对中每一问题文本对,将所述问题文本对中任一问题文本确定为所述训练样本中的第一问题文本,将所述问题文本对中除所述第一问题文本之外的问题文本确定为所述第一问题文本对应的第二问题文本;
根据所述预设上下文文本、所述第一问题文本和所述第二问题文本,生成所述训练样本。
5.根据权利要求3所述的方法,其特征在于,所述根据所述多个训练样本,迭代训练得到文本问题扩展模型,包括:
确定所述多个训练样本的更新步长,其中,所述训练样本中问题文本对应的相似度越高,更新步长越大;
根据所述多个训练样本和所述多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本,包括:
分别对所述M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;
确定所述N个第二相似文本分别与所述M个第一相似文本之间的重合度;
根据所述重合度和所述N个第二相似文本,确定目标问题文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述重合度和所述N个第二相似文本,确定目标问题文本,包括:
在所述N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;
将所述目标相似文本对应的扩展问题文本确定为所述目标问题文本。
8.根据权利要求7所述的方法,其特征在于,所述将所述目标相似文本对应的扩展问题文本确定为所述目标问题文本包括以下各项至少之一:
将相似上下文搜索时所述目标相似文本对应的扩展问题文本确定为所述目标问题文本;
将更新扩展问题文本确定为所述目标问题文本,其中,所述更新扩展问题文本根据更新文本对,对所述待扩展问题文本进行文本扩展得到,所述更新文本由所述目标相似文本与所述待扩展问题文本组合得到。
9.一种问题扩展装置,其特征在于,所述装置包括:
获取模块,用于获取待扩展问题文本,并对所述待扩展问题文本进行相似上下文搜索,得到M个第一相似文本,其中,M为正整数;
组合模块,用于将所述M个第一相似文本分别与所述待扩展问题文本进行组合,得到M个文本对;
扩展模块,用于根据所述M个文本对,对所述待扩展问题文本进行文本扩展,得到M个扩展问题文本;
筛选模块,用于根据所述M个扩展问题文本对应查询得到的第二相似文本,在所述M个扩展问题文本中筛选目标问题文本。
10.根据权利要求9所述的装置,其特征在于,所述扩展模块,还用于针对M个文本对中每一文本对,根据预训练的文本问题扩展模型和所述文本对,对所述待扩展问题文本进行文本扩展,得到扩展问题文本。
11.根据权利要求10所述的装置,其特征在于,所述问题扩展装置还包括训练模块,用于生成多个训练样本,其中,每个所述训练样本由输入特征数据和所述输入特征数据对应的真实标签组成,所述输入特征数据包括预设上下文文本和所述预设上下文文本对应的第一问题文本,所述真实标签包括与所述第一问题文本对应的第二问题文本;根据所述多个训练样本,迭代训练得到文本问题扩展模型。
12.根据权利要求11所述的装置,其特征在于,所述训练模块,还用于分别对X个预设上下文文本进行问题文本抽取,得到Y个训练问题文本,其中,X为正整数,Y为正整数;根据所述Y个训练问题文本两两之间的相似度,将所述Y个训练问题文本进行组合,得到Z个问题文本对,其中,Z为正整数;针对所述Z个问题文本对中每一问题文本对,将所述问题文本对中任一问题文本确定为所述训练样本中的第一问题文本,将所述问题文本对中除所述第一问题文本之外的问题文本确定为所述第一问题文本对应的第二问题文本;根据所述预设上下文文本、所述第一问题文本和所述第二问题文本,生成所述训练样本。
13.根据权利要求11所述的装置,其特征在于,所述训练模块,还用于确定所述多个训练样本的更新步长,其中,所述训练样本中问题文本对应的相似度越高,更新步长越大;根据所述多个训练样本和所述多个训练样本的更新步长,迭代训练得到文本问题扩展模型。
14.根据权利要求9所述的装置,其特征在于,所述筛选模块,还用于分别对所述M个扩展问题文本进行相似上下文搜索,得到N个第二相似文本,其中,N为大于或等于M的正整数;确定所述N个第二相似文本分别与所述M个第一相似文本之间的重合度;根据所述重合度和所述N个第二相似文本,确定目标问题文本。
15.根据权利要求14所述的装置,其特征在于,所述筛选模块,还用于在所述N个第二相似文本中选取重合度大于预设重合度阈值的目标相似文本;将所述目标相似文本对应的扩展问题文本确定为所述目标问题文本。
16.根据权利要求15所述的装置,其特征在于,所述筛选模块,还用于将相似上下文搜索时所述目标相似文本对应的扩展问题文本确定为所述目标问题文本;将更新扩展问题文本确定为所述目标问题文本,其中,所述更新扩展问题文本根据更新文本对,对所述待扩展问题文本进行文本扩展得到,所述更新文本由所述目标相似文本与所述待扩展问题文本组合得到。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
19.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202410373260.7A 2024-03-29 2024-03-29 问题扩展方法、装置、计算机设备、存储介质和产品 Pending CN118133044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410373260.7A CN118133044A (zh) 2024-03-29 2024-03-29 问题扩展方法、装置、计算机设备、存储介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410373260.7A CN118133044A (zh) 2024-03-29 2024-03-29 问题扩展方法、装置、计算机设备、存储介质和产品

Publications (1)

Publication Number Publication Date
CN118133044A true CN118133044A (zh) 2024-06-04

Family

ID=91231579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410373260.7A Pending CN118133044A (zh) 2024-03-29 2024-03-29 问题扩展方法、装置、计算机设备、存储介质和产品

Country Status (1)

Country Link
CN (1) CN118133044A (zh)

Similar Documents

Publication Publication Date Title
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
US20170116521A1 (en) Tag processing method and device
CN109086386B (zh) 数据处理方法、装置、计算机设备和存储介质
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN117131222A (zh) 基于开放世界大模型的半自动化标注方法和装置
CN116932935A (zh) 地址匹配方法、装置、设备、介质和程序产品
CN116911867A (zh) 问题处理方法、装置、计算机设备和存储介质
CN118133044A (zh) 问题扩展方法、装置、计算机设备、存储介质和产品
CN118551097A (zh) 搜索信息提示方法、装置、计算机设备和存储介质
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
CN116702024B (zh) 流水数据类型识别方法、装置、计算机设备和存储介质
CN118035423A (zh) 信息查询方法、装置、计算机设备和存储介质
CN117473975A (zh) 地址资源匹配方法、装置、计算机设备和存储介质
CN116881543A (zh) 金融资源对象推荐方法、装置、设备、存储介质和产品
CN115146051A (zh) 样本处理方法、装置、计算机设备和存储介质
CN116881122A (zh) 测试案例生成方法、装置、设备、存储介质和程序产品
CN116932677A (zh) 地址信息匹配方法、装置、计算机设备和存储介质
CN117725077A (zh) 标识搜索方法、装置、计算机设备、存储介质和程序产品
CN116881544A (zh) 金融产品信息推送方法、装置、计算机设备和存储介质
CN116610703A (zh) 数据查询方法、装置、计算机设备和存储介质
CN116881450A (zh) 资讯分类方法、装置、计算机设备、存储介质和程序产品
CN118332008A (zh) 答案筛选方法、装置、计算机设备和存储介质
CN116484877A (zh) 一种用于知识图谱的实体对齐方法、装置、介质及设备
CN116910241A (zh) 信息分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination