CN116166783A - 生成相似问题的方法、装置及存储介质 - Google Patents

生成相似问题的方法、装置及存储介质 Download PDF

Info

Publication number
CN116166783A
CN116166783A CN202310135740.5A CN202310135740A CN116166783A CN 116166783 A CN116166783 A CN 116166783A CN 202310135740 A CN202310135740 A CN 202310135740A CN 116166783 A CN116166783 A CN 116166783A
Authority
CN
China
Prior art keywords
similar
standard
initial
similar problem
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310135740.5A
Other languages
English (en)
Inventor
孙宏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Apollo Zhilian Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Zhilian Beijing Technology Co Ltd filed Critical Apollo Zhilian Beijing Technology Co Ltd
Priority to CN202310135740.5A priority Critical patent/CN116166783A/zh
Publication of CN116166783A publication Critical patent/CN116166783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开公开了一种生成相似问题的方法、装置及存储介质,涉及人工智能领域,尤其涉及深度学习技术领域。具体实现方案为:获取源数据集;确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合;基于每个标准问题和对应的初始相似问题集合,确定第一标准问题;基于第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到第一标准问题对应的目标相似问题集合。本公开实施例直接基于源数据集自动生成标准问题和每个标准问题对应的目标相似问题集合,无需人工配置标准问题对应的相似问题,提高了生成相似问题的质量和效率。

Description

生成相似问题的方法、装置及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及深度学习技术领域。
背景技术
在检索式问答系统中,当对话机器人接收到用户问题后,会从预先知识库中挑选最佳答案输出,因此在检索式问答系统中需要建立知识库,以利用知识库进行答案的检索。其中,检索式问答系统的知识库包括标准问题、相似问题和推荐答案,当接收到用户问题后,会将用户问题与知识库中的相似问题进行相似度计算,找出与用户问题最相似的相似问题,并根据该相似问题得到对应的标准问题,然后从标准问题对应的多个答案中随机挑选一个答案返回用户。
其中,相似问题-标准问题的对应关系为多对一,也即是多个相似问题对应一个标准问题,标准问题-推荐答案的对应关系为一对多,也即是一个标准问题对应多个推荐答案,从而避免每个相似问题均对应多个推荐答案,节约了缓存空间。基于此,需要在检索式问答系统中配置“标准问-相似问”库,以便后续根据“标准问-相似问”库,得到对应的推荐答案。
现有技术中,通过人为配置标准问对应的相似问。但是,人为配置标准问对应的相似问的数量有限、耗时长,并且生成相似问的质量可能不高,使得效率低。
发明内容
本公开提供了一种生成相似问题的方法、装置及存储介质。
根据本公开的一方面,提供了一种生成相似问题的方法,所述方法包括:获取源数据集;确定所述源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合;基于每个标准问题和对应的初始相似问题集合,确定第一标准问题;基于所述第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到所述第一标准问题对应的目标相似问题集合。
根据本公开的另一方面,提供了一种生成相似问题的装置,包括:获取模块,用于获取源数据集;第一确定模块,用于确定所述源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合;第二确定模块,用于基于每个标准问题和对应的初始相似问题集合,确定第一标准问题;扩充模块,用于基于所述第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到所述第一标准问题对应的目标相似问题集合。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少个处理器执行,以使所述至少一个处理器能够执行本公开的生成相似问题的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开的生成相似问题的方法。
根据本公开的另一方面,提供了一种计算机程序产品,所述计算机程序被处理器执行时实现本公开的生成相似问题的方法。
本公开相比于现有技术具备以下有益效果:
获取源数据集后,直接基于源数据集自动生成标准问题和每个标准问题对应的目标相似问题集合,无需人工配置标准问题对应的相似问题,从而提高了生成相似问题的质量和效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图2是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图3是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图4是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图5是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图6是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图7是根据本公开实施例提供的一种生成相似问题的方法的流程示意图;
图8是根据本公开实施例提供的一种生成相似问题的装置的结构示意图;
图9是用来实现本公开实施例的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的生成相似问题的方法及装置。
图1是根据本公开第一实施例的示意图。
如图1所示,该生成相似问题的方法可以包括:
步骤101,获取源数据集。
其中,需要说明的是,上述生成相似问题的方法的执行主体为生成相似问题的装置,该生成相似问题的装置可以由软件和/或硬件的方式实现,该实施例中的生成相似问题的装置可以配置在电子设备中。
其中,本示例实施例中电子设备可以包括终端设备和服务器等设备,该实施例对电子设备不作限定。
本公开实施例中,上述源数据集中包括语料。其中,语料可以包括日志数据和非结构化数据(例如,标准公开文档)。
步骤102、确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合。
本公开的实施例中,获取源数据集后,可以对源数据集进行数据对源数据集进行数据清洗,得到目标数据集,并通过对目标数据集进行聚类,得到至少一个聚类簇;再基于至少一个聚类簇的聚类中心,确定目标数据集中的至少一个标准问题;基于每个聚类中心对应的簇内容,确定每个标准问题对应的初始相似问题集合,以便后续基于标准问题和每个标准问题对应的初始相似问题集合,对需要进行扩充的初始相似问题集合进行扩充。关于这部分内容会在后续实施例中进行详细介绍。
步骤103、基于每个标准问题和对应的初始相似问题集合,确定第一标准问题。
本公开实施例中,可以基于每个标注问题对应的初始问题集合中的相似问题数量与预设阈值进行比较,确定第一标准问题。关于这部分内容会在后续实施例中进行详细介绍。
步骤104、基于第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到第一标准问题对应的目标相似问题集合。
本公开实施例中,上述基于第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到第一标准问题对应的目标相似问题集合时,可以基于第一标准问题,利用相似问题生成方法生成第一标准问题对应的第一扩充相似问题集合,然后对第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合,并将第二扩充相似问题集合输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合,再将目标扩充相似问题集合与初始相似问题集合进行合并,以得到第一标准问题对应的目标相似问题集合,从而使得每个标注问题对应的目标相似问题集合中相似问题数量达到预设数量。关于这部分内容会在后续实施例中进行详细介绍。
本公开实施例中,获取源数据集后,直接基于源数据集自动生成标准问题和每个标准问题对应的目标相似问题集合,无需人工配置标准问题对应的相似问题,从而提高了生成相似问题的质量和效率。
图2是根据本公开第二实施例的示意图。
如图2所示,该生成相似问题的方法可以包括:
步骤201、获取源数据集。
其中,关于步骤201的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤202、对源数据集进行数据清洗,得到目标数据集。
本公开实施例中,获取源数据集之后,可以对源数据集进行数据清洗,以过滤掉影响后续确定标准问题和对应初始相似问题集合的数据,使得后续确定的标准问题和对应初始相似问题集合更加准确。
具体地,本公开实施例中,对源数据集进行数据清洗,得到目标数据集的方法可以包括以下步骤:
步骤2021、对源数据集中的数据进行敏感词过滤,得到过滤后的数据集;
本公开实施例中,可以对源数据集中的数据进行敏感词过滤,以避免影响后续确定标准问题和对应初始相似问题集合的结果。
步骤2022、确定过滤后的数据集中数据的数据类型;
本公开实施例中,过滤后的数据集中的数据可以包括多种不同的数据类型,需要确定过滤后的数据集中数据的数据类型,以便根据数据的不同数据类型,对过滤后的数据集中的数据进行解析。
本公开实施例中,上述数据类型可以包括日志数据类型和非结构化数据类型。
步骤2023、根据过滤后的数据集中数据的数据类型,对过滤后的数据集中的数据进行格式解析和有效数据提取,得到目标数据集。
本公开实施例中,若步骤2022确定过滤后的数据集中的数据为日志数据类型,则根据日志数据类型的结构对该日志数据进行格式解析,并对解析后的数据进行有效数据提取。
以及,本公开实施例中,若步骤2022确定过滤后的数据集中的数据为非结构化数据类型,则对非结构化数据进行格式化解析,并对解析后的数据根据内容样式进行提取。
示例的,本公开实施例中,假设上述非结构化数据类型为PDF格式的企业规章制度,则对该文档进行PDF格式化解析,并对解析后的数据根据子标题,篇章,正文对应的内容样式进行提取。
步骤203、通过对目标数据集进行聚类,得到至少一个聚类簇。
本公开实施例中,上述得到目标数据集后,可以通过聚类算法对目标数据集中的数据进行聚类,得到对应的至少一个聚类簇。其中,本公开实施例中可以利用现有技术中的聚类算法,具体内容可以参考现有技术中的详细介绍,本公开实施例在此不做赘述。
步骤204、基于至少一个聚类簇的聚类中心,确定目标数据集中的至少一个标准问题。
本公开实施例中,上述得到至少一个聚类簇之后,可以将至少一个聚类簇的聚类中心作为候选标准问题,并对候选标准问题进行筛选后确定目标数据集中的至少一个标准问题。其中,本公开实施例中,可以通过人工筛选从候选标准问题中确定目标数据集中的至少一个标准问题。
步骤205、基于每个聚类中心对应的簇内容,确定每个标准问题对应的初始相似问题集合。
本公开实施例中,确定至少一个标准问题后,对每个标准问题对应的簇内容进行筛选后确定每个标准问题对应的初始相似问题集合。
其中,本公开实施例中,可以通过簇内容与对应聚类中心的距离和/或人工筛选对每个标准问题对应的簇内容进行筛选后确定每个标准问题对应的初始相似问题集合。
具体地,本公开实施例中,当簇内容中的数据与对应聚类中心的距离超过预设距离,则将该数据过滤;否则,将该数据确定为每个标准问题对应的初始相似问题,并将该数据添加至初始相似问题集合中。
步骤206、基于每个标准问题和对应的初始相似问题集合,确定第一标准问题。
步骤207、基于第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到第一标准问题对应的目标相似问题集合。
其中,关于步骤206~步骤207的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
本公开实施例中,通过对目标数据集进行聚类,得到至少一个聚类簇,基于至少一个聚类簇的聚类中心,确定目标数据集中的至少一个标准问题,基于每个聚类中心对应的簇内容,确定每个标准问题对应的初始相似问题集合,以使得从现有目标数据集中挖掘出所有的标准问题和每个标准问题对应的初始相似问题集合,以便后续确定需要扩充的初始相似问题集合。
图3是根据本公开第三实施例的示意图。
如图3所示,该生成相似问题的方法可以包括:
步骤301、获取源数据集。
步骤302、确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合。
其中,关于步骤301~步骤302的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤303、将每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较。
本公开实施例中,通过步骤302得到每个标准问题对应的初始相似问题集合后,将每个标准问题对应的初始问题集合中的相似问题数量与预设阈值进行比较,以确定需要扩充的初始相似问题集合。
步骤304、若初始相似问题集合中的相似问题数量小于或等于预设阈值,则将初始相似问题集合对应的标准问题,确定为第一标准问题。
本公开实施例中,若初始相似问题集合中的相似问题数量小于或等于预设阈值,说明该初始相似问题集合中的相似问题数量太少需要扩充,则将初始相似问题集合对应的标准问题,确定为第一标准问题,从而避免对所有初始相似问题集合进行扩充,节省资源。
步骤305、基于第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到第一标准问题对应的目标相似问题集合。
其中,关于步骤305的具体实现方式,可参见上述实施例的相关描述,此处不再赘述。
本公开实施例中,可以通过将每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较,若初始相似问题集合中的相似问题数量小于或等于预设阈值,则将初始相似问题集合对应的标准问题,确定为第一标准问题,从而避免对所有初始相似问题集合进行扩充,节省了计算资源。
图4是根据本公开第四实施例的示意图。
如图4所示,该生成相似问题的方法可以包括:
步骤401、获取源数据集。
步骤402、确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合。
步骤403、基于每个标准问题和对应的初始相似问题集合,确定第一标准问题。
其中,关于步骤401~步骤403的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤404、基于第一标准问题,利用相似问题生成方法生成第一标准问题对应的第一扩充相似问题集合。
本公开实施例中,上述相似问题生成方法可以包括以下至少一种:
相似问题生成规则;
相似问题生成模型;
相似问题检索引擎。
其中,本公开实施例中,上述基于第一标准问题,利用相似问题生成规则生成第一标准问题对应的第一扩充相似问题集合的方法可以包括以下步骤:
步骤4041、提取第一标准问题的关键字;
步骤4042、匹配适用于关键字的词典或模板,基于匹配的词典或模板生成第一标准问题对应的第一扩充相似问题集合。
本公开实施例中,将通过步骤4041提取第一标准问题的关键字后,可以将关键字与已有的词典或模版进行匹配,匹配到适用于该关键字的词典或模版,然后通过词典与该关键字进行替换或通过模版将关键词套入生成第一标准问题对应的第一扩充相似问题集合。
示例的,本公开实施例中,假设第一标准问题是“车道偏离预警的作用是什么?”,通过步骤4041提取到的第一标准问题的关键字是{车道偏离预警,作用},匹配于关键字的词典包括词典1和词典2,其中词典1为{车道偏离预警,LDW};词典2为{作用,功能},则基于词典1和词典2生成该第一标准问题对应的第一扩充相似问题集合为{‘LDW的作用是什么’,‘车道偏离预警的功能是什么’}。
以及,本公开实施例中,上述步骤404可以基于第一标准问题,利用相似问题生成模型生成第一标准问题对应的第一扩充相似问题集合。其中,在本公开一个实施例中,相似问题生成模型可以为Seq2Seq(Sequence to Sequence,序列到序列)模型。以及,在本公开另一个实施例中,相似问题生成模型可以为基于RoFormer+UniLM(UNIfied pre-trainedLanguage Model,统一预训练语言模型)+对比学习+BART(Bidirectional and Auto-Regressive Transformers,双向和自回归变压器)+蒸馏策略生成的模型。
进一步地,本公开实施例中,上述步骤404可以基于第一标准问题,利用相似问题检索引擎生成第一标准问题对应的第一扩充相似问题集合。
具体地,本公开实施例中,上述基于第一标准问题,利用相似问题检索引擎生成第一标准问题对应的第一扩充相似问题集合的方法可以包括:将第一标准问题输入至相似问题检索引擎中,得到第一标注问题对应的第一扩充相似问题集合。
示例的,假设第一标准问题是“安全气囊是什么?”,将第一标准问题输入至相似问题检索引擎中,得到第一标注问题对应的第一扩充相似问题集合为{'安全气囊的意思是什么','汽车安全气囊一般是什么意思?','请问什么是安全气囊','什么叫安全气囊?','汽车安全气囊的含义是什么'}。
本公开实施例中,相似问题检索引擎可以为开源检索引擎或本地检索引擎。
以及,本公开实施例中,上述相似问题检索引擎包括本地数据库,当上述相似问题检索引擎获取到第一标准问题后,可以将第一标准问题与本地数据库中的进行相似度比较,将与第一标准问题相似的文本数据输出,得到第一标注问题对应的第一扩充相似问题集合。
需要说明的是,本公开实施例中,可以依次利用相似问题生成规则、相似问题生成模型和相似问题检索引擎生成第一标注问题对应的相似问题,并将生成的所有相似问题作为第一扩充相似问题集合,从而使得生成更多的相似问题,使得生成的相似问题更加全面。
步骤405、对第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合。
本公开实施例中,通过相似问题生成方法得到的第一扩充相似问题集合中可能会有重复的相似问题,基于此需要对第一扩充相似问题集合中的相似问题进行过滤,以避免后续对重复相似问题进行筛选,并将过滤后的相似问题集合确定为第二扩充相似问题集合。关于这部分内容会在后续实施例中进行详细介绍。
步骤406、将第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合。
本公开实施例中,通过步骤405得到第二扩充相似问题集合后,可以将第二扩充相似问题集合输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合,从而使得目标扩充相似问题集合中的相似问题质量较高。关于这部分内容会在后续实施例中进行详细介绍。
步骤407、将目标扩充相似问题集合与初始相似问题集合进行合并,以得到第一标准问题对应的目标相似问题集合。
本公开实施例中,基于第一标准问题,利用相似问题生成方法生成第一标准问题对应的第一扩充相似问题集合,对第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合,将第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合,从而使得生成的目标扩充相似问题集合更加全面,同时提高了生成相似问题的质量。
图5是根据本公开第五实施例的示意图。
如图5所示,该生成相似问题的方法可以包括:
步骤501、获取源数据集。
步骤502、确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合。
步骤503、基于每个标准问题和对应的初始相似问题集合,确定第一标准问题。
步骤504、基于第一标准问题,利用相似问题生成方法生成第一标准问题对应的第一扩充相似问题集合。
其中,关于步骤501~步骤504的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
步骤505、将第一扩充相似问题集合中重复的相似问题删除。
步骤506、将第一扩充相似问题集合中与初始相似问题集合中相同的相似问题删除,得到第二扩充相似问题集合。
本公开实施例中,通过步骤505~步骤506可以将第一扩充相似问题集合中重复的相似问题删除,且将第一扩充相似问题集合中与初始相似问题集合中相同的相似问题删除,从而使得第二扩充相似问题集合中包括不包括重复的相似问题,避免后续对重复相似问题进行分析,节省了计算资源,并确保后续目标相似问题集合中没有重复的相似问题。
步骤507、将第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合。
步骤508、将目标扩充相似问题集合与初始相似问题集合进行合并,以得到第一标准问题对应的目标相似问题集合。
本公开实施例中,通过上述步骤507~步骤508的具体实现方式,可参见本公开实施例的相关描述,此处不再赘述。
本公开实施例中,可以将第一扩充相似问题集合中重复的相似问题删除,且将第一扩充相似问题集合中与初始相似问题集合中相同的相似问题删除,从而使得第二扩充相似问题集合中包括不包括重复的相似问题,避免后续对重复相似问题进行分析,节省了计算资源,并确保后续目标相似问题集合中没有重复的相似问题。
图6是根据本公开第六实施例的示意图。
如图6所示,该生成相似问题的方法可以包括:
步骤601、获取源数据集。
步骤602、确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合。
步骤603、基于每个标准问题和对应的初始相似问题集合,确定第一标准问题。
步骤604、基于第一标准问题,利用相似问题生成方法生成第一标准问题对应的第一扩充相似问题集合。
步骤605、对第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合。
其中,关于上述步骤601~步骤605的详细介绍可以参考上述实施例中的相关介绍,本实施例在此不做赘述。
步骤606、将第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中,相似问题推荐模型对第二扩充相似问题集合中的相似问题进行打分,以得到第二扩充相似问题集合中每个相似问题的分数。
本公开实施例中,相似问题推荐模块可以将第二扩充相似问题集合中的相似问题与对应的第一标准问题的特征进行比较,并根据特征比较结果对第二扩充相似问题集合中的相似问题进行打分,以得到第二扩充相似问题集合中每个相似问题的分数。
其中,本公开实施例中,上述特征可以包括embedding特征、分词结果特征、词性结果特征、实体识别结果特征和困惑度中的至少一种。
步骤607、基于每个相似问题的分数对第二扩充相似问题集合中的相似问题进行排序,并基于排序结果得到预设数量个相似问题。
其中,本公开实施例中,上述基于每个相似问题的分数对第二扩充相似问题集合中的相似问题进行降序排序或者升序排序,并将分数从高到低得到预设数量个相似问题,使得目标扩充相似问题集合中的相似问题质量较高,与第一标准问题更加相似。
步骤608、将预设数量个相似问题作为目标扩充相似问题集合。
本公开实施例中,若第二扩充相似问题集合中的相似问题数量小于预设数量,则将第二扩充相似问题集合中的相似问题作为目标扩充相似问题集合。
步骤609、将目标扩充相似问题集合与初始相似问题集合进行合并,以得到第一标准问题对应的目标相似问题集合。
其中,关于上述步骤609的详细介绍可以参考上述实施例中的相关介绍,本实施例在此不做赘述。
本公开实施例中,可以通过对第二扩充相似问题集合中的相似问题进行筛选得到预设数量个相似问题,以使得目标扩充相似问题集合中的相似问题质量较高,与第一标准问题更加相似。
图7是根据本公开第七实施例的示意图。
如图7所示,该生成相似问题的方法可以包括:
步骤701、获取源数据集。
步骤702、确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合。
步骤703、将每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较。
其中,关于上述步骤701~步骤703的详细介绍可以参考上述实施例中的相关介绍,本实施例在此不做赘述。
步骤704、若初始相似问题集合中的相似问题数量大于预设阈值,则将初始相似问题集合对应的标准问题,确定为第二标准问题。
本公开实施例中,若初始相似问题集合中的相似问题数量大于预设阈值,说明该初始相似问题集合中的相似问题数量足够不需要扩充,则将初始相似问题集合对应的标准问题,确定为第二标准问题,从而避免对所有初始相似问题集合进行扩充,节省资源。
步骤705、将第二标准问题对应的初始相似问题集合,确定为第二标准问题对应的目标相似问题集合。
本公开实施例中,可以将每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较,若初始相似问题集合中的相似问题数量大于预设阈值,说明该初始相似问题集合中的相似问题数量足够不需要扩充,则将初始相似问题集合对应的标准问题,确定为第二标准问题,从而避免对所有初始相似问题集合进行扩充,节省计算资源。
图8是根据本公开第八实施例的示意图。
如图8所示,该生成相似问题的装置800可以包括:获取模块801、第一确定模块802、第二确定模块803、扩充模块804,其中:
获取模块801,用于获取源数据集;
第一确定模块802,用于确定源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合;
第二确定模块803,用于基于每个标准问题和对应的初始相似问题集合,确定第一标准问题;
扩充模块804,用于基于第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到第一标准问题对应的目标相似问题集合。
其中,需要说明的是,前述对生成相似问题的方法实施例的解释说明也适用于本实施例,本实施例对此不再赘述。
本公开实施例的生成相似问题的装置,获取源数据集后,直接基于源数据集自动生成标准问题和每个标准问题对应的目标相似问题集合,无需人工配置标准问题对应的相似问题,从而提高了生成相似问题的质量和效率。
在本公开的一个实施例中,上述第一确定模块802,具体用于:
对源数据集进行数据清洗,得到目标数据集;
通过对目标数据集进行聚类,得到至少一个聚类簇;
基于至少一个聚类簇的聚类中心,确定目标数据集中的至少一个标准问题;
基于每个聚类中心对应的簇内容,确定每个标准问题对应的初始相似问题集合。
在本公开的一个实施例中,上述第一确定模块802,还用于:
对源数据集中的数据进行敏感词过滤,得到过滤后的数据集;
确定过滤后的数据集中数据的数据类型;
根据过滤后的数据集中数据的数据类型,对过滤后的数据集中的数据进行格式解析和有效数据提取,得到目标数据集。
在本公开的一个实施例中,上述第二确定模块803,具体用于:
将每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较;
若初始相似问题集合中的相似问题数量小于或等于预设阈值,则将初始相似问题集合对应的标准问题,确定为第一标准问题。
在本公开的一个实施例中,上述扩充模块804,具体用于:
基于第一标准问题,利用相似问题生成方法生成第一标准问题对应的第一扩充相似问题集合;
对第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合;
将第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合;
将目标扩充相似问题集合与初始相似问题集合进行合并,以得到第一标准问题对应的目标相似问题集合。
在本公开的一个实施例中,上述相似问题生成方法,包括以下至少一种:
相似问题生成规则;
相似问题生成模型;
相似问题检索引擎。
在本公开的一个实施例中,上述扩充模块804,还用于:
提取标准问题的关键字;
匹配适用于关键字的词典或模板,基于匹配的词典或模板生成标准问题对应的初始扩充相似问题集合。
在本公开的一个实施例中,上述扩充模块804,还用于:
将第一扩充相似问题集合中重复的相似问题删除;
将第一扩充相似问题集合中与初始相似问题集合中相同的相似问题删除,得到第二扩充相似问题集合。
在本公开的一个实施例中,上述扩充模块804,还用于:
将第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中,相似问题推荐模型对第二扩充相似问题集合中的相似问题进行打分,以得到第二扩充相似问题集合中每个相似问题的分数;
基于每个相似问题的分数对第二扩充相似问题集合中的相似问题进行排序,并基于排序结果得到预设数量个相似问题;
将预设数量个相似问题作为目标扩充相似问题集合。
在本公开的一个实施例中,上述装置,还用于:
若初始相似问题集合中的相似问题数量大于预设阈值,则将初始相似问题集合对应的标准问题,确定为第二标准问题;
将第二标准问题对应的初始相似问题集合,确定为第二标准问题对应的目标相似问题集合。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如生成相似问题的方法。例如,在一些实施例中,生成相似问题的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的生成相似问题的方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行生成相似问题的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种生成相似问题的方法,所述方法包括:
获取源数据集;
确定所述源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合;
基于每个标准问题和对应的初始相似问题集合,确定第一标准问题;
基于所述第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到所述第一标准问题对应的目标相似问题集合。
2.如权利要求1所述的方法,其中,确定所述源数据集中的至少一个标准问题换和每个标准问题对应的初始相似问题集合,包括:
对所述源数据集进行数据清洗,得到目标数据集;
通过对所述目标数据集进行聚类,得到至少一个聚类簇;
基于所述至少一个聚类簇的聚类中心,确定所述目标数据集中的至少一个标准问题;
基于每个聚类中心对应的簇内容,确定所述每个标准问题对应的初始相似问题集合。
3.如权利要求2所述的方法,其中,所述对所述源数据集进行数据清洗,得到目标数据集,包括:
对所述源数据集中的数据进行敏感词过滤,得到过滤后的数据集;
确定所述过滤后的数据集中数据的数据类型;
根据所述过滤后的数据集中数据的数据类型,对所述过滤后的数据集中的数据进行格式解析和有效数据提取,得到目标数据集。
4.如权利要求1所述的方法,其中,所述基于所述每个标准问题和对应的初始相似问题集合,确定第一标准问题,包括:
将所述每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较;
若所述初始相似问题集合中的相似问题数量小于或等于预设阈值,则将所述初始相似问题集合对应的标准问题,确定为第一标准问题。
5.如权利要求1所述的方法,其中,所述基于所述第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到所述第一标准问题对应的目标相似问题集合,包括:
基于所述第一标准问题,利用相似问题生成方法生成所述第一标准问题对应的第一扩充相似问题集合;
对所述第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合;
将所述第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合;
将所述目标扩充相似问题集合与所述初始相似问题集合进行合并,以得到所述第一标准问题对应的目标相似问题集合。
6.如权利要求5所述的方法,其中,所述相似问题生成方法,包括以下至少一种:
相似问题生成规则;
相似问题生成模型;
相似问题检索引擎。
7.如权利要求6所述的方法,其中,所述基于所述第一标准问题,利用相似问题生成规则生成所述第一标准问题对应的第一扩充相似问题集合,包括:
提取所述第一标准问题的关键字;
匹配适用于所述关键字的词典或模板,基于匹配的词典或模板生成所述第一标准问题对应的第一扩充相似问题集合。
8.如权利要求5所述的方法,其中,所述对所述第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合包括:
将所述第一扩充相似问题集合中重复的相似问题删除;
将所述第一扩充相似问题集合中与所述初始相似问题集合中相同的相似问题删除,得到第二扩充相似问题集合。
9.如权利要求5所述的方法,其中,所述将所述第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合,包括:
将所述第二扩充相似问题集合和第一标准问题输入至所述相似问题推荐模型中,所述相似问题推荐模型对所述第二扩充相似问题集合中的相似问题进行打分,以得到所述第二扩充相似问题集合中每个相似问题的分数;
基于所述每个相似问题的分数对所述第二扩充相似问题集合中的相似问题进行排序,并基于排序结果得到预设数量个相似问题;
将所述预设数量个相似问题作为所述目标扩充相似问题集合。
10.如权利要求4所述的方法,所述方法还包括:
若所述初始相似问题集合中的相似问题数量大于预设阈值,则将所述初始相似问题集合对应的标准问题,确定为第二标准问题;
将所述第二标准问题对应的初始相似问题集合,确定为所述第二标准问题对应的目标相似问题集合。
11.一种生成相似问题的装置,所述装置包括:
获取模块,用于获取源数据集;
第一确定模块,用于确定所述源数据集中的至少一个标准问题和每个标准问题对应的初始相似问题集合;
第二确定模块,用于基于所述每个标准问题和对应的初始相似问题集合,确定第一标准问题;
扩充模块,用于基于所述第一标准问题,利用相似问题生成方法扩充对应的初始相似问题集合,以得到所述第一标准问题对应的目标相似问题集合。
12.如权利要求11所述的装置,其中,所述第一确定模块,具体用于:
对所述源数据集进行数据清洗,得到目标数据集;
通过对所述目标数据集进行聚类,得到至少一个聚类簇;
基于所述至少一个聚类簇的聚类中心,确定所述目标数据集中的至少一个标准问题;
基于每个聚类中心对应的簇内容,确定所述每个标准问题对应的初始相似问题集合。
13.如权利要求12所述的装置,所述第一确定模块,还用于:
对所述源数据集中的数据进行敏感词过滤,得到过滤后的数据集;
确定所述过滤后的数据集中数据的数据类型;
根据所述过滤后的数据集中数据的数据类型,对所述过滤后的数据集中的数据进行格式解析和有效数据提取,得到目标数据集。
14.如权利要求11所述的装置,其中,所述第二确定模块,具体用于:
将所述每个标准问题对应的初始相似问题集合中的相似问题数量与预设阈值进行比较;
若所述初始相似问题集合中的相似问题数量小于或等于预设阈值,则将所述初始相似问题集合对应的标准问题,确定为第一标准问题。
15.如权利要求11所述的装置,其中,所述扩充模块,具体用于:
基于所述第一标准问题,利用相似问题生成方法生成所述第一标准问题对应的第一扩充相似问题集合;
对所述第一扩充相似问题集合中的相似问题进行过滤,得到第二扩充相似问题集合;
将所述第二扩充相似问题集合和第一标准问题输入至相似问题推荐模型中进行筛选,得到目标扩充相似问题集合;
将所述目标扩充相似问题集合与所述初始相似问题集合进行合并,以得到所述第一标准问题对应的目标相似问题集合。
16.如权利要求15所述的装置,其中,所述相似问题生成方法,包括以下至少一种:
相似问题生成规则;
相似问题生成模型;
相似问题检索引擎。
17.如权利要求16所述的装置,其中,所述扩充模块,还用于:
提取所述标准问题的关键字;
匹配适用于所述关键字的词典或模板,基于匹配的词典或模板生成所述标准问题对应的初始扩充相似问题集合。
18.如权利要求15所述的装置,其中,所述扩充模块,还用于:
将所述第一扩充相似问题集合中重复的相似问题删除;
将所述第一扩充相似问题集合中与所述初始相似问题集合中相同的相似问题删除,得到第二扩充相似问题集合。
19.如权利要求15所述的装置,其中,所述扩充模块,还用于:
将所述第二扩充相似问题集合和第一标准问题输入至所述相似问题推荐模型中,所述相似问题推荐模型对所述第二扩充相似问题集合中的相似问题进行打分,以得到所述第二扩充相似问题集合中每个相似问题的分数;
基于所述每个相似问题的分数对所述第二扩充相似问题集合中的相似问题进行排序,并基于排序结果得到预设数量个相似问题;
将所述预设数量个相似问题作为所述目标扩充相似问题集合。
20.如权利要求11所述的装置,所述装置还用于:
若所述初始相似问题集合中的相似问题数量大于预设阈值,则将所述初始相似问题集合对应的标准问题,确定为第二标准问题;
将所述第二标准问题对应的初始相似问题集合,确定为所述第二标准问题对应的目标相似问题集合。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202310135740.5A 2023-02-13 2023-02-13 生成相似问题的方法、装置及存储介质 Pending CN116166783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310135740.5A CN116166783A (zh) 2023-02-13 2023-02-13 生成相似问题的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310135740.5A CN116166783A (zh) 2023-02-13 2023-02-13 生成相似问题的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116166783A true CN116166783A (zh) 2023-05-26

Family

ID=86414391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310135740.5A Pending CN116166783A (zh) 2023-02-13 2023-02-13 生成相似问题的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116166783A (zh)

Similar Documents

Publication Publication Date Title
CN112749344B (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
US20220318275A1 (en) Search method, electronic device and storage medium
CN113128209B (zh) 用于生成词库的方法及装置
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN112989235B (zh) 基于知识库的内链构建方法、装置、设备和存储介质
JP7369228B2 (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN113408660B (zh) 图书聚类方法、装置、设备和存储介质
CN113191145B (zh) 关键词的处理方法、装置、电子设备和介质
CN112699237B (zh) 标签确定方法、设备和存储介质
CN113963197A (zh) 图像识别方法、装置、电子设备和可读存储介质
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN114818736B (zh) 文本处理方法、用于短文本的链指方法、装置及存储介质
CN113641724B (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN116662633A (zh) 搜索方法、模型训练方法、装置、电子设备及存储介质
CN116166783A (zh) 生成相似问题的方法、装置及存储介质
CN112784599A (zh) 诗句的生成方法、装置、电子设备和存储介质
CN112818167B (zh) 实体检索方法、装置、电子设备及计算机可读存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置
CN116089459B (zh) 数据检索方法、装置、电子设备及存储介质
CN113377921B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN114201607B (zh) 一种信息处理的方法和装置
CN117093601A (zh) 结构化数据的召回方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination