CN112183091A - 问答对生成方法、装置、电子设备及可读存储介质 - Google Patents
问答对生成方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112183091A CN112183091A CN202011087873.2A CN202011087873A CN112183091A CN 112183091 A CN112183091 A CN 112183091A CN 202011087873 A CN202011087873 A CN 202011087873A CN 112183091 A CN112183091 A CN 112183091A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- text
- initial
- answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及智能决策,揭露一种问答对生成方法,包括:根据初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对初始文本执行分词处理得到词语序列;将词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对初始答案信息执行过滤处理得到多个目标答案;将词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。本发明还提供一种问答对生成装置、电子设备及可读存储介质。本发明可应用于数字医疗领域,提高了问答对生成效率,提升了问答对的匹配准确度。
Description
技术领域
本发明涉及智能决策领域,尤其涉及一种问答对生成方法、装置、电子设备及可读存储介质。
背景技术
开放域(即不限领域)问答系统是自然语言处理的一个热门课题,可应用于智能客服、用户引导、用户FQA(问题解答)等各方面。例如,某公司新出了一款产品,根据该产品的说明书可生成多个问答对,当用户咨询该产品时,智能客服可根据所述问答对对用户的问题进行匹配确定目标问题及答案,以对用户的问题进行解答。当前,通常通过人工整理问答数据建立问答系统,效率低下,且当问答数据跨领域时,可能会出现人工整理的问答对不匹配的情况。另外,像金融机构,涉及医疗保险的客服系统,也是需要生成问答对,从而对客户的问题进行解答。
因此,亟需一种问答对生成方法,以提高问答对生成效率,提升问答对的匹配准确度。
发明内容
鉴于以上内容,有必要提供一种问答对生成方法,旨在提高问答对生成效率,提升问答对的匹配准确度。
本发明提供的问答对生成方法,包括:
解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本;
根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列;
将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案;
将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
可选的,所述问答对生成模型的训练包括第一训练,所述第一训练包括:
从第二数据库中抽取第一文本,对所述第一文本执行掩盖词预测任务:将所述第一文本中各个词语逐一采用掩盖符掩盖得到第二文本,将所述第二文本输入构建的问答对生成模型,预测出被掩盖的词语;
对所述第一文本执行连续片段预测任务:将所述第一文本拆分为两个第一子文本、用掩盖符掩盖第二个第一子文本得到第三文本,将所述第三文本输入所述问答对生成模型,预测出被掩盖的第一子文本;
对所述第一文本执行单独片段预测任务:将所述第一文本拆分为三个第二子文本、用掩盖符掩盖第二个第二子文本得到第四文本,将所述第四文本输入所述问答对生成模型,预测出被掩盖的第二子文本;
对所述第一文本执行多片段预测任务:将所述第一文本拆分为多个第四子文本,随机选择不连续的多个第四子文本,用掩盖符掩盖选择的多个第四子文本得到第五文本,将所述第五文本输入所述问答对生成模型,预测出被掩盖的多个第四子文本;
通过所述掩盖词预测任务、连续片段预测任务、单独片段预测及多片段预测任务确定所述问答对生成模型的第一参数,得到调整后的问答对生成模型。
可选的,所述问答对生成模型的训练还包括第二训练,所述第二训练包括:
从第三数据库中抽取携带标注信息的第六文本,将所述第六文本输入所述调整后的问答对生成模型,得到多个预测问答对;
根据所述标注信息确定所述第二文本的多个真实问答对,通过最小化预测问答对与真实问答对之间的损失值确定所述调整后的问答对生成模型的第二参数,得到训练好的问答对生成模型。
可选的,所述初始答案信息包括多个初始答案、所述多个初始答案中各个初始答案是答案的第一概率及各个初始答案中第一个词语是答案的第二概率,所述对所述初始答案信息执行过滤处理得到多个目标答案包括:
判断所述第一概率是否大于概率阈值,将大于概率阈值的初始答案的集合作为第一答案集;
按照第二概率从高到低的顺序对所述第一答案集中的答案进行排序,选择排序靠前的预设数量的答案放入第二答案集;
过滤所述第二答案集中的重复答案,得到目标答案。
可选的,所述过滤所述第二答案集中的重复答案包括:
将所述第二答案集中的答案两两组合,得到多个组合对;
计算每个组合对中两个答案的最长公共子序列的相似度值,从相似度值大于相似度阈值的组合对中选择一个答案,将选择的答案从所述第二答案集中删除。
可选的,所述基于所述词表对所述初始文本执行分词处理得到词语序列包括:
根据所述词表对所述初始文本进行分词得到多个词语,将所述多个词语中的每个词语按照其在所述初始文本中的位置顺序进行拼接得到词语序列。
为了解决上述问题,本发明还提供一种问答对生成装置,所述装置包括:
解析模块,用于解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本;
分词模块,用于根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列;
过滤模块,用于将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案;
生成模块,用于将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
可选的,所述初始答案信息包括多个初始答案、所述多个初始答案中各个初始答案是答案的第一概率及各个初始答案中第一个词语是答案的第二概率,所述对所述初始答案信息执行过滤处理得到多个目标答案包括:
判断所述第一概率是否大于概率阈值,将大于概率阈值的初始答案的集合作为第一答案集;
按照第二概率从高到低的顺序对所述第一答案集中的答案进行排序,选择排序靠前的预设数量的答案放入第二答案集;
过滤所述第二答案集中的重复答案,得到目标答案。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的问答对生成程序,所述问答对生成程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述问答对生成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有问答对生成程序,所述问答对生成程序可被一个或者多个处理器执行,以实现上述问答对生成方法。
相较现有技术,本发明首先根据初始文本所属的领域类别获取对应的词表,基于所述词表对初始文本执行分词处理得到词语序列,该步骤使得分词结果更为准确;接着,将词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对初始答案信息执行过滤处理得到多个目标答案,该步骤通过问答对生成模型生成初始文本对应的初始答案信息及目标答案,使得生成的答案更为准确;最后,将词语序列及目标答案输入问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对,本步骤通过同时输入词语序列及目标答案使得生成的目标问题与对应的目标答案更为匹配,且通过模型生成问答对使得问答对的生成效率更高。因此,本发明提高了问答对生成效率,提升了问答对的匹配准确度。
附图说明
图1为本发明一实施例提供的问答对生成方法的流程示意图;
图2为本发明一实施例提供的问答对生成装置的模块示意图;
图3为本发明一实施例提供的实现问答对生成方法的电子设备的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供一种问答对生成方法。参照图1所示,为本发明一实施例提供的问答对生成方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
本实施例中,问答对生成方法包括:
S1、解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本。
本发明的目的是通过一个初始文本生成多个问答对,所述初始文本可以是一篇文章,也可以是一篇新闻报道,且所述初始文本不限领域。
例如,某公司新出了一款游戏,为生成该游戏对应的问答对,所述请求携带的初始文本为该游戏的简介说明。
S2、根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列。
本实施例中,预先通过爬虫技术采集了多个不同领域的数据集,例如,包括知乎、小说、新闻、法律、百科、科技、金融、问答等多个领域共104G语料,用于训练问答对生成模型并搭建各个领域的专用词表。
本实施例根据初始文本中的关键词信息确定初始文本所属的领域类别。
所述基于所述词表对所述初始文本执行分词处理得到词语序列包括:
根据所述词表对所述初始文本进行分词得到多个词语,将所述多个词语中的每个词语按照其在所述初始文本中的位置顺序进行拼接得到词语序列。
根据对应的领域类别的专用词表对初始文本进行分词可保证初始文本的分词结果更为准确。
以初始文本为某款游戏的简介说明为例,通过游戏领域的专业词表对初始文本进行分词。
S3、将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案。
本实施例中,构建的问答对生成模型为MTSN模型(Multi-Task based spanprediction network,基于多任务的片段预测模型),采用的是transformer模型结构,包括base模型(12层,维度768)和large模型(16层,维度1024)两种类型,其中base模型训练速度快,large模型生成的问答对匹配度高,本实施例采用large模型进行训练以得到准确度更高的问答对生成模型。
所述问答对生成模型的训练包括第一训练和第二训练,所述第一训练用于训练所述问答对生成模型预测词语及文字片段的能力,所述第二训练用于训练所述问答对生成模型生成问答对的能力。
本实施例中,所述第一训练包括:
A1、从第二数据库中抽取第一文本,对所述第一文本执行掩盖词预测任务:将所述第一文本中各个词语逐一采用掩盖符掩盖得到第二文本,将所述第二文本输入构建的问答对生成模型,预测出被掩盖的词语;
所述第二数据库中存储了多个领域的数据集,所述数据集未携带标注信息,所述第一文本包括各个领域的文本数据。
掩盖词预测任务表示每个token(词语)可通过它前面所有token来预测,掩盖符可用[mask]来表示,该任务中,第一文本中每个词语都需要进行训练。
掩盖词预测任务的计算公式为:
其中,ti表示第一文本中第i个词语,t<i表示第一文本中第i个词语前面的所有词语,p(ti|t<i)表示第一文本中第i个词语出现的概率,P(x)表示第一文本出现的概率。
A2、对所述第一文本执行连续片段预测任务:将所述第一文本拆分为两个第一子文本、用掩盖符掩盖第二个第一子文本得到第三文本,将所述第三文本输入所述问答对生成模型,预测出被掩盖的第一子文本;
连续片段预测任务中,第一文本的前半段文本用于提供信息,后半段文本内容的预测为训练目标。
A3、对所述第一文本执行单独片段预测任务:将所述第一文本拆分为三个第二子文本、用掩盖符掩盖第二个第二子文本得到第四文本,将所述第四文本输入所述问答对生成模型,预测出被掩盖的第二子文本;
单独片段预测任务中,第一文本的中间某一连续部分的内容预测为训练目标。
A4、对所述第一文本执行多片段预测任务:将所述第一文本拆分为多个第四子文本,随机选择多个不连续的第四子文本,用掩盖符掩盖选择的多个第四子文本得到第五文本,将所述第五文本输入所述问答对生成模型,预测出被掩盖的多个第四子文本;
多片段预测任务中,第一文本中随机选择的多个非连续片段的内容预测为训练目标。
A2、A3及A4步骤中提到的片段预测的计算公式为:
其中,ti表示第一文本中第i个词语,t<i表示第一文本中第i个词语前面的所有词语,p(ti,ti+1,…,ti+n|t<i)表示第一文本中第i个词语与第i+n个词语之间的词语片段的出现概率,P(x)表示第一文本出现的概率。
由上述片段预测计算公式可知,需通过前面所有的词语来预测N个连续词语片段。
A5、通过所述掩盖词预测任务、连续片段预测任务、单独片段预测及多片段预测任务确定所述问答对生成模型的第一参数,得到调整后的问答对生成模型。
本实施例中,所述第二训练包括:
B1、从第三数据库中抽取携带标注信息的第六文本,将所述第六文本输入所述调整后的问答对生成模型,得到多个预测问答对;
B2、根据所述标注信息确定所述第二文本的多个真实问答对,通过最小化预测问答对与真实问答对之间的损失值确定所述调整后的问答对生成模型的第二参数,得到训练好的问答对生成模型。
所述第三数据库中存储有各个领域的携带标注信息的阅读理解数据集,本实施例中,第三数据库中存储有以下8个数据集:
1)BIPAR小说阅读理解数据集;2)CJRC法律阅读理解数据集;3)cmrc2018wiki阅读理解数据集;4)dureader2百度问答阅读理解数据集;5)NCPPolicies政策阅读理解数据集;6)自采集法律文书阅读理解数据集;7)自采集医药领域阅读理解数据集;8)自采集新闻阅读理解数据集;9)自采集游戏阅读理解数据集。
以初始文本为某款游戏的简介说明为例,所述第六文本为游戏阅读理解数据集中的文本数据,第六文本的标注信息中标注了第六文本对应的多个真实问答对。
本实施例中,需将第六文本转换为文本序列输入调整后的问答对生成模型,所述将第六文本转换为文本序列包括:通过连接符将第六文本、标注信息中的答案及标注信息中的问题连接起来得到拼接文本,在所述拼接文本的开头及结尾处分别添加开始符和结束符,得到文本序列。
本实施例中,连接符为[sep],开始符为[start],结束符为[end]。
问答对生成模型预测答案的计算公式为:
其中,ai为预测答案中第i个词语,c为第六文本,a<i为预测答案中第i个词语前的所有词语,p(ai|c,a<i)为预测答案中第i个词语是答案的概率,P(answer)为预测答案是答案的概率。
问答对生成模型预测问题的计算公式为:
其中,qi为预测问题中第i个词语,c为第六文本,a为预测答案,q<i为预测问题中第i个词语前的所有词语,p(qi|c,a,q<i)为预测问题中第i个词语是预测答案对应的问题的概率,P(question)为预测问题是问题的概率。
p(ai|c,a<i)、P(answer)、p(qi|c,a,q<i)、P(question)对应的数值为模型输出的。
由上述预测问答对的计算公式可知,答案通过文本生成(即答案是文本中的一个连续片段),问题通过文本和答案生成。
本实施例中,所述初始答案信息包括多个初始答案、所述多个初始答案中各个初始答案是答案的第一概率及各个初始答案中第一个词语是答案的第二概率,所述对所述初始答案信息执行过滤处理得到多个目标答案包括:
C1、判断所述第一概率是否大于概率阈值,将大于概率阈值的初始答案的集合作为第一答案集;
C2、按照第二概率从高到低的顺序对所述第一答案集中的答案进行排序,选择排序靠前的预设数量的答案放入第二答案集;
C3、过滤所述第二答案集中的重复答案,得到目标答案。
所述过滤所述第二答案集中的重复答案包括:
D1、将所述第二答案集中的答案两两组合,得到多个组合对;
D2、计算每个组合对中两个答案的最长公共子序列的相似度值,从相似度值大于相似度阈值的组合对中选择一个答案,将选择的答案从所述第二答案集中删除。
将第二答案集中剩余的答案作为目标答案,本步骤的目的是为了删除重复答案。
假设初始文本内容为:《公主连结Re:Dive》是游戏《公主连结》的续作游戏,原作游戏已经于2016年7月29日关服。2016年在\"Cygames NEXT 2016\"上确定了新作的名称为《公主连结Re:Dive》,除了原作的角色外还加入了新角色。宣布续作后玩家们一直在期待,然而Cygames一再跳票,一直拖到2017年7月开始事前登录(预注册),2018年2月15日才开服。游戏的故事剧情由日本轻小说作家日日日撰写,共计70余万字,主题曲由制作过《樱花大战》的音乐人田中公平制作,剧情动画由制作过《进击的巨人》等动画作品的WIT STUDIO制作,到了后面转为由Cygames自己的动画部CygamesPictures制作。
若第一概率大于概率阈值(0.8)的初始答案包括:原作游戏已经于2016年7月29日关服、2018年2月15日、樱花大战、公主连结Re:Dive、《公主连结Re:Dive》,按照第二概率从高到低的顺序排列,筛选出的第二答案集中的答案包括:原作游戏已经于2016年7月29日关服、公主连结Re:Dive、《公主连结Re:Dive》,则计算第二答案集中每两个答案的最长公共子序列的相似度值,可得出公主连结Re:Dive和《公主连结Re:Dive》的相似度值较高,从第二答案集中删除公主连结Re:Dive或《公主连结Re:Dive》,可得到目标答案。
S4、将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
本发明通过第一训练、第二训练得到的问答对生成模型,可针对开放领域的任一篇文章生成多个问答对,生成效率高、生成的问答对的匹配度高。
由上述实施例可知,本发明提出的问答对生成方法,首先,根据初始文本所属的领域类别获取对应的词表,基于所述词表对初始文本执行分词处理得到词语序列,该步骤使得分词结果更为准确;接着,将词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对初始答案信息执行过滤处理得到多个目标答案,该步骤通过问答对生成模型生成初始文本对应的初始答案信息及目标答案,使得生成的答案更为准确;最后,将词语序列及目标答案输入问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对,本步骤通过同时输入词语序列及目标答案使得生成的目标问题与对应的目标答案更为匹配,且通过模型生成问答对使得问答对的生成效率更高。因此,本发明本发明可应用于数字医疗领域,提高了问答对生成效率,提升了问答对的匹配准确度。
如图2所示,为本发明一实施例提供的问答对生成装置的模块示意图。
本发明所述问答对生成装置100可以安装于电子设备中。根据实现的功能,所述问答对生成装置100可以包括解析模块110、分词模块120、过滤模块130及生成模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
解析模块110,用于解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本。
本发明的目的是通过一个初始文本生成多个问答对,所述初始文本可以是一篇文章,也可以是一篇新闻报道,且所述初始文本不限领域。
例如,某公司新出了一款游戏,为生成该游戏对应的问答对,所述请求携带的初始文本为该游戏的简介说明。
分词模块120,用于根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列。
本实施例中,预先通过爬虫技术采集了多个不同领域的数据集,例如,包括知乎、小说、新闻、法律、百科、科技、金融、问答等多个领域共104G语料,用于训练问答对生成模型并搭建各个领域的专用词表。
本实施例根据初始文本中的关键词信息确定初始文本所属的领域类别。
所述基于所述词表对所述初始文本执行分词处理得到词语序列包括:
根据所述词表对所述初始文本进行分词得到多个词语,将所述多个词语中的每个词语按照其在所述初始文本中的位置顺序进行拼接得到词语序列。
根据对应的领域类别的专用词表对初始文本进行分词可保证初始文本的分词结果更为准确。
以初始文本为某款游戏的简介说明为例,通过游戏领域的专业词表对初始文本进行分词。
过滤模块130,用于将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案。
本实施例中,构建的问答对生成模型为MTSN模型(Multi-Task based spanprediction network,基于多任务的片段预测模型),采用的是transformer模型结构,包括base模型(12层,维度768)和large模型(16层,维度1024)两种类型,其中base模型训练速度快,large模型生成的问答对匹配度高,本实施例采用large模型进行训练以得到准确度更高的问答对生成模型。
所述问答对生成模型的训练包括第一训练和第二训练,所述第一训练用于训练所述问答对生成模型预测词语及文字片段的能力,所述第二训练用于训练所述问答对生成模型生成问答对的能力。
本实施例中,所述第一训练包括:
A1、从第二数据库中抽取第一文本,对所述第一文本执行掩盖词预测任务:将所述第一文本中各个词语逐一采用掩盖符掩盖得到第二文本,将所述第二文本输入构建的问答对生成模型,预测出被掩盖的词语;
所述第二数据库中存储了多个领域的数据集,所述数据集未携带标注信息,所述第一文本包括各个领域的文本数据。
掩盖词预测任务表示每个token(词语)可通过它前面所有token来预测,掩盖符可用[mask]来表示,该任务中,第一文本中每个词语都需要进行训练。
掩盖词预测任务的计算公式为:
其中,ti表示第一文本中第i个词语,t<i表示第一文本中第i个词语前面的所有词语,p(ti|t<i)表示第一文本中第i个词语出现的概率,P(x)表示第一文本出现的概率。
A2、对所述第一文本执行连续片段预测任务:将所述第一文本拆分为两个第一子文本、用掩盖符掩盖第二个第一子文本得到第三文本,将所述第三文本输入所述问答对生成模型,预测出被掩盖的第一子文本;
连续片段预测任务中,第一文本的前半段文本用于提供信息,后半段文本内容的预测为训练目标。
A3、对所述第一文本执行单独片段预测任务:将所述第一文本拆分为三个第二子文本、用掩盖符掩盖第二个第二子文本得到第四文本,将所述第四文本输入所述问答对生成模型,预测出被掩盖的第二子文本;
单独片段预测任务中,第一文本的中间某一连续部分的内容预测为训练目标。
A4、对所述第一文本执行多片段预测任务:将所述第一文本拆分为多个第四子文本,随机选择多个不连续的第四子文本,用掩盖符掩盖选择的多个第四子文本得到第五文本,将所述第五文本输入所述问答对生成模型,预测出被掩盖的多个第四子文本;
多片段预测任务中,第一文本中随机选择的多个非连续片段的内容预测为训练目标。
A2、A3及A4步骤中提到的片段预测的计算公式为:
其中,ti表示第一文本中第i个词语,t<i表示第一文本中第i个词语前面的所有词语,p(ti,ti+1,…,ti+n|t<i)表示第一文本中第i个词语与第i+n个词语之间的词语片段的出现概率,P(x)表示第一文本出现的概率。
由上述片段预测计算公式可知,需通过前面所有的词语来预测N个连续词语片段。
A5、通过所述掩盖词预测任务、连续片段预测任务、单独片段预测及多片段预测任务确定所述问答对生成模型的第一参数,得到调整后的问答对生成模型。
本实施例中,所述第二训练包括:
B1、从第三数据库中抽取携带标注信息的第六文本,将所述第六文本输入所述调整后的问答对生成模型,得到多个预测问答对;
B2、根据所述标注信息确定所述第二文本的多个真实问答对,通过最小化预测问答对与真实问答对之间的损失值确定所述调整后的问答对生成模型的第二参数,得到训练好的问答对生成模型。
所述第三数据库中存储有各个领域的携带标注信息的阅读理解数据集,本实施例中,第三数据库中存储有以下8个数据集:
1)BIPAR小说阅读理解数据集;2)CJRC法律阅读理解数据集;3)cmrc2018wiki阅读理解数据集;4)dureader2百度问答阅读理解数据集;5)NCPPolicies政策阅读理解数据集;6)自采集法律文书阅读理解数据集;7)自采集医药领域阅读理解数据集;8)自采集新闻阅读理解数据集;9)自采集游戏阅读理解数据集。
以初始文本为某款游戏的简介说明为例,所述第六文本为游戏阅读理解数据集中的文本数据,第六文本的标注信息中标注了第六文本对应的多个真实问答对。
本实施例中,需将第六文本转换为文本序列输入调整后的问答对生成模型,所述将第六文本转换为文本序列包括:通过连接符将第六文本、标注信息中的答案及标注信息中的问题连接起来得到拼接文本,在所述拼接文本的开头及结尾处分别添加开始符和结束符,得到文本序列。
本实施例中,连接符为[sep],开始符为[start],结束符为[end]。
问答对生成模型预测答案的计算公式为:
其中,ai为预测答案中第i个词语,c为第六文本,a<i为预测答案中第i个词语前的所有词语,p(ai|c,a<i)为预测答案中第i个词语是答案的概率,P(answer)为预测答案是答案的概率。
问答对生成模型预测问题的计算公式为:
其中,qi为预测问题中第i个词语,c为第六文本,a为预测答案,q<i为预测问题中第i个词语前的所有词语,p(qi|c,a,q<i)为预测问题中第i个词语是预测答案对应的问题的概率,P(question)为预测问题是问题的概率。
p(ai|c,a<i)、P(answer)、p(qi|c,a,q<i)、P(question)对应的数值为模型输出的。
由上述预测问答对的计算公式可知,答案通过文本生成(即答案是文本中的一个连续片段),问题通过文本和答案生成。
本实施例中,所述初始答案信息包括多个初始答案、所述多个初始答案中各个初始答案是答案的第一概率及各个初始答案中第一个词语是答案的第二概率,所述对所述初始答案信息执行过滤处理得到多个目标答案包括:
C1、判断所述第一概率是否大于概率阈值,将大于概率阈值的初始答案的集合作为第一答案集;
C2、按照第二概率从高到低的顺序对所述第一答案集中的答案进行排序,选择排序靠前的预设数量的答案放入第二答案集;
C3、过滤所述第二答案集中的重复答案,得到目标答案。
所述过滤所述第二答案集中的重复答案包括:
D1、将所述第二答案集中的答案两两组合,得到多个组合对;
D2、计算每个组合对中两个答案的最长公共子序列的相似度值,从相似度值大于相似度阈值的组合对中选择一个答案,将选择的答案从所述第二答案集中删除。
将第二答案集中剩余的答案作为目标答案,本步骤的目的是为了删除重复答案。
假设初始文本内容为:《公主连结Re:Dive》是游戏《公主连结》的续作游戏,原作游戏已经于2016年7月29日关服。2016年在\"Cygames NEXT 2016\"上确定了新作的名称为《公主连结Re:Dive》,除了原作的角色外还加入了新角色。宣布续作后玩家们一直在期待,然而Cygames一再跳票,一直拖到2017年7月开始事前登录(预注册),2018年2月15日才开服。游戏的故事剧情由日本轻小说作家日日日撰写,共计70余万字,主题曲由制作过《樱花大战》的音乐人田中公平制作,剧情动画由制作过《进击的巨人》等动画作品的WIT STUDIO制作,到了后面转为由Cygames自己的动画部CygamesPictures制作。
若第一概率大于概率阈值(0.8)的初始答案包括:原作游戏已经于2016年7月29日关服、2018年2月15日、樱花大战、公主连结Re:Dive、《公主连结Re:Dive》,按照第二概率从高到低的顺序排列,筛选出的第二答案集中的答案包括:原作游戏已经于2016年7月29日关服、公主连结Re:Dive、《公主连结Re:Dive》,则计算第二答案集中每两个答案的最长公共子序列的相似度值,可得出公主连结Re:Dive和《公主连结Re:Dive》的相似度值较高,从第二答案集中删除公主连结Re:Dive或《公主连结Re:Dive》,可得到目标答案。
生成模块140,用于将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
本发明通过第一训练、第二训练得到的问答对生成模型,可针对开放领域的任一篇文章生成多个问答对,生成效率高、生成的问答对的匹配度高。
如图3所示,为本发明一实施例提供的实现问答对生成方法的电子设备的结构示意图。
所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有问答对生成程序10,所述问答对生成程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及问答对生成程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的问答对生成程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行问答对生成程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的问答对生成程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本;
根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列;
将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案;
将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
具体地,所述处理器12对上述问答对生成程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述初始文本的私密和安全性,上述初始文本还可以存储于一区块链的节点中。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有问答对生成程序10,所述问答对生成程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述问答对生成方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种问答对生成方法,其特征在于,所述方法包括:
解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本;
根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列;
将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案;
将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
2.如权利要求1所述的问答对生成方法,其特征在于,所述问答对生成模型的训练包括第一训练,所述第一训练包括:
从第二数据库中抽取第一文本,对所述第一文本执行掩盖词预测任务:将所述第一文本中各个词语逐一采用掩盖符掩盖得到第二文本,将所述第二文本输入构建的问答对生成模型,预测出被掩盖的词语;
对所述第一文本执行连续片段预测任务:将所述第一文本拆分为两个第一子文本、用掩盖符掩盖第二个第一子文本得到第三文本,将所述第三文本输入所述问答对生成模型,预测出被掩盖的第一子文本;
对所述第一文本执行单独片段预测任务:将所述第一文本拆分为三个第二子文本、用掩盖符掩盖第二个第二子文本得到第四文本,将所述第四文本输入所述问答对生成模型,预测出被掩盖的第二子文本;
对所述第一文本执行多片段预测任务:将所述第一文本拆分为多个第四子文本,随机选择不连续的多个第四子文本,用掩盖符掩盖选择的多个第四子文本得到第五文本,将所述第五文本输入所述问答对生成模型,预测出被掩盖的多个第四子文本;
通过所述掩盖词预测任务、连续片段预测任务、单独片段预测及多片段预测任务确定所述问答对生成模型的第一参数,得到调整后的问答对生成模型。
3.如权利要求2所述的问答对生成方法,其特征在于,所述问答对生成模型的训练还包括第二训练,所述第二训练包括:
从第三数据库中抽取携带标注信息的第六文本,将所述第六文本输入所述调整后的问答对生成模型,得到多个预测问答对;
根据所述标注信息确定所述第二文本的多个真实问答对,通过最小化预测问答对与真实问答对之间的损失值确定所述调整后的问答对生成模型的第二参数,得到训练好的问答对生成模型。
4.如权利要求1所述的问答对生成方法,其特征在于,所述初始答案信息包括多个初始答案、所述多个初始答案中各个初始答案是答案的第一概率及各个初始答案中第一个词语是答案的第二概率,所述对所述初始答案信息执行过滤处理得到多个目标答案包括:
判断所述第一概率是否大于概率阈值,将大于概率阈值的初始答案的集合作为第一答案集;
按照第二概率从高到低的顺序对所述第一答案集中的答案进行排序,选择排序靠前的预设数量的答案放入第二答案集;
过滤所述第二答案集中的重复答案,得到目标答案。
5.如权利要求4所述的问答对生成方法,其特征在于,所述过滤所述第二答案集中的重复答案包括:
将所述第二答案集中的答案两两组合,得到多个组合对;
计算每个组合对中两个答案的最长公共子序列的相似度值,从相似度值大于相似度阈值的组合对中选择一个答案,将选择的答案从所述第二答案集中删除。
6.如权利要求1所述的问答对生成方法,其特征在于,所述基于所述词表对所述初始文本执行分词处理得到词语序列包括:
根据所述词表对所述初始文本进行分词得到多个词语,将所述多个词语中的每个词语按照其在所述初始文本中的位置顺序进行拼接得到词语序列。
7.一种问答对生成装置,其特征在于,所述装置包括:
解析模块,用于解析用户基于客户端发出的问答对生成请求,获取所述请求携带的用于生成问答对的初始文本;
分词模块,用于根据所述初始文本所属的领域类别从第一数据库获取对应的词表,基于所述词表对所述初始文本执行分词处理得到词语序列;
过滤模块,用于将所述词语序列输入训练好的问答对生成模型得到期望生成的问答对的初始答案信息,对所述初始答案信息执行过滤处理得到多个目标答案;
生成模块,用于将所述词语序列及目标答案输入所述问答对生成模型得到每个目标答案对应的目标问题,每个目标答案及其对应的目标问题组成一个问答对,得到多个问答对。
8.如权利要求7所述的问答对生成装置,其特征在于,所述初始答案信息包括多个初始答案、所述多个初始答案中各个初始答案是答案的第一概率及各个初始答案中第一个词语是答案的第二概率,所述对所述初始答案信息执行过滤处理得到多个目标答案包括:
判断所述第一概率是否大于概率阈值,将大于概率阈值的初始答案的集合作为第一答案集;
按照第二概率从高到低的顺序对所述第一答案集中的答案进行排序,选择排序靠前的预设数量的答案放入第二答案集;
过滤所述第二答案集中的重复答案,得到目标答案。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的问答对生成程序,所述问答对生成程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的问答对生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有问答对生成程序,所述问答对生成程序可被一个或者多个处理器执行,以实现如权利要求1至6任一项所述的问答对生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087873.2A CN112183091A (zh) | 2020-10-12 | 2020-10-12 | 问答对生成方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011087873.2A CN112183091A (zh) | 2020-10-12 | 2020-10-12 | 问答对生成方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183091A true CN112183091A (zh) | 2021-01-05 |
Family
ID=73951150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011087873.2A Pending CN112183091A (zh) | 2020-10-12 | 2020-10-12 | 问答对生成方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183091A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139043A (zh) * | 2021-04-29 | 2021-07-20 | 北京百度网讯科技有限公司 | 问答样本生成方法、装置、电子设备和存储介质 |
CN113657089A (zh) * | 2021-08-20 | 2021-11-16 | 西安电子科技大学 | 一种英语阅读理解辅助出题方法及系统 |
CN113704455A (zh) * | 2021-09-08 | 2021-11-26 | 北京大学第三医院(北京大学第三临床医学院) | 药学标准试题库构建方法及装置 |
CN113947067A (zh) * | 2021-09-02 | 2022-01-18 | 北京声智科技有限公司 | 标准问确定方法、装置、设备及计算机可读存储介质 |
CN113962315A (zh) * | 2021-10-28 | 2022-01-21 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
CN114372122A (zh) * | 2021-12-08 | 2022-04-19 | 阿里云计算有限公司 | 信息的获取方法、计算设备及存储介质 |
WO2022160442A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 答案生成方法、装置、电子设备及可读存储介质 |
CN114996424A (zh) * | 2022-06-01 | 2022-09-02 | 吴艳 | 一种基于深度学习的弱监督跨域问答对生成方法 |
CN115905500A (zh) * | 2023-02-07 | 2023-04-04 | 北京面壁智能科技有限责任公司 | 问答对数据的生成方法及装置 |
CN117371404A (zh) * | 2023-12-08 | 2024-01-09 | 城云科技(中国)有限公司 | 一种文本问答数据对生成方法及装置 |
-
2020
- 2020-10-12 CN CN202011087873.2A patent/CN112183091A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022160442A1 (zh) * | 2021-01-28 | 2022-08-04 | 平安科技(深圳)有限公司 | 答案生成方法、装置、电子设备及可读存储介质 |
CN113139043B (zh) * | 2021-04-29 | 2023-08-04 | 北京百度网讯科技有限公司 | 问答样本生成方法、装置、电子设备和存储介质 |
CN113139043A (zh) * | 2021-04-29 | 2021-07-20 | 北京百度网讯科技有限公司 | 问答样本生成方法、装置、电子设备和存储介质 |
CN113657089A (zh) * | 2021-08-20 | 2021-11-16 | 西安电子科技大学 | 一种英语阅读理解辅助出题方法及系统 |
CN113947067A (zh) * | 2021-09-02 | 2022-01-18 | 北京声智科技有限公司 | 标准问确定方法、装置、设备及计算机可读存储介质 |
CN113704455B (zh) * | 2021-09-08 | 2023-07-18 | 北京大学第三医院(北京大学第三临床医学院) | 药学标准试题库构建方法及装置 |
CN113704455A (zh) * | 2021-09-08 | 2021-11-26 | 北京大学第三医院(北京大学第三临床医学院) | 药学标准试题库构建方法及装置 |
CN113962315A (zh) * | 2021-10-28 | 2022-01-21 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
CN113962315B (zh) * | 2021-10-28 | 2023-12-22 | 北京百度网讯科技有限公司 | 模型预训练方法、装置、设备、存储介质以及程序产品 |
CN114372122A (zh) * | 2021-12-08 | 2022-04-19 | 阿里云计算有限公司 | 信息的获取方法、计算设备及存储介质 |
CN114996424A (zh) * | 2022-06-01 | 2022-09-02 | 吴艳 | 一种基于深度学习的弱监督跨域问答对生成方法 |
CN114996424B (zh) * | 2022-06-01 | 2023-05-09 | 吴艳 | 一种基于深度学习的弱监督跨域问答对生成方法 |
CN115905500A (zh) * | 2023-02-07 | 2023-04-04 | 北京面壁智能科技有限责任公司 | 问答对数据的生成方法及装置 |
CN117371404A (zh) * | 2023-12-08 | 2024-01-09 | 城云科技(中国)有限公司 | 一种文本问答数据对生成方法及装置 |
CN117371404B (zh) * | 2023-12-08 | 2024-02-27 | 城云科技(中国)有限公司 | 一种文本问答数据对生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183091A (zh) | 问答对生成方法、装置、电子设备及可读存储介质 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
US11403532B2 (en) | Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm | |
CN112417096A (zh) | 问答对匹配方法、装置、电子设备及存储介质 | |
CN113095076B (zh) | 敏感词识别方法、装置、电子设备及存储介质 | |
CN112016273A (zh) | 文档目录生成方法、装置、电子设备及可读存储介质 | |
JP2019504428A (ja) | 機械学習に基づくウェブインタフェース生成及びテストシステム | |
CN110196848B (zh) | 一种面向公共资源交易数据的清洗去重方法及其系统 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112686036B (zh) | 风险文本识别方法、装置、计算机设备及存储介质 | |
WO2022078308A1 (zh) | 裁判文书摘要生成方法、装置、电子设备及可读存储介质 | |
CN111860377A (zh) | 基于人工智能的直播方法、装置、电子设备及存储介质 | |
CN112001179A (zh) | 命名实体识别方法、装置、电子设备及可读存储介质 | |
WO2022160442A1 (zh) | 答案生成方法、装置、电子设备及可读存储介质 | |
CN112597135A (zh) | 用户分类方法、装置、电子设备及可读存储介质 | |
CN112395401B (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN112686026B (zh) | 基于信息熵的关键词提取方法、装置、设备及介质 | |
CN113688239A (zh) | 少样本下的文本分类方法、装置、电子设备及存储介质 | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN113420143B (zh) | 文书摘要生成方法、装置、设备及存储介质 | |
CN113065947A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111933241A (zh) | 医疗数据解析方法、装置、电子设备及存储介质 | |
CN113657910B (zh) | 实名认证方法、装置、电子设备及可读存储介质 | |
CN114722787B (zh) | 一种基于Excel级联的标签匹配方法、及其相关设备 | |
Skiena et al. | Big data: achieving scale |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |