CN116361306A - 面向开放域科普的问答库自动更新方法和装置 - Google Patents
面向开放域科普的问答库自动更新方法和装置 Download PDFInfo
- Publication number
- CN116361306A CN116361306A CN202310368723.6A CN202310368723A CN116361306A CN 116361306 A CN116361306 A CN 116361306A CN 202310368723 A CN202310368723 A CN 202310368723A CN 116361306 A CN116361306 A CN 116361306A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- model
- text
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000013138 pruning Methods 0.000 claims abstract description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 10
- 238000013519 translation Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提出了一种面向开放域科普的问答库自动更新方法,包括:获取问题库,并检索问题对应的答案和文本得到文本‑问题‑答案数据集;将文本‑问题‑答案的监督信号添加至文本‑问题‑答案数据集,并将有监督信号的文本‑问题‑答案的数据集划分为训练集和测试集;对多语言预训练模型进行模型剪枝,并对剪枝后的多语言预训练模型微调得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。本申请提高了问答对生成的准确度,同时能够生成多条问答对自动更新知识库。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种面向开放域科普的问答库自动更新方法和装置。
背景技术
自动问答系统被广泛应用于现实场景中,如聊天机器人、智能客服、语音助手等。传统的自动问答系统存在若干问题:首先,对于开放域的问答场景,很难获取大规模的有效数据来构建相应的问答系统;其次,开放域下的问答场景,每次问题检索都需要花费一定的资源,不能做到根据检索到的文本进行“举一反三”;同时针对开放域的中文问答算法,缺少质量较高的数据机。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种面向开放域科普的问答库自动更新方法,解决了现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。
本申请的第二个目的在于提出一种面向开放域科普的问答库自动更新装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种面向开放域科普的问答库自动更新方法,包括:获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。
可选地,在本申请的一个实施例中,根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集,包括:
根据问题库中的问题进行检索,得到检索页面;
当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;
当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。
可选地,在本申请的一个实施例中,将文本-问题-答案的监督信号添加至文本-问题-答案数据集,包括:
将文本-问题-答案的监督信号以字符串形式添加至答案的起始位置,以生成有监督信号的文本-问题-答案的数据集。
可选地,在本申请的一个实施例中,对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,包括:
获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数,以更新多语言预训练模型,保存更新后的多语言预训练模型的词汇表;
将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。
可选地,在本申请的一个实施例中,使用测试集对中文问答对生成模型进行评测,包括:
将测试集中的文本输入至中文问答对生成模型中,预测生成最佳的预设个数的问题-答案对;
将问题-答案对与标准问题-答案对进行对比,并使用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。
可选地,在本申请的一个实施例中,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库,包括:
根据待预测问题库中的问题进行检索,得到检索页面;
根据检索页面得到最优页面内容,并将最优页面内容作为文本输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库;
其中,当检索页面中含有精选框,则将精选框中的页面内容作为最优页面内容;
当检索页面不包含精选框,则选取检索页面中非广告的网页内容作为最优页面内容。
为达上述目的,本申请第二方面实施例提出了一种面向开放域科普的问答库自动更新装置,包括:
获取模块,用于获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;
划分模块,用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;
微调模块,用于对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;
生成模块,用于构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。
可选地,在本申请的一个实施例中,获取模块,具体用于:
根据问题库中的问题进行检索,得到检索页面;
当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;
当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的面向开放域科普的问答库自动更新方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种面向开放域科普的问答库自动更新方法。
本申请实施例的面向开放域科普的问答库自动更新方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种面向开放域科普的问答库自动更新方法的流程示意图;
图2为本申请实施例的面向开放域科普的问答库自动更新方法的另一个流程示意图;
图3为本申请实施例的面向开放域科普的问答库自动更新方法的答案自动化标注流程示意图;
图4为本申请实施例二所提供的一种面向开放域科普的问答库自动更新装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的面向开放域科普的问答库自动更新方法和装置。
图1为本申请实施例一所提供的一种面向开放域科普的问答库自动更新方法的流程示意图。
如图1所示,该面向开放域科普的问答库自动更新方法包括以下步骤:
步骤101,获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;
步骤102,将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;
步骤103,对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;
步骤104,构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。
本申请实施例的面向开放域科普的问答库自动更新方法,通过获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。由此,能够解决现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。
本申请提出一种面向开放域科普的问答库自动更新方法,该方法将问答对自动生成任务视为端到端的生成任务,该方法包括通过问题库批量读取科普内容网址;根据爬取的网页是否有精选框来做不同的答案提取处理,将文本-问题-答案作为源端的有监督信号,自动化构建数据集;对基于编码器-解码器的多语种预训练模型进行剪枝,去除语言冗余、标点等的向量表示参数;训练并评测模型的效果;模型工程化部署,利用接口实时更新知识库,在问答对生成方面具有较高的准确度,能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。此外,本申请在问题和答案标注阶段,采用不同策略,使得标注结果更具有准确性和可信度。
如图2所示,本申请通过问题库批量读取科普内容网址,根据爬取的网页是否有精选框来做不同的答案提取处理;将的文本-问题-答案的监督信号以字符串形式添加至答案的起始位置,从而形成有监督信号的文本-问题-答案的数据集将的有监督信号的文本-问题-答案的数据集划分为训练集、验证集、测试集;将基于编码器-解码器(Encoder-Decoder)的多语言预训练模型进行模型剪枝,将训练集和验证集用剪枝后的多语言预训练模型加以微调,得到中文问答对生成模型;用测试集评测中文问答对生成模型的性能,将测试集中的文本输入至微调后的模型中,通过微调后的模型生成预测的问题和对应答案,评测模型的效果;模型工程化部署,利用接口实时反馈问答对生成结果。
进一步地,在本申请实施例中,根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集,包括:
根据问题库中的问题进行检索,得到检索页面;
当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;
当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。
本申请实施例中,建立常见领域问题库,利用BaiduSpider等爬虫工具对每条问题进行检索,批量读取科普内容网址,根据爬取的网页是否有精选框来做不同的答案提取处理。
如图3所示,根据已有问题库,利用BaiduSpider等爬虫工具对每条问题进行检索;然后对检索回来的页面进行判断,看返回的的字段中是否含有精选框,如果检索页面含有精选回答,则将精选框中的答案和文本作为该问题的答案和对应文本;如果检索页面不含有精选框,则选取检索页面中非广告的前五个网页内容,通过使用微调好的bert阅读理解模型抽取答案,设置较高的置信度,取置信度高于预设置信度且分值最高的页面内容和答案作为该问题的对应文本和答案。
进一步地,在本申请实施例中,将文本-问题-答案的监督信号添加至文本-问题-答案数据集,包括:
将文本-问题-答案的监督信号以字符串形式添加至答案的起始位置,以生成有监督信号的文本-问题-答案的数据集。
本申请中,通过将文本-问题-答案的监督信号,以<监督信号名>的形式添加至答案的起始位置形成有监督信号的文本-问题-答案数据集,其中,数据集中每行数据的形式可以为(答案文本,问题,<监督信号名>答案),每行数据可以存为json或者csv格式的文件。
其中,监督信号可以为特殊标记,将文本-问题-答案的监督信号添加至文本-问题-答案数据集可以为将问题库中的文本、问题、答案通过特殊标记做区分。
本申请可以按照8:1:1比例将带有监督信号的文本-问题-答案的数据集数据划分为训练集、验证集、测试集,以便于后续训练模型并验证模型的性能。
进一步地,在本申请实施例中,对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,包括:
获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数,以更新多语言预训练模型,保存更新后的多语言预训练模型的词汇表;
将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。
由于包含中文的基于编码器-解码器的预训练模型大多是多语言预训练模型,对于中文而言包含过多冗余信息并且耗用资源过大,因此修剪冗余的向量表示将多语言预训练模型转变为适用于中文的单语言预训练模型。
本申请实施例中,对基于编码器-解码器(Encoder-Decoder)的多语言预训练模型进行模型剪枝,可以通过选取常用标点符号、数字和英文字母以及高频的中文词替换多语言预训练模型的输入和输出向量表示的参数以更新神经网络,并保存更新后的多语言预训练模型的新的词汇表。结合训练集和验证集对剪枝后的多语言预训练模型进行微调得到中文问答对生成模型。
进一步地,在本申请实施例中,使用测试集对中文问答对生成模型进行评测,包括:
将测试集中的文本输入至中文问答对生成模型中,预测生成最佳的预设个数的问题-答案对;
将问题-答案对与标准问题-答案对进行对比,并使用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。
本申请实施例中,将测试集的文本给定输入到微调后的模型中,预测生成出最佳的top k个问题-答案对,与标准参考的问题-答案对进行对比,并用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。其中,BLEU主要用来评估机器翻译质量,主要根据精确率(Precision)衡量翻译的质量;是一种常用的机器翻译和文章摘要评价指标,根据召回率(Recall)衡量翻译的质量。Rouge-L考虑了机器译文和参考译文之间的最长公共子序列;基于GAN网络的方法进行评估,用GAN网络的思想来对对话系统的质量进行评估,是把文本生成模型当做GAN网络中的生成器,然后采用一个RNN作为判别器,来判断一对问答对是机器生成的还是人工生成的。
进一步地,在本申请实施例中,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库,包括:
根据待预测问题库中的问题进行检索,得到检索页面;
根据检索页面得到最优页面内容,并将最优页面内容作为文本输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库;
其中,当检索页面中含有精选框,则将精选框中的页面内容作为最优页面内容;
当检索页面不包含精选框,则选取检索页面中非广告的网页内容作为最优页面内容。
本申请实施例中,将中文问答对生成模型工程化部署,利用接口实时反馈问答对生成结果。具体地,使用web框架Flask封装接口,请求方式为POST,以json格式进行数据传输。过程为,通过遍历问题库,检索相应问题后返回检索页面及是否具有精选框标识,去掉广告等网页影响,将最优页面内容输入到模型中,在后端完成数据清洗与模型处理,将模型处理结果自动更新到知识库中。
图4为本申请实施例二所提供的一种面向开放域科普的问答库自动更新装置的结构示意图。
如图4所示,该面向开放域科普的问答库自动更新装置,包括:
获取模块10,用于获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;
划分模块20,用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;
微调模块30,用于对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;
生成模块40,用于构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。
本申请实施例的面向开放域科普的问答库自动更新装置,包括获取模块,用于获取问题库,并根据问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;划分模块,用于将文本-问题-答案的监督信号添加至文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;微调模块,用于对多语言预训练模型进行模型剪枝,使用训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用测试集对中文问答对生成模型进行评测;生成模块,用于构建待预测问题库,根据待预测问题库进行检索,并将检索得到的最优页面内容输入至中文问答对生成模型,预测生成多个问答对,并根据多个问答对自动更新问答库。由此,能够解决现有方法很难获取大规模的有效数据来构建相应的问答系统,问题检索花费大量资源,且缺少质量较高的数据机技术问题,提高了问答对生成的准确度,同时能够使开放域问答功能学会“举一反三”,通过检索一个问题可以根据检索到的文本生成多条问答对,自动更新知识库。
进一步地,在本申请实施例中,获取模块,具体用于:
根据问题库中的问题进行检索,得到检索页面;
当检索页面中含有精选框,则将精选框中的答案和文本作为问题的答案和文本;
当检索页面不包含精选框,则选取检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为问题的答案和文本。
为了实现上述实施例,本申请还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的面向开放域科普的问答库自动更新方法。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的面向开放域科普的问答库自动更新方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种面向开放域科普的问答库自动更新方法,其特征在于,包括以下步骤:
获取问题库,并根据所述问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;
将文本-问题-答案的监督信号添加至所述文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;
对多语言预训练模型进行模型剪枝,使用所述训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用所述测试集对所述中文问答对生成模型进行评测;
构建待预测问题库,根据所述待预测问题库进行检索,并将检索得到的最优页面内容输入至所述中文问答对生成模型,预测生成多个问答对,并根据所述多个问答对自动更新问答库。
2.如权利要求1所述的方法,其特征在于,所述根据所述问题库检索问题对应的答案和文本,得到文本-问题-答案数据集,包括:
根据问题库中的问题进行检索,得到检索页面;
当所述检索页面中含有精选框,则将所述精选框中的答案和文本作为所述问题的答案和文本;
当所述检索页面不包含精选框,则选取所述检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据所述预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为所述问题的答案和文本。
3.如权利要求1所述的方法,其特征在于,所述将文本-问题-答案的监督信号添加至所述文本-问题-答案数据集,包括:
将文本-问题-答案的监督信号以字符串形式添加至答案的起始位置,以生成有监督信号的文本-问题-答案的数据集。
4.如权利要求1所述的方法,其特征在于,所述对多语言预训练模型进行模型剪枝,使用所述训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,包括:
获取高频的标点符号、数字、英文字母和中文词替换多语言预训练模型的输入向量表示和输出向量表示的参数,以更新所述多语言预训练模型,保存更新后的多语言预训练模型的词汇表;
将更新后的多语言预训练模型与训练集结合进行微调得到中文问答对生成模型。
5.如权利要求1所述的方法,其特征在于,所述使用所述测试集对所述中文问答对生成模型进行评测,包括:
将所述测试集中的文本输入至所述中文问答对生成模型中,预测生成最佳的预设个数的问题-答案对;
将所述问题-答案对与标准问题-答案对进行对比,并使用BLEU-4、Rouge-L以及基于GAN网络的方法三个评测指标对模型进行评测。
6.如权利要求1所述的方法,其特征在于,所述根据所述待预测问题库进行检索,并将检索得到的最优页面内容输入至所述中文问答对生成模型,预测生成多个问答对,并根据所述多个问答对自动更新问答库,包括:
根据待预测问题库中的问题进行检索,得到检索页面;
根据所述检索页面得到最优页面内容,并将所述最优页面内容作为文本输入至所述中文问答对生成模型,预测生成多个问答对,并根据所述多个问答对自动更新问答库;
其中,当所述检索页面中含有精选框,则将所述精选框中的页面内容作为最优页面内容;
当所述检索页面不包含精选框,则选取所述检索页面中非广告的网页内容作为最优页面内容。
7.一种面向开放域科普的问答库自动更新装置,其特征在于,包括:
获取模块,用于获取问题库,并根据所述问题库检索问题对应的答案和文本,得到文本-问题-答案数据集;
划分模块,用于将文本-问题-答案的监督信号添加至所述文本-问题-答案数据集,并将有监督信号的文本-问题-答案的数据集划分为训练集和测试集;
微调模块,用于对多语言预训练模型进行模型剪枝,使用所述训练集对剪枝后的多语言预训练模型微调,得到中文问答对生成模型,并使用所述测试集对所述中文问答对生成模型进行评测;
生成模块,用于构建待预测问题库,根据所述待预测问题库进行检索,并将检索得到的最优页面内容输入至所述中文问答对生成模型,预测生成多个问答对,并根据所述多个问答对自动更新问答库。
8.如权利要求7所述的装置,其特征在于,所述获取模块,具体用于:
根据问题库中的问题进行检索,得到检索页面;
当所述检索页面中含有精选框,则将所述精选框中的答案和文本作为所述问题的答案和文本;
当所述检索页面不包含精选框,则选取所述检索页面中非广告的预设数量的网页内容,并通过微调好的bert阅读理解模型根据所述预设数量的网页内容抽取答案,得到各个网页内容对应的答案和答案的置信度,并选取置信度高于预设置信度,且置信度最高的答案和对应的网页内容作为所述问题的答案和文本。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310368723.6A CN116361306A (zh) | 2023-04-07 | 2023-04-07 | 面向开放域科普的问答库自动更新方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310368723.6A CN116361306A (zh) | 2023-04-07 | 2023-04-07 | 面向开放域科普的问答库自动更新方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116361306A true CN116361306A (zh) | 2023-06-30 |
Family
ID=86916107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310368723.6A Pending CN116361306A (zh) | 2023-04-07 | 2023-04-07 | 面向开放域科普的问答库自动更新方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361306A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194602A (zh) * | 2023-09-06 | 2023-12-08 | 书音(上海)文化科技有限公司 | 基于大语言模型和bert模型的本地知识库更新方法及系统 |
CN117271290A (zh) * | 2023-11-20 | 2023-12-22 | 北京智谱华章科技有限公司 | 一种公平高效的多对话系统测评系统及方法 |
-
2023
- 2023-04-07 CN CN202310368723.6A patent/CN116361306A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194602A (zh) * | 2023-09-06 | 2023-12-08 | 书音(上海)文化科技有限公司 | 基于大语言模型和bert模型的本地知识库更新方法及系统 |
CN117194602B (zh) * | 2023-09-06 | 2024-04-19 | 书音(上海)文化科技有限公司 | 基于大语言模型和bert模型的本地知识库更新方法及系统 |
CN117271290A (zh) * | 2023-11-20 | 2023-12-22 | 北京智谱华章科技有限公司 | 一种公平高效的多对话系统测评系统及方法 |
CN117271290B (zh) * | 2023-11-20 | 2024-02-20 | 北京智谱华章科技有限公司 | 一种公平高效的多对话系统测评系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN116361306A (zh) | 面向开放域科普的问答库自动更新方法和装置 | |
CN107015969A (zh) | 可自我更新的语义理解系统与方法 | |
CN111708703A (zh) | 测试案例集生成方法、装置、设备及计算机可读存储介质 | |
CN103530282A (zh) | 语料标注方法及设备 | |
CN111312209A (zh) | 文本到语音的转换处理方法、装置及电子设备 | |
CN110600002B (zh) | 语音合成方法、装置及电子设备 | |
CN111145724B (zh) | 一种多音字标注方法、装置以及计算机可读存储介质 | |
CN114218379B (zh) | 一种面向智能问答系统的无法回答问题的归因方法 | |
CN107291775A (zh) | 错误样本的修复语料生成方法和装置 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN111552787A (zh) | 问答处理方法、装置、设备及存储介质 | |
CN112749544B (zh) | 段落分割模型的训练方法及系统 | |
CN112116181B (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN112069818A (zh) | 三元组预测模型生成方法、关系三元组提取方法和装置 | |
CN114722822B (zh) | 命名实体识别方法、装置、设备和计算机可读存储介质 | |
US20120197894A1 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN114564942B (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN115221284A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN115563959A (zh) | 面向中文拼音拼写纠错的自监督预训练方法、系统及介质 | |
CN110543636B (zh) | 一种对话系统的训练数据选择方法 | |
CN110837735B (zh) | 一种数据智能分析识别方法及系统 | |
CN112560431A (zh) | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 | |
CN112036183A (zh) | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |