CN110516055A - 一种结合bert的用于教学任务的跨平台智能问答实现方法 - Google Patents

一种结合bert的用于教学任务的跨平台智能问答实现方法 Download PDF

Info

Publication number
CN110516055A
CN110516055A CN201910760705.6A CN201910760705A CN110516055A CN 110516055 A CN110516055 A CN 110516055A CN 201910760705 A CN201910760705 A CN 201910760705A CN 110516055 A CN110516055 A CN 110516055A
Authority
CN
China
Prior art keywords
answer
question
information
sentence
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910760705.6A
Other languages
English (en)
Inventor
马春燕
王慧朝
张磊
李尚儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Northwest University of Technology
Original Assignee
Northwest University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University of Technology filed Critical Northwest University of Technology
Priority to CN201910760705.6A priority Critical patent/CN110516055A/zh
Publication of CN110516055A publication Critical patent/CN110516055A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种结合BERT的用于教学任务的跨平台智能问答实现方法,首先构建智能问答的问答对知识库,然后利用现代汉语语料库和面向对象课程的领域知识构建智能问答词典,并对知识库中的问题语句进行切分;之后构建基于多个双向Transformer编码器的BERT模型,利用现代汉语语料库对BERT模型进行预训练,得到语言模型M0;再利用问答对知识库中的问题语句构建语料样本集,微调BERT模型M0生成智能问答模型M1;最后利用智能问答模型M1计算提问语句与问答对知识库问题的语义相似度,并结合实际情况设计答案选择策略。本发明利用BERT模型高效的并行运算和准确的上下文信息分析和提取能力以及Web框架的平台无关特性,提高了智能问答模型的训练效率和分析精度以及跨平台能力。

Description

一种结合BERT的用于教学任务的跨平台智能问答实现方法
技术领域
本发明涉及一种结合BERT(Bidirectional Encoder Representation fromTransformers,基于Transformer的双向编码语义表示)的用于教学任务的跨平台智能问答实现方法。
背景技术
智能问答是自然语言处理领域的重要分支之一,能够对海量无序语料信息进行划分和整理并建立系统的知识结构,能够提供高效准确的信息检索服务,满足各个领域的快速、精确地获取信息的需求。
覆盖智能问答任务的自然语言处理包括两部分内容:一是将真实世界抽象存在的文字转换成可以由计算机处理的数学符号表示,即语义表示;另一部分是对这些转换来的表征文字的数学符号表示进行处理,即具体的自然语言处理任务。
目前在自然语言处理的语义表示方面,国内外的研究人员已经提出了很多研究方法和模型。传统的方法是应用静态的词向量作为语义表示,这种方法首先获得基于词汇表的one-hot表示,然后通过矩阵降维或神经网络降维获得词向量,将语义分散存储到向量的各个维度中。这种方法能够从大量未标注的语料信息中提取词向量,但是没有考虑结合上下文信息的词语含义,以及整个语句的上下文信息。这导致在下游具体的智能问答任务中使用的词语表示跟真实世界的语义有一定的误差,同时需要消耗额外的模型和精力对词向量的序列做编码处理以分析词语的上下文信息,降低了自然语言处理的训练效率和模型精度。
在自然语言处理领域备受关注的基于Bi-LSTM的ELMo模型利用整个语句生成语义表示,通过在海量语料上以语言模型为目标训练Bi-LSTM模型,然后利用该语言模型产生词语的表征。这种方法能够产生更加贴近真实语义的语义表示,高层的LSTM的状态可以获取与上下文语境相关的语义表示,低层的LSTM可以获取语句在语法方面的特征。但是LSTM模型没有并行化,很容易超出内存限制,导致使用效率低下,而且前向和后向的两个单向LSTM模型是分别训练的,并非完全的双向模型,这也导致获得的词语上下文信息不够准确。
综上所述,如何在智能问答任务中获得准确的词语或语句上下文信息,提高模型训练效率,是提高智能问答任务效率和准确率的关键问题。如何提高智能问答在多平台上的应用推广能力,降低在教育教学领域的应用要求,对进一步改善智能问答的应用环境,推进教育教学领域智能化改革有重要影响。
发明内容
为解决现有技术中存在的问题,本发明提出一种结合BERT的用于教学任务的跨平台智能问答实现方法,将BERT模型应用到智能问答领域,使智能问答任务对上下文信息能够更准确的分析和提取,提高模型训练效率,提高智能问答任务效率和准确率,并结合跨平台思想提高智能问答的推广能力,为提高教学效率提供新思路。
本发明的技术方案为:
所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:包括以下步骤:
步骤1:构建智能问答的问答对知识库:
将人工和信息分析脚本相结合生成问答对知识库,并基于应用情况实时更新问答对知识库;
步骤2:切分中文提问语句:
利用现代汉语语料库和面向对象课程的领域知识构建智能问答词典;根据建立的智能问答词典,采用双向最大匹配法对问答对知识库中的问题语句进行切分;
步骤3:构建基于多个双向Transformer编码器的BERT模型,利用现代汉语语料库对BERT模型进行预训练,得到语言模型M0;在语言模型M0的输出位置,添加一层连接网络W和一个softmax层,生成智能问答模型M1;其中连接网络W的输入为语言模型M0中特殊分类标记[CLS]对应的输出向量C,softmax层用于对网络W的输出进行语义相似度计算;采用问答对知识库中切分后的问题语句作为语料样本集,以智能问答模型M1的输出准确率最大化为目标函数,利用误差反向传播算法对智能问答模型M1进行调整,得到基于BERT的智能问答模型M1
步骤4:接收实际的中文提问语句,采用双向最大匹配法对中文提问语句进行切分;将切分后的中文提问语句和问答对知识库中切分后的问题语句输入智能问答模型M1,分别计算中文提问语句与问答对知识库中各个问题语句的语义相似度,对各语义相似度计算结果进行排名;取其中语义相似度较高的前若干个问题语句的答案作为提问语句的预选答案。
进一步的优选方案,所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:
步骤1中将人工和信息分析脚本相结合生成问答对知识库的具体过程为:
步骤1.1:收集面向对象课程的信息,包括专业术语、关键词和课程问题;以收集的信息为检索基础,通过信息分析脚本从网络上采集网页信息,对网页信息进行解析,获得原始文本信息;对原始文本信息进行噪音消除操作后从原始文本信息中提取文字,划分出问题和答案信息,生成初始问答对知识库;
步骤1.2:根据已收集到的问题人工生成衍生信息,包括新的专业术语、关键词以及衍生问题;以衍生信息作为检索基础,从网络上获得衍生文本信息,对衍生文本信息进行噪音消除操作后从衍生文本信息中提取文字,划分出问题和答案信息,补充到问答对知识库中;
步骤1.3:重复步骤1.2,直至问答对知识库规模达到设定阈值。
进一步的优选方案,所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:
步骤1中基于应用情况实时更新问答对知识库的具体过程为:
在面向对象课程的教学过程中,当出现问题匹配程度低于设定的语义相似度阈值时,以出现的新问题或问题中的新关键词作为检索基础,从网络上获得对应问题的文本信息,对对应问题的文本信息进行噪音消除操作后从对应问题的文本信息中提取文字,划分出问题和答案信息,补充到问答对知识库中。
进一步的优选方案,所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:
步骤4中设置知识库更新阈值S0和答案选择阈值S1,其中0≤S0≤0.5,0.5<S1≤1;
若计算得到的语义相似度最大值小于S0,则以该提问语句或提问语句中的新关键词作为检索基础,从网络上获得对应问题的文本信息,对对应问题的文本信息进行噪音消除操作后从对应问题的文本信息中提取文字,划分出问题和答案信息,补充到问答对知识库中;
若计算得到的语义相似度最大值大于S1,则将与提问语句语义相似度最高的问题语句对应的答案作为推荐答案;若计算得到的语义相似度最大值不大于S1,则将所有预选答案作为推荐答案。
进一步的优选方案,所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:利用Web开发框架搭建跨平台系统,将步骤4得到的基于BERT的智能问答模型M1嵌入系统,构建跨平台智能问答系统。
有益效果
本发明结合双向最大匹配分词方法和BERT模型,利用BERT模型高效的并行运算和准确的上下文信息分析和提取能力以及Web框架的平台无关特性,提高了智能问答模型的训练效率和分析精度以及跨平台能力。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明所述的结合BERT的跨平台智能问答实现方法图;
图2为本发明所述的BERT模型及其内部组成框架图。
具体实施方式
下面详细描述本发明的实施例,所述实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本实施例中的一种结合BERT的用于教学任务的跨平台智能问答实现方法,包括以下步骤:
步骤1:利用人工和信息分析脚本相结合与基于应用情况的实时更新策略构造智能问答的问答对知识库。具体包括以下内容:
1)利用人工和信息分析脚本相结合生成问答对知识库:
通过课程资料整理和专家咨询,收集面向对象课程的专业术语、关键词和课程问题等领域相关信息,以这些信息为检索基础,通过信息分析脚本从网络上采集网页信息,对网页信息进行解析,获得原始文本信息。对原始文本信息进行噪音消除操作,移除导航条、广告等噪声数据,然后从原始文本信息中提取文字,划分出问题和答案信息,生成初始问答对知识库。同时,根据已收集到的问题人工生成衍生信息,包括新的专业术语、关键词以及衍生问题。以衍生信息作为检索基础,应用相同的信息采集方法扩充知识库规模直至阈值,该阈值根据面向对象课程教学的具体智能问答应用任务设定。
2)基于应用情况实时更新问答对知识库:
设计问答对知识库更新策略:在面向对象课程的教学过程中出现提问问题匹配程度低于设定的语义相似度阈值的情况时,根据出现的新问题或问题中的新关键词,利用信息分析脚本从网络上获取对应问题的信息,更新问答对知识库。
步骤2:利用现代汉语语料库和面向对象课程的领域知识构建智能问答词典;根据建立的智能问答词典,采用双向最大匹配法对问答对知识库中的问题语句进行切分。具体包括以下内容:
1)通过对智能问答任务的分析,构建用于面向对象课程教学任务的智能问答词典。智能问答词典包括标准的现代汉语语料库和面向对象课程的领域关键词以及专业术语。设定词典的更新频率,定期添加新的面向对象课程相关的领域知识和专业术语。
2)利用对比正向最大匹配算法和逆向最大匹配算法的双向最大匹配算法,对中文语句进行切分。具体过程为:基于步骤2中1)构建的用于面向对象课程教学的智能问答词典,采用正向最大匹配算法即从左向右扫描中文语句,查找词典进行词语匹配。若匹配成功,则将匹配字段进行切分;若匹配不成功,则从扫描字段的右侧开始逐字缩小扫描字段的长度,以剩下的扫描字段继续进行匹配。重复以上扫描和匹配过程,直到完成对语句的匹配为止,得到切分结果c={c1,c2,…,cm}。逆向最大匹配法是从右向左扫描中文语句,每次匹配不成功,则从扫描字段的左侧开始逐字缩小扫描字段的长度,得到切分结果c′={c′1,c′2,…,c′n}。从单个词语的字数、包含在词典中的词数和切分结果中词语数量的方面,对比分析切分结果c和c′,挑选出单个词语字数多、包含在词典中的词数多、切分结果词数少的最优切分结果C。
步骤3:利用现代汉语语料库对BERT模型进行预训练,生成关注上下文信息和句子间关系的语言模型,并结合面向对象课程相关的领域语料进行模型微调,构建基于BERT模型的智能问答模型。
具体包括以下内容:
1、利用词嵌入向量、句类别嵌入向量、位置嵌入向量相结合生成BERT模型的输入句向量序列X:
(1)在现代汉语语料库中选择两个语句,并进行分词,将分词结果转换为词语向量表示(v1,v2,…,vN),(v′1,v′2,…,v′N),其中vi和v′i分别代表分词结果中某一词语的词向量表示,N为现代汉语语料库所采用词典中的词语数量。然后利用训练好的word2vec模型对词语向量表示进行映射处理,分别生成由n个词嵌入向量组成的词嵌入向量组Vec1=(V1,V2,…,Vn),Vec2=(V′1,V′2,…,V′n),其中n的值取100,每个Vi和V′i的维数分别取128。
(2)为两个语句的分词结果均随机初始化一个位置向量p,获得两个语句对应的位置向量组P1=(p1,p2,…,pn)和P2=(p′1,p′2,…,p′n),分别相加到对应语句的词嵌入向量Vec1,Vec2中。将已添加位置向量的两个词嵌入向量Vec1,Vec2首尾拼接生成一个序列。在两个词嵌入向量之间添加特殊标记([SEP]),在序列的头尾分别添加特殊分类标记([CLS])和特殊标记([SEP]),构成句向量序列X=(Vec1,Vec2)。
(3)根据两个语句的先后位置关系,生成指示语句序列顺序的句类别嵌入向量Above=(a1,a2,…,an)和Blow=(b1,b2,…,bn),与句向量序列X相加,生成最终的BERT模型的输入句向量序列X。其中向量ai和bi的维数与句向量序列中Vec1和Vec2的各子向量Vi和V′i的维数相同,且向量ai和bi中的全部元素分别取0和1,序列X中末尾的特殊标记([SEP])类别取1,其他标记取0。
2、构建基于多个双向Transformer编码器的BERT模型,利用预训练过程生成语言模型。
(1)利用H个包含多头自注意力子块M和全连接前馈神经网络子块FFNN的相同编码器顺序连接构建双向Transformer编码器,其中H=6。每个子块都包含残差连接和归一化处理,每个Transformer编码器的输出表示为:
Transformer(X)=Norm(M_output(X)+FFNN(M_output(X))) (1)
M_output(X)=Norm(X+M(X)) (2)
其中Norm()为归一化函数,M()为多头自注意力子块的输出函数,FFNN()为全连接前馈网络子块FFNN的输出函数。
归一化函数Norm的输出表示为:
其中xi为输入向量中第i个数值,xmin和xmax分别是输入向量中最小和最大的数值。
多头自注意力子块M的输出表示为:
M(X)=Concat(head1,…,headh)WO (4)
其中h=12,headi的输出表示为:
其中,X为多头自注意力子块M的输入向量,是定义的三个转换矩阵。三个转换矩阵通过随机初始化,在预训练过程计算获得最终的参数值。
上式中的Attention代表缩放点乘注意力模型,其输出表示为:
其中d为向量Q或K的维度n,softmax()是求解输入向量的元素指数与所有元素指数和的比值。
全连接前馈网络子块FFNN的输出表示为:
FFNN(X)=XW1W2…WL (7)
其中L是全连接前馈网络子块FFNN的网络层数,Wi表示全连接前馈网络子块中第i-1层到第i层的权重矩阵,该矩阵随机初始化,在预训练过程中利用误差逆向传播算法更新各权重矩阵。
(2)构建基于Y个双向Transformer编码器的BERT模型,其中Y=12个相同结构的Transformer编码器依次顺序连接起来,形成BERT模型。整个模型的输出表示为:
Tr1_output=Transformer1(X)
Tr2_output=Transformer2(Tr1_output) (8)
……
BERT_output=TrY_output=TransformerY(TrY-1_output)
其中Transformeri()表示第i个Transformer编码器对输入的处理。
(3)利用屏蔽语言模型训练和句对预测两个任务并结合现代汉语语料库预训练BERT模型。具体内容为:
利用屏蔽语言模型训练任务即通过随机屏蔽输入语句中15%的词语训练BERT模型的深度双向表示能力。训练过程中被随机屏蔽的词语分布为:80%的词语替换为[MASK]标记,10%的词语使用其他词语随机替换,剩余10%的词语保留原词语信息。设置交叉熵函数作为屏蔽语言模型训练任务的目标函数,其中p(x)是输入为x时模型的正确率。
利用句对预测训练任务即使用包含上下句对的训练样本,训练模型对两个句子的关系判断能力。训练过程中训练语料包括50%的上下句相关样本和50%的上下句无关样本。设置均方误差函数作为句对预测训练任务的目标函数,其中Z是测试集样本数,yi和y′i分别是句对真实相似值和模型预测值。
将以上两个训练任务的目标函数的总和作为BERT模型的目标函数F=H+MSE,应用海量中文语料预训练模型,利用误差反向传播算法更新BERT模型各参数,实现目标函数F最小化,获得语言模型M0
3、利用问答对知识库中的问题语句构建语料样本集,微调BERT模型M0生成智能问答模型M1
在语言模型M0的输出位置,添加一层连接网络W和一个softmax层,生成智能问答模型M1;其中网络W的输入为语言模型M0中特殊分类标记[CLS]对应的输出向量C,网络W维数为输出向量C的维数,softmax层用于对网络W的输出进行语义相似度计算,计算结果为P,输出表示为:
P=softmax(C·WT) (9)
其中softmax()函数与式(6)中的相同。
采用问答对知识库中切分后的问题语句作为语料样本集,以智能问答模型M1的输出准确率最大化为目标函数,利用误差反向传播算法对智能问答模型M1进行调整,得到基于BERT的最终的智能问答模型M1
步骤4:接收实际的中文提问语句,利用微调后的基于BERT模型的智能问答模型M1计算提问语句与问答对知识库问题的语义相似度,并结合实际情况设计答案选择策略,具体包括以下内容:
1、应用微调后的基于BERT模型的智能问答模型M1,分别计算提问语句与问答对知识库中各个存储问题的语义相似度,对各语义相似度计算结果进行排名。
2、找出语义相似度计算结果中排名前五的知识库问题,将对应的答案作为提问语句的预选答案。基于面向对象课程教学的实际情况,设置动态语义相似度知识库更新阈值S0和答案选择阈值S1,其中0≤S0≤0.5,0.5<S1≤1。若语义相似度最高值低于知识库更新阈值S0,则将提问语句添加到知识库中并按照知识库构建方法更新知识库;若语义相似度最高值高于答案选择阈值S1,则将与提问语句语义相似度最高的知识库问题对应的答案作为推荐答案;若语义相似度最高值低于答案选择阈值S1,则将所有预选答案作为推荐答案。
最后可以利用Web开发框架搭建跨平台系统,将基于BERT模型的用于面向对象课程教学任务的智能问答模型嵌入系统,构建跨平台智能问答系统,具体包括以下内容:
1、根据面向对象课程教学的实际应用情况和智能问答交互情景,利用Web开发框架搭建基于浏览器的跨平台系统。结合智能问答的原理和实现,创建存储知识库信息的数据持久化模型,并在跨平台系统的基础上添加知识库更新功能。
2、将微调后的基于BERT模型的智能问答模型通过Web开发框架的API接口嵌入到跨平台系统上,实现基于BERT模型的用于面向对象课程教学任务的跨平台智能问答系统。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:包括以下步骤:
步骤1:构建智能问答的问答对知识库:
将人工和信息分析脚本相结合生成问答对知识库,并基于应用情况实时更新问答对知识库;
步骤2:切分中文提问语句:
利用现代汉语语料库和面向对象课程的领域知识构建智能问答词典;根据建立的智能问答词典,采用双向最大匹配法对问答对知识库中的问题语句进行切分;
步骤3:构建基于多个双向Transformer编码器的BERT模型,利用现代汉语语料库对BERT模型进行预训练,得到语言模型M0;在语言模型M0的输出位置,添加一层连接网络W和一个softmax层,生成智能问答模型M1;其中连接网络W的输入为语言模型M0中特殊分类标记[CLS]对应的输出向量C,softmax层用于对网络W的输出进行语义相似度计算;采用问答对知识库中切分后的问题语句作为语料样本集,以智能问答模型M1的输出准确率最大化为目标函数,利用误差反向传播算法对智能问答模型M1进行调整,得到基于BERT的智能问答模型M1
步骤4:接收实际的中文提问语句,采用双向最大匹配法对中文提问语句进行切分;将切分后的中文提问语句和问答对知识库中切分后的问题语句输入智能问答模型M1,分别计算中文提问语句与问答对知识库中各个问题语句的语义相似度,对各语义相似度计算结果进行排名;取其中语义相似度较高的前若干个问题语句的答案作为提问语句的预选答案。
2.根据权利要求1所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:
步骤1中将人工和信息分析脚本相结合生成问答对知识库的具体过程为:
步骤1.1:收集面向对象课程的信息,包括专业术语、关键词和课程问题;以收集的信息为检索基础,通过信息分析脚本从网络上采集网页信息,对网页信息进行解析,获得原始文本信息;对原始文本信息进行噪音消除操作后从原始文本信息中提取文字,划分出问题和答案信息,生成初始问答对知识库;
步骤1.2:根据已收集到的问题人工生成衍生信息,包括新的专业术语、关键词以及衍生问题;以衍生信息作为检索基础,从网络上获得衍生文本信息,对衍生文本信息进行噪音消除操作后从衍生文本信息中提取文字,划分出问题和答案信息,补充到问答对知识库中;
步骤1.3:重复步骤1.2,直至问答对知识库规模达到设定阈值。
3.根据权利要求1所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:
步骤1中基于应用情况实时更新问答对知识库的具体过程为:
在面向对象课程的教学过程中,当出现问题匹配程度低于设定的语义相似度阈值时,以出现的新问题或问题中的新关键词作为检索基础,从网络上获得对应问题的文本信息,对对应问题的文本信息进行噪音消除操作后从对应问题的文本信息中提取文字,划分出问题和答案信息,补充到问答对知识库中。
4.根据权利要求1所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:
步骤4中设置知识库更新阈值S0和答案选择阈值S1,其中0≤S0≤0.5,0.5<S1≤1;
若计算得到的语义相似度最大值小于S0,则以该提问语句或提问语句中的新关键词作为检索基础,从网络上获得对应问题的文本信息,对对应问题的文本信息进行噪音消除操作后从对应问题的文本信息中提取文字,划分出问题和答案信息,补充到问答对知识库中;
若计算得到的语义相似度最大值大于S1,则将与提问语句语义相似度最高的问题语句对应的答案作为推荐答案;若计算得到的语义相似度最大值不大于S1,则将所有预选答案作为推荐答案。
5.根据权利要求1所述一种结合BERT的用于教学任务的跨平台智能问答实现方法,其特征在于:利用Web开发框架搭建跨平台系统,将步骤4得到的基于BERT的智能问答模型M1嵌入系统,构建跨平台智能问答系统。
CN201910760705.6A 2019-08-16 2019-08-16 一种结合bert的用于教学任务的跨平台智能问答实现方法 Pending CN110516055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910760705.6A CN110516055A (zh) 2019-08-16 2019-08-16 一种结合bert的用于教学任务的跨平台智能问答实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910760705.6A CN110516055A (zh) 2019-08-16 2019-08-16 一种结合bert的用于教学任务的跨平台智能问答实现方法

Publications (1)

Publication Number Publication Date
CN110516055A true CN110516055A (zh) 2019-11-29

Family

ID=68626446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910760705.6A Pending CN110516055A (zh) 2019-08-16 2019-08-16 一种结合bert的用于教学任务的跨平台智能问答实现方法

Country Status (1)

Country Link
CN (1) CN110516055A (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159373A (zh) * 2019-12-26 2020-05-15 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
CN111428005A (zh) * 2020-04-12 2020-07-17 中信银行股份有限公司 标准问答对确定方法、装置及电子设备
CN111563144A (zh) * 2020-02-25 2020-08-21 升智信息科技(南京)有限公司 基于语句前后关系预测的用户意图识别方法及装置
CN111680132A (zh) * 2020-07-08 2020-09-18 中国人民解放军国防科技大学 一种用于互联网文本信息的噪声过滤和自动分类方法
CN111753082A (zh) * 2020-03-23 2020-10-09 北京沃东天骏信息技术有限公司 基于评论数据的文本分类方法及装置、设备和介质
CN111784048A (zh) * 2020-06-30 2020-10-16 科大讯飞股份有限公司 试题难度预测方法、装置、电子设备和存储介质
CN111832282A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN112052319A (zh) * 2020-09-01 2020-12-08 杭州师范大学 一种基于多特征融合的智能客服方法及系统
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112256847A (zh) * 2020-09-30 2021-01-22 昆明理工大学 融合事实文本的知识库问答方法
CN112308370A (zh) * 2020-09-16 2021-02-02 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分技术
CN112418875A (zh) * 2020-10-21 2021-02-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN112506963A (zh) * 2020-11-23 2021-03-16 上海方立数码科技有限公司 一种面向多业务场景的服务机器人问题匹配方法
CN112949284A (zh) * 2019-12-11 2021-06-11 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN112988996A (zh) * 2021-03-10 2021-06-18 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113065356A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 一种基于语义分析算法的it设备运维故障建议处理方法
WO2021139486A1 (zh) * 2020-01-08 2021-07-15 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN113254612A (zh) * 2021-05-24 2021-08-13 中国平安人寿保险股份有限公司 知识问答处理方法、装置、设备及存储介质
CN113360606A (zh) * 2021-06-24 2021-09-07 哈尔滨工业大学 一种基于Filter的知识图谱问答联合训练方法
WO2021184527A1 (zh) * 2020-03-19 2021-09-23 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN113434652A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 智能问答方法、智能问答装置、设备及存储介质
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113806558A (zh) * 2021-09-22 2021-12-17 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备
CN113836276A (zh) * 2020-06-24 2021-12-24 北京字节跳动网络技术有限公司 实现智能问答的方法和装置
CN113961667A (zh) * 2021-09-23 2022-01-21 哈尔滨工业大学(深圳) 一种基于Bert的动态阈值调整的智能问答系统
CN114020874A (zh) * 2021-11-11 2022-02-08 万里云医疗信息科技(北京)有限公司 一种病历检索系统、方法、设备和计算机可读存储介质
CN114297357A (zh) * 2021-12-27 2022-04-08 北京中科闻歌科技股份有限公司 一种基于量子计算的问答模型构建方法、装置及电子设备
CN114416966A (zh) * 2022-01-24 2022-04-29 山东大学第二医院 一种基于Simhash-BERT网络的医用耗材合理使用分析方法
CN115203356A (zh) * 2022-06-15 2022-10-18 延边大学 专业领域问答库构建方法、问答方法及系统
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN115795040A (zh) * 2023-02-10 2023-03-14 成都桉尼维尔信息科技有限公司 一种用户画像分析方法及系统
CN116414958A (zh) * 2023-02-06 2023-07-11 飞算数智科技(深圳)有限公司 文本语料的生成方法、装置、存储介质及电子设备
CN116662582A (zh) * 2023-08-01 2023-08-29 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
US11748356B2 (en) 2019-12-06 2023-09-05 Nec Corporation Answering complex queries in knowledge graphs with bidirectional sequence encoders
CN117094396A (zh) * 2023-10-19 2023-11-21 北京英视睿达科技股份有限公司 知识抽取方法、装置、计算机设备及存储介质
CN117194602A (zh) * 2023-09-06 2023-12-08 书音(上海)文化科技有限公司 基于大语言模型和bert模型的本地知识库更新方法及系统
CN117235287A (zh) * 2023-11-13 2023-12-15 悦享星光(北京)科技有限公司 一种人工智能问答知识库的建立方法及系统
CN117909484A (zh) * 2024-03-19 2024-04-19 华中科技大学 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统
CN113434652B (zh) * 2021-06-30 2024-05-28 平安科技(深圳)有限公司 智能问答方法、智能问答装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011837A1 (en) * 2016-07-07 2018-01-11 International Business Machines Corporation Type-Specific Rule-Based Generation of Semantic Variants of Natural Language Expression
CN110032730A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种文本数据的处理方法、装置和设备
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011837A1 (en) * 2016-07-07 2018-01-11 International Business Machines Corporation Type-Specific Rule-Based Generation of Semantic Variants of Natural Language Expression
CN110032730A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种文本数据的处理方法、装置和设备
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质

Cited By (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11748356B2 (en) 2019-12-06 2023-09-05 Nec Corporation Answering complex queries in knowledge graphs with bidirectional sequence encoders
CN112949284B (zh) * 2019-12-11 2022-11-04 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN112949284A (zh) * 2019-12-11 2021-06-11 上海大学 一种基于Transformer模型的文本语义相似度预测方法
CN111159373B (zh) * 2019-12-26 2023-04-07 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
CN111159373A (zh) * 2019-12-26 2020-05-15 上海智臻智能网络科技股份有限公司 智能问答系统的知识库建立方法、装置和存储介质
WO2021139486A1 (zh) * 2020-01-08 2021-07-15 平安科技(深圳)有限公司 文本增量方法、装置及终端设备
CN111563144B (zh) * 2020-02-25 2023-10-20 升智信息科技(南京)有限公司 基于语句前后关系预测的用户意图识别方法及装置
CN111563144A (zh) * 2020-02-25 2020-08-21 升智信息科技(南京)有限公司 基于语句前后关系预测的用户意图识别方法及装置
WO2021184527A1 (zh) * 2020-03-19 2021-09-23 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN111753082A (zh) * 2020-03-23 2020-10-09 北京沃东天骏信息技术有限公司 基于评论数据的文本分类方法及装置、设备和介质
CN111428005A (zh) * 2020-04-12 2020-07-17 中信银行股份有限公司 标准问答对确定方法、装置及电子设备
CN113836276A (zh) * 2020-06-24 2021-12-24 北京字节跳动网络技术有限公司 实现智能问答的方法和装置
CN111784048B (zh) * 2020-06-30 2024-05-31 科大讯飞股份有限公司 试题难度预测方法、装置、电子设备和存储介质
CN111784048A (zh) * 2020-06-30 2020-10-16 科大讯飞股份有限公司 试题难度预测方法、装置、电子设备和存储介质
CN111680132A (zh) * 2020-07-08 2020-09-18 中国人民解放军国防科技大学 一种用于互联网文本信息的噪声过滤和自动分类方法
CN111680132B (zh) * 2020-07-08 2023-05-19 中国人民解放军国防科技大学 一种用于互联网文本信息的噪声过滤和自动分类方法
CN111832282A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 融合外部知识的bert模型的微调方法、装置及计算机设备
CN112052319B (zh) * 2020-09-01 2022-05-17 杭州师范大学 一种基于多特征融合的智能客服方法及系统
CN112052319A (zh) * 2020-09-01 2020-12-08 杭州师范大学 一种基于多特征融合的智能客服方法及系统
CN112308370A (zh) * 2020-09-16 2021-02-02 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分技术
CN112308370B (zh) * 2020-09-16 2024-03-05 湘潭大学 一种基于Transformer的面向思政课程的主观题自动评分方法
CN112256847A (zh) * 2020-09-30 2021-01-22 昆明理工大学 融合事实文本的知识库问答方法
CN112418875A (zh) * 2020-10-21 2021-02-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN112418875B (zh) * 2020-10-21 2024-03-26 航天信息股份有限公司 跨平台税务智能客服语料迁移方法及装置
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112506963B (zh) * 2020-11-23 2022-09-09 上海方立数码科技有限公司 一种面向多业务场景的服务机器人问题匹配方法
CN112506963A (zh) * 2020-11-23 2021-03-16 上海方立数码科技有限公司 一种面向多业务场景的服务机器人问题匹配方法
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112182231B (zh) * 2020-12-01 2021-03-09 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112988996B (zh) * 2021-03-10 2024-03-08 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN112988996A (zh) * 2021-03-10 2021-06-18 中国平安人寿保险股份有限公司 知识库生成方法、装置、设备及存储介质
CN113065356A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 一种基于语义分析算法的it设备运维故障建议处理方法
CN113065356B (zh) * 2021-03-19 2023-10-31 南方电网调峰调频发电有限公司信息通信分公司 一种基于语义分析算法的it设备运维故障建议处理方法
CN113051929A (zh) * 2021-03-23 2021-06-29 电子科技大学 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113254612A (zh) * 2021-05-24 2021-08-13 中国平安人寿保险股份有限公司 知识问答处理方法、装置、设备及存储介质
CN113360606A (zh) * 2021-06-24 2021-09-07 哈尔滨工业大学 一种基于Filter的知识图谱问答联合训练方法
CN113434652B (zh) * 2021-06-30 2024-05-28 平安科技(深圳)有限公司 智能问答方法、智能问答装置、设备及存储介质
CN113434652A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 智能问答方法、智能问答装置、设备及存储介质
CN113779360A (zh) * 2021-08-18 2021-12-10 深圳技术大学 基于多头问答模型的解题方法、装置、设备及存储介质
CN113806558B (zh) * 2021-09-22 2024-03-26 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备
CN113806558A (zh) * 2021-09-22 2021-12-17 湖北天天数链技术有限公司 问题选择方法、知识图谱构建方法、装置及电子设备
CN113961667A (zh) * 2021-09-23 2022-01-21 哈尔滨工业大学(深圳) 一种基于Bert的动态阈值调整的智能问答系统
CN114020874A (zh) * 2021-11-11 2022-02-08 万里云医疗信息科技(北京)有限公司 一种病历检索系统、方法、设备和计算机可读存储介质
CN114297357A (zh) * 2021-12-27 2022-04-08 北京中科闻歌科技股份有限公司 一种基于量子计算的问答模型构建方法、装置及电子设备
CN114416966A (zh) * 2022-01-24 2022-04-29 山东大学第二医院 一种基于Simhash-BERT网络的医用耗材合理使用分析方法
CN115203356A (zh) * 2022-06-15 2022-10-18 延边大学 专业领域问答库构建方法、问答方法及系统
CN115422362B (zh) * 2022-10-09 2023-10-31 郑州数智技术研究院有限公司 一种基于人工智能的文本匹配方法
CN115422362A (zh) * 2022-10-09 2022-12-02 重庆邮电大学 一种基于人工智能的文本匹配方法
CN116414958A (zh) * 2023-02-06 2023-07-11 飞算数智科技(深圳)有限公司 文本语料的生成方法、装置、存储介质及电子设备
CN115795040B (zh) * 2023-02-10 2023-05-05 成都桉尼维尔信息科技有限公司 一种用户画像分析方法及系统
CN115795040A (zh) * 2023-02-10 2023-03-14 成都桉尼维尔信息科技有限公司 一种用户画像分析方法及系统
CN116662582A (zh) * 2023-08-01 2023-08-29 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
CN116662582B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于自然语言的特定领域业务知识检索方法及检索装置
CN117194602A (zh) * 2023-09-06 2023-12-08 书音(上海)文化科技有限公司 基于大语言模型和bert模型的本地知识库更新方法及系统
CN117194602B (zh) * 2023-09-06 2024-04-19 书音(上海)文化科技有限公司 基于大语言模型和bert模型的本地知识库更新方法及系统
CN117094396B (zh) * 2023-10-19 2024-01-23 北京英视睿达科技股份有限公司 知识抽取方法、装置、计算机设备及存储介质
CN117094396A (zh) * 2023-10-19 2023-11-21 北京英视睿达科技股份有限公司 知识抽取方法、装置、计算机设备及存储介质
CN117235287B (zh) * 2023-11-13 2024-01-30 悦享星光(北京)科技有限公司 一种人工智能问答知识库的建立方法及系统
CN117235287A (zh) * 2023-11-13 2023-12-15 悦享星光(北京)科技有限公司 一种人工智能问答知识库的建立方法及系统
CN117909484A (zh) * 2024-03-19 2024-04-19 华中科技大学 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统
CN117909484B (zh) * 2024-03-19 2024-05-28 华中科技大学 用于施工信息查询的问答Term-BERT模型的构建方法与问答系统

Similar Documents

Publication Publication Date Title
CN110516055A (zh) 一种结合bert的用于教学任务的跨平台智能问答实现方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111897949A (zh) 一种基于Transformer的引导性文本摘要生成方法
CN112364150A (zh) 一种结合检索与生成的智能问答方法和系统
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN110232113B (zh) 一种提高知识库问答准确度的方法及系统
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN111930887A (zh) 基于联合训练方式的多文档多答案机器阅读理解系统
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN116719520B (zh) 代码生成方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111078546B (zh) 一种表达页面特征的方法和电子设备
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
CN115795018B (zh) 一种面向电网领域的多策略智能搜索问答方法及系统
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114912460A (zh) 基于文本挖掘的精细化拟合识别变压器故障方法及设备
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191129