CN111563166B - 一种针对数学问题分类的预训练模型方法 - Google Patents

一种针对数学问题分类的预训练模型方法 Download PDF

Info

Publication number
CN111563166B
CN111563166B CN202010470913.5A CN202010470913A CN111563166B CN 111563166 B CN111563166 B CN 111563166B CN 202010470913 A CN202010470913 A CN 202010470913A CN 111563166 B CN111563166 B CN 111563166B
Authority
CN
China
Prior art keywords
training
knowledge
model
mathematical
knowledge point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010470913.5A
Other languages
English (en)
Other versions
CN111563166A (zh
Inventor
王伟松
于业江
郑欢
阮涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xuehai Education Technology Co ltd
Original Assignee
Zhejiang Xuehai Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xuehai Education Technology Co ltd filed Critical Zhejiang Xuehai Education Technology Co ltd
Priority to CN202010470913.5A priority Critical patent/CN111563166B/zh
Publication of CN111563166A publication Critical patent/CN111563166A/zh
Application granted granted Critical
Publication of CN111563166B publication Critical patent/CN111563166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种针对数学问题分类的预训练模型方法,包括如下步骤:构建数学知识点关系的知识图谱,根据每个知识点之间的关系,对知识图谱中的每个知识点生成知识点向量;分别根据训练集和验证集中的数学问题生成文本向量,将文本向量和知识点向量导入并构建文本预训练模型,包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练;将测试集导入预训练模型,对处理后的数学题目进行预测和输出结果。本发明集成了知识图谱,并提出了新颖的掩蔽和预测策略来增强知识点表示,使预测效果更加准确;模型使用知识嵌入算法编码知识图谱的图结构,并将多信息嵌入作为模型的输入,大大提高了预训练的准确度。

Description

一种针对数学问题分类的预训练模型方法
技术领域
本发明涉及一种数学问题预测技术,尤其涉及一种针对数学问题分类的预训练模型方法。
背景技术
如何教授数学中的概念性和过程性知识是教学的热点。程序性知识是“仅涉及记忆操作而不了解基本含义的学习”;概念知识是“对管辖领域的原理以及领域中知识之间的相互关系的明确或隐含的理解”。根据数学知识,我们可以设计基于过程知识或基于概念知识的问题。因此,在教与学方面,知识点具有许多优势,例如开发自动生成测试系统,测量学生的学习能力或影响基于实践的数学知识教学理论(MKT)。
预测合适的知识指向问题并非易事,这主要有三个挑战:(1)短上下文分类:对于给定的数学问题,上下文的长度通常比原始文本分类任务短,如何在如此短的文本中学习,尤其是在预培训过程中,是一个重要的问题;(2)数学知识点编码:在语言模型问题分类任务中,应提取数学知识图中的知识点和关系并进行编码;(3)异构信息学习:数学问题既包含正常内容又包含数学关键词,导致两个单独的向量空间。在一个问题中将数学的词汇、句法和关键词与正常上下文区分开,并且在预训练和微调过程中将这两个不同的内容融合在一起是非常困难的。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种针对数学问题分类的预训练模型方法,其能解决预测效果不准确的问题。
本发明的目的之一采用以下技术方案实现:
一种针对数学问题分类的预训练模型方法,包括如下步骤:
构建数学知识点关系的知识图谱,根据每个知识点之间的关系,对知识图谱中的每个知识点生成知识点向量;
分别根据训练集和验证集中的数学问题生成文本向量,将文本向量和知识点向量导入并构建文本预训练模型,包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练;
将测试集导入预训练模型,对处理后的数学题目进行预测和输出结果。
进一步地,对知识图谱中的每个知识点生成知识点向量,步骤包括:根据输入知识图谱内容,将知识点与知识之间的关系通过向量来表示,当关系成立时,通过平移距离模型将相同空间Rd中将关系转化为向量,得到向量关系句子公式为:
ei + r≈ej,其中,ei为知识点头向量,ej为知识点尾向量,r为关系向量。
进一步地,平移距离模型为TransE、TransH、TransR或KG2E。
进一步地,语义掩码语言模型训练包括:
获取测试集中数学问题内容,对于数学问题中的词汇进行分解;
根据替换规则,将内容中的词汇进行遮盖,并将处理好的向量关系句子带入到词汇被遮盖的位置,使用交叉熵损失函数对替换的词汇和预测填充词汇之间差异进行计算,得到第一损失值。
进一步地,替换规则为:使用随机函数生成范围为0~1的随机值,如该随机值小于0.5,则对知识点进行全部遮盖,如该随机值大于或等于0.5,则使用如下策略:80%的内容对知识点进行全部遮盖,10%的内容使用词表中的词来替换该知识点,10%的内容用于语句通顺替换。
进一步地,相关问题预测模型训练包括:
对测试集内所有问题根据内容设置标签进行分类;
对测试集内所有问题进行两两遍历组合,计算出每组问题之间的相似度值;
对每组中的问题均根据替换规则进行遮盖操作,完成遮盖操作后将两个问题首尾相连,并添加占位符来区分两个问题,形成的组合问题;
判断每组问题的标签是否存在相同,如不相同,则跳出;如相同,则获取两个问题的相似度和相同的标签带入交叉熵损失函数计算损失,得出第二损失值。
进一步地,相似度的计算过程为:分别提取组合内两个问题的所有知识点,分别形成知识点集合,通过相似度函数对两者的知识点集合相似度进行计算,得到组合内两个问题之间的相似度。
进一步地,问题相关性排序训练,步骤包括:
在测试集每个批处理操作中,选择n对问题每对记为<qi,qj>,并通过相似度函数函数计算它们的相似度值;
通过Transformer模型的输入集合为{<q1,q2,v(1,2)>,<q1,q3,v(1,3)>,...,<qi,qj,v(i,j)>} ,其中v(i,j)是相似度值,并看做每对问题的相似得分,根据得分进行排序,得到集合L;
使用归一化折损累计增益作为损失函数,对集合L进行损失计算,得到第三损失值。
进一步地,集合L中,相似度值v(i,j)为一对问题的皮尔森相关系数ρ,并将t设置为集合的索引位置,D为排序相关指标,计算公式如下:
进一步地,根据文本预训练模型,对处理后的数学题目进行预测和输出结果,步骤包括:
获取输入的数学问题,根据预训练获得模型参数,根据计算第一损失值、第二损失值和第三损失值之和获得预测值,对测试集数据进行分类,分类层为每个标签用线性分类器进行二分类,计算得到准确率,输出预测值和准确率结果。
相比现有技术,本发明的有益效果在于:
本发明集成了知识图谱,并提出了新颖的掩蔽和预测策略来增强知识点表示,使预测效果更加准确;模型使用知识嵌入算法编码知识图谱的图结构,并将多信息嵌入作为模型的输入;相对比于BERT模型,本方案针对数学问题的特异性,提供了新的预训练任务,大大提高了预训练的准确度。
附图说明
图1为本发明的一种针对数学问题分类的预训练模型方法的运行流程示意图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例一
如图1所示,一种针对数学问题分类的预训练模型方法,包括如下步骤:
构建数学知识点关系的知识图谱,根据每个知识点之间的关系,对知识图谱中的每个知识点生成知识点向量;
分别根据训练集和验证集中的数学问题生成文本向量,将文本向量和知识点向量导入并构建文本预训练模型,包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练;
将测试集导入预训练模型,对处理后的数学题目进行预测和输出结果。
本发明集成了知识图谱,并提出了新颖的掩蔽和预测策略来增强知识点表示,使预测效果更加准确;模型使用知识嵌入算法编码知识图谱的图结构,并将多信息嵌入作为模型的输入;相对比于BERT模型,本方案针对数学问题的特异性,提供了新的预训练任务,大大提高了预训练的准确度。
实施例二
一种针对数学问题分类的预训练模型方法,包括如下步骤:
构建数学知识点关系的知识图谱,根据每个知识点之间的关系,对知识图谱中的每个知识点生成知识点向量;其中,知识图谱是用来描述各种知识点之间关系的图,知识点与知识点之间的关系通过三元组(知识点-关系-知识点)来表示,存在包含、属于、相关三种关系。在知识图谱中,每个节点是一个知识点,每条边是一种关系,可以从语义层次理解实际问题中的各种关系,描述能力比较强。为了解决多关系数据,可以将知识图谱中的三元组关系转换为向量表示。
本实施例通过构建数学知识点关系的知识图谱,确定每个知识点之间的关系,并对图谱中的每个知识点生成向量值,步骤包括:根据输入知识图谱内容,将知识点与知识之间的关系通过向量来表示,当关系成立时,通过平移距离模型将相同空间Rd中将关系转化为向量,得到向量关系句子公式为:
ei + r≈ej,其中,ei为知识点头向量,ej为知识点尾向量,r为关系向量。
本实施例的平移距离模型可以为TransE、TransH、TransR或KG2E。
分别根据训练集和验证集中的数学问题生成文本向量,将文本向量和知识点向量导入并构建文本预训练模型,包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练;预训练模型是为了用训练集数据离线训练出合适的参数值,预训练模型最为关键的损失值主要由三部分组成:(1)语义掩码语言模型产生的损失,记为第一损失值;(2)相关问题预测模型产生的损失,记为第二损失值;(3)问题相关性排序产生的损失,记为第三损失值。也就是说,预训练模型的损失值为上述三者损失值的和,这三部分是预训练模型的关键所在。
将测试集导入预训练模型,对处理后的数学题目进行预测和输出结果。
本实施例中,语义掩码语言模型训练包括:
获取测试集中数学问题内容,对于数学问题中的词汇进行分解;
根据替换规则,将内容中的词汇进行遮盖,并将处理好的向量关系句子带入到词汇被遮盖的位置,使用交叉熵损失函数对替换的词汇和预测填充词汇之间差异进行计算,得到第一损失值。
其中,替换规则为:使用随机函数生成范围为0~1的随机值,如该随机值小于0.5,则对知识点进行全部遮盖,如该随机值大于或等于0.5,则使用如下策略:80%的内容对知识点进行全部遮盖,10%的内容使用词表中的词来替换该知识点,10%的内容用于语句通顺替换。
本实施例中相关问题预测模型训练包括:
对测试集内所有问题根据内容设置标签进行分类;
对测试集内所有问题进行两两遍历组合,计算出每组问题之间的相似度值;
对每组中的问题均根据替换规则进行遮盖操作,完成遮盖操作后将两个问题首尾相连,并添加占位符来区分两个问题,形成的组合问题;
判断每组问题的标签是否存在相同,如不相同,则跳出;如相同,则获取两个问题的相似度和相同的标签带入交叉熵损失函数计算损失,得出第二损失值。
其中,相似度的计算过程为:分别提取组合内两个问题的所有知识点,分别形成知识点集合,通过相似度函数对两者的知识点集合相似度进行计算,得到组合内两个问题之间的相似度。
问题相关性排序训练,步骤包括:
在测试集每个批处理操作中,选择n对问题每对记为<qi,qj>,并通过相似度函数函数计算它们的相似度值;
通过Transformer模型的输入集合为{<q1,q2,v(1,2)>,<q1,q3,v(1,3)>,...,<qi,qj,v(i,j)>} ,其中v(i,j)是相似度值,并看做每对问题的相似得分,根据得分进行排序,得到集合L;使用Transformer模型的目标是重建词汇的向量,并在训练后使具有近似的数学语义的两个问题变得更“相似”;
其中,Transformer模型中使用的编码器是由其相关知识点进行的问题语义编码,由一个多头注意力层和一个前馈神经网络组成。为简单起见,在这里,使用均值函数来计算问题的向量空间ej (i)
其中,为数学题目的文本向量,MH-ATT为多头注意力(multi-head self- attentions的缩写),该文本向量对应的知识点向量;
在信息融合转换层(Transformer)中,将词汇序列和语义向量进行集成,并如下计算每个词汇和知识点的输出嵌入于问题开头的标记中:
其中,为知识点向量平均值,hj、Wj 、ek是整合文本和知识点后的内部隐层状 态系数,σ是非线性函数GELU,W是权值,b是偏置下标,t、e表示两个不同的偏置;
将文本向量(也叫token向量)和知识点向量相互整合,为下一层提供新的文本向量和知识点向量。
为了使词汇和知识点在相关问题中更接近,使用归一化折损累计增益作为损失函数,对集合L进行损失计算,得到第三损失值。
集合L中,相似度值v(i,j)为一对问题的皮尔森相关系数ρ,并将t设置为集合的索引位置,D为排序相关指标,计算公式如下:
为简单起见,将排名函数f’定义为ρ(qi,qj)下降的排名集合L,让理想的DCG(IDCG)由其原始相似度值定义如下:
n为集合文档个数, r表示的是每一项的评分值,y表示的是排序方法;
在此,函数f'不会生成为集合的最大DCG值,而是被设计为以代表(qi,qj)原始相似性的v(qi,qj)值对集合L进行排序。
最后,在每一层中用于训练的损失函数定义为:
NDCG(L) =
根据文本预训练模型,对处理后的数学题目进行预测和输出结果,步骤包括:
获取输入的数学问题,根据预训练获得模型参数,根据计算第一损失值、第二损失值和第三损失值之和获得预测值,对测试集数据进行分类,分类层为每个标签用线性分类器进行二分类,计算得到准确率,输出预测值和准确率结果。
在完全连接层之前使用sigmoid输出函数,并利用二进制交叉熵作为损失函数:
对于多标签二进制分类,其中Ln为损失函数,c是类别,pc是该类别的权重,y是真实值,σ()是预测值。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (5)

1.一种针对数学问题分类的预训练模型方法,其特征在于,包括如下步骤:
构建数学知识点关系的知识图谱,根据每个知识点之间的关系,对知识图谱中的每个知识点生成知识点向量;
分别根据训练集和验证集中的数学问题生成文本向量,将文本向量和知识点向量导入并构建文本预训练模型,包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练;其中,语义掩码语言模型训练包括:获取测试集中数学问题内容,对于数学问题中的词汇进行分解;根据替换规则,将内容中的词汇进行遮盖,并将处理好的向量关系句子带入到词汇被遮盖的位置,使用交叉熵损失函数对替换的词汇和预测填充词汇之间差异进行计算,得到第一损失值,所述向量关系句子公式为:ei + r≈ej,其中,ei为知识点头向量,ej为知识点尾向量,r为关系向量;相关问题预测模型训练包括:对测试集内所有问题根据内容设置标签进行分类,对测试集内所有问题进行两两遍历组合,计算出每组问题之间的相似度值,对每组中的问题均根据替换规则进行遮盖操作,完成遮盖操作后将两个问题首尾相连,并添加占位符来区分两个问题,形成的组合问题,判断每组问题的标签是否存在相同,如不相同,则跳出,如相同,则获取两个问题的相似度和相同的标签带入交叉熵损失函数计算损失,得出第二损失值;相似度的计算过程为:分别提取组合内两个问题的所有知识点,分别形成知识点集合,通过相似度函数对两者的知识点集合相似度进行计算,得到组合内两个问题之间的相似度;问题相关性排序训练,步骤包括:在测试集每个批处理操作中,选择n对问题每对记为<qi,qj>,并通过相似度函数计算它们的相似度值,通过Transformer模型的输入集合为{<q1,q2,v(1,2)>,<q1,q3,v(1,3)>,...,<qi,qj,v(i,j)>} ,其中v(i,j)是相似度值,并看做每对问题的相似得分,根据得分进行排序,得到集合L,使用归一化折损累计增益作为损失函数,对集合L进行损失计算,得到第三损失值;
将测试集导入预训练模型,对处理后的数学题目进行预测和输出结果,其中,将测试集导入预训练模型,对处理后的数学题目进行预测和输出结果包括:获取输入的数学问题,根据预训练获得模型参数,根据计算第一损失值、第二损失值和第三损失值之和获得预测值,对测试集数据进行分类,分类层为每个标签用线性分类器进行二分类,计算得到准确率,输出预测值和准确率结果。
2.如权利要求1所述的一种针对数学问题分类的预训练模型方法,其特征在于:对知识图谱中的每个知识点生成知识点向量,步骤包括:根据输入知识图谱内容,将知识点与知识之间的关系通过向量来表示,当关系成立时,通过平移距离模型将相同空间Rd中将关系转化为向量,得到向量关系句子公式为:
ei + r≈ej,其中,ei为知识点头向量,ej为知识点尾向量,r为关系向量。
3.如权利要求2所述的一种针对数学问题分类的预训练模型方法,其特征在于:平移距离模型为TransE、TransH、TransR或KG2E。
4.如权利要求3所述的一种针对数学问题分类的预训练模型方法,其特征在于:替换规则为:使用随机函数生成范围为0~1的随机值,如该随机值小于0.5,则对知识点进行全部遮盖,如该随机值大于或等于0.5,则使用如下策略:80%的内容对知识点进行全部遮盖,10%的内容使用词表中的词来替换该知识点,10%的内容用于语句通顺替换。
5.如权利要求1所述的一种针对数学问题分类的预训练模型方法,其特征在于:集合L中,相似度值v(i,j)为一对问题的皮尔森相关系数ρ,并将t设置为集合的索引位置,D为排序相关指标,计算公式如下:
CN202010470913.5A 2020-05-28 2020-05-28 一种针对数学问题分类的预训练模型方法 Active CN111563166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010470913.5A CN111563166B (zh) 2020-05-28 2020-05-28 一种针对数学问题分类的预训练模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010470913.5A CN111563166B (zh) 2020-05-28 2020-05-28 一种针对数学问题分类的预训练模型方法

Publications (2)

Publication Number Publication Date
CN111563166A CN111563166A (zh) 2020-08-21
CN111563166B true CN111563166B (zh) 2024-02-13

Family

ID=72075048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010470913.5A Active CN111563166B (zh) 2020-05-28 2020-05-28 一种针对数学问题分类的预训练模型方法

Country Status (1)

Country Link
CN (1) CN111563166B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100976B (zh) * 2020-09-24 2021-11-16 上海松鼠课堂人工智能科技有限公司 知识点关系标注方法及系统
CN112559702B (zh) * 2020-11-10 2022-09-30 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN112487183A (zh) * 2020-11-10 2021-03-12 江苏乐易学教育科技有限公司 一种标签化的试题知识点分类方法及系统
CN112699216A (zh) * 2020-12-28 2021-04-23 平安科技(深圳)有限公司 端到端的语言模型预训练方法、系统、设备及存储介质
CN112949929B (zh) * 2021-03-15 2022-06-07 华中师范大学 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN113032563B (zh) * 2021-03-22 2023-07-14 山西三友和智慧信息技术股份有限公司 一种基于人工遮掩关键词的正则化文本分类微调方法
CN113407720B (zh) * 2021-06-25 2023-04-25 南开大学 基于预训练文本编码模型的分类体系扩展方法
CN114238571A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 模型的训练方法、知识分类方法、装置、设备、介质
CN114595459B (zh) * 2021-12-22 2022-08-16 中电信数智科技有限公司 基于深度学习的问题整改建议生成方法
CN115081437B (zh) * 2022-07-20 2022-12-09 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN117892711A (zh) * 2023-12-11 2024-04-16 中新金桥数字科技(北京)有限公司 一种基于大模型获取文本相关性的方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015122691A1 (en) * 2014-02-13 2015-08-20 Samsung Electronics Co., Ltd. Dynamically modifying elements of user interface based on knowledge graph
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
GB201805293D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Attention filtering for multiple instance learning
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN109902187A (zh) * 2019-03-21 2019-06-18 广东小天才科技有限公司 一种特征知识图谱的构建方法及装置、终端设备
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110543639A (zh) * 2019-09-12 2019-12-06 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN110619051A (zh) * 2019-08-16 2019-12-27 科大讯飞(苏州)科技有限公司 问题语句分类方法、装置、电子设备及存储介质
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN110781312A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073840B2 (en) * 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015122691A1 (en) * 2014-02-13 2015-08-20 Samsung Electronics Co., Ltd. Dynamically modifying elements of user interface based on knowledge graph
CN107273490A (zh) * 2017-06-14 2017-10-20 北京工业大学 一种基于知识图谱的组合错题推荐方法
CN108182177A (zh) * 2018-01-24 2018-06-19 谢德刚 一种数学试题知识点自动化标注方法和装置
GB201805293D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Attention filtering for multiple instance learning
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN109902187A (zh) * 2019-03-21 2019-06-18 广东小天才科技有限公司 一种特征知识图谱的构建方法及装置、终端设备
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110619051A (zh) * 2019-08-16 2019-12-27 科大讯飞(苏州)科技有限公司 问题语句分类方法、装置、电子设备及存储介质
CN110543639A (zh) * 2019-09-12 2019-12-06 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN110781312A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭崇慧 ; 吕征达. 一种基于集成学习的试题多知识点标注方法.运筹与管理.2020,(02),133-140. *

Also Published As

Publication number Publication date
CN111563166A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111563166B (zh) 一种针对数学问题分类的预训练模型方法
CN107133224B (zh) 一种基于主题词的语言生成方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN110688394B (zh) 面向新型供电城轨列车大数据运维的nl生成sql方法
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN111694924A (zh) 一种事件抽取方法和系统
CN110825848A (zh) 一种基于短语向量的文本分类方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111738006A (zh) 基于商品评论命名实体识别的问题生成方法
CN116796045B (zh) 一种多维度图书分级方法、系统及可读介质
CN115935957B (zh) 一种基于句法分析的句子语法纠错方法及系统
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN111538841A (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN111680151B (zh) 一种基于层次化transformer的个性化商品评论摘要生成方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN113642630A (zh) 基于双路特征编码器的图像描述方法及系统
CN114626362B (zh) 一种可控开放式组合规则知识生成方法及系统
Xia Natural Language Understanding for Conversational Agents
CN111339763B (zh) 一种基于多层级神经网络的英文邮件主题生成方法
CN117708336B (zh) 一种基于主题增强和知识蒸馏的多策略情感分析方法
Gong [Retracted] Analysis and Application of the Business English Translation Query and Decision Model with Big Data Corpus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant