CN112101029B

CN112101029B - 一种基于bert模型的高校导师推荐管理方法

Info

Publication number: CN112101029B
Application number: CN202010830661.2A
Authority: CN
Inventors: 朱全银; 朱亚飞; 陈伯伦; 陈凌云; 倪金霆; 陈小艺; 孙强
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2024-05-03
Anticipated expiration: 2040-08-18
Also published as: CN112101029A

Abstract

发明公开了一种基于bert模型的高校导师推荐管理方法，包括：使用爬虫爬取高校官网提供的教师基本信息以及研究方向数据；进行数据清洗，去除无效数据以及不能够进行分析的数据，抽取对应实体构建教师知识图谱，定义问答语句完善分类的训练集，添加自定义分类使用bert模型进行训练并得到分类模型，将用户输入问题添加到测试集进行测试，得到分类准确度并确定数据检索方向；对用户输入信息进行自然语言处理得到搜索关键信息，使用对应结果进行查询；封装结果供前台使用，进行数据的可视化展示以及推荐问答功能的使用；对查询的教师相似研究方向使用欧几里得距离相似度公式进行相似度的计算，对计算查询出的结果取前十项进行展示。

Description

一种基于bert模型的高校导师推荐管理方法

技术领域

本发明属于自然语言处理和系统应用技术领域，特别涉及一种基于bert模型的高校导师推荐管理方法。

背景技术

学生在选择本专业老师的研究方向时会消耗大量时间且得到自己所需答案的准确率较低，本发明提出了一种提高学生选择专业方向指导老师的方法。

随着知识图谱以及自然语言处理技术的发展，在基于知识图谱的问答系统中具有大量算法，bert分类模型就是其中较为突出的一种。由于模型训练调用的限制，在实际应用中有较大限制，识别的效率过低且因数据源的问题准确率也较低。针对这种问题，研究者提出了相应的结合特定数据训练模型并将之应用于实际系统的一种方法。

冯万利，朱全银等人已有的研究基础包括：Wanli Feng.Research of themestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388；Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282；刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170；刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117；刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent FeatureSelection Algorithm for Imbalanced Datasets.2009,p:77-82；Quanyin Zhu,YunyangYan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile PhoneSell Online.2011,p:282-285；Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，冯万利等人申请、公开与授权的相关专利：冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014；朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL2011 10423015.5,2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 2011 10422274.6,2013.01.02；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

Bert模型：

Bert模型是自然语言处理中一种预训练语言模型的方法。它与其他模型不同的是在双向训练的时候以减小的概率把少量的词替换成了Mask或另一个随机的词，这么做的目的是强制模型增加对上下文的记忆，并且在预测的时候增加了一个loss来进行预测。

这个模型的核心是聚焦机制，对于一个语句，可以同时启用多个聚焦点，而不必局限于从前往后的，或者从后往前的，序列串行处理。不仅要正确地选择模型的结构，而且还要正确地训练模型的参数，这样才能保障模型能够准确地理解语句的语义。BERT用了两个步骤，试图去正确地训练模型的参数。第一个步骤是把一篇文章中，15％的词汇遮盖，让模型根据上下文全向地预测被遮盖的词。假如有1万篇文章，每篇文章平均有100个词汇，随机遮盖15％的词汇，模型的任务是正确地预测这15万个被遮盖的词汇。通过全向预测被遮盖住的词汇，来初步训练Transformer模型的参数。然后，用第二个步骤继续训练模型的参数。譬如从上述1万篇文章中，挑选20万对语句，总共40万条语句。挑选语句对的时候，其中210万对语句，是连续的两条上下文语句，另外210万对语句，不是连续的语句。然后让Transformer模型来识别这20万对语句，哪些是连续的，哪些不连续。这两步训练合在一起，称为预训练pre-training。训练结束后的Transformer模型，包括它的参数，是作者期待的通用的语言表征模型。

欧几里得相似度计算：

相似度计算就是比较两个事物之间的相似性，一般通过计算事物的特征之间的距离等参数进行计算，如果距离小，那么相似度大，如果距离大，那么相似度小。欧几里德距离相似度计算按集合意义来说就是按n个特征给他建立起来n维坐标系进行计算。

传统的知识图谱构建方法需要有专家的参与，针对上述问题：百华睿.知识图谱构建方法及系统.中国专利公开号:CN108694177A,2018.10.23，属于专业数字出版领域，根据四个匹配单元模块，将文本中的关键词与领域主题进行匹配，得到知识元实例、属性和关系，进而构建知识图谱；范亮，崔小龙，朱毅，吴士民，石薇，秦东亮.基于知识点连接关系的知识图谱构建方法.中国专利公开号:CN107784088A,2018.03.09，属于教育学习领域，目的是增强知识点总结归纳的能力，构建方法是将教学知识点的元知识点和复合知识点组合；贾维嘉，丁建辉，马世珩.动态知识图谱的构建方法.中国专利公开号:CN108509654A,2018.09.07，属于信息抽取技术领域，利用实体的联合向量构建动态知识图谱；曾伟雄.一种构建知识图谱的方法及装置.中国专利公开号:CN109145003A,2019.01.04，数据处理对象为结构化数据，采用确定基准实体的方法更新数据并构建知识图谱。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种基于bert模型的高校导师推荐管理方法，系统使用bert模型训练特定数据得到分类模型，然后使用自然语言处理方法对用户输入信息进行处理得到数据检索路径，然后使用分词得到关键信息并根据得到的检索路径进行信息的查询，根据用户查询的教师研究方向先使用deepwalk算法将实体数据转化为空间向量的形式，然后使用欧几里得距离相似度计算方法进行比较，得出相关度最高的教师信息。

技术方案：为解决上述技术问题，本发明提供一种基于bert模型的高校导师推荐管理方法，具体步骤如下：

(1)爬取院校教师数据，得到原始数据集G1，定义教师实体数据集G2；

(2)使用python脚本处理数据集G1，得到可使用数据集M1，抽取数据集M1的属性，构建教师实体数据集G2；

(3)抽取数据集M1的属性，标注二分类训练集T1，使用bert分类模型进行训练，得到分类模型V1，将用户输入信息表示为测试集T2，调用模型识别测试集T2的数据，得到分类准确度V2，根据输出准确度集合R1进行处理；

(4)使用jieba分词的自定义词库以及停用词库进行信息处理，实体识别；

(5)根根据分类模型V1识别得出数据检索路径，比较准确度，得到查询教师数据集S，将数据以json格式返回给网站进行展示；

(6)开放系统调用接口，系统处理用户查询信息并根据信息抽取实体进行构造，将检索到的实体数据进行扩展，WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据，提供用户教师实体数据可视化。

进一步的，所述步骤(1)中定义教师实体数据集G2的具体步骤如下：

(1.1)爬取各个高校官网提供的教师信息得到原始数据集G1，定义教师实体数据集G2；

(1.2)定义Content为单个教师数据，定义Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email分别为单个数据的序号、院校，姓名，职称，教育经历，学校名称，院系名称，研究方向等信息，并且满足关系Content＝{Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email}；定义Teacher_Entity为单个教师的实体集，定义NameZh2,ProfessionalTitle2,SchoolName2,DepartmentName2,ResearchField2,IntegratedInformation2分别为姓名，职称，学校，院系，研究方向，研究经历，并且Teacher_Entity＝{NameZh2,ProfessionalTitle2,SchoolName2,DepartmentName2,ResearchField2,IntegratedInformation2}；

(1.3)定义G1、G2分别为原始信息数据集、实体数据集，G1＝{Content1,Content2,…,ContentA}，G2＝{Teacher_Entity1,Teacher_Entity2,…,Teacher_EntityA}，Contenta为G1中第a个教师信息数据，Teacher_Entitya为G2中第a个教师实体信息数据，其中，A＝Card(G1)，变量a∈[1,A]。

进一步的，所述步骤(2)中构建教师实体数据集G2的具体步骤如下：

(2.1)定义D2为待处理教师数据，其中D2＝{Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email}；

(2.2)定义循环变量i3用来遍历D2，M1为可使用信息数据集，i1赋初值为1，G2为实体数据集，赋初值为空；

(2.3)如果i1≤A则跳转到步骤(2.4)，否则跳转到步骤(2.6)；

(2.4)通过对D2i1使用脚本处理方法得到的清洗后向量Gi1，G3＝G3∪{Gi1}；

(2.5)i1＝i1+1；

(2.6)得到G3＝{g1,g2,…,gA}，gf为处理后向量集中第f个信息实体向量，其中，变量f∈[1,A]。

进一步的，所述步骤(3)中抽取数据集M1的属性，标注二分类训练集T1，使用bert分类模型进行训练，得到分类模型V1，将用户输入信息表示为测试集T2，调用模型识别测试集T2的数据，得到分类准确度V2，根据输出准确度集合R1进行处理的具体步骤如下：

(3.1)定义高校导师信息数据集Gti＝{Gt1,Gt2,Gt3,Gt4,Gt5,Gt6}，其中Gt1,Gt2,Gt3,Gt4,Gt5,Gt6分别代表教师信息的唯一标识符，姓名，学校名称，院系名称，研究方向，项目经历，其中i∈[1,H]；

(3.2)按照train_prop，val_prop，test_prop的比例划分数据集R，设定train_prop＝6，val_prop＝2，test_prop＝2。分别计算训练集总数train_num＝sum_R*train_prop/(train_prop+val_prop+test_prop)、验证集总数val_num＝sum_R*val_prop/(train_prop+val_prop+test_prop)以及测试集总数trest_num＝sum_R*test_prop/(train_prop+val_prop+test_prop)，得到Train_R＝{R1,R2,…,Rtrain_num}，Val_R＝{R1,R2,…,Rval_num}和Test_R＝{R1,R2,…,Rtest_num}；

(3.3)定义类InputExample用来表示数据，初始化变量guid、text和label，分别表示训练id、字和字对应的标签；

(3.4)定义类DataProcessor用于数据处理，编写的继承类SchoolNerProcessor，定义get_labels函数用来返回实体标签集，定义_create_example函数用于调用类InputExample给guid，text及label赋值，生成训练和验证样本；

(3.5)定义函数model_builder，构建模型SchoolEntityModel。实现以下内容：将text与label转换为ids表示，使用参数加载BERT模型，得到字embedding和最大序列长度max_seq_length。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量num_labels为数据集L中的标签数量，利用BERT模型参数作为SchoolEntityModel模型的参数初始值，加载BiLSTM-CRF模型，输入模型参数embedding，num_labels，max_seq_length，lengths，label集合labels并设置模型参数lstm维度为128，droupout_rate为0.5；定义模型评测方法metric_eval，对模型的输出结果使用Viterbi解码；

(3.6)利用TensorFlow将字标注数据集Train_R转化为数据文件train.tf_record，读取该数据文件组成batch；

(3.7)训练BERT-BiLSTM-CRF模型，其中模型参数设置BERT预训练模型路径，训练时批量处理数据集的大小为32，学习率为2e-5；

(3.8)得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。

进一步的，所述步骤(4)中使用jieba分词的自定义词库以及停用词库进行信息处理，实体识别的具体步骤如下：

(4.1)将用户输入的信息标注为训练集Train_A，研究方向信息定义为验证集Test_A；

(4.2)定义InputExample用来表示数据，初始化变量guid、text_a、text_b和label分别表示训练id、原始数据a、处理后文本数据b和每个句子对应的属性标签；

(4.3)加载预训练模型，读取数据。定义训练样本Train_examples，从训练集Train_A中读取数据赋值给text_a、text_b和label，获取训练样本赋值给Train_examples，其中，Train_examplesExamples，Train_examples＝{[text_a1,text_b1,label1],[text_a2,text_b2,label2],…,[text_atrain_n um,text_btrain_num,labeltrain_num]}，train_num为训练集Train_A中数据的总数。获取函数get_labels返回的标签集合labels；

(4.4)判断是否训练，若是则跳转(4.8)，否则跳转(4.12)；

(4.5)初始化模型，定义变量count用于计算得出的相似度数量，令count＝1，定义训练样本Train_examples总数Sum；

(4.6)判断count≤Sum，若是则跳转(4.7)，否则跳转(4.9)；

(4.7)继续计算本Train_examples的方向相似度；

(4.8)count＝count+1；

(4.9)根据输出数据集out_put中的相似度排序，找出与测试数据匹配属性值最高的数据，并将结果输出；

(4.10)根据相似度最高的数据查询对应结果信息；

(4.11)若不是，则跳转(4.13)；

(4.12)样本数据在训练模型中失效，图数据库中未收录相应信息，将查询结果提交到网络，根据网络信息查找对应信息；

(4.13)将结果数据特征输入模型，处理对应数据并完成结果展示；

(4.14)完成调用。

进一步的，所述步骤(5)中得到查询教师数据集S的具体步骤如下：

(5.1)定义符合要求的集合

R3＝{{id1,name1,accuracy1},…,{ida,namea,accuracya}}，a∈[1,n]，从准确率集合R2中取出数据，根据自定义准确率A比对；

(5.2)如果Accuracya>A则跳转到步骤(5.3)，否则跳转到步骤(5.4)；

(5.3)R3＝R3∪{R3a}；

(5.4)R3＝R3∪null；

(5.5)得到最终预测结果集R4，处理后的自然语言处理集R5；

(5.6)返回数据到系统，辅助完善相似度计算以及导师推荐问答功能。

进一步的，所述步骤(6)中开放系统调用接口，系统处理用户查询信息并根据信息抽取实体进行构造，将检索到的实体数据进行扩展，WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据，提供用户教师实体数据可视化的具体步骤如下：

(6.1)开放高校导师推荐系统调用API；

(6.2)创建系统接入进程管理；

(6.3)判断接入调用是否完成，若是则跳转到步骤(6.9)，否则跳转到步骤(6.4)；

(6.4)用户输入信息查询导师研究方向，研究经历等信息；

(6.5)系统处理查询信息；

(6.6)系统构造包含查询信息的Cypher查询语句，获取教师实体相关属性数据，通过关联挖掘系统提供的接口对查询所得的教师实体数据进行实体间关系维度扩展；

(6.7)将系统通过关联挖掘所得的实体数据集封装返还WEB应用程序；

(6.8)结束查询调用；

(6.9)开放系统调用接口，系统处理用户查询信息并根据信息抽取实体进行构造，将检索到的实体数据进行扩展，WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据，提供用户教师实体数据可视化。

本发明采用上述技术方案，具有以下有益效果：

本发明改变了现有人工推荐和机器关键字筛选中存在的大量工作量的问题，本发明基于已有的bert模型进行数据的分类模型训练，使用deepwalk算法转化空间向量进行相似度计算，进行推荐问答系统的组合使用，通过本发明，系统的识别准确率得到有效提高，并且能够将知识关系图投射到高维空间实现向量化，通过距离向量算法实现导师数据相似度的计算得到导师推荐的度量值，并且能够实现教师数据实体之间维度的扩展。

附图说明

图1为本发明的总体流程图；

图2为具体实施例中从高校官网获得数据集流程图；

图3为具体实施例中使用python脚本进行数据清洗得到待使用数据集流程图；

图4为具体实施例中bert模型训练分类模型流程图；

图5为具体实施例中进行实体识别和模型调用流程图；

图6为具体实施例中比较准确率并得到教师信息完善推荐问答功能流程图；

图7为具体实施例中系统开放调用接口说明流程图。

具体实施方式

下面结合工程国家标准的具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1-7所示，本发明所述的一种基于bert模型的高校导师推荐管理方法，包括如下步骤：

步骤1：对高校教师数据进行收集，得到原始数据集G1，教师实体数据集G2，具体方法为：

步骤1.1：爬取各个高校官网提供的教师信息得到原始数据集G1，定义教师实体数据集G2；

步骤1.2：定义Content为单个教师数据，定义Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email分别为单个数据的序号、院校，姓名，职称，教育经历，学校名称，院系名称，研究方向等信息，并且满足关系Content＝{Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email}。定义Teacher_Entity为单个教师的实体集，定义NameZh2,ProfessionalTitle2,SchoolName2,DepartmentName2,ResearchField2,IntegratedInformation2分别为姓名，职称，学校，院系，研究方向，研究经历，并且Teacher_Entity＝{NameZh2,ProfessionalTitle2,SchoolName2,DepartmentName2,ResearchField2,IntegratedInformation2}；

步骤1.3：定义G1、G2分别为原始信息数据集、实体数据集，G1＝{Content₁,Content₂,…,Content_A}，G2＝{Teacher_Entity₁,Teacher_Entity₂,…,Teacher_Entity_A}，Content_a为G1中第a个教师信息数据，Teacher_Entity_a为G2中第a个教师实体信息数据，其中，A＝Card(G1)，变量a∈[1,A]。

步骤2：使用python脚本D2进行数据清洗，得到信息实体向量G3，具体方法为：

步骤2.1：定义D2为待处理教师数据，其中D2＝{Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email}；

步骤2.2：定义循环变量i3用来遍历D2，M1为可使用信息数据集，i1赋初值为1，G2为实体数据集，赋初值为空；

步骤2.3：如果i1≤A则跳转到步骤2.4，否则跳转到步骤2.6；

步骤2.4：通过对D2i1使用脚本处理方法得到的清洗后向量Gi1，G3＝G3∪{Gi1}；

步骤2.5：i1＝i1+1；

步骤2.6：得到G3＝{g1,g2,…,gA}，gf为处理后向量集中第f个信息实体向量，其中，变量f∈[1,A]；

步骤3：使用bert模型对教师实体G进行训练，得到教师实体识别模型TeacherEntityModel具体方法为：

步骤3.1：定义高校导师信息数据集Gti＝{Gt1,Gt2,Gt3,Gt4,Gt5,Gt6}，其中Gt1,Gt2,Gt3,Gt4,Gt5,Gt6分别代表教师信息的唯一标识符，姓名，学校名称，院系名称，研究方向，项目经历，其中i∈[1,H]；

步骤3.2：按照train_prop，val_prop，test_prop的比例划分数据集R，设定train_prop＝6，val_prop＝2，test_prop＝2。分别计算训练集总数train_num＝sum_R*train_prop/(train_prop+val_prop+test_prop)、验证集总数val_num＝sum_R*val_prop/(train_prop+val_prop+test_prop)以及测试集总数trest_num＝sum_R*test_prop/(train_prop+val_prop+test_prop)，得到Train_R＝{R1,R2,…,Rtrain_num}，Val_R＝{R1,R2,…,Rval_num}和Test_R＝{R1,R2,…,Rtest_num}；

步骤3.3：定义类InputExample用来表示数据，初始化变量guid、text和label，分别表示训练id、字和字对应的标签；

步骤3.4：定义类DataProcessor用于数据处理，编写的继承类SchoolNerProcessor，定义get_labels函数用来返回实体标签集，定义_create_example函数用于调用类InputExample给guid，text及label赋值，生成训练和验证样本

步骤3.5：定义函数model_builder，构建模型SchoolEntityModel。实现以下内容：将text与label转换为ids表示，使用参数加载BERT模型，得到字embedding和最大序列长度max_seq_length。使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths。定义变量num_labels为数据集L中的标签数量，利用BERT模型参数作为SchoolEntityModel模型的参数初始值，加载BiLSTM-CRF模型，输入模型参数embedding，num_labels，max_seq_length，lengths，label集合labels并设置模型参数lstm维度为128，droupout_rate为0.5。定义模型评测方法metric_eval，对模型的输出结果使用Viterbi解码；

步骤3.6：利用TensorFlow将字标注数据集Train_R转化为数据文件train.tf_record，读取该数据文件组成batch；

步骤3.7：训练BERT-BiLSTM-CRF模型，其中模型参数设置BERT预训练模型路径，训练时批量处理数据集的大小为32，学习率为2e-5；

步骤3.8：得到基于BERT-BiLSTM-CRF的学校领域实体识别模型SchoolEntityModel。

步骤4：通过预训练模型调用以及相似度计算完成系统推荐问答功能，具体方法为：

步骤4.1：将用户输入的信息标注为训练集Train_A，研究方向信息定义为验证集Test_A；

步骤4.2：定义InputExample用来表示数据，初始化变量guid、text_a、text_b和label分别表示训练id、原始数据a、处理后文本数据b和每个句子对应的属性标签；

步骤4.3：加载预训练模型，读取数据。定义训练样本Train_examples，从训练集Train_A中读取数据赋值给text_a、text_b和label，获取训练样本赋值给Train_examples，其中，Train_examplesExamples，Train_examples＝{[text_a1,text_b1,label1],[text_a2,text_b2,label2],…,[text_atrain_num,text_btrain_num,labeltrain_num]}，train_num为训练集Train_A中数据的总数。获取函数get_labels返回的标签集合labels；

步骤4.4：判断是否训练，若是则跳转4.8，否则跳转4.12；

步骤4.5：初始化模型，定义变量count用于计算得出的相似度数量，令count＝1，定义训练样本Train_examples总数Sum；

步骤4.6：判断count≤Sum，若是则跳转4.7，否则跳转4.9；

步骤4.7：继续计算本Train_examples的方向相似度；

步骤4.8：count＝count+1；

步骤4.9：根据输出数据集out_put中的相似度排序，找出与测试数据匹配属性值最高的数据，并将结果输出；

步骤4.10：根据相似度最高的数据查询对应结果信息

步骤4.11：若不是，则跳转4.13

步骤4.12：样本数据在训练模型中失效，图数据库中未收录相应信息，将查询结果提交到网络，根据网络信息查找对应信息

步骤4.13：将结果数据特征输入模型，处理对应数据并完成结果展示

步骤4.14：完成调用

步骤5：根据自定义要求比对准确率集合R2，得到复合要求的集合R3，结合图片数据集G2，预测集合R4，具体方法为：

步骤5.1：定义符合要求的集合:

R3＝{{id1,name1,accuracy1},…,{ida,namea,accuracya}}，a∈[1,n]，从准确率集合R2中取出数据，根据自定义准确率A比对

步骤5.2：如果Accuracya>A则跳转到步骤5.3，否则跳转到步骤5.4；

步骤5.3：R3＝R3∪{R3a}；

步骤5.4：R3＝R3∪null；

步骤5.5：得到最终预测结果集R4，处理后的自然语言处理集R5；

步骤5.6：返回数据到系统，辅助完善相似度计算以及导师推荐问答功能；

步骤6：根据导师推荐方法开发系统调用接口，具体方法为：

步骤6.1：开放高校导师推荐系统调用API；

步骤6.2：创建系统接入进程管理；

步骤6.3：判断接入调用是否完成，若是则跳转到步骤6.9，否则跳转到步骤6.4；

步骤6.4：用户输入信息查询导师研究方向，研究经历等信息；

步骤6.5：系统处理查询信息；

步骤6.6：系统构造包含查询信息的Cypher查询语句，获取教师实体相关属性数据，通过关联挖掘系统提供的接口对查询所得的教师实体数据进行实体间关系维度扩展；

步骤6.7：将系统通过关联挖掘所得的实体数据集封装返还WEB应用程序；

步骤6.8：结束查询调用；

步骤6.9：开放系统调用接口，系统处理用户查询信息并根据信息抽取实体进行构造，将检索到的实体数据进行扩展，WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据，提供用户教师实体数据可视化。

上述步骤的变量定义如下表所示：

/>

为了更好的说明本方法的有效性，通过对30000条数据进行处理，从教师数据中抽取出教师信息及研究方向等数据构建高校导师推荐知识库。通过bert模型对用户问题进行专业分类，然后通过deepwalk转化空间向量计算相似度法比较寻找符合条件的老师进行推荐，在测试集上，bert神经网络算法准确率为89％，相似度算法准确率为92％。开放高校导师推荐知识图谱使用接口API供用户查询相关教师信息及研究信息，通过ECharts展示对应的教师研究方向等一系列数据，提供教师实体可视化方案。

本发明创造性的提出了一种基于bert模型的高校导师推荐管理方法及系统，本方法改变了现有人工推荐和机器关键字筛选中存在的大量工作量的问题，首先使用deepwalk算法转化空间向量进行相似度计算，进行推荐问答系统的距离向量算法相似度求解，通过使用深度学习算法构建bert神经网络从而进行用户项目问题的专业分类和组合推荐，同时使用多种相似度算法比较组合推荐对应教师符合度，能够实现教师数据实体之间维度的扩展，提高准确率的同时实现个性化推荐。

Claims

1.一种基于bert模型的高校导师推荐管理方法，其特征在于，具体步骤如下：

(6)开放系统调用接口，系统处理用户查询信息并根据信息抽取实体进行构造，将检索到的实体数据进行扩展，WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据，提供用户教师实体数据可视化；

所述步骤(3)中抽取数据集M1的属性，标注二分类训练集T1，使用bert分类模型进行训练，得到分类模型V1，将用户输入信息表示为测试集T2，调用模型识别测试集T2的数据，得到分类准确度V2，根据输出准确度集合R1进行处理的具体步骤如下：

(3.2)按照train_prop，val_prop，test_prop的比例划分数据集R，设定train_prop＝6，val_prop＝2，test_prop＝2；分别计算训练集总数train_num＝sum_R*train_prop/(train_prop+val_prop+test_prop)、验证集总数val_num＝sum_R*val_prop/(train_prop+val_prop+test_prop)以及测试集总数trest_num＝sum_R*test_prop/(train_prop+val_prop+test_prop)，得到Train_R＝{R1,R2,…,Rtrain_num}，Val_R＝{R1,R2,…,Rval_num}和Test_R＝{R1,R2,…,Rtest_num}；

(3.4)定义类DataProcessor用于数据处理，编写的继承类SchoolNerProcessor，定义get_labels函数用来返回实体标签集，定义

_create_example函数用于调用类InputExample给guid，text及label赋值，生成训练和验证样本；

(3.5)定义函数model_builder，构建模型SchoolEntityModel，实现以下内容：将text与label转换为ids表示，使用参数加载BERT模型，得到字embedding和最大序列长度max_seq_length，使用TensorFlow对输入数据的ids表示按行求和得到当前batch中的序列长度lengths，定义变量num_labels为数据集L中的标签数量，利用BERT模型参数作为SchoolEntityModel模型的参数初始值，加载BiLSTM-CRF模型，输入模型参数embedding，num_labels，max_seq_length，lengths，label集合labels并设置模型参数lstm维度为128，droupout_rate为0.5；定义模型评测方法metric_eval，对模型的输出结果使用Viterbi解码；

2.根据权利要求1所述的一种基于bert模型的高校导师推荐管理方法，其特征在于，所述步骤(1)中定义教师实体数据集G2的具体步骤如下：

(1.2)定义Content为单个教师数据，定义Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email分别为单个数据的序号、院校，姓名，职称，教育经历，学校名称，院系名称，研究方向等信息，并且满足关系Content＝{Id1，ReacherTag1，NameZh1，ProfessorTitle1，Education1，SchoolName1，DepartmentName1，ResearchField1，email}；定义Teacher_Entity为单个教师的实体集，定义NameZh2,ProfessionalTitle2,SchoolName2,DepartmentName2,ResearchField2,Integr atedInformation2分别为姓名，职称，学校，院系，研究方向，研究经历，并且Teacher_Entity＝{NameZh2,ProfessionalTitle2,SchoolName2,DepartmentName2,Rese archField2,IntegratedInformation2}；

3.根据权利要求1所述的一种基于bert模型的高校导师推荐管理方法，其特征在于，所述步骤(2)中构建教师实体数据集G2的具体步骤如下：

(2.3)如果i1≤A则跳转到步骤(2.4)，否则跳转到步骤(2.6)；

(2.5)i1＝i1+1；

4.根据权利要求1所述的一种基于bert模型的高校导师推荐管理方法，其特征在于，所述步骤(4)中使用jieba分词的自定义词库以及停用词库进行信息处理，实体识别的具体步骤如下：

(4.3)加载预训练模型，读取数据；定义训练样本Train_examples，从训练集Train_A中读取数据赋值给text_a、text_b和label，获取训练样本赋值给Train_examples，其中，

Train_examples＝{[text_a1,text_b1,label1],[text_a2,text_b2,label2],…,[text_atrain_num,text_btrain_num,labeltrain_num]}，train_num为训练集Train_A中数据的总数；获取函数get_labels返回的标签集合labels；

(4.4)判断是否训练，若是则跳转(4.8)，否则跳转(4.12)；

(4.6)判断count≤Sum，若是则跳转(4.7)，否则跳转(4.9)；

(4.7)继续计算本Train_examples的方向相似度；

(4.8)count＝count+1；

(4.10)根据相似度最高的数据查询对应结果信息；

(4.11)若不是，则跳转(4.13)；

(4.14)完成调用。

5.根据权利要求1所述的一种基于bert模型的高校导师推荐管理方法，其特征在于，所述步骤(5)中得到查询教师数据集S的具体步骤如下：

(5.1)定义符合要求的集合

(5.2)如果Accuracya>A则跳转到步骤(5.3)，否则跳转到步骤(5.4)；

(5.3)R3＝R3∪{R3a}；

(5.4)R3＝R3∪null；

(5.5)得到最终预测结果集R4，处理后的自然语言处理集R5；

6.根据权利要求1所述的一种基于bert模型的高校导师推荐管理方法，其特征在于，所述步骤(6)中开放系统调用接口，系统处理用户查询信息并根据信息抽取实体进行构造，将检索到的实体数据进行扩展，WEB应用程序通过ECharts渲染教师实体数据和实体间关系数据，提供用户教师实体数据可视化的具体步骤如下：

(6.1)开放高校导师推荐系统调用API；

(6.2)创建系统接入进程管理；

(6.4)用户输入信息查询导师研究方向，研究经历等信息；

(6.5)系统处理查询信息；

(6.8)结束查询调用；