CN117271741A

CN117271741A - 一种基于大模型驱动的高校专业信息推荐系统及方法

Info

Publication number: CN117271741A
Application number: CN202311313887.5A
Authority: CN
Inventors: 何俊涛; 赵冉; 冯皓; 袁雪敬; 隋润起; 杨文川
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2023-12-22

Abstract

本发明提供一种基于大模型驱动的高校专业信息推荐系统和方法，其特征在于，包括：高校专业知识库构建模块、定制专业问答大模型模块以及高校专业知识问答模块；采用爬虫方法从各高校信息门户以及高考政务官方网站收集相关数据；运用大模型提取相关数据的主要内容和关键部分，存储到图数据库中；采用AIGC方法定制大模型，所述大模型可根据答案文本风格，学生和家长在问答框中输入问题，大模型整合输入的数据，结合问题输出答案文本；运用数字人这一可视化技术展示给高考生，实现专业问答实时可视化，本发明将使用数字人作为载体，以多种方式输出结果；深度互动，本发明设置了问题答疑模块，能够根据用户的疑问，实时给出答案。

Description

一种基于大模型驱动的高校专业信息推荐系统及方法

技术领域

本发明属于互联网信息技术领域，尤其是一种基于大模型驱动的高校专业信息推荐系统及方法。

背景技术

当前，很多地区的初高中学生及家长对高校、专业了解甚少，不能发掘学生对于未来学习及工作的兴趣点，难以对学生的未来发展进行有效地规划。而只能在高考报志愿阶段根据分数和文理科分类匆忙填报。

部分高校会在高考填报志愿前举办招生咨询及宣讲会，但是由于资源和时间的限制，高考生数量远大于高校招生组老师，导致多数高考生的问题无法得到及时解答，这种信息覆盖面难以满足广大初高中学生的需求。而高考生填报志愿时，往往面临诸多问题；例如：对高校、专业的了解程度低；网络搜集到的数据数量多，导致高考生难以提取信息重点；这进一步加深了高考生与高校间的信息鸿沟。

针对此现象，各大企事业单位研发了辅助填报高考志愿的软件，为高考生提供必要的信息和问题答疑；然而，由于研发人员、技术等原因，此类软件未能完全解决高考生的填报需求；调研发现，目前此类软件中对各类高校专业的介绍只是简单地复制高校门户网站的信息；专业介绍多以文字形式展现，可视性较差；软件中列出的常见问题列表更新不及时，未能覆盖高考生的所有疑惑。

为了克服上述技术缺陷，现有技术出现了一种大数据解决方案，运用爬虫技术，爬取各高校官网数据，通过学校、院校、专业、学费、学制等标签进行简单分类，建立之间的简单联系，存储至数据库中，最后通过网页静态展示各高校的基本信息，例如：

①专利号为：CN202310364671.5的发明专利，名称：一种高考志愿专业推荐系统及其数据处理方法；涉及数据处理技术领域，高考志愿专业推荐系统包括数据采集端口、数据处理服务器端口和数据反馈端口，所述数据采集端口用于采集学生的高考名次、高考分数和意向数据，且通过互联网采集院校位置和录取数据情况，所述数据处理服务器端口用于对数据进行处理计算得出初选院校的录取概率和推荐度，本发明通过学生数据采集模块和院校数据采集模块对学生意向、学生数据和院校数据进行采集筛选，学生根据意向对意向院校、意向专业和意向地区进行权重赋值，对各院校录取概率进行计算，并计算得出推荐度，最终根据录取概率和推荐度得到最终推荐结果。

该发明通过爬虫技术，从各大高校门户网站爬取省份、高校、学科、学类、专业信息，建立高考志愿服务知识图谱，运用LSTM模型帮助高考生选择适合的高校和专业。

②专利号为：CN202211706567.1的发明专利，名称：一种用于辅助高考志愿填报方案的推荐方法及系统；

提供了一种用于辅助高考志愿填报方案的推荐方法，涉及数据分析技术领域，包括：获取用户基本身份信息和高考资料信息；通过网络爬虫方式构建各院校专业信息库并对当年用户所在生源地考生的录取分数进行预测；构建高等院校录取评估模型，将高考资料信息输入所述高等院校录取评估模型得到各院校专业对用户的评估概率；对获取的各院校专业的评估概率进行排序，筛选出一级推荐院校和推荐专业，并进行分类；根据用户的个性化需求信息基于一级推荐院校和推荐专业以及各个性化需求信息的权重，得到多组志愿推荐方案；获取用户选择的方案信息模拟录取过程，本发明基于用户的个性化需求对用户的志愿预测更精确，便于用户对志愿填报进行合理分析规划。

该发明通过网络爬虫方式向高考政务官方网站站点发起访问请求，所述访问请求包括院校名称及代码、专业名称及代码、最低录取分数、录取年份和考情信息，其中，考情信息包括考生选择科目限制、学制、学费和一分一段表以及拟招生数量等；从而建立各院校专业信息库，基于高考生的分数、排名、意愿推荐合适的高校和专业。

上述现有技术虽然在一定程度上解决了高考生填报志愿的需求，但依然存在诸多缺陷，例如：

①建立的知识库内容简单、联系简单；现有技术建立的数据库内容简单，且内容与内容之间联系简单；只记录了大学拥有的专业类型，专业类型的录取分数等，并未列出更深层次的联系，比如两所大学相同专业的联系和不同点；

目前，现有技术只是简单爬取高校信息门户、高考政务官方网站的单一信息，诸如：高校名称、专业种类、录取分数；未能告知高考生详细的专业内容，如学习课程内容、在校就读体验、未来就业情况等，高考生只能获取院校的录取分数线，及基本信息，对专业不够了解，对未来就业方向及发展前景不了解，无法判断专业与个人的兴趣爱好是否相匹配，也不能对个人未来的学业和职业发展进行良好地规划。

②展示的内容可视性差；

现有技术对各类高校专业的介绍多以文字形式展现，文字数量多，排布密集，重点信息不突出，可视性较差、对读者的吸引力较低；降低了高考生对高校的了解意愿，导致高考生无法准确获取各高校、专业的信息。

③与用户交互性差；

现有技术中可能用聊天机器人对学生常见的问题进行回答，如询问分数线、学费等，但较少有深层问题答疑的模块，无法解答高考生对于高校、专业等信息的疑惑；对于设计了问题答疑模块的技术、其中列出的常见问题列表数量少，更新不及时，分类不明确，高考生难以找到问题对应的解答,高考生难以解决自己的疑惑。

发明内容

为了解决上述技术问题，本发明提供了一种基于大模型驱动的高校专业信息推荐系统及方法；运用大模型处理从互联网中收集的海量数据，运用提示工程从所给的数据中构建高校专业知识图谱，分析整合各大高校、专业、企业联系等要素,并提供针对高校专业自动问答系统，根据展示的内容，运用图片、文本、语音、视频等方式展现，提高数据的可视化程度,本方案克服了现有技术知识分散、可视性与交互性差的不足。

一种基于大模型驱动的高校专业信息推荐系统，包括：

高校专业知识库构建模块、定制专业问答大模型模块以及高校专业知识问答模块三个部分；

所述高校专业知识库构建模块包括：信息收集单元、知识提取单元以及知识存储单元三个环节；

所述信息收集单元：采用爬虫技术，从各高校信息门户以及高考政务官方网站收集相关数据；运用Python中的Beautiful Soup、Scrapy以及Requests库函数，通过Selenium工具，登录网站或处理JavaScript加载的内容；访问目标网站的“robots.txt”文件，以确定是否有爬取限制；

作为一种举例说明，所述相关数据包括：高校相关数据、专业相关信息和校企合作相关信息。

所述知识提取单元：将所述信息收集单元中收集的相关数据，运用大模型的强文本处理能力，进行细致分类；通过HTML标记、CSS选择器和XPath来定位及提取所需信息；

作为一种举例说明，所述分类包括三个部分：

分类一、高校相关，如各高校基本信息、优势专业。

分类二、专业相关，如各高校的专业信息，分为本科生阶段、研究生阶段，如需要学习的课程、本科生阶段接触到的实践项目、研究生研究方向，在实验室中的项目，未来就业、国内外深造情况；此外，还会收集专业相关的新闻，便于高考生准确快速了解专业是什么、学什么、做什么，

分类三、校企相关，学校和企业的创新创业项目，共建实验室数量和研究方向。

所述知识存储单元：运用大模型构建知识与知识间的联系，将提取分类后的相关数据存储在CSV文件中；

在所述知识提取单元中，将标记了数据的值，定义为节点，数据与数据之间的联系，定义为边；再将这些数据存储到Neo4j图数据库中；编写Python脚本，遍历所有节点，将所有节点和边存储到知识存储单元的图数据库中，从而建立各高校的详细知识网络；

所述定制专业问答大模型模块，用于定制专业问题回答大模型，包括风格判断单元和答案生成单元两个部分：

所述风格判断单元：基本大模型将高考生问题的答案文本输入至专业问题回答大模型后，所述专业问题回答大模型运用文本分析能力，根据文本的长度、内容，基于答案文本的风格分类，输出文本最佳表现风格至答案生成单元：

所述答案生成单元：根据风格分类结果以及答案文本，运用AIGC(人工智能生成内容)方法，自动生成PPT、精炼文本、图像和/或表格样式的答案；并进一步驱动虚拟数字人呈现结果。

所述高校专业知识问答模块，包括：问题拆解单元、答案风格选择单元和答案制定单元三个环节；

所述问题拆解单元：在所述答案生成单元中，编写一个Python程序，高考生在问答框中提出问题后，Python程序将调用大模型，运用大模型的文本处理能力分解高考生提出的问题、筛选出问题中的关键词、确立需要搜索的问题、生成图数据库查询语句，该程序执行查询语句，在图数据库中筛选出对应的知识信息，将这些知识信息输入到大模型中，调用大模型基于知识信息和高考生的问题，提炼知识信息，总结生成答案文本；

所述答案风格选择单元：在答案展示环节，Python程序将答案生成单元的答案文本输入到大模型中，大模型根据文本的内容、长度，运用文本处理能力，生成不同的风格类型；不同的风格类型将输入至定制大模型；

作为一种举例说明，所述不同的风格类型包括：文字、图片加文字、表格、PPT、语音、视频等。

所述答案制定单元：Python程序将接收定制大模型生成的最终答案，并通过数字人的形式展现给高考生；

作为一种举例说明，高考生将根据最终答案的相关性、准确性对答案质量进行评价，信息将反馈到大模型中，大模型根据反馈信息不断修改、完善答案的整合、总结和输出方式。

作为一种举例说明，所述答案定制单元还同时向高考生推荐大模型自动生成的相关问题。

一种基于大模型驱动的高校专业信息推荐方法，包括如下步骤：

步骤一、高校专业知识库构建：采用爬虫方法从各高校信息门户以及高考政务官方网站收集相关数据；运用大模型提取相关数据的主要内容和关键部分，存储到图数据库中；

作为一种举例说明，所述相关数据包括：高校相关、专业相关、校企相关数据，数据类型有文本、图像、PDF等文件。

步骤二、定制专业问答大模型：采用AIGC方法定制大模型，所述大模型可根据答案文本风格，分别排版生成文字、图片加文字、表格、PPT以及语音展现方式；

步骤三、高校专业知识问答：高考生在问答框中输入问题，所述大模型拆解高考生的问题，提炼出问题中的关键信息，调出图数据库中的相关数据，输入到大模型中，大模型整合输入的数据，结合问题，输出答案文本；程序再将答案文本输入到定制大模型中，定制大模型根据内容的数量和类型，生成最终答案，运用数字人这一可视化技术展示给高考生。

本发明的有益效果：

构建高校专业综合知识库，建立各个信息间更深层次的联系；以专业信息为例，将收集各高校各专业培养方案，比较不同高校相同专业的异同，如A大学和B大学的计算机专业异同；比较同一高校不同专业的异同，比如A大学的计算机专业和人工智能专业的异同；从而整理成更加全面、细致的类别，最终形成完整的高校信息数据集。

在知识点的联系方面，本发明优化了高校信息数据集间的联系；运用大模型独特的、高效的语言文本处理能力，建立各大高校专业、培养方案等信息的更完善的知识网络，使得学生能够更好地针对自己的兴趣和个人优势选择更为适合自己发展的高校和专业。

实现专业问答实时可视化，本发明将使用数字人作为载体，以多种方式输出结果。运用大模型提取大段文字介绍内容的重点，生成图文并茂的PPT、可视性强的表格，或是一段精炼的语音，提高高考生获取信息的意愿和准确度，图片和语音的风格可以依照咨询人员的身份(如初中生、高中生、家长、城市、农村)分别制定，以提高用户与系统交互信息的兴趣。

深度互动，本发明设置了问题答疑模块，能够根据学生和家长的疑问，实时给出答案；此方式操作简易，实时性强，准确度高，答案更全面。本发明充分运用大模型对复杂信息的处理能力，使其能够对不同地区，不同需求的用户提供独特且易于理解的信息。由于大部分学生及家长对学校专业问题了解较少，本发明还能为他们的询问推荐相关问题。比如，考生提问“A学校和B学校的计算机专业有何异同”，本发明将推荐问题“A学校的计算机专业有哪些课程”、“A学校和B学校学生就业去向”、“A学校和B学校保研比例及深造去向”等；在解答学生和家长疑惑的基础上，辅助其更好地了解院校、专业相关信息。

每个模块下分多个环节，重点体现高效的特色专业、校企合作优势、学生能够培养的能力、深造机会、就业机会和发展前景等内容，以帮助初高中学生提前了解高校培养任务和企事业单位的岗位需求，从而使学生能够根据自己的兴趣和能力设定未来职业规划，选择合适的高校学习，并得到更多深造、实习和就业机会。

附图说明

图1为本发明一种基于大模型驱动的高校专业信息推荐系统的框架结构图。

图2为本发明一种基于大模型驱动的高校专业信息推荐系统的高校的详细知识网络图。

具体实施方式

下面，参考图1至2图所示，一种基于大模型驱动的高校专业信息推荐系统，包括：

高校专业知识库构建模块101、定制专业问答大模型模块102以及高校专业知识问答模块103三个部分；

所述高校专业知识库构建模块101包括：信息收集单元104、知识提取单元105以及知识存储单元106三个环节；

所述信息收集单元104：采用爬虫技术，从各高校信息门户以及高考政务官方网站收集相关数据；运用Python中的Beautiful Soup、Scrapy以及Requests库函数，通过Selenium工具，登录网站或处理JavaScript加载的内容；访问目标网站的“robots.txt”文件，以确定是否有爬取限制；

所述知识提取单元105：将所述信息收集单元104中收集的相关数据，运用大模型的强文本处理能力，进行细致分类；通过HTML标记、CSS选择器和XPath来定位及提取所需信息；

作为一种举例说明，所述分类包括三个部分：

分类一、高校相关，如各高校基本信息、优势专业。

分类二、专业相关，如各高校的专业信息，分为本科生阶段、研究生阶段，如需要学习的课程、本科生阶段接触到的实践项目、研究生研究方向，在实验室中的项目，未来就业、国内外深造情况；此外，还会收集专业相关的新闻，便于高考生准确快速了解专业是什么、学什么、做什么。

分类三、校企相关，学校和企业的创新创业项目，共建实验室数量、实习机会和研究方向。

所述知识存储单元106：运用大模型构建知识与知识间的联系，将提取分类后的相关数据存储在CSV文件中；

在所述知识提取单元105中，将标记了数据的值，定义为节点，数据与数据之间的联系，定义为边；再将这些数据存储到Neo4j图数据库中；编写Python脚本，遍历所有节点，将所有节点和边存储到知识存储单元106的图数据库中，从而建立各高校的详细知识网络。

例如，A高校的优势专业有计算机专业、A高校的计算机专业和B高校计算机专业的异同；A高校内不同专业如计算机专业和人工智能专业的异同；研究生阶段和哪些企业间有项目合作，项目的研究方向如何；计算机专业未来能去哪些企业就业，在企业中分别担任何种职务、具体的工作内容如何。

所述定制专业问答大模型模块102，用于定制专业问题回答大模型，包括风格判断单元和答案生成单元两个部分：

所述答案生成单元：根据风格分类结果以及答案文本，运用AIGC方法，自动生成PPT、精炼文本、图像和/或表格样式的答案；

例如：输入的答案文本内容是与“A大学和B大学计算机专业的差异”这一问题相关，该模型根据答案文本判断出需要运用PPT展示最终结果；该模型将答案文本进行自动化处理，整理出每页PPT需要展示的内容，将内容填入已有的模版，并根据每页文字数量、内容层次选择不同的排版方式，最终形成PPT展示文件输出到高校专业知识问答模块的答案制定单元。

所述高校专业知识问答模块103，包括：问题拆解单元107、答案风格选择单元108和答案制定单元109；

所述问题拆解单元107：在所述答案生成单元中，编写一个Python程序，高考生在问答框中提出问题后，Python程序将调用大模型，运用大模型的文本处理能力分解高考生提出的问题、筛选出问题中的关键词、确立需要搜索的问题、生成图数据库查询语句，该程序执行查询语句，在图数据库中筛选出对应的知识信息，将这些知识信息输入到大模型中，调用大模型基于知识信息和高考生的问题，提炼知识信息，总结生成答案文本；

例如：程序接受到高考生的问题，该程序将问题输入到大模型中，让大模型生成提示语句，即“你现在是一名向大模型提问的工作人员，你需要根据下列这些文字写一段话，让大模型生成准确的问题：XXX(XXX即高考生的问题)”；得到大模型生成的问题后，程序将此问题重新返回给大模型，最终得到该问题的答案。

所述答案风格选择单元108：在答案展示环节，Python程序将答案生成单元的答案文本输入到大模型中，大模型根据文本的内容、长度，运用文本处理能力，生成不同的风格类型；不同的风格类型将输入至定制大模型；

作为一种举例说明，所述不同的风格类型包括：文字、图片加文字、表格、PPT、语音等。

所述答案制定单元109：Python程序将接收定制大模型生成的最终答案，并通过数字人的形式展现给高考生；

例如：高考生询问“A大学的计算机专业如何”，模型将在生成回答后，将推荐如下问题：“A大学的计算机专业有哪些课程”，“A大学计算机专业未来的就业方向”等。

为了更好的说明本发明的原理架构，现通过具体实施例举例说明如下；

实施例1：

高考生询问“A大学的计算机专业如何”，本发明将该问题输入到大模型，大模型将分解成如下关键词“A大学”、“A大学计算机专业概述”、“A大学计算机专业校企合作”等，并生成图数据库的查询语句，查询到以上问题的数据；并基于此生成对高考生问题“A大学的计算机专业如何”的答案文本，根据文本内容，配上相关图片，展示给高考生；高考生可以选择提出其他问题，也可以根据大模型提供的相关问题继续追问，并点击“赞成”或“反对”按钮对答案进行反馈。

实施例2：：高校专业知识问答模块的伪代码编程代码；

本发明构建高校专业综合知识库，建立各个信息简更深层次的联系；以专业信息为例，将收集各高校各专业培养方案，比较不同高校相同专业的异同，如A大学和B大学的计算机专业异同；比较同一高校不同专业的异同，比如A大学的计算机专业和人工智能专业的异同；从而整理成更加全面、细致的类别，最终形成完整的高校信息数据集。

在知识点的联系方面，本发明优化了高校信息数据集间的联系；运用大模型独特的、高效的语言文本处理能力，建立各大高校专业、培养方案等信息的更完善的知识网络，使得学生能够更好地针对自己的兴趣和个人优势选择更为适合自己发展的高校和专业；

实现专业问答实时可视化，本发明将使用数字人作为载体，以多种方式输出结果。运用大模型提取大段文字介绍内容的重点，生成图文并茂的PPT、可视性强的表格，或是一段精炼的语音，提高高考生获取信息的意愿和准确度。

深度互动，本发明设置了问题答疑模块，能够根据高考生的疑问，实时给出答案。此方式操作简易，实时性强，准确度高，答案更全面。本发明充分运用大模型对复杂信息的处理能力，使其能够对不同地区，不同需求的高考生提供独特且易于理解的信息。由于大部分高考生对学校专业问题了解较少，本发明还能为考生推荐相关问题。比如，考生提问“A学校和B学校的计算机专业有何异同”，本发明将推荐问题“A学校的计算机专业有哪些课程”；在解答高考生疑惑的基础上，辅助其更好地了解院校、专业相关信息；

以上所述的仅为本发明的优选实施例，所应理解的是，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，并不用于限定本发明的保护范围，凡在本发明的思想和原则之内所做的任何修改、等同替换等等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大模型驱动的高校专业信息推荐系统，其特征在于，包括：高校专业知识库构建模块、定制专业问答大模型模块以及高校专业知识问答模块；

所述高校专业知识库构建模块包括：信息收集单元、知识提取单元以及知识存储单元；

所述定制专业问答大模型模块，用于定制专业问题回答大模型，包括风格判断单元和答案生成单元：

所述高校专业知识问答模块，包括：问题拆解单元、答案风格选择单元和答案制定单元。

2.根据权利要求1所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，

在所述知识提取单元中，将标记了数据的值，定义为节点，数据与数据之间的联系，定义为边；再将这些数据存储到Neo4j图数据库中；编写Python脚本，遍历所有节点，将所有节点和边存储到知识存储单元的图数据库中，从而建立各高校的详细知识网络。

3.根据权利要求1所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，

所述风格判断单元：基本大模型将学生及家长问题的答案文本输入至专业问题回答大模型后，所述专业问题回答大模型运用文本分析能力，根据文本的长度、内容，基于答案文本的风格分类，将文本最佳表现风格输出至答案生成单元：

所述答案生成单元：根据风格分类结果以及答案文本，运用AIGC方法，自动生成PPT、精炼文本、图像和/或表格样式的答案，并进一步驱动虚拟数字人呈现结果。

4.根据权利要求1所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，

所述问题拆解单元：在所述答案生成单元中，编写一个Python程序，高考生在问答框中提出问题后，Python程序将调用大模型，运用大模型的文本处理能力分解学生及家长提出的问题、筛选出问题中的关键词、确立需要搜索的问题、生成图数据库查询语句，该程序执行查询语句，在图数据库中筛选出对应的知识信息，将这些知识信息输入到大模型中，调用大模型基于知识信息和用户提出的问题，提炼知识信息，总结生成答案文本；

所述答案制定单元：Python程序将接收定制大模型生成的最终答案，并通过数字人的形式展现给高考生。

5.根据权利要求4所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，高考生将根据最终答案的相关性、准确性对答案质量进行评价，信息将反馈到大模型中，大模型根据反馈信息不断修改、完善答案的整合、总结和输出方式。

6.根据权利要求4所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，所述答案定制单元还同时向高考生推荐大模型自动生成的相关问题。

7.根据权利要求4所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，所述不同的风格类型包括：文字、图片加文字、表格、PPT、语音、视频。

8.根据权利要求1所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，所述相关数据包括：高校相关数据、专业相关信息和校企合作相关信息。

9.根据权利要求1所述的一种基于大模型驱动的高校专业信息推荐系统，其特征在于，所述分类包括三个部分：

分类一、高校相关的基本信息；

分类二、专业相关的信息；

分类三、校企相关的信息。

10.一种基于大模型驱动的高校专业信息推荐方法，其特征在于，包括如下步骤：

步骤三、高校专业知识问答：学生和家长在问答框中输入问题，所述大模型拆解问题，提炼出问题中的关键信息，调出图数据库中的相关数据，输入到大模型中，大模型整合输入的数据，结合问题，输出答案文本；程序再将答案文本输入到定制大模型中，定制大模型根据内容的数量和类型，生成最终答案，运用数字人这一可视化技术展示给学生及家长。