CN104123337B - 一种预测报考信息的方法和装置 - Google Patents

一种预测报考信息的方法和装置 Download PDF

Info

Publication number
CN104123337B
CN104123337B CN201410232867.XA CN201410232867A CN104123337B CN 104123337 B CN104123337 B CN 104123337B CN 201410232867 A CN201410232867 A CN 201410232867A CN 104123337 B CN104123337 B CN 104123337B
Authority
CN
China
Prior art keywords
information
colleges
universities
examination
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410232867.XA
Other languages
English (en)
Other versions
CN104123337A (zh
Inventor
贾星辉
张弛
林静
赵世奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410232867.XA priority Critical patent/CN104123337B/zh
Publication of CN104123337A publication Critical patent/CN104123337A/zh
Application granted granted Critical
Publication of CN104123337B publication Critical patent/CN104123337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • G06Q50/2053Education institution selection, admissions, or financial aid

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种预测报考信息的方法和装置。其中,建库单元建立用于存储院校信息的院校数据库;日志获取单元获取用户的网络操作日志;日志分析单元对所获取的网络操作日志进行分析,确定用户的需求信息;报考预测单元根据所述院校数据库的院校信息和所述需求信息,预测报考信息。与现有技术相比,本发明通过整合院校信息和大量用户的网络操作日志,可以为用户提供准确、完善的报考预测信息。

Description

一种预测报考信息的方法和装置
技术领域
本发明涉及互联网领域,尤其涉及一种预测报考信息的方法和装置。
背景技术
目前,考生在填报高考志愿时,通常通过阅读学校统一发放的关于各高校的概况信息资料,以知晓各高校历年在各省的录取分数线,或者通过从网上搜集各种资料,比如在诸如微博、贴吧中搜索与报考学校有关的信息,并结合自身的实际情况,预测报考信息,包括诸如某高校今年的报考热度和报考难度、某专业今年的报考热度和报考难度、被某些院校录取的成功率等等。但是由于考生获取的信息有限,因而实际情况和考生获取的信息往往是不对称的,很容易造成报考信息预测的不准确,由此导致考生最终高分低录以及上线落榜等诸多不理想的情况。
发明内容
本发明的目的是提供一种预测报考信息的方法和装置,可以为用户提供实时有效的报考预测信息。
根据本发明的一个方面,提供了一种预测报考信息的方法,包括:
建立用于存储院校信息的院校数据库;
获取用户的网络操作日志;
对所获取的网络操作日志进行分析,确定用户的需求信息;
根据所述院校数据库的院校信息和所述需求信息,预测报考信息。
根据本发明的另一个方面,还提供了一种向用户提供报考预测信息的方法,包括:
获取用户的检索词;
判断所获取的检索词是否属于预定检索序列,如果是,则基于该检索词获取对应的搜索卡片并将所述搜索卡片提供给用户;
获取用户在所述搜索卡片中输入的考生信息;
根据所述考生信息并根据权利要求1所述的方法,生成与所述考生信息对应的报考预测信息;
响应用户对所述搜索卡片的特定操作,将与所述考生信息对应的报考预测信息提供给用户。
根据本发明的又一个方面,还提供了一种预测报考信息的装置,包括:
用于建立用于存储院校信息的院校数据库的单元;
用于获取用户的网络操作日志的单元;
用于对所获取的网络操作日志进行分析,确定用户的需求信息的单元;
用于根据所述院校数据库的院校信息和所述需求信息,预测报考信息的单元。
与现有技术相比,本发明通过对获取的各个院校的信息和确定的用户需求信息进行统计和分析,可以准确且实时地为用户预测报考相关的信息。而且,本发明还可以通过对获取的院校信息进行交叉对比和排重处理,在排除错误的院校信息的前提下,进一步提升院校信息的准确性,从而保证所预测的报考信息更接近真实情况。而且,本发明通过获取用户不同维度的网络操作日志,可以更准确地分析用户的潜在需求,从而在结合用户的潜在需求的前提下,为用户提供更实用更准确的报考预测信息。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的预测报考信息的方法流程图;
图2示出根据本发明另一个方面的向用户提供报考预测信息的方法流程图;
图3示出根据本发明另一个方面的预测报考信息的装置的示意性框图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的预测报考信息的方法流程图;其中,在步骤s1中,建立用于存储院校信息的院校数据库;在步骤s2中,获取用户的网络操作日志;在步骤s3中,对所获取的网络操作日志进行分析,确定用户的需求信息;在步骤s4中,根据所述院校数据库的院校信息和所述需求信息,预测报考信息。
上述各步骤是持续不断工作的,在此,此处的“持续”是指上述各步骤分别实时地,或者按照设定的或实时调整的工作模式要求进行工作。
其中,在步骤s1中,通过数据挖掘技术获取院校信息,将所获取的院校信息存储至建立的院校数据库。在此,本领域技术人员应能理解此处的数据挖掘技术在此不作限定,任何可适用于本发明的数据挖掘技术都应包含在本发明保护范围以内,并在此以引用方式包含于此。其中的院校信息包括诸如从各个院校的官网上获取的基本情况、综合排名、师资构成、科研实力等数据,诸如从特定网站或信息源获取的关于各个院校历年的录取分数线、历年录取情况等数据。
可选地,步骤s1包括:
确定目标网站,从所述目标网站中抓取院校信息的步骤;
对所抓取的院校信息进行预处理,将经过预处理的所述院校信息存储至院校数据库的步骤。
具体地,根据各个网站所提供的数据内容,从中筛选出提供院校信息的网站,并将所筛选出的网站确定为目标网站,诸如从多个网站中筛选出网站百度知道、百度百科、百度贴吧、搜索问问、中国教育在线、阳光高考信息网、搜学网、新浪高考频道、搜狐高考频道等与高校数据有关的网站作为目标网站。进一步地,从所述确定的目标网站中抓取所需的院校信息。例如,从百度知道和百度百科的网站中抓取“清华大学”的相关信息。在此,信息抓取的规则在此不作限定。优选地,根据目标网站中的每个网站的不同排版布局,采用不同的信息抓取规则从中抓取所需的院校信息或从不同网站的不同特定位置抓取所需的院校信息。例如,对于目标网站百度百科、百度知道、百度贴吧、搜狐高考频道分别采用对应的不同抓取规则从中抓取院校信息。
进一步地,对所抓取的院校信息进行预处理,将经过预处理的院校信息存储至院校数据库。
优选地,对所抓取的院校信息进行如下预处理:
确定所述目标网站中所抓取的院校信息的可信度;
基于所述可信度,对所抓取的院校信息进行交叉对比和排重处理。
具体地,可以根据目标网站的知名度、权威性或/和信息提供方的可信度来确定所述目标网站中所抓取的院校信息的可信度,并基于该可信度对所抓取的院校信息进行交叉对比和排重处理。例如,从A、B、C、D、E五个网站上分别抓取关于“清华大学2014年电子工程系录取名额”的信息,其中从A、B、C、D网站上所抓取的信息都显示“清华大学2014年电子工程系录取名额为M”,而E网站上所抓取的信息显示“清华大学2014年电子工程系录取名额为N”,并且,A、B、C、D、E五个网站的知名度和权威性是相同的,则经过对上述信息进行交叉对比和排重处理,过滤从网站E所抓取的信息“清华大学2014年电子工程系录取名额为N”,并将从网站A、B、C、D中任意一个网站所抓取的信息“清华大学现有院士的数目为M”存储至院校数据库,也即,虽然从网站A、B、C、D中共抓取四条相同的信息“清华大学2014年电子工程系录取名额为M”,但是经过排重处理,去除重复的信息,仅取其中一条信息存储至院校数据库。又如,从“百度知道”或“百度贴吧”中的任一个网站抓取多个用户主动提供的关于问题“清华大学如何”的回答信息,则根据提供所述回答信息的用户的等级和问题采纳率对其提供的回答信息的可信度进行确定,典型地,基于用户的等级和问题采纳率设定一阈值,基于该阈值对多个用户提供的关于该问题“清华大学如何”的回答信息进行交叉对比,如果用户的等级和问题采纳率超过该阈值,则确定该用户提供的回答信息是可信的,并将该回答信息与其他用户提供的相同回答信息作排重处理,然后将经过排重处理的所述回答信息存储至院校数据库。
当然,此处的预处理并不仅限于交叉对比和排重处理,所提供的交叉对比和排重处理的方法仅用于示例,所述预处理的步骤还可以包括其他可适用本发明的处理方法,在此不作限定。
在步骤s2中,获取用户的网络操作日志。具体地,通过基于各种协议或/和规则,与其他能够提供用户的网络操作日志的设备或数据库进行交互,或直接与用户进行交互,获取用户在网络上的操作行为记录。此处的协议可以包括计算机通信的传送协议,诸如TCP/IP、UDP、FTP、ICMP等,或者存在于计算机中的其他形式通信,例如面向对象编程里面对象之间的通信或操作系统内不同程序或计算机不同模块之间的消息传送协议。所述网络操作日志包括用户在网络上的各种操作行为记录,诸如用户在页面上的输入信息或/和选择信息。
优选地,所述网络操作日志包括以下中的至少一项内容:
用户进入或/和退出网页的操作日志;
用户在特定时间内变换检索词的信息;
用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息;
用户在信息互动平台上分享的信息。
其中,用户进入网页的操作日志主要指用户从哪些网站或网页进入到特定的网站或网页的信息,用户退出网页的操作日志主要指用户从当前网站或网页跳转到其他哪些网站或网页的信息,例如,用户从网页“搜搜问问”进入到网页“百度百科”的信息;又如,用户从网页“百度百科”跳转至网页“百度知道”的信息。
其中,用户在特定时间内变换检索词的信息主要指用户进行网页搜索时在特定时间内从当前输入的检索词变换为其他检索词的信息,例如,用户u1于时间t1内在百度网页中搜索“北京大学”,达到对应的搜索结果页面,但是用户对搜索结果页面展示的搜索结果不满意,因而将检索词“北京大学”变换为“北京大学法学院”,以获取满意的信息。从而用户在该操作中对应的变换检索词的信息为:时间t1内用户u1从检索词“北京大学”变换为“北京大学法学院”。此处的特定时间优选为一个完整会话的时间,此处的会话指用户与浏览器之间交互的过程,包括检索词的输入与变换、用户反馈的输入与接收等。为了找到想要的搜索结果,用户将对检索词进行多次调整及变换,以及对搜索结果页面中其他反馈信息的控件进行诸如点击等选择操作。可选地,所述会话定义为用户进行一次完整的、连续的操作行为或搜索行为的时间,例如从用户打开一个网页至跳转至其他多个网页再至将所有网页都关闭的时间。
其中,用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息主要分别指用户于特定时间内在搜索框中输入检索词时对搜索框旁(通常以下拉框的形式展现)展现的提示信息进行选择的行为信息和用户对搜索结果页面中展现的其他推荐信息进行选择的行为信息。典型地,就提示信息而言,用户u2于特定时间t2内在搜索框中输入检索词“高考”,则此时检索框旁出现诸如“高考查分”、“高考报名”等提示搜索项并以一定的形式展现,而用户u2选择了其中展现的“高考查分”选项并以该选项进行检索,则与此行为对应的行为信息为:时间t2内用户u2在输入检索词“高考”时对搜索框旁提示的信息“高考查分”进行了选择。典型地,就推荐信息而言,特定时间t3内用户u3在搜索框中输入检索词“北京大学”进行搜索,通过浏览搜索结果页面,用户u3选择了结果页面下方展示的诸项推荐信息中的一项“北京大学高考录取名额”,从而使当前页面跳转至北京大学高考录取名额”对应的页面,则与此行为对应的行为信息为:时间t3内用户u3使用检索词“北京大学”进行检索后,选择了搜索结果页面中的推荐信息项“北京大学高考录取名额”。当然,上述示例仅在于对用户的网络操作日志进行说明,并不是对网络操作日志的具体范围和内容进行限定。
其中,用户在信息互动平台上分享的信息主要指用户在诸如百度知道、百度贴吧、微博、论坛等互动平台上分享的信息,诸如发布的提问信息或回答信息等。
在步骤s3中,对所获取的网络操作日志进行分析,确定用户的需求信息。具体地,通过对大量用户的网络操作日志进行统计和分析,确定用户的当前或/和潜在的需求信息。此处的需求信息主要指用户通过网络搜索最终想要获取的信息,例如,通过统计得知,当前月份大量用户通过输入检索词“高考”进行搜索,到达搜索结果页以后,对其中含链接的搜索结果项“高考择校指南”进行了点击,由此,可知用户虽然基于检索词“高考”进行搜索,而实际上用户所需求的信息为“高考择校指南”,也即大量用户的当前需求信息为“高考择校指南”有关的信息,或者用户对“高考择校指南”有关的信息的需求相对于其他高考信息的需求的优先级或可能性更高。
可选地,通过对所获取的网络操作日志中的以下至少一项进行分析,确定用户的需求信息:
用户进入或/和退出网页的操作日志;
用户在特定时间内变换检索词的信息;
用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息;
用户在信息互动平台上分享的信息。
当然,为了可以更准确地确定用户的需求信息,结合上述中的二项或多项来进行统计和分析。典型地,结合用户进入或/和退出网页的操作日志、用户在特定时间内变换检索词的信息、以及,用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息来确定其需求信息。例如,经过统计,得知大量用户通过在百度搜索中输入检索词“清华大学”跳转至清华大学对应的官网,并且大量用户在一个完整的会话中将检索词“清华大学”变换为“清华大学官网”,或者对搜索框中的提示搜索项“清华大学官网”进行了选择,由此可知,大量用户对“清华大学官网”有关的信息需求比较高,进一步地,基于对所获取的网络操作日志中的数据进行统计量化该信息需求。
可选地,在步骤s3中,根据用户在信息互动平台上分享的信息,确定其中的热门话题信息;
根据所述热门话题信息,确定用户的需求信息。
具体地,通过记录和统计大量用户在信息互动平台上分享的信息的搜索和点击浏览历史等,确定其中那些信息为当前的热门话题信息,从而确定用户的需求信息。例如,通过记录和统计大量用户在百度论坛上分享的与清华大学有关的信息,得知其中的话题信息“清华大学录取比例”、“清华大学录取线”的点击、浏览或/和提问、回答的操作频率超过预设阈值,则将所述话题信息确定为当前的热门话题信息,从而确定用户对所述热门话题信息的关注热度,即确定大量用户的当前需求信息按关注热度依次排名有哪些信息。
可选地,在步骤s3中,根据网络操作日志的时效性和内容,确定大量用户的当前需求信息,从而更新历史确定的用户的需求信息。
在步骤s4中,根据所述院校数据库的院校信息和所述需求信息,预测报考信息。具体地,基于所述院校数据库中提供的院校信息,确定各个院校历年的高考录取分数线、提档线等信息;基于对大量用户的网络操作日志进行统计和分析,确定大量用户的当前需求信息中不同用户对不同院校的信息需求热度;结合所确定的各个院校历年的高考录取分数线、提档线以及不同用户对不同院校的信息需求热度,预测不同院校、不同专业、不同考生对应的报考信息,包括诸如院校在当年的报考热度、报考难度、各专业在当年的报考热度、报考难度以及考生报考不同院校被录取的概率等。
可选地,按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息和所述需求信息,预测所述各个院校的报考热度或/和报考难度。具体地,基于所述院校数据库中提供的院校信息,确定各个院校历年的高考录取分数线、提档线、历年录取最高分、平均分、设置的专业、考生对不同院校的报考热度等维度的信息;基于对大量用户的网络操作日志进行统计和分析,确定大量用户在网页搜索中对不同院校进行搜索或/和浏览等操作的频率,从而确定大量用户对不同院校的信息需求热度,包括对不同院校的信息的访问热度等维度的信息;基于所确定的各个院校历年的高考录取分数线、提档线、历年录取最高分、平均分、设置的专业、用户对不同院校的信息的访问热度、对不同院校的报考热度等维度的信息,预测不同院校在当年的报考热度和报考难度。优选地,将院校的报考热度和报考难度分别以横轴和纵轴建立坐标系,横轴中沿X轴的正向依次为从冷到热的报考热度,纵轴中沿Y轴的正向依次为从容易到困难的报考难度,则根据报考热度和报考难度的不同依次建立“冷-容易”、“热-容易”、“热-困难”、“冷-困难”四个象限,以更清晰地为用户提供各个院校的报考参考信息。
可选地,按照不同维度分别统计所述院校数据库的院校信息中各专业的信息和所述需求信息,预测所述各专业的报考热度或/和报考难度。需要说明的是,此处的院校信息中的各专业是指所有院校中所具有的所有专业或部分专业,并不与特定的某个院校相对应。诸如专业“计算机科学与技术”并不与特定的院校相对应。具体地,基于院校数据库中提供的院校信息,统计和分析各专业的历年录取最高分、平均分、分数线、提档线、各院校对应不同专业的录取分数、考生对不同专业的报考热度等维度的信息;基于对大量用户的网络操作日志进行统计和分析,确定大量用户在网页搜索中对不同专业进行搜索或/和浏览等操作的频率,从而确定大量用户对不同专业的信息需求热度,包括用户对不同专业信息的检索热度等维度的信息;基于所确定的不同专业的历年录取最高分、平均分、分数线、提档线、各院校对应不同专业的录取分数、考生对不同专业的报考热度、用户对不同专业的信息需求热度等维度的信息,预测不同专业在当年的报考热度和报考难度。可选地,也可以如上文所述的将专业的报考热度和报考难度分别以横轴和纵轴建立坐标系,从而更清晰地为用户提供各个专业的报考参考信息。
可选地,所述预测报考信息的步骤包括:
获取考生提供的生源地信息、考生科别信息和预估分数信息;
按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息、各专业的信息和所述需求信息;
根据考生提供的信息和所述基于不同维度分别统计得到的信息,预测考生报考不同院校的成功率。
典型地,可以按照上文所述的方法按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息(包括诸如院校的知名度排名)、各专业的信息和所述需求信息,为简明起见,在此不再详述。其中,所述科别信息主要指文理科分类信息。例如,考生提供的生源地信息、考生科别信息和预估分数信息分别为:湖南,理科,621,则根据考生所提供的该信息和所述基于不同维度分别统计得到的信息,预测考生报考不同院校的成功率得到诸如上海交通大学81%,复旦大学75%,浙江大学78%等信息。
可选地,根据所预测出的考生报考不同院校的成功率,对不同院校进行排序,将排序后的院校信息提供给用户,在此,排序的规则不作限定。
需要说明的是,上述步骤s1至步骤s4的顺序并不在此限定,仅是用于示例说明,诸如步骤s2可以在步骤s1之前执行,也可以在步骤s1之后执行。
图2示出根据本发明另一个方面的向用户提供报考预测信息的方法2的流程图。如图2所示,本实施例提供的方法2包括:
在步骤s201中,获取用户的检索词;
在步骤s202中,判断所获取的检索词是否属于预定检索序列,如果是,则基于该检索词获取对应的搜索卡片并将所述搜索卡片提供给用户;
在步骤s203中,获取用户在所述搜索卡片中输入的考生信息;
在步骤s204中,根据所述考生信息并预测报考信息的方法,生成与所述考生信息对应的报考预测信息;其中,所述预测报考信息的方法优选采用上述实施例所提供的方法。
在步骤s205中,响应用户对所述搜索卡片的特定操作,将与所述考生信息对应的报考预测信息提供给用户。
具体地,在步骤s201中,获取用户提供的检索词,诸如在页面搜索框中输入或选择的检索词,获取检索词的方式在此不作限定,检索词的内容在此不作限定。典型地,如用户在百度网页中输入的检索词如“高考分数线”、“模拟志愿填报”等。
在步骤s202中,对所获取的检索词是否属于预定检索序列进行判断,如果判断结果为是,则基于该检索词获取对应的搜索卡片并将所述搜索卡片提供给用户,如果判断结果为否,则可以直接基于该检索词进行搜索,将搜索结果呈现在搜索结果页面,也可以基于该检索词获取对应的搜索卡片并将所述搜索卡片提供给用户。
其中,所述预定检索序列是指预先设定的检索词集,诸如{志愿填报、报考预测、高分择校、高考分数线}等,对所获取的检索词是否属于预定检索序列进行判断时,可以根据该检索词是否属于该检索词集进行判断,也可以根据该检索词是否与该检索词集中任一词的相似度达到一定阈值进行判断,在此,对所获取的检索词是否属于预定检索序列进行判断的方式在此不作限定。
其中,所述搜索卡片可以在搜索结果页面中表现为具有多个选择项或/和待输入项的搜索框,该搜索卡片可以嵌入搜索结果页面,也可以以诸如浮动的动态形式展示在搜索结果页面,在此不作限定。
在步骤s203中,所述用户在所述搜索卡片中输入的考生信息可以包括:生源地信息、考生科别信息和预估分数信息。此处,用户可以根据搜索卡片提供的多个选择项对生源地信息、考生科别信息和预估分数信息进行选择,也可以直接在所述搜索卡片中进行输入,在此不作限定。其中,所述考生科别信息主要指文理科信息,诸如文科或理科。
在步骤s204中,由于采用了本发明上述实施例所提供的预测报考信息的方法,并根据用户提供的所述考生信息,生成与所述考生信息对应的报考预测信息,在此可以参照上文,为简明起见,不再详述。
在步骤s205中,响应用户对所述搜索卡片的特定操作,将与所述考生信息对应的报考预测信息提供给用户。可选地,响应对所述搜索卡片的预测按钮的操作,将与所述考生信息对应的报考预测信息展示在搜索结果页,以提供给用户。预测按钮在页面上的可以表现为接收用户诸如点击、双击等操作的选项或其他形式,在此不作限定。
其中,所述与所述考生信息对应的报考预测信息包括以下中的一项或多项:
院校名称、院校所在地、最近N年的录取最高分、录取平均分和所述考生报考对应院校的录取概率,其中,N为正整数。
当然,本实施例中,当获取用户在所述搜索卡片中输入的考生信息后,根据所述考生信息并根据本发明上述实施例所提供的预测报考信息的方法,生成与所述考生信息对应的报考预测信息,并直接提供给用户,也即无需在搜索卡片上设置预测按钮,无需响应用户对所述搜索卡片的特定操作,直接将报考预测信息提供给用户。
图3示出根据本发明另一个方面的预测报考信息的装置的示意性框图;如图3所示,本实施例提供的装置3包括:
用于建立用于存储院校信息的院校数据库的单元301(简称“建库单元”);
用于获取用户的网络操作日志的单元302(简称“日志获取单元”);
用于对所获取的网络操作日志进行分析并且确定用户的需求信息的单元303(简称“日志分析单元”);
用于根据所述院校数据库的院校信息和所述需求信息,预测报考信息的单元304(简称“报考预测单元”)。
在此,所述装置包括但不限于网络设备、用户设备或网络设备与用户设备通过网络相集成所构成的设备。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算的大量计算机或网络服务器构成;所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板或声控设备进行人机交互的电子产品,例如计算机、智能手机、PDA、游戏机或IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。本领域技术人员应能理解,其他的装置同样适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
可选地,用于建立用于存储院校信息的院校数据库的所述建库单元301包括:
用于确定目标网站和对应的信息抓取规则,并基于所对应的信息抓取规则从所述目标网站中抓取院校信息的模块;
用于对所抓取的院校信息进行预处理,将经过预处理的所述院校信息存储至院校数据库的模块。
可选地,所述用于对所抓取的院校信息进行预处理,将经过预处理的所述院校信息存储至院校数据库的模块对所抓取的院校信息进行以下预处理:
确定所述目标网站中所抓取的院校信息的可信度;
基于所述可信度,对所抓取的院校信息进行交叉对比和排重处理。
可选地,用于获取用户的网络操作日志的所述日志获取单元获取的网络操作日志包括以下中的至少一项:
用户进入或/和退出网页的操作日志;
用户在特定时间内变换检索词的信息;
用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息;
用户在信息互动平台上分享的信息。
可选地,用于对所获取的网络操作日志进行分析并确定用户的需求信息的所述日志分析单元用于:
根据用户在信息互动平台上分享的信息,确定其中的热门话题信息;
根据所述热门话题信息,确定用户的需求信息。
可选地,所述用于根据所述院校数据库的院校信息和所述需求信息,预测报考信息的单元包括以下中的至少一个模块:
用于按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息和所述需求信息,预测所述各个院校的报考热度或/和报考难度的模块;
用于按照不同维度分别统计所述院校数据库的院校信息中各专业的信息和所述需求信息,预测所述各专业的报考热度或/和报考难度的模块。
可选地,用于根据所述院校数据库的院校信息和所述需求信息,预测报考信息的所述报考预测单元包括:
用于获取考生提供的生源地信息、考生科别信息和预估分数信息的模块;
用于按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息、各专业的信息和所述需求信息的模块;
用于根据考生提供的信息和所述基于不同维度分别统计得到的信息,预测考生报考不同院校的成功率的模块。
应当理解,图3所述的示意性框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些单元。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。
本领域技术人员应能理解,上述各单元仅为示例,在实践中,它们可以是四个独立的单元,或者任意两个单元集成在一个单元中,也可全部集成在一个单元中,在此不作限定。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (11)

1.一种预测报考信息的方法,包括:
建立用于存储院校信息的院校数据库,包括:
确定目标网站和对应的信息抓取规则;
基于所对应的信息抓取规则从所述目标网站中抓取院校信息;
对所抓取的院校信息进行预处理,将经过预处理的所述院校信息存储至院校数据库;其中,对所述院校信息进行预处理的步骤包括:
确定所述目标网站中所抓取的院校信息的可信度;
基于所述可信度,对所抓取的院校信息进行交叉对比和排重处理;
获取用户的网络操作日志;
对所获取的网络操作日志进行分析,确定用户的需求信息;
根据所述院校数据库的院校信息和所述需求信息,预测报考信息,其中所述预测报考信息的步骤包括以下中的至少一项:
按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息和所述需求信息,预测所述各个院校的报考热度或/和报考难度;将院校的报考热度和报考难度分别以横轴和纵轴建立坐标系,为用户提供各个院校的报考参考信息;按照不同维度分别统计所述院校数据库的院校信息中各专业的信息和所述需求信息,预测所述各专业的报考热度或/和报考难度;将专业的报考热度和报考难度分别以横轴和纵轴建立坐标系,为用户提供各个专业的报考参考信息。
2.根据权利要求1所述的方法,所述获取用户的网络操作日志包括获取以下中的至少一项:
用户进入或/和退出网页的操作日志;
用户在特定时间内变换检索词的信息;
用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息;
用户在信息互动平台上分享的信息。
3.根据权利要求2所述的方法,其中
根据用户在信息互动平台上分享的信息,确定其中的热门话题信息;
根据所述热门话题信息,确定用户的需求信息。
4.根据权利要求1所述的方法,其中所述预测报考信息的步骤包括:
获取考生提供的生源地信息、考生科别信息和预估分数信息;
按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息、各专业的信息和所述需求信息;
根据考生提供的信息和所述基于不同维度分别统计得到的信息,预测考生报考不同院校的成功率。
5.一种向用户提供报考预测信息的方法,包括:
获取用户的检索词;
判断所获取的检索词是否属于预定检索序列,如果是,则基于该检索词获取对应的搜索卡片并将所述搜索卡片提供给用户;
获取用户在所述搜索卡片中输入的考生信息;
根据所述考生信息并根据权利要求1所述的方法,生成与所述考生信息对应的报考预测信息;
响应用户对所述搜索卡片的特定操作,将与所述考生信息对应的报考预测信息提供给用户。
6.根据权利要求5所述的方法,其中,所述用户在所述搜索卡片中输入的考生信息包括:生源地信息、考生科别信息和预估分数信息。
7.根据权利要求5所述的方法,其中,所述与所述考生信息对应的报考预测信息包括以下中的一项或多项:
院校名称、院校所在地、最近N年的录取最高分、录取平均分和所述考生报考对应院校的录取概率,其中,N为正整数。
8.一种预测报考信息的装置,包括:
用于建立用于存储院校信息的院校数据库的单元,包括:
用于确定目标网站和对应的信息抓取规则,并基于所对应的信息抓取规则从所述目标网站中抓取院校信息的模块;
用于对所抓取的院校信息进行预处理,将经过预处理的所述院校信息存储至院校数据库的模块;其中,所述对所抓取的院校信息进行的预处理包括:
确定所述目标网站中所抓取的院校信息的可信度;
基于所述可信度,对所抓取的院校信息进行交叉对比和排重处理;
用于获取用户的网络操作日志的单元;
用于对所获取的网络操作日志进行分析并确定用户的需求信息的单元;
用于根据所述院校数据库的院校信息和所述需求信息,预测报考信息的单元,包括以下中的至少一个模块:
用于按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息和所述需求信息,预测所述各个院校的报考热度或/和报考难度的模块;将院校的报考热度和报考难度分别以横轴和纵轴建立坐标系,为用户提供各个院校的报考参考信息;
用于按照不同维度分别统计所述院校数据库的院校信息中各专业的信息和所述需求信息,预测所述各专业的报考热度或/和报考难度的模块;将专业的报考热度和报考难度分别以横轴和纵轴建立坐标系,为用户提供各个专业的报考参考信息。
9.根据权利要求8所述的装置,所述用于获取用户的网络操作日志的单元获取的网络操作日志包括以下中的至少一项:
用户进入或/和退出网页的操作日志;
用户在特定时间内变换检索词的信息;
用户在特定时间内对网页中的提示信息或/和推荐信息进行操作的行为信息;
用户在信息互动平台上分享的信息。
10.根据权利要求9所述的装置,其中所述用于对所获取的网络操作日志进行分析,确定用户的需求信息的单元用于:
根据用户在信息互动平台上分享的信息,确定其中的热门话题信息;
根据所述热门话题信息,确定用户的需求信息。
11.根据权利要求8所述的装置,其中所述用于根据所述院校数据库的院校信息和所述需求信息,预测报考信息的单元包括:
用于获取考生提供的生源地信息、考生科别信息和预估分数信息的模块;
用于按照不同维度分别统计所述院校数据库的院校信息中各个院校的信息、各专业的信息和所述需求信息的模块;
用于根据考生提供的信息和所述基于不同维度分别统计得到的信息,预测考生报考不同院校的成功率的模块。
CN201410232867.XA 2014-05-28 2014-05-28 一种预测报考信息的方法和装置 Active CN104123337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410232867.XA CN104123337B (zh) 2014-05-28 2014-05-28 一种预测报考信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410232867.XA CN104123337B (zh) 2014-05-28 2014-05-28 一种预测报考信息的方法和装置

Publications (2)

Publication Number Publication Date
CN104123337A CN104123337A (zh) 2014-10-29
CN104123337B true CN104123337B (zh) 2018-03-23

Family

ID=51768748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410232867.XA Active CN104123337B (zh) 2014-05-28 2014-05-28 一种预测报考信息的方法和装置

Country Status (1)

Country Link
CN (1) CN104123337B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447111A (zh) * 2016-09-30 2017-02-22 广州特道信息科技有限公司 一种基于大数据的高考志愿填报方法
CN109919351A (zh) * 2018-12-27 2019-06-21 济南尚上教育科技有限公司 基于大数据的高考志愿填报前预测录取分数的方法及装置
CN111667389A (zh) * 2020-06-16 2020-09-15 衢州量智科技有限公司 基于大数据的高考录取概率的评估方法及评估装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备
CN102663111A (zh) * 2012-04-17 2012-09-12 电信科学技术研究院 一种信息获取方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110010306A1 (en) * 2009-07-08 2011-01-13 Gonzalez Daniel P Educational Information Management System and Education Recommendation Generator
US20150006423A1 (en) * 2013-06-28 2015-01-01 ThinkTank Learning Inc. Individualized education consulting system and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备
CN102663111A (zh) * 2012-04-17 2012-09-12 电信科学技术研究院 一种信息获取方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"高考信息推荐引擎的设计与实现";王灵峰;《中国优秀硕士学位论文全文数据库信息科技辑》;20111015(第10期);第I138-903页 *
"高考志愿网报系统性能优化与志愿预测分析";王亚盛;《中国优秀硕士学位论文全文数据库信息科技辑》;20120515(第5期);第I139-216页 *
"高考考生志愿数据分析与挖掘研究";殷员分;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100815(第8期);第I138-473页 *

Also Published As

Publication number Publication date
CN104123337A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN109145216B (zh) 网络舆情监控方法、装置及存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
US10482136B2 (en) Method and apparatus for extracting topic sentences of webpages
CN107220386A (zh) 信息推送方法和装置
CN104951539B (zh) 互联网数据中心有害信息监测系统
US8856100B2 (en) Displaying browse sequence with search results
CN107862022B (zh) 文化资源推荐系统
CN103294815B (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN106991160B (zh) 一种基于用户影响力以及内容的微博传播预测方法
CN101350011B (zh) 一种基于小样本集的搜索引擎作弊检测方法
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN107341183A (zh) 一种基于暗网网站综合特征的网站分类方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN103713894B (zh) 一种用于确定用户的访问需求信息的方法与设备
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103823907B (zh) 一种整合在线视频资源地址的方法、装置及引擎
CN106033445A (zh) 获取文章关联度数据的方法和装置
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN110555154B (zh) 一种面向主题的信息检索方法
US10346414B2 (en) Information collection method and device
CN104123337B (zh) 一种预测报考信息的方法和装置
CN113010639A (zh) 一种基于电商平台的商品分析方法及装置
CN104391958B (zh) 网页搜索关键词的相关性检测方法及装置
CN103383697B (zh) 确定对象标题的对象表征信息的方法与设备
CN103365858B (zh) 基于一查询序列由多个源设备获取搜索结果的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant