CN103235827B - 一种科技信息自动分类筛选的方法 - Google Patents

一种科技信息自动分类筛选的方法 Download PDF

Info

Publication number
CN103235827B
CN103235827B CN201310173534.XA CN201310173534A CN103235827B CN 103235827 B CN103235827 B CN 103235827B CN 201310173534 A CN201310173534 A CN 201310173534A CN 103235827 B CN103235827 B CN 103235827B
Authority
CN
China
Prior art keywords
user
information
page
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310173534.XA
Other languages
English (en)
Other versions
CN103235827A (zh
Inventor
朱涛
党荣泉
蒋梦梦
陈美丽
赵西法
李洪升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Zhenghuiqi Technology Co.,Ltd.
Original Assignee
JINAN ZHENGHE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JINAN ZHENGHE TECHNOLOGY Co Ltd filed Critical JINAN ZHENGHE TECHNOLOGY Co Ltd
Priority to CN201310173534.XA priority Critical patent/CN103235827B/zh
Publication of CN103235827A publication Critical patent/CN103235827A/zh
Application granted granted Critical
Publication of CN103235827B publication Critical patent/CN103235827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种科技信息自动分类筛选的方法,它包括以下步骤:1)利用网络信息筛选装置从公开地址抓取动态数据包;2),并确定指定关键词是否为本页面的关键词;3)查询与用户标识相对应的用户偏好类型,获取与用户偏好类型相对应的服务信息,并将服务信息显示到本地用户终端的浏览器首页中;4)本地用户终端根据用户的定制条件将数据信息推送给用户。本发明可以针对用户需求或者根据用户定制,有选择性地获取信息并进行分类筛选,然后及时地为用户提供其所需的科技服务信息,并实现用户数据库的自动更新,为用户提供更准确、及时的科技信息服务。

Description

一种科技信息自动分类筛选的方法
技术领域
本发明涉及网页分类技术领域,具体地说一种科技信息自动分类筛选的方法。
背景技术
现代信息技术的发展,信息呈现高速、大容量的特征,有效的信息是竞争取得胜利的关键因素,为了有效地管理和利用这些信息收集、加工、处理、传递和贮存等环节的管理和利用,基于内容的信息检索和数据的挖掘已成为备受关注的领域。随着互联网相关技术的发展与成熟,互联网、企业内部网中提供的网页越来越多,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何根据网页的内容把网页自动分到不同的语义类别,以提高用户的体验,是目前搜索引擎的预处理或网站的文本自动分类管理面临解决的一个问题。但是,传统搜索工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。
搜索直接的关键词,往往会查找到一些不具有相关性的页面,例如:搜索“**省科技创新”不会显示关于**省内的科技创新页面,相反系统会检索到关于**省(与科技创新无关)或是其他省市的“科技”或“创新”的相关页面。
之前的搜索机制是基于各个单一的词语而不是对整个页面的概括,例如“**省科技创新”,所有页面中只要提到“**省”或“科技”“创新”这两个词的页面都会被检索出来,符合这三个词语的任何排列组合后的短语或单一词语都会出现在检索结果中,可能有几百万页的搜索结果。由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、标签等公式来决定的,这才导致搜索引擎的搜索结果多而杂。因此,文本分类技术、按照筛选规则对数据库里的内容进行筛选、比对等需要一种应用面宽、适应力强、更新换代灵活、技术新、满足用户快速获取有效信息的需求等特点的技术。
发明内容
针对上述不足,本发明提供了一种科技信息自动分类筛选的方法,其不仅能够解决现有搜索技术的弊端,而且能够极大地提高了信息检索的效率,保证数据抓取的完整性和可靠性。
本发明解决其技术问题采取的技术方案是:一种科技信息自动分类筛选的方法,用于实时获取不同类型的科技信息并针对注册用户的类型实时推送其所需要的信息,使注册用户登录系统网站后及时获得最新、有效的科技服务信息,并实现自身存储数据的及时更新,其特征是,包括以下步骤:
1)利用网络信息筛选装置从公开地址抓取动态数据包;
2)对抓取的动态数据包进行信息分类筛选,并确定指定关键词是否为本页面的关键词:
2.1)对出现指定关键词的所有页面进行一级筛选;
2.2)建立用户标识与用户偏好类型的对应关系,以及用户偏好类型与服务信息的对应关系,并存储在服务器数据库中;
2.3)确定指定关键词是否为本页面的关键词;
3)查询与用户标识相对应的用户偏好类型,获取与用户偏好类型相对应的服务信息,并将服务信息显示到本地用户终端的浏览器首页中;
4)本地用户终端根据用户的定制条件将数据信息推送给用户。
进一步地,所述对出现指定关键词的所有页面进行一级筛选的步骤为:
A1、在筛选数据库中添加非关键词;
A2、对页面中所有词语进行逐一筛选,删除与筛选数据库中非关键词相同的页面词语;
A3、统计页面中有特殊标记词语的出现频率,表示为:Pa1、Pa2、Pa3…;
A4、将特殊词语频率分别与权A相乘得到特殊词语加权频率,表示为:APa1、APa2、APa3…;
A5、删除页面信息文本中带有特殊标记的词语;
A6、导入常用词词库,对页面信息文本进行全文扫描,统计常用词词库中词语在页面信息文本中的出现频率,表示为:Pb1、Pb2、Pb3…;
A7、将常用词频率分别与权B相乘得到常用词加权频率,表示为:BPb1、BPb2、BPb3…;
A8、对特殊词语加权频率APa1、APa2、APa3…与常用词加权频率BPb1、BPb2、BPb3…进行排序。
进一步地,所述确定指定关键词是否为本页面的关键词的步骤为:
B1、从所有关键词中循环选取部分关键词组合,用t(nai.lj)来表示页面文章名与属性的关联度;
B2、计算关键词组合的自主性,用Dlib(nai)来表示,公式如下:
D lib ( na i ) = Σ j = 1 n H 0 [ t ( na j , l j ) ] - H 1 { { Σ j = 1 n H 0 [ r ( na i , l j ) ] } - 1 } ;
B3、用所有的候补文章名对关键词组合的自主性进行统计;
B4、使用文章数对Dlib(nai)进行规范化,得到最终独立度Plib,公式如下:
P lib = 1 - Σ i = 1 m D lib ( na i ) m ;
B5、根据最终独立度Plib确定指定关键词是否为本页面的关键词;
其中,m:显示的关键词数,n:候补关键词,nai:文章名,i=1、2、...、n,j=1、2、...、n。
优选地,本地用户终端通过进行提示或直接弹出的方式将数据信息推送给用户。
本发明的有益效果是:本发明提供了一种建立在网络服务平台上,应用在科技信息查找机制之上,通过计算机程序的执行针对发文时间、发文单位、发文行政级别、地域、行业领域等不同属性类别的科技项目管理办法、申报通知、申报指南等科技政策信息内容进行筛选;并根据用户浏览习惯和所处地理位置,结合用户自身消息定制的属性主动向用户推送最有效信息的技术,它可以针对用户需求或者根据用户定制,有选择性地获取信息并进行分类筛选,然后及时地为用户提供其所需的科技服务信息,并实现用户数据库的自动更新,为用户提供更准确、及时的科技信息服务。
附图说明
图1是本发明的方法流程图。
具体实施方式
如图1所示,本发明的一种科技信息自动分类筛选的方法,用于实时获取不同类型的科技信息并针对注册用户的类型实时推送其所需要的信息,使注册用户登录系统网站后及时获得最新、有效的科技服务信息,并实现自身存储数据的及时更新,它包括以下步骤:
1)利用网络信息筛选装置从公开地址抓取动态数据包。
2)对出现指定关键词的所有页面进行一级筛选;所述对出现指定关键词的所有页面进行一级筛选的步骤为:
A1、在筛选数据库中添加非关键词,如:助词、语气词和代词等;
A2、对页面中所有词语进行逐一筛选,删除与筛选数据库中非关键词相同的页面词语;
A3、统计页面中有特殊标记词语(如加粗、带有重点标记和着重符号的词语等)的出现频率,表示为:Pa1、Pa2、Pa3…;
A4、将特殊词语频率分别与权A相乘得到特殊词语加权频率,表示为:APa1、APa2、APa3…;
A5、删除页面信息文本中带有特殊标记的词语;
A6、导入常用词词库,对页面信息文本进行全文扫描,统计常用词词库中词语在页面信息文本中的出现频率,表示为:Pb1、Pb2、Pb3…;
A7、将常用词频率分别与权B相乘得到常用词加权频率,表示为:BPb1、BPb2、BPb3…;
A8、对特殊词语加权频率APa1、APa2、APa3…与常用词加权频率BPb1、BPb2、BPb3…进行排序。
3)建立用户标识与用户偏好类型的对应关系,以及用户偏好类型与服务信息的对应关系,并存储在服务器数据库中。
4)确定指定关键词是否为本页面的关键词;所述确定指定关键词是否为本页面的关键词的步骤为:
B1、从所有关键词中循环选取部分关键词组合,用t(nai.lj)来表示页面文章名与属性的关联度;
B2、计算关键词组合的自主性,用Dlib(nai)来表示,公式如下:
D lib ( na i ) = Σ j = 1 n H 0 [ t ( na i , I j ) ] - H 1 { { Σ j = 1 n H 0 [ r ( na i , I j ) ] } - 1 } ;
自主性是指关键词对文章名进行缩小范围时,通过其他关键词而进行范围缩小的文章名的明细相差多少的指标;
B3、用所有的候补文章名对关键词组合的自主性进行统计;统计值越大说明多关键性词与同一文章名有关联。用户选定1个关键词来进行范围缩小,范围缩小后的结果所获得的文章数较多,范围缩小效率较低,因此,合计值越小就越能够找到到缩小范围效率较高的关键词组合;
B4、使用文章数对Dlib(nai)进行规范化,得到最终独立度Plib,公式如下:
P lib = 1 - Σ i = 1 m D lib ( na i ) m ;
B5、根据最终独立度Plib确定指定关键词是否为本页面的关键词;
其中,m:显示的关键词数,n:候补关键词,nai:文章名,i=1、2、...、n,j=1、2、...、n。
5)查询与用户标识相对应的用户偏好类型,获取与用户偏好类型相对应的服务信息,并将服务信息显示到本地用户终端的浏览器首页中;
6)本地用户终端根据用户的定制条件将数据信息推送给用户。
上述方法中,本地用户终端通过进行提示或直接弹出的方式将数据信息推送给用户。
本发明融政府、科技型企业、中介咨询机构科技服务信息分类于一体,覆盖所有政府科技管理部分、行业、学科,提供一种科技信息自动分类筛选方法,实时获取不同类型的科技信息并针对注册用户的类型实时推送其所需要的信息,使用户登录系统网站并注册后,可以及时获得最新的、有效的科技服务信息,并实现自身存储数据的及时更新。本发明能够解决现有搜索技术中无法实现多维、动态信息的复杂分类筛选与信息准确及时推送和更新的弊端;可以实现联动检索与定制信息,实现对不同站点、不同时间、不同技术领域信息的直接分类获取,并进行数据过滤以及自定义标签,然后推送至接收端,极大地提高了信息检索的效率;能够根据分类语言融合主题语言,类名与主题词对应自动互换,规范语言融合自然语言的方式,实现动态数据的分类筛选,保证数据抓取的完整性和可靠性;能够实现信息分类筛选后根据注册用户类型实时将科技信息推送至用户接收端,使用户可以及时获得最新的、有效的科技服务信息,并实现自身存储数据的及时更新。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (2)

1.一种科技信息自动分类筛选的方法,用于实时获取不同类型的科技信息并针对注册用户的类型实时推送其所需要的信息,使注册用户登录系统网站后及时获得最新、有效的科技服务信息,并实现自身存储数据的及时更新,其特征是,包括以下步骤:
1)利用网络信息筛选装置从公开地址抓取动态数据包;
2)对抓取的动态数据包进行信息分类筛选,并确定指定关键词是否为本页面的关键词:
2.1)对出现指定关键词的所有页面进行一级筛选;
2.2)建立用户标识与用户偏好类型的对应关系,以及用户偏好类型与服务信息的对应关系,并存储在服务器数据库中;
2.3)确定指定关键词是否为本页面的关键词;
3)查询与用户标识相对应的用户偏好类型,获取与用户偏好类型相对应的服务信息,并将服务信息显示到本地用户终端的浏览器首页中;
4)本地用户终端根据用户的定制条件通过进行提示或直接弹出的方式将数据信息推送给用户;
所述对出现指定关键词的所有页面进行一级筛选的步骤为:
A1、在筛选数据库中添加非关键词;
A2、对页面中所有词语进行逐一筛选,删除与筛选数据库中非关键词相同的页面词语;
A3、统计页面中有特殊标记词语的出现频率,表示为:Pa1、Pa2、Pa3…;
A4、将特殊词语频率分别与权A相乘得到特殊词语加权频率,表示为:APa1、APa2、APa3…;
A5、删除页面信息文本中带有特殊标记的词语;
A6、导入常用词词库,对页面信息文本进行全文扫描,统计常用词词库中词语在页面信息文本中的出现频率,表示为:Pb1、Pb2、Pb3…;
A7、将常用词频率分别与权B相乘得到常用词加权频率,表示为:BPb1、BPb2、BPb3…;
A8、对特殊词语加权频率APa1、APa2、APa3…与常用词加权频率BPb1、BPb2、BPb3…进行排序。
2.根据权利要求1所述的一种科技信息自动分类筛选的方法,其特征是,所述确定指定关键词是否为本页面的关键词的步骤为:
B1、从所有关键词中循环选取部分关键词组合,用t(nai.lj)来表示页面文章名与属性的关联度;
B2、计算关键词组合的自主性,用Dlib(nai)来表示,公式如下:
D l i b ( na i ) = Σ j = 1 n H 0 [ t ( na i , l j ) ] - H 1 { { Σ j = 1 n H 0 [ r ( na i , l j ) ] } - 1 } ;
B3、用所有的候补文章名对关键词组合的自主性进行统计;
B4、使用文章数对Dlib(nai)进行规范化,得到最终独立度Plib,公式如下:
P l i b = 1 - Σ i = 1 m D l i b ( na i ) m ;
B5、根据最终独立度Plib确定指定关键词是否为本页面的关键词;
其中,m:显示的关键词数,n:候补关键词,nai:文章名,i=1、2、...、n,j=1、2、...、n。
CN201310173534.XA 2013-05-13 2013-05-13 一种科技信息自动分类筛选的方法 Active CN103235827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310173534.XA CN103235827B (zh) 2013-05-13 2013-05-13 一种科技信息自动分类筛选的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310173534.XA CN103235827B (zh) 2013-05-13 2013-05-13 一种科技信息自动分类筛选的方法

Publications (2)

Publication Number Publication Date
CN103235827A CN103235827A (zh) 2013-08-07
CN103235827B true CN103235827B (zh) 2016-04-20

Family

ID=48883868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310173534.XA Active CN103235827B (zh) 2013-05-13 2013-05-13 一种科技信息自动分类筛选的方法

Country Status (1)

Country Link
CN (1) CN103235827B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327039A (zh) * 2015-06-25 2017-01-11 中兴通讯股份有限公司 周报信息处理方法及装置
CN105205600A (zh) * 2015-09-16 2015-12-30 广西中烟工业有限责任公司 一种解决微信多账号关注用户分类管理的系统和方法
CN107886239A (zh) * 2017-11-09 2018-04-06 安徽律正科技信息服务有限公司 一种企业匹配科技信息遴选方法
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
CN113111246A (zh) * 2020-01-13 2021-07-13 广州佳佳乐科技有限公司 一种科技数据信息咨询服务系统
CN111460046A (zh) * 2020-03-06 2020-07-28 合肥海策科技信息服务有限公司 一种基于大数据的科技信息聚类方法
CN113487368A (zh) * 2021-07-29 2021-10-08 宿迁市盛邦信息科技有限公司 一种基于大数据的科技信息推送服务系统
CN114238778B (zh) * 2022-02-23 2022-05-24 深圳市云初信息科技有限公司 基于大数据的科技情报推荐方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
CN101246484A (zh) * 2007-02-15 2008-08-20 刘二中 一种便于查询的电子文本的相似性处理方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
CN101246484A (zh) * 2007-02-15 2008-08-20 刘二中 一种便于查询的电子文本的相似性处理方法和系统

Also Published As

Publication number Publication date
CN103235827A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103235827B (zh) 一种科技信息自动分类筛选的方法
US8656264B2 (en) Dynamic aggregation and display of contextually relevant content
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
CN101116072B (zh) 用于分类呈现搜索结果的方法和系统
CN102208992B (zh) 面向互联网的不良信息过滤系统及其方法
CN101216825B (zh) 标引关键词提取/预测方法
CN102831248B (zh) 网络热点挖掘方法及装置
US10713291B2 (en) Electronic document generation using data from disparate sources
CN111008265A (zh) 企业信息搜索方法及装置
US20080244429A1 (en) System and method of presenting search results
US20080104037A1 (en) Automated scheme for identifying user intent in real-time
WO2011080899A1 (ja) 情報推薦方法
KR20100112512A (ko) 검색 장치 및 검색 방법
CN107305551A (zh) 推送信息的方法和装置
WO2006081835A1 (en) Method and apparatus for mobile information access in natural language
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN103177036A (zh) 一种标签自动提取方法和系统
CN113239111B (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN106407377A (zh) 基于人工智能的搜索方法和装置
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
CN104572719A (zh) 信息收集方法及装置
CN106933380A (zh) 一种词库的更新方法和装置
CN109101506A (zh) 基于可视化的搜索方法及系统
KR20080028031A (ko) 키워드 및 키워드에 관련된 각종 콘텐츠를 자동으로추출하고 디스플레이하는 시스템 및 방법
JP2003036261A (ja) 文章自動分類装置、文章自動分類プログラム、文章自動分類方法及び文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
C41 Transfer of patent application or patent right or utility model
GR01 Patent grant
TA01 Transfer of patent application right

Effective date of registration: 20160328

Address after: Xinluo Avenue high tech Zone of Ji'nan City, Shandong province 250101 silver bearing No. 2008 building A block 8 layer 803-02

Applicant after: ZHENGHE TECHNOLOGY Co.,Ltd.

Address before: Xinluo Avenue high tech Zone of Ji'nan City, Shandong province 250101 silver bearing No. 2008 building A-8-3

Applicant before: JINAN ZHENGHE TECHNOLOGY Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method for automatically classifying and screening scientific and technological information

Effective date of registration: 20181008

Granted publication date: 20160420

Pledgee: Qilu bank Limited by Share Ltd. Ji'nan high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: 2018370000168

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220125

Granted publication date: 20160420

Pledgee: Qilu bank Limited by Share Ltd. Ji'nan high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: 2018370000168

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of automatic classification and screening of scientific and technological information

Effective date of registration: 20220214

Granted publication date: 20160420

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2022980001521

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221212

Granted publication date: 20160420

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2022980001521

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method of Automatic Classification and Screening of Scientific and Technological Information

Effective date of registration: 20230203

Granted publication date: 20160420

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2023980031993

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20160420

Pledgee: Ji'nan rural commercial bank Limited by Share Ltd. high tech branch

Pledgor: ZHENGHE TECHNOLOGY Co.,Ltd.

Registration number: Y2023980031993

PC01 Cancellation of the registration of the contract for pledge of patent right
TR01 Transfer of patent right

Effective date of registration: 20240818

Address after: Room 310, 3rd Floor, Haikou Medicine Valley Biomedical Innovation Complex, No. 288 Nanhai Avenue, Haikou City, Hainan Province, China 570311 National High tech Industrial Development Zone, Haikou City, Hainan Province

Patentee after: Hainan Zhenghuiqi Technology Co.,Ltd.

Country or region after: China

Address before: 250101 803-02, floor 8, block a, Yinhe building, No. 2008, Xinluo street, high tech Zone, Jinan, Shandong

Patentee before: ZHENGHE TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right