CN107145600A - 适用于同类别企业公开信息归类方法 - Google Patents
适用于同类别企业公开信息归类方法 Download PDFInfo
- Publication number
- CN107145600A CN107145600A CN201710403601.0A CN201710403601A CN107145600A CN 107145600 A CN107145600 A CN 107145600A CN 201710403601 A CN201710403601 A CN 201710403601A CN 107145600 A CN107145600 A CN 107145600A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- information
- data
- classifying method
- public information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明涉及一种适用于同类别企业公开信息归类方法,通过数据采集层从企业信息发布平台的公示信息中进行数据采集。之后,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储。接着,通过分析服务器对数据进行分析。之后,发布层对分析服务器分析后的结果进行加密与展示。由此,可系统性手机企业信息发布平台所公示的信息,无需人工前端检索梳理。能够独立完成数据的存储与分析,提高处理效率。能够实现划词匹配,提升关键词的捕获正确率。实施便捷,可满足用户对特定企业的信息收集需要,亦可以满足政府部门对相关企业进行全面的信息采集,为制定相关经济政策提供参考依据。
Description
技术领域
本发明涉及一种公开信息归类方法,尤其涉及一种适用于同类别企业公开信息归类方法。
背景技术
对于现有的企业发展来看,如果需要针对竞争对手进行公开信息收集,往往需要专人定时通过相关的公开渠道进行内容收集。单一依靠人工收集,往往会出现疏漏。同时,一旦人员替换,还可能出现重复录入,影响处理效率。
同时,对于当地政府来看,在制定相关的引导政策时,往往需要进行大量的调研,需要获取大量的企业相关数据。在此期间,也会采用人工方式进行公开数据的搜检。同样面临效率不高的缺陷。
有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于同类别企业公开信息归类方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种适用于同类别企业公开信息归类方法。
本发明的适用于同类别企业公开信息归类方法,其中:步骤一,通过数据采集层从企业信息发布平台的公示信息中进行数据采集。步骤二,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储。步骤三,通过分析服务器对数据进行分析。步骤四,发布层对分析服务器分析后的结果进行加密与展示。
进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,数据采集层通过网络爬虫模块进行数据采集。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,网络爬虫模块通过设定关键词,对符合关键词且拥有较高词频的数据进行采集,在采集过程中,网络爬虫模块设有自检机制,从句子中进行划词,构成不同的词组,通过词组来匹配关键词。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,通过定时采集方式进行数据采集,所述定时为每个工作日;或是,通过实时不间断采集方式进行数据采集。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,企业信息发布平台的公示信息包括产品目录、产品摘要、产品图片、合作厂商目录、销售区域、售后信息,所述企业信息发布平台包括部企业的网站、网页、微博、微信。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤二中,存储格式包括文本格式、表格格式、html文档格式、图片格式中的一种或是多种结合。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤三中,数据分析为通过设定检索逻辑,将公示信息中的内容进行纯文本转码,生成信息摘要,并为信息摘要匹配二次搜索标签。
再进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
借由上述方案,本发明至少具有以下优点:
1、可系统性手机企业信息发布平台所公示的信息,无需人工前端检索梳理。
2、能够独立完成数据的存储与分析,提高处理效率。
3、能够实现划词匹配,提升关键词的捕获正确率。
4、实施便捷,可满足用户对特定企业的信息收集需要,亦可以满足政府部门对相关企业进行全面的信息采集,为制定相关经济政策提供参考依据。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
适用于同类别企业公开信息归类方法,其与众不同之处在于:
首先,通过数据采集层从企业信息发布平台的公示信息中进行数据采集。考虑到免人工实施的便利性,能够根据预设进行数据采集,无需人工录入,数据采集层通过网络爬虫模块进行数据采集。具体来说,网络爬虫模块通过设定关键词,对符合关键词且拥有较高词频的数据进行采集。由于中文文字存在不同的语序与用词表述划分,在采集过程中,网络爬虫模块设有自检机制。由此,能够从句子中进行划词,构成不同的词组,通过词组来匹配关键词。这样,极大提升了采集正确率。
从服务器的工作优化工作状况考虑,可按照每个工作日定时进行数据采集。当然,亦可以采用实时不间断采集方式进行数据采集。同时,为了有效搜集企业信息,便于用户来定制针对化的推广产品,或是知晓企业的发展发现,进行竞争监控,亦可以便于有关部分针对企业现况进行发展跟踪,企业信息发布平台的公示信息包括产品目录、产品摘要、产品图片、合作厂商目录、销售区域、售后信息,企业信息发布平台包括部企业的网站、网页、微博、微信。
之后,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储。为了进行第一时间储存,预防数据丢失,且能够满足常用的存储格式,存储格式包括文本格式、表格格式、html文档格式、图片格式中的一种或是多种结合。这样,在保存期间,不需进行额外的格式转化,提升了处理效率。
接着,通过分析服务器对数据进行分析。在实施期间,可通过设定检索逻辑,将公示信息中的内容进行纯文本转码,生成信息摘要,并为信息摘要匹配二次搜索标签。这样,在用户后续使用时,可通过二次搜索标签,快速找到自己需要的内容。
最后,发布层对分析服务器分析后的结果进行加密与展示。考虑到数据的最终展示需要,采用的分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。同时,为了防止恶意的第三方逆向解析或是数据抽取,可根据后续的传输终端,进行对应的数据加密。考虑到实施的便捷,可满足常见的智能设备通讯,分析服务器分析后的结果,传输到PC端,是智能设备。具体来说,智能设备包括智能手机、平板电脑。当然,亦可以包括其他可使用数据通讯传输协议的设备。
通过上述的文字表述可以看出,采用本发明后,拥有如下优点:
1、可系统性手机企业信息发布平台所公示的信息,无需人工前端检索梳理。
2、能够独立完成数据的存储与分析,提高处理效率。
3、能够实现划词匹配,提升关键词的捕获正确率。
4、实施便捷,可满足用户对特定企业的信息收集需要,亦可以满足政府部门对相关企业进行全面的信息采集,为制定相关经济政策提供参考依据。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (9)
1.适用于同类别企业公开信息归类方法,其特征在于:
步骤一,通过数据采集层从企业信息发布平台的公示信息中进行数据采集;
步骤二,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储;
步骤三,通过分析服务器对数据进行分析;
步骤四,发布层对分析服务器分析后的结果进行加密与展示。
2.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,数据采集层通过网络爬虫模块进行数据采集。
3.根据权利要求2所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,网络爬虫模块通过设定关键词,对符合关键词且拥有较高词频的数据进行采集,在采集过程中,网络爬虫模块设有自检机制,从句子中进行划词,构成不同的词组,通过词组来匹配关键词。
4.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,通过定时采集方式进行数据采集,所述定时为每个工作日;或是,通过实时不间断采集方式进行数据采集。
5.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,企业信息发布平台的公示信息包括产品目录、产品摘要、产品图片、合作厂商目录、销售区域、售后信息,所述企业信息发布平台包括部企业的网站、网页、微博、微信。
6.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤二中,存储格式包括文本格式、表格格式、html文档格式、图片格式中的一种或是多种结合。
7.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤三中,数据分析为通过设定检索逻辑,将公示信息中的内容进行纯文本转码,生成信息摘要,并为信息摘要匹配二次搜索标签。
8.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
9.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤四中,分析结果传输到PC端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710403601.0A CN107145600A (zh) | 2017-06-01 | 2017-06-01 | 适用于同类别企业公开信息归类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710403601.0A CN107145600A (zh) | 2017-06-01 | 2017-06-01 | 适用于同类别企业公开信息归类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107145600A true CN107145600A (zh) | 2017-09-08 |
Family
ID=59780426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710403601.0A Pending CN107145600A (zh) | 2017-06-01 | 2017-06-01 | 适用于同类别企业公开信息归类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145600A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038666A (zh) * | 2017-12-13 | 2018-05-15 | 广州玟盈信息科技有限公司 | 一种基于互联网的企业信息采集系统 |
CN111489198A (zh) * | 2020-04-09 | 2020-08-04 | 南京中爱人工智能与生命科学研究院有限公司 | 一种基于药物研发数据的商务应用推广方法 |
CN111898378A (zh) * | 2020-07-31 | 2020-11-06 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120030164A1 (en) * | 2010-07-27 | 2012-02-02 | Oracle International Corporation | Method and system for gathering and usage of live search trends |
CN105405071A (zh) * | 2015-12-04 | 2016-03-16 | 国网浙江省电力公司 | 一种企业统一数据模型构建方法 |
CN105740335A (zh) * | 2016-01-22 | 2016-07-06 | 山东合天智汇信息技术有限公司 | 一种基于titan的企业信息分析平台及其构建方法 |
-
2017
- 2017-06-01 CN CN201710403601.0A patent/CN107145600A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120030164A1 (en) * | 2010-07-27 | 2012-02-02 | Oracle International Corporation | Method and system for gathering and usage of live search trends |
CN105405071A (zh) * | 2015-12-04 | 2016-03-16 | 国网浙江省电力公司 | 一种企业统一数据模型构建方法 |
CN105740335A (zh) * | 2016-01-22 | 2016-07-06 | 山东合天智汇信息技术有限公司 | 一种基于titan的企业信息分析平台及其构建方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038666A (zh) * | 2017-12-13 | 2018-05-15 | 广州玟盈信息科技有限公司 | 一种基于互联网的企业信息采集系统 |
CN111489198A (zh) * | 2020-04-09 | 2020-08-04 | 南京中爱人工智能与生命科学研究院有限公司 | 一种基于药物研发数据的商务应用推广方法 |
CN111898378A (zh) * | 2020-07-31 | 2020-11-06 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
CN111898378B (zh) * | 2020-07-31 | 2023-09-19 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180232362A1 (en) | Method and system relating to sentiment analysis of electronic content | |
US8161059B2 (en) | Method and apparatus for collecting entity aliases | |
JP2001134575A (ja) | 頻出パターン検出方法およびシステム | |
US20100274821A1 (en) | Schema Matching Using Clicklogs | |
CN105677787B (zh) | 信息搜索装置及信息搜索方法 | |
CN107729336A (zh) | 数据处理方法、设备及系统 | |
US9858332B1 (en) | Extracting and leveraging knowledge from unstructured data | |
CN102473190A (zh) | 为网页分配关键词 | |
US20140040710A1 (en) | System for setting fees for iterative parsing, matching, and correlation of sets of text strings drawn from real time crowd-sourced streamed data and using said matches to initiate APIs or trigger alerts to participants in a crowd sourced pervasive computing environment. | |
KR20150018880A (ko) | 정보 취합 분류의 디스플레이 방법 및 시스템 | |
CN107145600A (zh) | 适用于同类别企业公开信息归类方法 | |
KR20100049271A (ko) | 자연어에 기반하여 상품을 검색하는 방법, 쇼핑몰 서버 및 쇼핑몰 시스템 | |
CN103235827A (zh) | 一种科技信息自动分类筛选的方法 | |
CN113297457A (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
CN105512300B (zh) | 信息过滤方法及系统 | |
CN106202501A (zh) | 一种信息分析系统 | |
CN106933864A (zh) | 一种搜索引擎系统及其搜索方法 | |
CN108280102A (zh) | 上网行为记录方法、装置及用户终端 | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
US20130086036A1 (en) | Dynamic Search Service | |
CN111447575B (zh) | 短信息推送方法、装置、设备及存储介质 | |
CN108399224A (zh) | 一种网络购物信息的推送的方法 | |
CN106951511A (zh) | 一种文本聚类方法及装置 | |
US10127307B2 (en) | Searching alternative data sources | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |