CN107145600A - 适用于同类别企业公开信息归类方法 - Google Patents

适用于同类别企业公开信息归类方法 Download PDF

Info

Publication number
CN107145600A
CN107145600A CN201710403601.0A CN201710403601A CN107145600A CN 107145600 A CN107145600 A CN 107145600A CN 201710403601 A CN201710403601 A CN 201710403601A CN 107145600 A CN107145600 A CN 107145600A
Authority
CN
China
Prior art keywords
enterprise
information
data
classifying method
public information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710403601.0A
Other languages
English (en)
Inventor
丁涛
罗亚利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Asia Only Information Polytron Technologies Inc
Original Assignee
Suzhou Asia Only Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Asia Only Information Polytron Technologies Inc filed Critical Suzhou Asia Only Information Polytron Technologies Inc
Priority to CN201710403601.0A priority Critical patent/CN107145600A/zh
Publication of CN107145600A publication Critical patent/CN107145600A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明涉及一种适用于同类别企业公开信息归类方法,通过数据采集层从企业信息发布平台的公示信息中进行数据采集。之后,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储。接着,通过分析服务器对数据进行分析。之后,发布层对分析服务器分析后的结果进行加密与展示。由此,可系统性手机企业信息发布平台所公示的信息,无需人工前端检索梳理。能够独立完成数据的存储与分析,提高处理效率。能够实现划词匹配,提升关键词的捕获正确率。实施便捷,可满足用户对特定企业的信息收集需要,亦可以满足政府部门对相关企业进行全面的信息采集,为制定相关经济政策提供参考依据。

Description

适用于同类别企业公开信息归类方法
技术领域
本发明涉及一种公开信息归类方法,尤其涉及一种适用于同类别企业公开信息归类方法。
背景技术
对于现有的企业发展来看,如果需要针对竞争对手进行公开信息收集,往往需要专人定时通过相关的公开渠道进行内容收集。单一依靠人工收集,往往会出现疏漏。同时,一旦人员替换,还可能出现重复录入,影响处理效率。
同时,对于当地政府来看,在制定相关的引导政策时,往往需要进行大量的调研,需要获取大量的企业相关数据。在此期间,也会采用人工方式进行公开数据的搜检。同样面临效率不高的缺陷。
有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于同类别企业公开信息归类方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种适用于同类别企业公开信息归类方法。
本发明的适用于同类别企业公开信息归类方法,其中:步骤一,通过数据采集层从企业信息发布平台的公示信息中进行数据采集。步骤二,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储。步骤三,通过分析服务器对数据进行分析。步骤四,发布层对分析服务器分析后的结果进行加密与展示。
进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,数据采集层通过网络爬虫模块进行数据采集。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,网络爬虫模块通过设定关键词,对符合关键词且拥有较高词频的数据进行采集,在采集过程中,网络爬虫模块设有自检机制,从句子中进行划词,构成不同的词组,通过词组来匹配关键词。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,通过定时采集方式进行数据采集,所述定时为每个工作日;或是,通过实时不间断采集方式进行数据采集。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤一中,企业信息发布平台的公示信息包括产品目录、产品摘要、产品图片、合作厂商目录、销售区域、售后信息,所述企业信息发布平台包括部企业的网站、网页、微博、微信。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤二中,存储格式包括文本格式、表格格式、html文档格式、图片格式中的一种或是多种结合。
更进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤三中,数据分析为通过设定检索逻辑,将公示信息中的内容进行纯文本转码,生成信息摘要,并为信息摘要匹配二次搜索标签。
再进一步地,上述的适用于同类别企业公开信息归类方法,其中,所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
借由上述方案,本发明至少具有以下优点:
1、可系统性手机企业信息发布平台所公示的信息,无需人工前端检索梳理。
2、能够独立完成数据的存储与分析,提高处理效率。
3、能够实现划词匹配,提升关键词的捕获正确率。
4、实施便捷,可满足用户对特定企业的信息收集需要,亦可以满足政府部门对相关企业进行全面的信息采集,为制定相关经济政策提供参考依据。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
适用于同类别企业公开信息归类方法,其与众不同之处在于:
首先,通过数据采集层从企业信息发布平台的公示信息中进行数据采集。考虑到免人工实施的便利性,能够根据预设进行数据采集,无需人工录入,数据采集层通过网络爬虫模块进行数据采集。具体来说,网络爬虫模块通过设定关键词,对符合关键词且拥有较高词频的数据进行采集。由于中文文字存在不同的语序与用词表述划分,在采集过程中,网络爬虫模块设有自检机制。由此,能够从句子中进行划词,构成不同的词组,通过词组来匹配关键词。这样,极大提升了采集正确率。
从服务器的工作优化工作状况考虑,可按照每个工作日定时进行数据采集。当然,亦可以采用实时不间断采集方式进行数据采集。同时,为了有效搜集企业信息,便于用户来定制针对化的推广产品,或是知晓企业的发展发现,进行竞争监控,亦可以便于有关部分针对企业现况进行发展跟踪,企业信息发布平台的公示信息包括产品目录、产品摘要、产品图片、合作厂商目录、销售区域、售后信息,企业信息发布平台包括部企业的网站、网页、微博、微信。
之后,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储。为了进行第一时间储存,预防数据丢失,且能够满足常用的存储格式,存储格式包括文本格式、表格格式、html文档格式、图片格式中的一种或是多种结合。这样,在保存期间,不需进行额外的格式转化,提升了处理效率。
接着,通过分析服务器对数据进行分析。在实施期间,可通过设定检索逻辑,将公示信息中的内容进行纯文本转码,生成信息摘要,并为信息摘要匹配二次搜索标签。这样,在用户后续使用时,可通过二次搜索标签,快速找到自己需要的内容。
最后,发布层对分析服务器分析后的结果进行加密与展示。考虑到数据的最终展示需要,采用的分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。同时,为了防止恶意的第三方逆向解析或是数据抽取,可根据后续的传输终端,进行对应的数据加密。考虑到实施的便捷,可满足常见的智能设备通讯,分析服务器分析后的结果,传输到PC端,是智能设备。具体来说,智能设备包括智能手机、平板电脑。当然,亦可以包括其他可使用数据通讯传输协议的设备。
通过上述的文字表述可以看出,采用本发明后,拥有如下优点:
1、可系统性手机企业信息发布平台所公示的信息,无需人工前端检索梳理。
2、能够独立完成数据的存储与分析,提高处理效率。
3、能够实现划词匹配,提升关键词的捕获正确率。
4、实施便捷,可满足用户对特定企业的信息收集需要,亦可以满足政府部门对相关企业进行全面的信息采集,为制定相关经济政策提供参考依据。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (9)

1.适用于同类别企业公开信息归类方法,其特征在于:
步骤一,通过数据采集层从企业信息发布平台的公示信息中进行数据采集;
步骤二,采集完成后的数据,存储在存储服务器中,并根据不同的存储格式进行归类存储;
步骤三,通过分析服务器对数据进行分析;
步骤四,发布层对分析服务器分析后的结果进行加密与展示。
2.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,数据采集层通过网络爬虫模块进行数据采集。
3.根据权利要求2所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,网络爬虫模块通过设定关键词,对符合关键词且拥有较高词频的数据进行采集,在采集过程中,网络爬虫模块设有自检机制,从句子中进行划词,构成不同的词组,通过词组来匹配关键词。
4.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,通过定时采集方式进行数据采集,所述定时为每个工作日;或是,通过实时不间断采集方式进行数据采集。
5.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤一中,企业信息发布平台的公示信息包括产品目录、产品摘要、产品图片、合作厂商目录、销售区域、售后信息,所述企业信息发布平台包括部企业的网站、网页、微博、微信。
6.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤二中,存储格式包括文本格式、表格格式、html文档格式、图片格式中的一种或是多种结合。
7.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤三中,数据分析为通过设定检索逻辑,将公示信息中的内容进行纯文本转码,生成信息摘要,并为信息摘要匹配二次搜索标签。
8.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
9.根据权利要求1所述的适用于同类别企业公开信息归类方法,其特征在于:所述步骤四中,分析结果传输到PC端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。
CN201710403601.0A 2017-06-01 2017-06-01 适用于同类别企业公开信息归类方法 Pending CN107145600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710403601.0A CN107145600A (zh) 2017-06-01 2017-06-01 适用于同类别企业公开信息归类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710403601.0A CN107145600A (zh) 2017-06-01 2017-06-01 适用于同类别企业公开信息归类方法

Publications (1)

Publication Number Publication Date
CN107145600A true CN107145600A (zh) 2017-09-08

Family

ID=59780426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710403601.0A Pending CN107145600A (zh) 2017-06-01 2017-06-01 适用于同类别企业公开信息归类方法

Country Status (1)

Country Link
CN (1) CN107145600A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038666A (zh) * 2017-12-13 2018-05-15 广州玟盈信息科技有限公司 一种基于互联网的企业信息采集系统
CN111489198A (zh) * 2020-04-09 2020-08-04 南京中爱人工智能与生命科学研究院有限公司 一种基于药物研发数据的商务应用推广方法
CN111898378A (zh) * 2020-07-31 2020-11-06 中国联合网络通信集团有限公司 政企客户的行业分类方法和装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030164A1 (en) * 2010-07-27 2012-02-02 Oracle International Corporation Method and system for gathering and usage of live search trends
CN105405071A (zh) * 2015-12-04 2016-03-16 国网浙江省电力公司 一种企业统一数据模型构建方法
CN105740335A (zh) * 2016-01-22 2016-07-06 山东合天智汇信息技术有限公司 一种基于titan的企业信息分析平台及其构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030164A1 (en) * 2010-07-27 2012-02-02 Oracle International Corporation Method and system for gathering and usage of live search trends
CN105405071A (zh) * 2015-12-04 2016-03-16 国网浙江省电力公司 一种企业统一数据模型构建方法
CN105740335A (zh) * 2016-01-22 2016-07-06 山东合天智汇信息技术有限公司 一种基于titan的企业信息分析平台及其构建方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038666A (zh) * 2017-12-13 2018-05-15 广州玟盈信息科技有限公司 一种基于互联网的企业信息采集系统
CN111489198A (zh) * 2020-04-09 2020-08-04 南京中爱人工智能与生命科学研究院有限公司 一种基于药物研发数据的商务应用推广方法
CN111898378A (zh) * 2020-07-31 2020-11-06 中国联合网络通信集团有限公司 政企客户的行业分类方法和装置、电子设备、存储介质
CN111898378B (zh) * 2020-07-31 2023-09-19 中国联合网络通信集团有限公司 政企客户的行业分类方法和装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
US20180232362A1 (en) Method and system relating to sentiment analysis of electronic content
US8161059B2 (en) Method and apparatus for collecting entity aliases
JP2001134575A (ja) 頻出パターン検出方法およびシステム
US20100274821A1 (en) Schema Matching Using Clicklogs
CN105677787B (zh) 信息搜索装置及信息搜索方法
CN107729336A (zh) 数据处理方法、设备及系统
US9858332B1 (en) Extracting and leveraging knowledge from unstructured data
CN102473190A (zh) 为网页分配关键词
US20140040710A1 (en) System for setting fees for iterative parsing, matching, and correlation of sets of text strings drawn from real time crowd-sourced streamed data and using said matches to initiate APIs or trigger alerts to participants in a crowd sourced pervasive computing environment.
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
CN107145600A (zh) 适用于同类别企业公开信息归类方法
KR20100049271A (ko) 자연어에 기반하여 상품을 검색하는 방법, 쇼핑몰 서버 및 쇼핑몰 시스템
CN103235827A (zh) 一种科技信息自动分类筛选的方法
CN113297457A (zh) 一种高精准性的信息资源智能推送系统及推送方法
CN105512300B (zh) 信息过滤方法及系统
CN106202501A (zh) 一种信息分析系统
CN106933864A (zh) 一种搜索引擎系统及其搜索方法
CN108280102A (zh) 上网行为记录方法、装置及用户终端
Khemani et al. A review on reddit news headlines with nltk tool
US20130086036A1 (en) Dynamic Search Service
CN111447575B (zh) 短信息推送方法、装置、设备及存储介质
CN108399224A (zh) 一种网络购物信息的推送的方法
CN106951511A (zh) 一种文本聚类方法及装置
US10127307B2 (en) Searching alternative data sources
CN107291952B (zh) 一种提取有意义串的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination