CN111062198A - 一种基于大数据的企业类别分析方法及相关设备 - Google Patents

一种基于大数据的企业类别分析方法及相关设备 Download PDF

Info

Publication number
CN111062198A
CN111062198A CN201911255615.8A CN201911255615A CN111062198A CN 111062198 A CN111062198 A CN 111062198A CN 201911255615 A CN201911255615 A CN 201911255615A CN 111062198 A CN111062198 A CN 111062198A
Authority
CN
China
Prior art keywords
enterprise
category
support vector
vector machine
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911255615.8A
Other languages
English (en)
Inventor
张炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Shake Big Data Co Ltd
Original Assignee
Chongqing Shake Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Shake Big Data Co Ltd filed Critical Chongqing Shake Big Data Co Ltd
Priority to CN201911255615.8A priority Critical patent/CN111062198A/zh
Publication of CN111062198A publication Critical patent/CN111062198A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据的企业类别分析方法及相关设备,所述方法包括如下步骤:获取待分类的企业相关数据;通过关键词提取获取企业类别关键词;通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果。本发明通过设计一种基于大数据的企业类别分析方法,实现了对企业类别进行快速有效的分类归纳,不仅解决了企业类别难分类、难管理的问题,还使得用户在后续查询管理时更加方便快速,节省了操作时间,从而提高工作效率。

Description

一种基于大数据的企业类别分析方法及相关设备
技术领域
本发明涉及信息分析技术领域,尤其涉及一种基于大数据的企业类别分析方法及相关设备。
背景技术
企业管理机构或投资者在对企业分析时,需对企业进行分类。由于企业数据量庞大,很难快速准确地得到企业分类结果。现有的企业分类方法主要有人工分类和数据挖掘分析两种。在大数据时代,人工分类方式已无法对海量的企业数据进行快速、准确的分析;已有的一些数据分析方法,其准确性也不能满足对企业类别进行全面分析的要求。
发明内容
本发明针对现有方式的缺点,提出一种基于大数据的企业类别分析方法及相关设备,用以解决现有技术存在的上述问题。
根据本发明的第一个方面,提供了一种基于大数据的企业类别分析方法,包括如下步骤:
获取待分类的企业相关数据;
通过关键词提取获取企业类别关键词,所述企业类别关键词是指与各行各业相关的词汇;
通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果。
进一步地,所述通过关键词提取获取企业类别关键词,包括企业特征信息选取、特征信息分词、停用词筛除、及关键词提取。
进一步地,所述企业特征信息选取用于选取目标企业特征信息语句;
所述特征信息分词通过采用结巴分词组件以将特征信息语句分割为机器能够识别的词语;
所述筛除停用词用于筛除掉介词、连词、重复的词语;
所述关键词提取通过采用TF-IDF算法以提取与企业类别最相关的词语。
进一步地,所述支持向量机算法是指,基于数据分析领域的支持向量机算法。
进一步地,所述通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果,是指:通过基于数据分析领域的支持向量机算法,并采用TextGrocery短文本分类工具,对所述企业类别关键词进行分类分析以获取企业分类结果。
进一步地,所述基于数据分析领域的支持向量机算法,预先被训练,其过程包括:
在训练时,首先将已正确分类的企业的数据进行关键词提取;然后将提取得到的关键词划分为训练集和交叉验证集,对支持向量机算法进行训练和验证,直至选取到恰当的模型参数。
另一方面,本发明提供了一种基于大数据的企业类别分析装置,包括:
获取模块,用于获取待分类的企业相关数据;
提取模块,用于通过关键词提取获取企业类别关键词;
分析处理模块,用于通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果。
进一步地,所述支持向量机算法是指,基于数据分析领域的支持向量机算法。
第三方面,本发明提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述中任一项所述的一种基于大数据的企业类别分析方法。
第四方面,本发明提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如上所述中任一项所述的一种基于大数据的企业类别分析方法。
与现有技术相比,本发明的有益效果是:
本发明通过设计一种基于大数据的企业类别分析方法,实现了对企业类别进行快速有效的分类归纳,不仅解决了企业类别难分类、难管理的问题,还使得用户在后续查询管理时更加方便快速,节省了操作时间,从而提高工作效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一中的一种基于大数据的企业类别分析方法的流程示意图;
图2为本发明实施例二中的一种基于大数据的企业类别分析装置的结构示意图;
图3为本发明实施例二中的一种基于大数据的企业类别分析装置设置在手机上时,手机的部分结构框图;
图4为本发明实施例三中的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分例,实施而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
实施例一
如图1所示,提供了本发明一个实施例的一种基于大数据的企业类别分析方法,包括如下步骤:
S101获取待分类的企业相关数据;
S102通过关键词提取获取企业类别关键词,企业类别关键词是指是指与各行各业相关的词汇,各行各业包括农业、工业、服务业、邮电、通信、社区服务、批发、零售业、交通运输、建筑及安装业、医疗卫生、城市建设、旅游、宾馆、餐饮业等,不一一穷举;
通过关键词提取获取企业类别关键词,包括企业特征信息选取、特征信息分词、停用词筛除、及关键词提取。
企业特征信息选取用于选取目标企业特征信息语句;
特征信息分词通过采用结巴分词组件以将特征信息语句分割为机器能够识别的词语;
筛除停用词用于筛除掉介词、连词、重复的词语;
例如:无效字符去除(#、@、&等)和停用词去除(的、呢,嗯等)。
关键词提取通过采用TF-IDF算法以提取与企业类别最相关的词语。
S103通过支持向量机算法对企业类别关键词进行分类分析以获取企业分类结果。
支持向量机算法是指,基于数据分析领域的支持向量机算法。支持向量机(support vector machine,简称SVM)是一种基于统计学习理论的新型学习机,是由前苏联教授Vapnik最早提出的。与传统的学习方法不同,支持向量机是结构风险最小化方法的近似实现。这个归纳原理是基于这样的事实,学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于Vc维数(Vapnik-Chervonenkis dimension)的项的和为界;在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。因此,尽管支持向量机不利用问题的领域知识,在模式分类问题上,仍能提供好的泛化性能,这个属性是支持向量机特有的。其实现的是如下的思想:通过某种事先选择的非线性映射将输入向量x映射到一个高维特征空间z,在这个空间中构造最优分类超平面,从而使正例和反例样本之间的分离界限达到最大。从概念上说,支持向量是那些离决策平面最近的数据点,它们决定了最优分类超平面的位置。
通过支持向量机算法对企业类别关键词进行分类分析以获取企业分类结果,是指:通过基于数据分析领域的支持向量机算法,并采用TextGrocery短文本分类工具,对企业类别关键词进行分类分析以获取企业分类结果。
基于数据分析领域的支持向量机算法,预先被训练,其过程包括:
在训练时,首先将已正确分类的企业的数据进行关键词提取;然后将提取得到的关键词划分为训练集和交叉验证集,对支持向量机算法进行训练和验证,直至选取到恰当的模型参数及基于数据分析领域的支持向量机算法。
本发明通过设计一种基于大数据的企业类别分析方法,实现了对企业类别进行快速有效的分类归纳,不仅解决了企业类别难分类、难管理的问题,还使得用户在后续查询管理时更加方便快速,节省了操作时间,从而提高工作效率。
实施例二
如图2所示,提供了本发明另一个实施例的一种基于大数据的企业类别分析装置,包括:
获取模块A201,用于获取待分类的企业相关数据;
提取模块A202,用于通过关键词提取获取企业类别关键词,企业类别关键词是指与各行各业相关的词汇,各行各业包括农业、工业、服务业、邮电、通信、社区服务、批发、零售业、交通运输、建筑及安装业、医疗卫生、城市建设、旅游、宾馆、餐饮业等,不一一穷举;
通过关键词提取获取企业类别关键词,包括企业特征信息选取、特征信息分词、停用词筛除、及关键词提取。
企业特征信息选取用于选取目标企业特征信息语句;
特征信息分词通过采用结巴分词组件以将特征信息语句分割为机器能够识别的词语;
筛除停用词用于筛除掉介词、连词、重复的词语;
例如:无效字符去除(#、@、&等)和停用词去除(的、呢,嗯等)。
关键词提取通过采用TF-IDF算法以提取与企业类别最相关的词语。
分析处理模块A203,用于通过支持向量机算法对企业类别关键词进行分类分析以获取企业分类结果。
支持向量机算法是指,基于数据分析领域的支持向量机算法。支持向量机(support vector machine,简称SVM)是一种基于统计学习理论的新型学习机,是由前苏联教授Vapnik最早提出的。与传统的学习方法不同,支持向量机是结构风险最小化方法的近似实现。这个归纳原理是基于这样的事实,学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于Vc维数(Vapnik-Chervonenkis dimension)的项的和为界;在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。因此,尽管支持向量机不利用问题的领域知识,在模式分类问题上,仍能提供好的泛化性能,这个属性是支持向量机特有的。其实现的是如下的思想:通过某种事先选择的非线性映射将输入向量x映射到一个高维特征空间z,在这个空间中构造最优分类超平面,从而使正例和反例样本之间的分离界限达到最大。从概念上说,支持向量是那些离决策平面最近的数据点,它们决定了最优分类超平面的位置。
通过支持向量机算法对企业类别关键词进行分类分析以获取企业分类结果,是指:通过基于数据分析领域的支持向量机算法,并采用TextGrocery短文本分类工具,对企业类别关键词进行分类分析以获取企业分类结果。
基于数据分析领域的支持向量机算法,预先被训练,其过程包括:
在训练时,首先将已正确分类的企业的数据进行关键词提取;然后将提取得到的关键词划分为训练集和交叉验证集,对支持向量机算法进行训练和验证,直至选取到恰当的模型参数。
本发明通过设计一种基于大数据的企业类别分析方法,实现了对企业类别进行快速有效的分类归纳,不仅解决了企业类别难分类、难管理的问题,还使得用户在后续查询管理时更加方便快速,节省了操作时间,从而提高工作效率。
如图3所示,该装置可设置在包括手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以终端为手机为例:
参考图3,手机的部分结构的框图,手机包括:射频(Radio Frequency,RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图3中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图3中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的模块、相关工作单元和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例三
如图4所示,提供了本发明一个实施例的一种计算机设备,计算机设备包括存储器及处理器,存储器上存储有计算机程序,处理器执行计算机程序时实现如实施例一中的一种基于大数据的企业类别分析方法。
具体的,计算机设备包括处理器A510,以及分别与处理器连接的存储器A520和收发器A530。
处理器A510,用于执行机器的可读指令,以执行实施例一中的一种基于大数据的企业类别分析方法。
在本申请实施例中,处理器A510可以是中央处理单元(Central ProcessingUnit,CPU),该处理器A510还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Appl ication Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器A520,用于存储处理器A510可执行的机器可读指令,并提供计算和控制能力,以支撑整个计算机设备的运行。
存储器A520可以包括非易失性存储介质和内存储器。
该非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器510执行实施例一中的一种基于大数据的企业类别分析方法。
收发器A530,用于与外部设备进行通信传输。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例四
提供了本发明另一个实施例的一种存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时可实现如实施例一中的一种基于大数据的企业类别分析方法。
计算机程序包括程序指令,程序指令当被处理器执行时可实现如实施例一中的一种基于大数据的企业类别分析方法。
该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的方法、系统、装置、模块和/或单元,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于大数据的企业类别分析方法,其特征在于,包括如下步骤:
获取待分类的企业相关数据;
通过关键词提取获取企业类别关键词,所述企业类别关键词是指与各行各业相关的词汇;
通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果。
2.根据权利要求1所述的企业类别分析方法,其特征在于,所述通过关键词提取获取企业类别关键词,包括企业特征信息选取、特征信息分词、停用词筛除、及关键词提取。
3.根据权利要求2所述的企业类别分析方法,其特征在于,所述企业特征信息选取用于选取目标企业特征信息语句;
所述特征信息分词通过采用结巴分词组件以将特征信息语句分割为机器能够识别的词语;
所述筛除停用词用于筛除掉介词、连词、重复的词语;
所述关键词提取通过采用TF-IDF算法以提取与企业类别最相关的词语。
4.根据权利要求1所述的企业类别分析方法,其特征在于,所述支持向量机算法是指,基于数据分析领域的支持向量机算法。
5.根据权利要求4所述的企业类别分析方法,其特征在于,所述通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果,是指:通过基于数据分析领域的支持向量机算法,并采用TextGrocery短文本分类工具,对所述企业类别关键词进行分类分析以获取企业分类结果。
6.根据权利要求4或5所述的企业类别分析方法,其特征在于,所述基于数据分析领域的支持向量机算法,预先被训练,其过程包括:
在训练时,首先将已正确分类的企业的数据进行关键词提取;然后将提取得到的关键词划分为训练集和交叉验证集,对支持向量机算法进行训练和验证,直至选取到恰当的模型参数。
7.一种基于大数据的企业类别分析装置,其特征在于,包括:
获取模块,用于获取待分类的企业相关数据;
提取模块,用于通过关键词提取获取企业类别关键词;
分析处理模块,用于通过支持向量机算法对所述企业类别关键词进行分类分析以获取企业分类结果。
8.根据权利要求1所述的企业类别分析装置,其特征在于,所述支持向量机算法是指,基于数据分析领域的支持向量机算法。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的企业类别分析方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至6中任一项所述的一种基于大数据的企业类别分析方法。
CN201911255615.8A 2019-12-10 2019-12-10 一种基于大数据的企业类别分析方法及相关设备 Pending CN111062198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911255615.8A CN111062198A (zh) 2019-12-10 2019-12-10 一种基于大数据的企业类别分析方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911255615.8A CN111062198A (zh) 2019-12-10 2019-12-10 一种基于大数据的企业类别分析方法及相关设备

Publications (1)

Publication Number Publication Date
CN111062198A true CN111062198A (zh) 2020-04-24

Family

ID=70300212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911255615.8A Pending CN111062198A (zh) 2019-12-10 2019-12-10 一种基于大数据的企业类别分析方法及相关设备

Country Status (1)

Country Link
CN (1) CN111062198A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347318A (zh) * 2020-10-26 2021-02-09 杭州数智政通科技有限公司 划分企业所属行业类别的方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8498986B1 (en) * 2012-01-31 2013-07-30 Business Objects Software Ltd. Classifying data using machine learning
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8498986B1 (en) * 2012-01-31 2013-07-30 Business Objects Software Ltd. Classifying data using machine learning
CN105975987A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于全自动学习的企业行业分类方法
CN110019769A (zh) * 2017-07-14 2019-07-16 元素征信有限责任公司 一种智能企业分类算法
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347318A (zh) * 2020-10-26 2021-02-09 杭州数智政通科技有限公司 划分企业所属行业类别的方法、设备及介质
CN112347318B (zh) * 2020-10-26 2022-08-02 杭州数智政通科技有限公司 划分企业所属行业类别的方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109670174B (zh) 一种事件识别模型的训练方法和装置
CN104217717A (zh) 构建语言模型的方法及装置
CN110704661A (zh) 一种图像分类方法和装置
CN104239535A (zh) 一种为文字配图的方法、服务器、终端及系统
CN110263939A (zh) 一种表示学习模型的评估方法、装置、设备及介质
CN111125523B (zh) 搜索方法、装置、终端设备及存储介质
CN111222563B (zh) 一种模型训练方法、数据获取方法以及相关装置
CN111027854A (zh) 一种基于企业大数据的综合画像指数生成方法及相关设备
CN103714316B (zh) 图像识别方法、装置及电子设备
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN110910964A (zh) 一种分子间的结合活性预测方法及装置
CN110597793A (zh) 数据管理方法及装置、电子设备和计算机可读存储介质
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN113190646B (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN104424324B (zh) 列表组件中定位列表项的方法及装置
CN113704008A (zh) 一种异常检测方法、问题诊断方法和相关产品
CN111062198A (zh) 一种基于大数据的企业类别分析方法及相关设备
CN110866114B (zh) 对象行为的识别方法、装置及终端设备
CN107741813A (zh) 一种应用程序的操作方法及移动终端
CN104915627B (zh) 一种文字识别方法及装置
CN114840570A (zh) 数据处理方法、装置、电子设备及存储介质
CN108052495A (zh) 数据显示方法、终端及计算机可读存储介质
CN114781766A (zh) 水文站点的水文信息预测方法、装置、设备及存储介质
CN114814767A (zh) 一种信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424

RJ01 Rejection of invention patent application after publication