CN112287075A - 一种自动获取企业多层级分类训练数据的方法和装置 - Google Patents

一种自动获取企业多层级分类训练数据的方法和装置 Download PDF

Info

Publication number
CN112287075A
CN112287075A CN202011554270.9A CN202011554270A CN112287075A CN 112287075 A CN112287075 A CN 112287075A CN 202011554270 A CN202011554270 A CN 202011554270A CN 112287075 A CN112287075 A CN 112287075A
Authority
CN
China
Prior art keywords
industry
enterprise
classification
level
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011554270.9A
Other languages
English (en)
Other versions
CN112287075B (zh
Inventor
孙会峰
邢婷
李健诚
易航
魏小敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Innovation Zhiyuan Technology Co ltd
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202011554270.9A priority Critical patent/CN112287075B/zh
Publication of CN112287075A publication Critical patent/CN112287075A/zh
Application granted granted Critical
Publication of CN112287075B publication Critical patent/CN112287075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动获取企业多层级分类训练数据的方法和装置。该方法包括:获取产业信息、产品名称信息和企业描述文本;根据所述产业信息生成产业层级体系;对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;根据所述企业描述文本和企业的各层级的产业标签形成训练数据。采用该方案不仅能够根据企业公开的信息,对企业进行准确的多层级分类标注自动获取训练数据,解决了人工标注数据繁琐低效的问题;而且,有利于解决千万级别的企业多层级分类问题,提高企业多层分类的准确性。

Description

一种自动获取企业多层级分类训练数据的方法和装置
技术领域
本发明涉及数据分类技术领域,尤其涉及一种自动获取企业多层级分类训练数据的方法和装置。
背景技术
企业的行业标签是一个重要字段,而企业的数量已有千万,并且每天还在以非常快的速度在进行孵化,所以,对企业进行行业分类是一个非常重要的任务。
目前,对企业进行行业分类,通常采用的方法是:首先人工标注数据,然后根据人工标注数据运用机器学习算法进行建模,其流程一般包含文本标注、文本表达、分类器选择与训练、分类结果评价与反馈等过程。常用的企业分类算法包括k近邻、决策树、多层感知器、朴素贝叶斯、逻辑回归、支持向量机、随机森林、AdaBoost、lightGBM和xgBoost等。这些分类算法都需要大量的人工标注数据进行模型训练。
而人工标注数据繁琐低效,尤其是面对大量数据时,工作的繁重以及效率的低下尤甚,直接影响着企业的行业分类效率和准确率,远远无法满足实际应用的需要。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明提供了一种自动获取企业多层级分类训练数据的方法,包括:
获取产业信息、产品名称信息和企业描述文本;
根据所述产业信息生成产业层级体系;
对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;
根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;
根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
优选地,所述根据所述产业信息生成产业层级体系包括:
对所述产业信息进行分词;
对分词结果利用词向量模型进行向量化处理,得到产业词语特征向量,所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本预先训练得到的;
使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类;
根据所述产业分类、GICS国际行业分类及国民经济行业分类标准,生成覆盖全产业的产业层级体系。
优选地,所述对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表包括:
根据所述产品名称信息聚类统计得到初级关键词列表;
将所述初级关键词列表与所述产业层级体系相关联;
获取初级关键词列表中各初级关键词的近义词;
所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。
优选地,所述根据所述产品名称信息聚类统计得到初级关键词列表包括:
对所述产品名称信息进行分词;
对分词结果利用所述词向量模型进行向量化处理,得到产品词语特征向量;
对所述产品词语特征向量进行聚类得到多簇聚类结果;
将每簇聚类结果中出现频率排名在预设范围内的产品词语特征向量对应的词语作为初级关键词,得到所述初级关键词列表。
优选地,所述获取初级关键词列表中各初级关键词的近义词包括:
将所述初级关键词输入所述词向量模型,获取与所述初级关键词的余弦相似度满足预设条件的产品词语,作为所述初级关键词的近义词。
优选地,所述根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签包括:
对所述企业描述文本进行分词处理;
从分词结果中获取与所述产业多层级关键词列表匹配的关键词;
计算匹配的关键词在各产业分类出现的频率;
根据属于同一产业分类的关键词频率之和的排名或者与预设阈值的比较为企业标注各层级的产业分类。
本发明另一方面提供了一种企业多层级分类的方法,包括:
利用上述方法获取的训练数据对分类算法进行训练,得到企业分类模型;
将企业描述文本输入所述企业分类模型,得到所述企业多层级的产业分类。
本发明第三方面提供了一种自动获取企业多层级分类训练数据的装置,包括:
信息获取模块,用于获取产业信息、产品名称信息和企业描述文本;
产业层级生成模块,用于根据所述产业信息生成产业层级体系;
关键词列表获取模块,用于对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;
产业标签获取模块,用于根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;
训练数据形成模块,用于根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
本发明第四方面还提供了一种存储器,存储有多条指令,所述指令用于实现如上述的方法。
本发明第五方面还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如上述的方法。
本发明的有益效果是:本发明提供的自动获取企业多层级分类训练数据的方法和装置,首先根据产业信息生成产业层级体系;并对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;再根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;最后根据所述企业描述文本和企业的各层级的产业标签形成训练数据。采用该方案能够根据企业公开的信息,自动地对企业进行准确的多层级分类标注以获取训练数据,解决了人工标注数据繁琐低效的问题,而且有利于解决千万级别的企业多层级分类问题,提高企业多层分类的准确性。
附图说明
图1为本发明所述自动获取企业多层级分类训练数据的方法流程示意图;
图2为本发明所述自动获取企业多层级分类训练数据的装置结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种自动获取企业多层级分类训练数据的方法,包括:
S101、获取产业信息、产品名称信息和企业描述文本;
S102、根据所述产业信息生成产业层级体系;
S103、对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;
S104、根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;
S105、根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
可选地,步骤S101中,利用百度百科、维基百科等公开的文本信息获取产业信息、产品名称信息和企业描述文本。例如从产业层级文件、行业划分标准、产业定义等公开信息中获取产业信息;从企业经营范围、企业产品介绍和新闻报道等公开信息中获取产品名称信息;根据企业的公司简介、营业范围、产品介绍、专利申请等公开信息生成企业描述文本。
可选地,步骤S102具体包括:
S1021、对所述产业信息进行分词。
可选地,使用jieba分词工具。
S1022、对分词结果利用词向量模型进行向量化处理,得到产业词语特征向量。
其中,所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本构建训练语料,预先进行训练得到的,可选地为word2vec模型。
S1023、使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类。
其中,所述聚类算法可选地为K-means算法。
其中,按照下述方式得到所述多个产业分类:对于每簇类别,选择距离聚类中心最近的预设数量(例如10个)产业词语特征向量对应的词,根据此预设数量的词定义产业分类的名称。
可选地,对所述产业词语特征向量进行多次聚类得到不同的产业层级和产业分类。例如通过第一次聚类得到第一产业层级的产业分类,然后对每簇类别中的产业词语特征向量再次进行聚类,得到下一产业层级的产业分类。
S1024、根据所述产业分类、GICS国际行业分类及国民经济行业分类标准,生成覆盖全产业的产业层级体系。
例如,根据步骤S1023得到的产业分类,在GICS国际行业分类和国民经济行业分类标准基础上,一级产业中增加新一代信息技术产业、半导体产业、新材料产业、人工智能产业、大数据产业、虚拟现实产业等。表1为示例性的产业层级体系的部分:
Figure 167919DEST_PATH_IMAGE001
可选地,步骤S103具体包括:
S1031、根据所述产品名称信息聚类统计得到初级关键词列表。
具体地,包括:
对所述产品名称信息进行分词;
对分词结果利用上述词向量模型进行向量化处理,得到产品词语特征向量;
对所述产品词语特征向量进行聚类得到多簇聚类结果;
将每簇聚类结果中出现频率排名在预设范围内(例如排名前10)的产品词语特征向量对应的词语作为初级关键词,得到所述初级关键词列表。
S1032、将所述初级关键词列表与所述产业层级体系相关联。
可选地,由专家确定初级关键词对应的产业分类,并将产业分类加入初级关键词列表中对应的位置。
S1033、获取初级关键词列表中各初级关键词的近义词。
其中,将所述初级关键词输入所述词向量模型,获取与所述初级关键词的余弦相似度满足预设条件的产品词语,作为所述初级关键词的近义词。
由于所述词向量模型已利用所述产业信息、产品名称信息和企业描述文本构建训练语料预先进行了训练,因此模型中已包括产业信息、产品名称信息和企业描述文本中词语的向量。直接将初级关键词输入即可得到与其相似的词语列表。例如初级关键词为“衬底材料”,词向量模型输出('衬底材料',1.0),('外延材料',0.80),('半导体材料',0.79),('封装材料',0.78),('外延生长',0.78),('蓝宝石衬底',0.77)等,词语之后的数值为计算的余弦相似度。
所述预设条件包括余弦相似度高于预设值(例如0.7)或者排序位于预设范围(例如前10位)。
S1034、所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。
将各初级关键词的近义词添加至所述初级关键词列表中的对应位置,例如对衬底材料计算得到近义词有蓝宝石衬底、封装材料、半导体材料、外延材料、外延生长等,将上述近义词添加至“衬底材料”之后。表2为示例性的产业多层级关键词列表的一部分:
Figure 919975DEST_PATH_IMAGE002
可选地,步骤S104包括:
对所述企业描述文本进行分词处理;
从分词结果中获取与所述产业多层级关键词列表匹配的关键词;
计算匹配的关键词在各产业层级出现的频率;
根据属于同一产业分类的关键词频率之和的排名和/或与预设阈值的比较为企业标注各层级的产业分类。例如对属于同一产业分类的关键词频率求和并排名,排名在前的产业分类为该企业的主产业,排名在后的产业分类为该企业的次产业,或者属于同一产业分类的关键词频率大于预设阈值时,将该产业分类标注为企业的标签。由此,得到企业在各个产业层级的多个产业分类的标签。
例如,A企业的企业描述文本如下:
公司简介:A公司具有全球第一条4-8英寸兼容的全自动抛光片生产线。
营业范围:技术开发、咨询、服务、转让(新材料、电子与信息、机电一体化的技术及产品);半导体器件、半导体材料制造;进出口业务。(国家有专项、专营规定的、按规定执行)
产品:衬底材料、硅抛光片、区熔硅单晶
专利:高平整度区熔硅抛光片的抛光工艺,8英寸轻掺硅抛光片的抛光工艺……
与所述产业多层级关键词列表匹配的关键词及其频率为:
(抛光片,4)、(衬底材料,1)、(半导体材料,1)、(半导体器件,1)。
其中,抛光片、衬底材料、半导体材料都属于“关键电子材料”产业分类,则该产业分类的关键词频率之和为6;而半导体器件属于“半导体设备”产业分类,该产业分类的关键词频率之和为1,半导体材料也属于“半导体材料”产业分类,该产业分类的关键词频率之和为1。由此,A企业的主产业标签为“新一代信息技术”和“关键电子材料”,次产业标签为“半导体”。
本发明实施例中,采用上述方法自动获取企业各层级的产业标签,形成企业分类训练数据,解决了人工标注数据繁琐低效的问题,为高效的进行企业分类提供了技术支撑。
实施例二
本发明实施例提供了一种企业多层级分类的方法,包括:
利用实施例一所述的方法获取的训练数据对分类算法进行训练,得到企业分类模型;
将企业描述文本输入所述企业分类模型,得到所述企业多层级的产业分类。
具体的,采用实施例一所述的方法得到训练数据后,选用BiLSTM分类算法,使用所述训练数据对BiLSTM分类算法进行训练,得到可靠的企业分类模型。
企业描述文本包括公开的企业产品、业务、经营范围及专利数据等。可选地,对所述企业描述文本进行预处理,包括特征选择、分词、去除停止词、长度填充、名词代换、向量化表示等,将预处理后的企业描述文本输入所述企业分类模型,即可得到企业所述的多个分类的标签,例如“新一代信息技术”、“关键电子材料”、“半导体”、“半导体设备”等。
可选地,对于分类结果进行校验,将正确分类的样本(企业描述文本、分类的标签等)加入训练数据,根据错误分类的数据调整分类模型,从而不断强化模型,提高准确率、召回率以及F1测量的值。
采用本实施例提供的方法,可以解决千万级别的企业多层级分类问题,提高企业多层分类的准确性。
实施例三
如图2所示,本发明还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种自动获取企业多层级分类训练数据的装置,包括:
信息获取模块201,用于获取产业信息、产品名称信息和企业描述文本;
产业层级生成模块202,用于根据所述产业信息生成产业层级体系;
关键词列表获取模块203,用于对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;
产业标签获取模块204,用于根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;
训练数据形成模块205,用于根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
所述产业层级生成模块具体的用于:
对所述产业信息进行分词;
对分词结果利用词向量模型进行向量化处理,得到产业词语特征向量,所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本预先训练得到的;
使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类;
根据所述产业分类、GICS国际行业分类及国民经济行业分类标准,生成覆盖全产业的产业层级体系。
所述关键词列表获取模块具体的用于:
根据所述产品名称信息聚类统计得到初级关键词列表;
将所述初级关键词列表与所述产业层级体系相关联;
获取初级关键词列表中各初级关键词的近义词;
所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。
其中,所述根据所述产品名称信息聚类统计得到初级关键词列表包括:
对所述产品名称信息进行分词;
对分词结果利用所述词向量模型进行向量化处理,得到产品词语特征向量;
对所述产品词语特征向量进行聚类得到多簇聚类结果;
将每簇聚类结果中出现频率排名在预设范围内的产品词语特征向量对应的词语作为初级关键词,得到所述初级关键词列表。
进一步地,所述获取初级关键词列表中各初级关键词的近义词包括:
将所述初级关键词输入所述词向量模型,获取与所述初级关键词的余弦相似度满足预设条件的产品词语,作为所述初级关键词的近义词。
所述产业标签获取模块具体的用于:
对所述企业描述文本进行分词处理;
从分词结果中获取与所述产业多层级关键词列表匹配的关键词;
计算匹配的关键词在各产业分类出现的频率;
根据属于同一产业分类的关键词频率之和的排名或者与预设阈值的比较为企业标注各层级的产业分类。
该装置可通过上述实施例一提供的自动获取企业多层级分类训练数据的方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一和实施例二所述的方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一和实施例二所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种自动获取企业多层级分类训练数据的方法,其特征在于,包括:
获取产业信息、产品名称信息和企业描述文本;
根据所述产业信息生成产业层级体系;
对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;
根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;
根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
2.如权利要求1所述的方法,其特征在于,所述根据所述产业信息生成产业层级体系包括:
对所述产业信息进行分词;
对分词结果利用词向量模型进行向量化处理,得到产业词语特征向量,所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本预先训练得到的;
使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类;
根据所述产业分类、GICS国际行业分类及国民经济行业分类标准,生成覆盖全产业的产业层级体系。
3.如权利要求2所述的方法,其特征在于,所述对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表包括:
根据所述产品名称信息聚类统计得到初级关键词列表;
将所述初级关键词列表与所述产业层级体系相关联;
获取初级关键词列表中各初级关键词的近义词;
所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。
4.如权利要求3所述的方法,其特征在于,所述根据所述产品名称信息聚类统计得到初级关键词列表包括:
对所述产品名称信息进行分词;
对分词结果利用所述词向量模型进行向量化处理,得到产品词语特征向量;
对所述产品词语特征向量进行聚类得到多簇聚类结果;
将每簇聚类结果中出现频率排名在预设范围内的产品词语特征向量对应的词语作为初级关键词,得到所述初级关键词列表。
5.如权利要求4所述的方法,其特征在于,所述获取初级关键词列表中各初级关键词的近义词包括:
将所述初级关键词输入所述词向量模型,获取与所述初级关键词的余弦相似度满足预设条件的产品词语,作为所述初级关键词的近义词。
6.根据权利要求5所述的方法,其特征在于,所述根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签包括:
对所述企业描述文本进行分词处理;
从分词结果中获取与所述产业多层级关键词列表匹配的关键词;
计算匹配的关键词在各产业分类出现的频率;
根据属于同一产业分类的关键词频率之和的排名或者与预设阈值的比较为企业标注各层级的产业分类。
7.一种企业多层级分类的方法,其特征在于,包括:
利用权利要求1-6任一项所述的方法获取的训练数据对分类算法进行训练,得到企业分类模型;
将企业描述文本输入所述企业分类模型,得到所述企业多层级的产业分类。
8.一种自动获取企业多层级分类训练数据的装置,其特征在于,包括:
信息获取模块,用于获取产业信息、产品名称信息和企业描述文本;
产业层级生成模块,用于根据所述产业信息生成产业层级体系;
关键词列表获取模块,用于对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;
产业标签获取模块,用于根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;
训练数据形成模块,用于根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-7任一项所述的方法。
CN202011554270.9A 2020-12-25 2020-12-25 一种自动获取企业多层级分类训练数据的方法和装置 Active CN112287075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011554270.9A CN112287075B (zh) 2020-12-25 2020-12-25 一种自动获取企业多层级分类训练数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011554270.9A CN112287075B (zh) 2020-12-25 2020-12-25 一种自动获取企业多层级分类训练数据的方法和装置

Publications (2)

Publication Number Publication Date
CN112287075A true CN112287075A (zh) 2021-01-29
CN112287075B CN112287075B (zh) 2021-04-13

Family

ID=74426053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011554270.9A Active CN112287075B (zh) 2020-12-25 2020-12-25 一种自动获取企业多层级分类训练数据的方法和装置

Country Status (1)

Country Link
CN (1) CN112287075B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255370A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN113807429A (zh) * 2021-09-14 2021-12-17 企查查科技有限公司 企业的分类方法、装置、计算机设备和存储介质
CN115391519A (zh) * 2022-07-21 2022-11-25 吉林省吉林祥云信息技术有限公司 一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质
TWI800195B (zh) * 2021-12-30 2023-04-21 大量科技股份有限公司 用於拋光墊表面之量測訊號的智慧分析系統、方法及其電腦程式產品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146155A (zh) * 2007-11-16 2008-03-19 中国电信股份有限公司 一种在语音平台上基于关键词的信息查询方法和系统
CN104537561A (zh) * 2015-01-20 2015-04-22 全国组织机构代码管理中心 一种组织机构代码中经济行业自动分类的装置
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
KR20200097089A (ko) * 2019-02-07 2020-08-18 부산대학교 산학협력단 에스엔에스와 공공데이터를 활용한 업종추천 방법 및 그 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146155A (zh) * 2007-11-16 2008-03-19 中国电信股份有限公司 一种在语音平台上基于关键词的信息查询方法和系统
CN104537561A (zh) * 2015-01-20 2015-04-22 全国组织机构代码管理中心 一种组织机构代码中经济行业自动分类的装置
CN107169036A (zh) * 2017-04-19 2017-09-15 畅捷通信息技术股份有限公司 确定企业所属行业类别的方法及系统
KR20200097089A (ko) * 2019-02-07 2020-08-18 부산대학교 산학협력단 에스엔에스와 공공데이터를 활용한 업종추천 방법 및 그 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李洋等: "基于CNN和BiLSTM网络特征融合的文本情感分析", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255370A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN113255370B (zh) * 2021-06-22 2022-09-20 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质
CN113807429A (zh) * 2021-09-14 2021-12-17 企查查科技有限公司 企业的分类方法、装置、计算机设备和存储介质
CN113807429B (zh) * 2021-09-14 2024-03-29 企查查科技股份有限公司 企业的分类方法、装置、计算机设备和存储介质
TWI800195B (zh) * 2021-12-30 2023-04-21 大量科技股份有限公司 用於拋光墊表面之量測訊號的智慧分析系統、方法及其電腦程式產品
CN115391519A (zh) * 2022-07-21 2022-11-25 吉林省吉林祥云信息技术有限公司 一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质

Also Published As

Publication number Publication date
CN112287075B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN112287075B (zh) 一种自动获取企业多层级分类训练数据的方法和装置
US8126826B2 (en) Method and system for active learning screening process with dynamic information modeling
CN103309953B (zh) 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
US8498950B2 (en) System for training classifiers in multiple categories through active learning
Sebastiani Classification of text, automatic
Mao et al. A feature selection method for multivariate performance measures
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN104834651B (zh) 一种提供高频问题回答的方法和装置
Nezhadi et al. Ontology alignment using machine learning techniques
Shen et al. Multi-level discriminative dictionary learning towards hierarchical visual categorization
US20210118024A1 (en) Multi-label product categorization
US11615494B2 (en) Intellectual property recommending method and system
CN109684627A (zh) 一种文本分类方法及装置
US11367116B1 (en) System and method for automatic product matching
Ashok et al. A personalized recommender system using machine learning based sentiment analysis over social data
CN107169061A (zh) 一种融合双信息源的文本多标签分类方法
Dahiya et al. Ngame: Negative mining-aware mini-batching for extreme classification
CN112184484A (zh) 一种电力用户差异化服务方法及系统
CN114547307A (zh) 文本向量模型训练方法、文本匹配方法、装置及设备
CN112131491B (zh) 分层排序方法、计算设备和计算机可读存储介质
Liu et al. Comparison of extreme learning machine with support vector machine for text classification
Dela Rosa et al. Boosted ranking models: a unifying framework for ranking predictions
Bahrami et al. Automatic image annotation using an evolutionary algorithm (IAGA)
Jirkovský et al. Semi-automatic ontology matching approach for integration of various data models in automotive
CN110209941B (zh) 维护推送内容池的方法、推送方法、装置、介质及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230801

Address after: No. 502, 5th floor, No. 150 Chengfu Road, Haidian District, Beijing, 100084

Patentee after: Beijing innovation Zhiyuan Technology Co.,Ltd.

Address before: B201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing 100083

Patentee before: Beijing Zhiyuan Artificial Intelligence Research Institute