CN113807429B - 企业的分类方法、装置、计算机设备和存储介质 - Google Patents

企业的分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113807429B
CN113807429B CN202111076618.2A CN202111076618A CN113807429B CN 113807429 B CN113807429 B CN 113807429B CN 202111076618 A CN202111076618 A CN 202111076618A CN 113807429 B CN113807429 B CN 113807429B
Authority
CN
China
Prior art keywords
word
enterprise
classified
classification
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111076618.2A
Other languages
English (en)
Other versions
CN113807429A (zh
Inventor
龚朝辉
柴玉倩
陶予祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qichacha Technology Co ltd
Original Assignee
Qichacha Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qichacha Technology Co ltd filed Critical Qichacha Technology Co ltd
Priority to CN202111076618.2A priority Critical patent/CN113807429B/zh
Publication of CN113807429A publication Critical patent/CN113807429A/zh
Application granted granted Critical
Publication of CN113807429B publication Critical patent/CN113807429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请涉及一种企业的分类方法、装置、计算机设备和存储介质。所述方法包括:获取多个分类词文本,以及待分类企业的企业描述文本;确定企业描述文本与每个分类词文本之间的相似度;根据相似度,从多个分类词文本中确定目标分类词文本;根据目标分类词文本对待分类企业进行分类。采用本方法无需人工预先对模型标注大量的训练数据,极大减少了数据准备的时长,简化了数据准备的过程,进而有效提高了企业分类的效率。

Description

企业的分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及文本分类技术领域,特别是涉及一种企业的分类方法、装置、计算机设备和存储介质。
背景技术
在企业的经营过程中,从企业角度出发做的行业分析必不可少,而做行业分析首先要确定行业分类。但随着我国经济的不断发展,科技的不断进步,顺应时代而生的新兴行业与日俱增,现有的经济行业分类未包含新兴行业的类别信息,难以确定隶属于新兴行业的企业的类别信息。因此,需要根据企业的业务信息重新对企业所属的行业进行分类。
传统技术中,对企业进行分类可以采用支持向量机、朴素贝叶斯、决策树等文本分类模型实现。对待分类企业采用模型提取企业信息中的文本特征,获取文本特征与模型内预设的行业类别的相关度,取相关度最高的那个行业类别作为待分类企业的分类。但是,采用传统技术中分类方式需要预先人工标注大量的数据,存在费时费力、工作繁琐的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高企业分类效率的企业的分类方法、装置、计算机设备和存储介质。
第一方面,本申请实施例提供一种企业的分类方法,所述方法包括:
获取多个分类词文本,以及待分类企业的企业描述文本;
确定所述企业描述文本与每个所述分类词文本之间的相似度;
根据所述相似度,从多个所述分类词文本中确定目标分类词文本;
根据所述目标分类词文本对所述待分类企业进行分类。
在其中一个实施例中,所述确定所述企业描述文本与每个所述分类词文本之间的相似度,包括:
将所述企业描述文本输入至主题模型,生成与所述企业描述文本对应的企业语义表示;
将每个所述分类词文本输入至所述主题模型,生成与每个所述分类词文本对应的分类语义表示;
通过所述主题模型得到所述企业语义表示以及每个所述分类语义表示的相似度,作为所述企业描述文本与每个所述分类词文本之间的相似度。
在其中一个实施例中,获取待分类企业的企业描述文本,包括:
从多个业务维度采集得到所述待分类企业的多个企业描述信息;
对多个所述企业描述信息进行拼接处理,得到初始企业描述文本;
对所述初始企业描述文本进行数据清洗,得到所述企业描述文本。
在其中一个实施例中,所述获取多个分类词文本,包括:
获取分类词库,所述分类词库包括多个分类词,以及每个所述分类词对应的分类路径;
根据所述分类词,以及所述分类词库中所述分类词对应的分类路径,生成所述分类词文本。
在其中一个实施例中,所述方法还包括:
从所述企业描述文本提取得到主题词;
将主题词更新至所述分类词库中。
在其中一个实施例中,所述从所述企业描述文本提取得到主题词,包括:
通过第一词提取模型从所述企业描述文本中提取得到第一主题词;
通过第二词提取模型从所述企业描述文本对应的所述企业语义表示中提取得到第二主题词;
根据所述第一主题词和所述第二主题词确定所述主题词。
在其中一个实施例中,所述将主题词更新至所述分类词库中,包括:
确定所述主题词与每个所述分类词之间的关联关系;
根据所述主题词与每个所述分类词之间的关联关系确定所述主题词在所述分类词库中的分类路径;
根据所述主题词在所述分类词库中的分类路径,将所述主题词更新至所述分类词库中。
第二方面,本申请实施例提供一种企业的分类装置,所述装置包括:
文本获取模块,用于获取多个分类词文本,以及待分类企业的企业描述文本;
相似度确定模块,用于确定所述企业描述文本与每个所述分类词文本之间的相似度;
企业分类模块,用于根据所述相似度,从多个所述分类词文本中确定目标分类词文本;根据所述目标分类词文本对所述待分类企业进行分类。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的企业的分类方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的企业的分类方法。
上述企业的分类方法、装置、计算机设备和存储介质,通过获取待分类企业的企业描述文本以及分类词文本之间的相似度,根据相似度确定企业描述文本对应的目标分类词文本,使用目标分类词文本对待分类企业进行分类,无需人工预先对模型标注大量的训练数据,极大减少了数据准备的时长,简化了数据准备的过程,进而有效提高了企业分类的效率。
附图说明
为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中企业的分类方法的流程示意图;
图2为一个实施例中确定相似度步骤的流程示意图;
图3为一个实施例中获取企业描述文本步骤的流程示意图;
图4为一个实施例中确定主题词步骤的流程示意图;
图5为一个实施例中将主题词更新至分类词库步骤的流程示意图;
图6为一个实施例中企业的分类方法的流程示意图;
图7为一个实施例中企业的分类装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本申请提供的企业的分类方法,可以应用于计算机设备中。计算机设备可以是终端,或者服务器,或者终端和服务器组成的系统。计算机设备中至少部署有相似度确定逻辑。具体地,计算机设备获取多个分类词文本,以及待分类企业的企业描述文本。通过预设的相似度确定逻辑确定企业描述文本与每个分类词文本之间的相似度。根据相似度,从多个分类词文本中确定目标分类词文本,进而对待分类企业进行分类。
其中,上述终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。
在一个实施例中,如图1所示,提供了一种企业的分类方法,本实施例以该方法应用于计算机设备为例进行说明,该方法包括以下步骤:
步骤S102,获取多个分类词文本,以及待分类企业的企业描述文本。
其中,分类词文本可以用于表征根据分类词生成的文本。分类词可以是来源于中国经济行业分类表的词语,也可以是用户自己定义的行业分类词语,在此不作具体限定。分类词可以用于表征企业所属的行业类别,例如某某公司的分类词为法律服务,则该公司归属于法律服务业。
待分类企业可以是指需要确定企业经济行业分类的企业。企业描述文本可以用于表征对待分类企业的一个或者多个业务内容(如企业名称、企业简介、经营范围、产品信息、招聘信息、专利及软件著作权信息、公众号、行政许可、招标投标信息等)进行描述的文本。
具体地,对待分类企业的分类请求可以是用户按需手动触发的,例如用户在应用界面上手动点击触发分类请求;也可以是计算机设备自动触发的,如计算机设备检测到待分类企业的信息,自动触发分类请求,计算机设备响应分类请求,获取多个分类词文本,以及待分类企业的企业描述文本。
步骤S104,确定企业描述文本与每个分类词文本之间的相似度。
其中,相似度可以采用欧几里得距离、皮尔逊相关系数、余弦距离等中的任一个参数进行表征。
具体地,计算机设备中预先部署有相似度确定逻辑。计算机设备在获取企业描述文本和多个分类词文本之后,通过相似度确定逻辑确定每个分类词文本与企业描述文本之间的相似度。其中,相似度确定逻辑包括但不仅限于:通过获取企业描述文本与分类词文本之间的欧几里得距离确定相似度,或者,通过获取企业描述文本与分类词文本之间的皮尔逊相关系数确定相似度,或者,通过获取企业描述文本与分类词文本之间的余弦距离确定相似度,在此不做具体限定。
步骤S106,根据相似度,从多个分类词文本中确定目标分类词文本。
一个示例中,计算机设备在得到企业描述文本与每个分类词文本之间的相似度之后,将所得到的每个相似度与第一阈值进行比较,获取相似度大于第一阈值的分类词文本,作为目标分类词文本。
另一个示例中,计算机设备在得到企业描述文本与每个分类词文本之间的相似度之后,对每个分类词文本按照相似度从高到低,或者相似度从低到高进行排序,将相似度最高的分类词文本作为目标分类词文本。
步骤S108,根据目标分类词文本对待分类企业进行分类。
具体地,计算机设备可以提取目标分类词文本中的主题词,将目标分类词文本中的主题词作为目标分类词文本对应的目标分类词。根据目标分类词确定待分类企业所属的经济行业分类,并使用目标分类词文本生成待分类企业的标引信息。
上述企业的分类方法,通过获取待分类企业的企业描述文本以及分类词文本之间的相似度,根据相似度确定企业描述文本对应的目标分类词文本,使用目标分类词文本对待分类企业进行分类,无需人工预先对模型标注大量的训练数据,极大减少了数据准备的时长,简化了数据准备的过程,进而有效提高了企业分类的效率。
在一个实施例中,如图2所示,步骤S104,确定企业描述文本与每个分类词文本之间的相似度,包括:
步骤S202,将企业描述文本输入至主题模型,生成与企业描述文本对应的企业语义表示。
具体地,计算机设备将企业描述文本输入至主题模型,通过主题模型对企业描述文本进行主题划分,生成与企业描述文本对应的企业语义表示。其中,主题模型可以但不限于采用PLSA模型(Probabilistic Latent Semantic Analysis,概率潜在语义分析)、LSA模型(Latent Semantic Analysis,潜在语义分析)、LDA模型(Latent DirichletAllocation,隐含狄利克雷分布)等模型。
步骤S204,将每个分类词文本输入至主题模型,生成与每个分类词文本对应的分类语义表示。
具体地,计算机设备将多个分类词文本输入至主题模型,通过主题模型对分类词文本进行主题划分,生成与每个分类词文本对应的分类语义表示。步骤S206,通过主题模型得到企业语义表示以及每个分类语义表示的相似度,作为企业描述文本与每个分类词文本之间的相似度。
具体地,计算机设备对每个分类语义表示都进行以下操作:将分类语义表示与企业语义表示输入至主题模型中,获取分类语义表示的主题分布,以及企业语义表示中的主题分布。计算得到分类语义表示的主题分布与企业语义表示中的主题分布的余弦距离。根据余弦距离得到分类语义表示与企业语义表示之间的相似度,作为企业描述文本与每个分类词文本之间的相似度。
一个示例中,以采用LDA模型为例进行说明主题模型的训练方法:
首先,计算机设备将多个文本样本作为训练数据输入至待训练的主题模型中,对每个文本样本进行分词处理,对分词处理后得到的每个词随机赋予一个主题(主题根据经济行业分类生成)。获取每个主题下出现词的概率分布以及文本样本中出现主题的概率分布。然后,从分词处理后得到的第一个词开始遍历所有词执行以下操作:排除当前词的主题分配,根据其他所有词的主题分配通过吉布斯采样估计当前词的主题。重复上述方法不断更新下一个词,直至每个企业描述文本下主题的分布以及每个主题下词的分布收敛,生成已训练的主题模型。其中,主题可以用于表征包括多个具有相同特征的主题词的集合。
本实施例中,通过主题模型生成企业描述文本的企业语义表示及每个分类词文本的分类语义表示,获取企业语义表示与每个分类语义表示的相似度,作为企业描述文本与每个分类词文本之间的相似度,能够提高获取相似度的精度。
在一个实施例中,如图3所示,步骤S102,获取多个分类词文本,以及待分类企业的企业描述文本,包括:
步骤S302,从多个业务维度采集得到待分类企业的多个企业描述信息。
其中,多个业务维度包括但不仅限于基本信息维度、经营信息维度、知识产权维度等。多个业务维度的信息可以是网络上的公开信息,例如计算机设备通过爬虫技术从某网站获取的信息,也可以是用户提供的信息,例如计算机设备获取用户输入的信息。
具体地,计算机设备可以通过爬虫技术从互联网中获取待分类企业多个业务维度的企业描述信息,例如:基本信息维度的企业名称、简介、以及公众号等信息;经营信息维度的经营范围、产品信息、行政许可、招标投标、招聘人员等信息;知识产权维度的专利、软件著作权等信息。
步骤S304,对多个企业描述信息进行拼接处理,得到初始企业描述文本。以及,步骤S306,对初始企业描述文本进行数据清洗,得到企业描述文本。
具体地,计算机设备将每个业务维度的企业描述信息作为一段,对多个企业描述信息依次进行拼接,得到初始企业描述文本。对初始企业描述文本进行数据清洗,得到企业描述文本。其中,数据清洗包括但不仅限于删除重复信息,剔除无关信息。一个示例中,以剔除无关内容为例,当企业描述文本的文本长度超过预设阈值时,计算机设备将每个业务维度的企业描述信息输入至主题模型中提取主题词,根据主题词对企业描述文本进行处理,删除与主题词无关的内容,得到企业描述文本。
本实施例中,通过获取多个业务维度的企业描述信息,能够提高企业描述文本内容的丰富性;通过对企业描述信息进行数据清洗,得到企业描述文本,能够提高企业描述文本的文本质量。
在一个实施例中,步骤S102,获取多个分类词文本,包括:获取分类词库,分类词库包括多个分类词,以及每个分类词对应的分类路径;根据分类词,以及分类词库中分类词对应的分类路径,生成分类词文本。
其中,分类词库可以根据经济行业分类以及中国分类主题词表生成。分类路径指代从分类词库中的根节点到当前分类节点的路径,例如,商务服务业这一分类在分类词库中的根节点为租聘和商务服务业,则商务服务业的分类路径为分类词库中从租聘和商务服务业到商务服务业的路径。
具体地,计算机设备通过爬虫技术获取公开的分类词库中的分类词信息以及分类词对应的分类路径信息拼接生成分类词文本。
本实施例中,通过获取分类词库中的分类词信息以及分类词对应的分类路径信息生成分类词文本,能够得到多层级的分类词文本,获取详细的类别信息。
一个实施例中,分类词库可以根据基于SKOS标准(Simple KnowledgeOrganization System,简单知识组织系统)构建的RDF模型(Resource DescriptionFramework,资源描述框架)对分类词库中的分类词进行管理。
具体地,计算机设备将分类词库输入至RDF模型,将分类词的根节点作为一个种类标签,根据SKOS标准寻找与这个标签关联的分类词,将关联的分类词的节点更新至该标签下。一个示例中,SKOS标准可以根据用户需求来定义。本实施例中,通过采用基于SKOS标准的RDF模型管理分类词,能够完善对主题词的管控,使得分类词库中的分类词节点与根节点的分类路径更加清晰。
在一个实施例中,在步骤S102,获取多个分类词文本,以及待分类企业的企业描述文本之后,还包括:从企业描述文本中提取得到主题词;将主题词更新至分类词库中。
具体地,计算机设备将企业描述文本以及企业描述文本对应的企业语义表示输入至词提取模型中。首先,通过词提取模型进行分词处理,获取每个词的权重。其次,根据每个词的权重确定企业描述文本的主题词。然后,再通过主题模型确定主题词与分类词库中每个分类词的关联关系。根据关联关系确定主题词在分类词库中的分类路径,按照分类路径将更新至分类词库中。
本实施例中,通过从企业描述文本中提取主题词对分类词库进行更新,能够增加分类词库中分类词的数量,扩大分类词库,便于提高分类的准确率。
在一个实施例中,如图4所示,从企业描述文本中提取主题词,包括:
步骤S402,通过第一词提取模型从企业描述文本中提取得到第一主题词。
其中,第一词提取模型包括但不限于HMM模型(Hidden Markov Model,隐马尔可夫模型)、最大熵模型、CRF模型(Conditional Random Field,条件随机场)、biLSTM+CRF模型(一种结合长短期记忆网络的条件随机场)等序列标注模型。
第一主题词可以是企业描述文本中的显性主题词,即直接出现在企业描述文本中的主题词,例如,企业描述文本中企业名称为某某网络科技有限公司,则第一主题词可以是网络科技。
具体地,计算机设备将企业描述文本输入至第一词提取模型,根据企业描述文本的句子序列生成多个标注序列。通过第一词提取模型的特征函数得到多个标注序列的概率,确定概率最大的标注序列作为目标标注序列。计算机设备对目标标注序列进行分词处理,获取标注序列中分词的权重,根据分词的权重从多个词中获取第一主题词。
步骤S404,通过第二词提取模型从企业描述文本对应的企业语义表示中提取得到第二主题词。
其中,第二词提取模型包括但不仅限于PLSA模型、LSA模型、LDA模型等模型。第二主题词可以是隐性主题词,即没有直接出现在企业描述文本中,但是与企业描述文本存在关联关系的主题词,例如,企业描述文本中产品信息为电脑程序,则第二主题词可以为软件与信息技术。
具体地,计算机设备将企业描述文本对应的企业语义表示输入至第二词提取模型,获取企业描述文本中主题的概率分布。根据主题的概率分布确定与企业描述文本关联的多个主题词,通过主题中主题词的概率确定主题词的权重,根据主题词的权重从多个主题词中获取第二主题词。
步骤S406,根据第一主题词和第二主题词确定主题词。
具体地,计算机设备根据第一主题词和第二主题词生成主题词的集合,删除集合中重复的主题词,确定主题词。
在一个实施例中,如图5所示,将主题词更新至分类词库中,包括:
步骤S502,确定主题词与每个分类词之间的关联关系。
具体地,计算机设备可以通过主题模型获取企业描述文本中主题词的概率分布以及多个分类词文本中分类词的概率分布。通过主题词的概率分布以及多个分类词的概率分布得到主题词与多个分类词的距离。根据主题词与多个分类词的距离,确定主题词与每个分类词之间的关联关系。
步骤S504,根据主题词和每个分类词之间的关联关系确定主题词在分类词库中的分类路径。
步骤S506,根据主题词在分类词库中的分类路径,将主题词更新至分类词库中。
具体地,计算机设备通过主题词和每个分类词之间的关联关系中的距离信息,确定与主题词之间距离小于第二阈值的分类词。获取该分类词在分类词库中的分类路径,作为主题词的分类路径,将主题词按照分类路径更新至分类词库中。
一个实施例中,主题词的新增和删除可以通过iqvoc软件(一种用于流程管理的软件)进行处理。
本实施例中,通过第一词提取模型从企业描述文本中提取得到第一主题词,通过第二词提取模型从企业语义表示中提取得到第二主题词,根据第一主题词和第二主题词确定主题词,将主题词更新至分类词库中,能够扩展分类词库中分类词的丰富度。
在一个实施例中,如图6所示,提供一种企业的分类方法,包括:
步骤S602,获取分类词库,生成多个分类词文本。
具体地,计算机设备获取分类词库,分类词库包括多个分类词,以及每个分类词对应的分类路径;根据分类词,以及分类词库中分类词对应的分类路径,拼接生成分类词文本。获取分类词库的方法可以参照上述实施例中的方法实现,在此不作具体阐述。
步骤S604,采集待分类企业的企业描述信息,得到初始企业描述文本。
以及,步骤S606,对初始企业描述文本进行数据清洗,得到企业描述文本。
具体地,从基本信息维度、经营信息维度、知识产权维度等多个业务维度采集得到待分类企业的企业名称、简介、公众号、经营范围、产品信息、行政许可、招标投标、招聘人员、专利以及软件著作权等多个企业描述信息。对多个企业描述信息进行拼接处理,得到初始企业描述文本;对初始企业描述文本进行数据清洗,得到企业描述文本。拼接处理和数据清洗的方法可以参照上述实施例中的方法实现,在此不作具体阐述。
步骤S608,将企业描述文本以及每个分类词文本输入至主题模型,生成与企业描述文本对应的企业语义表示,以及与每个分类词文本对应的分类语义表示。
具体地,通过LDA主题模型生成与企业描述文本对应的企业语义表示,以及,生成与每个分类词文本对应的分类语义表示。LDA主题模型的训练方式以及生成语义表示的方式可以参照上述实施例中的方法实现,在此不作具体阐述。
步骤S610,通过主题模型得到企业语义表示以及每个分类语义表示的相似度,作为企业描述文本与每个分类词文本之间的相似度。
具体地,得到相似度的方法可以参照上述实施例中的方法实现,在此不作具体阐述。
步骤S612,从多个分类词文本中确定相似度最高的分类词文本,作为目标分类词文本。
以及,步骤S614根据目标分类词文本对待分类企业进行分类。
具体地,根据目标分类词文本进行分类的方式可以参照上述实施例中的方法实现,在此不作具体阐述。
一个示例中,企业的分类方法,还包括:从企业描述文本提取得到主题词;将主题词更新至分类词库中。
具体地,计算机设备通过biLSTM+CRF模型从企业描述文本中提取得到第一主题词;通过LDA模型从企业描述文本对应的企业语义表示中提取得到第二主题词;根据第一主题词和第二主题词确定主题词。通过LDA模型生成主题词与每个分类词之间的关联关系;根据主题词与每个分类词之间的关联关系确定主题词在分类词库中的分类路径;根据主题词在分类词库中的分类路径,将主题词更新至分类词库中。第一主题词和第二主题词的提取方式以及主题词与分类词的关联关系确定方式可以参照上述实施例中的方法实现,在此不作具体阐述。
本实施例中,通过主题模型获取企业描述文本与分类词文本之间的相似度,进而对待分类企业进行分类,无需人工标注数据,提高了企业分类的效率;通过主题模型生成主题词与分类词之间的关联关系,获取主题词在分类词库中的分类路径,将主题词更新至分类词库中,能够扩展分类词库中分类词的丰富度。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于上述所述的企业的分类方法实施例的描述,本公开还提供企业的分类装置。所述装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本公开实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
在一个实施例中,如图7所示,提供了一种企业的分类装置700,包括:文本获取模块702、相似度确定模块704和企业分类模块706,其中:
文本获取模块702,用于获取多个分类词文本,以及待分类企业的企业描述文本。相似度确定模块704,用于确定企业描述文本与每个分类词文本之间的相似度。企业分类模块706,用于根据相似度,从多个分类词文本中确定目标分类词文本;根据目标分类词文本对待分类企业进行分类。
在一个实施例中,文本获取模块702,包括:企业文本获取单元,用于从多个业务维度采集得到待分类企业的多个企业描述信息;对多个企业描述信息进行拼接处理,得到初始企业描述文本;对初始企业描述文本进行数据清洗,得到企业描述文本。
在一个实施例中,文本获取模块702,还包括:分类文本获取单元,用于获取分类词库,分类词库包括多个分类词,以及每个分类词对应的分类路径;根据分类词,以及分类词库中分类词对应的分类路径,生成分类词文本。
在一个实施例中,相似度确定模块704,包括:语义表示生成单元,用于将所述企业描述文本输入至主题模型,生成与所述企业描述文本对应的企业语义表示;将每个所述分类词文本输入至主题模型,生成与每个所述分类词文本对应的分类语义表示;相似度获取单元,用于通过主题模型得到所述企业语义表示以及每个所述分类语义表示的相似度,作为所述企业描述文本与每个所述分类词文本之间的相似度。
在一个实施例中,企业的分类装置700,还包括:主题词提取模块,用于从企业描述文本提取得到主题词;主题词更新模块,用于将主题词更新至分类词库中。
在一个实施例中,主题词提取模块,包括:第一提取单元,用于通过第一词提取模型从企业描述文本中提取得到第一主题词;第二提取单元,用于通过第二词提取模型从企业描述文本对应的企业语义表示中提取得到第二主题词;主题词生成单元,用于根据第一主题词和第二主题词确定主题词。
在一个实施例中,主题词更新模块,包括:关系确定单元,用于确定主题词与每个分类词之间的关联关系;路径确定单元,用于根据主题词与每个分类词之间的关联关系确定主题词在分类词库中的分类路径;词库更新单元,用于根据主题词在分类词库中的分类路径,将主题词更新至分类词库中。
关于企业的分类装置的具体限定可以参见上文中对于企业的分类方法的限定,在此不再赘述。上述企业的分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分类企业数据及分类词文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种企业的分类方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一项实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种企业的分类方法,其特征在于,所述方法包括:
获取分类词库,根据所述分类词库中包括的多个分类词,以及每个所述分类词对应的分类路径生成多个分类词文本;
获取待分类企业的企业描述文本;
通过主题模型确定与所述企业描述文本对应的企业语义表示以及与每个所述分类词文本对应的分类语义表示;
对每个所述分类语义表示都进行以下操作:将所述分类语义表示与所述企业语义表示输入至所述主题模型中,获取所述分类语义表示的主题分布,以及所述企业语义表示中的主题分布,计算得到所述分类语义表示的主题分布与所述企业语义表示中的主题分布之间的余弦距离,将所述余弦距离作为相似度;
根据所述相似度,从多个所述分类词文本中确定目标分类词文本;
根据所述目标分类词文本对所述待分类企业进行分类;
所述方法还包括:
根据所述企业描述文本以及所述企业描述文本的企业语义表示得到主题词,采用所述主题词对所述分类词库进行更新,所述主题词包括第一主题词以及第二主题词,其中,所述第一主题词为所述企业描述文本中的显性主题词,所述第二主题词为所述企业描述文本的企业语义表示中提取到的隐性主题词;
其中,所述主题模型的训练方式包括:
将多个文本样本作为训练数据输入至待训练的主题模型中,对每个所述文本样本进行分词处理,对分词处理后得到的每个词随机赋予一个主题,所述主题根据经济行业分类生成;
获取每个所述主题下出现词的概率分布以及所述文本样本中出现主题的概率分布;
从分词处理后得到的第一个词开始遍历所有词执行以下操作:排除当前词的主题分配,根据其他所有词的主题分配通过吉布斯采样估计所述当前词的主题;
重复执行上述更新当前词的主题的操作,直至每个所述文本样本下主题的分布以及每个所述主题下词的分布收敛,生成已训练的主题模型,其中,所述主题用于表征包括多个具有相同特征的主题词的集合。
2.根据权利要求1所述的方法,其特征在于,所述获取待分类企业的企业描述文本,包括:
从多个业务维度采集得到所述待分类企业的多个企业描述信息;
对多个所述企业描述信息进行拼接处理,得到初始企业描述文本;
对所述初始企业描述文本进行数据清洗,得到所述企业描述文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述企业描述文本以及所述企业描述文本的企业语义表示得到主题词,包括:
通过第一词提取模型从所述企业描述文本中提取得到所述第一主题词;
通过第二词提取模型从所述企业描述文本对应的企业语义表示中提取得到所述第二主题词。
4.根据权利要求3所述的方法,其特征在于,所述通过第二词提取模型从所述企业描述文本对应的企业语义表示中提取得到所述第二主题词,包括:
将所述企业描述文本对应的企业语义表示输入至所述第二词提取模型,获取所述企业描述文本中主题的概率分布;
根据所述主题的概率分布确定与所述企业描述文本关联的多个主题词;
通过所述主题的概率分布中主题词的概率确定主题词的权重;
根据主题词的权重从多个主题词中获取所述第二主题词。
5.根据权利要求1所述的方法,其特征在于,所述采用所述主题词对所述分类词库进行更新,包括:
确定所述主题词与每个所述分类词之间的关联关系;
根据所述主题词与每个所述分类词之间的关联关系,确定所述主题词在所述分类词库中的分类路径;
根据所述主题词在所述分类词库中的分类路径,将所述主题词更新至所述分类词库中。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标分类词文本对所述待分类企业进行分类,包括:
提取所述目标分类词文本中的主题词,将所述目标分类词文本中的主题词作为所述目标分类词文本对应的目标分类词;
根据所述目标分类词确定所述待分类企业所属的经济行业分类,并使用所述目标分类词文本生成所述待分类企业的标引信息。
7.一种企业的分类装置,其特征在于,所述装置包括:
文本获取模块,用于获取分类词库,根据所述分类词库中包括的多个分类词,以及每个所述分类词对应的分类路径生成多个分类词文本;获取待分类企业的企业描述文本;
相似度确定模块,包括:语义表示生成单元,用于通过主题模型确定与所述企业描述文本对应的企业语义表示以及与每个所述分类词文本对应的分类语义表示;相似度获取单元,用于对每个所述分类语义表示都进行以下操作:将所述分类语义表示与所述企业语义表示输入至所述主题模型中,获取所述分类语义表示的主题分布,以及所述企业语义表示中的主题分布,计算得到所述分类语义表示的主题分布与所述企业语义表示中的主题分布之间的余弦距离,将所述余弦距离作为相似度;
企业分类模块,用于根据所述相似度,从多个所述分类词文本中确定目标分类词文本;根据所述目标分类词文本对所述待分类企业进行分类;
所述装置还包括:主题词提取模块,用于从所述企业描述文本以及所述企业描述文本的企业语义表示提取得到主题词;主题词更新模块,用于将所述主题词更新至所述分类词库中,所述主题词包括第一主题词以及第二主题词,其中,所述第一主题词为所述企业描述文本中的显性主题词,所述第二主题词为所述企业描述文本的企业语义表示中提取到的隐性主题词;
其中,所述主题模型的训练方式包括:
将多个文本样本作为训练数据输入至待训练的主题模型中,对每个所述文本样本进行分词处理,对分词处理后得到的每个词随机赋予一个主题,所述主题根据经济行业分类生成;
获取每个所述主题下出现词的概率分布以及所述文本样本中出现主题的概率分布;
从分词处理后得到的第一个词开始遍历所有词执行以下操作:排除当前词的主题分配,根据其他所有词的主题分配通过吉布斯采样估计所述当前词的主题;
重复执行上述更新当前词的主题的操作,直至每个所述文本样本下主题的分布以及每个所述主题下词的分布收敛,生成已训练的主题模型,其中,所述主题用于表征包括多个具有相同特征的主题词的集合。
8.根据权利要求7所述的装置,其特征在于,所述文本获取模块,包括:
企业文本获取单元,用于从多个业务维度采集得到所述待分类企业的多个企业描述信息;对多个所述企业描述信息进行拼接处理,得到初始企业描述文本;对所述初始企业描述文本进行数据清洗,得到所述企业描述文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202111076618.2A 2021-09-14 2021-09-14 企业的分类方法、装置、计算机设备和存储介质 Active CN113807429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111076618.2A CN113807429B (zh) 2021-09-14 2021-09-14 企业的分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111076618.2A CN113807429B (zh) 2021-09-14 2021-09-14 企业的分类方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113807429A CN113807429A (zh) 2021-12-17
CN113807429B true CN113807429B (zh) 2024-03-29

Family

ID=78895348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111076618.2A Active CN113807429B (zh) 2021-09-14 2021-09-14 企业的分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113807429B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329624A (zh) * 2007-06-22 2008-12-24 上海容恒实业有限公司 计算机柔性管理构建系统
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN109902179A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 基于自然语言处理的筛选电商垃圾评论的方法
CN110232187A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 企业名称相似度识别方法、装置、计算机设备和存储介质
CN110309301A (zh) * 2019-05-09 2019-10-08 上海泰豪迈能能源科技有限公司 企业类别的分类方法、装置及智能终端
CN110516236A (zh) * 2019-08-09 2019-11-29 安徽工程大学 一种社交短文本细粒度情感采集方法
CN110750715A (zh) * 2019-09-25 2020-02-04 平安科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN110909725A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN111475603A (zh) * 2019-01-23 2020-07-31 百度在线网络技术(北京)有限公司 企业标识识别方法、装置、计算机设备及存储介质
CN112182223A (zh) * 2020-10-12 2021-01-05 浙江工业大学 一种基于领域本体的企业行业分类方法和系统
CN112287075A (zh) * 2020-12-25 2021-01-29 北京智源人工智能研究院 一种自动获取企业多层级分类训练数据的方法和装置
CN112329472A (zh) * 2020-08-28 2021-02-05 菏泽学院 基于隐性情感词分析以提取文本语义数据的方法、系统
CN112487794A (zh) * 2019-08-21 2021-03-12 顺丰科技有限公司 行业分类方法、装置、终端设备及存储介质
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN112905751A (zh) * 2021-03-19 2021-06-04 常熟理工学院 一种结合主题模型和孪生网络模型的话题演化跟踪方法
CN113255370A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11487991B2 (en) * 2019-09-04 2022-11-01 The Dun And Bradstreet Corporation Classifying business summaries against a hierarchical industry classification structure using supervised machine learning
US11741511B2 (en) * 2020-02-03 2023-08-29 Intuit Inc. Systems and methods of business categorization and service recommendation

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329624A (zh) * 2007-06-22 2008-12-24 上海容恒实业有限公司 计算机柔性管理构建系统
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN111475603A (zh) * 2019-01-23 2020-07-31 百度在线网络技术(北京)有限公司 企业标识识别方法、装置、计算机设备及存储介质
CN109902179A (zh) * 2019-03-04 2019-06-18 上海宝尊电子商务有限公司 基于自然语言处理的筛选电商垃圾评论的方法
CN110309301A (zh) * 2019-05-09 2019-10-08 上海泰豪迈能能源科技有限公司 企业类别的分类方法、装置及智能终端
CN110232187A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 企业名称相似度识别方法、装置、计算机设备和存储介质
CN110516236A (zh) * 2019-08-09 2019-11-29 安徽工程大学 一种社交短文本细粒度情感采集方法
CN112487794A (zh) * 2019-08-21 2021-03-12 顺丰科技有限公司 行业分类方法、装置、终端设备及存储介质
CN110750715A (zh) * 2019-09-25 2020-02-04 平安科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN110909725A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
WO2021072885A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 识别文本的方法、装置、设备及存储介质
CN112329472A (zh) * 2020-08-28 2021-02-05 菏泽学院 基于隐性情感词分析以提取文本语义数据的方法、系统
CN112182223A (zh) * 2020-10-12 2021-01-05 浙江工业大学 一种基于领域本体的企业行业分类方法和系统
CN112287075A (zh) * 2020-12-25 2021-01-29 北京智源人工智能研究院 一种自动获取企业多层级分类训练数据的方法和装置
CN112632980A (zh) * 2020-12-30 2021-04-09 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN112905751A (zh) * 2021-03-19 2021-06-04 常熟理工学院 一种结合主题模型和孪生网络模型的话题演化跟踪方法
CN113255370A (zh) * 2021-06-22 2021-08-13 中国平安财产保险股份有限公司 基于语义相似度的行业类型推荐方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
句子情感分析及其关键问题;李纲;程洋洋;寇广增;;图书情报工作(第11期);全文 *
城市画像视角下的社会公众情感演化研究;叶光辉;曾杰妍;胡婧岚;毕崇武;;数据分析与知识发现(第04期);全文 *

Also Published As

Publication number Publication date
CN113807429A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US11663254B2 (en) System and engine for seeded clustering of news events
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US8073877B2 (en) Scalable semi-structured named entity detection
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN109508458B (zh) 法律实体的识别方法及装置
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
Hossari et al. TEST: A terminology extraction system for technology related terms
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN113641833B (zh) 服务需求匹配方法及装置
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
KR20160120583A (ko) 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
Hosseini et al. Implicit entity linking through ad-hoc retrieval
CN113807429B (zh) 企业的分类方法、装置、计算机设备和存储介质
Zhang et al. A text mining based method for policy recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: No. 8 Huizhi Street, Suzhou Industrial Park, Suzhou Area, China (Jiangsu) Pilot Free Trade Zone, Suzhou City, Jiangsu Province, 215000

Applicant after: Qichacha Technology Co.,Ltd.

Address before: Room 503, 5 / F, C1 building, 88 Dongchang Road, Suzhou Industrial Park, 215000, Jiangsu Province

Applicant before: Qicha Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant