CN114297347A - 行业类别的确定方法、装置、存储介质和电子设备 - Google Patents
行业类别的确定方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN114297347A CN114297347A CN202111630171.9A CN202111630171A CN114297347A CN 114297347 A CN114297347 A CN 114297347A CN 202111630171 A CN202111630171 A CN 202111630171A CN 114297347 A CN114297347 A CN 114297347A
- Authority
- CN
- China
- Prior art keywords
- industry
- enterprise
- keyword
- keywords
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种行业类别的确定方法、装置、存储介质和电子设备,涉及电子信息技术领域,该方法包括:获取目标企业文本信息;在目标企业文本信息中提取第一企业关键词;将第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;将预测样本输入基于关键词库确定的分类模型,得到目标企业的行业类别;其中,预测样本包括第二企业关键词。经过组合或拆分后得到第二企业关键词能体现出更强的行业特征。将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
Description
技术领域
本公开涉及电子信息技术领域,具体地,涉及一种行业类别的确定方法、装置、存储介质和电子设备。
背景技术
随着市场经济的不断发展,各行各业的企业数量巨增,为了便于用户从众多企业中定位到目标企业,就需要对企业进行行业分类,以便于用户可以根据行业类别快速定位到目标企业。
目前,对于企业的行业分类方式主要是按照预设固定切分粒度,对目标企业文本信息进行切分,并将切分后的目标企业信息文本输入分类模型中,以得到分类模型输出的分类结果,也就是目标企业的行业类别。但这种方式中由于对目标企业文本信息是按照固定的切分粒度进行切分的,会导致切分后的分词可能缺乏行业特征,从而导致分类的准确率较低。
发明内容
为了解决上述技术问题,本公开提供一种行业类别的确定方法、装置、存储介质和电子设备。
根据本公开实施例的第一方面,提供一种行业类别的确定方法,所述方法包括:获取目标企业文本信息;在所述目标企业文本信息中提取第一企业关键词;将所述第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;将预测样本输入基于所述关键词库确定的分类模型,得到目标企业的行业类别;其中,所述预测样本包括所述第二企业关键词。
可选地,所述分类模型通过以下方式训练得到:获取行业文本信息和与行业类别对应的企业文本信息;所述行业文本信息中包括:若干所述行业类别及与各个所述行业类别对应的行业特征信息;从所述行业特征信息中提取行业关键词;从所述企业文本信息中提取第三企业关键词;根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库;根据所述关键词库训练所述分类模型。
可选地,所述从所述行业特征信息中提取行业关键词,包括:按照预设的行业无用词库去除所述行业特征信息中的无用词;根据标点符号切分去除无用词后的所述行业特征信息,得到若干行业特征文本;根据所述若干行业特征文本,生成所述行业关键词。
可选地,所述根据所述若干行业特征文本,生成所述行业关键词,包括:针对各个所述行业特征文本:确定所述行业特征文本的字符长度是否大于或者等于预设长度阈值,如果是,对所述行业特征文本进行分词,得到所述行业关键词,否则,确定所述行业特征文本为所述行业关键词。
可选地,所述从所述企业文本信息中提取第三企业关键词,包括:按照不同切分粒度切分所述企业文本信息,得到所述第三企业关键词。
可选地,在所述按照不同切分粒度切分所述企业文本信息之前,进一步包括:按照预设的企业无用词库去除所述企业文本信息中的无用词;所述按照不同切分粒度切分所述企业文本信息,包括:按照不同切分粒度切分去除无用词后的所述企业文本信息。
可选地,所述根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库,包括:计算所述企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关键词的相似度;根据所述相似度,在不同切分粒度中选定目标切分粒度;将所述目标切分粒度的第三企业关键词及其对应的行业关键词均作为目标关键词,将所述目标关键词及其对应的行业类别添加到所述关键词库。
可选地,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:从所述目标关键词中抽取实体词;针对各个所述行业类别:根据所述实体词,对所述行业类别下的目标关键词进行聚类,得到若干关键词集合;根据所述若干关键词集合,确定所述行业类别的种子关键词;所述根据所述关键词库训练所述分类模型,包括:根据所述种子关键词及其对应的行业类别,训练所述分类模型。
可选地,所述根据所述若干关键词集合,确定所述行业类别的种子关键词,包括:针对各个所述关键词集合:统计所述关键词集合中各个目标关键词在所述行业文本信息和各个企业文本信息中出现的次数之和;确定次数之和最大的目标关键词为所述种子关键词。
可选地,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:针对各个所述行业类别:对所述关键词库中的目标关键词进行去重;所述根据所述关键词库训练所述分类模型,包括:根据去重后的所述目标关键词及其对应的行业类别,训练所述分类模型。
可选地,所述预测样本还包括匹配成功的第一企业关键词。
根据本公开实施例的第二方面,提供一种行业类别的确定装置,所述装置包括:获取模块,用于获取目标企业文本信息;提取模块,用于在所述目标企业文本信息中提取第一企业关键词;匹配模块,用于将所述第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;分类模块,用于将预测样本输入基于所述关键词库确定的分类模型,得到目标企业的行业类别;其中,所述预测样本包括所述第二企业关键词。
可选地,所述分类模型通过以下方式训练得到:获取行业文本信息和与行业类别对应的企业文本信息;所述行业文本信息中包括:若干所述行业类别及与各个所述行业类别对应的行业特征信息;从所述行业特征信息中提取行业关键词;从所述企业文本信息中提取第三企业关键词;根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库;根据所述关键词库训练所述分类模型。
可选地,所述从所述行业特征信息中提取行业关键词,包括:按照预设的行业无用词库去除所述行业特征信息中的无用词;根据标点符号切分去除无用词后的所述行业特征信息,得到若干行业特征文本;根据所述若干行业特征文本,生成所述行业关键词。
可选地,所述根据所述若干行业特征文本,生成所述行业关键词,包括:针对各个所述行业特征文本:确定所述行业特征文本的字符长度是否大于或者等于预设长度阈值,如果是,对所述行业特征文本进行分词,得到所述行业关键词,否则,确定所述行业特征文本为所述行业关键词。
可选地,所述从所述企业文本信息中提取第三企业关键词,包括:按照不同切分粒度切分所述企业文本信息,得到所述第三企业关键词。
可选地,在所述按照不同切分粒度切分所述企业文本信息之前,进一步包括:按照预设的企业无用词库去除所述企业文本信息中的无用词;所述按照不同切分粒度切分所述企业文本信息,包括:按照不同切分粒度切分去除无用词后的所述企业文本信息。
可选地,所述根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库,包括:计算所述企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关键词的相似度;根据所述相似度,在不同切分粒度中选定目标切分粒度;将所述目标切分粒度的第三企业关键词及其对应的行业关键词均作为目标关键词,将所述目标关键词及其对应的行业类别添加到所述关键词库。
可选地,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:从所述目标关键词中抽取实体词;针对各个所述行业类别:根据所述实体词,对所述行业类别下的目标关键词进行聚类,得到若干关键词集合;根据所述若干关键词集合,确定所述行业类别的种子关键词;所述根据所述关键词库训练所述分类模型,包括:根据所述种子关键词及其对应的行业类别,训练所述分类模型。
可选地,所述根据所述若干关键词集合,确定所述行业类别的种子关键词,包括:针对各个所述关键词集合:统计所述关键词集合中各个目标关键词在所述行业文本信息和各个企业文本信息中出现的次数之和;确定次数之和最大的目标关键词为所述种子关键词。
可选地,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:针对各个所述行业类别:对所述关键词库中的目标关键词进行去重;所述根据所述关键词库训练所述分类模型,包括:根据去重后的所述目标关键词及其对应的行业类别,训练所述分类模型。
可选地,所述预测样本还包括匹配成功的第一企业关键词。
根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面所述的行业类别的确定方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面所述的行业类别的确定方法的步骤。
通过上述技术方案,本公开首先获取目标企业文本信息;在目标企业文本信息中提取第一企业关键词;将第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;将预测样本输入基于关键词库确定的分类模型,得到目标企业的行业类别;其中,预测样本包括所述第二企业关键词。本公开通过从待分类的目标企业文本信息中提取出第一企业关键词,将第一企业关键词与关键词库进行匹配,如果匹配失败,说明第一企业关键词的粒度并不是最能体现行业特征的粒度,可以通过组合或拆分的方式得到第二企业关键词,经过组合或拆分得到的第二企业关键词能体现出更强的行业特征。最后将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种行业类别的确定方法的流程示意图;
图2是本公开实施例提供的一种分类模型的训练方法的流程示意图;
图3是本公开实施例提供的另一种分类模型的训练方法的流程示意图;
图4是本公开实施例提供的另一种分类模型的训练方法的流程示意图;
图5是本公开实施例提供的另一种分类模型的训练方法的流程示意图;
图6是本公开实施例提供的一种行业类别的确定装置的结构示意图;
图7是本公开实施例提供的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在下文中的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
首先,对本公开的应用场景进行说明,本公开可以应用在对目标企业进行行业分类的场景下,随着市场经济的不断发展,各行各业的企业数量巨增,为了便于用户从众多企业中定位到目标企业,就需要对企业进行行业分类,以便于用户可以根据行业类别快速定位到目标企业。目前,对于企业的行业分类方式主要是按照预设固定切分粒度,对目标企业文本信息进行切分,并将切分后的目标企业信息文本输入至分类模型中,以得到分类模型输出的分类结果,也就是目标企业的行业类别。基于上述场景,发明人发现这种方式中由于对目标企业文本信息是按照固定的切分粒度进行切分的,会导致切分后的分词可能缺乏行业特征,同时分类模型训练的样本也同样是按照固定的切分粒度进行切分的得到的,也就是说,训练分类模型的样本也可能缺乏较强的行业特征,从而最终导致分类的准确率较低。
为了解决上述问题,本公开提供一种行业类别的确定方法、装置、存储介质和电子设备,本公开通过从待分类的目标企业文本信息中提取出第一企业关键词,将第一企业关键词与关键词库进行匹配,如果匹配失败,说明第一企业关键词的粒度并不是最能体现行业特征的粒度,可以通过组合或拆分的方式得到第二企业关键词,经过组合或拆分得到的第二企业关键词能体现出更强的行业特征。最后将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
下面结合具体实施例对本公开进行说明。
图1是根据一示例性实施例示出的一种行业类别的确定方法的流程示意图,如图1所示,该方法包括以下步骤:
在步骤S101中,获取目标企业文本信息。
其中,该目标企业文本信息为待分类的企业信息对应的文本,目标企业文本信息例如可以包括企业名称和企业经营范围。
在步骤S102中,在该目标企业文本信息中提取第一企业关键词。
由于步骤S101中获取到的目标企业文本信息中可能包含与行业类别确定无关或低相关的无用词,因此可以通过对目标企业文本信息做初步处理,从而提取出目标企业文本信息中的第一企业关键词。
示例地,初步处理可以包括按照预设的企业无用词库去除目标企业文本信息中的无用词,其中,企业无用词库中可以包括不包含企业的行业特征信息的词和/或行业特征信息含量低的词。例如,不包含企业的行业特征信息的词可以是“有限责任公司”、“集团”以及代表地域信息的词等词。由于这些词本身不包含企业的行业特征信息,可能会影响分类模型预测过程中数据处理的效率和预测的准确率,因此,可以对不包含企业的行业特征的词进行去除,以提高数据处理的效率和预测的准确率。行业特征信息含量低的词可以是“销售”和“零售和批发”等词,由于这类词可能会出现在不同的行业中,从而对分类模型预测的过程造成较大干扰,因此,可以将行业特征信息含量低的词作为无关词进行去除。
另外,初步处理还可以包括根据标点符号将去除无用词后的目标企业文本信息进行切分,得到若干第一企业关键词。相应地,从目标企业文本信息中提取的第一企业关键词中不包括上述无用词和标点符号。
在步骤S103中,将该第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词。
其中,该关键词库可以预先由行业特征信息中提取行业关键词和企业文本信息中提取第三企业关键词组成。如果匹配成功,则说明第一企业关键词的粒度适宜,能够更好地体现出行业特征,无需对其进行组合或拆分。
将上述步骤S102中从目标企业文本信息中提取第一企业关键词与该关键词库进行匹配,若该关键词库中存在该第一企业关键词,那么,可以确定该第一企业关键词与该关键词库匹配成功;若该关键词库中不存在该第一企业关键词,那么,可以确定该第一企业关键词与该关键词库匹配失败。其次,可以将匹配失败的第一企业关键词中预设数量个相邻的第一企业关键词与关键词库进行比对,若关键词库中存在由多个第一企业关键词组合后的组合词,可以将多个第一企业关键词进行组合,得到第二企业关键词。示例地,若匹配失败的预设数量个相邻的第一企业关键词为“计算机”、“网络”、“电子元件”、“配件”和“维修”,若关键词库中存在“计算机”和“网络”组合后的组合词“计算机网络”,那么可以将“计算机”和“网络”进行组合,并将组合后的词“计算机网络”作为第二企业关键词。
另外,由于第一企业关键词中可能包含字符长度较长的词,而字符长度较长的词中可能包含不同行业的行业特征信息,因此,为了提高预测的准确性,还可以将第一企业关键词中字符长度大于或者等于预设长度阈值的词通过分词工具进行拆分。示例地,若第一企业关键词为“从事货物及技术的进出口业务”,预设长度阈值为6,那么该第一企业关键词的字符长度为13,大于预设长度阈值6,可以通过分词工具对“从事货物及技术的进出口业务”进行拆分,例如,拆分后可以得到的第二企业关键词为“货物”、“技术”和“进出口业务”。其中,分词工具例如可以是Jieba工具。
在步骤S104中,将预测样本输入基于该关键词库确定的分类模型,得到目标企业的行业类别。
其中,分类模型可以是预先根据关键词库进行训练得到的模型,能够对预测样本进行分类,以确定预测样本对应的行业类别的模型。分类模型能够将预测样本与预先指定的多行业类别进行匹配,以确定预测样本与每个行业类别的匹配度。分类模型可以根据匹配度高低确定预测样本对应的行业类别,即预测样本与某一行业类别的匹配度高,那么可以将该行业类别作为预测样本的行业类别。训练分类模型的关键词库中可以包括多个行业类别及其对应的行业关键词和第三企业关键词。其中,分类模型的结构例如可以是FastText结构,也可以是BERT(Bidirectional Encoder Representations fromTransformers)结构等,本公开对此不作具体限定。
示例地,将预测样本输入基于该关键词库确定的分类模型,得到目标企业的行业类别可以通过以下三种实现方式得到:
在一种可能的实现方式中,可以将上述步骤S103中得到的第二企业关键词作为预测样本,并将第二企业关键词输入至基于关键词库确定的分类模型中,并输出关键词库中与第二企业关键词中匹配度最高的行业类别,将该行业类别作为目标企业的行业类别。
在另一种可能的实现方式中,可以将上述步骤S103中匹配成功的第一企业关键词作为预测样本,并将匹配成功的第一企业关键词输入至该分类模型中,以得到该分类模型输出的行业类别,并将该行业类别作为目标企业的行业类别。
在另一种可能的实现方式中,可以将上述步骤S103中第二企业关键词和匹配成功的第一企业关键词作为预测样本,并将第二企业关键词和匹配成功的第一企业关键词输入至该分类模型中,以得到该分类模型输出的行业类别,并将该行业类别作为目标企业的行业类别。
需要说明的是,可以将至少一个预测样本依次输入至预先训练的分类模型,以得到每个预测样本对应的行业类别。由于企业的经营范围过于宽泛,一个目标企业文本信息中可能包含一个或多个行业类别的特征信息,因此,可以在得到所有预测样本的行业类别后,根据全部的行业类别确定目标企业的行业类别。示例地,可以在得到所有预测样本的行业类别后,根据每个预测样本与对应行业类别的匹配度,确定出相同行业类别下所有预测样本的匹配度的和值,并将匹配度的和值最高的行业类别作为目标企业的行业类别。还可以根据实际需求将匹配度的和值较高的多个行业类别作为目标企业的行业类别。
采用上述方法,通过从待分类的目标企业文本信息中提取出第一企业关键词,将第一企业关键词与关键词库进行匹配,如果匹配失败,说明第一企业关键词的粒度并不是最能体现行业特征的粒度,可以通过组合或拆分的方式得到第二企业关键词,经过组合或拆分得到的第二企业关键词能体现出更强的行业特征。最后将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
图2是本公开实施例提供的一种分类模型的训练方法的流程示意图,如图2所示,该分类模型可以通过以下方式训练得到:
在步骤S201中,获取行业文本信息和与行业类别对应的企业文本信息。
其中,该行业文本信息中包括:若干该行业类别及与各个该行业类别对应的行业特征信息;行业文本信息例如可以是《国民经济行业分类2017版行业注释》,其中包括多个门类行业,每个门类行业包括多个大类行业,每个大类行业包括多个中类行业,每个中类行业包括多个小类行业,行业特征信息可以是小类行业对应的注释文本信息。企业文本信息为预设企业的企业信息,该企业信息可以表征预设企业的所属行业的行业特征。
另外,由于行业文本信息中每个小类行业对应的注释文本信息中可能包括与该行业无关的特征信息,因此,可以将与该行业相关的特征信息作为行业特征信息。示例地,若行业文本信息为“5030提供施工设备服务指为建筑工程提供配有操作人员的施工设备的服务。包括:提供建筑塔吊设备施工;提供混凝土设备施工;提供其他设备施工。不包括:仅提供建筑设备,不提供操作人员的服务,列入7113(建筑工程机械与设备经营租赁)。”,可以提取出“5030提供施工设备服务”小类行业类别的注释信息中“包括”后的文本内容“提供建筑塔吊设备施工;提供混凝土设备施工;提供其他设备施工。”作为行业特征信息。
在步骤S202中,从该行业特征信息中提取行业关键词。
由于行业特征信息中可能包含与该行业无关的冗余信息,因此,可以对行业特征信息中的冗余信息进行删除,从而提取出行业特征信息中的行业关键词。如图3所示,在本公开实施例中,还可以包括以下步骤:
在步骤S2021中,按照预设的行业无用词库去除该行业特征信息中的无用词。
其中,行业无用词库可以包括不包含企业的行业特征信息的词或行业特征信息含量低的词。例如,不包含企业的行业特征信息的词可以是“包含”、“活动”等词语。由于这些词不能反映行业的行业特征,因此,可以将行业特征信息中的不包含企业的行业特征信息的词进行去除。行业特征信息含量低的词可以是“资源与产权交易服务”、“单位后勤管理服务”或“服务”等词,由于这些词为多个细分行业的辅助定语,本身并没有较强的行业特征信息,因此,可以将行业特征信息中的行业特征信息含量低的词进行去除。
在步骤S2022中,根据标点符号切分去除无用词后的该行业特征信息,得到若干行业特征文本。
将去除无用词后的行业特征信息按照标点符号进行切分,以得到若干行业特征文本。
在步骤S2023中,根据若干行业特征文本,生成该行业关键词。
由于切分后的若干行业特征文本中可能包含字符长度较长的词,因此,在本步骤中,可以针对各个行业特征文本:确定该行业特征文本的字符长度是否大于或者等于预设长度阈值,如果该行业特征文本的字符长度大于或者等于预设长度阈值,对该行业特征文本进行分词,得到该行业关键词。如果该行业特征文本的字符长度小于预设长度阈值,可以确定该行业特征文本为该行业关键词。同样地,可以通过分词工具对上述行业特征文本进行分词。
在步骤S203中,从该企业文本信息中提取第三企业关键词。
同样地,由于企业文本信息中可能包含与该行业无关的无用词,因此,可以对企业文本信息中的无用词进行删除,从而提取出企业文本信息中的第三企业关键词。示例地,可以按照预设的企业无用词库去除企业文本信息中的无用词。其次,可以根据标点符号将去除无用词后的企业文本信息进行切分,得到若干第三企业关键词。相应地,从企业文本信息中提取的第三企业关键词中不包括上述无用词和标点符号。
另外,可以按照不同切分粒度切分去除无用词后的该企业文本信息,得到该第三企业关键词。其中,该切分粒度用于表征对词语切分的粗细程度。
示例地,若企业文本信息为“计算机网络”,在不同的切分粒度下,可能会被切分为“计算机”和“网络”,或者被切分为“计算机网络”。
在步骤S204中,根据该行业类别及其对应的行业关键词和第三企业关键词,生成该关键词库。
其中,该关键词库中包括多个行业关键词及其对应的行业类别和第三企业关键词及其对应的行业类别。为了进一步筛选出更能够具有代表性的第三企业关键词,如图4所示,本步骤可以包括以下步骤:
在步骤S2041中,计算该企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关键词的相似度。
示例地,可以通过词向量模型来计算企业文本信息的行业类别对应的行业关键词和不同切分粒度下切分的第三企业关键词的相似度。其中,该词向量模型例如可以是Word2vec模型。
在步骤S2042中,根据该相似度,在不同切分粒度中选定目标切分粒度。
示例地,通过上述步骤S2041得到不同切分粒度下的第三企业关键词与企业文本信息的行业类别对应的行业关键词的相似度,可以将相似度最高的第三企业关键词对应的切分粒度作为目标切分粒度。
在步骤S2043中,将该目标切分粒度的第三企业关键词及其对应的行业关键词均作为目标关键词,将该目标关键词及其对应的行业类别添加到该关键词库。
示例地,通过上述步骤S2042选定目标切分粒度,并可以将目标切分粒度切分的第三企业关键词及其对应的行业关键词作为目标关键词,并将目标关键词及其对应的行业类别添加至关键词库,以便于根据关键词库训练分类模型。这样,通过上述步骤可以筛选出更能够反映行业特征的目标关键词,从而使得分类模型训练的样本更加精确,进而提高了分类模型的分类准确度。
在步骤S205中,根据该关键词库训练该分类模型。
示例地,在对分类模型进行训练时,首先需要先获取样本输入集。其中,该样本输入集中包括了多个样本输入,样本输入可以为关键词库中的目标关键词,目标关键词可以根据行业文本信息和企业文本信息来确定。进一步地,在得到样本输入集之后,可以获取样本输出集。样本输出集中包括与每个样本输入对应的样本输出,每个样本输出包括对应的目标关键词所属的行业类别。可以将该样本输入集作为分类模型的输入,将样本输出集作为分类模型的输出,来训练分类模型,使得在输入样本输入集时,分类模型的输出,能够与样本输出集匹配。
考虑到由上述步骤得到的目标关键词中是由行业关键词和第三企业关键词组成的,在同一行业类别中可能存在相同含义的词,因此,为了进一步提高数据处理的效率,如图5所示,在本实施例中,可以包括以下步骤:
在步骤S501中,从该目标关键词中抽取实体词。
示例地,可以从目标关键词中抽取出实体词,其中,实体词为反映具体产品的词,例如可以从“汽车生产”、“汽车销售”、“汽车维修”等目标关键词中抽取出实体词“汽车”。
在步骤S502中,针对各个该行业类别:根据该实体词,对该行业类别下的目标关键词进行聚类,得到若干关键词集合。
可以理解的,根据上述步骤S501中抽取的实体词,在同一行业类别下,通过文本相似算法得到同一实体词下含义相近的目标关键词,并将若干目标关键词组成关键词集合。示例地,同一行业类别下的目标关键词包括:“汽车销售”、“汽车维修”、“汽车生产”和“汽车制造”,首先,抽取出目标关键词中的实体词,可以得到该实体词为“汽车”。其次,根据该实体词,通过文本相似算法对“汽车销售”、“汽车维修”、“汽车生产”和“汽车制造”进行分析,可以得到具有相同实体和相似含义的目标关键词“汽车生产”和“汽车制造”。其中,该文本相似算法例如可以为Synonyms算法或BM25算法。
在步骤S503中,根据该若干关键词集合,确定该行业类别的种子关键词。
在本步骤中,针对各个该关键词集合,可以统计各个目标关键词在该行业文本信息和各个企业文本信息中的词频,也即统计该关键词集合中各个目标关键词在该行业文本信息和各个企业文本信息中出现的次数之和,并将次数之和最大的目标关键词为该种子关键词。这样,可以过滤掉具有相同或相似含义的重复的目标关键词,减少种子关键词的数量,提高分类效率。示例地,可以通过TF-IDF统计模型来统计各个目标关键词在该行业文本信息和各个企业文本信息中的词频。
相应地,根据该关键词库训练该分类模型,包括:根据该种子关键词及其对应的行业类别,训练该分类模型。
另外,考虑到目标关键词中可能存在相同的词,因此为了提高数据处理的效率,可以针对各个该行业类别:对该关键词库中的目标关键词进行去重。
相应地,根据该关键词库训练分类模型,包括:根据去重后的该目标关键词及其对应的行业类别,训练该分类模型。
采用上述方法,通过从待分类的目标企业文本信息中提取出第一企业关键词,将第一企业关键词与关键词库进行匹配,如果匹配失败,说明第一企业关键词的粒度并不是最能体现行业特征的粒度,可以通过组合或拆分的方式得到第二企业关键词,经过组合或拆分得到的第二企业关键词能体现出更强的行业特征。最后将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
图6是本公开提供一种行业类别的确定装置,如图6所示,该装置600包括:
获取模块601,用于获取目标企业文本信息;
提取模块602,用于在该目标企业文本信息中提取第一企业关键词;
匹配模块603,用于将该第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;
分类模块604,用于将预测样本输入基于该关键词库确定的分类模型,得到目标企业的行业类别;其中,该预测样本包括该第二企业关键词。
采用上述装置,通过从待分类的目标企业文本信息中提取出第一企业关键词,将第一企业关键词与关键词库进行匹配,如果匹配失败,说明第一企业关键词的粒度并不是最能体现行业特征的粒度,可以通过组合或拆分的方式得到第二企业关键词,经过组合或拆分得到的第二企业关键词能体现出更强的行业特征。最后将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
可选地,该分类模型通过以下方式训练得到:获取行业文本信息和与行业类别对应的企业文本信息;该行业文本信息中包括:若干该行业类别及与各个该行业类别对应的行业特征信息;从该行业特征信息中提取行业关键词;从该企业文本信息中提取第三企业关键词;根据该行业类别及其对应的行业关键词和第三企业关键词,生成该关键词库;根据该关键词库训练该分类模型。
可选地,该从该行业特征信息中提取行业关键词,包括:按照预设的行业无用词库去除该行业特征信息中的无用词;根据标点符号切分去除无用词后的该行业特征信息,得到若干行业特征文本;根据该若干行业特征文本,生成该行业关键词。
可选地,该根据该若干行业特征文本,生成该行业关键词,包括:针对各个该行业特征文本:确定该行业特征文本的字符长度是否大于或者等于预设长度阈值,如果是,对该行业特征文本进行分词,得到该行业关键词,否则,确定该行业特征文本为该行业关键词。
可选地,该从该企业文本信息中提取第三企业关键词,包括:按照不同切分粒度切分该企业文本信息,得到该第三企业关键词。
可选地,在该按照不同切分粒度切分该企业文本信息之前,进一步包括:按照预设的企业无用词库去除该企业文本信息中的无用词;该按照不同切分粒度切分该企业文本信息,包括:按照不同切分粒度切分去除无用词后的该企业文本信息。
可选地,该根据该行业类别及其对应的行业关键词和第三企业关键词,生成该关键词库,包括:计算该企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关键词的相似度;根据该相似度,在不同切分粒度中选定目标切分粒度;将该目标切分粒度的第三企业关键词及其对应的行业关键词均作为目标关键词,将该目标关键词及其对应的行业类别添加到该关键词库。
可选地,在该将目标关键词及其对应的行业类别添加到该关键词库之后,进一步包括:从该目标关键词中抽取实体词;针对各个该行业类别:根据该实体词,对该行业类别下的目标关键词进行聚类,得到若干关键词集合;根据该若干关键词集合,确定该行业类别的种子关键词;该根据该关键词库训练该分类模型,包括:根据该种子关键词及其对应的行业类别,训练该分类模型。
可选地,该根据该若干关键词集合,确定该行业类别的种子关键词,包括:针对各个该关键词集合:统计该关键词集合中各个目标关键词在该行业文本信息和各个企业文本信息中出现的次数之和;确定次数之和最大的目标关键词为该种子关键词。
可选地,在该将目标关键词及其对应的行业类别添加到该关键词库之后,进一步包括:针对各个该行业类别:对该关键词库中的目标关键词进行去重;该根据该关键词库训练该分类模型,包括:根据去重后的该目标关键词及其对应的行业类别,训练该分类模型。
可选地,该预测样本还包括匹配成功的第一企业关键词。
采用上述装置,通过从待分类的目标企业文本信息中提取出第一企业关键词,将第一企业关键词与关键词库进行匹配,如果匹配失败,说明第一企业关键词的粒度并不是最能体现行业特征的粒度,可以通过组合或拆分的方式得到第二企业关键词,经过组合或拆分得到的第二企业关键词能体现出更强的行业特征。最后将第二企业关键词输入至基于关键词库训练的分类模型,从而得到目标企业的行业类别。这样,能够有效提高对目标企业行业分类的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备700的框图。例如,电子设备700可以被提供为一服务器。参照图7,电子设备700包括处理器722,其数量可以为一个或多个,以及存储器732,用于存储可由处理器722执行的计算机程序。存储器732中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器722可以被配置为执行该计算机程序,以执行上述的行业类别的确定方法。
另外,电子设备700还可以包括电源组件726和通信组件750,该电源组件726可以被配置为执行电子设备700的电源管理,该通信组件750可以被配置为实现电子设备700的通信,例如,有线或无线通信。此外,该电子设备700还可以包括输入/输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的行业类别的确定方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器732,上述程序指令可由电子设备700的处理器722执行以完成上述的行业类别的确定方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的行业类别的确定方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (14)
1.一种行业类别的确定方法,其特征在于,所述方法包括:
获取目标企业文本信息;
在所述目标企业文本信息中提取第一企业关键词;
将所述第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;
将预测样本输入基于所述关键词库确定的分类模型,得到目标企业的行业类别;其中,所述预测样本包括所述第二企业关键词。
2.根据权利要求1所述的方法,其特征在于,所述分类模型通过以下方式训练得到:
获取行业文本信息和与行业类别对应的企业文本信息;所述行业文本信息中包括:若干所述行业类别及与各个所述行业类别对应的行业特征信息;
从所述行业特征信息中提取行业关键词;
从所述企业文本信息中提取第三企业关键词;
根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库;
根据所述关键词库训练所述分类模型。
3.根据权利要求2所述的方法,其特征在于,所述从所述行业特征信息中提取行业关键词,包括:
按照预设的行业无用词库去除所述行业特征信息中的无用词;
根据标点符号切分去除无用词后的所述行业特征信息,得到若干行业特征文本;
根据所述若干行业特征文本,生成所述行业关键词。
4.根据权利要求3所述的方法,其特征在于,所述根据所述若干行业特征文本,生成所述行业关键词,包括:
针对各个所述行业特征文本:确定所述行业特征文本的字符长度是否大于或者等于预设长度阈值,如果是,对所述行业特征文本进行分词,得到所述行业关键词,否则,确定所述行业特征文本为所述行业关键词。
5.根据权利要求2所述的方法,其特征在于,所述从所述企业文本信息中提取第三企业关键词,包括:
按照不同切分粒度切分所述企业文本信息,得到所述第三企业关键词。
6.根据权利要求5所述的方法,其特征在于,在所述按照不同切分粒度切分所述企业文本信息之前,进一步包括:
按照预设的企业无用词库去除所述企业文本信息中的无用词;
所述按照不同切分粒度切分所述企业文本信息,包括:
按照不同切分粒度切分去除无用词后的所述企业文本信息。
7.根据权利要求5或6所述的方法,其特征在于,所述根据所述行业类别及其对应的行业关键词和第三企业关键词,生成所述关键词库,包括:
计算所述企业文本信息的行业类别对应的行业关键词与不同切分粒度的第三企业关键词的相似度;
根据所述相似度,在不同切分粒度中选定目标切分粒度;
将所述目标切分粒度的第三企业关键词及其对应的行业关键词均作为目标关键词,将所述目标关键词及其对应的行业类别添加到所述关键词库。
8.根据权利要求7所述的方法,其特征在于,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:
从所述目标关键词中抽取实体词;
针对各个所述行业类别:根据所述实体词,对所述行业类别下的目标关键词进行聚类,得到若干关键词集合;
根据所述若干关键词集合,确定所述行业类别的种子关键词;
所述根据所述关键词库训练所述分类模型,包括:
根据所述种子关键词及其对应的行业类别,训练所述分类模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述若干关键词集合,确定所述行业类别的种子关键词,包括:
针对各个所述关键词集合:统计所述关键词集合中各个目标关键词在所述行业文本信息和各个企业文本信息中出现的次数之和;确定次数之和最大的目标关键词为所述种子关键词。
10.根据权利要求7所述的方法,其特征在于,在所述将目标关键词及其对应的行业类别添加到所述关键词库之后,进一步包括:
针对各个所述行业类别:对所述关键词库中的目标关键词进行去重;
所述根据所述关键词库训练所述分类模型,包括:
根据去重后的所述目标关键词及其对应的行业类别,训练所述分类模型。
11.根据权利要求1所述的方法,其特征在于,所述预测样本还包括匹配成功的第一企业关键词。
12.一种行业类别的确定装置,其特征在于,所述装置包括:
获取模块,用于获取目标企业文本信息;
提取模块,用于在所述目标企业文本信息中提取第一企业关键词;
匹配模块,用于将所述第一企业关键词与预先确定的关键词库进行匹配,将匹配失败的第一企业关键词进行组合或拆分,得到第二企业关键词;
分类模块,用于将预测样本输入基于所述关键词库确定的分类模型,得到目标企业的行业类别;其中,所述预测样本包括所述第二企业关键词。
13.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至11中任一项所述方法的步骤。
14.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111630171.9A CN114297347A (zh) | 2021-12-28 | 2021-12-28 | 行业类别的确定方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111630171.9A CN114297347A (zh) | 2021-12-28 | 2021-12-28 | 行业类别的确定方法、装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297347A true CN114297347A (zh) | 2022-04-08 |
Family
ID=80972083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111630171.9A Pending CN114297347A (zh) | 2021-12-28 | 2021-12-28 | 行业类别的确定方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297347A (zh) |
-
2021
- 2021-12-28 CN CN202111630171.9A patent/CN114297347A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110716868B (zh) | 异常程序行为检测方法、装置 | |
CN110795919A (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN112416778B (zh) | 测试用例推荐方法、装置和电子设备 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN113590451B (zh) | 一种根因定位方法、运维服务器及存储介质 | |
CN113868419B (zh) | 基于人工智能的文本分类方法、装置、设备及介质 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN113704436A (zh) | 基于会话场景的用户画像标签挖掘方法及装置 | |
CN116956026A (zh) | 一种网络资产识别模型的训练方法及系统 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN110083809A (zh) | 合同条款相似度计算方法、装置、设备及可读存储介质 | |
CN113221570A (zh) | 基于线上问诊信息的处理方法、装置、设备及存储介质 | |
CN117873839B (zh) | 复杂算力系统的故障检测方法、装置、设备和存储介质 | |
CN117633666A (zh) | 网络资产识别方法、装置、电子设备和存储介质 | |
CN111950623B (zh) | 数据稳定性监控方法、装置、计算机设备及介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN113449083B (zh) | 作业安全管理方法、装置、设备及存储介质 | |
CN114297347A (zh) | 行业类别的确定方法、装置、存储介质和电子设备 | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 | |
CN114936139A (zh) | 数据中心网络内的日志处理方法、装置、设备及存储介质 | |
CN114186028A (zh) | 咨诉工单处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |