CN110750700A

CN110750700A - 一种基于机器学习的企业简称生成方法及模型

Info

Publication number: CN110750700A
Application number: CN201911035061.0A
Authority: CN
Inventors: 王健; 田伟利
Original assignee: Beijing Zhongshu Zhihui Technology Co Ltd
Current assignee: Beijing Zhongshu Zhihui Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-04

Abstract

本发明涉及一种基于机器学习的企业简称生成方法及模型，该方法包括：获取企业名称样本数据；确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准。本发明提供的技术方案，通过获取企业名称样本数据，确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准，从而实现了企业简称的自动生成，为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础，用户体验度好、满意度高。

Description

一种基于机器学习的企业简称生成方法及模型

技术领域

本发明涉及大数据技术领域，具体涉及一种基于机器学习的企业简称生成方法及模型。

背景技术

随着互联网的快速发展，产生了大量的、公开的网页数据，也因此催发了各种基于大数据技术的新兴产业，比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的信息数据分析，而信息分析的价值在于敏锐和准确，敏锐的分析要求及时快速地发现新的信息。但是直接从网页上获取到数据大部分都是非结构化的，为了使用这些数据，数据清洗工作成为了各个大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取，特别是命名实体的提取又是经常发生的事情，比如企业征信，最常见的任务就是从大篇幅文本当中提取公司的名字。

借助企业简称对企业进行快速定位和关键信息抽取将直接有助于对整个企业，乃至整个行业的发展与动态进行深入挖掘和分析。此外，做企业数据分析相关的公司也日渐繁多，工商登记的企业并没有要求填写企业简称字段，想要在企业数据上补充简称字段就需要有可用的企业简称生产方案。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于机器学习的企业简称生成方法及模型，以实现企业简称的自动生成。

为实现以上目的，本发明采用如下技术方案：

一种基于机器学习的企业简称生成方法，包括：

获取企业名称样本数据；

确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准。

优选地，所述确定每条企业名称样本数据的简称属性集合，包括：

确定每条企业名称样本数据所对应的企业简称；

根据所述企业简称，确定简称属性集合。

优选地，所述确定每条企业名称样本数据所对应的企业简称包括：

根据所述企业名称样本数据，判断企业是否为上市企业或者知名企业；

若企业是上市企业或者知名企业，从舆情数据中提取企业简称；

若企业不是上市企业或者知名企业，人工设置企业简称。

优选地，所述确定简称属性集合，包括：

按预设分词器的格式，对每个企业简称进行分词切割；

人工标注分词切割后得到的每个词段的简称属性，并将所述简称属性添加到简称属性集合中。

优选地，所述方法，还包括：

人工标注企业全称的读音、注册行业，并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中；和/或，

联网抓取企业全称的读音、注册行业，并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中。

优选地，所述方法，还包括：

搜集常用中文词库作为预设分词器的基本词库；

所述常用中文词库至少包括：搜狗词库、百度词库；

分词切割后得到的词段，至少包括：地区词、核心词、行业词、企业后缀。

优选地，所述判断企业是否为上市企业或者知名企业，包括：

预存上市企业或者知名企业名单；

若能从预存的上市企业或者知名企业名单中匹配出企业名称样本数据，则判定企业名称样本数据所对应的企业是上市企业或者知名企业。

优选地，所述舆情数据包括以下项中的至少一项：

股市、网络信息、媒体资讯、简报、评论文章、微博内容。

优选地，所述获取企业名称样本数据，包括：

人工选取不同地区或者不同行业的企业名称样本数据；和/或，

联网抓取不同地区或者不同行业的企业名称样本数据。

优选地，所述方法，还包括：

选取非样本里的企业名称数据验证所述时间递归神经网络模型的准确率，若所述准确率未达到预设标准，则调整所述时间递归神经网络模型的训练层数，和/或，增加所述企业名称样本数据的数量，以提高所述时间递归神经网络模型的准确率。

另外，本发明还提出了一种基于机器学习的企业简称生成模型，包括：

获取企业名称样本数据；

本发明采用以上技术方案，至少具备以下有益效果：

通过获取企业名称样本数据，确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准，从而实现了企业简称的自动生成，为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础，用户体验度好、满意度高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于机器学习的企业简称生成方法的流程图；

图2为本发明另一实施例提供的一种基于机器学习的企业简称生成方法的流程图；

图3为本发明一实施例提供的一种基于机器学习的企业简称生成模型的示意框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

参见图1，本发明一实施例提供的一种基于机器学习的企业简称生成方法，包括：

步骤S11、获取企业名称样本数据；

步骤S12、确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准。

可以理解的是，本实施例提供的技术方案，通过获取企业名称样本数据，确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准，从而实现了企业简称的自动生成，为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础，用户体验度好、满意度高。

优选地，所述获取企业名称样本数据，包括：

联网抓取不同地区或者不同行业的企业名称样本数据。

可以理解的是，选取不同地区或者不同行业的企业名称样本数据，可以增大样本数据的多样性和覆盖广泛性，使得训练得到的模型更精准。

确定每条企业名称样本数据所对应的企业简称；

根据所述企业简称，确定简称属性集合。

若企业不是上市企业或者知名企业，人工设置企业简称。

预存上市企业或者知名企业名单；

优选地，所述舆情数据包括以下项中的至少一项：

股市、网络信息、媒体资讯、简报、评论文章、微博内容。

可以理解的是，本实施例提供的技术方案，操作简单、部署实施容易，用户体验度好、满意度高。

优选地，所述确定简称属性集合，包括：

按预设分词器的格式，对每个企业简称进行分词切割；

优选地，所述方法，还包括：

搜集常用中文词库作为预设分词器的基本词库；

所述常用中文词库至少包括：搜狗词库、百度词库；

以公司名称为“珠海格力电器股份有限公司”为例，分词切割后，可以得到表一所示的多个词段：

地区词	核心词	行业词	企业后缀
				珠海	格力	电器	股份有限公司

表一

以公司名称为“京东方科技集团”为例，分词切割后，可以得到表二所示的多个词段：

地区词	核心词	行业词	企业后缀
					京东方	科技	集团

表二

优选地，所述方法，还包括：

需要说明的是，企业全称的读音、注册行业可以人工标注，也可以联网后，从工商登记网站获取。

可以理解的是，企业全称一般6到10字，想要给所有企业名称都生成一个辨识度高、和企业全称关联强的简称，就需要为训练模型输入更多的简称属性，输入的简称属性越多，得到的训练结果越准确。

优选地，所述方法，还包括：

需要说明的是，所述预设标准人工设置。可以理解的是，本实施例提供的技术方案，在模型训练完成后，还有一个对训练模型优化完善的过程，从而保证了企业简称生成的准确率，用户体验度好、满意度高。

参见图2，本发明另一实施例提供的一种基于机器学习的企业简称生成方法，包括：

步骤S21、获取企业名称样本数据；

步骤S22、根据所述企业名称样本数据，判断企业是否为上市企业或者知名企业；

步骤S23、若企业是上市企业或者知名企业，从舆情数据中提取企业简称；若企业不是上市企业或者知名企业，人工设置企业简称；

步骤S24、按预设分词器的格式，对每个企业简称进行分词切割；

步骤S25、人工标注分词切割后得到的每个词段的简称属性，并将所述简称属性添加到简称属性集合中；

步骤S26、人工标注企业全称的读音、注册行业，并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中；和/或，联网抓取企业全称的读音、注册行业，并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中；

步骤S27、将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准。

另外，参见图3，本发明还提出了一种基于机器学习的企业简称生成模型100，包括：

获取模块101，用于获取企业名称样本数据；

训练模块102，用于确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

Claims

1.一种基于机器学习的企业简称生成方法，其特征在于，包括：

获取企业名称样本数据；

2.根据权利要求1所述的生成方法，其特征在于，所述确定每条企业名称样本数据的简称属性集合，包括：

确定每条企业名称样本数据所对应的企业简称；

根据所述企业简称，确定简称属性集合。

3.根据权利要求2所述的生成方法，其特征在于，所述确定每条企业名称样本数据所对应的企业简称包括：

若企业不是上市企业或者知名企业，人工设置企业简称。

4.根据权利要求3所述的生成方法，其特征在于，所述确定简称属性集合，包括：

按预设分词器的格式，对每个企业简称进行分词切割；

5.根据权利要求4所述的生成方法，其特征在于，还包括：

6.根据权利要求4所述的生成方法，其特征在于，还包括：

搜集常用中文词库作为预设分词器的基本词库；

所述常用中文词库至少包括：搜狗词库、百度词库；

7.根据权利要求3所述的生成方法，其特征在于，所述判断企业是否为上市企业或者知名企业，包括：

预存上市企业或者知名企业名单；

8.根据权利要求3所述的生成方法，其特征在于，所述舆情数据包括以下项中的至少一项：

股市、网络信息、媒体资讯、简报、评论文章、微博内容。

9.根据权利要求1～8任一项所述的生成方法，其特征在于，还包括：

10.一种基于机器学习的企业简称生成模型，其特征在于，包括：

获取模块，用于获取企业名称样本数据；

训练模块，用于确定每条企业名称样本数据的简称属性集合，将简称属性集合中的简称属性作为输入向量，输入到时间递归神经网络模型中进行训练，直至所述时间递归神经网络模型输出的企业简称符合预设标准。