CN110750700A - 一种基于机器学习的企业简称生成方法及模型 - Google Patents

一种基于机器学习的企业简称生成方法及模型 Download PDF

Info

Publication number
CN110750700A
CN110750700A CN201911035061.0A CN201911035061A CN110750700A CN 110750700 A CN110750700 A CN 110750700A CN 201911035061 A CN201911035061 A CN 201911035061A CN 110750700 A CN110750700 A CN 110750700A
Authority
CN
China
Prior art keywords
enterprise
short
sample data
abbreviation
attribute set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911035061.0A
Other languages
English (en)
Inventor
王健
田伟利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongshu Zhihui Technology Co Ltd
Original Assignee
Beijing Zhongshu Zhihui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongshu Zhihui Technology Co Ltd filed Critical Beijing Zhongshu Zhihui Technology Co Ltd
Priority to CN201911035061.0A priority Critical patent/CN110750700A/zh
Publication of CN110750700A publication Critical patent/CN110750700A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于机器学习的企业简称生成方法及模型,该方法包括:获取企业名称样本数据;确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。本发明提供的技术方案,通过获取企业名称样本数据,确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准,从而实现了企业简称的自动生成,为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础,用户体验度好、满意度高。

Description

一种基于机器学习的企业简称生成方法及模型
技术领域
本发明涉及大数据技术领域,具体涉及一种基于机器学习的企业简称生成方法及模型。
背景技术
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的信息数据分析,而信息分析的价值在于敏锐和准确,敏锐的分析要求及时快速地发现新的信息。但是直接从网页上获取到数据大部分都是非结构化的,为了使用这些数据,数据清洗工作成为了各个大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取,特别是命名实体的提取又是经常发生的事情,比如企业征信,最常见的任务就是从大篇幅文本当中提取公司的名字。
借助企业简称对企业进行快速定位和关键信息抽取将直接有助于对整个企业,乃至整个行业的发展与动态进行深入挖掘和分析。此外,做企业数据分析相关的公司也日渐繁多,工商登记的企业并没有要求填写企业简称字段,想要在企业数据上补充简称字段就需要有可用的企业简称生产方案。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于机器学习的企业简称生成方法及模型,以实现企业简称的自动生成。
为实现以上目的,本发明采用如下技术方案:
一种基于机器学习的企业简称生成方法,包括:
获取企业名称样本数据;
确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
优选地,所述确定每条企业名称样本数据的简称属性集合,包括:
确定每条企业名称样本数据所对应的企业简称;
根据所述企业简称,确定简称属性集合。
优选地,所述确定每条企业名称样本数据所对应的企业简称包括:
根据所述企业名称样本数据,判断企业是否为上市企业或者知名企业;
若企业是上市企业或者知名企业,从舆情数据中提取企业简称;
若企业不是上市企业或者知名企业,人工设置企业简称。
优选地,所述确定简称属性集合,包括:
按预设分词器的格式,对每个企业简称进行分词切割;
人工标注分词切割后得到的每个词段的简称属性,并将所述简称属性添加到简称属性集合中。
优选地,所述方法,还包括:
人工标注企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中;和/或,
联网抓取企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中。
优选地,所述方法,还包括:
搜集常用中文词库作为预设分词器的基本词库;
所述常用中文词库至少包括:搜狗词库、百度词库;
分词切割后得到的词段,至少包括:地区词、核心词、行业词、企业后缀。
优选地,所述判断企业是否为上市企业或者知名企业,包括:
预存上市企业或者知名企业名单;
若能从预存的上市企业或者知名企业名单中匹配出企业名称样本数据,则判定企业名称样本数据所对应的企业是上市企业或者知名企业。
优选地,所述舆情数据包括以下项中的至少一项:
股市、网络信息、媒体资讯、简报、评论文章、微博内容。
优选地,所述获取企业名称样本数据,包括:
人工选取不同地区或者不同行业的企业名称样本数据;和/或,
联网抓取不同地区或者不同行业的企业名称样本数据。
优选地,所述方法,还包括:
选取非样本里的企业名称数据验证所述时间递归神经网络模型的准确率,若所述准确率未达到预设标准,则调整所述时间递归神经网络模型的训练层数,和/或,增加所述企业名称样本数据的数量,以提高所述时间递归神经网络模型的准确率。
另外,本发明还提出了一种基于机器学习的企业简称生成模型,包括:
获取企业名称样本数据;
确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
本发明采用以上技术方案,至少具备以下有益效果:
通过获取企业名称样本数据,确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准,从而实现了企业简称的自动生成,为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础,用户体验度好、满意度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于机器学习的企业简称生成方法的流程图;
图2为本发明另一实施例提供的一种基于机器学习的企业简称生成方法的流程图;
图3为本发明一实施例提供的一种基于机器学习的企业简称生成模型的示意框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
参见图1,本发明一实施例提供的一种基于机器学习的企业简称生成方法,包括:
步骤S11、获取企业名称样本数据;
步骤S12、确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
可以理解的是,本实施例提供的技术方案,通过获取企业名称样本数据,确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准,从而实现了企业简称的自动生成,为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础,用户体验度好、满意度高。
优选地,所述获取企业名称样本数据,包括:
人工选取不同地区或者不同行业的企业名称样本数据;和/或,
联网抓取不同地区或者不同行业的企业名称样本数据。
可以理解的是,选取不同地区或者不同行业的企业名称样本数据,可以增大样本数据的多样性和覆盖广泛性,使得训练得到的模型更精准。
优选地,所述确定每条企业名称样本数据的简称属性集合,包括:
确定每条企业名称样本数据所对应的企业简称;
根据所述企业简称,确定简称属性集合。
优选地,所述确定每条企业名称样本数据所对应的企业简称包括:
根据所述企业名称样本数据,判断企业是否为上市企业或者知名企业;
若企业是上市企业或者知名企业,从舆情数据中提取企业简称;
若企业不是上市企业或者知名企业,人工设置企业简称。
优选地,所述判断企业是否为上市企业或者知名企业,包括:
预存上市企业或者知名企业名单;
若能从预存的上市企业或者知名企业名单中匹配出企业名称样本数据,则判定企业名称样本数据所对应的企业是上市企业或者知名企业。
优选地,所述舆情数据包括以下项中的至少一项:
股市、网络信息、媒体资讯、简报、评论文章、微博内容。
可以理解的是,本实施例提供的技术方案,操作简单、部署实施容易,用户体验度好、满意度高。
优选地,所述确定简称属性集合,包括:
按预设分词器的格式,对每个企业简称进行分词切割;
人工标注分词切割后得到的每个词段的简称属性,并将所述简称属性添加到简称属性集合中。
优选地,所述方法,还包括:
搜集常用中文词库作为预设分词器的基本词库;
所述常用中文词库至少包括:搜狗词库、百度词库;
分词切割后得到的词段,至少包括:地区词、核心词、行业词、企业后缀。
以公司名称为“珠海格力电器股份有限公司”为例,分词切割后,可以得到表一所示的多个词段:
地区词 核心词 行业词 企业后缀
珠海 格力 电器 股份有限公司
表一
以公司名称为“京东方科技集团”为例,分词切割后,可以得到表二所示的多个词段:
地区词 核心词 行业词 企业后缀
京东方 科技 集团
表二
优选地,所述方法,还包括:
人工标注企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中;和/或,
联网抓取企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中。
需要说明的是,企业全称的读音、注册行业可以人工标注,也可以联网后,从工商登记网站获取。
可以理解的是,企业全称一般6到10字,想要给所有企业名称都生成一个辨识度高、和企业全称关联强的简称,就需要为训练模型输入更多的简称属性,输入的简称属性越多,得到的训练结果越准确。
优选地,所述方法,还包括:
选取非样本里的企业名称数据验证所述时间递归神经网络模型的准确率,若所述准确率未达到预设标准,则调整所述时间递归神经网络模型的训练层数,和/或,增加所述企业名称样本数据的数量,以提高所述时间递归神经网络模型的准确率。
需要说明的是,所述预设标准人工设置。可以理解的是,本实施例提供的技术方案,在模型训练完成后,还有一个对训练模型优化完善的过程,从而保证了企业简称生成的准确率,用户体验度好、满意度高。
参见图2,本发明另一实施例提供的一种基于机器学习的企业简称生成方法,包括:
步骤S21、获取企业名称样本数据;
步骤S22、根据所述企业名称样本数据,判断企业是否为上市企业或者知名企业;
步骤S23、若企业是上市企业或者知名企业,从舆情数据中提取企业简称;若企业不是上市企业或者知名企业,人工设置企业简称;
步骤S24、按预设分词器的格式,对每个企业简称进行分词切割;
步骤S25、人工标注分词切割后得到的每个词段的简称属性,并将所述简称属性添加到简称属性集合中;
步骤S26、人工标注企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中;和/或,联网抓取企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中;
步骤S27、将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
可以理解的是,本实施例提供的技术方案,通过获取企业名称样本数据,确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准,从而实现了企业简称的自动生成,为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础,用户体验度好、满意度高。
另外,参见图3,本发明还提出了一种基于机器学习的企业简称生成模型100,包括:
获取模块101,用于获取企业名称样本数据;
训练模块102,用于确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
可以理解的是,本实施例提供的技术方案,通过获取企业名称样本数据,确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准,从而实现了企业简称的自动生成,为借助企业简称对企业进行快速定位和关键信息抽取奠定了基础,用户体验度好、满意度高。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。

Claims (10)

1.一种基于机器学习的企业简称生成方法,其特征在于,包括:
获取企业名称样本数据;
确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
2.根据权利要求1所述的生成方法,其特征在于,所述确定每条企业名称样本数据的简称属性集合,包括:
确定每条企业名称样本数据所对应的企业简称;
根据所述企业简称,确定简称属性集合。
3.根据权利要求2所述的生成方法,其特征在于,所述确定每条企业名称样本数据所对应的企业简称包括:
根据所述企业名称样本数据,判断企业是否为上市企业或者知名企业;
若企业是上市企业或者知名企业,从舆情数据中提取企业简称;
若企业不是上市企业或者知名企业,人工设置企业简称。
4.根据权利要求3所述的生成方法,其特征在于,所述确定简称属性集合,包括:
按预设分词器的格式,对每个企业简称进行分词切割;
人工标注分词切割后得到的每个词段的简称属性,并将所述简称属性添加到简称属性集合中。
5.根据权利要求4所述的生成方法,其特征在于,还包括:
人工标注企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中;和/或,
联网抓取企业全称的读音、注册行业,并将所述企业全称的读音、注册行业作为简称属性添加到简称属性集合中。
6.根据权利要求4所述的生成方法,其特征在于,还包括:
搜集常用中文词库作为预设分词器的基本词库;
所述常用中文词库至少包括:搜狗词库、百度词库;
分词切割后得到的词段,至少包括:地区词、核心词、行业词、企业后缀。
7.根据权利要求3所述的生成方法,其特征在于,所述判断企业是否为上市企业或者知名企业,包括:
预存上市企业或者知名企业名单;
若能从预存的上市企业或者知名企业名单中匹配出企业名称样本数据,则判定企业名称样本数据所对应的企业是上市企业或者知名企业。
8.根据权利要求3所述的生成方法,其特征在于,所述舆情数据包括以下项中的至少一项:
股市、网络信息、媒体资讯、简报、评论文章、微博内容。
9.根据权利要求1~8任一项所述的生成方法,其特征在于,还包括:
选取非样本里的企业名称数据验证所述时间递归神经网络模型的准确率,若所述准确率未达到预设标准,则调整所述时间递归神经网络模型的训练层数,和/或,增加所述企业名称样本数据的数量,以提高所述时间递归神经网络模型的准确率。
10.一种基于机器学习的企业简称生成模型,其特征在于,包括:
获取模块,用于获取企业名称样本数据;
训练模块,用于确定每条企业名称样本数据的简称属性集合,将简称属性集合中的简称属性作为输入向量,输入到时间递归神经网络模型中进行训练,直至所述时间递归神经网络模型输出的企业简称符合预设标准。
CN201911035061.0A 2019-10-29 2019-10-29 一种基于机器学习的企业简称生成方法及模型 Pending CN110750700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911035061.0A CN110750700A (zh) 2019-10-29 2019-10-29 一种基于机器学习的企业简称生成方法及模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911035061.0A CN110750700A (zh) 2019-10-29 2019-10-29 一种基于机器学习的企业简称生成方法及模型

Publications (1)

Publication Number Publication Date
CN110750700A true CN110750700A (zh) 2020-02-04

Family

ID=69280675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911035061.0A Pending CN110750700A (zh) 2019-10-29 2019-10-29 一种基于机器学习的企业简称生成方法及模型

Country Status (1)

Country Link
CN (1) CN110750700A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814479A (zh) * 2020-07-09 2020-10-23 上海明略人工智能(集团)有限公司 一种企业简称生成及其模型的训练方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975455A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向递归神经网络的信息分析系统
CN105975555A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 一种基于双向递归神经网络的企业简称提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814479A (zh) * 2020-07-09 2020-10-23 上海明略人工智能(集团)有限公司 一种企业简称生成及其模型的训练方法及装置
CN111814479B (zh) * 2020-07-09 2023-08-25 上海明略人工智能(集团)有限公司 一种企业简称生成及其模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
US8688690B2 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN106844352B (zh) 基于神经机器翻译系统的单词预测方法及系统
CN102254038B (zh) 一种分析网络评论相关度的系统及其分析方法
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
WO2019141109A1 (zh) 内容推荐方法及装置
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN102779114A (zh) 利用自动规则生成的非结构化数据支持
CN103838754A (zh) 信息搜索装置及方法
CN103714132B (zh) 一种用于基于地域和行业进行热点事件挖掘的方法和设备
CN113450147B (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN109508458A (zh) 法律实体的识别方法及装置
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN107741933A (zh) 用于检测文本的方法和装置
Nirmala et al. Twitter data analysis for unemployment crisis
CN110750700A (zh) 一种基于机器学习的企业简称生成方法及模型
CN111460119B (zh) 经济知识智能问答方法、系统及智能设备
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN116881395A (zh) 一种舆情信息检测方法和装置
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
CN105138520B (zh) 一种事件触发词识别方法及装置
KR101487871B1 (ko) 온라인 기반의 위기관리 대응 매뉴얼 자동 생성장치
Cho et al. Credibility evaluation and results with leader-weight in opinion mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200204

RJ01 Rejection of invention patent application after publication