CN116644745A - 一种基于公司名称的行业预测方法及设备 - Google Patents
一种基于公司名称的行业预测方法及设备 Download PDFInfo
- Publication number
- CN116644745A CN116644745A CN202310709413.6A CN202310709413A CN116644745A CN 116644745 A CN116644745 A CN 116644745A CN 202310709413 A CN202310709413 A CN 202310709413A CN 116644745 A CN116644745 A CN 116644745A
- Authority
- CN
- China
- Prior art keywords
- company name
- phrase
- word
- industries
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000001914 filtration Methods 0.000 claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000004140 cleaning Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 9
- 230000008520 organization Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本申请的目的是提供一种基于公司名称的行业预测方法及设备,通过获取待预测行业的目标公司名称;基于预设的词典库对目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到对应的初始词组集,初始词组集包括至少两个词组,预设的词典库包括至少两个预设词组及其对应的行业;基于预设的词典库对初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;基于过滤后的词组集中的每个词组对应的词组分和备选行业,得到目标公司名称对应的预设数量的预测行业及其行业分,实现了只基于具有公司名称的库来进行行业预测,逻辑易于理解且容易改进和迭代,从而满足实际监管需求。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于公司名称的行业预测方法及设备。
背景技术
现有技术中,行业分类的用途很广,最新的行业分类标准是GB/T4754-2017《国民经济行业分类》。在统计局报告和统计年鉴里,经常根据行业做统计结果。在信用卡申请时需要申请人同时提供公司名称和所在的行业,为了简化用户体验,很多申请表单简化成只需要提供公司名称,然后根据一定的方法来预测行业。
最常见的方法是调用一些企业信息查询平台(例如,天严查、企查查等)提供的接口来获取行业,该方法需要预先准备一个公司行业的数据库,再采用精确或者模糊匹配的方法来查询;还有一些是通过机器学习的方法来预测行业。
现有技术中可以通过数据库查询法和基于模型的方法来进行行业预测。其中,数据库查询法存在以下缺点:缺点一、用户输入的公司名称不一定是标准的,直接匹配得不到结果,而模糊匹配返回的结果可能和待查询的公司差异很大;缺点二、需要准备庞大的数据库,包含千万级别以上的公司信息,数据的收集成本很高;缺点三、数据库更新不一定及时,无法预测新注册的公司;缺点四、只能输出一个最可能的行业。基于模型的方法存在以下缺点:缺点一、需要收集大量有行业标记的样本数据,导致成本很高;缺点二、很多模型过于复杂,难以理解逻辑,不具有可解释性,难以满足监管对透明度的要求;缺点三、模型总是尝试给出一个预测,无法对一些不合理或者无效的公司拒绝预测。
发明内容
本申请的一个目的是提供一种基于公司名称的行业预测方法及设备,实现了只基于具有公司名称的库来进行行业预测,不需要有标记的数据,且通过过滤的方式能筛掉不合理的情况,以便输出与待预测的目标公司名称对应的预设数量的预测行业及其行业分,逻辑易于理解且容易改进和迭代,从而满足实际监管需求。
根据本申请的一个方面,提供了一种基于公司名称的行业预测方法,其中,该方法包括:
获取待预测行业的目标公司名称;
基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业;
基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;
基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分。
进一步地,上述方法中,所述基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业,包括:
对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称;
对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称;
基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组。
进一步地,上述方法中,所述对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称,包括:
对所述目标公司名称进行繁体转简体、全拼转半拼、字符级过滤、英文统一及空格处理中的一种或多种清洗处理,得到所述目标公司名称对应的第一公司名称。
进一步地,上述方法中,所述对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称,包括:
对所述第一公司名称进行中文保留处理,得到所述目标公司名称对应的第一子公司名称;
去掉所述第一子公司名称中位于末尾的组织形式,得到所述目标公司名称对应的第二子公司名称;
去掉所述第二子公司名称中包含个体户的相关信息,得到所述目标公司名称对应的第三子公司名称;
去掉所述第三子公司名称中位于名称头部的地点信息,得到所述目标公司名称对应的第二公司名称。
进一步地,上述方法中,所述基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,包括:
采用jieba库对所述第二公司名称进行分词处理,得到第一词组列表;
基于所述预设的词典库,按照在所述第一公司名称里的出现顺序,采取最短匹配的方式,提取在所述第一公司名称里出现的所有词组,得到第二词组列表;
基于所述预设的词典库,按照在所述第一公司名称里的出现顺序,采取最长匹配的方式,提取在所述第一公司名称里出现的所有词组,得到第三词组列表;
对所述第一词组列表、所述第二词组列表和所述第三词组列表进行合并后去重,得到所述目标公司名称对应的初始词组集。
进一步地,上述方法中,所述基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业,包括:
对所述初始词组集中的所有词组,只保留出现在所述预设的词典库里的词组,并为出现在所述预设的词典库里的词组匹配对应的备选行业,得到滤后的词组集,所述过滤后的词组集包括至少两个词组及每个词组对应的备选行业;
基于所述第一公司名称,计算所述过滤后的词组集中的每个词组的长度分和位置分;
基于预设权重参数和所述过滤后的词组集中的每个词组的长度分和位置分,分别计算得到过滤后的词组集中的每个词组对应的词组分
进一步地,上述方法中,所述基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分,包括:
按照不同的备选行业,基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,计算所述目标公司名称对应的不同的备选行业的行业分,其中,所述备选行业的行业分为所述过滤后的词组集中的词组映射到所述备选行业的所有词组的词组分之和;
基于所述目标公司名称对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业。
进一步地,上述方法中,所述基于所述目标公司名称对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业,包括:
基于不同的备选行业的行业分,从所述目标公司名称对应的不同的备选行业中,筛选出所述行业分最高的预设数量的备选行业,作为所述目标公司名称对应的预设数量的预测行业。
根据本申请的另一个方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于公司名称的行业预测方法。
根据本申请的另一个方面,还提供了一种基于公司名称的行业预测设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于公司名称的行业预测方法。
与现有技术相比,本申请通过获取待预测行业的目标公司名称;基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业;基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分,实现了只基于具有公司名称的库来进行行业预测,不需要有标记的数据,且通过过滤的方式能筛掉不合理的情况,以便输出与待预测的目标公司名称对应的预设数量的预测行业及其行业分,逻辑易于理解且容易改进和迭代,从而满足实际监管需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种基于公司名称的行业预测方法的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1所示,为本申请的一个方面提出的一种基于公司名称的行业预测方法的流程示意图,该方法应用于任何硬件或者软件或者编程语言都可以,只需要具备编程和运行功能,既可以在传统的服务器上实现,又可以在笔记本电脑等移动终端上实现,还可以在手机、嵌入式、芯片等具备运行程序功能的存储且移动式的设备上实现。该方法包括步骤S11、步骤S12、步骤S13和步骤S14,其中,具体包括如下步骤:
步骤S11,获取待预测行业的目标公司名称;在此,所述目标公司名称既可以是输入的,也可以是直接从第三方获取,当然,用户提供的目标公司名称的公司形式不仅多变还质量不一。
步骤S12,基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业;
需要说明的是,所述预设的词典库存储于词典模块,主要包括不同的预设词组及其对应的行业,该行业包括但不限于包括《国民经济行业分类》中的门类,主要包含20个行业,分别为:农、林、牧、渔业,采矿业,制造业,电力、热力、燃气机水生产和供应业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,信息传输、软件和信息技术服务业,金融业,房地产业,租赁和商务服务业,租赁和商务服务业,科学研究和技术服务业,公共,水利、环境和公共设施管理业,居民服务、修理和其他服务业,教育,卫生和社会工作,文化、体育和娱乐业,公共管理、社会保障和社会组织及国际组织。在本申请一优选实施例中,可以通过部分例举的方式对预设的词典库进行进一步解释,如表1所示,为任意预设词组及其对应的行业之间的映射关系。
在步骤S12中,对所述目标公司名称进行的清洗处理在清洗模块中实现,以提高用户输入的目标公司名称的数据质量和标准化程度;对所述目标公司名称进行的文字过滤处理在拒绝模块中实现,主要用于对清洗后的公司名称做进一步数据处理,且根据处理情况来判断数据质量,及时给出是否拒绝对目标公司名称进行对应预测行业的预测,以筛掉不合理的公司名称的行业预测;对所述目标公司名称进行的分词处理在分词模块中进行,主要采用jieba库和预设的词典库来对文字过滤处理后的公司名称进行进一步的分词处理,从而实现对目标公司名称的清洗、文字过滤及分词处理。
表1一优选实施例中的预设词组与对应的行业之间的映射关系
预设词组 | 行业 |
学校 | 教育 |
银行 | 金融业 |
酒店 | 住宿和餐饮业 |
百货 | 批发和零售业 |
信息技术 | 信息传输、软件和信息技术服务业 |
步骤S13,基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;在此,所述备选行业包括至少一个。
步骤S14,基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分。在此,所述预设数量包括一个或多个,比如N个,其中,N为大于等于1的正整数。
通过上述步骤S11至步骤S14,实现了只基于具有公司名称的库来进行行业预测,不需要有标记的数据,且通过过滤的方式能筛掉不合理的情况,以便输出与待预测的目标公司名称对应的预设数量的预测行业及其行业分,逻辑易于理解且容易改进和迭代,从而满足实际监管需求。
例如,在本申请一优选实施例中,在步骤S11中获取的待预测行业的目标公司名称C;在步骤S12中基于预设的词典库D1,对所述目标公司名称C依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集T1,所述初始词组集T1包括至少两个词组,其中,所述预设的词典库D1包括至少两个预设词组及其对应的行业;在步骤S13中基于所述预设的词典库D1对所述初始词组集T1中的所有词组进行过滤,并计算过滤后的词组集T2中的每个词组对应的词组分和备选行业;最后在步骤S14中基于所述过滤后的词组集T2中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量:N个的预测行业及其行业分,实现只基于具有公司名称的库来进行行业预测,不需要有标记的数据,且通过过滤的方式能筛掉不合理的情况,以便输出与待预测的目标公司名称对应的预设数量的预测行业及其行业分,逻辑易于理解且容易改进和迭代,从而满足实际监管需求。
接着本申请的上述实施例,所述步骤S12基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业,具体包括:
对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称;
对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称;
基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组。
在本申请一优选实施例中,在对目标公司名称C依序进行清洗处理、文字过滤处理及分词处理的过程中,首在清洗模块中对所述目标公司名称C进行清洗处理,得到所述目标公司名称C清洗后对应的第一公司名称C1;然后在拒绝模块中对所述第一公司名称C1进行文字过滤处理,以过滤掉公司名称中的不合理的内容,拒绝对不合理的公司名称的行业预测,以得到所述目标公司名称对应的第二公司名称C2;最后在分词模块基于所述预设的词典库D1,对所述第一公司名称C1和所述第二公司名称C2分别进行分词处理,得到所述目标公司名称C对应的初始词组集T1,所述词组集包括至少两个词组,实现对目标公司名称C的清洗、文字过滤及分词处理。
接着本申请的上述实施例,所述步骤S12中的对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称,具体包括:
对所述目标公司名称进行繁体转简体、全拼转半拼、字符级过滤、英文统一及空格处理中的一种或多种清洗处理,得到所述目标公司名称对应的第一公司名称。
在本申请一优选实施例中,由于提供的目标公司名称形式多变,质量不一,需要在清洗模块中对输入的目标公司名称C进行清洗得到对应的第一公司名称C1,以提高数据质量和标准化程度,具体清洗处理的方式包括以下至少任一项:
繁体转简的清洗处理,比如,有些公司的名称是繁体形式,需要转成简体形式,以统一文字标准。
全拼转半拼的清洗处理,比如,有些公司在输入时采取用全拼方式,需要转成半拼形式,以统一拼写形式。
字符级过滤的清洗处理,比如,只保留中文、英文、数字、空格,删除掉无关的字符,可以提高数据质量。
英文统一的清洗处理,比,将英文统一转成小写形式。
空格处理的清洗处理,比如,去掉多余的空格以及中文之间的空格,以提高后续继进行分词处理时进行的中文分词的效果。
接着本申请的上述实施例,所述步骤S12中的对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称,具体包括:
对所述第一公司名称进行中文保留处理,得到所述目标公司名称对应的第一子公司名称;
去掉所述第一子公司名称中位于末尾的组织形式,得到所述目标公司名称对应的第二子公司名称;
去掉所述第二子公司名称中包含个体户的相关信息,得到所述目标公司名称对应的第三子公司名称;
去掉所述第三子公司名称中位于名称头部的地点信息,得到所述目标公司名称对应的第二公司名称。
在本申请一优选实施例中,对清洗后得到的第一公司名称C1需要做进一步的文字过滤处理,以及时给出拒绝预测,具体包括如下步骤:
若第一公司名称C1为空,则拒绝进行对应的行业预测,给出拒绝预测的原因码为空字符。
若第一公司名称C1不为空,则保留第一公司名称C1里的中文,得到目标公司名称C对应的第一子公司名称C11。
其中,若第一子公司名称C11为空,则进行对应的行业预测,给出拒绝预测的原因码为无中文。
计算第一子公司名称C11的长度为n1,同时计第一子公司名称C11里唯一的中文字符数为n2;然后,计算第一子公司名称C11的中文唯一率r1=n2/n1,若r1小于一个预设中文唯一率阈值(该中文唯一率阈值可以是0至1之间的任意取值,在本申请一优选实施例中,可以优选所述中文唯一率阈值为0.3),则拒绝进行对应的行业预测,给出拒绝预测的原因码为重复中文。
去掉第一子公司名称C11里的位于末尾的组织形式,得到所述目标公司名称C对应的第三子公司名称C12。在此,主要基于关键字匹配,匹配时有遇到多个匹配情况时,按照最长的关键字匹配,比如,在本申请一优选实施例中,关键字包括但不限于有公司、分公司、总公司、个体独资企业、合资企业、国有企业、国有公司、国有独资公司、普通合伙、普通合伙公司、有限公司、有限合伙企业、有限责任公司、股份制、股份制公司、股份制有限责任公司、集团、集团有限公司、集团控股有限责任公司及集团股份有限责任公司等。
去掉第三子公司名称C12里包含个体户的相关信息,得到所述目标公司名称C对应的第三子公司名称C13。在此,基于最长关键词匹配,比如,在本申请一优选实施例中,关键词包括但不不限于有个体户、个体商户、个体私营、个体私营业户、个体经营、个体户经营及个体工商户经营等。
去第三子公司名称C13里位于名称头部的地点信息,得到所述目标公司名称C对应的第二公司名称C2。在此,一方面通过特殊词匹配,例如xx省、xx市、xx区、xx镇、xx乡等;另一方面,通过关键词匹配,包含所有的省、市的名字,例如北京、上海、新疆、南京、江苏及无锡等,所述地点信息可以包括但不限于从统计局的统计用区划和城乡划分代码里获取到。
需要说明的是,所述目标公司名称C对应的第二公司名称C2主要包含企业的字号和行业,若第二公司名称C2为空,则拒绝进行对应的行业预测,给出拒绝预测的原因码为无内容;若第二公司名称C2在拒绝预测名单里,则拒绝进行对应的行业预测,给出拒绝预测的原因码为不预测,其中,拒绝预测名单中的信息包括但不限于:退休、退休人员、离退休人员、居家、居家办公、待业中、在家待业、失业中、在家失业、全职、创业、自主创业、自主经营、不知道、不清楚、不想说、不告诉你、不说、无、空白、没有及保密等,该拒绝预测名单中的信息由用户提供的,但不是一个有效的公司名称,因此拒绝预测。
若第二公司名称C2的长度小于3且第一个字符是一个百家姓,则拒绝进行对应的行业预测,给出拒绝预测的原因码为姓名。
若第二公司名称C2的长度小于4且前二个字符是一个百家姓,则拒绝进行对应的行业预测,给出拒绝预测的原因码为姓名。
接着本申请的上述实施例,所述步骤S12中的基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,具体包括:
采用jieba库对所述第二公司名称进行分词处理,得到第一词组列表;
基于所述预设的词典库,按照在所述第一公司名称里的出现顺序,采取最短匹配的方式,提取在所述第一公司名称里出现的所有词组,得到第二词组列表;
基于所述预设的词典库,按照在所述第一公司名称里的出现顺序,采取最长匹配的方式,提取在所述第一公司名称里出现的所有词组,得到第三词组列表;
对所述第一词组列表、所述第二词组列表和所述第三词组列表进行合并后去重,得到所述目标公司名称对应的初始词组集。
在本申请一优选实施例中,基于所述预设的词典库D1对所述第一公司名称C1和所述第二公司名称C2分别进行分词处理的过程中,
对所述第二公司名称C2采用jieba库进行分词处理,得到第一词组列表L1;在此,基于第二公司名称C2进行分词处理的原因是由于地址和组织形式对于预测行业不重要。
对所述第一公司名称C1,基于所述预设的词典库D1里的预设词组,按照在所述第一公司名称C1里的出现顺序,采取最短匹配,提取在所述第一公司名称C1里出现的所有词组,得到第二词组列表L2;在此,基于所述第一公司名称C1进行分词处理的原因是防止前面去掉组织形式或者地址时去掉了多余的信息从而导致信息丢失。
对所述第一公司名称C1,基于所述预设的词典库D1里的预设词组,按照在所述第一公司名称C1里的出现顺序,采取最长匹配,提取在所述第一公司名称C1里出现的所有词组,得到第三词组列表L3。
合并所述第一词组列表L1、所述第二词组列表L2和所述第三词组列表L3后,进行去重,得到所述目标公司名称C对应的初始词组集T1,其中,所述初始词组集T1是无序的。
比如,本申请一优选的实施例(仅限于词组列表得到初始词组集的举例的解释)中,若一个目标公司名称为北京生物医疗公司,假定词典库中的预设词组有生物、医疗、生物医疗,则第一词组列表L1为:北京、生物、医疗、公司,第二词组列表L2为:生物、医疗,第三词组列表L3为:生物医疗,对第一词组列表L1、第二词组列表L2和第三词组列表L3为进行合并去重后,得到初始词组集T1为:北京、生物、医疗、生物医疗、公司。
接着本申请的上述实施例,所述步骤S13基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业,具体包括:
对所述初始词组集中的所有词组,只保留出现在所述预设的词典库里的词组,并为出现在所述预设的词典库里的词组匹配对应的备选行业,得到滤后的词组集,所述过滤后的词组集包括至少两个词组及每个词组对应的备选行业;
基于所述第一公司名称,计算所述过滤后的词组集中的每个词组的长度分和位置分;
基于预设权重参数和所述过滤后的词组集中的每个词组的长度分和位置分,分别计算得到过滤后的词组集中的每个词组对应的词组分。在此,所述预设权重参数由用户预设或提供,位于0到1之间。
在本申请一优选实施例中,在打分模块中对初始词组集T1进行分词处理的过程中,首先,对所述初始词组集T1中的每个词组,进行只保留出现在所述预设的词典库D1里的词组,由于保留的出现在预设的词典库D1中的词组对应有匹配的备选行业,故而,还为出现在所述预设的词典库里的词组匹配对应的备选行业,得到滤后的词组集T2,是一个新的词组集,该过滤后的词组集T2中不仅包括初始词组集T1中的、出现在预设的词典库D1中的词组,还包括出现在的词典库D1中的每个词组对应的备选行业,实现对初始词组集的过滤;然后,基于所述目标公司名称C对应的第一公司名称C1,计算所述过滤后的词组集T2中的每个词组的长度分和位置分,其中,所述过滤后的词组集T2中的每个词组的长度分的计算方式为:计算词组中包含字符的个数,再除以第一公司名称C1的长度得到长度分(长度分在0和1之间),在此,词组的长度越长,指示重要性就越高,所述过滤后的词组集T2中的每个词组的位置分的计算方式为:找到词组在第一公司名称C1里首次出现的位置,再除以第一公司名称C1的长度得到位置分(位置分在0和1之间),位置越靠后,指示重要性越高;最后,基于预设权重参数w和所述过滤后的词组集中的每个词组的长度分和位置分,分别计算得到过滤后的词组集中的每个词组对应的词组分,其中,计算得到过滤后的词组集中的每个词组对应的词组分的具体公式为:
w*长度分+(1-w)*位置分
其中,在本申请一优选实施例中,可以将所述预设权重参数w优选为大于0.5,因为长度的作用更大。
接着本申请的上述实施例,所述步骤S14基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分,具体包括:
按照不同的备选行业,基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,计算所述目标公司名称对应的不同的备选行业的行业分,其中,所述备选行业的行业分为所述过滤后的词组集中的词组映射到所述备选行业的所有词组的词组分之和;
基于所述目标公司名称对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业。
在本申请一优选实施例中,对每个过滤后的词组集T2里的每个词组,根据预设的词典库D1找到对应的备选行业,由于不同的词组可能映射到相同的行业,因此,在获取到过滤后的词组集T2中的每个词组对应的词组分和备选行业后,为了计算得到每个备选行业对应的行业分,对每个不同的备选行业进行如下操作:搜集所述过滤后的词组集T2中的匹配到所述备选行业对应的词组,将映射至同一备选行业下的所有词组的词组分进行求和计算,得到的值即为该备选行业的行业分,即一个行业的行业分为映射到该行业的所有词组的词组分之和;然后,基于所述目标公司名称C对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业,实现对目标公司名称对应的预设数量的预测行业及其行业分的计算和确定。
接着本申请的上述实施例,所述步骤S14中的基于所述目标公司名称对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业,具体包括:
基于不同的备选行业的行业分,从所述目标公司名称对应的不同的备选行业中,筛选出所述行业分最高的预设数量的备选行业,作为所述目标公司名称对应的预设数量的预测行业。
在本申请一优选实施例中,若在步骤S14中计算得到的所述目标公司名称C对应的不同的备选行业为P个,其中,P为大于等于1的正整数,且分别为备选行业1、备选行业2、……、备选行业(P-1)及备选行业P,P个备选行业的行业分依序分别为:行业分Score1、行业分Score2、……、行业分Score(P-1)和ScoreP,为了对目标公司名称C进行最接近的行业的预测,按照行业分从高到低的顺序,对P个备选行业进行排序,筛选出行业分最高的N个备选行业,其中,N为大于等于1的正整数,且N小于等于P,并将筛选出的行业分最高的N个备选行业作为所述目标公司名称C对应的预测行业,每个预测行业对应的行业分亦为备选行业对应的行业分,从而实现对目标公司名称C对应的预测行业的筛选和确定。
在本申请的实施例中,所述拒绝模块用于拒绝掉一些因为数据质量不高无法预测或者不需要预测的情况;所述分词模块融合了jieba库的分词和关键词匹配来避免单一分词导致的误差;所述打分模块融合了词组的长度和位置信息,可以给出多个行业和对应的行业分。
根据本申请的另一方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述的基于公司名称的行业预测方法。
根据本申请的另一方面,还提供了一种基于公司名称的行业预测设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于公司名称的行业预测方法。
在此,所述基于公司名称的行业预测设备中的各实施例的详细内容,具体可参见上述的基于公司名称的行业预测方法实施例的对应部分,在此,不再赘述。
综上所述,本申请通过获取待预测行业的目标公司名称;基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业;基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分,实现了只基于具有公司名称的库来进行行业预测,不需要有标记的数据,且通过过滤的方式能筛掉不合理的情况,以便输出与待预测的目标公司名称对应的预设数量的预测行业及其行业分,逻辑易于理解且容易改进和迭代,从而满足实际监管需求。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种基于公司名称的行业预测方法,其中,该方法包括:
获取待预测行业的目标公司名称;
基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业;
基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业;
基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分。
2.根据权利要求1所述的方法,其中,所述基于预设的词典库,对所述目标公司名称依序进行清洗处理、文字过滤处理及分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组,其中,所述预设的词典库包括至少两个预设词组及其对应的行业,包括:
对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称;
对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称;
基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述词组集包括至少两个词组。
3.根据权利要求2所述的方法,其中,所述对所述目标公司名称进行清洗处理,得到所述目标公司名称对应的第一公司名称,包括:
对所述目标公司名称进行繁体转简体、全拼转半拼、字符级过滤、英文统一及空格处理中的一种或多种清洗处理,得到所述目标公司名称对应的第一公司名称。
4.根据权利要求3所述的方法,其中,所述对所述第一公司名称进行文字过滤处理,得到所述目标公司名称对应的第二公司名称,包括:
对所述第一公司名称进行中文保留处理,得到所述目标公司名称对应的第一子公司名称;
去掉所述第一子公司名称中位于末尾的组织形式,得到所述目标公司名称对应的第二子公司名称;
去掉所述第二子公司名称中包含个体户的相关信息,得到所述目标公司名称对应的第三子公司名称;
去掉所述第三子公司名称中位于名称头部的地点信息,得到所述目标公司名称对应的第二公司名称。
5.根据权利要求4所述的方法,其中,所述基于所述预设的词典库,对所述第一公司名称和所述第二公司名称分别进行分词处理,得到所述目标公司名称对应的初始词组集,所述初始词组集包括至少两个词组,包括:
采用jieba库对所述第二公司名称进行分词处理,得到第一词组列表;
基于所述预设的词典库,按照在所述第一公司名称里的出现顺序,采取最短匹配的方式,提取在所述第一公司名称里出现的所有词组,得到第二词组列表;
基于所述预设的词典库,按照在所述第一公司名称里的出现顺序,采取最长匹配的方式,提取在所述第一公司名称里出现的所有词组,得到第三词组列表;
对所述第一词组列表、所述第二词组列表和所述第三词组列表进行合并后去重,得到所述目标公司名称对应的初始词组集。
6.根据权利要求5所述的方法,其中,所述基于所述预设的词典库对所述初始词组集中的所有词组进行过滤,并计算过滤后的词组集中的每个词组对应的词组分和备选行业,包括:
对所述初始词组集中的所有词组,只保留出现在所述预设的词典库里的词组,并为出现在所述预设的词典库里的词组匹配对应的备选行业,得到滤后的词组集,所述过滤后的词组集包括至少两个词组及每个词组对应的备选行业;
基于所述第一公司名称,计算所述过滤后的词组集中的每个词组的长度分和位置分;
基于预设权重参数和所述过滤后的词组集中的每个词组的长度分和位置分,分别计算得到过滤后的词组集中的每个词组对应的词组分。
7.根据权利要求6所述的方法,其中,所述基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,得到所述目标公司名称对应的预设数量的预测行业及其行业分,包括:
按照不同的备选行业,基于所述过滤后的词组集中的每个词组对应的词组分和备选行业,计算所述目标公司名称对应的不同的备选行业的行业分,其中,所述备选行业的行业分为所述过滤后的词组集中的词组映射到所述备选行业的所有词组的词组分之和;
基于所述目标公司名称对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业。
8.根据权利要求7所述的方法,其中,所述基于所述目标公司名称对应的不同的备选行业的行业分,确定所述目标公司名称对应的预设数量的预测行业,包括:
基于不同的备选行业的行业分,从所述目标公司名称对应的不同的备选行业中,筛选出所述行业分最高的预设数量的备选行业,作为所述目标公司名称对应的预设数量的预测行业。
9.一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如权利要求1至8中任一项所述的方法。
10.一种基于公司名称的行业预测设备,其中,该设备包括:
一个或多个处理器;
计算机可读介质,用于存储一个或多个计算机可读指令,
当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310709413.6A CN116644745A (zh) | 2023-06-14 | 2023-06-14 | 一种基于公司名称的行业预测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310709413.6A CN116644745A (zh) | 2023-06-14 | 2023-06-14 | 一种基于公司名称的行业预测方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116644745A true CN116644745A (zh) | 2023-08-25 |
Family
ID=87643382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310709413.6A Pending CN116644745A (zh) | 2023-06-14 | 2023-06-14 | 一种基于公司名称的行业预测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644745A (zh) |
-
2023
- 2023-06-14 CN CN202310709413.6A patent/CN116644745A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220284017A1 (en) | Systems and methods for rapid data analysis | |
US11455301B1 (en) | Method and system for identifying entities | |
CN111831629B (zh) | 一种数据处理方法及装置 | |
CN111538794B (zh) | 一种数据融合方法、装置及设备 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN110263022B (zh) | 酒店数据匹配方法及装置 | |
CN111159184A (zh) | 元数据追溯方法、装置及服务器 | |
CN114004694A (zh) | 一种基于舆情信息的企业风险预警方法、设备及介质 | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN110019542B (zh) | 企业关系的生成、生成组织成员数据库及识别同名成员 | |
KR20210033294A (ko) | 자동보고서생성장치 및 그 동작 방법 | |
CN101963993B (zh) | 一种数据库单表记录快速查找的方法 | |
CN112241458B (zh) | 文本的知识结构化处理方法、装置、设备和可读存储介质 | |
CN103226601A (zh) | 一种图片搜索的方法和装置 | |
CN114741368A (zh) | 基于人工智能的日志数据统计方法及相关设备 | |
CN112363996B (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN116611914A (zh) | 一种基于分组统计的薪资预测方法及设备 | |
CN116644745A (zh) | 一种基于公司名称的行业预测方法及设备 | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
CN114519529A (zh) | 基于卷积自编码器的企业信用评级方法、设备及介质 | |
US11775757B2 (en) | Automated machine-learning dataset preparation | |
CN113742344A (zh) | 电力系统数据的索引方法及装置 | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
CN116522901B (zh) | It社群的关注信息的分析方法、装置、设备和介质 | |
KR20230092048A (ko) | 사업자 정보 수집 시스템 및 방법과 이를 위한 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |