CN114722819B - 一种实体类型分类识别方法、装置、设备和介质 - Google Patents
一种实体类型分类识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN114722819B CN114722819B CN202210141678.6A CN202210141678A CN114722819B CN 114722819 B CN114722819 B CN 114722819B CN 202210141678 A CN202210141678 A CN 202210141678A CN 114722819 B CN114722819 B CN 114722819B
- Authority
- CN
- China
- Prior art keywords
- code
- entity
- regular
- category
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000014509 gene expression Effects 0.000 claims abstract description 69
- 238000013145 classification model Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 31
- 108091026890 Coding region Proteins 0.000 claims description 25
- 230000002159 abnormal effect Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008520 organization Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000007812 deficiency Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种实体类型分类识别方法、装置、设备和介质,涉及人工智能领域,包括:获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种实体类型分类识别方法、装置、设备和介质。
背景技术
随着我国各行业全面进行数据化转型,宏观方面对产业行业研究,微观层面对企事业单位、社会组织进行研究,都需要对经济实体进行性质的分类,随着社会统一信用代码的广泛应用,也可通过社会统一信用代码获取实体类型,但针对较早期的企业以及具有地域差异的企业,存在统一社会信用代码缺失的问题。传统方法往往依赖于海量的企业数据进行模型训练,模型训练复杂且精度不足,在企业划型方式发生变化时,重新训练模型费时费力,难以适应行业的发展变化。在实体分类方面缺少有效的规则和办法,难以针对诸如海外企业、统一社会信用代码缺失的企业和数据进行准确灵活的分类。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种实体类型分类识别方法、装置、设备和介质,主要解决现有方案针对统一社会信用代码缺失的企业数据难以进行准确实体分类的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种实体类型分类识别方法,包括:
获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;
从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;
根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
可选地,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括:
构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;
获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;
若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;
若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
可选地,将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:
获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;
将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码。
可选地,从对应的企业数据中获取所述编码类别对应的关键词,包括:
根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;
获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
可选地,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:
将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;
获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集。
可选地,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别之后,还包括:
若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;
获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
可选地,根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果,包括:
获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;
将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
一种实体类型分类识别装置,包括:
编码分类模块,用于获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;
正则分类模块,用于从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;
模型分类模块,用于根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的实体类型分类识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的实体类型分类识别方法的步骤。
如上所述,本发明一种实体类型分类识别方法、装置、设备和介质,具有以下有益效果。
从已有的包含统一社会信用代码的企业数据中获取编码类别,基于编码类别抽取企业数据中的关键词等实体数据,根据抽取的实体数据建立企业数据的正则表,构建正则数据集,可通过正则数据集中的正则表达匹配待分类的数据进行企业划型,也可基于正则数据集训练分类模型,根据得到的分类模型对待分类的数据进行准确分类获取准确的划型,通过多个维度的企业划型方式结合,充分利用信息较为全面的数据作为划型基础,可有效处理各类企业数据,保障企业划型结果的准确性。
附图说明
图1为本发明一实施例中实体类型分类识别方法的流程示意图。
图2为本发明一实施例中根据统一社会信用代码获取对应编码类别的流程示意图。
图3为本发明一实施例中与统一社会信用代码进行编码匹配的流程示意图。
图4为本发明一实施例中实体类型分类识别装置的模块图。
图5为本发明一实施例中计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种实体类型分类识别方法,包括:
S1:获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;
S2:从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;
S3:根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
下面结合具体实施例对本方案的实体类型分类识别方法进行详细阐述。
在步骤S1中,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别。
具体地,现阶段工商企事业单位和社会组织的管理方式主要是由工商与民政相互分类管理,由统一社会信用代码完成营业执照、组织机构代码证和税务登记证三证合一。管理机构对于实体组织划分有对应的编码规则,因此,可基于已有的统一社会信用代码的编码规则对包含统一社会信用代码企业数据进行初分类。
请参阅图2,在一实施例中,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括:
步骤S101,构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;
步骤S102,获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;
步骤S103,若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;
步骤S104,若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
具体地,编码规则对应的实体类别编码可包括六个类别,分别用数字1-6表示。1对应实体类别为政府、军队及非营利组织,2对应实体类别为工商企业,3对应实体类别为自然人,4对应实体类别为其他,5对应实体类别为农业组织,6对应实体类别为自定义回退机构。
每个实体类别可对应多个实体子类别,如政府、军队及非营利组织对应的实体子类别可包括:机构编制、机关、律师执业机构、社会团体等,实体子类别对应的编码分别可设置为1100000、1110000、1310000、1510000等。具体地,实体类别与实体子类别的对应关系可根据统一社会信用代码的编码规则或实际应用需求进行适应性调整,这里不作限制。
首先可提取划型的企业数据对应的统一社会信用代码,判断统一社会信用代码的首位编码是否为回退编码,回退编码可对应编码规则中的编码6。可自定义回退机构,当统一社会信用代码为的首位编码为6时,表示无法获取该社会统一信用代码的准确类型,可通过输出对应的回退机构信息至管理人员或查询人员,由管理人员或查询人员根据回退机构信息与对应机构进行信息确认,获取准确的企业划型结果。
请参阅图3,在一实施例中,将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:
步骤S1041,获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;
步骤S1042,将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码。
具体地,对于代表行业分类来源的企业,其实体子类别编码的第二位和第三位表示行业类型。当统一社会信用代码不是所述回退编码时,可提取统一社会信用代码的前两位,将预设的实体类别编码置于提取的两位编码前,与编码规则中各实体子类别编码的前三位进行匹配。示例性地,预设实体类别编码为1,可判断实体子类别编码的第一位编码是否与1匹配,若匹配则可直接确定对应企业数据的实体类别为1;或者比对实体子类别编码中第二位和第三位编码与统一社会信用代码中前两位编码是否一致,若一致,则二者匹配,根据匹配的实体子类别确定对应的实体类别,完成企业数据划型。
在步骤S2中,从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序。
具体地,从对应的企业数据中获取所述编码类别对应的关键词,包括:
步骤S201,根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;
步骤S202,获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
具体地,确定了对应企业数据的初分类后,可对企业数据中的企业名称等进行分词,统计每个词的词频和逆序文件频率低的词,得到词频超出设定阈值的高频词汇作为关键词。进一步地,按照正则分类规则对关键词进行断言,确定关键词之间的前后位置顺序以及关联关系。以政府机构为例,对应的关键词的正则表达可表示为:公司|培训|(?<!情报)中心|学校|学院|服务|社|店|场|厂|招待所|宾馆|公寓|疗养|休养|联谊|大学|销售|经营|活动|工会|办事大厅|营业厅|餐厅|舞厅|协会|集资|学会|杂志|印刷|基金会|市。正则分类规则可根据实际应用场景进行设置,充分考虑关键词的位置及顺序。示例性地,根据现有数据每种分类的顺序进行总结,加以编译。例如:.*(审计|财政|劳动|税务|统计|物质|城乡建设|环境保护|工商行政管理|工商).*((?<![餐舞业啡歌])厅|局|(?<!工会)委员会|办公室|分局)$。其中,.表示匹配除换行符\n之外的任何单字符;*表示匹配前面的子表达式零次或多次;()表示标记一个子表达式的开始和结束位置:[]表示标记一个中括号表达式的开始和结束;$表示匹配输入字符串的结尾位置;|用于分隔相邻的选项;?表示匹配前面的子表达式零次或一次,或指明一个非贪婪限定符;(?<![餐舞业啡歌])厅|局,表示匹配前面不是餐、舞、业、啡、歌这几个字符的厅或局,示例性地,如输入字符串包括餐厅-邮局,则通过前述表达式匹配的字符串为“邮局”。
在一实施例中,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:
步骤S203,将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;
步骤S204,获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集。
根据正则分类规则对经过统一社会信用代码分类后的企业数据进行断言,可得到各企业数据的正则表达。可将没有统一社会信用代码缺失的企业数据与在先获取的正则表达进行匹配,计算二者相似度,选择与统一社会信用代码缺失的企业数据相似度达到设定阈值的正则表达作为匹配的正则表达,进一步获取匹配的正则表达对应的企业类型作为统一社会信用代码缺失的企业对应的企业类型,以此完成正则分类。进一步地,可按照正则分类规则提取统一社会信用代码缺失的企业数据对应的正则表达,存入正则数据集中,以丰富正则数据集的数据内容。
在步骤S3中,根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
具体地,将已经过统一社会信用代码分类、正则分类的实体,作为数据集进行模型训练。
通过对已分类实体,在卷积层进行特征提取,卷积层的表达式可表示如下:
模型训练与调参,对数据库中已分类数据提取70W,数据划分66W训练集+2W验证集+2W测试集。
模型主要参数可参考如下进行设置:
embedding_dim=64#词向量维度;
seq_length=50#序列长度;
num_classes=4#类别数;
num_filters=256#卷积核数目;
kernel_size=5#卷积核尺寸;
vocab_size=50000#词汇表达大小;
hidden_dim=128#全连接层神经元;
dropout_keep_prob=0.5#dropout保留比例;
learning_rate=1e-3#学习率;
batch_size=64#每批训练大小;
num_epochs=10#总迭代轮次;
print_per_batch=100#每多少轮输出一次结果;
save_per_batch=10#每多少轮存入tensorboard;
验证:对已包含分类标签的数据进行数据验证与对比。
预测效果:分别对关键的三种类型1-政府机构、2-企业、3-自然人的数据集中的数据进行训练,除已有训练集与验证集外,在全库已分类样本中,随机采样50次各10000条进行测试与验证,现有结果:
政府机构:平均准确率99.35%;
企业:平均准确率99.28%;
自然人:平均准确率99.30%;
预测效果能满足目前场景应用与效果。
具体地,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别之后,还包括:
若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;
获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
具体地,定义了一个实体分类类型:-1:异常分类,并固化该分类的正则表达,优先处理异常数据与难以分类的数据。例如:“未知、未披露、***”等诸如此类的数据。也可避免此类数据对模型兜底的影响。
在一实施例中,根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果,包括:
获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;
将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
具体地,在需要自定义规则时,通过补充正则规则加以实现与干预、满足特定情况下的数据应用场景和业务场景;也可以实现出现诸如以下情形时,方法的更新迭代与完善:
1)国家行政结构变更;
2)统一社会信用代码变更;
3)出现满足一定阈值的数据更新(引入新数据源、数据模型变更等)
)未纳入日常应用的中小语种企业名称的分类处理。
本方案可实现了在没有有效数据和其他维度属性的情况下,对实体的分类方法扩充与优化;将现有算法的综合运用,整体提升了实体分类的准确性;在高准确性的情况下,提供了对异常数据、无法处理数据的容错性;满足了在特定情况下,为应用场景的个性化处理提供方法。
在一实施例中,如图4所示,提供一种实体类型分类识别装置,包括:编码分类模块10,用于获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;正则分类模块11,用于从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;模型分类模块12,用于根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
在一实施例中,编码分类模块10包括:规则录入单元,用于构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;回退判断单元,用于获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;回退单元,用于若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;编码比对单元,用于若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
在一实施例中,编码比对单元包括:序列编码组件,用于获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;实体编码获取组件,用于将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码。
在一实施例中,正则分类模块11包括:分词单元,用于根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;关键词获取单元,用于获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
在一实施例中,装置还包括:正则匹配模块,用于将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;数据集扩充模块,用于获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集。
在一实施例中,装置还包括:异常类别构建模块,用于若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;正则预测单元,用于获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
在一实施例中,模型分类模块12包括:自定义场景模型构建单元,用于获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;自定义场景分类单元,用于将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
上述实体类型分类识别装置可以以一种计算机程序的形式实现,计算机程序可以在如图5所示的计算机设备上运行。计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
上述实体类型分类识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端的存储器中,也可以以软件形式存储于终端的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
如图5所示,为一个实施例中计算机设备的内部结构示意图。提供了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
在一实施例中,上述处理器执行时,所实现的获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括:构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
在一实施例中,上述处理器执行时,所实现的将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码。
在一实施例中,上述处理器执行时,所实现的从对应的企业数据中获取所述编码类别对应的关键词,包括:根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
在一实施例中,上述处理器执行时,所实现的根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集。
在一实施例中,上述处理器执行时,所实现的获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别之后,还包括:若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
在一实施例中,上述处理器执行时,所实现的根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果,包括:获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
在一个实施例中,上述的计算机设备可用作服务器,包括但不限于独立的物理服务器,或者是多个物理服务器构成的服务器集群,该计算机设备还可用作终端,包括但不限手机、平板电脑、个人数字助理或者智能设备等。如图5所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、显示屏和网络接口。
其中,该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。计算机设备的非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,以用于实现以上各个实施例所提供的实体类型分类识别方法。计算机设备中的内存储器为非易失性存储介质中的操作系统和计算机程序提供高速缓存的运行环境。显示界面可通过显示屏进行数据展示。显示屏可以是触摸屏,比如为电容屏或电子屏,可通过接收作用于该触摸屏上显示的控件的点击操作,生成相应的指令。
本领域技术人员可以理解,图5中示出的计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
在一实施例中,该计算机程序被处理器执行时,所实现的获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括:构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
在一实施例中,该计算机程序被处理器执行时,所实现的将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码。
在一实施例中,该计算机程序被处理器执行时,所实现的从对应的企业数据中获取所述编码类别对应的关键词,包括:根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
在一实施例中,该计算机程序被处理器执行时,所实现的根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集。
在一实施例中,该计算机程序被处理器执行时,所实现的获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别之后,还包括:若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
在一实施例中,该指令被处理器执行时,所实现的根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果,包括:获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
综上所述,本发明一种实体类型分类识别方法、装置、设备和介质,实现了在没有有效数据和其他维度属性的情况下,对实体的分类方法扩充与优化;将现有算法的综合运用,整体提升了实体分类的准确性;在高准确性的情况下,提供了对异常数据、无法处理数据的容错性;满足了在特定情况下,为应用场景的个性化处理提供方法;从已有的包含完整信息的企业数据中按照预设编码规则抽取实体数据,根据抽取的实体数据建立实体类别,训练分类模型,根据得到的分类模型对部分信息缺失的企业数据进行准确分类获取准确的划型;定义了一个实体分类类型:异常分类,并固化该分类的正则规则项,优先处理异常数据与难以分类的数据,例如:“未知、未披露、***”等诸如此类的数据,也可避免此类数据对模型兜底的影响;可以实现在需要自定义规则时,通过补充正则规则加以实现与干预、满足特定情况下的数据应用场景和业务场景;也可以实现出现诸如以下情形时,方法的更新迭代与完善:国家行政结构变更;统一社会信用代码变更;出现满足一定阈值的数据更新(引入新数据源、数据模型变更等)未纳入日常应用的中小语种企业名称的分类处理。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (7)
1.一种实体类型分类识别方法,其特征在于,包括:
获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别;将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码;
从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集;
根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
2.根据权利要求1所述的实体类型分类识别方法,其特征在于,从对应的企业数据中获取所述编码类别对应的关键词,包括:
根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;
获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
3.根据权利要求1所述的实体类型分类识别方法,其特征在于,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别之后,还包括:
若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;
获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
4.根据权利要求1所述的实体类型分类识别方法,其特征在于,根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果,包括:
获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;
将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
5.一种实体类型分类识别装置,其特征在于,包括:
编码分类模块,用于获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别;将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码;
正则分类模块,用于从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集;
模型分类模块,用于根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
6.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210141678.6A CN114722819B (zh) | 2022-02-16 | 2022-02-16 | 一种实体类型分类识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210141678.6A CN114722819B (zh) | 2022-02-16 | 2022-02-16 | 一种实体类型分类识别方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114722819A CN114722819A (zh) | 2022-07-08 |
CN114722819B true CN114722819B (zh) | 2024-01-19 |
Family
ID=82236241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210141678.6A Active CN114722819B (zh) | 2022-02-16 | 2022-02-16 | 一种实体类型分类识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722819B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095759A (zh) * | 2016-06-20 | 2016-11-09 | 西安交通大学 | 一种基于启发式规则的发票货物归类方法 |
CN107193915A (zh) * | 2017-05-15 | 2017-09-22 | 北京因果树网络科技有限公司 | 一种企业信息分类方法及装置 |
CN113407681A (zh) * | 2021-08-18 | 2021-09-17 | 国网浙江省电力有限公司信息通信分公司 | 一种能源行业公共数据模型构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341581B2 (en) * | 2019-07-09 | 2022-05-24 | Digits Financial, Inc. | System and method for regular expression generation for improved data transfer |
-
2022
- 2022-02-16 CN CN202210141678.6A patent/CN114722819B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095759A (zh) * | 2016-06-20 | 2016-11-09 | 西安交通大学 | 一种基于启发式规则的发票货物归类方法 |
CN107193915A (zh) * | 2017-05-15 | 2017-09-22 | 北京因果树网络科技有限公司 | 一种企业信息分类方法及装置 |
CN113407681A (zh) * | 2021-08-18 | 2021-09-17 | 国网浙江省电力有限公司信息通信分公司 | 一种能源行业公共数据模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114722819A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
CN109345399B (zh) | 理赔风险评估方法、装置、计算机设备及存储介质 | |
CN112528025A (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN112559726A (zh) | 简历信息的过滤方法、模型训练方法、装置、设备及介质 | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN112328791A (zh) | 一种基于DiTextCNN的中文政务信息的文本分类方法 | |
CN114722819B (zh) | 一种实体类型分类识别方法、装置、设备和介质 | |
CN116204647A (zh) | 一种目标比对学习模型的建立、文本聚类方法及装置 | |
CN114780673A (zh) | 基于领域匹配的科技成果管理方法和科技成果管理平台 | |
CN115146653A (zh) | 对话剧本构建方法、装置、设备及存储介质 | |
CN115062132A (zh) | 识别模型训练方法及装置、意图类别识别方法及装置 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN114818686A (zh) | 基于人工智能的文本推荐方法及相关设备 | |
CN114881001A (zh) | 基于人工智能的报表生成方法及相关设备 | |
CN109785099B (zh) | 一种自动对业务数据信息进行处理的方法及系统 | |
CN113837307A (zh) | 数据相似度计算方法、装置、可读介质及电子设备 | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN112733537A (zh) | 文本去重方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |