CN114722819A - 一种实体类型分类识别方法、装置、设备和介质 - Google Patents

一种实体类型分类识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN114722819A
CN114722819A CN202210141678.6A CN202210141678A CN114722819A CN 114722819 A CN114722819 A CN 114722819A CN 202210141678 A CN202210141678 A CN 202210141678A CN 114722819 A CN114722819 A CN 114722819A
Authority
CN
China
Prior art keywords
code
classification
entity
regular
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210141678.6A
Other languages
English (en)
Other versions
CN114722819B (zh
Inventor
黄珊珊
齐金凤
姜兴凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210141678.6A priority Critical patent/CN114722819B/zh
Publication of CN114722819A publication Critical patent/CN114722819A/zh
Application granted granted Critical
Publication of CN114722819B publication Critical patent/CN114722819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种实体类型分类识别方法、装置、设备和介质,涉及人工智能领域,包括:获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。

Description

一种实体类型分类识别方法、装置、设备和介质
技术领域
本发明涉及人工智能领域,尤其涉及一种实体类型分类识别方法、装置、 设备和介质。
背景技术
随着我国各行业全面进行数据化转型,宏观方面对产业行业研究,微观层 面对企事业单位、社会组织进行研究,都需要对经济实体进行性质的分类,随 着社会统一信用代码的广泛应用,也可通过社会统一信用代码获取实体类型, 但针对较早期的企业以及具有地域差异的企业,存在统一社会信用代码缺失的 问题。传统方法往往依赖于海量的企业数据进行模型训练,模型训练复杂且精 度不足,在企业划型方式发生变化时,重新训练模型费时费力,难以适应行业 的发展变化。在实体分类方面缺少有效的规则和办法,难以针对诸如海外企业、 统一社会信用代码缺失的企业和数据进行准确灵活的分类。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种实体类型分类识别方法、 装置、设备和介质,主要解决现有方案针对统一社会信用代码缺失的企业数据 难以进行准确实体分类的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种实体类型分类识别方法,包括:
获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代 码进行拆分,获取对应的编码类别;
从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分 类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规 则包括:关键词的位置以及关键词之间的排列顺序;
根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所 述分类模型获取对应的企业划型结果。
可选地,获取包含统一社会信用代码的企业数据,对各企业的所述统一社 会信用代码进行拆分,获取对应的编码类别,包括:
构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所 述实体类别编码对应的实体子类别编码和实体子类别字符串;
获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别 编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;
若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信 息;
若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编 码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体 类别编码作为所述编码类别。
可选地,将所述统一社会信用代码的对应编码位与所述实体子类别编码进 行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别, 包括:
获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置 于所述两位编码前,得到第一编码序列;
将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进 行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实 体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中 所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体 类别编码。
可选地,从对应的企业数据中获取所述编码类别对应的关键词,包括:
根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息 进行分词,得到多个词向量;
获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词 向量作为所述关键词。
可选地,根据预设的正则分类规则获取对应关键词的正则表达,得到正则 数据集之后,包括:
将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行 比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对 应的企业类型;
获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达 录入所述正则数据集。
可选地,获取包含统一社会信用代码的企业数据,对各企业的所述统一社 会信用代码进行拆分,获取对应的编码类别之后,还包括:
若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据 录入预设的异常分类;
获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进 行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
可选地,根据所述正则数据集训练分类网络,获取分类模型,将待分类数 据输入所述分类模型获取对应的企业划型结果,包括:
获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获 取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分 类模型训练,获取场景分类模型;
将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
一种实体类型分类识别装置,包括:
编码分类模块,用于获取包含统一社会信用代码的企业数据,对各企业的 所述统一社会信用代码进行拆分,获取对应的编码类别;
正则分类模块,用于从对应的企业数据中获取所述编码类别对应的关键词, 根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中, 所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;
模型分类模块,用于根据所述正则数据集训练分类网络,获取分类模型, 将待分类数据输入所述分类模型获取对应的企业划型结果。
一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器 上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的实体类型 分类识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处 理器执行时实现所述的实体类型分类识别方法的步骤。
如上所述,本发明一种实体类型分类识别方法、装置、设备和介质,具有 以下有益效果。
从已有的包含统一社会信用代码的企业数据中获取编码类别,基于编码类 别抽取企业数据中的关键词等实体数据,根据抽取的实体数据建立企业数据的 正则表,构建正则数据集,可通过正则数据集中的正则表达匹配待分类的数据 进行企业划型,也可基于正则数据集训练分类模型,根据得到的分类模型对待 分类的数据进行准确分类获取准确的划型,通过多个维度的企业划型方式结合, 充分利用信息较为全面的数据作为划型基础,可有效处理各类企业数据,保障 企业划型结果的准确性。
附图说明
图1为本发明一实施例中实体类型分类识别方法的流程示意图。
图2为本发明一实施例中根据统一社会信用代码获取对应编码类别的流程 示意图。
图3为本发明一实施例中与统一社会信用代码进行编码匹配的流程示意图。
图4为本发明一实施例中实体类型分类识别装置的模块图。
图5为本发明一实施例中计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本 说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过 另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于 不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的 是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基 本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数 目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意 的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种实体类型分类识别方法,包括:
S1:获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信 用代码进行拆分,获取对应的编码类别;
S2:从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正 则分类规则获取对应关键词的正则表达,得到正则数据集,其中所述正则分类 规则包括:关键词的位置以及关键词之间的排列顺序;
S3:根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输 入所述分类模型获取对应的企业划型结果。
下面结合具体实施例对本方案的实体类型分类识别方法进行详细阐述。
在步骤S1中,获取包含统一社会信用代码的企业数据,对各企业的所述统 一社会信用代码进行拆分,获取对应的编码类别。
具体地,现阶段工商企事业单位和社会组织的管理方式主要是由工商与民 政相互分类管理,由统一社会信用代码完成营业执照、组织机构代码证和税务 登记证三证合一。管理机构对于实体组织划分有对应的编码规则,因此,可基 于已有的统一社会信用代码的编码规则对包含统一社会信用代码企业数据进行 初分类。
请参阅图2,在一实施例中,获取包含统一社会信用代码的企业数据,对 各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括:
步骤S101,构建编码规则,所述编码规则包括实体类别编码、实体类别字 符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;
步骤S102,获取所述统一社会信用代码的首位编码,将所述首位编码与所 述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编 码;
步骤S103,若所述首位编码是所述回退编码,则输出所述回退编码对应的 回退机构信息;
步骤S104,若所述首位编码不是所述回退编码,则将所述统一社会信用代 码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码 对应的实体类别编码作为所述编码类别。
具体地,编码规则对应的实体类别编码可包括六个类别,分别用数字1-6 表示。1对应实体类别为政府、军队及非营利组织,2对应实体类别为工商企业, 3对应实体类别为自然人,4对应实体类别为其他,5对应实体类别为农业组织, 6对应实体类别为自定义回退机构。
每个实体类别可对应多个实体子类别,如政府、军队及非营利组织对应的 实体子类别可包括:机构编制、机关、律师执业机构、社会团体等,实体子类 别对应的编码分别可设置为1100000、1110000、1310000、1510000等。具体地, 实体类别与实体子类别的对应关系可根据统一社会信用代码的编码规则或实际 应用需求进行适应性调整,这里不作限制。
首先可提取划型的企业数据对应的统一社会信用代码,判断统一社会信用 代码的首位编码是否为回退编码,回退编码可对应编码规则中的编码6。可自 定义回退机构,当统一社会信用代码为的首位编码为6时,表示无法获取该社 会统一信用代码的准确类型,可通过输出对应的回退机构信息至管理人员或查 询人员,由管理人员或查询人员根据回退机构信息与对应机构进行信息确认, 获取准确的企业划型结果。
请参阅图3,在一实施例中,将所述统一社会信用代码的对应编码位与所 述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码 作为所述编码类别,包括:
步骤S1041,获取所述统一社会信用代码的前两位编码,将预先设置的实 体类别编码置于所述两位编码前,得到第一编码序列;
步骤S1042,将所述第一编码序列与各所述实体子类别编码中前对应位数 的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序 列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第 一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编 码对应的实体类别编码。
具体地,对于代表行业分类来源的企业,其实体子类别编码的第二位和第 三位表示行业类型。当统一社会信用代码不是所述回退编码时,可提取统一社 会信用代码的前两位,将预设的实体类别编码置于提取的两位编码前,与编码 规则中各实体子类别编码的前三位进行匹配。示例性地,预设实体类别编码为 1,可判断实体子类别编码的第一位编码是否与1匹配,若匹配则可直接确定对 应企业数据的实体类别为1;或者比对实体子类别编码中第二位和第三位编码 与统一社会信用代码中前两位编码是否一致,若一致,则二者匹配,根据匹配 的实体子类别确定对应的实体类别,完成企业数据划型。
在步骤S2中,从对应的企业数据中获取所述编码类别对应的关键词,根据 预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中所述 正则分类规则包括:关键词的位置以及关键词之间的排列顺序。
具体地,从对应的企业数据中获取所述编码类别对应的关键词,包括:
步骤S201,根据所述编码类别获取所述企业数据中对应的实体信息,对所 述实体信息进行分词,得到多个词向量;
步骤S202,获取每个所述词向量在各企业数据中的词频,选出词频达到设 定阈值的词向量作为所述关键词。
具体地,确定了对应企业数据的初分类后,可对企业数据中的企业名称等 进行分词,统计每个词的词频和逆序文件频率低的词,得到词频超出设定阈值 的高频词汇作为关键词。进一步地,按照正则分类规则对关键词进行断言,确 定关键词之间的前后位置顺序以及关联关系。以政府机构为例,对应的关键词 的正则表达可表示为:公司|培训|(?<!情报)中心|学校|学院|服务|社|店|场| 厂|招待所|宾馆|公寓|疗养|休养|联谊|大学|销售|经营|活动|工会|办事大厅 |营业厅|餐厅|舞厅|协会|集资|学会|杂志|印刷|基金会|市。正则分类规则可 根据实际应用场景进行设置,充分考虑关键词的位置及顺序。示例性地,根据 现有数据每种分类的顺序进行总结,加以编译。例如:.*(审计|财政|劳动|税 务|统计|物质|城乡建设|环境保护|工商行政管理|工商).*((?<![餐舞业啡歌]) 厅|局|(?<!工会)委员会|办公室|分局)$。其中,.表示匹配除换行符\n之外的 任何单字符;*表示匹配前面的子表达式零次或多次;()表示标记一个子表达 式的开始和结束位置:[]表示标记一个中括号表达式的开始和结束;$表示匹配 输入字符串的结尾位置;|用于分隔相邻的选项;?表示匹配前面的子表达式零 次或一次,或指明一个非贪婪限定符;(?<![餐舞业啡歌])厅|局,表示匹配前 面不是餐、舞、业、啡、歌这几个字符的厅或局,示例性地,如输入字符串包 括餐厅-邮局,则通过前述表达式匹配的字符串为“邮局”。
在一实施例中,根据预设的正则分类规则获取对应关键词的正则表达,得 到正则数据集之后,包括:
步骤S203,将统一社会信用代码缺失的企业数据与所述正则数据集中的正 则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的 企业数据对应的企业类型;
步骤S204,获取所述统一社会信用代码缺失的企业数据的正则表达,将所 述正则表达录入所述正则数据集。
根据正则分类规则对经过统一社会信用代码分类后的企业数据进行断言, 可得到各企业数据的正则表达。可将没有统一社会信用代码缺失的企业数据与 在先获取的正则表达进行匹配,计算二者相似度,选择与统一社会信用代码缺 失的企业数据相似度达到设定阈值的正则表达作为匹配的正则表达,进一步获 取匹配的正则表达对应的企业类型作为统一社会信用代码缺失的企业对应的企 业类型,以此完成正则分类。进一步地,可按照正则分类规则提取统一社会信 用代码缺失的企业数据对应的正则表达,存入正则数据集中,以丰富正则数据 集的数据内容。
在步骤S3中,根据所述正则数据集训练分类网络,获取分类模型,将待分 类数据输入所述分类模型获取对应的企业划型结果。
具体地,将已经过统一社会信用代码分类、正则分类的实体,作为数据集 进行模型训练。
通过对已分类实体,在卷积层进行特征提取,卷积层的表达式可表示如下:
Figure BDA0003507283060000091
Figure BDA0003507283060000092
模型训练与调参,对数据库中已分类数据提取70W,数据划分66W训练集 +2W验证集+2W测试集。
模型主要参数可参考如下进行设置:
embedding_dim=64#词向量维度;
seq_length=50#序列长度;
num_classes=4#类别数;
num_filters=256#卷积核数目;
kernel_size=5#卷积核尺寸;
vocab_size=50000#词汇表达大小;
hidden_dim=128#全连接层神经元;
dropout_keep_prob=0.5#dropout保留比例;
learning_rate=1e-3#学习率;
batch_size=64#每批训练大小;
num_epochs=10#总迭代轮次;
print_per_batch=100#每多少轮输出一次结果;
save_per_batch=10#每多少轮存入tensorboard;
验证:对已包含分类标签的数据进行数据验证与对比。
预测效果:分别对关键的三种类型1-政府机构、2-企业、3-自然人的数据 集中的数据进行训练,除已有训练集与验证集外,在全库已分类样本中,随机 采样50次各10000条进行测试与验证,现有结果:
政府机构:平均准确率99.35%;
企业:平均准确率99.28%;
自然人:平均准确率99.30%;
预测效果能满足目前场景应用与效果。
具体地,获取包含统一社会信用代码的企业数据,对各企业的所述统一社 会信用代码进行拆分,获取对应的编码类别之后,还包括:
若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据 录入预设的异常分类;
获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进 行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
具体地,定义了一个实体分类类型:-1:异常分类,并固化该分类的正则 表达,优先处理异常数据与难以分类的数据。例如:“未知、未披露、***”等 诸如此类的数据。也可避免此类数据对模型兜底的影响。
在一实施例中,根据所述正则数据集训练分类网络,获取分类模型,将待 分类数据输入所述分类模型获取对应的企业划型结果,包括:
获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获 取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分 类模型训练,获取场景分类模型;
将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
具体地,在需要自定义规则时,通过补充正则规则加以实现与干预、满足 特定情况下的数据应用场景和业务场景;也可以实现出现诸如以下情形时,方 法的更新迭代与完善:
1)国家行政结构变更;
2)统一社会信用代码变更;
3)出现满足一定阈值的数据更新(引入新数据源、数据模型变更等)
)未纳入日常应用的中小语种企业名称的分类处理。
本方案可实现了在没有有效数据和其他维度属性的情况下,对实体的分类 方法扩充与优化;将现有算法的综合运用,整体提升了实体分类的准确性;在 高准确性的情况下,提供了对异常数据、无法处理数据的容错性;满足了在特 定情况下,为应用场景的个性化处理提供方法。
在一实施例中,如图4所示,提供一种实体类型分类识别装置,包括:编 码分类模块10,用于获取包含统一社会信用代码的企业数据,对各企业的所述 统一社会信用代码进行拆分,获取对应的编码类别;正则分类模块11,用于从 对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则 获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括: 关键词的位置以及关键词之间的排列顺序;模型分类模块12,用于根据所述正 则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取 对应的企业划型结果。
在一实施例中,编码分类模块10包括:规则录入单元,用于构建编码规则, 所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应 的实体子类别编码和实体子类别字符串;回退判断单元,用于获取所述统一社 会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断 所述首位编码是否为预设编码规则中的回退编码;回退单元,用于若所述首位 编码是所述回退编码,则输出所述回退编码对应的回退机构信息;编码比对单 元,用于若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对 应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的 实体类别编码作为所述编码类别。
在一实施例中,编码比对单元包括:序列编码组件,用于获取所述统一社 会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前, 得到第一编码序列;实体编码获取组件,用于将所述第一编码序列与各所述实 体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对 应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别 编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配, 则输出对应实体子类别编码对应的实体类别编码。
在一实施例中,正则分类模块11包括:分词单元,用于根据所述编码类别 获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词 向量;关键词获取单元,用于获取每个所述词向量在各企业数据中的词频,选 出词频达到设定阈值的词向量作为所述关键词。
在一实施例中,装置还包括:正则匹配模块,用于将统一社会信用代码缺 失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则 表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;数据集扩充 模块,用于获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正 则表达录入所述正则数据集。
在一实施例中,装置还包括:异常类别构建模块,用于若所述社会统一信 用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类; 正则预测单元,用于获取所述异常分类中各企业数据对应的正则表达,并输入 所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据 的企业类型。
在一实施例中,模型分类模块12包括:自定义场景模型构建单元,用于获 取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应 企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型 训练,获取场景分类模型;自定义场景分类单元,用于将待分类数据输入所述 场景分类模型,获取对应场景的企业划型结果。
上述实体类型分类识别装置可以以一种计算机程序的形式实现,计算机程 序可以在如图5所示的计算机设备上运行。计算机设备,包括:存储器、处理 器及存储在存储器上并可在处理器上运行的计算机程序。
上述实体类型分类识别装置中的各个模块可全部或部分通过软件、硬件及 其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端的存储器中,也 可以以软件形式存储于终端的存储器中,以便于处理器调用执行以上各个模块 对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
如图5所示,为一个实施例中计算机设备的内部结构示意图。提供了一种 计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的 计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取包含统一 社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取 对应的编码类别;从对应的企业数据中获取所述编码类别对应的关键词,根据 预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所 述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;根据所述正 则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
在一实施例中,上述处理器执行时,所实现的获取包含统一社会信用代码 的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类 别,包括:构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、 与所述实体类别编码对应的实体子类别编码和实体子类别字符串;获取所述统 一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对, 判断所述首位编码是否为预设编码规则中的回退编码;若所述首位编码是所述 回退编码,则输出所述回退编码对应的回退机构信息;若所述首位编码不是所 述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码 进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
在一实施例中,上述处理器执行时,所实现的将所述统一社会信用代码的 对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应 的实体类别编码作为所述编码类别,包括:获取所述统一社会信用代码的前两 位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列; 将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比 对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类 别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述 统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别 编码。
在一实施例中,上述处理器执行时,所实现的从对应的企业数据中获取所 述编码类别对应的关键词,包括:根据所述编码类别获取所述企业数据中对应 的实体信息,对所述实体信息进行分词,得到多个词向量;获取每个所述词向 量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
在一实施例中,上述处理器执行时,所实现的根据预设的正则分类规则获 取对应关键词的正则表达,得到正则数据集之后,包括:将统一社会信用代码 缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正 则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;获取所述 统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则 数据集。
在一实施例中,上述处理器执行时,所实现的获取包含统一社会信用代码 的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类 别之后,还包括:若所述社会统一信用代码没有匹配的实体类别编码时,将对 应的企业数据录入预设的异常分类;获取所述异常分类中各企业数据对应的正 则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类 中对应企业数据的企业类型。
在一实施例中,上述处理器执行时,所实现的根据所述正则数据集训练分 类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型 结果,包括:获取对应应用场景的正则分类规则,作为新增规则,根据所述新 增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数 据进行分类模型训练,获取场景分类模型;将待分类数据输入所述场景分类模 型,获取对应场景的企业划型结果。
在一个实施例中,上述的计算机设备可用作服务器,包括但不限于独立的 物理服务器,或者是多个物理服务器构成的服务器集群,该计算机设备还可用 作终端,包括但不限手机、平板电脑、个人数字助理或者智能设备等。如图5 所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内 存储器、显示屏和网络接口。
其中,该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机 设备的运行。计算机设备的非易失性存储介质存储有操作系统和计算机程序。 该计算机程序可被处理器所执行,以用于实现以上各个实施例所提供的实体类 型分类识别方法。计算机设备中的内存储器为非易失性存储介质中的操作系统 和计算机程序提供高速缓存的运行环境。显示界面可通过显示屏进行数据展示。 显示屏可以是触摸屏,比如为电容屏或电子屏,可通过接收作用于该触摸屏上 显示的控件的点击操作,生成相应的指令。
本领域技术人员可以理解,图5中示出的计算机设备的结构,仅仅是与本 申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算 机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或 者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,所述计算机程序被处理器执行时实现以下步骤:获取包含统一社会信用代 码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码 类别;从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则 分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类 规则包括:关键词的位置以及关键词之间的排列顺序;根据所述正则数据集训 练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业 划型结果。
在一实施例中,该计算机程序被处理器执行时,所实现的获取包含统一社 会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对 应的编码类别,包括:构建编码规则,所述编码规则包括实体类别编码、实体 类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串; 获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码 进行比对,判断所述首位编码是否为预设编码规则中的回退编码;若所述首位 编码是所述回退编码,则输出所述回退编码对应的回退机构信息;若所述首位 编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体 子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所 述编码类别。
在一实施例中,该计算机程序被处理器执行时,所实现的将所述统一社会 信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信 用代码对应的实体类别编码作为所述编码类别,包括:获取所述统一社会信用 代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第 一编码序列;将所述第一编码序列与各所述实体子类别编码中前对应位数的编 码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中 包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编 码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对 应的实体类别编码。
在一实施例中,该计算机程序被处理器执行时,所实现的从对应的企业数 据中获取所述编码类别对应的关键词,包括:根据所述编码类别获取所述企业 数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;获取每 个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所 述关键词。
在一实施例中,该计算机程序被处理器执行时,所实现的根据预设的正则 分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:将统一社 会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹 配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型; 获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入 所述正则数据集。
在一实施例中,该计算机程序被处理器执行时,所实现的获取包含统一社 会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对 应的编码类别之后,还包括:若所述社会统一信用代码没有匹配的实体类别编 码时,将对应的企业数据录入预设的异常分类;获取所述异常分类中各企业数 据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所 述异常分类中对应企业数据的企业类型。
在一实施例中,该指令被处理器执行时,所实现的根据所述正则数据集训 练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业 划型结果,包括:获取对应应用场景的正则分类规则,作为新增规则,根据所 述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后 的数据进行分类模型训练,获取场景分类模型;将待分类数据输入所述场景分 类模型,获取对应场景的企业划型结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易 失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施 例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)等。
综上所述,本发明一种实体类型分类识别方法、装置、设备和介质,实现 了在没有有效数据和其他维度属性的情况下,对实体的分类方法扩充与优化; 将现有算法的综合运用,整体提升了实体分类的准确性;在高准确性的情况下, 提供了对异常数据、无法处理数据的容错性;满足了在特定情况下,为应用场 景的个性化处理提供方法;从已有的包含完整信息的企业数据中按照预设编码 规则抽取实体数据,根据抽取的实体数据建立实体类别,训练分类模型,根据 得到的分类模型对部分信息缺失的企业数据进行准确分类获取准确的划型;定 义了一个实体分类类型:异常分类,并固化该分类的正则规则项,优先处理异常数据与难以分类的数据,例如:“未知、未披露、***”等诸如此类的数据, 也可避免此类数据对模型兜底的影响;可以实现在需要自定义规则时,通过补 充正则规则加以实现与干预、满足特定情况下的数据应用场景和业务场景;也 可以实现出现诸如以下情形时,方法的更新迭代与完善:国家行政结构变更; 统一社会信用代码变更;出现满足一定阈值的数据更新(引入新数据源、数据模 型变更等)未纳入日常应用的中小语种企业名称的分类处理。所以,本发明有效 克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。 任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进 行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所 揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利 要求所涵盖。

Claims (10)

1.一种实体类型分类识别方法,其特征在于,包括:
获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;
从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;
根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
2.根据权利要求1所述的实体类型分类识别方法,其特征在于,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别,包括:
构建编码规则,所述编码规则包括实体类别编码、实体类别字符串、与所述实体类别编码对应的实体子类别编码和实体子类别字符串;
获取所述统一社会信用代码的首位编码,将所述首位编码与所述实体类别编码进行比对,判断所述首位编码是否为预设编码规则中的回退编码;
若所述首位编码是所述回退编码,则输出所述回退编码对应的回退机构信息;
若所述首位编码不是所述回退编码,则将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别。
3.根据权利要求2所述的实体类型分类识别方法,其特征在于,将所述统一社会信用代码的对应编码位与所述实体子类别编码进行比对,确定所述统一社会信用代码对应的实体类别编码作为所述编码类别,包括:
获取所述统一社会信用代码的前两位编码,将预先设置的实体类别编码置于所述两位编码前,得到第一编码序列;
将所述第一编码序列与各所述实体子类别编码中前对应位数的编码序列进行比对,若所述实体子类别编码中对应编码位与所述第一编码序列中包含的实体类别编码匹配或者所述实体子类别编码中对应编码位与所述第一编码序列中所述统一社会信用代码的编码位匹配,则输出对应实体子类别编码对应的实体类别编码。
4.根据权利要求1所述的实体类型分类识别方法,其特征在于,从对应的企业数据中获取所述编码类别对应的关键词,包括:
根据所述编码类别获取所述企业数据中对应的实体信息,对所述实体信息进行分词,得到多个词向量;
获取每个所述词向量在各企业数据中的词频,选出词频达到设定阈值的词向量作为所述关键词。
5.根据权利要求1所述的实体类型分类识别方法,其特征在于,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集之后,包括:
将统一社会信用代码缺失的企业数据与所述正则数据集中的正则表达进行比对,根据匹配的所述正则表达确定所述统一社会信用代码缺失的企业数据对应的企业类型;
获取所述统一社会信用代码缺失的企业数据的正则表达,将所述正则表达录入所述正则数据集。
6.根据权利要求1所述的实体类型分类识别方法,其特征在于,获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别之后,还包括:
若所述社会统一信用代码没有匹配的实体类别编码时,将对应的企业数据录入预设的异常分类;
获取所述异常分类中各企业数据对应的正则表达,并输入所述分类模型进行分类预测,根据预测结果标定所述异常分类中对应企业数据的企业类型。
7.根据权利要求1所述的实体类型分类识别方法,其特征在于,根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果,包括:
获取对应应用场景的正则分类规则,作为新增规则,根据所述新增规则获取对应企业数据的正则表达,更新所述正则数据集,根据更新后的数据进行分类模型训练,获取场景分类模型;
将待分类数据输入所述场景分类模型,获取对应场景的企业划型结果。
8.一种实体类型分类识别装置,其特征在于,包括:
编码分类模块,用于获取包含统一社会信用代码的企业数据,对各企业的所述统一社会信用代码进行拆分,获取对应的编码类别;
正则分类模块,用于从对应的企业数据中获取所述编码类别对应的关键词,根据预设的正则分类规则获取对应关键词的正则表达,得到正则数据集,其中,所述正则分类规则包括:关键词的位置以及关键词之间的排列顺序;
模型分类模块,用于根据所述正则数据集训练分类网络,获取分类模型,将待分类数据输入所述分类模型获取对应的企业划型结果。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210141678.6A 2022-02-16 2022-02-16 一种实体类型分类识别方法、装置、设备和介质 Active CN114722819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210141678.6A CN114722819B (zh) 2022-02-16 2022-02-16 一种实体类型分类识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210141678.6A CN114722819B (zh) 2022-02-16 2022-02-16 一种实体类型分类识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN114722819A true CN114722819A (zh) 2022-07-08
CN114722819B CN114722819B (zh) 2024-01-19

Family

ID=82236241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210141678.6A Active CN114722819B (zh) 2022-02-16 2022-02-16 一种实体类型分类识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114722819B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置
US20210012428A1 (en) * 2019-07-09 2021-01-14 Digits Financial, Inc. System and method for regular expression generation for improved data transfer
CN113407681A (zh) * 2021-08-18 2021-09-17 国网浙江省电力有限公司信息通信分公司 一种能源行业公共数据模型构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095759A (zh) * 2016-06-20 2016-11-09 西安交通大学 一种基于启发式规则的发票货物归类方法
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置
US20210012428A1 (en) * 2019-07-09 2021-01-14 Digits Financial, Inc. System and method for regular expression generation for improved data transfer
CN113407681A (zh) * 2021-08-18 2021-09-17 国网浙江省电力有限公司信息通信分公司 一种能源行业公共数据模型构建方法

Also Published As

Publication number Publication date
CN114722819B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
CN111695355B (zh) 地址文本识别方法、装置、介质、电子设备
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
JP2019502979A (ja) 構造化されたマルチフィールドファイルのレイアウトの自動解釈
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN112559726A (zh) 简历信息的过滤方法、模型训练方法、装置、设备及介质
CN114091426A (zh) 一种处理数据仓库中字段数据的方法和装置
CN114491084B (zh) 基于自编码器的关系网络信息挖掘方法、装置及设备
CN111507090A (zh) 摘要提取方法、装置、设备及计算机可读存储介质
CN112948429B (zh) 一种数据报送方法、装置和设备
CN113326363A (zh) 搜索方法及装置、预测模型训练方法及装置、电子设备
CN112328791A (zh) 一种基于DiTextCNN的中文政务信息的文本分类方法
CN114722819B (zh) 一种实体类型分类识别方法、装置、设备和介质
CN115345600A (zh) 一种rpa流程的生成方法和装置
US11775757B2 (en) Automated machine-learning dataset preparation
CN109785099B (zh) 一种自动对业务数据信息进行处理的方法及系统
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN114662099A (zh) 基于ai模型的应用程序恶意行为检测方法及设备
CN111813936A (zh) 基于深度学习的新闻资讯呈现方法及相关设备
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN115329723A (zh) 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN113868438A (zh) 信息可信度的校准方法、装置、计算机设备及存储介质
CN117172243A (zh) 一种文本识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant