CN115544256A - 一种基于nlp算法模型的自动数据分类分级方法及系统 - Google Patents

一种基于nlp算法模型的自动数据分类分级方法及系统 Download PDF

Info

Publication number
CN115544256A
CN115544256A CN202211254591.6A CN202211254591A CN115544256A CN 115544256 A CN115544256 A CN 115544256A CN 202211254591 A CN202211254591 A CN 202211254591A CN 115544256 A CN115544256 A CN 115544256A
Authority
CN
China
Prior art keywords
matching
algorithm
nlp
classification
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211254591.6A
Other languages
English (en)
Inventor
陈贵民
王赢
罗华辉
张�荣
魏丽珍
蔡文辉
叶青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sdic Intelligent Technology Co ltd
Xiamen Anscen Network Technology Co ltd
Original Assignee
Sdic Intelligent Technology Co ltd
Xiamen Anscen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sdic Intelligent Technology Co ltd, Xiamen Anscen Network Technology Co ltd filed Critical Sdic Intelligent Technology Co ltd
Priority to CN202211254591.6A priority Critical patent/CN115544256A/zh
Publication of CN115544256A publication Critical patent/CN115544256A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种基于NLP算法模型的自动数据分类分级方法及系统,该方法包括以下步骤:S1、确定标准元素,并且根据分类分级标准对标准元素配置所属的分类目录;S2、对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则;S3、基于识别规则训练NLP模型,根据识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果;S4、从多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对匹配度最高的结果所对应的标准元素标记分类标签。通过NLP算法和传统算法能够自动进行分类分级,取代人工分类,实现高效、灵活、智能地分类分级。

Description

一种基于NLP算法模型的自动数据分类分级方法及系统
技术领域
本申请涉及数据安全技术领域,具体涉及一种基于NLP算法模型的自动数据分类分级方法及系统。
背景技术
《数据安全法》的第二十一条明确规定了由国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据安全实行分类分级保护。实行数据分类分级是保障数据安全的前提,也是数据安全治理过程中极为重要的一环。
传统的做法是业务人员根据国家或者当地政府颁布的分类分级指南进行分类分级梳理,由于分类分级梳理需要业务人员具备分类分级的实施落地经验,以及各行业缺乏相关标准,所以分类分级准确率较低。而且有些政府或者企业的数据非常繁杂和庞大,仅仅依靠手工分类分级需要消耗大量的人力和财力,成本高且非常低效。
鉴于此,本发明提出了一种基于NLP算法模型的自动数据分类分级方法及系统,能够自动进行分类分级,提高梳理效率和分类分级的准确度。
发明内容
为了解决依靠手工分类分级需要消耗大量的人力和财力,成本高且非常低效等问题,本申请提供一种基于NLP算法模型的自动数据分类分级方法及系统,以解决上述技术缺陷问题。
根据本发明的一个方面提出了一种基于NLP算法模型的自动数据分类分级方法,该方法包括以下步骤:
S1、确定标准元素,并且根据分类分级标准对标准元素配置所属的分类目录;
S2、对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则;
S3、基于识别规则训练NLP模型,根据识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果;以及
S4、从多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对匹配度最高的结果所对应的标准元素标记分类标签。
在具体的实施例中,在步骤S3中,基于识别规则训练NLP模型具体包括以下子步骤:
S31、将预处理数据的字段名全部转为小写字母,并且去掉特殊符号和数字;
S32、根据空格和标点符号拆分,对步骤S31预处理后的数据进行拆分;
S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文;
S34、对步骤S32处理后的数据进行分词,获得多种组合结果;
S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的组合结果,最终获得匹配结果。
在具体的实施例中,在步骤S2中,传统算法的识别规则包括:基于内容匹配、字段注释匹配、字段名的精确匹配、字段名的模糊匹配、前缀匹配、后缀匹配、正则匹配。
在具体的实施例中,在步骤S2中,设置每条识别规则的可信度,可信度被设置为一个数值,可信度表示识别规则可以依赖的程度,影响识别规则的匹配度。
在具体的实施例中,在步骤S2中,设置每条识别规则的优先级,优先级被设置为一个数值,数值越大优先级越高,按照优先级从高到低依次匹配执行。
在具体的实施例中,在步骤S2中,对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则,包括:
S211、添加传统算法的识别规则R1和NLP算法的识别规则R2;
S212、设置传统算法的识别规则R1的匹配类型为“字段名匹配”,设置传统算法的识别规则R1的匹配方法为“正则匹配”;设置NLP算法的识别规则R2的匹配方法为“NLP匹配”;以及
S213、分别设置传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级,并且传统算法的识别规则R1的优先级大于NLP算法的识别规则R2的优先级。
在具体的实施例中,在步骤S2中,对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则,包括:
S221、添加传统算法的识别规则R1和NLP算法的识别规则R2;
S222、设置传统算法的识别规则R1的匹配类型为“字段名匹配”,设置传统算法的识别规则R1的匹配方法为“正则匹配”;设置NLP算法的识别规则R2的匹配方法为“NLP匹配”;以及
S223、分别设置传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级,并且传统算法的识别规则R1的优先级小于NLP算法的识别规则R2的优先级。
第二方面,本申请提出一种基于NLP算法模型的自动数据分类分级系统,该系统包括:
确定标准元素模块,用于确定标准元素,并且根据分类分级标准对标准元素配置所属的分类目录;
添加识别规则模块,用于对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则;
匹配模块,基于识别规则训练NLP模型,根据识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果;以及
标记模块,从多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对匹配度最高的结果所对应的标准元素标记分类标签。
在具体的实施例中,在匹配模块中,基于识别规则训练NLP模型具体包括以下子步骤:
S31、将预处理数据的字段名全部转为小写字母,并且去掉特殊符号和数字;
S32、根据空格和标点符号拆分,对步骤S31预处理后的数据进行拆分;
S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文;
S34、对步骤S32处理后的数据进行分词,获得多种组合结果;
S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的组合结果,最终获得匹配结果。
第三方面,本申请提供了一种计算机可读存储介质,该介质中存储有计算机程序,在计算机程序被处理器执行时,实施如上述中任一项的方法。
与现有技术相比,本发明的有益成果在于:
本发明提供的NLP模型训练方法,政府或者企业可以通过训练自己特有的数据集,提高程序的匹配度,从而提高分类分级的准确度;通过NLP算法和传统算法能够自动进行分类分级,取代人工分类,实现高效、灵活、智能地分类分级;对分类分级结果,创建NLP学习模型训练任务,建立知识算法,能够实现持续地、快速地数据分类分级能力。
附图说明
通过阅读参照以下附图,所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的基于NLP算法模型的自动数据分类分级方法的流程图;
图2是根据本申请的基于NLP算法模型的自动数据分类分级方法的主要框架示意图;
图3是根据本申请的NLP算法模型训练的的流程图;
图4是根据本申请的基于NLP算法模型的自动数据分类分级系统的示意图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请的基于NLP算法模型的自动数据分类分级方法的的流程图,图2示出了根据本申请的基于NLP算法模型的自动数据分类分级方法的主要框架示意图,结合参考图1和图2,该方法包括以下步骤:
S1、确定标准元素,并且根据分类分级标准对标准元素配置所属的分类目录。
在本实施例中,可以根据国家或者当地政府的分类分级标准,对此标准元素配置所属的分类目录。
S2、对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则。
在本实施例中,每条识别规则都有对应的可信度和优先级。可信度指对这条规则可以依赖的程度,它被设置为一个数值,会最终影响这条规则的匹配度。优先级指这条规则执行的先后顺序,它被设置为一个数值,数值越大优先级越高,程序会按照优先级从高到低依次匹配执行。
传统算法的识别规则包括:基于内容匹配、字段注释匹配、字段名的精确匹配、字段名的模糊匹配、前缀匹配、后缀匹配、正则匹配。
在一个实施例中,在步骤S2中,对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则,包括:
S211、添加传统算法的识别规则R1和NLP算法的识别规则R2;
S212、设置传统算法的识别规则R1的匹配类型为“字段名匹配”,设置传统算法的识别规则R1的匹配方法为“正则匹配”;设置NLP算法的识别规则R2的匹配方法为“NLP匹配”;以及
S213、分别设置传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级,并且传统算法的识别规则R1的优先级大于NLP算法的识别规则R2的优先级。
在另一个实施例中,在步骤S2中,对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则,包括:
S221、添加传统算法的识别规则R1和NLP算法的识别规则R2;
S222、设置传统算法的识别规则R1的匹配类型为“字段名匹配”,设置传统算法的识别规则R1的匹配方法为“正则匹配”;设置NLP算法的识别规则R2的匹配方法为“NLP匹配”;以及
S223、分别设置传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级,并且传统算法的识别规则R1的优先级小于NLP算法的识别规则R2的优先级。
S3、基于识别规则训练NLP模型,根据识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果。
图3示出了根据本申请的NLP算法模型训练的的流程图,参考图3,本申请基于识别规则训练NLP模型具体包括以下子步骤:
S31、将预处理数据的字段名全部转为小写字母,并且去掉特殊符号和数字;
S32、根据空格和标点符号拆分,对步骤S31预处理后的数据进行拆分;
S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文;
S34、对步骤S32处理后的数据进行分词,获得多种组合结果;
S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的组合结果,最终获得匹配结果。
S4、从多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对匹配度最高的结果所对应的标准元素标记分类标签。
以下针对“身份证”的匹配为例,对本申请的方案进行详细阐述。
(1)识别规则的NLP模型训练
第一步,首先将“identity_cardNo”中的英文或者汉语拼音的大小写字母全部转为小写字母,得到的结果为“identity_cardno”。
第二步,对“identity_cardno”进行拆分,可通过下滑线拆分成多个组成字符串,然后将多个组成的字符串输出到下一步,即拆分成identity、cardno。
第三步,根据语言模型和汉语拼音声母韵母的规范对identity、cardno进行语言识别,通过检测判断,可知identity、cardno不符合汉语拼音的书写规范,则可以判断这些单词为英文单词或者英文缩写,进行下一步。
第四步,对较长的英文单词进行分词,然后对多个单独的字符串进行排列组合,形成多种组合结果。此处,cardno通过分词,拆分成card和no两个单词,则拆分后为identity、card、no。
第五步,基于第三步的基础,已推断出单词类型为英文,根据英文单词词库内容,identity、card、no为英文单词,分别代表身份、证件、号码。
第六步,得出结果,根据上一步推断补全的结果,得到此字段名为身份证号码。
(2)新建一个新的标准元素STD01,元素编码为“identity_card”,元素名称为“身份证”,根据《网络安全标准实践指南—网络数据分类分级指引》作为指导,对此标准元配置所属的分类目录为“个人身份信息/个人信息”。
(3)对此标准元素添加识别规则,首先,添加一条传统算法规则R1,设置R1的匹配类型为“字段名匹配”,设置R1的匹配方法为“正则匹配”,设置正则匹配的内容为“\s*?_card”,设置R1可信度为“80”,优先级为“1”。其次,添加一条NLP算法规则R2,设置R2的匹配类型为“字段注释匹配”,设置R2的匹配方法为“NLP匹配”,设置R2的匹配内容为“身份证”,设置R2可信度为“90”,优先级为“2”,匹配度阈值为“0.8”。
(4)假设待匹配的资产A01,字段名为“id_card”,字段注释为“身份证号码”。如图2所示,程序的匹配流程的步骤如下:首先,对每个标准元素的识别规则优先级进行排序,在此实施实例中R2的优先级大于R1,其次,程序会按识别规则的优先级从高到低依次执行匹配逻辑,先匹配R2规则,判断识别方法是否为“NLP匹配”,如果为“NLP匹配”,会解析待匹配的数据,然后通过训练得到的抽取模式进行匹配,最终得到一个匹配结果。在此实施实例中,NLP会匹配“身份证号码”和“身份证”的相似度,相似度大小很大的原因取决于训练集的准确性。如果NLP匹配的结果中相似度大于匹配阈值0.8(相似度最高为1),则会添加此资产与标准元素的绑定关系。如果不是“NLP匹配”,则会执行传统算法匹配逻辑,传统算法匹配时会根据出不同的匹配方式执行不同的匹配逻辑,在此实施实例中,会判断“id_card”是否符合R1的正则规则“\s*?_card”,如果符合,则添加此资产与标准元素的绑定关系。
(5)待匹配的资产A01根据步骤(4)匹配到标准元素STD01,程序会自动对资产A01打上标准元素STD01配置的分类目录(“个人身份信息/个人信息”),即资产A01所属的分类目录为“个人身份信息/个人信息”。
本发明提供的NLP模型训练方法,政府或者企业可以通过训练自己特有的数据集,提高程序的匹配度,从而提高分类分级的准确度;通过NLP算法和传统算法能够自动进行分类分级,取代人工分类,实现高效、灵活、智能地分类分级;对分类分级结果,创建NLP学习模型训练任务,建立知识算法,能够实现持续地、快速地数据分类分级能力。
进一步参考图4,作为对上述方法的实现,本申请提供了基于NLP算法模型的自动数据分类分级系统的一个实施例,该系统实施例与图1所示的方法实施例相对应,该系统具体可以应用于各种电子设备中。该系统400包括以下模块:
确定标准元素模块410,用于确定标准元素,并且根据分类分级标准对标准元素配置所属的分类目录;
添加识别规则模块420,用于对标准元素添加识别规则,设置每条识别规则的可信度和优先级,识别规则包括传统算法的识别规则和NLP算法的识别规则;
匹配模块430,基于识别规则训练NLP模型,根据识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果;以及
标记模块440,从多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对匹配度最高的结果所对应的标准元素标记分类标签。
在匹配模块430中,基于识别规则训练NLP模型具体包括以下子步骤:
S31、将预处理数据的字段名全部转为小写字母,并且去掉特殊符号和数字;
S32、根据空格和标点符号拆分,对步骤S31预处理后的数据进行拆分;
S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文;
S34、对步骤S32处理后的数据进行分词,获得多种组合结果;S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的组合结果,最终获得匹配结果。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实施如上述中任一项方法。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一确定单元、第二确定单元、生成单元、第一提取单元和第一存储单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一确定单元还可以被描述为“确定预设的事件信息列表中是否存在新增的事件信息的单元”。作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定预设的事件信息列表中是否存在新增的事件信息,其中,事件信息列表中的每个事件信息包括事件描述信息;响应于确定存在,将新增的事件信息确定为目标事件信息;识别目标事件信息的事件描述信息,生成目标事件信息的标签;从目标事件信息中提取要素信息集合;将目标事件信息、要素信息集合、标签关联存储到预设的事件信息库中。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种基于NLP算法模型的自动数据分类分级方法,其特征在于,包括以下步骤:
S1、确定标准元素,并且根据分类分级标准对所述标准元素配置所属的分类目录;
S2、对所述标准元素添加识别规则,设置每条识别规则的可信度和优先级,所述识别规则包括传统算法的识别规则和NLP算法的识别规则;
S3、基于所述识别规则训练NLP模型,根据所述识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果;以及
S4、从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对所述匹配度最高的结果所对应的标准元素标记分类标签。
2.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法,其特征在于,在步骤S3中,基于所述识别规则训练NLP模型具体包括以下子步骤:
S31、将所述预处理数据的字段名全部转为小写字母,并且去掉特殊符号和数字;
S32、根据空格和标点符号拆分,对步骤S31预处理后的数据进行拆分;
S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文;
S34、对步骤S32处理后的数据进行分词,获得多种组合结果;
S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述组合结果,最终获得匹配结果。
3.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法,其特征在于,在步骤S2中,传统算法的识别规则包括:基于内容匹配、字段注释匹配、字段名的精确匹配、字段名的模糊匹配、前缀匹配、后缀匹配、正则匹配。
4.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法,其特征在于,在步骤S2中,设置每条识别规则的可信度,所述可信度被设置为一个数值,所述可信度表示所述识别规则可以依赖的程度,影响所述识别规则的匹配度。
5.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法,其特征在于,在步骤S2中,设置每条识别规则的优先级,所述优先级被设置为一个数值,数值越大优先级越高,按照优先级从高到低依次匹配执行。
6.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法,其特征在于,在步骤S2中,对所述标准元素添加识别规则,设置每条识别规则的可信度和优先级,所述识别规则包括传统算法的识别规则和NLP算法的识别规则,包括:
S211、添加传统算法的识别规则R1和NLP算法的识别规则R2;
S212、设置所述传统算法的识别规则R1的匹配类型为“字段名匹配”,设置所述传统算法的识别规则R1的匹配方法为“正则匹配”;设置NLP算法的识别规则R2的匹配方法为“NLP匹配”;以及
S213、分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级,并且所述传统算法的识别规则R1的优先级大于NLP算法的识别规则R2的优先级。
7.根据权利要求1所述的基于NLP算法模型的自动数据分类分级方法,其特征在于,在步骤S2中,对所述标准元素添加识别规则,设置每条识别规则的可信度和优先级,所述识别规则包括传统算法的识别规则和NLP算法的识别规则,包括:
S221、添加传统算法的识别规则R1和NLP算法的识别规则R2;
S222、设置所述传统算法的识别规则R1的匹配类型为“字段名匹配”,设置所述传统算法的识别规则R1的匹配方法为“正则匹配”;设置NLP算法的识别规则R2的匹配方法为“NLP匹配”;以及
S223、分别设置所述传统算法的识别规则R1和NLP算法的识别规则R2的可信度和优先级,并且所述传统算法的识别规则R1的优先级小于NLP算法的识别规则R2的优先级。
8.一种基于NLP算法模型的自动数据分类分级系统,其特征在于,所述系统包括:
确定标准元素模块,用于确定标准元素,并且根据分类分级标准对所述标准元素配置所属的分类目录;
添加识别规则模块,用于对所述标准元素添加识别规则,设置每条识别规则的可信度和优先级,所述识别规则包括传统算法的识别规则和NLP算法的识别规则;
匹配模块,基于所述识别规则训练NLP模型,根据所述识别规则的优先级从高到低依次执行匹配逻辑,对预处理数据进行NLP算法匹配或者传统算法匹配,获得多个匹配结果;以及
标记模块,从所述多个匹配结果中找出匹配度最高的结果所对应的标准元素,并且对所述匹配度最高的结果所对应的标准元素标记分类标签。
9.根据权利要求8所述的基于NLP算法模型的自动数据分类分级系统,其特征在于,在匹配模块中,基于所述识别规则训练NLP模型具体包括以下子步骤:
S31、将所述预处理数据的字段名全部转为小写字母,并且去掉特殊符号和数字;
S32、根据空格和标点符号拆分,对步骤S31预处理后的数据进行拆分;
S33、通过语言模型和汉语拼音声母韵母的规范判断步骤S32拆分后的数据是拼音还是英文;
S34、对步骤S32处理后的数据进行分词,获得多种组合结果;
S35、根据英文单词的词库内容或者汉语拼音的书写规范推断补全步骤S34获得的所述组合结果,最终获得匹配结果。
10.一种计算机可读存储介质,所述介质中存储有计算机程序,在所述计算机程序被处理器执行时,实施如权利要求1-7中任一项所述的方法。
CN202211254591.6A 2022-10-13 2022-10-13 一种基于nlp算法模型的自动数据分类分级方法及系统 Pending CN115544256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211254591.6A CN115544256A (zh) 2022-10-13 2022-10-13 一种基于nlp算法模型的自动数据分类分级方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211254591.6A CN115544256A (zh) 2022-10-13 2022-10-13 一种基于nlp算法模型的自动数据分类分级方法及系统

Publications (1)

Publication Number Publication Date
CN115544256A true CN115544256A (zh) 2022-12-30

Family

ID=84734304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211254591.6A Pending CN115544256A (zh) 2022-10-13 2022-10-13 一种基于nlp算法模型的自动数据分类分级方法及系统

Country Status (1)

Country Link
CN (1) CN115544256A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271679A (zh) * 2023-11-22 2023-12-22 华信咨询设计研究院有限公司 一种基于训练模型的数据库表分类分级方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271679A (zh) * 2023-11-22 2023-12-22 华信咨询设计研究院有限公司 一种基于训练模型的数据库表分类分级方法及系统

Similar Documents

Publication Publication Date Title
US10372821B2 (en) Identification of reading order text segments with a probabilistic language model
CN109460551B (zh) 签名信息提取方法及装置
US20170147688A1 (en) Automatically mining patterns for rule based data standardization systems
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110765889A (zh) 法律文书的特征提取方法、相关装置及存储介质
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN115544256A (zh) 一种基于nlp算法模型的自动数据分类分级方法及系统
CN113205814B (zh) 语音数据标注方法、装置、电子设备及存储介质
CN112989043B (zh) 指代消解方法、装置、电子设备及可读存储介质
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN110705211A (zh) 文本重点内容标记方法、装置、计算机设备及存储介质
CN114218940A (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN112232088A (zh) 合同条款风险智能识别方法、装置、电子设备及存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN110852082B (zh) 同义词的确定方法及装置
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN112070093A (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
US11765193B2 (en) Contextual embeddings for improving static analyzer output
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN112819622B (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination