CN112613317A

CN112613317A - 一种文本数据清洗方法及装置

Info

Publication number: CN112613317A
Application number: CN202011621579.5A
Authority: CN
Inventors: 钟新斌
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-06
Anticipated expiration: 2040-12-30
Also published as: CN112613317B

Abstract

本申请公开了一种文本数据清洗方法及装置，该方法包括：获取预设数量个待清洗机构名。对目标机构名进行分词操作，获得目标机构名的各个词；目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，将各个事件按照词的先后顺序进行排序，获得事件流。按照匹配规则表对事件流进行清洗，获得保留下来的事件流，进而确定保留下来的机构名。通过该方法，将待清洗机构名进行分词和词性标注，将其封装成事件流，并结合CEP模式对待清洗机构名清洗，解决了待清洗机构名噪声多的问题。

Description

一种文本数据清洗方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本数据清洗方法及装置。

背景技术

随着大数据发展，企业对文本数据处理的需要日益旺盛。从海量的文本数据中提取得到的机构名实体识别结果可用于构建信贷关系图谱、识别机构间风险传递等。

目前，通常采用角色标注、监督学习等手段实现从海量的文本数据中提取出机构名实体识别结果，但是获得的机构名实体识别结果中通常还含有大量的噪声信息，噪声信息的存在会给后续应用带来不好的影响。

因此，进一步对机构名实体识别结果这类文本数据进行清洗以得到准确的机构名是十分重要的。

发明内容

为了解决上述技术问题，本申请提供了一种文本数据清洗方法及装置，用于对初步得到的机构名实体识别结果进行进一步清洗以得到准确的机构名。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种文本数据清洗方法，该方法包括：

获取预设数量个待清洗机构名；

对目标机构名进行分词操作，获得所述目标机构名的各个词；所述目标机构名为所述待清洗机构名中的任意一个；

根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注，获得所述目标机构名的各个词所对应的词性模式；

将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个所述事件按照所述词的先后顺序进行排序，获得事件流；一个所述词性模式对应一个所述事件；

按照匹配规则表对所述事件流进行清洗，获得保留下来的事件流；

基于所述保留下来的事件流确定保留下来的机构名。

可选的，在所述获取预设数量个待清洗机构名之前，所述方法还包括：

设置所述匹配规则表；所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。

可选的，所述按照匹配规则表对所述事件流进行清洗，获得保留下来的事件流，包括：

按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串；

对符合所述清洗规则对应的模式串的事件流进行清洗；

对不符合所述清洗规则对应的模式串的事件流进行保留；

获得保留下来的事件流。

设置自定义词库；所述自定义词库包括实体后缀词。

本申请实施例还提供了一种文本数据清洗装置，该装置包括：

第一获取单元，用于获取预设数量个待清洗机构名；

分词单元，用于对目标机构名进行分词操作，获得所述目标机构名的各个词；所述目标机构名为所述待清洗机构名中的任意一个；

词性标注单元，用于根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注，获得所述目标机构名的各个词所对应的词性模式；

第二获取单元，用于将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个所述事件按照所述词的先后顺序进行排序，获得事件流；一个所述词性模式对应一个所述事件；

清洗单元，用于按照匹配规则表对所述事件流进行清洗，获得保留下来的事件流；

确定单元，用于基于所述保留下来的事件流确定保留下来的机构名。

可选的，所述装置还包括：

第一设置单元，用于在所述获取预设数量个待清洗机构名之前，设置所述匹配规则表；所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。

可选的，所述清洗单元包括：

判断子单元，用于按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串；

清洗子单元，用于对符合所述清洗规则对应的模式串的事件流进行清洗；

保留子单元，用于对不符合所述清洗规则对应的模式串的事件流进行保留；

获取子单元，用于获得保留下来的事件流。

可选的，所述装置还包括：

第二设置单元，用于在所述获取预设数量个待清洗机构名之前，设置自定义词库；所述自定义词库包括实体后缀词。

通过上述技术方案可知，本申请具有以下有益效果：

本申请实施例提供了一种文本数据清洗方法及装置，该方法包括：获取预设数量个待清洗机构名。对目标机构名进行分词操作，获得目标机构名的各个词；目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个事件按照词的先后顺序进行排序，获得事件流；一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗，获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。通过该方法，将待清洗机构名进一步分词和二次词性标注，并按词性出现的先后顺序封装成事件流，并结合CEP模式实现对待清洗机构名的进一步清洗，解决了当前机构名实体识别结果噪声多、精度低的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文本数据清洗方法的流程图；

图2为本申请实施例提供的一种文本数据清洗装置的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为了便于理解和解释本申请实施例提供的技术方案，下面先对本申请实施例的背景技术进行说明。

随着大数据及自然语言处理相关技术的发展，企业对文本数据处理的需要越来越旺盛。在海量的文本信息中，通常蕴含了大量的人名、机构名等实体信息，从这些文本中提取这些实体信息具有重要价值。比如商业银行，可以从大量的档案、文本及行外的Web页面中，获取相关的机构实体信息，用于构建信贷关系图谱、识别机构间风险传递等信息。

当前机构名实体识别领域，通常采用角色标注、监督学习等手段实现从海量文本中识别其中的机构名实体信息，但是这些机构名实体识别结果中通常还包括大量的噪声信息，比如“3家集团”、“北京的公司”、“几家保险公司”、“一些公司”等。这些错误的机构名识别结果给后续应用带来影响，需要对获得的机构名识别结果进行进一步的清洗和精炼。

鉴于此，本申请实施例提供了一种文本数据清洗方法及装置，该方法包括：获取预设数量个待清洗机构名。对目标机构名进行分词操作，获得目标机构名的各个词；目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个事件按照词的先后顺序进行排序，获得事件流；一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗，获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。

参见图1，图1为本申请实施例提供的一种文本数据清洗方法的流程图。如图1所示，该方法可以包括S101-S106：

S101：获取预设数量个待清洗机构名。

获取预设数量个待清洗机构名。

需要说明的是，待清洗机构名即为获得的机构名实体识别结果。其中，实体识别结果也称为专名识别，是指识别文本数据中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。则机构名实体识别结果为其中一种。

机构名实体识别结果是从海量的文本数据中初步提取得到的。接下来要做的即为对待清洗机构名这类文本数据进行进一步的清洗。

可以理解的是，预设数量根据实际情况进行选取，这里对预设数量不做限定。

具体实施时，在获取预设数量个待清洗机构名之前，还包括：

设置匹配规则表；匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。具体的，根据匹配规则表中的清洗规则对应的模式串和保留规则对应的模式串可以确定待清洗机构名是否需要被清洗。

如表1所示，表1为待清洗机构名匹配规则表。

表1待清洗机构名匹配规则表

另外，在获取预设数量个待清洗机构名之前，方法还包括：

设置自定义词库；自定义词库包括实体后缀词。

具体实施时，在系统中设置自定义词库。比如将“公司”、“集团”等实体后缀词设置在该词库中。即自定义词库中设置的是后续分词组件中无法识别词性的词及其对应词性。

作为一种示例，任一个待清洗机构名设置一个停止标识，停止标识用于区分前后两个待清洗机构名。

S102：对目标机构名进行分词操作，获得目标机构名的各个词；目标机构名为待清洗机构名中的任意一个。

对目标机构名进行分词操作，获得目标机构名的各个词。其中，目标机构名为待清洗机构名中的任意一个。也就是说，对每个待清洗机构名均进行分词操作，获取每个待清洗机构名的各个词。

具体实施时，通过分词组件对待清洗机构名进行分词。需要说明的是，分词组件为能够将待清洗机构名按照词性进行分词的组件。可以理解的是，可根据实际情况进行分词组件的选取。

S103：根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。

获取目标机构名的各个词之后，根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。其中，词性标注为根据句子的上下文信息给句子中的每个词确定一个最为合适的词性标记。

具体实施时，词性设定模式可以从二次标注词性表中获取。如表2所示，表2为待清洗机构名二次标注词性表。其中，P、T、N、M分别代表地名、停词、数词和量词。F代表实体后缀词，按照自定义词库进行匹配，即自定义词库中的词所对应的模式均为F。

需要说明的是，P、T、N、M可通过分词组件，如hanlp，进行识别。

表2待清洗机构名二次标注词性表

S104：将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个事件按照词的先后顺序进行排序，获得事件流；一个词性模式对应一个事件。

在对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式之后，将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个事件按照词的先后顺序进行排序，获得事件流；一个词性模式对应一个事件。

具体的，将目标机构名的各个词所对应的词性模式转换成Flink的复杂事件处理CEP中的各个事件。其中，Flink为一种流处理框架，以数据并行和流水线方式执行任意流数据程序。复杂事件处理(Complex Event Processing，CEP)为一种基于动态环境中事件流的分析技术，事件这里指有意义的状态变化，通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的时序关系和聚合关系制定检测规则，持续地从事件流中查询出符合要求的事件序列，最终分析得到更复杂的复合事件。

需要说明的是，该事件流对应目标机构名，即任一个待清洗机构名。作为一种示例，事件流可以对应多个待清洗机构名，任一个待清洗机构名设置一个停止标识，停止标识用于区分前后两个待清洗机构名。

可以理解的是，将目标机构名的各个词所对应的词性模式生成Flink CEP事件，结合Flink复杂事件处理机制，可实现后续步骤中对无效、异常机构信息的清洗过滤，从而实现命名实体结果识别结果的精练。

另外，采用Flink复杂事件处理进行事件的匹配，支持流批一体处理，还支持分布式。

S105：按照匹配规则表对事件流进行清洗，获得保留下来的事件流。

生成事件流之后，结合Flink复杂事件处理机制，按照匹配规则表对事件流进行清洗，获得保留下来的事件流。

具体实施时，按照匹配规则表对事件流进行清洗，获得保留下来的事件流，包括：

按照匹配规则表判断事件流是否符合清洗规则对应的模式串；

对符合清洗规则对应的模式串的事件流进行清洗；

对不符合清洗规则对应的模式串的事件流进行保留；

获得保留下来的事件流。

需要说明的是，当事件流符合清洗规则对应的模式串时，对该事件流进行清洗，则该事件流所对应的待清洗机构名被过滤掉。当事件流符合保留规则对应的模式串，即不符合清洗规则对应的模式串时，对该事件流进行保留，则该事件流所对应的待清洗机构名被保留。具体的，清洗规则对应的模式串和保留规则对应的模式串参见表1。例如，若待清洗机构名为“一个公司”，该待清洗机构名所对应的事件流为NMF。则符合表1中的第三条清洗规则对应的模式串(NM：出现数量词组合)，则需要清洗掉该事件流。

S106：基于保留下来的事件流确定保留下来的机构名。

当所有的预设数量个待清洗机构名对应的事件流均根据匹配规则表进行匹配处理后，基于保留下来的事件流确定保留下来的机构名。

通过本申请实施例提供的一种文本数据清洗方法，获取预设数量个待清洗机构名。对目标机构名进行分词操作，获得目标机构名的各个词；目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个事件按照词的先后顺序进行排序，获得事件流；一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗，获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。通过该方法，将待清洗机构名进一步分词和二次词性标注，并按词性出现的先后顺序封装成事件流，并结合CEP模式实现对待清洗机构名的进一步清洗，解决了当前机构名实体识别结果噪声多、精度低的问题。同时，引入Flink复杂事件处理机制，将清洗过程转换成复杂事件处理过程，满足了流处理和批处理。

本发明对机构名实体识别结果进行二次角色标注，能够对初步筛选的实时机构名进行二次清洗。

参见图2，图2为本申请实施例提供的一种文本数据清洗装置的示意图。所述装置可以包括：

第一获取单元201，用于获取预设数量个待清洗机构名；

分词单元202，用于对目标机构名进行分词操作，获得所述目标机构名的各个词；所述目标机构名为所述待清洗机构名中的任意一个；

词性标注单元203，用于根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注，获得所述目标机构名的各个词所对应的词性模式；

第二获取单元204，用于将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个所述事件按照所述词的先后顺序进行排序，获得事件流；一个所述词性模式对应一个所述事件；

清洗单元205，用于按照匹配规则表对所述事件流进行清洗，获得保留下来的事件流；

确定单元206，用于基于所述保留下来的事件流确定保留下来的机构名。

可选的，在本申请实施例的一些实施方式中，所述装置还包括：

可选的，在本申请实施例的一些实施方式中，所述清洗单元205包括：

获取子单元，用于获得保留下来的事件流。

通过本申请实施例提供的一种文本数据清洗装置，获取预设数量个待清洗机构名。对目标机构名进行分词操作，获得目标机构名的各个词；目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注，获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件，并将各个事件按照词的先后顺序进行排序，获得事件流；一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗，获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。通过该装置，将待清洗机构名进一步分词和二次词性标注，并按词性出现的先后顺序封装成事件流，并结合CEP模式实现对待清洗机构名的进一步清洗，解决了当前机构名实体识别结果噪声多、精度低的问题。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见系统部分说明即可。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本数据清洗方法，其特征在于，所述方法包括：

获取预设数量个待清洗机构名；

基于所述保留下来的事件流确定保留下来的机构名。

2.根据权利要求1所述的方法，其特征在于，在所述获取预设数量个待清洗机构名之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述按照匹配规则表对所述事件流进行清洗，获得保留下来的事件流，包括：

对符合所述清洗规则对应的模式串的事件流进行清洗；

对不符合所述清洗规则对应的模式串的事件流进行保留；

获得保留下来的事件流。

4.根据权利要求1所述的方法，其特征在于，在所述获取预设数量个待清洗机构名之前，所述方法还包括：

设置自定义词库；所述自定义词库包括实体后缀词。

5.一种文本数据清洗装置，其特征在于，所述装置包括：

第一获取单元，用于获取预设数量个待清洗机构名；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述清洗单元包括：

获取子单元，用于获得保留下来的事件流。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：