CN116956930A

CN116956930A - 一种融合规则和学习模型的短文本信息提取方法及系统

Info

Publication number: CN116956930A
Application number: CN202311213748.5A
Authority: CN
Inventors: 蒋志鹏; 张建宇; 戴帅夫; 杨洪鹏
Original assignee: Beijing Jiuqi Technology Co ltd
Current assignee: Beijing Jiuqi Technology Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-10-27

Abstract

本发明公开了一种融合规则和学习模型的短文本信息提取方法，包括：获取短文本数据；对短文本数据进行预处理，得到预处理短文本数据；对预处理短文本数据进行标注，得到标注短文本数据；通过HyperScan模块对标注短文本数据进行处理，处理后的数据构成HyperScan数据库；将目标短文本输入至HyperScan模块，基于HyperScan数据库进行匹配，得到第一识别序列；基于标注短文本数据对学习模型进行训练，得到优化学习模型；将目标短文本输入至优化学习模型，得到第二识别序列；基于第一识别序列和第二识别序列确定目标短文本的提取信息。能够提高数据质量，减少人工成本，高效精准的提取短文本信息。

Description

一种融合规则和学习模型的短文本信息提取方法及系统

技术领域

本发明涉及数据处理技术领域，更具体的说是涉及一种融合规则和学习模型的短文本信息提取方法及系统。

背景技术

目前，随着互联网技术和移动通信技术的快速发展，人们使用短信的数量越来越大，短信营销成为了进行客户推广和营销的一种常见方式，也成为了移动互联网营销的重要组成部分，使得短信信息提取技术变得越来越重要。

传统的规则信息提取方法是通过人工设定一系列规则来进行短信分类和信息提取，这种方法的缺点是需要人工设计规则，且规则的泛化性较差；而基于机器学习的挖掘方法则是通过学习大量已知的短信样本来训练模型，通过使用训练好的模型对新的短信进行分类和信息提取，这种方法的优点是可以自动学习和适应新的短信样本，但其缺点是需要大量的标注数据和计算资源。

短信数据挖掘虽然在很多领域有着广泛的应用，但存在以下问题：短信数据的质量往往比较差，存在着垃圾短信、格式不规范、语言混乱等问题，影响算法的准确性和效率；随着数据量增加，需要大量人工参与标注，运行效率低。

因此，如何提高数据质量，减少人工成本，高效精准的提取短文本信息是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种融合规则和学习模型的短文本信息提取方法及系统，能够提高数据质量，减少人工成本，高效精准的提取短文本信息。

为了实现上述目的，本发明采用如下技术方案：

一种融合规则和学习模型的短文本信息提取方法，包括：

获取短文本数据；

对所述短文本数据进行预处理，得到预处理短文本数据；

对所述预处理短文本数据进行标注，得到标注短文本数据；

通过HyperScan模块对所述标注短文本数据进行处理，处理后的数据构成HyperScan数据库；

将目标短文本输入至所述HyperScan模块，基于所述HyperScan数据库进行匹配，得到第一识别序列；

基于所述标注短文本数据对学习模型进行训练，得到优化学习模型；

将所述目标短文本输入至所述优化学习模型，得到第二识别序列；

基于所述第一识别序列和所述第二识别序列确定所述目标短文本的提取信息。

优选的，对所述短文本数据进行预处理，具体包括：

对所述短文本数据依次进行清洗处理、聚类处理和去重处理；

所述清洗处理具体为：删除所述短文本数据中冗余的、乱码组成的、仅由数字字母组成的数据；

所述聚类处理具体为：对清洗处理后的短文本数据提取多个关键词，并根据提取的多个关键词对所述短文本数据进行聚类；

所述去重处理具体为：统计具有相同关键词的短文本数据，并按照相同关键词个数由多到少排序，选取相同关键词最多的短文本数据作为相似短文本数据，并对所述相似短文本数据进行去重。

优选的，所述清洗处理之前，还包括去隐私化处理，具体为：

对所述短文本数据中包含的用户隐私信息进行随机生成并替换，所述用户隐私信息至少包括：姓名、地址和数字信息。

优选的，对所述预处理短文本数据进行标注，具体包括：

通过正则表达式对所述预处理短文本数据进行标注，得到标注短文本数据，为所述标注短文本数据赋予场景、类别和ID三个标签。

优选的，得到第一识别序列，具体包括：

将目标短文本输入至所述HyperScan模块，所述HyperScan模块调用所述HyperScan数据库进行匹配，得到匹配结果及对应的ID；

根据所述ID与所述标注短文本数据进行匹配，得到以一个字对应一个命名实体识别标签的第一识别序列。

优选的，所述优化学习模型包括：优化的分词模型和优化的词性标注模型。

优选的，得到第二识别序列，具体包括：

将所述目标短文本输入至所述分词模型进行分词，得到分词结果；

通过所述词性标注模型对所述分词结果进行标注，得到以一个字对应一个命名实体识别标签的第二识别序列。

优选的，确定所述目标短文本的提取信息，具体包括：

根据所述第一识别序列确定所述目标短文本的提取信息；

只有当所述第一识别序列不能识别实体，且所述第二识别序列能识别实体时，根据所述第二识别序列确定所述目标短文本的提取信息。

一种融合规则和学习模型的短文本信息提取系统，包括：获取模块、预处理模块、标注模块、第一识别模块、第二识别模块和信息提取模块；

所述获取模块，用于获取短文本数据；

所述预处理模块，用于对所述短文本数据进行预处理，得到预处理短文本数据；

所述标注模块，用于对所述预处理短文本数据进行标注，得到标注短文本数据；

所述第一识别模块，用于通过HyperScan模块对所述标注短文本数据进行处理，处理后的数据构成HyperScan数据库；将目标短文本输入至所述HyperScan模块，基于所述HyperScan数据库进行匹配，得到第一识别序列；

所述第二识别模块，用于基于所述标注短文本数据对学习模型进行训练，得到优化学习模型；将所述目标短文本输入至所述优化学习模型，得到第二识别序列；

所述信息提取模块，用于基于所述第一识别序列和所述第二识别序列确定所述目标短文本的提取信息。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种融合规则和学习模型的短文本信息提取方法及系统，数据预处理阶段，本发明通过数据清洗、文本聚类、文本去重能够在海量短文本信息中抽取出高质量具有代表性的数据，方便人工标注，解决人工标注数据费时费力的问题；生成第一识别序列阶段，基于规则的方法源于语言特定的模式和模式匹配，使得在特定短信内容中具有更高的准确性；规则由相关领域专家制定，可以更容易地更新或修改规则以适应新的或变化的需求，能够更好地处理未知实体和边界情况；本发明使用HyperScan加速正则表达式推理，能够有效的缩短运算时间，实现海量短信实体的高效精准提取；规则制定依赖领域专家经验，受到人为主观意识局限，难以满足大数据场景下的多样化需求，因此本发明基于机器学习模型生成第二识别序列，通过机器学习感知机模型识别命名实体，作为规则模型的补充，在保证运算效率的前提下提供更强的泛化能力，使得整个系统能够同时兼顾规则精度高、算法模型泛化能力强的优势，最大化短文本信息提取效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的融合规则和学习模型的短文本信息提取方法流程图。

图2为本发明提供的短文本数据预处理流程图。

图3为本发明提供的融合规则和学习模型的短文本信息提取系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明实施例公开了一种融合规则和学习模型的短文本信息提取方法，其特征在于，包括：

获取短文本数据；

对短文本数据进行预处理，得到预处理短文本数据；

对预处理短文本数据进行标注，得到标注短文本数据；

通过HyperScan模块对标注短文本数据进行处理，处理后的数据构成HyperScan数据库；

将目标短文本输入至HyperScan模块，基于HyperScan数据库进行匹配，得到第一识别序列；

基于标注短文本数据对学习模型进行训练，得到优化学习模型；

将目标短文本输入至优化学习模型，得到第二识别序列；

基于第一识别序列和第二识别序列确定目标短文本的提取信息。

实施例2

获取短文本数据。

对短文本数据进行预处理，得到预处理短文本数据。

优选的，如图2所示，对短文本数据进行预处理，具体包括：

对短文本数据依次进行去隐私化处理、清洗处理、聚类处理和去重处理，能够在海量的短文本数据中抽取出高质量的具有代表性的数据，方便人工标注，缩短数据标注时间，减少人工成本。

去隐私化处理具体为：对短文本数据中包含的用户隐私信息进行随机生成并替换，用户隐私信息至少包括：姓名、地址和数字信息，避免短文本内容的泄露和滥用。

优选的，本发明收集百家姓氏以及常见的名作为姓名库，使用开源算法获取用户姓名，随机在姓名库中抽取一个姓氏，再随机抽取姓名库中一个或两个字随机组成姓名，将其替换在短文本数据中。

优选的，收集不同等级区分的行政区，从大到小依次是一级省级行政区，包括省、自治区、直辖市、特别行政区；二级地级行政区，包括地级市、地区、自治州、盟；三级县级行政区，包括市辖区、县级市、县、自治县、旗、自治旗、特区、林区；四级乡级行政区，包括街道、镇、乡、民族乡、苏木、民族苏木、县辖区；对四级行政区以上的地址做同等级的随机生成并将其替换在短文本数据中。

优选的，用户数字信息以同等位数随机生成并替换。

例如：短文本信息“【×州燃气集团】温馨提示：尊敬的客户：刘×，客户编号：750××××××，地址：××市××区花园小区3栋1单元4-2”，去隐私化处理后为“【×州燃气集团】温馨提示：尊敬的客户：张三，客户编号：683271893，地址：××市××区花园小区9栋5单元3-9”。

清洗处理具体为：删除短文本数据中冗余的、乱码组成的、仅由数字字母组成的数据；结合数据清洗脚本和正则表达式对短文本数据中掺杂乱码、零宽字符、字符编码的信息进行处理。

聚类处理具体为：对清洗处理后的短文本数据提取多个关键词，并根据提取的多个关键词对短文本数据进行聚类。

优选的，以短文本所发平台的名称作为第一个关键词，利用jieba分词工具中TF-IDF方法提取两个关键词，若无短文本所发平台的名称则提取三个关键词，以这三个关键词表示短文本内容的主要特征；使用pandas数据处理工具依据关键词对短文本进行聚类，统计相同关键词的短文本的相似数目，按照相似数目从大到小排序，具有相同关键词的短文本标记相同的唯一索引。

去重处理具体为：统计具有相同关键词的短文本数据，并按照相同关键词个数由多到少排序，选取相同关键词最多的短文本数据作为相似短文本数据，并对所述相似短文本数据进行去重。

优选的，对短文本数据聚类后，按照相似数目从大到小使用Simhash算法去重，分别对各个索引的短文本分块聚类，设定阀值，当相似数目小于阀值，则不采用分块聚类，对不采用分块聚类的所有短文本数据使用Simhash去重，保存各短文本数据除本身外最相似短文本数据，并对相似短文本数据进行去重。

对预处理短文本数据进行标注，得到标注短文本数据。

优选的，对预处理短文本数据进行标注，具体包括：

使用正则表达式中的前瞻、后顾、负前瞻、负后顾四种用法对预处理短文本数据进行标注，得到标注短文本数据，例如：“尊敬的客户：张三，客户编号：683271893”中，想将客户编号的号码提取出来，应使用正则表达式中后顾用法，正则表示为“(?<=客户编号[：:])[0-9]+”，以此来标注数据。

优选的，标注完成后，为标注短文本数据赋予场景、类别和ID三个标签；如表1所示，第一列用来存储正则表达式，第二列表示场景标签，第三列表示类别标签，最后一列为正则表达式的ID标签。

优选的，能够根据结果中的ID修改对应的正则表达式，用来维护时的反查。

通过HyperScan模块对标注短文本数据进行处理，处理后的数据构成HyperScan数据库。

优选的，HyperScan模块不支持前瞻、后顾等形式，需要对前、瞻后顾处理成可以识别的格式，需要处理的字符串如表2所示：

优选的，Hyperscan是一款来自于Intel的高性能的正则表达式匹配库。其基于自动机理论，将正则表达式编译为状态机，在编译期生成数据库，运行期利用该数据库进行模式匹配，实现高效的模式匹配。Hyperscan基于X86平台以PCRE为原型开发，在支持PCRE的大部分语法的前提下，增加了特定的语法和工作模式来保证其在真实网络场景下的实用，大量高效算法及IntelSIMD*指令的使用实现了Hyperscan的高性能匹配。同时，Hyperscan支持多CPU核或多线程场景下的匹配扩展性，适用于DPI/IPS/IDS/FW等网络安全场景，并支持开源IDS/IPS产品Snort和Suricata集成。Hyperscan通过先进的技术和高效的工作模式，实现了高性能的正则表达式匹配，初始目的是为网络应用和网络安全方案提供强有力的支持。

将目标短文本输入至HyperScan模块，基于HyperScan数据库进行匹配，得到第一识别序列。

优选的，得到第一命名实体识别标签，具体包括：

将目标短文本输入至HyperScan模块，HyperScan模块调用HyperScan数据库进行匹配，得到匹配结果及对应的ID；HyperScan处理正则表达式的速度快，能够有效地避免因数据和正则表达式过多导致的效率低的问题；

根据ID与标注短文本数据进行匹配，得到以一个字对应一个命名实体识别标签的第一识别序列。

优选的，第一识别序列格式为：实体1_场景1_类别1_ID；实体2_场景1_类别2_ID；...。

基于标注短文本数据对学习模型进行训练，得到优化学习模型。

优选的，将标注短文本数据处理成以词为单位的词性标注格式，例如“我/O爱/O北京/Address”，将处理后的数据作为训练集对学习模型进行训练。

优选的，学习模型包括：基于感知机的分词模型和基于感知机的词性标注模型；使用开源工具Hanlp（Han Language Processing 汉语言处理包）训练基于感知机的分词模型和感知机的词性标注模型，对应得到基于感知机的优化分词模型和基于感知机的优化词性标注模型。

优选的，基于感知机的机器学习模型运算效率高，适用于处理大量数据的情况。

将目标短文本输入至优化学习模型，得到第二识别序列。

优选的，得到第二识别序列，具体包括：

将目标短文本输入至优化分词模型进行分词，得到分词结果；

通过优化词性标注模型对分词结果进行标注，得到以一个字对应一个命名实体识别标签的第二识别序列。

优选的，第二识别序列与第一识别序列格式相同。

优选的，确定目标短文本的提取信息，具体包括：

若第一识别序列能够识别实体，则根据第一识别序列确定目标短文本的提取信息；

若只有第二识别序列能够识别实体，则根据第二识别序列确定目标短文本的提取信息；

若第一识别序列和第二识别序列均能识别实体，则根据第一识别序列确定目标短文本的提取信息。

优选的，将上述方法封装成UDF函数，UDF函数数据处理流程如下：

加载正则表达式文件和HyperScan数据库，并将其处理成广播形式避免重复调用；

然后遍历HyperScan数据库对每条短文本数据进行粗粒度的正则匹配，将匹配到的ID传回，再调用相应ID的正则表达式细粒度的匹配，最后返回结果。

实施例3

验证融合规则和机器学习模型的短文本信息提取方法的优越性，通过与单独的规则、感知机进行准确率对比，对比结果如表3所示：

通过表格结果可以看出，本发明提出的规则和机器学习模型的融合方法对于短文本信息实体识别的准确率最高，并且仅在Label-6和Label-8标签与单一的规则和感知机方法持平，其余标签均高于单一方法，证明在识别相同实体数量的情况下，融合方法的短文本信息实体识别效果明显优于单一的规则和感知机方法。

实施例4

如图3所示，一种融合规则和学习模型的短文本信息提取系统，包括依次顺序连接的：获取模块、预处理模块和标注模块；还包括：分别与标注模块连接的第一识别模块和第二识别模块，与第一识别模块和第二识别模块均连接的信息提取模块；

获取模块，用于获取短文本数据；

预处理模块，用于对短文本数据进行预处理，得到预处理短文本数据；

标注模块，用于对预处理短文本数据进行标注，得到标注短文本数据；

第一识别模块，用于通过HyperScan模块对标注短文本数据进行处理，处理后的数据构成HyperScan数据库；将目标短文本输入至HyperScan模块，基于HyperScan数据库进行匹配，得到第一识别序列；

第二识别模块，用于基于标注短文本数据对学习模型进行训练，得到优化学习模型；将目标短文本输入至优化学习模型，得到第二识别序列；

信息提取模块，用于基于第一识别序列和第二识别序列确定目标短文本的提取信息。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种融合规则和学习模型的短文本信息提取方法，其特征在于，包括：

获取短文本数据；

对所述短文本数据进行预处理，得到预处理短文本数据；

对所述预处理短文本数据进行标注，得到标注短文本数据；

2.根据权利要求1所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，对所述短文本数据进行预处理，具体包括：

3.根据权利要求2所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，所述清洗处理之前，还包括去隐私化处理，具体为：

4.根据权利要求3所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，对所述预处理短文本数据进行标注，具体包括：

5.根据权利要求4所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，得到第一识别序列，具体包括：

6.根据权利要求5所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，所述优化学习模型包括：优化的分词模型和优化的词性标注模型。

7.根据权利要求6所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，得到第二识别序列，具体包括：

8.根据权利要求7所述的一种融合规则和学习模型的短文本信息提取方法，其特征在于，确定所述目标短文本的提取信息，具体包括：

根据所述第一识别序列确定所述目标短文本的提取信息；

9.一种融合规则和学习模型的短文本信息提取系统，其特征在于，包括：获取模块、预处理模块、标注模块、第一识别模块、第二识别模块和信息提取模块；

所述获取模块，用于获取短文本数据；