CN112597283B

CN112597283B - 通知文本信息实体属性抽取方法、计算机设备及存储介质

Info

Publication number: CN112597283B
Application number: CN202110241513.1A
Authority: CN
Inventors: 刘孟奇; 羊晋; 司俊俊; 涂波
Original assignee: Beijing Digital Specialty Technology Co ltd
Current assignee: Beijing Digital Specialty Technology Co ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-05-25
Anticipated expiration: 2041-03-04
Also published as: CN112597283A

Abstract

本发明提供了一种通知文本信息实体属性抽取方法、计算机设备及存储介质，其中，该方法包括：获取通知文本信息，所述通知文本信息包括服务商标识和通知文本内容；对通知文本内容进行分词，得到分词结果；根据分词结果查询预先建立的高频词汇表，得到文本特征；根据文本特征和服务商标识，利用预先训练的文本分类模型，计算得到服务类别；获取服务商标识和服务类别对应的预先建立的关键词和正则表达式的映射关系；利用快速文本匹配文本中包含的关键词并获取可能匹配的正则表达式集合，得到正则表达式集合；利用正则表达式集合提取通知文本内容的实体属性信息。通过上述方案能够基于服务消息与推送通知实现对用户画像和行为进行分析。

Description

通知文本信息实体属性抽取方法、计算机设备及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种通知文本信息实体属性抽取方法、计算机设备及存储介质。

背景技术

随着移动互联网技术的发展，多种多样的推送平台被用于服务消息与推送通知作为重要的消息推送手段，SP运营商通常通过定制的短信服务或者通知内容实现业务消息的提醒、登录验证等功能，比较常见是银行短信账单、网站注册登录验证码、快递递送通知、商品营销推送等，这些通知内容通常包含特定的用户行为信息，对应有消费行为、网站登录行为、快递服务、商品偏好等，所以基于服务消息与推送通知应能实现终端用户的画像与行为分析。

然而，现有的基于服务消息与推送通知提取信息中的有效实体并镜像用户画像与行为分析的方案大多是通过预设正则或是模板的方式，存在模板更新不及时的问题；而利用自然语言处理中实体抽取来实现用户画像则需要大量的计算资源。

发明内容

本发明提供了一种通知文本信息实体属性抽取方法、计算机设备及存储介质，以基于服务消息与推送通知实现对用户画像和行为进行分析。

为了达到上述目的，本发明采用以下方案实现：

根据本发明实施例的一个方面，提供了一种通知文本信息实体属性抽取方法，包括：

获取通知文本信息，所述通知文本信息包括服务商标识和通知文本内容；

对通知文本内容进行分词，得到分词结果；

根据分词结果查询预先建立的高频词汇表，得到文本特征；

根据文本特征和服务商标识，利用预先训练的文本分类模型，计算得到服务类别；

获取服务商标识和服务类别对应的预先建立的关键词和正则表达式的映射关系；

检索通知文本内容中包含的关键词，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，作为潜在的正则表达式匹配模板；

对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容的实体属性信息。

在一些实施例中，检索通知文本内容中包含的关键词，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，包括：利用服务商标识和服务类别对应的预先构造的字典树检索通知文本内容中包含的关键词；根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合。

在一些实施例中，所述的通知文本信息实体属性抽取方法，还包括：训练文本分类模型；

训练文本分类模型，包括：

获取历史通知文本信息集，每条历史通知文本信息包括服务商标识和历史通知文本内容；

将历史通知文本信息集按服务商标识进行分组，得到每个服务商标识对应的历史通知文本内容集；

将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较，并将相似的历史通知文本内容放在同一个相似文本组中；

从同一个服务商标识对应的各相似文本组中各抽取部分历史通知文本内容，并获取抽取的各历史通知文本内容对应的服务类别标签；

对抽取的各历史通知文本内容进行分词，并根据分词结果查询预先建立的高频词汇表，得到相应历史通知文本内容的文本特征；

根据抽取的每条历史通知文本内容的文本特征、服务商标识、及服务类别标签形成一个分类训练样本，并将分类训练样本中的文本特征和服务商标识输入至设定分类器模型，得到预测的服务类别；

根据预测的服务类别和相应的分类训练样本中的服务类别标签计算损失函数，并将损失函数返回至设定分类器模型，以训练该设定分类器模型，直到满足设定训练条件，根据训练后的设定分类器模型得到文本分类模型。

在一些实施例中，所述的通知文本信息实体属性抽取方法，还包括：建立高频词汇表；建立高频词汇表，包括：根据分词结果查询预先建立的高频词汇表，得到相应历史通知文本内容的文本特征之前，获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容的分词结果，统计所有分词结果中词汇的出现频次，并根据出现频次靠前的设定数量的词汇得到高频词汇表。

在一些实施例中，所述的通知文本信息实体属性抽取方法，还包括：建立关键词和正则表达式的映射关系；

建立关键词和正则表达式的映射关系，包括：

获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容，并获取抽取的历史通知文本内容对应的实体标注标签；

根据抽取的每个历史通知文本内容和相应的实体标注标签形成命名体识别训练样本，并利用命名体识别训练样本对设定识别模型进行训练，得到命名体识别模型；

利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取，得到相应历史通知文本内容的实体数据；

将每个服务商标识对应的每个相似文本组的每个历史通知文本内容的实体数据替换为正则规则，得到相应的正则表达式；

提取每个服务商标识对应的每个相似文本组的每个历史通知文本内容对应的正则表达式中的关键词，得到关键词和正则表达式的映射关系；

其中，相似文本组是通过将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较，并将相似的历史通知文本内容放在同一个组中得到。

在一些实施例中，所述的通知文本信息实体属性抽取方法，将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较之前，训练文本分类模型，还包括：

对每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行清洗；

其中，对每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行清洗包括：将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容中的设定固定特征替换为占位符。

建立关键词和正则表达式的映射关系，包括：

利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取，并将实体抽取结果中的占位符还原为原始文本数据，得到相应历史通知文本内容的实体数据；

提取每个服务商标识对应的每个相似文本组的每个历史通知文本内容对应的正则表达式中的关键词，得到关键词和正则表达式的映射关系。

在一些实施例中，从同一个服务商标识对应的各相似文本组中各抽取部分历史通知文本内容，并获取抽取的各历史通知文本内容对应的服务类别标签，包括：

从同一个服务商标识对应的各相似文本组中各抽取一条历史通知文本内容并合并在一起，得到相应服务商标识对应的去重后的历史通知文本内容；

随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的服务类别标签；

获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容，并获取抽取的历史通知文本内容对应的实体标注标签，包括：

随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的实体标注标签；

利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取，包括：

利用命名体识别模型对所有服务商标识对应的所有相似文本组的所有历史通知文本内容进行实体抽取。

在一些实施例中，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，包括：根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索到的关键词对应的正则表达式集合；对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容的实体属性信息，包括：对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容中的实体属性的值，并将提取的实体属性的值存储至相应的数据库中实体属性标签的字段中。

在一些实施例中，所述方法，还包括：提取通知文本内容的分词结果中未对应查询到正则表达式的文本内容；随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的实体标注标签，包括：随机抽取部分去重后的历史通知文本内容，并获取提取到的文本内容和随机抽取的各历史通知文本内容对应的实体标注标签。

在一些实施例中，将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较，并将相似的历史通知文本内容放在同一个相似文本组中，包括：

利用分词算法对将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行分词，并统计各历史通知文本内容的分词结果中各词汇的词频；

将历史通知文本内容的分词结果中词频小于设定词频阈值的词汇用占位符代替，得到优化后的分词结果；

利用每个服务商标识对应的历史通知文本内容集中的两个不同历史通知文本内容的优化后的分词结果计算相应历史通知文本内容对应的simhash值，并利用服务商标识对应的两个历史通知文本内容对应的simhash值，计算相应两个历史通知文本内容的汉明距离，作为文本相似度；或者，利用优化后的分词结果计算每个服务商标识对应的相应两个不同历史通知文本内容的Levenshtein距离，作为文本相似度；

在服务商标识对应的两个历史通知文本内容之间的文本相似度小于设定相似度阈值的情况下，将相应两个历史通知文本内容划分至同一个相似文本组。

根据本发明实施例的另一个方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。

根据本发明实施例的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

本发明实施例的通知文本信息实体属性抽取方法、计算机设备及计算机可读存储介质，通过得到训练好的文本分类模型与关键词和正则表达式的映射关系，并利用文本分类模型对通知文本内容进行服务类别分类，然后再查询关键词和正则表达式的映射关系得到正则表达式，进行实体抽取，既能够减少数据量，提高效率，适应推送文本数据量大的场景，又能够实现实体属性信息的有效提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一实施例的通知文本信息实体属性抽取方法的流程示意图；

图2是本发明一实施例中的样本数据抽取的方法流程示意图；

图3是本发明一实施例中的文本分类模型的训练方法流程示意图；

图4是本发明一实施例中的利用命名体识别抽取实体并生成正则的示意图；

图5是本发明一实施例的在线抽取通知文本信息实体属性的方法流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

通常来说，推送消息主要是通过短信平台、推送中心等通过统一的接口触及终端用户，推送的内容通常是基于定制的文本模板并填入目标用户的特定内容，所以推送的消息内容是具备一定固定文本特征，但是由于推送的平台、服务商类型等多种多样，推送消息的文本特征千变万化，有时候还会有特定的文本内容。

对此，本发明提供了一种通知文本信息实体属性抽取方法，以实现推送消息、服务消息等消息中通知文本内容的抽取与用户标签的画像。

图1是本发明一实施例的通知文本信息实体属性抽取方法的流程示意图。如图1所示，该些实施例的通知文本信息实体属性抽取方法可包括以下步骤S110~步骤S170。

下面将对步骤S110至步骤S170的具体实施方式进行详细说明。

步骤S110：获取通知文本信息，所述通知文本信息包括服务商标识和通知文本内容。

该步骤S110中，获取的通知文本信息可以是各种推送消息，如服务消息、推送通知等。获取的通知文本信息可以是在线、实时获取，可以来自推送平台，例如，短信、APP平台等。获取的通知文本信息中的通知文本内容和服务商标识可以从原始消息解析得到。服务商标识可以包含APP名称、服务商号码等，例如，快递通知的服务商可以是快递公司名称，通知文本内容可以包含快递到达相关信息。另外，通知文本信息还可以包括用户标识。服务商标识可包含平台名称和服务商号码，或者可以用标识编码标识。

步骤S120：对通知文本内容进行分词，得到分词结果。

该步骤S120中，可以利用现有的分词技术将通知文本内容切分为词汇，汇总切分得到的词汇，得到该通知文本内容的分词结果。

步骤S130：根据分词结果查询预先建立的高频词汇表，得到文本特征。

该步骤S130中，可以通过对各种服务商的大量历史通知文本内容进行分词，并统计词频，得到高频词汇表。在高频词汇表中，可以查询到获取的通知文本内容的分词结果中各词汇的出现情况，例如，若出现，可以用1表示，若未出现，可以用0表示，所以，获取的通知文本内容的文本特征可以表示成一个向量，向量的长度可以根据高频词汇表的长度确定。

步骤S140：根据文本特征和服务商标识，利用预先训练的文本分类模型，计算得到服务类别。

该步骤S140中，服务类别可以是指对服务商的所有推送消息的细分类别。例如，同一服务商的推送消息可以进一步划分为消费信息、验证码、电影购买信息、航班预订信息、订餐信息、快递服务信息、酒店预定信息等类别。可以利用各种服务商的各种服务类别的历史通知文本内容的文本特征和相应的服务商标识作为分类器模型的输入，以服务类别作为输出，利用预先为历史通知文本内容标注的服务类别标签作为计算损失函数的依据，以此训练分类器模型，训练后的分类器模型可以作为文本分类模型。

在一些实施例中，可以利用大规模推送文本训练文本分类模型，为了提高模型训练效率，可以对样本数据进行去重。可以说，图1所示的方法还可包括训练文本分类模型的步骤，或者说，上述文本分类模型可以采用本发明实施例的方法得到。

示例性地，训练文本分类模型的方法，具体可包括步骤：S181，获取历史通知文本信息集，每条历史通知文本信息包括服务商标识和历史通知文本内容；S182，将历史通知文本信息集按服务商标识进行分组，得到每个服务商标识对应的历史通知文本内容集；S183，将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较，并将相似的历史通知文本内容放在同一个相似文本组中；S184，从同一个服务商标识对应的各相似文本组中各抽取部分历史通知文本内容，并获取抽取的各历史通知文本内容对应的服务类别标签；S185，对抽取的各历史通知文本内容进行分词，并根据分词结果查询预先建立的高频词汇表，得到相应历史通知文本内容的文本特征；S186，根据抽取的每条历史通知文本内容的文本特征、服务商标识、及服务类别标签形成一个分类训练样本，并将分类训练样本中的文本特征和服务商标识输入至设定分类器模型，得到预测的服务类别；S187，根据预测的服务类别和相应的分类训练样本中的服务类别标签计算损失函数，并将损失函数返回至设定分类器模型，以训练该设定分类器模型，直到满足设定训练条件，根据训练后的设定分类器模型得到文本分类模型。

该步骤S181中，历史通知文本信息集可以收集每条推送消息的通知文本内容、服务商标识，还可以包括脱敏的用户标识，并经过消息队列汇总后，存储至数据库。在汇总后可以进行数据清洗、转换等处理后，存储至分布式的数据库中。存储的数据结构例如可以包括通知文本内容和服务商标识，还可以包括用户标识。

通过上述步骤S182得到按服务商标识分组的历史通知文本内容集之前或之后，且在执行后续步骤S183之前，可以对文本内容进行清洗。示例性的，各实施例的训练文本分类模型的方法，还可包括步骤：S188，对每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行清洗。具体地，对每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行清洗，可包括步骤：将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容中的设定固定特征替换为占位符。其中，固定特征例如可以为日期、金额数字、服务商名字等。该实施例中，通过对本文本分类模型没有帮助的信息进行清洗，能够减少分类器训练过程中的干扰，提高训练速度和分类模型精度。

该步骤S183中，通过文本相似性比较，能够将同一个服务商的同一服务类别的推送消息的文本尽可能放在一组里，例如，对于一个服务商的推送消息，同为验证码的通知文本内容相似度很高，容易被分到一组里，而消费相关的通知文本相似度较高，易被分到另一组里，但验证码的通知文本和消费的通知文本由于是不同服务类别文本，相似度一般相对同服务类别的较小，所以不易被分到一组里。

另外，可以利用simhash算法、Levenshtein算法等比较两个历史通知文本内容之间的相似性。具体地，例如，可以利用simhash算法计算不同两个历史通知文本内容的simhash值，然后根据两个历史通知文本内容的simhash值计算两个历史通知文本内容的汉明距离，作为文本相似度。

具体地，例如，上述步骤S183，具体可包括步骤：S18321，利用分词算法对将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行分词，并统计各历史通知文本内容的分词结果中各词汇的词频；S18322，将历史通知文本内容的分词结果中词频小于设定词频阈值的词汇用占位符代替，得到优化后的分词结果；S18323，利用每个服务商标识对应的历史通知文本内容集中的两个不同历史通知文本内容的优化后的分词结果计算相应历史通知文本内容对应的simhash值，并利用服务商标识对应的两个历史通知文本内容对应的simhash值，计算相应两个历史通知文本内容的汉明距离，作为文本相似度；或者，S18324，利用优化后的分词结果计算每个服务商标识对应的相应两个不同历史通知文本内容的Levenshtein距离，作为文本相似度；S18325，在服务商标识对应的两个历史通知文本内容之间的文本相似度小于设定相似度阈值的情况下，将相应两个历史通知文本内容划分至同一个相似文本组。

该实施例中，通过上述步骤S18321、S18322、S18323及S18325可以利用simhash算法计算文本相似度，并划分相似文本组。通过上述步骤S18321、S18322、S18324及S18325可以利用Levenshtein算法计算文本相似度，并划分相似文本组。通过对历史通知文本进行分词后，统计历史通知文本内容中词汇的词频，将历史通知文本内容中词汇的词频较低例如小于阈值的词汇用占位符代替，能够提高相似度计算的准确度和效率。

上述步骤S184中，具体可以从每个相似文本组中抽取一个历史通知文本内容，作为代表。以此可以起到对文本样本数据进行去重的作用，对于历史通知文本数据量较大的情况，可以减小数据规模，但却不易丢失样本信息。从每组相似文本组抽取的历史通知文本内容，可以由人工标注服务类别标签，例如，属于消费类别、验证码类别等。

上述步骤S185中，抽取的历史通知文本内容是相似文本组的代表文本，可以说是去重后的文本。另外，可以是针对部分服务商和/或服务商的部分相似文本组抽取部分代表性历史通知文本，以此可以进一步减小数据量。

上述步骤S186中，可以利用大量的训练样本，来训练分类器模型。其中，分类器模型可以为随机森林（RF）、支持向量机（SVM）、决策树等模型，或者，在线上系统算力充足并支持深度学习的情况下，可以为LSTM（长短期记忆人工神经网络）、LSTM+CNN（长短期记忆人工神经网络和循环神经网络结合的模型）等模型，或为预训练模型Bert。另外，训练样本集可以分为两部分，一部分样本用来训练分类器模型，另一部分可以用来测试、评估分类器模型，通过不断训练和测试的迭代训练，可以得到效果更佳的文本分类模型。

上述步骤S187中，设定训练条件例如可以是训练次数，或者，可以是预测误差大小。另外，损失函数能够反映预测的服务类别和相应的服务类别标签的差异大小。

进一步的，在训练文本分类模型的过程中，可以构建高频词汇表。具体地，可以通过上述步骤S181~步骤 S184，以及步骤 S185中的分词操作后，基于该些步骤的结果构建高频词汇表。图1所示的方法还可包括建立高频词汇表的步骤，或者说可以利用本发明实施例中的所述的方法建立高频词汇表。

示例性地，建立高频词汇表的方法，具体可包括步骤：S191，获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容的分词结果，统计所有分词结果中词汇的出现频次，并根据出现频次靠前的设定数量的词汇得到高频词汇表。该步骤S191可以在上述步骤S185中根据分词结果查询预先建立的高频词汇表，得到相应历史通知文本内容的文本特征之前执行。该实施例中，可以针对所有服务商所有相似文本组（服务类别）一起统计词频。统计高频词汇表所用的历史通知文本和上述步骤S185中用来计算文本特征的历史通知文本内容相比，前者可以是全量数据，后者可以是部分数据，因为在样本数据规模较大的情况下可以利用少量样本训练分类器，以减少模型训练的计算量。另外，统计高频词汇表时，可以针对全量数据，统计频次靠前的一定数量的词汇作为高频词汇。

在其他实施例中，上述步骤S191所需的从各服务商标识对应的各相似文本组中抽取的历史通知文本内容的分词结果可以通过单独的步骤获得，即，可以不必通过上述步骤S181~步骤 S184，以及步骤 S185中的分词操作获得。即，可以单独利用类似于上述步骤S181~步骤 S184，以及步骤 S185中的分词操作的方法，加上上述步骤S191，建立高频词汇表。上述两个实施例的建立高频词汇表的方法，主要在于时机不同，方式可以类似、相同或不同，文本数据范围可以相同或不同。

步骤S150：获取服务商标识和服务类别对应的预先建立的关键词和正则表达式的映射关系。

该步骤S150中，通过前述步骤可以得知获取的通知文本信息的服务商标识和服务类别。不同服务商对应的不同服务类别可以对应不同的关键词和正则表达式的映射关系。可以利用一个服务商对应的一种服务类别的大量历史通知文本内容生成正则表达式，并且可以从历史文本内容中提取关键词（或称为关键短语），以此可以得到关键词对应的正则表达式，可以形成关键词到正则表达式的映射关系，其中，可以是一个关键词对应一个正则表达式集合，关键词可以是一个通知文本内容中出现频次最低的分词词汇。

可以预先利用训练好的文本分类模型对大量按服务商分组的历史通知文本内容进行文本分类，文本分类后的历史通知文本内容可以用来建立相应的关键词和正则表达式的映射关系。

在一些实施例中，可以通过命名体识别和构建正则规则结合的方式建立关键词和正则表达式的映射关系。即，图1所示的方法还可包括建立关键词和正则表达式的映射关系的步骤，或者说，关键词和正则表达式的映射关系可以通过本发明实施例中所述的方法进行建立。

示例性地，建立关键词和正则表达式的映射关系的方法具体可包括步骤：S1101，获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容，并获取抽取的历史通知文本内容对应的实体标注标签；S1102，根据抽取的每个历史通知文本内容和相应的实体标注标签形成命名体识别训练样本，并利用命名体识别训练样本对设定识别模型进行训练，得到命名体识别模型；S1103，利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取，得到相应历史通知文本内容的实体数据；S1104，将每个服务商标识对应的每个相似文本组的每个历史通知文本内容的实体数据替换为正则规则，得到相应的正则表达式；S1105，提取每个服务商标识对应的每个相似文本组的每个历史通知文本内容对应的正则表达式中的关键词，得到关键词和正则表达式的映射关系；其中，相似文本组是通过将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较，并将相似的历史通知文本内容放在同一个组中得到。

上述步骤S1101中，可以随机抽取一些历史通知文本内容进行实体标注。实体标注标签例如可以包括历史通知文本内容中的实体属性和实体属性的值，例如实体属性为“余额”，实体属性的值为具体的余额数值。

上述步骤S1102中，历史通知文本内容可以作为识别模型的输入，识别模型输出为命名体识别结果，实体标注标签可以用于计算一次训练后对应的损失函数，以反馈至识别模型进行迭代训练。其中，识别模型可以为基于深度学习的Bert、AlBert、ERNIE等的模型。

上述步骤S1103和步骤S1104中，先利用训练好的命名体识别模型抽取历史通知文本内容中的实体，可以方便的得到文本的一部分正则规则，再将提取的实体数据替换为正则规则，可以得到正则表达式。

上述步骤S1105，可以从正则表达式中提取关键词（或称为关键短语），可以是出现频次较低的词汇或短语，以便利用关键词将不同的正则表达式尽可能分开。有些情况下，关键词不能区分开两个正则表达式，所以，关键词可能对应多个正则表达式，所以可以认为一个关键词可以对应一个正则表达式集合。

命名体识别提取实体数据比较方便、灵活，但实体提取的精细程度不如建立正则，常见的基于深度学习的命名体识别模型计算复杂消耗资源较多；单独建立正则，要求比较苛刻，不够灵活。而该实施例中，通过先利用命名体识别模型提取实体，在替换实体数据为正则规则，建立正则表达式，将命名体识别和建立正则结合起来使用，既可以提高建立正则表达式的灵活性，又可以保证正则表达式的精度。

一些实施例中，在训练文本分类模型的方法包括上述步骤S188，即，包含清洗历史通知文本内容的过程的情况下，建立关键词和正则表达式的映射关系，具体可包括步骤：上述步骤S1101、步骤 S1102、步骤 S1104及步骤 S1105，并且将上述步骤S1103替换为具体实施步骤：S11031，利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取，并将实体抽取结果中的占位符还原为原始文本数据，得到相应历史通知文本内容的实体数据。该实施例中，在文本分类前进行了数据清洗，将固定特征替换为了占位符，在该步骤S11031中，将占位符还原为原始数据，由于实体数据不同，正则表达式可能不同，所以以此可以保证得到比较准确的正则表达式。

在一些实施例中，前述步骤S183，即，从同一个服务商标识对应的各相似文本组中各抽取部分历史通知文本内容，并获取抽取的各历史通知文本内容对应的服务类别标签，具体可包括步骤：S1831，从同一个服务商标识对应的各相似文本组中各抽取一条历史通知文本内容并合并在一起，得到相应服务商标识对应的去重后的历史通知文本内容；S1832，随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的服务类别标签。该实施例中，随机抽取一部分文本数据标注服务类别，用来训练分类器模型，可以在保证足够训练样本的情况下，减小工作量。

在此情况下，上述步骤S1101，即，获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容，并获取抽取的历史通知文本内容对应的实体标注标签，具体可包括步骤：S11011，随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的实体标注标签。

上述步骤S1103，即，利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取，具体可包括步骤：利用命名体识别模型对所有服务商标识对应的所有相似文本组的所有历史通知文本内容进行实体抽取。

另一些实施例中，图1所示的方法，还可包括步骤：S11101，提取通知文本内容的分词结果中未对应查询到正则表达式的文本内容。在此情况下，上述步骤S11011，即，随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的实体标注标签，具体可包括步骤：随机抽取部分去重后的历史通知文本内容，并获取提取到的文本内容和随机抽取的各历史通知文本内容对应的实体标注标签。

该实施例中，在线进行实体属性信息抽取过程中，若获取的通知文本内容的分词结果中的词汇没有找到对应的正则表达式，可以将该部分文本内容进行实体标注，形成样本继续训练命名体识别模型，以补充训练命名体识别模型，以此可以得到更佳的关键词和正则表达式的映射关系。

步骤S160：检索通知文本内容中包含的关键词，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，作为潜在的正则表达式匹配模板。

该步骤S160中，可以依据获取的通知文本内容的分词结果中的各词汇查询对应该通知文本内容所属服务商及服务类别的关键词和正则表达式的映射关系，从而可以得到正则表达式集合。

具体实施时，为了更快速地查询到所需的映射关系，可以先利用字典树查询关键词，再根据关键词找到映射关系。

示例性地，上述步骤S160，即，检索通知文本内容中包含的关键词，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，具体可包括步骤：S161，利用服务商标识和服务类别对应的预先构造的字典树检索通知文本内容中包含的关键词；S162，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合。

该步骤S161中，可以对从各种服务商的各种服务类别的通知文本内容中提取的关键词构建字典树。该字典树可以是Trie树。利用字典树可以提高关键词查询效率，查询到关键词后，可以找到字典树对应的正则表达式集合。

具体实施时，上述步骤S161，即，利用服务商标识和服务类别对应的预先构造的字典树检索通知文本内容中包含的关键词，具体可包括步骤：S1611，利用Aho-Corasick算法根据通知文本内容的分词结果查询服务商标识和服务类别对应的预先构造的Trie树以进行文本匹配，得到通知文本内容中包含的关键词。

上述步骤S162，即，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，具体可包括步骤：S1621，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索到的关键词对应的正则表达式集合。

该实施例中，根据查询得到的关键词可以得到相应的关键词和正则表达式的映射关系，得到正则表达式集合。利用Aho-Corasick算法进行匹配查找，能够提高查找效率。

步骤S170：对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容的实体属性信息。

该步骤S170中，可以利用正则表达式集合中的各个正则表达式分别提取获取的通知文本内容中的实体属性信息，例如，提取实体属性“余额”和相应的实体属性值（余额对应的具体金额数值）。

具体实施时，上述步骤S170，即，对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容的实体属性信息，具体可包括步骤：对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容中的实体属性的值，并将提取的实体属性的值存储至相应的数据库中实体属性标签的字段中。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

下面将结合具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

该实施例的方法，基于文本模板的特征画像方法和基于自然语言处理的自动特征生成算法，主要包括两个过程：基于文本分类实现相似结构文本分离并基于自然语言处理实现自动模板生成，海量文本的特征解析与用户画像模块。具体可包括四个组成部分：推送文本内容的解析处理与落盘到数据仓库中抽取训练文本数据，文本分类模型训练，基于命名体识别的实体抽取规则自动生成装置，推送文本内容的解析标签画像系统，即线上实体抽取。

由于推送内容中有着包括银行卡消费、快递通知、订餐短信、出行火车机票、酒店以及各种sp服务商提供的短信通知，同一个sp服务商提供的通知服务中也可能有多种类型，所以为了降低文本中实体抽取规则的复杂度，需要先基于sp服务商和文本中的内容对文本内容进行分类处理并分组。图2是本发明一实施例中的样本数据抽取的方法流程示意图，图3是本发明一实施例中的文本分类模型的训练方法流程示意图，图4是本发明一实施例中的利用命名体识别抽取实体并生成正则的示意图，图5是本发明一实施例的在线抽取通知文本信息实体属性的方法流程示意图。参见图2至图5，该实施例的方法可包括以下步骤S1~ 步骤S104。

S1.首先通过数据解析模块解析获取推送文本内容和经过脱敏的用户标识id、以及推送服务商id（APP名称、SP服务商号码）。其中，在具体实施时，可以从用户终端侧、数据收集侧、统一推送平台等获取到推送内容的平台中。

S2.经过解析获取的推送文本内容经过消息队列kafka统一汇总到大数据平台，经过数据清洗、转换、入库存储到分布式数据库中，数据结构包括用户标识id—userid、推送文本内容—context、推送服务商id—spid。

S3.对经过解析的推送文本内容进行处理，按照推送服务商id进行分组，获取每个服务商分组内的文本内容。

S4.对每个服务商分组内的文本内容进行清洗处理，将日期、金额数字、服务商名字等固定特征替换成占位符。

S5.对每个服务商分组内的文本内容利用文本相似性算法计算文本相似性和文本内容之间的间距，两两比较文本之间的相似度，相似度小于阈值的文本都放入同一个分组中。

例如，文本相似性算法可以是，利用simhash算法计算文本距离，先利用分词算法库对文本进行分词，统计文本词频，将文本词频较低小于阈值的词用占位符代替，计算每个文本的simhash值，然后计算两个文本的simsh之间的汉明距离作为文本相似度。

再例如，文本相似性算法可以是，利用Levenshtein距离计算文本距离，先利用分词算法库对文本进行分词，统计文本词频，将文本词频较低小于阈值的词用占位符代替，然后对分词后的文本结果计算Levenshtein距离。

S6.进行文本分组后，将分组内相似文本都合并到相似文本组，获得若干组相似文本组，每个文本组抽取一条文本作为示例文本。

S7.随机抽取去重后一定数目的文本作为样本，并进行类别标注，主要类别包括消费信息、验证码、电影购买、航班、订餐、快递、酒店等，作为文本分类的测试数据；其中，每个标注的类别可以用数字标识。

S8.对文本内容进行分词处理，将每条文本内容切分成词汇组，将所有分词后的文本内容汇总，统计高频词汇，构建高频词汇表选择出现频率前N个词汇作为特征。

S9.将推送服务商id—spid按照顺序编组，每个服务商id用数字代替，并将服务商数字id作为分类器初始特征。

S10.选择合适的分类器模型，将训练数据按比例分为训练集和测试集，利用测试集的特征进行分类器迭代训练，利用测试集评估分类器效果，调整分类器参数迭代训练直到分类器的效果不再变化。

其中，分类器模型可随机森林RF、支持向量机SVM、决策树等，如果线上系统算力足够并支持深度学习，可以使用深度学习模型LSTM、LSTM+CNN等，或使用预训练模型Bert等作为文本分类器模型。当选择了分类器模型后，需要对分类器的超参数进行调节，利用网格搜索的方式，设置搜索的超参数范围和每一段间隔，批量训练不同超参数下的分类器模型，利用测试集数据评估超参数效果，选择评估效果最好的超参数配置；确定了分类器参数后，目标训练迭代次数防止过拟合，利用测试集评估分类器效果，循环迭代训练分类器，直到分类器的效果不再变化或者达到目标迭代次数；保存分类器训练模型结果，作为线上文本分类的模型参数，输出文本分类模型。

通过上述步骤完成了对文本进行分类并基于文本正则的方式抽取信息中的实体内容，实现了文本解析。在完成文本分类后，接下来基于自然文本语言处理生成实体抽取所用的正则内容，以此可以为在线文本实体抽取提供对应的配置规则。

S11.利用文本分类器对按照spid（服务商）分组后的文本进行分类，并按照文本分类后的结果进行分组。

S12.利用文本相似性算法计算文本相似性和文本内容之间的间距，两两比较文本之间的相似度，相似度小于阈值的文本都放入同一个分组中；其中，文本相似性算法可以选则基于simhash或Levenshtein距离来计算。

S13.进行文本分组后，将分组内相似文本都合并到相似文本组，获得若干组相似文本组，每个文本组抽取一条文本作为示例文本。

S14.随机抽取去重后一定数目的文本作为样本，进行实体标注；其中，实体标注的内容可包括文本中的属性和属性对应的值，可将实体样本和标注结果合并作为实体抽取的样本数据，并可按照一定比例抽取分训练集和测试集。

S15.将用于命名体识别的文本数据利用预训练模型进行分词和词嵌入，将数据集按比例拆分为训练集和测试集，利用训练集对模型进行命名体识别训练，利用测试集进行识别效果评估，调整模型参数并进行迭代训练直到命名体识别达到一定效果。

其中，可以根据中文语料的支持效果和模型大小等因素，选择合适的命名体识别预训练模型，例如，可以选择基于深度学习的Bert、AlBert、ERNIE等的模型。另外，可以根据推送文本长度、推送文本高频词汇等选择合适的预训练模型超参数。

S16.利用训练好的命名体识别模型，对按照spid（服务商标识）分组后，并按照文本内容分组的每组文本内容进行实体抽取，并将占位符还原成原始数据。

S17.利用抽取后实体数据和文本内容构造实体抽取的文本规则，在保留原始文本结构的同时，将实体数据替换为对应的正则规则（数字、日期、币种、验证码、通用文本等），建立实体抽取的正则表达式，并利用实体抽取数据进行测试。

例如，正则和对应的实体属性结构为{”消费(\d+)元，余额(\d+)元”:[消费金额，余额] }，第一个括号中抽取得到的数字对应的实体属性为消费金额，第二个括号抽取得到的数字对应的实体属性为余额，输出类似结构的正则和实体属性。

S18.提取用于实体抽取的正则表达式中的关键词，建立每个正则包括的关键词表，挑选最长的文本关键词作为初始关键词，将归属于一个关键词的正则表达式合并成一个集合，建立关键词到正则表达式集合的映射表，利用初始关键词和正则表达式集合建立Trie树，利用Aho-Corasick实现关键词到正则表达式集合的检索。

可以在全量文本中测试上文得到的用于实体抽取的正则。测试内容可包括：是否有错误正则、是否有抽取的实体内容异常，若有，可通过人工调整异常的正则。可清理全部的正则，去除正则中由于实体抽取的替代符即上文中括号内的内容并替换成空格分隔符，可利用空格分隔符将文本内容分段，提取用于实体抽取的正则表达式中的关键短语，并统计所有正则中的关键短语的频率，每个正则包含选择包含短语频次最低的短语作为关键短语，建立关键短语到正则的映射。进一步，可以将归属于一个关键短语的正则表达式合并成一个集合，建立关键词到正则表达式集合的映射表，如{keyword: [regex1, regex2,…]}。然后，利用初始关键词和正则表达式集合建立Trie树，利用Aho-Corasick实现关键词到正则表达式集合的检索，即输入一个关键词keyword，可以返回全部相关的正则集合，如[regex1, regex2, …]。

在完成文本分类模型的训练和实体抽取规则的生成后，可以通过分类模型和实体抽取规则实现对在线文本内容的实体抽取，并将抽取得到的实体作为用户画像标签的结果，主要流程如下：

S101.特征解析模块读取文本内容，进行分词处理，基于spid和分词后的结果利用分类器进行分类，将文本内容进行分类标识。

S102.对每个分类中的文本内容，利用构造Trie树进行检索，检索得到包含的关键词并得到对应的正则表达式集合，利用集合中的正则表达式提取实体信息，未命中正则表达式的文本内容进行标记；例如，提取的内容可包括{属性1：属性值，属性2：属性值…}。

S103.基于正则表达式提取文本内容中的实体标签信息，即将属性X对应的值提取出来放入对应的标签属性X中，并存入数据库中；其中，数据库每个属性字段可存入对应的数据库字段中。其中，得到的实体属性标签即可视为用户的行为画像。

S104.提取未命中正则规则的文本合并存储到数据中，并进行补充标注训练，例如可以继续训练命名体识别模型。

该实施例中，通过结合推送文本内容的文本解析与用户画像的方法与技术，能够实现对海量推送文本内容的快速解析，并基于自然语言处理算法实现文本特征模板的自动生成，同时兼顾了文本解析的高效与特征生成的自动化。

结合自然语言处理与海量文本分析的方法，可以实现对海量推送文本内容进行实体抽取标签画像并输出结构化数据；利用文本哈希算法得到相似文本内容，可以减少样例文本数据量；基于文本分类算法可以识别出推送文本内容的类别，在经过文本分类后利用命名体识别实现推送内容中的有效实体抽取，并利用抽取的结果作为关键结果生成实体抽取的正则表达式。

该实施例中，涉及文本分类、特征画像与大数据分析，主要基于短信、消息推送中的文本数据实现数据收集与用户特征画像，能够实现在数据脱敏情况下对用户群体的画像与标签。

在海量文本内容分析中，如果应用常规的命名体识别算法需要占用较多的资源，基于推送文本内容通常具备半固定结构信息的特点，基于规则/正则表达式的实体抽取可以实现高效的实体抽取，并可将实体作为文本标签画像结果，可以节省计算资源。

综上所述，本发明实施例的通知文本信息实体属性抽取方法、计算机设备及计算机可读存储介质，通过得到训练好的文本分类模型与关键词和正则表达式的映射关系，并利用文本分类模型对通知文本内容进行服务类别分类，然后再查询关键词和正则表达式的映射关系得到正则表达式，进行实体抽取，既能够减少数据量，提高效率，适应推送文本数据量大的场景，又能够实现实体属性信息的有效提取。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种通知文本信息实体属性抽取方法，其特征在于，包括：

对通知文本内容进行分词，得到分词结果；

根据分词结果查询预先建立的高频词汇表，得到文本特征；

对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容的实体属性信息；

所述方法还包括：训练文本分类模型；

训练文本分类模型，包括：

2.如权利要求1所述的通知文本信息实体属性抽取方法，其特征在于，检索通知文本内容中包含的关键词，根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，包括：

利用服务商标识和服务类别对应的预先构造的字典树检索通知文本内容中包含的关键词；

根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合。

3.如权利要求1所述的通知文本信息实体属性抽取方法，其特征在于，还包括：建立高频词汇表；

建立高频词汇表，包括：

根据分词结果查询预先建立的高频词汇表，得到相应历史通知文本内容的文本特征之前，获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容的分词结果，统计所有分词结果中词汇的出现频次，并根据出现频次靠前的设定数量的词汇得到高频词汇表。

4.如权利要求1至3任一项所述的通知文本信息实体属性抽取方法，其特征在于，还包括：建立关键词和正则表达式的映射关系；

建立关键词和正则表达式的映射关系，包括：

5.如权利要求1所述的通知文本信息实体属性抽取方法，其特征在于，将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较之前，训练文本分类模型，还包括：

6.如权利要求5所述的通知文本信息实体属性抽取方法，其特征在于，还包括：建立关键词和正则表达式的映射关系；

建立关键词和正则表达式的映射关系，包括：

7.如权利要求6所述的通知文本信息实体属性抽取方法，其特征在于，从同一个服务商标识对应的各相似文本组中各抽取部分历史通知文本内容，并获取抽取的各历史通知文本内容对应的服务类别标签，包括：

8.如权利要求2所述的通知文本信息实体属性抽取方法，其特征在于，

利用服务商标识和服务类别对应的预先构造的字典树检索通知文本内容中包含的关键词，包括：

利用Aho-Corasick算法根据通知文本内容的分词结果查询服务商标识和服务类别对应的预先构造的Trie树以进行文本匹配，得到通知文本内容中包含的关键词；

根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索的关键词对应的正则表达式集合，包括：

根据检索到的关键词查找获取的关键词和正则表达式的映射关系，得到检索到的关键词对应的正则表达式集合；

对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容的实体属性信息，包括：

对通知文本内容遍历匹配潜在的正则表达式匹配模板，提取得到通知文本内容中的实体属性的值，并将提取的实体属性的值存储至相应的数据库中实体属性标签的字段中。

9.如权利要求7所述的通知文本信息实体属性抽取方法，其特征在于，

所述方法，还包括：

提取通知文本内容的分词结果中未对应查询到正则表达式的文本内容；

随机抽取部分去重后的历史通知文本内容，并获取随机抽取的各历史通知文本内容对应的实体标注标签，包括：

随机抽取部分去重后的历史通知文本内容，并获取提取到的文本内容和随机抽取的各历史通知文本内容对应的实体标注标签。

10.如权利要求1所述的通知文本信息实体属性抽取方法，其特征在于，将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较，并将相似的历史通知文本内容放在同一个相似文本组中，包括：

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至10任一项所述方法的步骤。