CN110362803B

CN110362803B - 一种基于领域特征词法组合的文本模板生成方法

Info

Publication number: CN110362803B
Application number: CN201910658510.0A
Authority: CN
Inventors: 徐雅静; 孙忆南; 李思; 高升
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2020-12-18
Anticipated expiration: 2039-07-19
Also published as: CN110362803A

Abstract

本发明公开了一种基于领域特征词法组合的文本模板生成方法，属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注，再基于标注进行模板生成。该方法的步骤包括：对原始文本进行分词、词性标注等预处理，建立领域特征词典；结合特征词典和正则表达式集合，对任意一条文本生成基于领域特征的标记序列；使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例，能够将人工从底层面向大量重复的样本进行规律提取提升到了高层，程序直接进行无监督的特征提取再由人工对提取的特征进行去噪，无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性，具有很大的实用价值。

Description

一种基于领域特征词法组合的文本模板生成方法

技术领域

本发明涉及自然语言处理领域，特别是指一种基于领域特征词法组合的文本模板生成方法。

背景技术

随着移动通信的高速发展,日常通讯过程中产生了海量的文本数据，这些数据中包含了大量由模板生成的文本数据，如运营商的话费情况提醒，航班和火车的订票成功提醒等。为了便于监管部门对这些文本数据进行大数据分析，需要根据文本数据中的规律逆向生成该文本的模板，进而获得有用的结构化信息。

目前解决这类问题的方法一般有两类，一种是采用规则匹配的方式，通过人工观察大量的领域文本数据建立领域知识库，再从领域知识库中总结规则，最后通过专业人员将规则用代码实现从而将文本转换为模板。该方法利用大量人工去总结文本中的统计特征和领域知识，耗时费力，且编写的规则经常会发生逻辑冲突。另一种是基于标注的方法，通过人工标注数据训练机器学习或深度学习模型，用模型对新文本进行模板抽取，这种方法需要大量标注数据，而且模型可解释性差，出错率较高，在实际应用场景中很少采用。所以，迫切需要一种新方法，能够让程序无监督的抽取中文本中的领域特征，再结合少量人工进行去噪和调优，最后自动分析文本生成模板，从而在减轻人工的基础上提高文本的抽取性能。

因此，本专利提出一种基于领域特征词法组合的文本模板生成方法，通过无监督方法构造领域特征词典进行文本标注，再基于标注进行模板生成。

发明内容

本专利提出一种基于领域特征词法组合的文本模板生成方法。程序通过词性标注和词频统计自动从大量文本中提取领域业务词典，业务操作词典和操作状态词典，进而借助词典和正则表达式对文本进行标注，最后基于标注序列进行文本的模板生成。

本发明的技术方案如下：

一种基于领域特征词法组合的文本模板生成方法，包括以下步骤：

步骤S1：对大规模待处理原始文本列表进行预处理，建立领域业务词典，业务操作词典和操作状态词典；

步骤S2：使用通用数值正则表达式集合，结合步骤S1得到的词典，对任意一条文本生成基于领域特征的标记序列，再根据标记序列使用无监督模板生成算法自动生成相应的文本模板；

(1)使用步骤S1得到的词典，对文本列表进行匹配和标注，得到初始标注序列；

(2)根据领域特征，将不同标记进行组合和替换，生成最终标记序列；

(3)基于标注序列的模板生成算法，即结合标注列表对文本列表进行替换，生成文本的模板；

步骤S3：将步骤S2得到的新的文本模板与已有模板进行模板去重，得到最终的文本模板集合。

本发明的有益效果在于：将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库，程序直接进行无监督的特征提取再由人工对提取的特征进行去噪，进而结合标注序列进行模板生成，提升了人工的价值。同时使程序具有良好的可迁移性：当领域发生变化时，只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域，无需从头开始进行大量重复劳动。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于领域特征词法组合的文本模板生成方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明公开了一种基于领域特征词法组合的文本模板生成方法，该方法包括以下步骤：

步骤S1：对大规模待处理原始文本列表D＝{d₁,d₂,…,d_n},d_i是第i条文本，进行预处理，建立领域业务词典B，业务操作词典V和操作状态词典S。

(1.1)使用jieba分词工具对文本列表D进行清洗、分词、词性标注，得到带有词性标注的文本列表D′＝{d′₁,d′₂,…,d′_n}；词性标注规则可参考jieba分词工具说明；

(1.2)对标注/n，/vn，/nz，/nt等名词进行词频统计，去掉单字，按词频倒序生成领域业务候选集B′；

(1.3)对标注/v，/vd等动词进行词频统计，去掉单字，按词频倒序生成业务操作候选集V′；

(1.4)对标注/d，/的副词进行词频统计，按词频倒序生成操作状态候选集S′；

(1.5)人工对上述候选集合进行特征选择，去掉噪声，得到领域业务词典B＝{b₁,b₂,…,b_n1}，比如“流量”、“余额”等；业务操作词典V＝{v₁,v₂,…,v_n2}，比如“申请”、“注册”等；操作状态词典S＝{s₁,s₂,…,s_n3}，比如：“成功”、“未”、“已”等。

步骤S2：使用通用数值正则表达式集合R＝{r₁,r₂,…,r_n4}，结合步骤S1得到的词典B、V、S，对D中任意一条文本d_i进行文本标注序列生成、文本标注序列合并和替换、基于标注序列的无监督模板生成算法，得到对应模板文本t_i。

(2.1)文本标注序列初始生成m′_i

(2.1.1)初始化标记序列m′_i＝{′o′,′o′,…,′o′},长度＝Length(d_i),并对三个词集合B、V、S，生成用于匹配的AC自动机；

(2.1.2)用三个AC自动机分别对d_i进行词匹配，将m_i中对应d_i匹配部分的标注分别修改为领域业务标注′b′，业务操作标注′v′，操作状态标注′s′；

(2.1.3)用正则表达式集合进行正则匹配，将m′_i中对应d_i匹配部分的标注修改为′r′。

(2.2)基于领域特征，对初始文本标注序列m′_i进行合并和替换，生成最终的标记序列m_i。

(2.2.1)特征1：若存在两个连续′b′序列仅被一个′o′分隔，且′o′对应d_i中的字符不是标点符号，则将′o′替换为′b′；

(2.2.2)特征2：若任意子句中存在相邻的连续′s′序列和连续′v′序列，且′v′序列后无′r′序列，则将′s′和′v′替换为′r′；

(2.2.3)特征3：若存在相邻的连续′b′序列和连续′v′序列，则将′v′序列替换为′b′；

(2.2.4)特征4：若任意子句中存在连续的′r′序列，但是不存在连续的′b′序列，则将′r′替换为′o′。

(2.3)基于标注序列的无监督模板生成算法，即根据m_i对文本序列d_i进行替换，生成文本的模板t_i，算法伪代码描述如下：

步骤S3：将步骤S2得到的新的文本模板与已有模板进行模板去重，得到最终的文本模板集合T＝{t₁,t₂,…,t_l}。

以上结合附图对所提出的基于领域特征词法组合的文本模板生成方法及各模块的具体实施方式进行了阐述。本发明的有益效果在于，将人工从底层面向大量重复的样本进行规律提取提升到了高层。无需逐条样本分析再进行特征抽象和制定规则库，程序直接进行无监督的特征提取再由人工对提取的特征进行去噪，进而结合标注序列进行模板生成，提升了人工的价值。同时使程序具有良好的可迁移性：当领域发生变化时，只需要再次根据程序运行得到的特征词库进行调整即可迁移到新的领域，无需从头开始进行大量重复劳动。上述技术方案公开了本发明的改进点，未详细公开的技术内容，可由本领域技术人员通过现有技术实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于领域特征词法组合的文本模板生成方法，其特征在于，包括以下步骤：

步骤1：对大规模待处理原始文本进行预处理，建立领域业务词典，业务操作词典和操作状态词典；

步骤2：使用通用数值正则表达式集合，结合步骤1得到的领域业务词典，业务操作词典和操作状态词典，对任意一条文本生成基于领域特征的标记序列，再根据标记序列使用无监督模板生成算法自动生成相应的文本模板；

步骤3：将步骤2得到的新的文本模板与已有模板进行模板去重，得到最终的文本模板集合。

2.如权利要求1所述的一种基于领域特征词法组合的文本模板生成方法，其特征在于，所述步骤2具体包括：

(2.1)使用步骤1得到的领域业务词典，业务操作词典和操作状态词典，对文本进行匹配和标注，得到初始标注序列；

(2.2)根据领域特征，将初始标注序列进行组合和替换，生成最终标记序列；

(2.3)基于标记序列的无监督模板生成算法，即结合最终标记序列对文本进行替换，生成文本的模板。