CN108170733A

CN108170733A - 一种对短信文本进行分类的方法及系统

Info

Publication number: CN108170733A
Application number: CN201711346557.0A
Authority: CN
Inventors: 杨文婷; 李静
Original assignee: Yungang Technology Co Ltd
Current assignee: Yungang Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-06-15

Abstract

一种对短信文本进行分类的方法和系统。所述方法包括：对短信文本进行分词处理获得短信词表；查找预置的分类表，获得所述短信词表中与分类表匹配的匹配项，并获得所述匹配项在分类表中的标注信息；在短信词表中建立该匹配项与所述标注信息的对应关系；根据标注信息获得对应的优先级；获得短信词表中优先级最高的标注信息以及对应的类别标识，根据所述类别标识对短信分类。本发明与现有技术相比具有更少的处理环节，因此具备对海量短信信息分类的能力；另一方面，本发明又可以针对少量特殊短信做精准分类。

Description

一种对短信文本进行分类的方法及系统

技术领域

本发明涉及一种数据分类处理技术，尤其是对于非结构化文本进行分类的技术。

背景技术

对非结构化文本分类，一般采用基于内容的机器学习的方法。采用机器学习的方法需要海量数据的支持，利用海量数据进行训练的模型。

对于结构相对规范的短文本信息，例如银行，电信等机构发送的通知短信等，如果希望相对精准的对短信分类，并提取结构信息时，现有机器学习的方法在信息分类的准确性和效率方面并未达到期望的要求。尤其是同一条短信中出现多种关键信息，如逾期、还款、账单等信息时，对各类别赋予不同的优先级，可以实现更为准确的分类。

发明内容

本发明的目的是为了提供一种具有较佳分类准确率和分类效率的对短信文本进行分类的方法及系统。

一种对短信文本进行分类的方法，其特征在于，包括：对短信文本进行分词处理获得短信词表；查找预置的分类表，获得所述短信词表中与分类表匹配的匹配项，并获得所述匹配项在分类表中的标注信息；在短信词表中建立该匹配项与所述标注信息的对应关系；根据标注信息获得对应的优先级；获得短信词表中优先级最高的标注信息以及对应的类别标识，根据所述类别标识对短信分类。

上述方法中，所述获得所述分类优先级具体为：读取短信词表，获取匹配项对应的标注信息；按照预置的标注信息与优先级的对应关系查找该匹配项标注信息对应的优先级。

上述方法中，获得所述短信词表中与分类表匹配项，进一步获取该匹配项在分类表中的标注信息所对应的优先级；在短信词表中建立该匹配项与所述标注信息及优先级的对应关系。

上述方法中，获得短信词表中优先级最高的类别标识具体为：查找获得短信词表中最高的优先级；查找短信词表中该最高优先级对应的标注信息；获得短信词表中与所述标注信息对应的类别标识。

其中，获得短信词表中优先级最高的分类具体为：顺序读取短信词表；若当前读取词具有标注信息，则获取该标注信息对应的优先级；若当前获取的优先级高于已缓存的优先级，则将所述当前获取的标注信息对应的类别标识及优先级更新至缓存；否则读取短信词表中的下一个词。

进一步，将所述当前获取的类别标识及优先级更新至缓存后还包括：判断所述当前优先级是否为优先级序列的最高级，若是则结束读取短信词表。

本发明实施例提供一种对短信文本进行分类的系统，包括：

分词模块，用于对短信进行分词处理，生成短信词表；

短信词表编辑模块，用于将所述短信词表与预置的分类表进行匹配，获得所述短信词表中与分类表匹配的匹配项，获取所述匹配项在分类表中的标注信息，在短信词表中建立所述匹配项与标注信息的对应关系；

第一查找模块，用于顺序读取短信词表，获取当前匹配项的标注信息，查找预置的对应关系，获得标注信息对应的优先级及类别标识；若结束对短信词表的读取，则触发输出模块输出类别标识；

缓存模块，用于缓存类别标识及对应的优先级；

比较计算模块，用于将第一查找模块获得的优先级与缓存模块已缓存的优先级进行比较，若第一查找模块获得所述优先级高，则将第一查找模块获得的类别标识及优先级更新至缓存模块；

输出模块，输出缓存单元保存的类别标识。

上述系统中，比较计算模块，进一步判断缓存模块保存的优先级是否为优先级序列中最高，若是则触发第一查找模块结束读取短信词表。

本发明又一实施例提供的一种对短信文本进行分类的系统，包括

分词模块，用于对短信进行分词处理，生成短信词表；

短信词表编辑模块，用于将所述短信词表与预置的分类表进行匹配，获得所述短信词表中与分类表匹配的匹配项，获取所述匹配项在分类表中的标注信息，按照预置的对应关系，在短信词表中建立所述匹配项与标注信息、类别标识及优先级的对应关系；

第二查找模块，用于顺序读取短信词表，获取当前匹配项的类别标识及对应的优先级；若结束对短信词表的读取，则触发输出模块输出分类标识；

缓存模块，用于缓存类别标识及对应的优先级；

比较计算模块，用于将第二查找模块获得所述优先级与缓存模块已缓存的优先级进行比较，若第二查找模块获得所述优先级高，则将第二查找模块获得的优先级及类别标识更新至缓存模块；

输出模块，输出缓存单元保存的类别标识。

本发明再一实施例提供的一种对短信文本进行分类的系统，包括：

分词模块，用于对短信进行分词处理，生成短信词表；

第三查找模块，用于查找短信词表中的最高优先级，根据短信词表中所建立的类别及优先级的对应关系，获取所述最高优先级对应类别标识；

输出模块，用于输出第三查找模块获得的类别标识。

一种计算机软件存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例提出的基于命名实体的标注信息的分类方法，一方面，短信的分类与短信结构信息的提取同时进行，从而因为这种方法与现有技术相比具有更少的处理环节，因此具备对海量短信信息分类的能力；另一方面，本发明又可以针对少量特殊短信做精准分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法实施例第一流程图；

图2为本发明方法实施例第二流程图；

图3为本发明方法实施例第三流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明目的在于提出一种内置于短信内容标注和信息抽取阶段的短信分类方法。参照图1所示。

步骤11，本发明实施例首先对文本进行分词，分词处理后获得该短信的短信词表。

步骤12，使用GATE工具对短信词表中的词和内容进行标注。

预置分类表，所述分类表中保存了可以用于判断短信分类的关键词或/和规则，并且，为这些关键词或规则添加分类标识用于识别这些关键词代表的类别。从而，当短信中出现这些关键词或者符合所述规则时，可以按照关键词所标记的类别确定短信类别。

所述规则由词以及多个词之间的逻辑构成。

其中，规则中采用的词可以单独作为分类表的关键词，例如下表1中，“工资、代发工资”可以作为关键词的记录用于短信的分类，也可以出现在分类表的规则中；也可以仅仅作为规则的组成。

其中，所述多个词之间的逻辑，例如是，短信中同时出现某两个或多个词；某两个或多个词在短信中具有一定的前后顺序等，本申请对可能的逻辑规则并无限定。

以银行类短信的分类为例，所采用的分类表参见下表1。在分类表中，对应于每个类别的关键词(组)添加与这个类别对应的优先级标识，并保存这种分类规则。

参见下表1可知，在分类表中，包括可以用于判断短信分类的关键词，用于判断短信分类的规则，以及另一类不能用于判断短信分类的关键词。

对于每组关键词或规则均添加标注用于标识这组关键词或规则是否可用于短信的分类。在表1所示的实施例中，当标注为mcls_lookup时，表明该关键词或者规则可以用于短信分类(下称一级标注)；而其他标注表明不能用于短信分类，例如表1中所示的标注Money。

表1中，逾期、到期、还款日、成功还款等关键字，既是抽取的重要信息，又是分类标注的来源，因此，其标注Annotation字段为mcls_lookup。

人名、金额、日期、银行卡等命名实体，是抽取的重要信息，但不决定短信类别，为其添加非类别标注name、money、date_lookup。

可以理解，本发明并非要求在分类表中一定包含上述不决定短信类别的关键词，采用类似上述的非类别标注是本发明的较佳的实现方式，例如本实施例所表明的本发明在银行类短信领域的应用。

参见表1，本实施例中采用了二级标注。由字段Annotation及kind组成，其中Annotation为一级标注，而kind为二级标注。为了区别不同的短信类别，同一类别的关键词被赋予同一个kind属性值。

如表1所示，当关键词(组)一级标注为mcls_lookup时，二级标注kind字段被赋予一个值，例如“overdue”为逾期、“clearance”为结清、“salary”为工资等。

如表1所示，关键词(组)分别为“总应还额”“尚余、未还”“额度”时，一级标注均为money，其具有不同的二级标注，分别为：bill total、bill remain、quota。

表1最后一条记录为一个可以用于对短信分类的规则。该规则具体为，短信中出现关键词“信用卡”，且其后出现关键词“存入”，以及在“存入”一词后出现内容被识别为金额。该规则具有标注mcls_lookup，以及二级标注payback。当输入短信为“您的**银行信用卡8104本期存入人民币6667.18元……”时，经过对短信的分词处理，可以对分词结果中与上述规则匹配的内容标注为mcls_lookup-payback。

表1所示的实施例包括五个字段，即关键词、Annotation、kind、类别、优先级。本实施方式之外，一级标注或多级标注也可实现短信分类的目的，例如所述分类表中可以仅具有“kind”字段或“类别”字段中的一个。在表1所示的实施例中，分类表中，当关键词(组)为mcls_lookup，即可用于短信分类时，相应的，每个二级标注都被赋予一个优先级。参照表1可知，不同的二级标注虽然具有不同的类别标识但可能具有相同的优先级，例如overdue(逾期)和clearance(结清)的优先级均为1。然而，在本发明的其他实施例中，关于二级标注与类别标识以及优先级的对应关系可以另建立在其他的数据表中，而并非一定存在于分类表中。

表1

如表1所示的实施例中的优先级序列的优先级由高至低的顺序参照表2所示的举例。表2中记载了按数字从小到大排序的优先级序列，表中所示优先级按照由高至低的顺序分别为1、4、20、30、33、35、40。

表2所示仅为本实施例所采用的优先级序列，本发明并未限制其他的优先级序列的编号方法，只要能够满足本发明的对类别标识进行优先级标识的要求即可。

表2

对输入的短信完成分词处理后获得短信词表，将短信词表中的词与所述关键词表及规则进行匹配并进行标注。例如可以采用GATE工具对短信词表进行标注。

将短信词表中的每个词到关键词表中进行检索，对于出现在关键词表中的词，获取该词在分类词表中的标注，将该标注添加到短信词表中，建立该词与标注的对应关系。例如，假如短信词表中出现了“已还清”，则查找表1所示的关键词表可知，“已还清”的一级标注Annotation为“mcls_lookup”，且二级标注kind为“clearance”，则将查找获得的“mcls_lookup”和“clearance”添加到短信词表中与“已还清”一词建立对应关系。形式可如下表3所示。其中，表3中的“中国银行”包含一个标注“bank”，该标注不用于对短信的分类。

表3

分词结果	Annotation	kind
			已结清	mcls_lookup	clearance
中国银行	Bank

在另外的实施例中，也可进一步在分类表(如表1所示)中查找获得该标注所对应的优先级(若标注与类别标识及优先级的对应关系预置在其他的数据表中，则查询该表)。进而将关键词“已结清”的二级标注clearance对应的类别标识“结清”及优先级“1”添加到短信词表中对应的记录中。例如按照表1所示的关键词表，短信词表也可采用如表4的形式。其中，表4中的“中国银行”包含一个标注“bank”，该标注不用于对短信的分类，因此不具有类别标识以及优先级。

表4

分词结果	Annotation	kind	类别标识	优先级
					已结清	mcls_lookup	clearance	结清	1
中国银行	Bank

对输入短信完成分词及标注后。每条短信可能包含多个可用于短信分类的标注。即在获得的短信词表中，与分类表表匹配的每个词或者与分类表中规则匹配的内容均获得一个标注，而这些词或者内容的标注可以用于短信分类。

步骤13，在对短信进行分类时，读取短信词表中的一个具有标注的词。

步骤14，判断是否能够读取到短信词表中具有标注的词的记录，如果不能够获取到新的记录，则执行步骤15，输出缓存中存储的类别标识作为短信的分类。

步骤15，将缓存中保存的类别标识输出作为短信分类。

步骤16，获取类别标识。

在本实施例中，首先判断该标注是否可用于短信分类，例如是否为本实施例中的分类标识mcls_lookup，如果标注不属于分类标注，即不可用于短信分类，则读取短信词表的下一条记录。如果标注属于分类标注，则按照分类表中查找相应短信类别标识。

步骤17，按照预置的短信类别标识和优先级的对应关系获得相应的优先级。如上文所述，本发明的实施例中，所述短信类别标识和优先级的对应关系已经对短信标注时记录在短信词表中，因此通过查询所述短信词表可获得与关键词匹配的词的类别标识及其优先级；在另一实施例中，所述短信类别标识和优先级的对应关系建立在所述分类表中，因此，在短信词表中读取到有标注的词并获取其二级标注后，将该二级标注返回到分类表进行查询，查找到其对应的类别标识及对应的优先级；在本发明的再一种实施例中，如上文所述，与二级标注对应的类别标识和优先级的对应关系预置在其他的数据表中，因此在短信词表中读取到有标注的词并获取其二级标注后，在所述数据表中查询该二级标注对应的类别标识，并获得对应的优先级。

步骤18，将当前获得的类别标识的优先级与该短信词表前一次获得的匹配词类别标识的优先级进行比较，若当前获取到的优先级高于缓存中已经保存的类别标识的优先级，则执行步骤19，否则返回步骤13继续读取短信词表中的下一条记录。

具体的，系统具有缓存单元，在每次优先级比较后，缓存优先级高的类别标识及其优先级序列号。若当前获得的类别标识的优先级高于缓存中已经存储的类别标识的优先级，则将当前获得的类别标识及其优先级序列号更新至缓存。

按照上述过程，直至完成当前短信最后一个具有标注的词的类别标识所对应优先级的比较，缓存中最终保存下来的类别标识作为输出的短信的类别。

在系统具体执行过程中，完成对短信的分词操作后，按照表1所示映射规则将标注好的短信信息转换成一个包含输出类别的内存结构，多条短信会被转换成一个内存链表；继而，根据另一个JSon输出映射规则表，将第一步生成的内存列表最终转换成配置的JSon文件。

在本发明的另一实施例中，参照图2所示。系统获取到短信词表的一个具有标注的词，当该词的标注为mcls_lookup时，按照以上实施例的方法获得类别标识及其优先级。若所获得的类别标识的优先级高于缓存中已经保存的优先级，则将获得类别标识及优先级更新至系统缓存；进一步，若系统判断获取的当前类别标识的优先级为优先级序列中的最高优先级，则作为短信的分类输出，且触发系统结束对该短信词表的读取，否则返回步骤13读取短信词表中的下一条记录。

在本发明的又一实施例中，按照上文所述方法建立如表4所示的短信词表，即完成分词和标注的短信词表中包含类别标识和优先级。在进行分类时，查找获得短信词表中最高的优先级，获取该最高优先级对应的类别标识，将该类别标识进行缓存并输出为短信的分类。该流程示意图参见图3。

本方法通过判断类别优先级的方法，在提取短信结构信息的同时判断短信的类别，减少匹配数量，减少了处理环节，又获得高效准确的分类。同时对短信进行结构信息提取之后，按分类的方式输出，可以更好地对短信信息进行归类，并有利于用户进行信息筛选，获得更有针对性的信息。

本发明实施例提供一种对短信文本进行分类的系统，包括：

分词模块，用于对短信进行分词处理，生成短信词表；

缓存模块，用于缓存类别标识及对应的优先级；

输出模块，输出缓存单元保存的类别标识。

分词模块，用于对短信进行分词处理，生成短信词表；

缓存模块，用于缓存类别标识及对应的优先级；

输出模块，输出缓存单元保存的类别标识。

分词模块，用于对短信进行分词处理，生成短信词表；

输出模块，用于输出第三查找模块获得的类别标识。

本发明还提供了一种计算机软件存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

以上对实施例的说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种对短信文本进行分类的方法，其特征在于，包括：

对短信文本进行分词处理获得短信词表；

查找预置的分类表，获得所述短信词表中与分类表匹配的匹配项，并获得所述匹配项在分类表中的标注信息；在短信词表中建立该匹配项与所述标注信息的对应关系；

根据标注信息获得对应的优先级；

获得短信词表中优先级最高的标注信息以及对应的类别标识，根据所述类别标识对短信分类。

2.根据权利要求1所述的方法，其特征在于，所述获得所述分类优先级具体为：

读取短信词表，获取匹配项对应的标注信息；

按照预置的标注信息与优先级的对应关系查找该匹配项标注信息对应的优先级。

3.根据权利要求1所述的方法，其特征在于，

获得所述短信词表中与分类表匹配项，进一步获取该匹配项在分类表中的标注信息所对应的优先级；

在短信词表中建立该匹配项与所述标注信息及优先级的对应关系。

4.根据权利要求3所述的方法，其特征在于，获得短信词表中优先级最高的类别标识具体为：

查找获得短信词表中最高的优先级；

查找短信词表中该最高优先级对应的标注信息；

获得短信词表中与所述标注信息对应的类别标识。

5.根据权利要求2或3所述的方法，其特征在于，获得短信词表中优先级最高的分类具体为：

顺序读取短信词表；

若当前读取词具有标注信息，则获取该标注信息对应的优先级；

若当前获取的优先级高于已缓存的优先级，则将所述当前获取的标注信息对应的类别标识及优先级更新至缓存；否则读取短信词表中的下一个词。

6.根据权利要求5所述的方法，其特征在于，将所述当前获取的类别标识及优先级更新至缓存后还包括：

判断所述当前优先级是否为优先级序列的最高级，若是则结束读取短信词表。

7.一种对短信文本进行分类的系统，包括：

分词模块，用于对短信进行分词处理，生成短信词表；

缓存模块，用于缓存类别标识及对应的优先级；

输出模块，输出缓存单元保存的类别标识。

8.一种对短信文本进行分类的系统，包括

分词模块，用于对短信进行分词处理，生成短信词表；

缓存模块，用于缓存类别标识及对应的优先级；

输出模块，输出缓存单元保存的类别标识。

9.一种对短信文本进行分类的系统，包括：

分词模块，用于对短信进行分词处理，生成短信词表；

输出模块，用于输出第三查找模块获得的类别标识。

10.一种计算机软件存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6所述方法的步骤。