一种短信范式库生成方法、装置及计算机存储设备
技术领域
本发明涉及信息处理技术领域,尤其涉及一种短信范式库生成方法、装置及计算机存储设备。
背景技术
随着科学技术的不断发展,目前传统短信升级为智能短信以及成为了一种趋势,智能短信一般都是通过对海量的短信样本进行训练来实现的。
目前现有技术对于海量的样本数据大都采用人工标注后直接通过机器学习进行训练的方式进行,这种方式对于通用文本解析比较有效,但是由于智能短信场景要求非常高的精准度,机器学习的方式无法提供足够的精准度,因此往往不太合适。而另外一种方式是对短信进行场景划分,通过人工方式进行逐个场景的覆盖。这种方式能够有效提升短信解析的准确度,但是所花的成本较高,覆盖效率很低。
因此,如何提高智能短信的准确率和覆盖效率成为当前亟待解决的问题。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种短信范式库生成方法,所述方法包括:获取多个短信样本;对所述多个短信样本进行聚类处理,得到若干个短信范式;在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;判断所述目标范式是否支持智能卡片解析;将支持智能卡片解析的目标范式确定为第一短信范式;根据所确定的第一短信范式生成短信范式库。
在一可实施方式中,所述方法还包括:将不支持智能卡片解析的目标范式确定为第二短信范式;对所述第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;根据所述解析处理后的第二短信范式更新所述短信范式库。
在一可实施方式中,所述判断所述目标范式是否支持智能卡片解析包括:将所述目标范式发送至第三方服务器;检测是否有对应于所述目标范式的智能卡片返回;若有对应于所述目标范式的智能卡片返回,则所述目标范式支持智能卡片解析。
在一可实施方式中,所述对所述多个短信样本进行聚类处理,得到若干个短信范式包括:对所述多个短信样本进行相似度匹配,得到若干个聚类短信组;对所述若干个聚类短信组分别进行归纳解析,得到对应于每个所述聚类短信组的短信范式。
在一可实施方式中,所述对所述若干个聚类短信组分别进行归纳解析,得到对应于每个所述聚类短信组的短信范式包括:针对每个所述聚类短信组进行归纳解析,得到所述聚类短信组中的相同文本和不同文本;将所述相同文本确定为第一短信模板;根据语义对所述不同文本进行归纳,得到第二短信模板;整合所述第一短信模板和所述第二短信模板,得到对应于所述聚类短信组的短信范式。
本发明另一方面提供一种短信范式库生成装置,所述装置包括:获取模块,用于获取多个短信样本;范式聚类模块,用于对多个所述短信样本进行聚类处理,得到若干个短信范式;目标范式提取模块,用于在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;解析判断模块,用于判断所述目标范式是否支持智能卡片解析;第一范式确定模块,用于将支持智能卡片解析的目标范式确定为第一短信范式;范式库生成模块,用于根据所确定的第一短信范式生成短信范式库。
在一可实施方式中,装置还包括:第二范式确定模块,用于将不支持智能卡片解析的目标范式确定为第二短信范式;第二范式解析模块,用于对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;范式库更新模块,用于根据解析处理后的第二短信范式更新短信范式库。
在一可实施方式中,解析判断模块包括:范式发送单元,用于将目标范式发送至第三方服务器;卡片检测单元,用于检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
在一可实施方式中,范式聚类模块包括:相似匹配单元,用于对多个短信样本进行相似度匹配,得到若干个聚类短信组;聚类解析单元,用于对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
本发明另一方面提供一种计算机存储设备,存储设备包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的短信范式库生成方法。
本发明提供了一种短信范式库生成方法、装置及计算机存储设备,其中方法包括:先获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,判断目标范式是否支持智能卡片解析,再将支持智能卡片解析的目标范式确定为第一短信范式,并根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
附图说明
图1为本发明一实施例所提供的一种短信范式库生成方法的实现流程示意图;
图2为本发明一实施例所提供的一种短信范式库生成方法的一种具体实现流程示意图;
图3为本发明一实施例所提供的一种短信范式库生成方法的另一种具体实现流程示意图;
图4为本发明一实施例所提供的一种聚类短信组归纳解析方法的一种具体实现流程示意图;
图5为本发明一实施例所提供的一种短信范式库生成装置的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为解决现有技术下智能短信生成的准确率和覆盖效率低下的问题,本发明特提供一种短信范式库生成方法,方法包括:
步骤101,获取多个短信样本;
步骤102,对多个短信样本进行聚类处理,得到若干个短信范式;
步骤103,在若干个短信范式中提取满足数量阈值判定条件的目标范式;
步骤104,判断目标范式是否支持智能卡片解析;
步骤105,将支持智能卡片解析的目标范式确定为第一短信范式;
步骤106,根据所确定的第一短信范式生成短信范式库。
请参考图1,本发明实施例先通过步骤101获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后通过步骤102,对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过步骤103在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,那么,通过步骤104判断目标范式是否支持智能卡片解析,再通过步骤105将支持智能卡片解析的目标范式确定为第一短信范式,并通过步骤106根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
在一可实施方式中,方法还包括:
步骤107,将不支持智能卡片解析的目标范式确定为第二短信范式;
步骤108,对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;
步骤109,根据解析处理后的第二短信范式更新短信范式库。
请参考图2,本发明实施例通过步骤107将不支持智能卡片解析的目标范式确定为第二短信范式,然后通过步骤108对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式。由于短信中已经找出范式,根据范式进行覆盖对短信解析也提供了基础的数据字段和数据标注,为后续短信库的生产提供了自动化的标注语料,节约了短信标注的人工成本。而且这些具备场景应用需求的原本无法自动生成智能卡片的第二短信范式经过解析后,也能够支持自动生成智能卡片解析,实现自动场景覆盖。最后通过步骤109根据解析处理后的第二短信范式更新短信范式库,通过范式库的不断补充,即实现了短信范式库自动更新功能,那么,本发明所能覆盖的短信量会逐步增大,有利于大幅提高对场景的覆盖效率。
在一可实施方式中,判断目标范式是否支持智能卡片解析包括:将目标范式发送至第三方服务器;检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
本发明实施例检测判断目标范式是否支持智能卡片解析具体通过:将目标范式发送至用于生成智能卡片的第三方服务器,检测是否有对应于目标范式的智能卡片返回,若有对应于目标范式的智能卡片返回,则说明目标范式能够支持智能卡片解析;若无对应于目标范式的智能卡片返回,则说明目标范式不支持智能卡片解析。当然,当应用本方法的设备本身具备智能卡片解析模块时,可以直接通过自身模块检测目标范式是否支持智能卡片解析,若能够得到对应于目标范式的智能卡片,则说明目标范式支持智能卡片解析,若无法得到对应于目标范式的智能卡片,则说明目标范式不支持智能卡片解析。通过检测出支持智能卡片解析的目标范式后,便能将这部分能够支持智能卡片解析的目标范式保存至短信范式库,并应用于对场景的覆盖,有效减少人工成本,提高场景覆盖效率。
在一可实施方式中,对多个短信样本进行聚类处理,得到若干个短信范式包括:
步骤201,对多个短信样本进行相似度匹配,得到若干个聚类短信组;
步骤202,对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
请参考图3,在本发明实施例中,对多个短信样本进行聚类处理,得到若干个短信范式具体可以通过,步骤201对多个短信样本进行相似度匹配,得到若干个聚类短信组,每一个聚类短信组中的短信理论上属于同一个类型、场景的短信,如可能均为一个平台发送的飞机票订票短信,如以下两条短信就会被归为同一个聚类组:短信1:【第一平台】亲爱的旅客您好,MU2456航班已到达武汉天河机场T2,提取行李请前往1号转盘!短信2:【第一平台】亲爱的旅客您好,CZ3139航班已到达北京首都机场T2,提取行李请前往12号转盘!然后通过步骤202对若干个聚类短信组分别进行归纳解析,得到对应于每一个聚类短信组的短信范式,如将上述短信聚类组进行归纳解析,得到如:【第一平台】亲爱的旅客您好,@航班号@航班已到达@到达机场@,提取行李请前往@行李提取转盘@号转盘!的短信范式,(通过@@来短信原文本身进行区分)。根据这种方式,我们就可以找到短信样本中的所有的聚类组及短信范式,而且可以找到每一条短信范式能够代表多少条短信,从而减少人工成本,有效提高了对场景的覆盖率。
在一可实施方式中,对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式包括:
步骤2021,针对每个聚类短信组进行归纳解析,得到聚类短信组中的相同文本和不同文本;
步骤2022,将相同文本确定为第一短信模板;
步骤2023,根据语义对不同文本进行归纳,得到第二短信模板;
步骤2024,整合第一短信模板和第二短信模板,得到对应于聚类短信组的短信范式。
请参考图4,本发明实施例通过步骤2021针对每个聚类短信组进行归纳解析,得到聚类短信组中的相同文本和不同文本,然后通过步骤2022将相同文本确定为第一短信模板,通过步骤2023根据语义对不同文本进行归纳,得到第二短信模板。具体的,如上述短信1和短信2中,相同文本为【第一平台】亲爱的旅客您好/航班号/航班已到达/到达机场/,提取行李请前往/行李提取转盘/号转盘!将这部分确定为短信第一模板,不同的部分为其中的航班号MU2456/CZ3139、到达机场武汉天河机场T2/北京首都机场T2及行李提取转盘1/12,将这部分不同文本根据语义进行归纳成第二短信模板,再通过步骤2024对第一短信模板和第二短信模板进行整合,得到对应于聚类短信组的短信范式,如【第一平台】亲爱的旅客您好,@航班号@航班已到达@到达机场@,提取行李请前往@行李提取转盘@号转盘!的短信范式,(通过@@来短信原文本身进行区分)。本发明实施例通过对多个聚类短信组进行自动归纳解析,从而获得短信范式的方式来实现场景覆盖,不仅大大减少了人工标注的成本,而且有效的提高了场景覆盖的效率。
本发明另一方面提供一种短信范式库生成装置,装置包括:
获取模块1010,用于获取多个短信样本;
范式聚类模块1011,用于对多个短信样本进行聚类处理,得到若干个短信范式;
目标范式提取模块1012,用于在若干个短信范式中提取满足数量阈值判定条件的目标范式;
解析判断模块1013,用于判断目标范式是否支持智能卡片解析;
第一范式确定模块1014,用于将支持智能卡片解析的目标范式确定为第一短信范式;
范式库生成模块1015,用于根据所确定的第一短信范式生成短信范式库。
请参考图5,本发明实施例先通过获取模块1010获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后通过范式聚类模块1011,对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过目标范式提取模块1012在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,那么,通过解析判断模块1013判断目标范式是否支持智能卡片解析,再通过第一范式确定模块1014将支持智能卡片解析的目标范式确定为第一短信范式,并通过范式库生成模块1015根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
在一可实施方式中,装置还包括:
第二范式确定模块1016,用于将不支持智能卡片解析的目标范式确定为第二短信范式;
第二范式解析模块1017,用于对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;
范式库更新模块1018,用于根据解析处理后的第二短信范式更新短信范式库。
请参考图5,本发明实施例通过第二范式确定模块1016将不支持智能卡片解析的目标范式确定为第二短信范式,然后通过第二范式解析模块1017对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式。由于短信中已经找出范式,根据范式进行覆盖对短信解析也提供了基础的数据字段和数据标注,为后续短信库的生产提供了自动化的标注语料,节约了短信标注的人工成本。而且这些具备场景应用需求的原本无法自动生成智能卡片的第二短信范式经过解析后,也能够支持自动生成智能卡片解析,实现自动场景覆盖。最后通过范式库更新模块1018根据解析处理后的第二短信范式更新短信范式库,通过范式库的不断补充,即实现了短信范式库自动更新功能,那么,本发明所能覆盖的短信量会逐步增大,有利于大幅提高对场景的覆盖效率。
在一可实施方式中,解析判断模块1013包括:范式发送单元,用于将目标范式发送至第三方服务器;卡片检测单元,用于检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
本发明实施例检测判断目标范式是否支持智能卡片解析具体为:通过范式发送单元将目标范式发送至用于生成智能卡片的第三方服务器,再通过卡片检测单元检测是否有对应于目标范式的智能卡片返回,若有对应于目标范式的智能卡片返回,则说明目标范式能够支持智能卡片解析;若无对应于目标范式的智能卡片返回,则说明目标范式不支持智能卡片解析。当然,当应用本方法的设备本身具备智能卡片解析模块时,可以直接通过自身模块检测目标范式是否支持智能卡片解析,若能够得到对应于目标范式的智能卡片,则说明目标范式支持智能卡片解析,若无法得到对应于目标范式的智能卡片,则说明目标范式不支持智能卡片解析。通过检测出支持智能卡片解析的目标范式后,便能将这部分能够支持智能卡片解析的目标范式保存至短信范式库,并应用于对场景的覆盖,有效减少人工成本,提高场景覆盖效率。
在一可实施方式中,范式聚类模块1011包括:相似匹配单元,用于对多个短信样本进行相似度匹配,得到若干个聚类短信组;聚类解析单元,用于对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
在本发明实施例中,对多个短信样本进行聚类处理,得到若干个短信范式具体为,通过相似匹配单元对多个短信样本进行相似度匹配,得到若干个聚类短信组,每一个聚类短信组中的短信理论上属于同一个类型、场景的短信,如可能均为一个平台发送的飞机票订票短信,如以下两条短信就会被归为同一个聚类组:短信1:【第一平台】亲爱的旅客您好,MU2456航班已到达武汉天河机场T2,提取行李请前往1号转盘!短信2:【第一平台】亲爱的旅客您好,CZ3139航班已到达北京首都机场T2,提取行李请前往12号转盘!然后通过聚类解析单元对若干个聚类短信组分别进行归纳解析,得到对应于每一个聚类短信组的短信范式,如将上述短信聚类组进行归纳解析,得到如:【第一平台】亲爱的旅客您好,@航班号@航班已到达@到达机场@,提取行李请前往@行李提取转盘@号转盘!的短信范式,(通过@来短信原文本身进行区分)。根据这种方式,我们就可以找到短信样本中的所有的聚类组及短信范式,而且可以找到每一条短信范式能够代表多少条短信,从而减少人工成本,有效提高了对场景的覆盖率。
本发明另一方面提供一种计算机存储设备,存储设备包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的短信范式库生成方法。
本发明实施例的计算机存储设备包括一组计算机可执行指令,当指令被执行时用于执行如下方法:先获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,那么,通过判断目标范式是否支持智能卡片解析,再将支持智能卡片解析的目标范式确定为第一短信范式,并根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。