CN110096594A - 一种短信范式库生成方法、装置及计算机存储设备 - Google Patents

一种短信范式库生成方法、装置及计算机存储设备 Download PDF

Info

Publication number
CN110096594A
CN110096594A CN201910357509.4A CN201910357509A CN110096594A CN 110096594 A CN110096594 A CN 110096594A CN 201910357509 A CN201910357509 A CN 201910357509A CN 110096594 A CN110096594 A CN 110096594A
Authority
CN
China
Prior art keywords
short message
normal form
target
intelligent cards
parsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910357509.4A
Other languages
English (en)
Other versions
CN110096594B (zh
Inventor
李枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Teddy Bear Mobile Technology Co ltd
Beijing Teddy Future Technology Co.,Ltd.
Original Assignee
Beijing Teddy Bear Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Teddy Bear Mobile Technology Co Ltd filed Critical Beijing Teddy Bear Mobile Technology Co Ltd
Priority to CN201910357509.4A priority Critical patent/CN110096594B/zh
Publication of CN110096594A publication Critical patent/CN110096594A/zh
Application granted granted Critical
Publication of CN110096594B publication Critical patent/CN110096594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种短信范式库生成方法、装置及计算机存储设备,所述方法包括:获取多个短信样本;对所述多个短信样本进行聚类处理,得到若干个短信范式;在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;判断所述目标范式是否支持智能卡片解析;将支持智能卡片解析的目标范式确定为第一短信范式;根据所确定的第一短信范式生成短信范式库。本发明通过对短信样本进行聚类处理,得到短信范式,然后利用短信范式进行场景覆盖,有效减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。

Description

一种短信范式库生成方法、装置及计算机存储设备
技术领域
本发明涉及信息处理技术领域,尤其涉及一种短信范式库生成方法、装置及计算机存储设备。
背景技术
随着科学技术的不断发展,目前传统短信升级为智能短信以及成为了一种趋势,智能短信一般都是通过对海量的短信样本进行训练来实现的。
目前现有技术对于海量的样本数据大都采用人工标注后直接通过机器学习进行训练的方式进行,这种方式对于通用文本解析比较有效,但是由于智能短信场景要求非常高的精准度,机器学习的方式无法提供足够的精准度,因此往往不太合适。而另外一种方式是对短信进行场景划分,通过人工方式进行逐个场景的覆盖。这种方式能够有效提升短信解析的准确度,但是所花的成本较高,覆盖效率很低。
因此,如何提高智能短信的准确率和覆盖效率成为当前亟待解决的问题。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种短信范式库生成方法,所述方法包括:获取多个短信样本;对所述多个短信样本进行聚类处理,得到若干个短信范式;在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;判断所述目标范式是否支持智能卡片解析;将支持智能卡片解析的目标范式确定为第一短信范式;根据所确定的第一短信范式生成短信范式库。
在一可实施方式中,所述方法还包括:将不支持智能卡片解析的目标范式确定为第二短信范式;对所述第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;根据所述解析处理后的第二短信范式更新所述短信范式库。
在一可实施方式中,所述判断所述目标范式是否支持智能卡片解析包括:将所述目标范式发送至第三方服务器;检测是否有对应于所述目标范式的智能卡片返回;若有对应于所述目标范式的智能卡片返回,则所述目标范式支持智能卡片解析。
在一可实施方式中,所述对所述多个短信样本进行聚类处理,得到若干个短信范式包括:对所述多个短信样本进行相似度匹配,得到若干个聚类短信组;对所述若干个聚类短信组分别进行归纳解析,得到对应于每个所述聚类短信组的短信范式。
在一可实施方式中,所述对所述若干个聚类短信组分别进行归纳解析,得到对应于每个所述聚类短信组的短信范式包括:针对每个所述聚类短信组进行归纳解析,得到所述聚类短信组中的相同文本和不同文本;将所述相同文本确定为第一短信模板;根据语义对所述不同文本进行归纳,得到第二短信模板;整合所述第一短信模板和所述第二短信模板,得到对应于所述聚类短信组的短信范式。
本发明另一方面提供一种短信范式库生成装置,所述装置包括:获取模块,用于获取多个短信样本;范式聚类模块,用于对多个所述短信样本进行聚类处理,得到若干个短信范式;目标范式提取模块,用于在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;解析判断模块,用于判断所述目标范式是否支持智能卡片解析;第一范式确定模块,用于将支持智能卡片解析的目标范式确定为第一短信范式;范式库生成模块,用于根据所确定的第一短信范式生成短信范式库。
在一可实施方式中,装置还包括:第二范式确定模块,用于将不支持智能卡片解析的目标范式确定为第二短信范式;第二范式解析模块,用于对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;范式库更新模块,用于根据解析处理后的第二短信范式更新短信范式库。
在一可实施方式中,解析判断模块包括:范式发送单元,用于将目标范式发送至第三方服务器;卡片检测单元,用于检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
在一可实施方式中,范式聚类模块包括:相似匹配单元,用于对多个短信样本进行相似度匹配,得到若干个聚类短信组;聚类解析单元,用于对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
本发明另一方面提供一种计算机存储设备,存储设备包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的短信范式库生成方法。
本发明提供了一种短信范式库生成方法、装置及计算机存储设备,其中方法包括:先获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,判断目标范式是否支持智能卡片解析,再将支持智能卡片解析的目标范式确定为第一短信范式,并根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
附图说明
图1为本发明一实施例所提供的一种短信范式库生成方法的实现流程示意图;
图2为本发明一实施例所提供的一种短信范式库生成方法的一种具体实现流程示意图;
图3为本发明一实施例所提供的一种短信范式库生成方法的另一种具体实现流程示意图;
图4为本发明一实施例所提供的一种聚类短信组归纳解析方法的一种具体实现流程示意图;
图5为本发明一实施例所提供的一种短信范式库生成装置的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为解决现有技术下智能短信生成的准确率和覆盖效率低下的问题,本发明特提供一种短信范式库生成方法,方法包括:
步骤101,获取多个短信样本;
步骤102,对多个短信样本进行聚类处理,得到若干个短信范式;
步骤103,在若干个短信范式中提取满足数量阈值判定条件的目标范式;
步骤104,判断目标范式是否支持智能卡片解析;
步骤105,将支持智能卡片解析的目标范式确定为第一短信范式;
步骤106,根据所确定的第一短信范式生成短信范式库。
请参考图1,本发明实施例先通过步骤101获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后通过步骤102,对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过步骤103在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,那么,通过步骤104判断目标范式是否支持智能卡片解析,再通过步骤105将支持智能卡片解析的目标范式确定为第一短信范式,并通过步骤106根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
在一可实施方式中,方法还包括:
步骤107,将不支持智能卡片解析的目标范式确定为第二短信范式;
步骤108,对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;
步骤109,根据解析处理后的第二短信范式更新短信范式库。
请参考图2,本发明实施例通过步骤107将不支持智能卡片解析的目标范式确定为第二短信范式,然后通过步骤108对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式。由于短信中已经找出范式,根据范式进行覆盖对短信解析也提供了基础的数据字段和数据标注,为后续短信库的生产提供了自动化的标注语料,节约了短信标注的人工成本。而且这些具备场景应用需求的原本无法自动生成智能卡片的第二短信范式经过解析后,也能够支持自动生成智能卡片解析,实现自动场景覆盖。最后通过步骤109根据解析处理后的第二短信范式更新短信范式库,通过范式库的不断补充,即实现了短信范式库自动更新功能,那么,本发明所能覆盖的短信量会逐步增大,有利于大幅提高对场景的覆盖效率。
在一可实施方式中,判断目标范式是否支持智能卡片解析包括:将目标范式发送至第三方服务器;检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
本发明实施例检测判断目标范式是否支持智能卡片解析具体通过:将目标范式发送至用于生成智能卡片的第三方服务器,检测是否有对应于目标范式的智能卡片返回,若有对应于目标范式的智能卡片返回,则说明目标范式能够支持智能卡片解析;若无对应于目标范式的智能卡片返回,则说明目标范式不支持智能卡片解析。当然,当应用本方法的设备本身具备智能卡片解析模块时,可以直接通过自身模块检测目标范式是否支持智能卡片解析,若能够得到对应于目标范式的智能卡片,则说明目标范式支持智能卡片解析,若无法得到对应于目标范式的智能卡片,则说明目标范式不支持智能卡片解析。通过检测出支持智能卡片解析的目标范式后,便能将这部分能够支持智能卡片解析的目标范式保存至短信范式库,并应用于对场景的覆盖,有效减少人工成本,提高场景覆盖效率。
在一可实施方式中,对多个短信样本进行聚类处理,得到若干个短信范式包括:
步骤201,对多个短信样本进行相似度匹配,得到若干个聚类短信组;
步骤202,对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
请参考图3,在本发明实施例中,对多个短信样本进行聚类处理,得到若干个短信范式具体可以通过,步骤201对多个短信样本进行相似度匹配,得到若干个聚类短信组,每一个聚类短信组中的短信理论上属于同一个类型、场景的短信,如可能均为一个平台发送的飞机票订票短信,如以下两条短信就会被归为同一个聚类组:短信1:【第一平台】亲爱的旅客您好,MU2456航班已到达武汉天河机场T2,提取行李请前往1号转盘!短信2:【第一平台】亲爱的旅客您好,CZ3139航班已到达北京首都机场T2,提取行李请前往12号转盘!然后通过步骤202对若干个聚类短信组分别进行归纳解析,得到对应于每一个聚类短信组的短信范式,如将上述短信聚类组进行归纳解析,得到如:【第一平台】亲爱的旅客您好,@航班号@航班已到达@到达机场@,提取行李请前往@行李提取转盘@号转盘!的短信范式,(通过@@来短信原文本身进行区分)。根据这种方式,我们就可以找到短信样本中的所有的聚类组及短信范式,而且可以找到每一条短信范式能够代表多少条短信,从而减少人工成本,有效提高了对场景的覆盖率。
在一可实施方式中,对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式包括:
步骤2021,针对每个聚类短信组进行归纳解析,得到聚类短信组中的相同文本和不同文本;
步骤2022,将相同文本确定为第一短信模板;
步骤2023,根据语义对不同文本进行归纳,得到第二短信模板;
步骤2024,整合第一短信模板和第二短信模板,得到对应于聚类短信组的短信范式。
请参考图4,本发明实施例通过步骤2021针对每个聚类短信组进行归纳解析,得到聚类短信组中的相同文本和不同文本,然后通过步骤2022将相同文本确定为第一短信模板,通过步骤2023根据语义对不同文本进行归纳,得到第二短信模板。具体的,如上述短信1和短信2中,相同文本为【第一平台】亲爱的旅客您好/航班号/航班已到达/到达机场/,提取行李请前往/行李提取转盘/号转盘!将这部分确定为短信第一模板,不同的部分为其中的航班号MU2456/CZ3139、到达机场武汉天河机场T2/北京首都机场T2及行李提取转盘1/12,将这部分不同文本根据语义进行归纳成第二短信模板,再通过步骤2024对第一短信模板和第二短信模板进行整合,得到对应于聚类短信组的短信范式,如【第一平台】亲爱的旅客您好,@航班号@航班已到达@到达机场@,提取行李请前往@行李提取转盘@号转盘!的短信范式,(通过@@来短信原文本身进行区分)。本发明实施例通过对多个聚类短信组进行自动归纳解析,从而获得短信范式的方式来实现场景覆盖,不仅大大减少了人工标注的成本,而且有效的提高了场景覆盖的效率。
本发明另一方面提供一种短信范式库生成装置,装置包括:
获取模块1010,用于获取多个短信样本;
范式聚类模块1011,用于对多个短信样本进行聚类处理,得到若干个短信范式;
目标范式提取模块1012,用于在若干个短信范式中提取满足数量阈值判定条件的目标范式;
解析判断模块1013,用于判断目标范式是否支持智能卡片解析;
第一范式确定模块1014,用于将支持智能卡片解析的目标范式确定为第一短信范式;
范式库生成模块1015,用于根据所确定的第一短信范式生成短信范式库。
请参考图5,本发明实施例先通过获取模块1010获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后通过范式聚类模块1011,对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过目标范式提取模块1012在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,那么,通过解析判断模块1013判断目标范式是否支持智能卡片解析,再通过第一范式确定模块1014将支持智能卡片解析的目标范式确定为第一短信范式,并通过范式库生成模块1015根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
在一可实施方式中,装置还包括:
第二范式确定模块1016,用于将不支持智能卡片解析的目标范式确定为第二短信范式;
第二范式解析模块1017,用于对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;
范式库更新模块1018,用于根据解析处理后的第二短信范式更新短信范式库。
请参考图5,本发明实施例通过第二范式确定模块1016将不支持智能卡片解析的目标范式确定为第二短信范式,然后通过第二范式解析模块1017对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式。由于短信中已经找出范式,根据范式进行覆盖对短信解析也提供了基础的数据字段和数据标注,为后续短信库的生产提供了自动化的标注语料,节约了短信标注的人工成本。而且这些具备场景应用需求的原本无法自动生成智能卡片的第二短信范式经过解析后,也能够支持自动生成智能卡片解析,实现自动场景覆盖。最后通过范式库更新模块1018根据解析处理后的第二短信范式更新短信范式库,通过范式库的不断补充,即实现了短信范式库自动更新功能,那么,本发明所能覆盖的短信量会逐步增大,有利于大幅提高对场景的覆盖效率。
在一可实施方式中,解析判断模块1013包括:范式发送单元,用于将目标范式发送至第三方服务器;卡片检测单元,用于检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
本发明实施例检测判断目标范式是否支持智能卡片解析具体为:通过范式发送单元将目标范式发送至用于生成智能卡片的第三方服务器,再通过卡片检测单元检测是否有对应于目标范式的智能卡片返回,若有对应于目标范式的智能卡片返回,则说明目标范式能够支持智能卡片解析;若无对应于目标范式的智能卡片返回,则说明目标范式不支持智能卡片解析。当然,当应用本方法的设备本身具备智能卡片解析模块时,可以直接通过自身模块检测目标范式是否支持智能卡片解析,若能够得到对应于目标范式的智能卡片,则说明目标范式支持智能卡片解析,若无法得到对应于目标范式的智能卡片,则说明目标范式不支持智能卡片解析。通过检测出支持智能卡片解析的目标范式后,便能将这部分能够支持智能卡片解析的目标范式保存至短信范式库,并应用于对场景的覆盖,有效减少人工成本,提高场景覆盖效率。
在一可实施方式中,范式聚类模块1011包括:相似匹配单元,用于对多个短信样本进行相似度匹配,得到若干个聚类短信组;聚类解析单元,用于对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
在本发明实施例中,对多个短信样本进行聚类处理,得到若干个短信范式具体为,通过相似匹配单元对多个短信样本进行相似度匹配,得到若干个聚类短信组,每一个聚类短信组中的短信理论上属于同一个类型、场景的短信,如可能均为一个平台发送的飞机票订票短信,如以下两条短信就会被归为同一个聚类组:短信1:【第一平台】亲爱的旅客您好,MU2456航班已到达武汉天河机场T2,提取行李请前往1号转盘!短信2:【第一平台】亲爱的旅客您好,CZ3139航班已到达北京首都机场T2,提取行李请前往12号转盘!然后通过聚类解析单元对若干个聚类短信组分别进行归纳解析,得到对应于每一个聚类短信组的短信范式,如将上述短信聚类组进行归纳解析,得到如:【第一平台】亲爱的旅客您好,@航班号@航班已到达@到达机场@,提取行李请前往@行李提取转盘@号转盘!的短信范式,(通过@来短信原文本身进行区分)。根据这种方式,我们就可以找到短信样本中的所有的聚类组及短信范式,而且可以找到每一条短信范式能够代表多少条短信,从而减少人工成本,有效提高了对场景的覆盖率。
本发明另一方面提供一种计算机存储设备,存储设备包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的短信范式库生成方法。
本发明实施例的计算机存储设备包括一组计算机可执行指令,当指令被执行时用于执行如下方法:先获取多个短信样本,具体可以从大量整体样本中进行随机挑选或抽取一定量的样本,获得的短信样本数尽量大,以保证训练场景的多样化以及训练结果的准确率,具体可以为100万条以上。然后对所获取的多个短信样本进行聚类处理,其中聚类指的是对短信文本进行相似度匹配,即将文本近似的短信样本作为一个聚类组,聚类之后的短信属于同一类型同一场景,然后对属于各场景下的聚类组短信进行解析,得到若干个针对于各个场景的短信范式。再通过在若干个短信范式中提取满足数量阈值判定条件的目标范式,即对短信范式进行数量值判断,当一个短信范式所对应的短信样本数量值达到一定阈值时,如达到百分之1时,表明此短信范式具备场景应用需求,满足数量阈值判定条件。将具备应用需求的短信范式确定为目标范式,提取目标范式后需将其进行智能卡片解析,然后进行场景覆盖发送,那么,通过判断目标范式是否支持智能卡片解析,再将支持智能卡片解析的目标范式确定为第一短信范式,并根据所确定的第一短信范式生成短信范式库,短信范式库中包含有每一个短信范式及其对应的短信样本数量及比例,这样,就得到了能够覆盖各个场景的,支持智能卡片解析的短信范式及短信范式库,减少人工成本,经过智能卡片解析的短信范式准确率更高,因此有效提高了智能短信生成的准确率和覆盖效率。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种短信范式库生成方法,其特征在于,所述方法包括:
获取多个短信样本;
对所述多个短信样本进行聚类处理,得到若干个短信范式;
在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;
判断所述目标范式是否支持智能卡片解析;
将支持智能卡片解析的目标范式确定为第一短信范式;
根据所确定的第一短信范式生成短信范式库。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将不支持智能卡片解析的目标范式确定为第二短信范式;
对所述第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;
根据所述解析处理后的第二短信范式更新所述短信范式库。
3.根据权利要求1所述的方法,其特征在于,所述判断所述目标范式是否支持智能卡片解析包括:
将所述目标范式发送至第三方服务器;
检测是否有对应于所述目标范式的智能卡片返回;
若有对应于所述目标范式的智能卡片返回,则所述目标范式支持智能卡片解析。
4.根据权利要求1或2所述的方法,其特征在于,所述对所述多个短信样本进行聚类处理,得到若干个短信范式包括:
对所述多个短信样本进行相似度匹配,得到若干个聚类短信组;
对所述若干个聚类短信组分别进行归纳解析,得到对应于每个所述聚类短信组的短信范式。
5.根据权利要求4所述的方法,其特征在于,所述对所述若干个聚类短信组分别进行归纳解析,得到对应于每个所述聚类短信组的短信范式包括:
针对每个所述聚类短信组进行归纳解析,得到所述聚类短信组中的相同文本和不同文本;
将所述相同文本确定为第一短信模板;
根据语义对所述不同文本进行归纳,得到第二短信模板;
整合所述第一短信模板和所述第二短信模板,得到对应于所述聚类短信组的短信范式。
6.一种短信范式库生成装置,其特征在于,所述装置包括:
获取模块,用于获取多个短信样本;
范式聚类模块,用于对多个所述短信样本进行聚类处理,得到若干个短信范式;
目标范式提取模块,用于在所述若干个短信范式中提取满足数量阈值判定条件的目标范式;
解析判断模块,用于判断所述目标范式是否支持智能卡片解析;
第一范式确定模块,用于将支持智能卡片解析的目标范式确定为第一短信范式;
范式库生成模块,用于根据所确定的第一短信范式生成短信范式库。
7.根据权利要求6的装置,其特征在于,装置还包括:
第二范式确定模块,用于将不支持智能卡片解析的目标范式确定为第二短信范式;
第二范式解析模块,用于对第二短信范式进行智能卡片解析处理,得到解析处理后的第二短信范式;
范式库更新模块,用于根据解析处理后的第二短信范式更新短信范式库。
8.根据权利要求6的装置,其特征在于,解析判断模块包括:
范式发送单元,用于将目标范式发送至第三方服务器;
卡片检测单元,用于检测是否有对应于目标范式的智能卡片返回;若有对应于目标范式的智能卡片返回,则目标范式支持智能卡片解析。
9.根据权利要求6或7的装置,其特征在于,范式聚类模块包括:
相似匹配单元,用于对多个短信样本进行相似度匹配,得到若干个聚类短信组;
聚类解析单元,用于对若干个聚类短信组分别进行归纳解析,得到对应于每个聚类短信组的短信范式。
10.一种计算机存储设备,其特征在于,存储设备包括一组计算机可执行指令,当指令被执行时用于执行权利要求1-5任一项的短信范式库生成方法。
CN201910357509.4A 2019-04-29 2019-04-29 一种短信范式库生成方法、装置及计算机存储设备 Active CN110096594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910357509.4A CN110096594B (zh) 2019-04-29 2019-04-29 一种短信范式库生成方法、装置及计算机存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910357509.4A CN110096594B (zh) 2019-04-29 2019-04-29 一种短信范式库生成方法、装置及计算机存储设备

Publications (2)

Publication Number Publication Date
CN110096594A true CN110096594A (zh) 2019-08-06
CN110096594B CN110096594B (zh) 2021-07-09

Family

ID=67446504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910357509.4A Active CN110096594B (zh) 2019-04-29 2019-04-29 一种短信范式库生成方法、装置及计算机存储设备

Country Status (1)

Country Link
CN (1) CN110096594B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795924A (zh) * 2020-01-03 2020-02-14 北京泰迪熊移动科技有限公司 一种意图模板库构建方法、装置及存储介质
CN111597806A (zh) * 2020-05-21 2020-08-28 上海创蓝文化传播有限公司 一种基于统计模型识别短信文本模版的方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN104954413A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 提供互联网应用服务的方法、系统、用户端设备及服务端
CN105068976A (zh) * 2015-07-31 2015-11-18 小米科技有限责任公司 票务信息展示方法及装置
CN105635225A (zh) * 2014-11-07 2016-06-01 阿里巴巴集团控股有限公司 移动终端访问基于移动互联网络的服务器的方法与系统及移动终端
CN105959469A (zh) * 2016-04-25 2016-09-21 奇酷软件(深圳)有限公司 短信的展示方法、展示装置及终端
US20180210802A1 (en) * 2017-01-26 2018-07-26 International Business Machines Corporation Generation of end-user sessions from end-user events identified from computer system logs

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN104954413A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 提供互联网应用服务的方法、系统、用户端设备及服务端
CN105635225A (zh) * 2014-11-07 2016-06-01 阿里巴巴集团控股有限公司 移动终端访问基于移动互联网络的服务器的方法与系统及移动终端
CN105068976A (zh) * 2015-07-31 2015-11-18 小米科技有限责任公司 票务信息展示方法及装置
CN105959469A (zh) * 2016-04-25 2016-09-21 奇酷软件(深圳)有限公司 短信的展示方法、展示装置及终端
US20180210802A1 (en) * 2017-01-26 2018-07-26 International Business Machines Corporation Generation of end-user sessions from end-user events identified from computer system logs

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALI, SYED SARMAD等: "Net Library for SMS Spam Detection using Machine Learning A Cross Platform Solution", 《PROCEEDINGS OF 2018 15TH INTERNATIONAL BHURBAN CONFERENCE ON APPLIED SCIENCES AND TECHNOLOGY (IBCAST)》 *
杨倩: "信析宝:拯救短信", 《中国企业家》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795924A (zh) * 2020-01-03 2020-02-14 北京泰迪熊移动科技有限公司 一种意图模板库构建方法、装置及存储介质
CN111597806A (zh) * 2020-05-21 2020-08-28 上海创蓝文化传播有限公司 一种基于统计模型识别短信文本模版的方法、设备及介质

Also Published As

Publication number Publication date
CN110096594B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN108985214A (zh) 图像数据的标注方法和装置
CN111309910A (zh) 文本信息挖掘方法及装置
CN110852079A (zh) 文档目录自动生成方法、装置及计算机可读存储介质
CN109739985A (zh) 文本自动分类方法、设备及存储介质
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN110096594A (zh) 一种短信范式库生成方法、装置及计算机存储设备
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN115081025A (zh) 基于数字中台的敏感数据管理方法、装置及电子设备
CN106484913A (zh) 一种目标图片确定的方法以及服务器
CN105389303B (zh) 一种异源语料自动融合方法
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质
US20210374490A1 (en) Method and apparatus of processing image, device and medium
CN110428816A (zh) 一种语音细胞库训练和分享的方法及装置
CN113010593B (zh) 非结构化文本的事件抽取方法、系统及装置
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN112487817A (zh) 命名实体识别模型训练方法、样本标注方法、装置及设备
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
CN113761209B (zh) 文本拼接方法及装置、电子设备、存储介质
CN110442858A (zh) 一种问句实体识别方法、装置、计算机设备及存储介质
Lu et al. Automatic scoring system for handwritten examination papers based on YOLO algorithm
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
CN110751152B (zh) 检测任意形状文本的方法
CN110019808A (zh) 一种预测信息属性的方法和装置
CN113515591A (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN113033431A (zh) 光学字符识别模型训练和识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Future Technology Co.,Ltd.

Address before: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee before: Beijing Teddy Bear Mobile Technology Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: East of 1st floor, No.36 Haidian Street, Haidian District, Beijing, 100080

Patentee after: Beijing Teddy Bear Mobile Technology Co.,Ltd.

Address before: 100085 07a36, block D, 7 / F, No.28, information road, Haidian District, Beijing

Patentee before: BEIJING TEDDY BEAR MOBILE TECHNOLOGY Co.,Ltd.