CN111931487A - 用于短信处理的方法、电子设备和存储介质 - Google Patents

用于短信处理的方法、电子设备和存储介质 Download PDF

Info

Publication number
CN111931487A
CN111931487A CN202011100977.2A CN202011100977A CN111931487A CN 111931487 A CN111931487 A CN 111931487A CN 202011100977 A CN202011100977 A CN 202011100977A CN 111931487 A CN111931487 A CN 111931487A
Authority
CN
China
Prior art keywords
short message
violation
time
license plate
plate number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011100977.2A
Other languages
English (en)
Other versions
CN111931487B (zh
Inventor
朱广
章瑞平
谢春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ehi Auto Services Co ltd
Shanghai Yihi Chengshan Automobile Rental Co ltd
Original Assignee
Shanghai Ehi Auto Services Co ltd
Shanghai Yihi Chengshan Automobile Rental Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ehi Auto Services Co ltd, Shanghai Yihi Chengshan Automobile Rental Co ltd filed Critical Shanghai Ehi Auto Services Co ltd
Priority to CN202011100977.2A priority Critical patent/CN111931487B/zh
Publication of CN111931487A publication Critical patent/CN111931487A/zh
Application granted granted Critical
Publication of CN111931487B publication Critical patent/CN111931487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本公开的实施例涉及用于短信处理的方法、设备和介质,涉及信息处理领域。根据该方法,从包括多个关键词集合的词典确定与接收的短信相匹配的第一关键词集合;确定与第一关键词集合相关联的第一短信类别;确定第一短信类别在短信库中出现的第一出现概率、第一关键词集合在短信库中的短信中共现的第二出现概率、第一关键词集合在短信库中的短信类别中分别出现的第三出现概率集合;基于第一出现概率、第二出现概率以及第三出现概率集合,确定接收的短信为第一短信类别的第一概率;如果确定第一概率大于或等于预定概率,则确定接收的短信为第一短信类别。由此,能够提高短信类别识别的准确率和效率。

Description

用于短信处理的方法、电子设备和存储介质
技术领域
本公开的实施例总体涉及信息处理领域,具体涉及用于短信处理的方法、电子设备和计算机存储介质。
背景技术
在车辆租赁领域,车辆租赁方经常会接收到各种短信,例如维修短信、违章短信、保险短信、移车短信等。传统方案主要依靠人工来对短信进行分类后,进行后续的诸如维修、违章等处理。这种方式往往不够准确,而且效率低下。
发明内容
提供了一种用于短信处理的方法、电子设备以及计算机存储介质,能够基于与短信类别相关联的多个关键词集合,对短信进行匹配,并基于多种出现概率,确定短信是否为与匹配的关键词集合相关联的短信类别,提高短信类别识别的准确性和效率。
根据本公开的第一方面,提供了一种用于短信处理的方法。该方法包括:从包括多个关键词集合的词典确定与接收的短信相匹配的第一关键词集合;基于关键词集合与短信类别之间的关联,确定与第一关键词集合相关联的第一短信类别;确定第一短信类别在短信库中出现的第一出现概率、第一关键词集合在短信库中的短信中共现的第二出现概率、第一关键词集合在短信库中的第一短信类别中分别出现的第三出现概率集合;基于第一出现概率、第二出现概率以及第三出现概率集合,确定接收的短信为第一短信类别的第一概率;如果确定第一概率大于或等于预定概率,则确定接收的短信为第一短信类别。
根据本公开的第二方面,提供了一种电子设备。该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面所述的方法。
在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1是根据本公开的实施例的信息处理环境100的示意图。
图2是根据本公开的实施例的用于短信处理的方法200的示意图。
图3是根据本公开的实施例的用于确定第一关键词集合的方法300的示意图。
图4是根据本公开的实施例的用于获取违章位置的方法400的示意图。
图5是用来实现本公开实施例的用于短信处理的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,传统方案主要依靠人工来对短信进行分类后,进行后续的诸如维修、违章等处理。这种方式往往不够准确,而且效率低下。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于短信处理的方案。在该方案中,从包括多个关键词集合的词典确定与接收的短信相匹配的第一关键词集合;基于关键词集合与短信类别之间的关联,确定与第一关键词集合相关联的第一短信类别;确定第一短信类别在短信库中出现的第一出现概率、第一关键词集合在短信库中的短信中共现的第二出现概率、第一关键词集合在短信库中的第一短信类别中分别出现的第三出现概率集合;基于第一出现概率、第二出现概率以及第三出现概率集合,确定接收的短信为第一短信类别的第一概率;如果确定第一概率大于或等于预定概率,则确定接收的短信为第一短信类别。由此,能够基于与短信类别相关联的多个关键词集合,对短信进行匹配,并基于多种出现概率,确定短信是否为与匹配的关键词集合相关联的短信类别,提高短信类别识别的准确性和效率。
在下文中,将结合附图更详细地描述本方案的具体示例。
图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。信息处理环境100可以包括计算设备110、包括多个关键词集合的词典120以及接收的短信130。
计算设备110例如包括但不限于服务器计算机、多处理器系统、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。在一些实施例中,服务器110可以具有一个或多个处理单元,包括诸如图像处理单元GPU、现场可编程门阵列FPGA和专用集成电路ASIC等的专用处理单元以及诸如中央处理单元CPU的通用处理单元。
词典120中的关键词集合可以包括一个或多个关键词,例如关键词集合{“维修完毕”}、关键词集合{“违法”、“记录”、“处理”}等。在一些实施例中,词典120中的关键词集合可以与短信类别进行关联,例如维修短信:{“维修完毕”}、违章短信:{ “违法”、“记录”、“处理”}等。在一些实施例中,词典120中的多个关键词集合可以具有顺序,该顺序例如可以。
接收的短信130例如可以涉及维修、违章、保险、缴费、移车等内容。
计算设备110用于从包括多个关键词集合的词典120确定与接收的短信130相匹配的第一关键词集合;基于关键词集合与短信类别之间的关联,确定与第一关键词集合相关联的第一短信类别;确定第一短信类别在短信库中出现的第一出现概率、第一关键词集合在短信库中的短信中共现的第二出现概率、第一关键词集合在短信库中的第一短信类别中分别出现的第三出现概率集合;基于第一出现概率、第二出现概率以及第三出现概率集合,确定接收的短信为第一短信类别的第一概率;如果确定第一概率大于或等于预定概率,则确定接收的短信130为第一短信类别。
图2示出了根据本公开的实施例的用于短信处理的方法200的流程图。例如,方法200可以由如图1所示的计算设备110来执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框202处,计算设备110从包括多个关键词集合的词典120确定与接收的短信130相匹配的第一关键词集合。词典120中的多个关键词集合可以与多个短信类别相关联。关键词集合可以包括一个或多个关键词,例如关键词集合{“维修完毕”}、关键词集合{“违法”、“记录”、“处理”}等。下文将结合图3详细描述用于确定第一关键词集合的方法。
在框204处,计算设备110基于关键词集合与短信类别之间的关联,确定与第一关键词集合相关联的第一短信类别。
例如,词典120中可以包括关键词集合与短信类别之间的关联,例如维修短信:{“维修完毕”}、违章短信:{ “违法”、“记录”、“处理”}等。还如,关键词集合与短信类别之间的关联可以独立于词典而存在,例如以关联表的形式。
第一短信类别例如包括但不限于维修短信、违章短信、缴费短信、保险短信、移车短信等。
在框206处,计算设备110确定第一短信类别在短信库中出现的第一出现概率、第一关键词集合在短信库中的短信中共现的第二出现概率、第一关键词集合在短信库中的第一短信类别中分别出现的第三出现概率集合。短信库例如位于计算设备110本地,其可以包括接收的历史短信数据。
第一出现概率例如为短信库中第一短信类别的短信数量除以短信库中的短信总量的结果。
对于第一关键词集合仅包括一个关键词的情况,第二出现概率为短信库中包括该关键词的短信的数量除以短信库中的短信总量的结果,第三出现概率集合也就是第三出现概率,其为短信库中第一短信类别的短信中包括该关键词的短信的数量除以短信库中第一短信类别的短信数量的结果。
对于第一关键词集合包括至少两个关键词的情况,第二出现概率为短信库中包括第一关键词集合中的所有关键词的短信的数量除以短信库中的短信总量的结果,第三出现概率集合中与某一关键词对应的第三出现概率为短信库中第一类别的短信中包括第一关键词集合中的某一关键词的短信的数量除以短信库中第一短信类别的短信数量的结果。
在框208处,计算设备110基于第一出现概率、第二出现概率以及第三出现概率集合,确定接收的短信130为第一短信类别的第一概率。
对于第一关键词集合仅包括一个关键词的情况,第一概率可以基于如下公式确定:
Figure 396374DEST_PATH_IMAGE001
其中,P(A)为第一出现概率,例如为短信库中第一短信类别(例如维修短信)的短信数量除以短信库中的短信总量的结果;P(B)为第二出现概率,例如为短信库中包括该关键词(例如“维修完毕”)的短信的数量除以短信库中的短信总量的结果;P(B|A)为第三出现概率,例如为短信库中第一短信类别的短信中包括该关键词的短信的数量除以短信库中第一短信类别的短信数量的结果;P(A|B)为所得到的第一概率。
对于第一关键词集合包括至少两个关键词的情况,
Figure 313514DEST_PATH_IMAGE002
其中,P(C)为第一出现概率,例如为短信库中第一短信类别(例如违章短信)的短信数量除以短信库中的短信总量的结果;P(F1,F2,F3)为第二出现概率,例如为短信库中包括第一关键词集合中的所有关键词(F1、F2、F3例如分别为“违法”、“处理”、“记录”,也就是包括“违法”、“处理”、“记录”这三个关键词)的短信的数量除以短信库中的短信总量的结果;P(F1|C)、P(F2|C)以及P(F3|C)为第三出现概率集合,例如P(F1|C)为短信库中第一类别的短信中包括第一关键词集合中的某一关键词F1(例如“违法”)的短信的数量除以短信库中第一短信类别的短信数量的结果;P(C|F1,F2,F3)为所得到的第一概率。
在框210处,计算设备110确定第一概率是否大于或等于预定概率。预定概率例如包括但不限于85%、90%等。
如果计算设备110在框210处确定第一概率大于或等于预定概率,则在框212处确定接收的短信130为第一短信类别。
由此,能够基于与短信类别相关联的多个关键词集合,对短信进行匹配,并基于多种出现概率,确定短信是否为与匹配的关键词集合相关联的短信类别,提高短信类别识别的准确性和效率。
图3示出了根据本公开的实施例的用于确定第一关键词集合的方法300的流程图。例如,方法300可以由如图1所示的计算设备110来执行。应当理解的是,方法300还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框302处,计算设备110确定多个关键词集合在短信库中的短信中共现的多个概率。例如,多个关键词集合包括关键词集合{“维修完毕”}在短信库中的短信中共现的概率为9%,关键词集合{“违法”,“处理”,“记录”}在短信库中的短信中共现的概率为3%,关键词集合{“保险”,“续费”}在短信库中的短信中共现的概率为0.5%。关键词集合在短信库中的短信中共现的多个概率可参见上文,这里不再赘述。
在框304处,计算设备110基于多个概率的降序,确定多个关键词集合的排序结果。例如,以上述多个关键词集合为例,排序结果为{“维修完毕”}、{“违法”,“处理”,“记录”}、{“保险”,“续费”}。
在框306处,计算设备110基于排序结果,顺序对接收的短信130进行匹配,以得到与接收的短信相匹配的首个关键词集合,作为第一关键词集合。以上述排序结果为例,先基于{“维修完毕”}对接收的短信130进行匹配,如果匹配成功,则将{“维修完毕”}作为第一关键词集合,如果匹配不成功,则基于{“违法”,“处理”,“记录”}对接收的短信130进行匹配,如果匹配成功,则将{“违法”,“处理”,“记录”}作为第一关键词集合,如果匹配不成功,则基于{“保险”,“续费”}对接收的短信130进行匹配,如果匹配成功,则将{“保险”,“续费”}作为第一关键词集合。
由此,能够将共现概率高的关键词集合先进行匹配,减少关键词与短信匹配成功的时间,提高匹配效率。
在一些实施例中,计算设备110如果确定接收的短信为第一短信类别,则还可以确定第一短信类别是否为违章短信。如果计算设备110确定第一短信类别为违章短信,则从接收的短信获取违章时间、违章位置、违章内容和第一车牌号码。
对于违章时间,例如可以通过日期和时间正则表达式取出短信内容中的违章日期、时间,然后拼接转换成日期时间格式。下文将结合图4详细描述用于获取违章位置的方法。
关于第一车牌号码,例如可以通过已知全国所有车牌前两位去短信内容中匹配,通过车牌前两位数据集合,找出短信内容中哪些能匹配。如果匹配成功则取字符位置后8位数,判断是否为车牌,如果不是就取7位,再用车牌正则验证是否合法车牌号 ,最终获取到正确的第一车牌号码。
随后,计算设备110可以确定在历史换车记录中是否找到车牌号码与第一车牌号码相匹配、实际用车开始时间小于违章时间并且实际用车结束时间大于违章时间的记录项。
例如当换车发生时,即时插入换车记录,例如:订单1180123456,预定用车时间为10/1 09:00 ~ 10/5 09:00,车牌为A。用车途中,10/3 12:00发生换车,换为车牌B。则换车记录里生成以下两条数据。
表1。
Figure 155568DEST_PATH_IMAGE004
如果计算设备110确定在历史换车记录中找到车牌号码与第一车牌号码相匹配、实际用车开始时间小于违章时间并且实际用车结束时间大于违章时间的记录项,则获取记录项中的订单号。
接着,计算设备110从历史订单数据获取与订单号相关联的用户联系方式,以及向与用户联系方式相关联的终端发送违章时间、违章位置、违章内容和第一车牌号码。
由此,能够在用户换车的情况下,通过换车记录快速获取相关订单号及订单号对应的用户联系方式,从而向其发送违章信息。
备选地或者附加地,在一些实施例中,如果计算设备110确定在历史换车记录中未找到车牌号码与第一车牌号码相匹配、实际用车开始时间小于违章时间并且实际用车结束时间大于违章时间的记录项,则确定在历史订单数据中是否找到车牌号码与第一车牌号码相匹配、实际用车开始时间小于违章时间并且实际用车结束时间大于违章时间的订单。
如果计算设备110确定在历史订单数据中未找到车牌号码与第一车牌号码相匹配、实际用车开始时间小于违章时间并且实际用车结束时间大于违章时间的订单,则确定在车辆用途数据中是否找到车牌号码与第一车牌号码相匹配、车辆用途开始时间小于违章时间并且车辆用途结束时间大于违章时间的数据项。
如果计算设备110确定在车辆用途数据中找到该数据项,则确定该数据项中的车辆用途。
如果计算设备110确定车辆用途为自驾,则在车辆自驾调度记录中确定车牌号码与第一车牌号码相匹配、归属门店开始时间小于违章时间并且归属门店结束时间大于违章时间的调度项;获取调度项中的门店负责人联系方式;以及向与门店负责人联系方式相关联的终端发送违章时间、违章位置、违章内容和第一车牌号码。
如果计算设备110确定车辆用途为代驾,则在司机分配记录中确定车牌号码与第一车牌号码相匹配、归属司机开始时间小于违章时间并且归属司机结束时间大于违章时间的分配项;获取分配项中的司机联系方式;以及向与司机联系方式相关联的终端发送违章时间、违章位置、违章内容和第一车牌号码。
由此,能够在用户未换车并且订单中也找不到相应数据时,通过车辆用途数据区分自驾还是代驾,从而分别基于车辆调度数据和司机分配数据确定门店负责人联系方式和司机联系方式,从而准确找到违章负责人并向其发送违章信息。
图4示出了根据本公开的实施例的用于获取违章位置的方法400的流程图。例如,方法400可以由如图1所示的计算设备110来执行。应当理解的是,方法400还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框402处,计算设备110在接收的短信130中确定与标点符号集合相匹配的多个位置。标点符号集合例如包括中英文逗号、中英文句号、顿号和/或中文前后单引号。
因为短信内容可能包含多个一样的标点符号,所以在最外无限循环,内部套用有限循环依次去短信内容中找出集合中的标点符号,如果找出则将短信内容此次找出的标点符号去掉,继续循环找。直到最后短信内容找不出任何标点符号为止,最终退出循环。
例如,对于短信内容“【浙江交警】您的小型汽车浙A*****于2020-09-04 18:20在绍兴市嵊州市-剡兴路三江西街,被交通技术监控设备记录了『驾驶机动车违反道路交通信号灯通行的』的违法行为(记6分)。请于收到本告知之日起30日内接受处理。”。最终原始短信找出逗号在51位置,句号92位置,句号110位置。
在框404处,计算设备110基于多个位置,从接收的短信130获取多个短信片段。
以上述3个位置为例,可以将短信内容划分为3个短信片段“【浙江交警】您的小型汽车浙A*****于2020-09-04 18:20在绍兴市嵊州市-剡兴路三江西街”,“被交通技术监控设备记录了『驾驶机动车违反道路交通信号灯通行的』的违法行为(记6分)”,“请于收到本告知之日起30日内接受处理”。
在框406处,计算设备110基于实体识别模型,从多个短信片段获取违章位置。实体识别模型例如可以采用任何合适的模型,例如BiLSTM+CRF模型,其例如可以通过标记位置标签的短信训练集训练得到。例如可以将短信片段分别输入实体识别模型,输出标记有位置标签的短信片段,基于位置标签,从短信片段获取违章位置。
除了实体识别模型之外,在一些实施例中,在框406处,计算设备11可以基于预定关键词,从多个短信片段获取违章位置。预定关键词例如“在”。以上述短信为例,将“在绍兴市嵊州市-剡兴路三江西街”中“在”之后的“绍兴市嵊州市-剡兴路三江西街”确定为违章位置。
由此,能够通过标点符号集合对短信内容划分片段,并基于实体识别模型在片段上识别违章位置,相比于针对短信整体内容进行违章位置识别,提高了违章位置识别的效率。
对于违章内容,其确定方法与违约位置的前两个步骤相同,区别在于在获取多个短信片段之后,计算设备110基于预定标点符号,从多个短信片段获取违章内容。例如,基于标点符号“『』”从上述3段短信片段获取违章内容“驾驶机动车违反道路交通信号灯通行的”。
在一些实施例中,获取违章内容之后,计算设备110还可以基于交通规则库,确定该违章内容是否正确。
备选地或者附加地,在一些实施例中,如果计算设备110确定接收的短信130为第一短信类别,则将接收的短信130添加到短信库,以及更新第一短信类别在短信库中出现的第一出现概率、第一关键词集合在短信库中的短信中共现的第二出现概率、第一关键词集合在短信库中的第一短信类别中分别出现的第三出现概率集合。
由此,能够基于新判定为第一短信类别的短信不断更新相关概率,使得后续短信类别的判定更加接近实际情况。
图5示出了可以用来实施本公开内容的实施例的示例设备500的示意性框图。例如,如图1所示的计算设备110可以由设备500来实施。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机存取存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标、麦克风等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200-400,可由中央处理单元501执行。例如,在一些实施例中,方法200-400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序被加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法200-400的一个或多个动作。
本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (8)

1.一种用于短信处理的方法,包括:
从包括多个关键词集合的词典确定与接收的短信相匹配的第一关键词集合;
基于关键词集合与短信类别之间的关联,确定与所述第一关键词集合相关联的第一短信类别;
确定所述第一短信类别在短信库中出现的第一出现概率、所述第一关键词集合在所述短信库中的短信中共现的第二出现概率、所述第一关键词集合在所述短信库中的所述第一短信类别中分别出现的第三出现概率集合;
基于所述第一出现概率、所述第二出现概率以及所述第三出现概率集合,确定接收的所述短信为所述第一短信类别的第一概率;
如果确定所述第一概率大于或等于预定概率,则确定接收的所述短信为所述第一短信类别。
2.根据权利要求1所述的方法,其中确定所述第一关键词集合包括:
确定所述多个关键词集合在所述短信库中的短信中共现的多个概率;
基于所述多个概率的降序,确定所述多个关键词集合的排序结果;以及
基于所述排序结果,顺序对接收的所述短信进行匹配,以得到与接收的所述短信相匹配的首个关键词集合,作为所述第一关键词集合。
3.根据权利要求1所述的方法,还包括:
如果确定接收的所述短信为所述第一短信类别,则确定所述第一短信类别是否为违章短信;
如果确定所述第一短信类别为所述违章短信,则从接收的所述短信获取违章时间、违章位置、违章内容和第一车牌号码;
如果确定在历史换车记录中找到车牌号码与所述第一车牌号码相匹配、实际用车开始时间小于所述违章时间并且实际用车结束时间大于所述违章时间的记录项,则获取所述记录项中的订单号;
从历史订单数据获取与所述订单号相关联的用户联系方式;以及
向与所述用户联系方式相关联的终端发送所述违章时间、所述违章位置、所述违章内容和所述第一车牌号码。
4.根据权利要求3所述的方法,还包括:
如果确定在所述历史换车记录中未找到车牌号码与所述第一车牌号码相匹配、所述实际用车开始时间小于所述违章时间并且所述实际用车结束时间大于所述违章时间的记录项,则确定在所述历史订单数据中是否找到车牌号码与所述第一车牌号码相匹配、所述实际用车开始时间小于所述违章时间并且所述实际用车结束时间大于所述违章时间的订单;
如果确定在所述历史订单数据中未找到车牌号码与所述第一车牌号码相匹配、所述实际用车开始时间小于所述违章时间并且所述实际用车结束时间大于所述违章时间的订单,则确定在车辆用途数据中是否找到车牌号码与所述第一车牌号码相匹配、所述车辆用途开始时间小于所述违章时间并且所述车辆用途结束时间大于所述违章时间的数据项;
如果确定在所述车辆用途数据中找到所述数据项,则确定所述数据项中的车辆用途;
如果确定所述车辆用途为自驾,则:
在车辆自驾调度记录中确定车牌号码与所述第一车牌号码相匹配、归属门店开始时间小于所述违章时间并且归属门店结束时间大于所述违章时间的调度项;
获取所述调度项中的门店负责人联系方式;以及
向与所述门店负责人联系方式相关联的终端发送所述违章时间、违章位置、所述违章内容和所述第一车牌号码;
如果确定所述车辆用途为代驾,则:
在司机分配记录中确定车牌号码与所述第一车牌号码相匹配、归属司机开始时间小于所述违章时间并且归属司机结束时间大于所述违章时间的分配项;
获取所述分配项中的司机联系方式;以及
向与所述司机联系方式相关联的终端发送所述违章时间、违章位置、所述违章内容和所述第一车牌号码。
5.根据权利要求3所述的方法,其中获取所述违章位置包括:
在接收的所述短信中确定与标点符号集合相匹配的多个位置;
基于所述多个位置,从接收的所述短信获取多个短信片段;以及
基于实体识别模型,从所述多个短信片段获取所述违章位置。
6.根据权利要求1所述的方法,还包括:
如果确定接收的所述短信为所述第一短信类别,则将接收的所述短信添加到所述短信库,以及更新所述第一短信类别在所述短信库中出现的第一出现概率、所述第一关键词集合在所述短信库中的短信中共现的第二出现概率、所述第一关键词集合在所述短信库中的所述第一短信类别中分别出现的第三出现概率集合。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN202011100977.2A 2020-10-15 2020-10-15 用于短信处理的方法、电子设备和存储介质 Active CN111931487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011100977.2A CN111931487B (zh) 2020-10-15 2020-10-15 用于短信处理的方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011100977.2A CN111931487B (zh) 2020-10-15 2020-10-15 用于短信处理的方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111931487A true CN111931487A (zh) 2020-11-13
CN111931487B CN111931487B (zh) 2021-01-08

Family

ID=73334705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011100977.2A Active CN111931487B (zh) 2020-10-15 2020-10-15 用于短信处理的方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111931487B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备
CN103425777A (zh) * 2013-08-15 2013-12-04 北京大学 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN104462115A (zh) * 2013-09-17 2015-03-25 中兴通讯股份有限公司 垃圾短信的识别方法及装置
US20170098265A1 (en) * 2015-10-01 2017-04-06 Zoek Inc. Information providing system, main server and information providing method for providing entertainment service information
CN109992711A (zh) * 2019-03-13 2019-07-09 中国平安财产保险股份有限公司 信息推荐方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153909B (zh) * 2018-01-18 2022-06-10 百度在线网络技术(北京)有限公司 关键词投放拓词方法、装置及电子设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877837A (zh) * 2009-04-30 2010-11-03 华为技术有限公司 一种短信过滤的方法和装置
CN102065387A (zh) * 2009-11-13 2011-05-18 华为技术有限公司 一种短信的识别方法和设备
CN103425777A (zh) * 2013-08-15 2013-12-04 北京大学 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN104462115A (zh) * 2013-09-17 2015-03-25 中兴通讯股份有限公司 垃圾短信的识别方法及装置
US20170098265A1 (en) * 2015-10-01 2017-04-06 Zoek Inc. Information providing system, main server and information providing method for providing entertainment service information
CN109992711A (zh) * 2019-03-13 2019-07-09 中国平安财产保险股份有限公司 信息推荐方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111931487B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
US11900056B2 (en) Stylistic text rewriting for a target author
US11144581B2 (en) Verifying and correcting training data for text classification
US10163063B2 (en) Automatically mining patterns for rule based data standardization systems
US11055327B2 (en) Unstructured data parsing for structured information
US20170316066A1 (en) Concept-based analysis of structured and unstructured data using concept inheritance
CN112507936B (zh) 图像信息审核方法、装置、电子设备及可读存储介质
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN113095076B (zh) 敏感词识别方法、装置、电子设备及存储介质
US10372763B2 (en) Generating probabilistic annotations for entities and relations using reasoning and corpus-level evidence
CN109145282B (zh) 断句模型训练方法、断句方法、装置及计算机设备
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
US11100140B2 (en) Generation of domain specific type system
CN113826113A (zh) 用于人工智能的对罕见训练数据计数
CN113868368A (zh) 用于信息处理的方法、电子设备和计算机程序产品
CN111931487B (zh) 用于短信处理的方法、电子设备和存储介质
CN110852082B (zh) 同义词的确定方法及装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110333886A (zh) 一种审核程序迭代更新方法、装置、服务器及存储介质
WO2022141867A1 (zh) 语音识别方法、装置、电子设备及可读存储介质
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
CN111813976B (zh) 图形商标定制方法、装置和存储介质
CN111708819B (zh) 用于信息处理的方法、装置、电子设备和存储介质
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN113609391B (zh) 事件识别方法及装置、电子设备、介质和程序
CN113722465B (zh) 一种意图识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant