CN107632975A - 一种词典建立方法及设备 - Google Patents
一种词典建立方法及设备 Download PDFInfo
- Publication number
- CN107632975A CN107632975A CN201710677592.4A CN201710677592A CN107632975A CN 107632975 A CN107632975 A CN 107632975A CN 201710677592 A CN201710677592 A CN 201710677592A CN 107632975 A CN107632975 A CN 107632975A
- Authority
- CN
- China
- Prior art keywords
- participle
- target
- announcement information
- attribute
- acquisition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种词典建立方法及设备,用于节约存储空间。其中的词典建立方法包括:对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词;其中,所述至少一条通知信息来自相同或不同的数据源;从所述至少一个分词中选取满足预设条件的至少一个目标分词;为所述至少一个目标分词中的每个目标分词设置属性标识;其中,同一属性标识对应的目标分词具有相同语义;建立所述属性标识及与所述属性标识对应的目标分词的映射关系,将所述映射关系确定为模板词典,其中,所述模板词典包括的多个属性标识用于指示通知信息。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种词典建立方法及设备。
背景技术
人们在使用类似手机的终端时,经常会收到一些通知类信息。通知类信息是指运营商或企业机构,例如金融机构等向用户发送的通知信息,如运营商资费信息、机票预订信息、银行卡消费消息等。
目前对于通知信息,都是事先建立一个模板,例如,尾号1234的储蓄卡账户09:20通过ATM转出290元,所建立的模板是,文字不变,数字部分用标识Nu来代替,字母部分用标识Zm来代替。因此,得到的模板就是:尾号Nu储蓄卡账户NuNu通过Zm转出Nu元。
而由于现有技术中的模板,文字就是文字本身,所有同一类通知信息就存在多个模板。例如,通知信息:您账户5678信用卡账户01月03日21:21发生网银快捷扣款31美元的模板为:您账户Nu信用卡账户Nu月Nu日Nu Nu发生网银快捷扣款Nu美元。其实,两条通知信息都表达了相同的意思,但是存在两个模板,这就导致为通知信息建立的模板较多。
可见,现有技术中通知类信息的模板较多,浪费存储空间。
发明内容
本发明实施例提供一种词典建立方法及设备,用于节约存储空间。
第一方面,本发明一实施例提供了一种词典建立方法,所述词典建立方法,包括:
对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词;其中,所述至少一条通知信息来自相同或不同的数据源;
从所述至少一个分词中选取满足预设条件的至少一个目标分词;
为所述至少一个目标分词中的每个目标分词设置属性标识;其中,同一属性标识对应的目标分词具有相同语义;
建立所述属性标识及与所述属性标识对应的目标分词的映射关系,将所述映射关系确定为模板词典;其中,所述模板词典包括的多个属性标识用于指示通知信息。
可选的,对一数据集合中的通知信息进行切分,切分成至少一个分词,包括:
按照预设长度对所述至少一条通知信息中包括的连续文字进行切分,获得至少一个分词,其中,每个分词小于或等于所述预设长度;其中,所述连续文字中不包括数字和/或字母。
可选的,所述预设长度为第一分词的长度;其中,所述第一分词为所述通知信息涉及的业务对应的长度最长的常用分词。
可选的,从所述至少一个分词中选取满足预设条件的至少一个目标分词,包括:
从所述至少一个分词中选取在来自相同数据源的一数据集合中出现的次数等于或大于第一预设阈值的至少一个分词作为所述至少一个目标分词;
和/或,
从所述至少一个分词中选取在来自相同数据源的一数据集合出现的次数与所述来自相同数据源的一数据集合包括的通知信息的数量的比值等于或大于第二预设阈值的至少一个分词作为所述至少一个目标分词。
可选的,在从所述至少一个分词中选取满足预设条件的至少一个目标分词之后,所述方法还包括:
将所述至少一个目标分词中的每一个目标分词与语义不明确的分词进行比较;
如果所述至少一个目标分词中的任一目标分词与所述语义不明确的分词相同,则删除所述任一目标分词。
可选的,为所述通知信息中包括的数字或字母及数字和字母的组合字符设置预设的属性标识。
第二方面,本发明一实施例提供了一种词典建立设备,所述词典建立设备包括:
切分单元,用于对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词;其中,所述至少一条通知信息来自相同或不同的数据源;
选取单元,用于从所述至少一个分词中选取满足预设条件的至少一个目标分词;
设置单元,用于为所述至少一个目标分词中的每个目标分词设置属性标识;其中,同一属性标识对应的目标分词具有相同语义;
建立单元,用于建立所述属性标识及与所述属性标识对应的目标分词的映射关系,将所述映射关系确定为模板词典;其中,所述模板词典包括的多个属性标识用于指示通知信息。
可选的,所述切分单元用于对一数据集合中的通知信息进行切分,切分成至少一个分词,包括:
按照预设长度对所述至少一条通知信息中包括的连续文字进行切分,获得至少一个分词,其中,每个分词小于或等于所述预设长度;其中,所述连续文字中不包括数字和/或字母。
可选的,所述预设长度第一分词的长度;其中,所述第一分词为所述通知信息涉及的业务对应的长度最长的常用分词。
可选的,所述选取单元用于从所述至少一个分词中选取满足预设条件的至少一个目标分词,包括:
从所述至少一个分词中选取在来自相同数据源的一数据集合中出现的次数等于或大于第一预设阈值的至少一个分词作为所述至少一个目标分词;
和/或,
从所述至少一个分词中选取在来自相同数据源的一数据集合出现的次数与所述来自相同数据源的一数据集合包括的通知信息的数量的比值等于或大于第二预设阈值的至少一个分词作为所述至少一个目标分词。
可选的,还包括删除单元,用于:
在从所述至少一个分词中选取满足预设条件的至少一个目标分词之后,将所述至少一个目标分词中的每一个目标分词与语义不明确的分词进行比较;
如果所述至少一个目标分词中的任一目标分词与所述语义不明确的分词相同,则删除所述任一目标分词。
可选的,所述建立单元还用于:
为所述通知信息中包括的数字或字母及数字和字母的组合字符设置预设的属性标识。
第三方面,本发明一实施例还提供一种词典建立设备,所述设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面提供的词典建立方法中任一项所述方法的步骤。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面提供的词典建立方法中任一项所述方法的步骤。
在本发明实施例中,对多条通知信息进行切分得到多个目标分词,再为目标分词设置属性标识,用属性标识来表示通知信息,相同语义的目标分词可以设置同一属性标识,这样即使通知信息包括的文字不同,只要语义相同就可以用同一个属性标识来替代,那么针对多条通知信息来说,所对应的模板就减少,即模板的数量较少,从而节约了存储空间。
附图说明
图1是本发明实施例提供的词典建立方法的流程图;
图2为本发明实施例提供的词典建立设备的一种结构示意图;
图3为本发明实施例提供的词典建立设备的一种结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例中的通知信息,是指商户、运营商或企业等机构向用户发送的通知信息,例如快递信息、酒店机票预订信息、运营商资费信息、银行卡使用信息或应用推送信息等。通知信息通常是企业等机构建立自身的服务站,以站内信的形式发送给用户。当然,在本发明实施例中,通知信息并不限定其他形式的通知信息,例如通过第三方应用程序的方式通知等。其中,商户、运营商或企业等机构在本发明实施例中称为数据源。考虑到企业机构发送的通知信息可能具有用户的敏感个人信息,因此用户使用的电子设备经过用户授权,可以将接收的通知信息进行脱敏处理,也就是将通知信息包括的敏感个人信息进行脱敏,再将脱敏后的通知信息发送给服务器,以供服务器对通知信息进行分析。
本发明实施例中的数据集合可以看成是由至少一条通知信息构成的集合,每个数据集合包括至少一条通知信息,通知信息来自相同或不同的数据源。一个数据集合中的全部通知信息可以是来自相同的数据源,也可以是来自不同的数据源。
分词指的是通知信息包括的词语,词语可以是一个字,例如您,也可以是多个字,例如银行卡。
对于通知信息,服务器都是事先建立一个模板,目前,所建立的模板依据的规则是文字不变,数字部分用标识Nu来代替,字母部分用标识Zm来代替。例如,通知信息:尾号1234的储蓄卡账户09:20通过ATM转出290元,为其所建立的模板是:尾号Nu储蓄卡账户NuNu通过Zm转出Nu元。再例如,通知信息:您账户5678信用卡账户01月03日21:21发生网银快捷扣款31美元,为其所建立的模板为:您账户Nu信用卡账户Nu月Nu日NuNu发生网银快捷扣款Nu美元。实质上,以上两条信息的主体内容都表达了相同的意思,那就是银行卡在某个时间段有消费记录,但是由于目前建立模板所依据的规则是文字不变,所以由于文字的表现形式不一样,导致了每条通知信息都存在一个模板,这就导致所建立的模板较多,数量庞大,比较浪费存储空间。
鉴于此,本发明实施例提供一种词典建立方法,通过对多条通知信息进行切分得到多个分词,对多个分词进行统计分析,从中选取满足预设条件的目标分词,为目标分词设置属性标识,属性标识可以认为是词典包括的一类元素,通过属性标识来替代目标分词,对于相同语义的目标分词设置同一属性标识,这样即使通知信息包括的文字不同,例如,银行卡和贵卡,用同一个属性标识来替代,那么同类的通知信息可以建立一个模板,这样就可以减少所建立的模板的数量,从而节约了存储空间。
下面结合说明书附图对本发明实施例作进一步详细描述。
请参见图1,本发明实施例提供一种词典建立方法,该词典建立方法的流程描述如下:
S101:对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词,其中,至少一条通知信息来自相同或不同的数据源;
S102:从至少一个分词中选取满足预设条件的至少一个目标分词;
S103:为至少一个目标分词中的每个目标分词设置属性标识,其中,同一属性标识对应的目标分词具有相同语义;
S104:建立属性标识及与属性标识对应的目标分词的映射关系,将映射关系确定为模板词典;其中,模板词典包括的多个属性标识用于指示通知信息。
本发明实施例的目的是为通知信息建立模板,通过模板表示通知信息。本发明实施例中的电子设备,例如服务器可以对一数据集中的至少一个通知信息进行切分,获得至少一个分词,再为分词建立属性标识,通过属性标识表示对应的分词,从而多个属性标识的结合就可以表示通知信息。当然本发明实施例中的电子设备也可以是其他类型的电子设备,例如,个人电脑PC、平板PAD等,本发明实施例中,以服务器为例进行介绍。
不同的数据源的通知信息包括的常用分词也所有不同,例如,银行类的通知信息可以是:尾号1234的储蓄卡账户09:20通过ATM转出290元,常用的分词有尾号、储蓄卡账户等。航空服务公司的通知信息可以是:您预定的6月7日MU1711次航班已经出票,请准时到达机场,回复jcxx可以获得机场信息,常用的分词有预定、航班等。因此,服务器在对一数据集合中的通知信息进行切分之前,可以将通知信息进行归类,将来自同一数据源的通知信息划分为一个数据集合,这样就便于对数据集合的通知信息划分出来的分词进行统计分析。
用户可以通过终端对推送通知信息的服务进行授权,并将接收的通知信息脱敏后,发送给服务器。服务器可以接收终端发送的通知信息,服务器在面对海量的通知信息的情况下,如果将全部的通知信息都进行统计分析,显然会增加自身的负担。因此,服务器可以按照预设的规则对接收的通知信息先进行归类再分析,将来自同一数据源的通知信息归为一类,这样要分析的通知信息的数量相对来说较少,便于分析,同时又对相同类型的通知信息分别进行分析,这样对通知信息进行划分而得的分词也比较通用,准确。
例如,对某一企业来说,工作日的通知信息相对较多,非工作日的通知信息相对较少,而且工作日的通知信息在不同时段的种类也可能有所不同,同样地,非工作日的通知信息在不同时段的种类也可能有所不同。因此,服务器可以先按照工作日和非工作日对该企业的通知信息进行收集,再按照不同的时段收集通知信息。例如,周一到周五,每天抽取16000条信息,其中0-7点随机抽取1000条,7-9点随机抽取3000条,9-11点随机抽取2000条,11-13点随机抽取3000条,13-17点随机抽取2000条,17-20点随机抽取3000条,20-24点随机抽取2000条。在周六和周日,每天抽取8000条信息,其中0-7点随机抽取500条,7-9点随机抽取1500条,9-11点随机抽取1000条,11-13点随机抽取1500条,13-17点随机抽取1000条,17-20点随机抽取1500条,20-24点随机抽取1000条。
以上仅是举例,本发明实施例对服务器收集通知信息所采用的原则不作任何限制,例如,服务器收集通知信息可以是根据银行,公司等的业务繁忙程度、用户使用习惯等因素进行采集,在业务高峰期、工作日采集更多的通知信息,尽可能收集各种各样的通知信息,而在非工作日,非高峰期收集比较少的通知信息,以免收集的通知信息的数量很大,增加服务器的负担。
服务器收集了通知信息后,可以将收集的通知信息归类到一数据集合中,将来自相同数据源的通知信息归到一个数据集合中,或者也可以将来自相同数据源的通知信息中的相同类型的通知信息归到一个数据集合中。这里相同类型的通知信息指的是通知信息针对的业务的类型相同。服务器可以对一个数据集合中的任一通知信息进行切分,以获得多个至少分词。通知信息中可以包括中文、数字、字母以及标点符号,本发明实施例中,将标点符号称为停用词,对于中文、数字、字母对应不同的切分方式。
针对通知信息中的中文来说,可能的实施方式中,服务器对任一通知信息进行切分,可以按照预设长度对通知信息中包括的连续文字进行切分,获取至少一个分词,每个分词小于或等于预设长度,其中,连续文字中不包括数字和/或字母。其中,预设长度为第一分词的长度,第一分词为通知信息涉及的业务对应的长度最长的常用分词。第一分词可以是通知信息的数据源涉及的业务特征对应的常用词。例如,数据源是银行,业务特征是转账,常用词是储蓄卡账户,那么第一分词就可以是储蓄卡账户。当然,预设长度也可以大于第一分词的长度。例如,第一分词的长度为5,预设长度也可以是6。服务器在切分时可以按照大于1且小于预设长度的长度进行划分,这样就可以获得更多的分词,也更为合理。
为了更好地理解,下面以具体的实例进行说明。
通知信息为:尾号1234储蓄卡账户09:20通过ATM转出290元。可以清楚地知道,这条通知信息是来自银行,那么银行常涉及的业务特征就是转账,这里可以将储蓄卡账户作为第一分词,设置预设长度为5,分别按照2、3、4或5的长度对上述通知信息进行划分,那么就可以获得如下分词:尾号、储蓄卡账户、储蓄卡账、蓄卡账户、储蓄卡、蓄卡账、卡账户、储蓄、蓄卡、卡账、账户、通过、转出。
服务器对通知信息切分后,从上述的例子可以看出,对于“蓄卡账”、“蓄卡”等类似的词是不常用的,也就是说,按照预设长度对通知信息进行切分,有可能会将专有名词,比例储蓄卡账户切分成不通用的,甚至是语义不明确的词,例如“蓄卡”这个词并不能清楚地表达出语义。因此,服务器对通知信息切分得到的至少一个分词需要进行筛选,以获得通用的、语义明确的目标分词。
可能的实施方式中,服务器从至少一个分词筛选出至少一个目标分词可以通过以下两种方式实现。
第一种方式:服务器可以从至少一个分词中选取在来自相同数据源的一数据集合中出现的次数等于或大于第一预设阈值的至少一个分词,将选取的至少一个分词,作为至少一个目标分词。一个分词出现的次数较多,可以认为该分词是常用的,通用的,那么对出现次数较多的分词进行统计分析,所得到的结果也较为准确。其中,第一预设阈值可以是实现设定的任意一个固定值,例如,可以是2000,也可以是3000,或者也可以根据实验测试所得的比较合理的一个值。
例如,尾号出现的次数是23374、储蓄卡出现的次数是18778、储蓄出现的次数是22345、储蓄卡帐出现的次数是16875,第一预设阈值为15000,那么筛选出的至少一个目标分词可以有尾号、储蓄、储蓄卡、储蓄卡账。
第二种方式:服务器可以从至少一个分词中选取在来自相同数据源的一数据集合出现的次数与来自相同数据源的一数据集合包括的通知信息的数量的比值等于或大于第二预设阈值的至少一个分词,将选取的至少一个分词,作为至少一个目标分词。一个目标分词除了可以根据出现的次数来界定外,还通过出现的比例来界定。其中,第二预设阈值可以是实现设定的任意一个固定值,例如,可以是2%,也可以是3%,或者也可以根据实验测试所得的比较合理的一个值,例如5%。例如,尾号出现的比例是4%、储蓄卡出现的比例是5%、储蓄出现的比例是6%、储蓄卡帐出现的比例是3%,第二预设阈值为3%,那么筛选出的至少一个目标分词可以有尾号、储蓄、储蓄卡、储蓄卡账。
本发明实施例中的服务器也可以结合以上两种方式来筛选至少一个目标分词。服务器通过以上一种或两种方式筛选出来至少一个目标分词之后,发现筛选出的至少一个目标分词中有的分词尽管出现的次数较多,或者出现的比例较高,但是该分词的语义不明确,是无意义的。例如“储蓄卡账”,一般的说法都是“储蓄卡账户”。因此,服务器可以对至少一个目标分词继续进行筛选,可能的实施方式中,服务器可以将至少一个目标分词中的每一个目标分词与语义不明确的分词进行比较,如果至少一个目标分词中的任一目标分词与语义不明确的分词相同,则删除任一目标分词。语义不明确的词,可以事先设置的,根据数据源的通知信息的业务特征设置。例如银行,通知信息中的“储蓄卡帐”就可以设置为语义不明确的分词。
针对通知信息中的数字或字母来说,对于通知信息中的连续数字或字母来说,可以将连续的数字,或者连续的字母看成是一个分词,不进行切分。针对通知信息中组合的连续数字和字母来说,例如7时36分,不进行切分,看成是一个分词。
服务器筛选出至少一个目标分词后,可以为至少一个目标分词中的每个目标分词设置属性标识,通过属性标识来表示目标分词。例如,目标分词是储蓄卡账户、为储蓄卡账户设置的属性标识可以是Zh,只要是通知信息的模板出现Zh,就可以认为是储蓄卡账户。再如目标分词是交易密码错误,为交易密码错误设置的属性标识可以是Yy,只要是通知信息的模板出现Yy,就可以认为是交易密码错误。本发明实施例中,将建立的属性标识及与属性标识对应的目标分词的映射关系确定为模板词典,通过模板词典包括的属性标识表示通知信息。
进一步地,对于相同语义的目标分词可以用同一属性标识,这样模板词典中的属性标识的数量就较少,可以减少通知信息模板的数量,节约存储空间。例如,银行的通知信息中常出现的目标分词“交易密码错误”、“卡额度不足”,都是表示原因的分词,那么就可以为“交易密码错误”和“卡额度不足”设置同一个属性标识,例如Yy。再例如,电商平台的通知信息中常出现的目标分词“购买”、“运出”、“出票”、“查收”、“预定”等都是表示行为的分词,那么就可以为“购买”、“运出”、“出票”、“查收”和“预定”设置同一属性标识,例如Xw。另外,本发明实施例中,相同语义也可以包括相近语义。
对于特殊字符来说,例如数字、字母及数字和字母的组合来说,可以设置预设的属性标识。例如:针对连续数字1234,544等,可以用一个字母来表示,例如用字母S表示,S表示一段任意长度数字。针对连续字母zs,GDd,GDs等,也可以用一个字母来表示,例如用字母Z表示一段任意长度字母。针对数字和字母的组合,可以根据组合字符具有的意义,用特殊字符来表示,例如S月S日S时是表示时间的,可以用Tm来表示。以上仅是举例,本发明实施例对于用何种字符来作为属性标识不作限制,只要能区分就行。
综上所述,在本发明实施例中,对多条通知信息进行切分得到多个目标分词,再为目标分词设置属性标识,用属性标识来表示通知信息,相同语义的目标分词可以设置同一属性标识,这样即使通知信息包括的文字不同,只要语义相同就可以用同一个属性标识来替代,那么针对多条通知信息来说,所对应的模板就减少,即模板的数量较少,从而节约了存储空间。
下面结合附图介绍本发明实施例提供的设备。
请参见图2,基于同一发明构思,本发明一实施例提供一种词典建立设备,该设备包括:
切分单元201,用于对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词,其中,至少一条通知信息来自相同或不同的数据源;
选取单元202,用于从至少一个分词中选取满足预设条件的至少一个目标分词;
设置单元203,用于为至少一个目标分词中的每个目标分词设置属性标识,其中,同一属性标识对应的目标分词具有相同语义;
建立单元204,用于建立属性标识及与属性标识对应的目标分词的映射关系,将映射关系确定为模板词典;其中,模板词典包括的多个属性标识用于指示通知信息。
可选的,切分单元201用于对一数据集合中的通知信息进行切分,切分成至少一个分词,包括:
按照预设长度对至少一条通知信息中包括的连续文字进行切分,获得至少一个分词,其中,每个分词小于或等于预设长度,其中,连续文字中不包括数字和/或字母。
可选的,预设长度为第一分词的长度,其中,第一分词为通知信息涉及的业务对应的最长长度的常用分词。
可选的,选取单元202用于从至少一个分词中选取满足预设条件的至少一个目标分词,包括:
从至少一个分词中选取在来自相同数据源的一数据集合中出现的次数等于或大于第一预设阈值的至少一个分词作为至少一个目标分词;
和/或,
从至少一个分词中选取在来自相同数据源的一数据集合出现的次数与所述来自相同数据源的至少一个数据集合包括的通知信息的数量的比值等于或大于第二预设阈值的至少一个分词作为至少一个目标分词。
可选的,还包括删除单元,用于:在从所述至少一个分词中选取满足预设条件的至少一个目标分词之后,将至少一个目标分词中的每一个目标分词与语义不明确的分词进行比较;
如果至少一个目标分词中的任一目标分词与语义不明确的分词相同,则所述任一目标分词。
可选的,所述建立单元还用于:
为通知信息中包括的数字或字母及数字和字母的组合字符设置预设的属性标识。
该设备可以用于执行图1所示的实施例所提供的方法。因此,对于该设备的各功能模块所能够实现的功能等可参考图1所示的实施例的描述,不多赘述。
请参见图3,本发明一实施例还提供一种词典建立设备,该词典建立设备包括处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的词典建立方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(英文:Field Programmable GateArray,简称:FPGA)开发的硬件电路,可以是基带处理器。
可选的,处理器301可以包括至少一个处理核心。
可选的,该词典建立设备还包括存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据。存储器302的数量为一个或多个。其中,存储器302在图3中一并示出3。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种词典建立方法,其特征在于,包括:
对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词;其中,所述至少一条通知信息来自相同或不同的数据源;
从所述至少一个分词中选取满足预设条件的至少一个目标分词;
为所述至少一个目标分词中的每个目标分词设置属性标识;其中,同一属性标识对应的目标分词具有相同语义;
建立所述属性标识及与所述属性标识对应的目标分词的映射关系,将所述映射关系确定为模板词典;其中,所述模板词典包括的多个属性标识用于指示通知信息。
2.如权利要求1所述的方法,其特征在于,对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词,包括:
按照预设长度对所述至少一条通知信息中包括的连续文字进行切分,获得至少一个分词,其中,每个分词小于或等于所述预设长度,所述连续文字中不包括数字和/或字母。
3.如权利要求1所述的方法,其特征在于,所述预设长度为第一分词的长度;其中,所述第一分词为所述通知信息涉及的业务对应的最长长度的常用分词。
4.如权利要求1所述的方法,其特征在于,从所述至少一个分词中选取满足预设条件的至少一个目标分词,包括:
从所述至少一个分词中选取在来自相同数据源的一数据集合中出现的次数等于或大于第一预设阈值的至少一个分词作为所述至少一个目标分词;
和/或,
从所述至少一个分词中选取在来自相同数据源的一数据集合出现的次数与所述来自相同数据源的一数据集合包括的通知信息的数量的比值等于或大于第二预设阈值的至少一个分词作为所述至少一个目标分词。
5.如权利要求1-4任一所述的方法,其特征在于,在从所述至少一个分词中选取满足预设条件的至少一个目标分词之后,所述方法还包括:
将所述至少一个目标分词中的每个目标分词与语义不明确的分词进行比较;
如果所述至少一个目标分词中的任一目标分词与所述语义不明确的分词相同,则删除所述任一目标分词。
6.一种词典建立设备,其特征在于,包括:
切分单元,用于对一数据集合中的至少一条通知信息进行切分,切分成至少一个分词;其中,所述至少一条通知信息来自相同或不同的数据源;
选取单元,用于从所述至少一个分词中选取满足预设条件的至少一个目标分词;
设置单元,用于为所述至少一个目标分词中的每个目标分词设置属性标识;其中,同一属性标识对应的目标分词具有相同语义;
建立单元,用于建立所述属性标识及与所述属性标识对应的目标分词的映射关系,将所述映射关系确定为模板词典;其中,所述模板词典包括的多个属性标识用于指示通知信息。
7.如权利要求6所述的设备,其特征在于,所述切分单元用于对一数据集合中的通知信息进行切分,切分成至少一个分词,包括:
按照预设长度对所述至少一条通知信息中包括的连续文字进行切分,获得至少一个分词,其中,每个分词小于或等于所述预设长度;其中,所述连续文字中不包括数字和/或字母。
8.如权利要求6所述的设备,其特征在于,所述预设长度为第一分词的长度,其中,所述第一分词为所述通知信息涉及的业务对应的长度最长的常用分词。
9.如权利要求6所述的设备,其特征在于,所述选取单元用于从所述至少一个分词中选取满足预设条件的至少一个目标分词,包括:
从所述至少一个分词中选取在来自相同数据源的一数据集合中出现的次数等于或大于第一预设阈值的至少一个分词作为所述至少一个目标分词;
和/或,
从所述至少一个分词中选取在来自相同数据源的一数据集合出现的次数与所述来自相同数据源的一数据集合包括的通知信息的数量的比值等于或大于第二预设阈值的至少一个分词作为所述至少一个目标分词。
10.如权利要求6-9任一所述的设备,其特征在于,还包括删除单元,用于:在从所述至少一个分词中选取满足预设条件的至少一个目标分词之后,将所述至少一个目标分词中的每一个目标分词与语义不明确的分词进行比较;
如果所述至少一个目标分词中的任一目标分词与所述语义不明确的分词相同,则删除所述任一目标分词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710677592.4A CN107632975A (zh) | 2017-08-09 | 2017-08-09 | 一种词典建立方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710677592.4A CN107632975A (zh) | 2017-08-09 | 2017-08-09 | 一种词典建立方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107632975A true CN107632975A (zh) | 2018-01-26 |
Family
ID=61099589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710677592.4A Pending CN107632975A (zh) | 2017-08-09 | 2017-08-09 | 一种词典建立方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107632975A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532805A (zh) * | 2019-09-05 | 2019-12-03 | 国网山西省电力公司阳泉供电公司 | 数据脱敏方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058562A (ja) * | 2001-08-02 | 2003-02-28 | Ncr Internatl Inc | インタラクティブビジネスの分析環境下における予測モデルのコンピュータを利用した動的な分析構築方法 |
CN101354712B (zh) * | 2008-09-05 | 2011-02-09 | 北京大学 | 中文术语自动提取系统及方法 |
CN103186633A (zh) * | 2011-12-31 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种结构化信息抽取方法、搜索方法和装置 |
CN104991955A (zh) * | 2015-07-17 | 2015-10-21 | 科大讯飞股份有限公司 | 一种自动构建模板库的方法及系统 |
CN105488025A (zh) * | 2015-11-24 | 2016-04-13 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
-
2017
- 2017-08-09 CN CN201710677592.4A patent/CN107632975A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058562A (ja) * | 2001-08-02 | 2003-02-28 | Ncr Internatl Inc | インタラクティブビジネスの分析環境下における予測モデルのコンピュータを利用した動的な分析構築方法 |
CN101354712B (zh) * | 2008-09-05 | 2011-02-09 | 北京大学 | 中文术语自动提取系统及方法 |
CN103186633A (zh) * | 2011-12-31 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种结构化信息抽取方法、搜索方法和装置 |
CN104991955A (zh) * | 2015-07-17 | 2015-10-21 | 科大讯飞股份有限公司 | 一种自动构建模板库的方法及系统 |
CN105488025A (zh) * | 2015-11-24 | 2016-04-13 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532805A (zh) * | 2019-09-05 | 2019-12-03 | 国网山西省电力公司阳泉供电公司 | 数据脱敏方法及装置 |
CN110532805B (zh) * | 2019-09-05 | 2023-01-24 | 国网山西省电力公司阳泉供电公司 | 数据脱敏方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299362B (zh) | 相似企业推荐方法、装置、计算机设备及存储介质 | |
Benchimol et al. | Text mining methodologies with R: An application to central bank texts | |
CN112613501A (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
CN110428322A (zh) | 一种业务数据的适配方法及装置 | |
CN104572735B (zh) | 一种图片标注词推荐方法及装置 | |
CN112231484B (zh) | 一种新闻评论审核方法、系统、装置和存储介质 | |
CN110826320A (zh) | 一种基于文本识别的敏感数据发现方法及系统 | |
CN110019792A (zh) | 文本分类方法及装置和分类器模型训练方法 | |
CN110880142B (zh) | 一种风险实体获取方法及装置 | |
CN108153824B (zh) | 目标用户群体的确定方法及装置 | |
CN106980995A (zh) | 一种电子发票版式文件的识别及查验方法及相关装置 | |
CN113204603B (zh) | 金融数据资产的类别标注方法及装置 | |
CN113837323B (zh) | 满意度预测模型的训练方法、装置、电子设备及存储介质 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN108536868A (zh) | 社交网络上短文本数据的数据处理方法及应用 | |
CN106095972A (zh) | 一种信息分类方法及装置 | |
CN105068986B (zh) | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 | |
CN114792246B (zh) | 一种基于主题集成聚类的产品典型性特质挖掘方法及系统 | |
CN115292317A (zh) | 表单生成方法、装置、设备及存储介质 | |
CN118132614A (zh) | 信息筛选方法、装置、电子设备、存储介质及程序产品 | |
CN113420789B (zh) | 一种预测风险账号的方法、装置、存储介质和计算机设备 | |
Asali | Social media analysis for investigating consumer sentiment on mobile banking | |
CN110599195A (zh) | 一种识别刷单的方法 | |
CN114092948A (zh) | 一种票据识别方法、装置、设备以及存储介质 | |
CN107632975A (zh) | 一种词典建立方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180126 |
|
RJ01 | Rejection of invention patent application after publication |