CN107832285B - 一种词典创建方法及设备 - Google Patents

一种词典创建方法及设备 Download PDF

Info

Publication number
CN107832285B
CN107832285B CN201710677546.4A CN201710677546A CN107832285B CN 107832285 B CN107832285 B CN 107832285B CN 201710677546 A CN201710677546 A CN 201710677546A CN 107832285 B CN107832285 B CN 107832285B
Authority
CN
China
Prior art keywords
attribute
notification information
identifier
identifiers
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710677546.4A
Other languages
English (en)
Other versions
CN107832285A (zh
Inventor
张惠亮
赵晓庆
刘胜
吴锋海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Union Mobile Pay Co Ltd
Original Assignee
Union Mobile Pay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Union Mobile Pay Co Ltd filed Critical Union Mobile Pay Co Ltd
Priority to CN201710677546.4A priority Critical patent/CN107832285B/zh
Publication of CN107832285A publication Critical patent/CN107832285A/zh
Application granted granted Critical
Publication of CN107832285B publication Critical patent/CN107832285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Abstract

本发明公开了一种词典创建方法及设备,以将相同语义的分词用同一个属性标识表示,尽可能减少属性标识的数量,节约存储空间。其中的词典创建方法包括:从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识;其中,所述通知信息模板包括至少一个属性标识,所述属性标识用于指示所述通知信息包括的分词;所述第一属性标识用于指示专有名词开始或结束;从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识,N为正整数;根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。

Description

一种词典创建方法及设备
技术领域
本发明涉及计算机技术领域,特别涉及一种词典创建方法及设备。
背景技术
人们在使用类似手机的终端时,经常会收到一些通知类信息。通知类信息是指运营商或企业机构,例如金融机构等向用户发送的通知信息,如运营商资费信息、机票预订信息、银行卡消费消息等。
目前对于通知信息,都是事先建立一个模板,例如,尾号1234的储蓄卡账户09:20通过ATM转出290元,所建立的模板是,文字不变,数字部分用标识Nu来代替,字母部分用标识Zm来代替。因此,得到的模板就是:尾号Nu储蓄卡账户NuNu通过Zm转出Nu元。
而由于现有技术中的模板,文字就是文字本身,所有同一类通知信息就存在多个模板。例如,通知信息:您账户5678信用卡账户01月03日21:21发生网银快捷扣款31美元的模板为:您账户Nu信用卡账户Nu月Nu日Nu Nu发生网银快捷扣款Nu美元。其实,两条通知信息都表达了相同的意思,但是存在两个模板,这就导致为通知信息建立的模板较多,浪费存储空间。
发明内容
本发明实施例提供一种词典创建方法及设备,以将相同语义的分词用同一个属性标识表示,尽可能减少属性标识的数量,节约存储空间。
第一方面,本发明一实施例提供了一种词典创建方法,所述词典创建方法包括:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识;其中,所述通知信息模板包括至少一个属性标识,所述属性标识用于指示所述通知信息包括的分词;所述第一属性标识用于指示专有名词开始或结束;
从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识,N为正整数;
根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。
可选的,在从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识之后,还包括:
从所述第一属性标识及所述N个连续属性标识中选取在所述至少一个通知信息模板中出现的次数大于或者等于第一预设阈值的所述第一属性标识及所述N个连续属性标识;
和/或,
从所述第一属性标识及所述N个连续属性标识选取在所述至少一个通知信息模板中出现的次数与所述至少一个通知信息模板的数量的比值等于或大于第二预设阈值的所述第一属性标识及所述N个连续属性标识。
可选的,根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,包括:
若所述第一属性标识指示专有名词开始,则将所述第一属性标识与用于指示所述专有名词结束的属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示所述专有名词结束的属性标识位于所述第一属性标识之后。
可选的,根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,还包括:
若所述第一属性标识指示专有名词结束,则将所述第一属性标识与用于指示所述专有名词开始或设定的特殊属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示开始的属性标识位于所述第一属性标识之前,所述设定的特殊属性标识用于指示任意一个分词结束。
可选的,所述方法还包括:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第二属性标识;其中,所述第二属性标识为数字、字母或数字及字母组合的属性标识;
将具有相同语义的所述第二属性标识替换为一个新的其它属性标识。
第二方面,本发明一实施例提供了一种词典创建设备,所述词典建立设包括:
第一选取单元,用于从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识;其中,所述通知信息模板包括至少一个属性标识,所述属性标识用于指示所述通知信息包括的分词;所述第一属性标识用于指示专有名词开始或结束;
第二选取单元,用于从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识,N为正整数;
替换单元,用于根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。
可选的,所述第二选取单元在从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识之后,还用于:
从所述第一属性标识及所述N个连续属性标识中选取在所述至少一个通知信息模板中出现的次数大于或者等于第一预设阈值的所述第一属性标识及所述N个连续属性标识;
和/或,
从所述第一属性标识及所述N个连续属性标识选取在所述至少一个通知信息模板中出现的次数与所述至少一个通知信息模板的数量的比值等于或大于第二预设阈值的所述第一属性标识及所述N个连续属性标识。
可选的,所述替换单元用于根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,包括:
若所述第一属性标识指示专有名词开始,则将所述第一属性标识与用于指示所述专有名词结束的属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示所述专有名词结束的属性标识位于所述第一属性标识之后。
可选的,所述替换单元用于根据所述第一属性标识及所述N个连续属性标识,确定要替换的M个连续属性标识,还包括:
若所述第一属性标识指示专有名词结束,则将所述第一属性标识与用于指示所述专有名词开始或设定的特殊属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示开始的属性标识位于所述第一属性标识之前,所述设定的特殊属性标识用于指示任意一个分词结束。
可选的,所述替换单元还用于:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第二属性标识;其中,所述第二属性标识为数字、字母或数字及字母组合的属性标识;
将具有相同语义的所述第二属性标识替换为一个新的其它属性标识。
第三方面,本发明一实施例还提供一种词典创建设备,所述设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面提供的词典创建方法中任一项所述方法的步骤。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面提供的词典创建方法中任一项所述方法的步骤。
在本发明实施例中,将N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。也就是说,用一个属性标识就可以替代几个属性标识,这样通知信息模板的数量就减少了,从而节约了存储空间。
附图说明
图1是本发明实施例提供的一种词典创建方法的流程图;
图2为本发明实施例提供的词典创建设备的一种结构示意图;
图3为本发明实施例提供的词典创建设备的一种结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例中的通知信息,是指商户、运营商或企业等机构向用户发送的通知信息,例如快递信息、酒店机票预订信息、运营商资费信息、银行卡使用信息或应用推送信息等。通知信息通常是企业等机构建立自身的服务站,以站内信的形式发送给用户。当然,在本发明实施例中,通知信息并不限定其他形式的通知信息,例如通过第三方应用程序的方式通知等。其中,商户、运营商或企业等机构在本发明实施例中称为数据源。考虑到企业机构发送的通知信息可能具有用户的敏感个人信息,因此用户使用的电子设备经过用户授权,可以将接收的通知信息进行脱敏处理,也就是将通知信息包括的敏感个人信息进行脱敏,再将脱敏后的通知信息发送给服务器,以供服务器对通知信息进行分析。
本发明实施例中的数据集合可以看成是由至少一条通知信息构成的集合,每个数据集合包括至少一条通知信息,通知信息来自相同或不同的数据源。一个数据集合中的全部通知信息可以是来自相同的数据源,也可以是来自不同的数据源。
分词指的是通知信息包括的词语,词语可以是一个字,例如您,也可以是多个字,例如银行卡。
下面结合说明书附图对本发明实施例作进一步详细描述。
请参见图1,本发明实施例提供一种词典创建方法,该词典创建方法的流程描述如下:
S101:从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识,其中,通知信息模板包括至少一个属性标识,属性标识用于指示通知信息包括的分词,第一属性标识用于指示专有名词开始或结束;
S102:从每个通知信息模板中选取在第一属性标识之前和/或之后的N个连续属性标识,N为正整数;
S103:根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。
本发明实施例中,通知信息模板是事先建立的,通知信息模板是通过至少一个属性标识生成的,下面介绍如何获得属性标识。
本发明实施例中的服务器可以对一数据集合中的至少一个通知信息进行切分,获得至少一个分词,再为分词建立属性标识,通过属性标识表示对应的分词,从而多个属性标识的结合就可以表示通知信息。
用户可以通过终端对推送通知信息的服务进行授权,并将接收的通知信息脱敏后,发送给服务器。由于不同的数据源的通知信息包括的常用分词也所有不同,为了便于对数据集合的通知信息划分出来的分词进行统计分析,服务器在接收了海量的通知信息的情况下,如果将全部的通知信息都进行统计分析,显然会增加自身的负担。因此,服务器可以按照预设的规则对接收的通知信息先进行归类再分析,将来自同一数据源的通知信息归为一类,这样要分析的通知信息的数量相对来说较少,便于分析,同时又对相同类型的通知信息分别进行分析,这样对通知信息进行划分而得的分词也比较通用,准确。
服务器采集了通知信息后,可以将采集的每条通知信息进行切分,以获得每条通知信息的至少一个分词。通知信息中可以包括中文、数字、字母以及标点符号,本发明实施例中,将标点符号称为停用词。
针对通知信息中的中文来说,服务器可以对任一通知信息的连续中文进行切分,获取至少一个分词,其中,连续文字中不包括数字和/或字母。服务器在切分时可以按照大于1且小于预设长度的长度进行划分,这样就可以获得更多的分词,也更为合理。例如,通知信息为:尾号1234储蓄卡账户09:20通过ATM转出290元。预设长度为5,分别按照2、3、4或5的长度对上述通知信息进行划分,那么就可以获得如下分词:尾号、储蓄卡账户、储蓄卡账、蓄卡账户、储蓄卡、蓄卡账、卡账户、储蓄、蓄卡、卡账、账户、通过、转出。
从上述的例子可以看出,服务器对通知信息切分后获得至少一个分词中,有的分词是不常用的,例如“储蓄卡账”,有的分词是语义不明确的,例如“蓄卡”,这个词并不能清楚地表达出语义。因此,服务器对通知信息切分得到的至少一个分词还需要进行筛选,例如将出现次数较多的分词筛选出来,再从筛选出来的分词中删除语义不明确的分词,以获得通用的、语义明确的分词。
服务器筛选出多个分词后,可以为每个分词设置属性标识,通过属性标识来表示分词。例如,分词是储蓄卡账户、为储蓄卡账户设置的属性标识可以是Zh,只要是通知信息的模板出现Zh,就可以认为是储蓄卡账户。本发明实施例中,将建立的属性标识及与属性标识对应的分词的映射关系确定为模板词典,通过模板词典包括的属性标识表示通知信息。
对于特殊字符来说,例如数字、字母即数字和字母的组合来说,可以设置预设的属性标识。例如:针对连续数字1234,544等,可以用一个字母来表示,例如用字母S表示,S表示一段任意长度数字。针对连续字母zs,GDd,GDs等,也可以用一个字母来表示,例如用字母Z表示一段任意长度字母。针对数字和字母的组合,可以根据组合字符具有的意义,用特殊字符来表示,例如S月S日S时是表示时间的,可以用Tm来表示。
进一步地,对于相同语义的目标分词可以用同一属性标识,这样模板词典中的属性标识的数量就较少,可以减少通知信息目标的数量,节约存储空间。例如,电商平台的通知信息中常出现的目标分词“购买”、“运出”、“出票”、“查收”、“预定”等都是表示行为的分词,那么就可以为“购买”、“运出”、“出票”、“查收”和“预定”设置同一属性标识,例如Xw,这样就减少了属性标识的数量,从而节约了存储空间。同样地,对于文字表面上差异较大的通知信息实际上可以用同一个模板来表示。例如,通知信息:贵卡7619在01:51由于交易密码错误而刷卡失败,和通知信息:贵卡1219在21时12分因为卡额度不足而刷卡未成功。尽管这两条通知信息的文字差异较大,但是这两条通知信息的模板都可以是:KhN4TmYwYyU3Zt,也减少了通知信息模板的数量,从这个角度来说,也节约了存储空间。
尽管如此,但是通知信息中往往包含专有名词,例如企业名称、用户名称,像这类具有区别特征的专业名词是单独设置对应的属性标识,这就导致可能是相同类型的通知信息,只因为企业名称不一样,就对应不同的通知信息模板,需要的模板的数量较多,还是浪费存储空间,也不能对通知信息较好地进行归类,将相同类型的通知信息归为同一个通知信息模板。
鉴于此,本发明实施例中的服务器可以从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识,第一属性标识可以用于指示专有名词开始或结束,也就是第一属性标识可以用于识别出专有名词。例如通知信息:尊敬的王金从先生,您本次办理的业务已经受理成功,对应的模板:XsU1CoXe***。通知信息:尊贵的黄莹女士,您本月流量已经超过过套餐流量,对应的模板:XsU2XeRq***。上述两条通知信息中的“尊敬的”、“尊贵的”的属性标识都是Xs,是表示姓名开始的属性标识,“先生”、“女士”的属性标识都是Xe,是表示姓名结束的属性标识。又例如,通知信息:张树根通过手机App已经给您账户充值100元人民币,对应的模板:U3TgQdZhXw***。通知信息:王金从通过手机App已经给您账户充值100元人民币,对应的模板:U2CoTgQdZhXw***。上述两条通知信息中的Tg表示姓名结束的属性标识。那么Xs、Xe或Tg就是第一属性标识。
服务器在从多个通知信息模板中选取了第一属性标识之后,可以继续将第一属性标识之前和/或之后的N个连续属性标识,其中,N为正整数,可以是事先设置的一个固定值,例如3,当然不限于3。进一步地,服务器可以从第一属性标识及N个连续属性标识中选取在至少一个通知信息模板中出现的次数大于或者等于第三预设阈值的第一属性标识及N个连续属性标识。和/或,从第一属性标识及N个连续属性标识中选取在至少一个通知信息模板中出现的次数与至少一个通知信息模板的数量的比值等于或大于第四预设阈值的第一属性标识及N个连续属性标识,以尽量选取比较通用的属性标识的表现形式。其中,第三预设阈值和第四预设阈值都可以是事先的一个固定值,例如,第三预设阈值可以是2000,也可以是3000,或者也可以根据实验测试所得的比较合理的一个值。第四预设阈值可以是2%,也可以是3%,或者也可以根据实验测试所得的比较合理的一个值,例如5%。
为了更好地理解,下面以具体实例进行说明。
以上述提到的第一属性标识为Xs和Tg,从通知信息模板中选取Xs和Tg之前和之后相关的连续3个属性标识为例,统计其出现次数并以出现次数从高到低进行排列,得到如下的统计表格如表1所示。在表1中,null是设定的特殊属性标识,当不存在中文字符时,可以通过null进行示意。表1仅是示例,不代表真实的统计结果,也不包括其他数据源的统计结果。
表1第一属性标识及第一属性标识前后3个连续属性标识示意表
Figure BDA0001374676270000091
如果第三预设阈值为38000,第四预设阈值为350,那么从表1中可以看出表1所示的属性标志都满足选取条件。从表1中可以知道,Xs指示名称的开始,如果左边标识都为null,那Xs之后往右到Xe之间所有的属性标识其实都为名称的一部分。对于Tg,当右边按照顺序出现Qd、Zh和Xw的属性标识时,左边的U3或者U2Co其实也是名称的一部分。也就是说Xs到Xe之间属性标识其实可以用表示名称的属性标识代替。同样的,位于Tg左边的属性标识也可以用表示名称的属性标识代替。继续以表1为例,可以将U1 Co、U2、U3、U2 Co都用Nm替换,即将3个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,减少了属性标识的数量,节约了存储空间。
服务器在将N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识之前,首先可以确定要替换的属性标识。可能的实施方式中,服务器首先判断第一属性标识是表示专有名词的开始还是结束,如果第一属性标识指示专有名词开始,则将第一属性标识与用于指示专有名词结束的属性标识之间的M个连续属性标识,确定为要替换的M个连续属性标识。也就是从第一属性标识开始向后,直到遇到用于指示结束的属性标识,将第一属性标识与用于指示专有名词结束的属性标识之间的M个连续属性标识确定为要替换的属性标识。继续以表1为例,如果第一属性标识是Xs,即指示名称的开始,则从Xs向后开始算起,直到遇到Xe,即指示名称的结束,处于中间的U1 Co或U2即为要替换的M个连续属性标识。
如果第一属性标识指示专有名词结束,则将第一属性标识与用于指示专有名词开始的属性标识或者设定的特殊属性标识之间的M个连续属性标识,确定为要替换M个连续属性标识。也就是从第一属性标识开始向前,直到遇到用于指示专有名词开始的属性标识,或设定的特殊属性标识,例如null,将第一属性标识与用于指示专有名词开始或设定的特殊属性标识之间的M个连续属性标识确定为要替换的M个连续属性标识。继续以表1为例,如果第一属性标识是Tg,即指示名称的结束,则从Tg向前开始算起,直到遇到null,即设定的特殊属性标识,处于中间的U3或U2 Co即为M个连续属性标识。或者如果第一属性标识是Xe,即指示名称的结束,则从Xe向前开始算起,直到遇到Xs,即指示名词开始的属性标识,处于中间的U1 Co或U2即为M个连续属性标识。按照本发明实施例提供的替换原则,表1替换后如表2所示。
表2
Figure BDA0001374676270000111
从表2可以看出,属性标识的数量少了,按照表2得到的词典生成的通知信息模板如下:通知信息:尊敬的王金从先生,您本次办理的业务已经受理成功,对应的模板:XsNmXe***。通知信息:尊贵的黄莹女士,您本月流量已经超过过套餐流量,对应的模板:XsNmXeRq***。从上述两条生成的模板可以看出,原来的XsU1CoXe***和XsU2XeRq***前面的主体部分相同,都可以用XsNmXe替代,也就是原来的2条模板可以通过一个模板替代。这样相同类型的通知信息就可以尽量归类到同一类的模板中,便于通知信息的归一化。
进一步地,针对通知信息中的数字、字母或数字和字母的组合等特殊情况,服务器可以从每个通知信息模板选取第二属性标识。其中。第二属性标识为用于指示预设长度的数字、字母或数字及字母组合的属性标识。例如以第二属性标识指示预设长度的数字为例,第二属性标识是N4,用于指示连续4个数字,例如卡号1234或5678。又例如,第二属性标识是N3,用于指示连续3个数字,例如金额290,同理N2对应金额31等。
同样地,按照上述方式进行统计,即选取第二属性标识之前和之后相关的连续2个属性标识进行统计分析。由于数字的长度不同,代表的意义也有所不同,考虑到第二属性标识指示的长度,所以服务器在对第二属性标识之前和之后相关的连续2个属性标识进行统计分析时,可以加上第二属性标识指示的长度,统计其出现次数并以出现次数从高到低进行排列,得到表3。
表3
Figure BDA0001374676270000112
Figure BDA0001374676270000121
通过表3可以分析得出,当前一属性标识出现Kh,后一属性标识出现Zh,后二属性标识出现Tm,且当前数字长度为4时,那么N4代表的是卡号,可以把N4替换成Cn,表示卡号。如果前一属性标识为Jx,后一属性标识为Bz,那么Nn代表的是金额,可以把Nn,即任意长度的数字定义为Je,表示金额。对于Ck,如果前一属性标识为Co,后一属性标识为Xw,后二属性标识为Tr,那么Ck代表的是地点,可以转化为Wz,表示位置。例如通知信息:您购买的订单号Dh8798856554已经从仓库运出,大概4天后到您的地址(北京市海淀区学院路12号),请注意查收。这里仓库就指示位置,对应的模板可以为:XwDdM0CoCkXwTrU1DzU9N2U1U5。
按照本发明实施例提供的替换原则,替换后的表3的表现形式如表4所示,表4中any表示任意长度。
表4
Figure BDA0001374676270000122
从表4可以看出,对于Nn表示一定长度的数字、字母、混合数字字母、或未知字符串的属性标识,可以通过一个新的其它属性标识来替代,如Cn或Je,当然这里新的其它属性标识区别于为词典中的多个文字分词替换的新的属性标识。例如,通知信息:尾号1234储蓄卡账户09:20通过ATM转出290元,按照表2得到的词典生成的通知信息模板为:KhN4ZhTmU2E3JxN3Bz,按照表4得到的词典生成的通知信息模板为:KhCnZhTmU2E3JxJeBz。通知信息:您账户5678信用卡账户01月03日21:21发生网银快捷扣款31美元,按照表2得到的词典生成的通知信息模板为:KhN4ZhTmU6JxN2Bz,按照表4得到的词典生成的通知信息模板为:KhCnZhTmU2E3JxJeBz。从上述两条生成的通知信息模板可以看出,按照表2的词典生成的两个通知信息模板存在差异,而按照表4的词典生成的两个通知信息模板是一样的。而上述两条通知信息表达的意思是一样的,相同类型的通知信息,可见,通过本发明实施例提供的词典更便于将相同类型的通知信息归到同一类通知信息模板中,便于通知信息的归一化处理。XsU1CoXe***和XsU2XeRq***前面的主体部分相同,都可以用XsNmXe替代,也就是原来的2条模板可以通过一个模板替代。这样相同类型的通知信息就可以尽量归类到同一类的模板中,便于通知信息的归一化。
进一步地,例如通知信息:您购买的订单号Dh8798856554已经从仓库运出,大概4天后到您的地址(北京市海淀区学院路12号),请注意查收。这里仓库就指示位置,对应的模板可以为:XwDdM0CoCkXwTrU1DzU9N2U1U5。而对于通知信息:您面试的仓库保管员职位未通过面试,谢谢关注。这里的“仓库”实质上“仓库保管员”这个完整词语的一部分,并不指示位置。而通过本发明实施例统计表3的方式,可以对不符合特定条件的属性标识不进行替换,例如此处仓库管理员对应的属性标识。这样既可以保证相同类型的通知信息尽可能归为同一类通知信息模板标识,同时又保证了一定的差异性,不会造成模板分类的错误,降低分类的错误率。
在本发明实施例中,将N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。也就是说,用一个属性标识就可以替代几个属性标识,这样通知信息模板的数量就减少了,节约了存储空间。且可以对通知信息较好地进行归类,将相同类型的通知信息归于同一类通知信息模板,便于分析。
下面结合附图介绍本发明实施例提供的设备。
请参见图2,基于同一发明构思,本发明一实施例提供一种词典创建设备,该设备包括:第一选取单元201、第二选取单元202和替换单元203。其中,第一选取单元201可以用于从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识,其中,通知信息模板包括至少一个属性标识,属性标识用于指示通知信息包括的分词,第一属性标识用于指示专有名词开始或结束。第二选取单元202可以用于从每个通知信息模板中选取在第一属性标识之前和/或之后的N个连续属性标识,N为正整数。替换单元203可以用于根据第一属性标识及N个连续属性标识,将N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识。
可选的,第二选取单元202在从每个通知信息模板中选取在第一属性标识之前和/或之后的N个连续属性标识之后,还用于:
从所述第一属性标识及所述N个连续属性标识中选取在所述至少一个通知信息模板中出现的次数大于或者等于第一预设阈值的所述第一属性标识及所述N个连续属性标识;
和/或,
从所述第一属性标识及所述N个连续属性标识选取在所述至少一个通知信息模板中出现的次数与所述至少一个通知信息模板的数量的比值等于或大于第二预设阈值的所述第一属性标识及所述N个连续属性标识。
可选的,替换单元203用于根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,包括:
若所述第一属性标识指示专有名词开始,则将所述第一属性标识与用于指示所述专有名词结束的属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示所述专有名词结束的属性标识位于所述第一属性标识之后。
可选的,替换单元203用于根据所述第一属性标识及所述N个连续属性标识,确定要替换的M个连续属性标识,还包括:
若所述第一属性标识指示专有名词结束,则将所述第一属性标识与用于指示所述专有名词开始或设定的特殊属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示开始的属性标识位于所述第一属性标识之前,所述设定的特殊属性标识用于指示任意一个分词结束。
可选的,替换单元203还用于:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第二属性标识;其中,所述第二属性标识为数字、字母或数字及字母组合的属性标识;
将具有相同语义的所述第二属性标识替换为一个新的其它属性标识
该设备可以用于执行图1所示的实施例所提供的方法。因此,对于该设备的各功能模块所能够实现的功能等可参考图1所示的实施例的描述,不多赘述。
请参见图3,本发明一实施例还提供一种词典创建设备,该词典创建设备包括处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的词典创建方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(英文:Field Programmable GateArray,简称:FPGA)开发的硬件电路,可以是基带处理器。
可选的,处理器301可以包括至少一个处理核心。
可选的,该词典创建设备还包括存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据。存储器302的数量为一个或多个。其中,存储器302在图3中一并示出3。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种词典创建方法,其特征在于,包括:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识;其中,所述通知信息模板包括至少一个属性标识,所述属性标识用于指示所述通知信息包括的分词;所述第一属性标识用于指示专有名词开始或结束;
从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识,N为正整数;
根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识;
所述方法还包括:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第二属性标识;其中,所述第二属性标识为数字、字母或数字及字母组合的属性标识;
基于所述第二属性标识之前和/或之后的M个属性标识确定所述第二属性标识的语义,并将具有相同语义的所述第二属性标识替换为一个新的其它属性标识,M为正整数。
2.如权利要求1所述的方法,其特征在于,在从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识之后,还包括:
从所述第一属性标识及所述N个连续属性标识中选取在所述至少一个通知信息模板中出现的次数大于或者等于第一预设阈值的所述第一属性标识及所述N个连续属性标识;
和/或,
从所述第一属性标识及所述N个连续属性标识选取在所述至少一个通知信息模板中出现的次数与所述至少一个通知信息模板的数量的比值等于或大于第二预设阈值的所述第一属性标识及所述N个连续属性标识。
3.如权利要求1所述的方法,其特征在于,根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,包括:
若所述第一属性标识指示专有名词开始,则将所述第一属性标识与用于指示所述专有名词结束的属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示所述专有名词结束的属性标识位于所述第一属性标识之后。
4.如权利要求3所述的方法,其特征在于,根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,还包括:
若所述第一属性标识指示专有名词结束,则将所述第一属性标识与用于指示所述专有名词开始或设定的特殊属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示开始的属性标识位于所述第一属性标识之前,所述设定的特殊属性标识用于指示任意一个分词结束。
5.一种词典创建设备,其特征在于,包括:
第一选取单元,用于从预先建立的至少一个通知信息模板中的每个通知信息模板选取第一属性标识;其中,所述通知信息模板包括至少一个属性标识,所述属性标识用于指示所述通知信息包括的分词;所述第一属性标识用于指示专有名词开始或结束;
第二选取单元,用于从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识,N为正整数;
替换单元,用于根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识;
所述替换单元还用于:
从预先建立的至少一个通知信息模板中的每个通知信息模板选取第二属性标识;其中,所述第二属性标识为数字、字母或数字及字母组合的属性标识;
基于所述第二属性标识之前和/或之后的M个属性标识确定所述第二属性标识的语义,并将具有相同语义的所述第二属性标识替换为一个新的其它属性标识,M为正整数。
6.如权利要求5所述的设备,其特征在于,所述第二选取单元在从所述每个通知信息模板中选取在所述第一属性标识之前和/或之后的N个连续属性标识之后,还用于:
从所述第一属性标识及所述N个连续属性标识中选取在所述至少一个通知信息模板中出现的次数大于或者等于第一预设阈值的所述第一属性标识及所述N个连续属性标识;
和/或,
从所述第一属性标识及所述N个连续属性标识选取在所述至少一个通知信息模板中出现的次数与所述至少一个通知信息模板的数量的比值等于或大于第二预设阈值的所述第一属性标识及所述N个连续属性标识。
7.如权利要求5所述的设备,其特征在于,所述替换单元用于根据所述第一属性标识及所述N个连续属性标识,将所述N个连续属性标识中的部分属性标识或全部属性标识替换为一个新的属性标识,包括:
若所述第一属性标识指示专有名词开始,则将所述第一属性标识与用于指示所述专有名词结束的属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示所述专有名词结束的属性标识位于所述第一属性标识之后。
8.如权利要求7所述的设备,其特征在于,所述替换单元用于根据所述第一属性标识及所述N个连续属性标识,确定要替换的M个连续属性标识,还包括:
若所述第一属性标识指示专有名词结束,则将所述第一属性标识与用于指示所述专有名词开始或设定的特殊属性标识之间的M个连续属性标识,确定为要替换所述M个连续属性标识;其中,用于指示开始的属性标识位于所述第一属性标识之前,所述设定的特殊属性标识用于指示任意一个分词结束。
CN201710677546.4A 2017-08-09 2017-08-09 一种词典创建方法及设备 Active CN107832285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710677546.4A CN107832285B (zh) 2017-08-09 2017-08-09 一种词典创建方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710677546.4A CN107832285B (zh) 2017-08-09 2017-08-09 一种词典创建方法及设备

Publications (2)

Publication Number Publication Date
CN107832285A CN107832285A (zh) 2018-03-23
CN107832285B true CN107832285B (zh) 2021-02-23

Family

ID=61643099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710677546.4A Active CN107832285B (zh) 2017-08-09 2017-08-09 一种词典创建方法及设备

Country Status (1)

Country Link
CN (1) CN107832285B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763908B (zh) * 2018-06-01 2023-04-18 腾讯科技(深圳)有限公司 行为向量生成方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020083A (zh) * 2011-09-23 2013-04-03 北京百度网讯科技有限公司 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN103186509A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 通配符类模板泛化方法和装置、通用模板泛化方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020083A (zh) * 2011-09-23 2013-04-03 北京百度网讯科技有限公司 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN103186509A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 通配符类模板泛化方法和装置、通用模板泛化方法和系统

Also Published As

Publication number Publication date
CN107832285A (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN106471490B (zh) 基于分类的集群通信
CN106095972B (zh) 一种信息分类方法及装置
US10445063B2 (en) Method and apparatus for classifying and comparing similar documents using base templates
CN108376364B (zh) 一种支付系统对账的方法、设备及终端设备
US10216838B1 (en) Generating and applying data extraction templates
WO2019179010A1 (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN110633331B (zh) 一种关系数据库中数据提取方法、系统及相关设备
CN110597511A (zh) 一种页面自动生成方法、系统、终端设备及存储介质
CN106446149B (zh) 一种通知信息的过滤方法及装置
CN106126496B (zh) 一种信息分词方法及装置
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN115204998A (zh) 一种基于搜索及数据分析引擎库的对账方法和对账系统
CN115544991A (zh) 报表生成方法、装置、设备、介质及程序产品
CN107832285B (zh) 一种词典创建方法及设备
CN108563786B (zh) 文本分类和展示方法、装置、计算机设备及存储介质
CN111241269B (zh) 一种短信文本分类方法、装置、电子设备及存储介质
CN109165295A (zh) 一种智能简历评估方法
CN107633006A (zh) 一种词典格式生成方法及电子设备
CN114265740A (zh) 错误信息处理方法、装置、设备及存储介质
CN109344386B (zh) 文本内容标识方法、装置、设备及计算机可读存储介质
CN107665443A (zh) 获取目标用户的方法及装置
CN107622045B (zh) 一种信息处理方法及设备
CN114169306A (zh) 一种生成电子回执单的方法、装置、设备及可读存储介质
CN107632975A (zh) 一种词典建立方法及设备
CN112131258B (zh) 数据拼接方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant