CN107622045A - 一种信息处理方法及设备 - Google Patents
一种信息处理方法及设备 Download PDFInfo
- Publication number
- CN107622045A CN107622045A CN201710677548.3A CN201710677548A CN107622045A CN 107622045 A CN107622045 A CN 107622045A CN 201710677548 A CN201710677548 A CN 201710677548A CN 107622045 A CN107622045 A CN 107622045A
- Authority
- CN
- China
- Prior art keywords
- character
- node
- attribute
- bit
- announcement information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种信息处理方法及设备,用于提高通知信息的正确率。其中的信息处理方法包括:接收输入的通知信息;其中,所述通知信息包括至少一个分词;通过词典树对接收的通知信息进行匹配;其中,所述词典树为树格式的模板词典,所述模板词典包括至少一个分词,及与每个分词对应的属性标识,所述属性标识为普通属性标识或特殊属性标识,所述普通属性标识用于指示文字,所述特殊属性标识用于指示数字或字母;所述词典树的每个节点包括属性标识、结束标识及映射表,所述结束标识用于指示每个节点是否结束,所述映射表用于指示每个节点对应的子节点;输出与所述通知信息包括的至少一个分词匹配成功的属性标识,以生成所述通知信息的模板。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种信息处理方法及设备。
背景技术
人们在使用类似手机的终端时,经常会收到一些通知类信息。通知类信息是指运营商或企业机构,例如金融机构等向用户发送的通知信息,如运营商资费信息、机票预订信息、银行卡消费消息等。
目前对于通知信息,都是事先建立一个模板,例如,尾号1234的储蓄卡账户09:20通过ATM转出290元,所建立的模板是,文字不变,数字部分用标识Nu来代替,字母部分用标识Zm来代替。因此,得到的模板就是:尾号Nu储蓄卡账户NuNu通过Zm转出Nu元。
当电子设备接收到运营商或企业机构输入的通知信息后,会将接收的通知信息与事先建立的模板词典进行匹配,以获得通知信息的模板。模板词典包括多个词语,例如,尾号、储蓄卡账户、储蓄卡等。而在匹配过程中,是将通知信息包括的字符逐次进行匹配,容易将一个完整的词切割,例如,“王金从”是一个完整的词,表示人的名称,但是“从”又是一个动词,匹配时,容易匹配成“王金”和“从”,整体的意思就是王金做了什么,即不能正确地反映通知信息的意思。
可见,现有技术中,传统的匹配方式在对通知信息进行匹配时,容易将整体词切割成几个分词,获得通知信息的错误率较高。
发明内容
本发明实施例提供一种信息处理方法及设备,用于提高通知信息的正确率。
第一方面,本发明一实施例提供了一种信息处理方法,所述方法包括:
接收输入的通知信息;其中,所述通知信息包括至少一个分词;
通过词典树对接收的通知信息进行匹配;其中,所述词典树为树格式的模板词典,所述模板词典包括至少一个分词,及与每个分词对应的属性标识,所述属性标识为普通属性标识或特殊属性标识,所述普通属性标识用于指示文字,所述特殊属性标识用于指示数字或字母;所述词典树的每个节点包括属性标识、结束标识及映射表,所述结束标识用于指示每个节点是否结束,所述映射表用于指示每个节点对应的子节点;
输出与所述通知信息包括的至少一个分词匹配成功的属性标识,以生成所述通知信息的模板。
可选的,通过词典树对接收的通知信息进行匹配,包括:
将所述通知信息包括的第一字符与所述词典树包括的多个节点进行匹配,若所述第一字符与第一节点匹配,则将位于所述第一字符后的第二字符与所述第一节点的多个子节点进行匹配,直到遇到结束节点;所述结束节点是指与结束标识匹配的节点。
可选的,还包括:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为字母,且所述词典树是否包括用于指示字母的特殊属性标识;
若所述第一字符为字母,且所述词典树包括用于指示字母的特殊属性标识,则从所述第二字符开始计数,出现非字母的字符则结束计数;
输出匹配成功的属性标识,包括:
输出与所述第一字符对应的特殊属性标识及所计数的结果。
可选的,还包括:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为数字,且所述词典树是否包括用于指示数字的特殊属性标识;
若所述第一字符为数字,且所述词典树包括用于指示数字的特殊属性标识,则从所述第一字符开始计数,出现非数字的字符则结束计数;
输出匹配成功的属性标识,包括:
输出与所述第二字符对应的特殊属性标识及所计数的结果。
可选的,在输出与所述通知信息包括的至少一个分词匹配成功的属性标识之后,还包括:
输出最后匹配成功的属性标识。
第二方面,本发明一实施例提供了一种信息处理设备,所述设备包括:
接收单元,用于接收输入的通知信息;其中,所述通知信息包括至少一个分词;
匹配单元,用于通过词典树对接收的通知信息进行匹配;其中,所述词典树为树格式的模板词典,所述模板词典包括至少一个分词,及与每个分词对应的属性标识,所述属性标识为普通属性标识或特殊属性标识,所述普通属性标识用于指示文字,所述特殊属性标识用于指示数字或字母;所述词典树的每个节点包括属性标识、结束标识及映射表,所述结束标识用于指示每个节点是否结束,所述映射表用于指示每个节点对应的子节点;
输出单元,用于输出与所述通知信息包括的至少一个分词匹配成功的属性标识,以生成所述通知信息的模板。
可选的,所述匹配单元用于通过词典树对接收的通知信息进行匹配,包括:
将所述通知信息包括的第一字符与所述词典树包括的多个节点进行匹配,若所述第一字符与第一节点匹配,则将位于所述第一字符后的第二字符与所述第一节点的多个子节点进行匹配,直到遇到结束节点;所述结束节点是指与结束标识匹配的节点。
可选的,所述匹配单元还用于:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为字母,且所述词典树是否包括用于指示字母的特殊属性标识;
若所述第一字符为字母,且所述词典树包括用于指示字母的特殊属性标识,则从所述第二字符开始计数,出现非字母的字符则结束计数;
所述输出单元还用于:
输出与所述第一字符对应的特殊属性标识及所计数的结果。
可选的,所述匹配单元还用于:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为数字,且所述词典树是否包括用于指示数字的特殊属性标识;
若所述第一字符为数字,且所述词典树包括用于指示数字的特殊属性标识,则从所述第一字符开始计数,出现非数字的字符则结束计数;
所述输出单元还用于:
输出与所述第二字符对应的特殊属性标识及所计数的结果。
可选的,所述输出单元还用于:
在输出与所述通知信息包括的至少一个分词匹配成功的属性标识之后,输出最后匹配成功的属性标识。
第三方面,本发明一实施例还提供一种信息处理设备,所述设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面提供的信息处理方法中任一项所述方法的步骤。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面提供的信息处理方法中任一项所述方法的步骤。
综上所述,在本发明实施例中,模板词典包括属性标识,词典树包括的每个节点包括属性标识、结束标识及当前节点对应的子节点,结束标识表示一个节点是否结束。通过词典对输入的通知信息进行匹配,匹配过程中,遇到与结束标识匹配的节点,就输出已匹配成功的属性标识。结束标识可以事先设置,遇到与结束标识匹配的节点才输出已匹配成的属性标识,如果没遇到与结束标识匹配的节点就不输出,这样就不会将完整的词分割开,尽量保证完整的一个词的完整性,从而提高通知信息的正确率。
附图说明
图1是本发明实施例提供的信息处理方法的流程图;
图2为本发明实施例提供的信息处理设备的一种结构示意图;
图3为本发明实施例提供的信息处理设备的一种结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例中的通知信息,是指商户、运营商或企业等机构向用户发送的通知信息,例如快递信息、酒店机票预订信息、运营商资费信息、银行卡使用信息或应用推送信息等。通知信息通常是企业等机构建立自身的服务站,以站内信的形式发送给用户。当然,在本发明实施例中,通知信息并不限定其他形式的通知信息,例如通过第三方应用程序的方式通知等。其中,商户、运营商或企业等机构在本发明实施例中称为数据源。考虑到企业机构发送的通知信息可能具有用户的敏感个人信息,因此用户使用的电子设备经过用户授权,可以将接收的通知信息进行脱敏处理,也就是将通知信息包括的敏感个人信息进行脱敏,再将脱敏后的通知信息发送给服务器,以供服务器对通知信息进行分析。
本发明实施例中的一条通知信息可以包括至少一个分词,例如,通知信息:尾号1234储蓄卡账户09:20通过ATM转出290元,包括的分词有:尾号、储蓄卡账户、通过、转出、元等。为了减少通知信息模板的数量,本发明实施例建立了模板词典,模板词典包括至少一个分词,及为每个分词建立的属性标识,这样相同语义的分词可以通过一个属性标识来表示,就可以减少通知信息模板的数量。例如,银行的通知信息中常出现的目标分词“交易密码错误”、“卡额度不足”,都是表示原因的分词,那么就可以为“交易密码错误”和“卡额度不足”设置同一个属性标识,例如Yy。这样,对于文字表面上差异较大的通知信息实际上可以用同一个模板来表示。例如,通知信息:贵卡7619在01:51由于交易密码错误而刷卡失败,与通知信息:贵卡1219在21时12分因为卡额度不足而刷卡未成功。这两条通知信息的文字差异较大,但是这两条通知信息的模板都可以是:KhN4TmYwYyU3Zt。
通知信息通常也包括数字、字母或者数字及字母的组合,这类的词在本发明实施了中称为特殊字符,对于特殊字符来说,可以设置预设的属性标识。例如:针对连续数字1234,544等,可以用一个字母来表示,例如用字母S表示,S表示一段任意长度数字。针对连续字母zs,GDd,GDs等,也可以用一个字母来表示,例如用字母Z表示一段任意长度字母。针对数字和字母的组合,可以根据组合字符具有的意义,用特殊字符来表示,例如S月S日S时是表示时间的,可以用Tm来表示。当然特殊字符还包括识别不了的字符,例如生僻字,这类的字符也可以设置预设的属性标识。
本发明实施例中,将表示文字的属性标识称为普通属性标识,将数字或字母或数字及字母的组合,或者识别不了的字符的属性标识称为特殊属性标识。
本发明实施例中,专有名词指的是像姓名、公司名称这类的名词。
下面结合说明书附图对本发明实施例作进一步详细描述。
请参见图1,本发明实施例提供一种信息处理方法,该信息处理方法的流程描述如下:
S101:接收输入的通知信息,其中,通知信息包括至少一个分词;
S102:通过词典树对接收的通知信息进行匹配;其中,词典树为树格式的模板词典,模板词典包括至少一个分词,及与每个分词对应的属性标识,属性标识为普通属性标识或特殊属性标识,普通属性标识用于指示文字,特殊属性标识用于指示数字或字母,词典树的每个节点包括属性标识、结束标识及映射表,结束标识用于指示每个节点是否结束,映射表用于指示每个节点对应的子节点;
S103:输出与通知信息包括的至少一个分词匹配成功的属性标识,以生成通知信息的模板。
本发明实施例中的电子设备在接收到输入的通知信息后,可以获取输入的通知信息,将获取的通知信息包括的每个字符通过词典树进行匹配,已生成通知信息模板,也就是生成通知信息对应的属性标识。
其中,词典树是为树格式的模板词典,电子设备可以将事先建立的模板词典转化为树的格式,也就是将模板词典构成一个树。词典树的第一个节点也称为根节点,根节点下可以包括多个子节点,每个子节点分别又可以多个子节点。且定义每个节点包括属相标识、结束标识及映射表。其中,结束标识指示所在节点是否是结束的节点。可能的实施方式中,给结束标识赋值,若结束标识为1,则表示该节点是结束节点。若结束标识为0,则表示该节点不是结束节点。其中,映射表表示节点对应的子节点,如果映射表为null,也就表示当前节点无子节点,那么就可以认为当前节点为最终节点。
按照上述方式将模板词典转化成词典树,可以将模板词典中包括的属性标识及与属性标识对应的字符填充在树中。例如,词典树的第一个节点定义为根节点,根节点下的一个子节点的属性可以定义为{S,0,(年->Node1,月->Node2,天->Node3),null},Node1的属性为{年,1,null,Tm},也就是节点Node1表示“年”,“年”的属性标识是Tm,而“年”一般是表示日期,到“年”这个节点应该就是结束了,因此结束标识是1,也没有包括子节点,所以映射表那里用null进行意思,null也可以标志该节点结束。
电子设备可以将获取的通知信息与词典树进行匹配,是将通知信息包括的字符依次通过词典树进行匹配。电子设备在匹配时可以将通知信息包括的第一字符与词典树包括的多个节点进行匹配,若第一字符与第一节点匹配,则可以将位于第一字符后的第二字符与第一节点的多个子节点进行匹配。以此类推,直到遇到结束节点,则此次匹配过程完成,输出结束节点之前所有与通知信息包括的至少一个分词匹配成功的属性标识及结束节点对应的属性标识,以生成对应的通知信息中部分字符的模板。
由于通知信息中包括数字、字符或汉字,还可能有未识别的字符。而不同的字符匹配的方式也有所不同,下面分别介绍。
如果第一字符与第一节点不匹配,则判断第一字符是否为字母,且词典树是否包括用于指示字母的特殊属性标识。如果第一字符为字母,且词典树包括用于指示字母的特殊属性标识,则从第一字符开始计数,直到出现第一个非字母的字符则结束计数,输出与第一字符对应的特殊属性标识及所计数的结果,也就是连续字母出现的个数。
如果第一字符不是字母,则判断第一字符是否为数字,且词典树是否包括用于指示数字的特殊属性标识。如果第一字符为数字,且词典树包括用于指示数字的特殊属性标识,则从第一字符开始计数,直到出现第一个非数字的字符则结束计数,输出与第一字符对应的特殊属性标识及所计数的个数,也就是连续数字出现的个数。当然本发明实施例对判断第一个字符是字母还是数字的顺序不作限制。
进一步地,一个节点可以为结束节点,这个节点还具有子节点。例如“交易密码错误”,“码”对应的节点可以为结束节点,但是“码”对应的节点可以具有子节点,即“错”对应的节点。那么在对通知信息包括的至少一个分词进行匹配时,就会遇到这类的节点。遇到结束节点就会输出已匹配成功的属性标识,继续以“交易密码错误”为例,输出的已匹配成功的属性标识可以对应“交易密码”,此时可以判断输出的已匹配成功的属性标识对应的分词即“交易密码”是不是预设分词,其中,预设分词可以看成是词典中长度最长的通用分词,例如:“交易密码”。如果已匹配成功的属性标识对应的分词就是预设分词,那么可以输出的已匹配成功的属性标识,如果继续匹配,可能会将下一个完整的词语的前部分字符归到这个完整的通用分词中,也就是导致下一个完整的词语可能被分割成不完整的。
而继续匹配时,也就是从下一个字符即“错”开始重新进行匹配。而如果匹配时,“交易密码错误”匹配不成功,也就是说预设分词中不存在“交易密码错误”,那么在匹配后,输出最后一个匹配成功的分词对应的属性标识,即输出“交易密码”对应的属性标识。然后继续将位于已匹配成功字符后的第一个字符,即“错”与已匹配成功字符所在节点“码”的子节点进行匹配,直到遇到结束节点“误”,此时可以输出与“错误”匹配的属性标识,以尽量不将完整的词切分,作为一个整体输出。
为了更好地理解,下面以具体实例说明本发明实施例提供的匹配方式。
假设输入的通知信息为ABCDEFG,一共含有7个字符。从第一个字符A开始进行匹配。如果A为文字,则将A转化为小写的字母开始与词典树进行匹配。如果词典树根节点下含有A开头的子节点,则继续对B进行匹配。如果词典树根节点下不含有A开头的子节点,则判断A是否为字母,并且根节点下是否还有指示字母的特殊属性标识,例如Z开头的子节点。或者判断A是否为数字,并且根节点下是否还有指示数字的特殊属性标识,例如S开头的子节点。如果这两种情况之一出现,则表示当前词典树中含有特殊规则,通知信息也可能包括连续字母或数字的组合,此时可以从A后面的字符向后依次匹配,直到出现第一个非字母和数字的字符,以下将按照第一个字符A是不是属于字典树的根节点下的子节点进行说明。
(一)如果A属于根节点的子节点,或者A为字母并且根节点下含有Z开头的节点,或者A为数字并且根节点下含有S开头的节点,即表示数字的节点。
对B与A节点的子节点进行匹配,如果当前字符还具有结束标记1,且子节点的映射表为null,表示在词典中“S年”已经是最长的词语,可以直接输出其对应的属性标识即Tm。假如词典中还有一个“S年S月”词语,这时候“年”的子节点映射表不为null而为“S”,可以定义“S年”为历史最长分词,定义“Tm”为历史最长分词对应的属性标识,同时从B之后的字符开始即C继续进行匹配,查找C是否与“S”匹配。在遇到下面三种情况时退出匹配过程,下面分别介绍。
第一种情况:要匹配的字符已经排到通知信息包括的字符串末尾。例如词典中以A开头的词语含有ABCD、ABCDEFGH,对应的属性标识分别为Ad和Ah两个词。当前匹配字符是A,下一个匹配的字符是是H,历史最长分词是ABCD,历史最长分词的属性标识为Ad,如果通知信息:ABCFEFG中ABCD作为一个完整的词,输出其对应的属性标识Ad,此时退出匹配过程。然后下一个要匹配的字符排到E字符,开始对EFG字符串进行新一轮的匹配。
第二种情况:在词典树中不存在当前要匹配的字符对应的子节点。例如,词典中以A开头的词语含有ABC、ABCD,对应的属性标识为Ac和Ad,以G开头的词语含有GH,对应的属性标识为Gh。当前要匹配的字符为D,为词典中D对应的子节点的映射表为null,也就是D对应的子节点没有下一级子节点,也即是D对应的子节点为结束节点,此时ABCD表示是以A开头的最长的词语,输出对应的属性标识即Ad,然后从下一个字符即E开始,进行新一轮的匹配。
第三种情况:当前要匹配的字符与词典中的与要匹配的字符的第一字符对应的子节点都不匹配。例如,词典中以A开头的词语含有ABC、ABCE,此时当前要匹配的字符为D,预设最长分词为ABC,与预设最长分词对应的属性标识为Ac,字符D的前一个字C的子节点为(E->Node1),当前要匹配的字符D不一样。此时输出Ac,同时,从C结束后的第一个字符D开始,进行新一轮的匹配。再例如,例如字典中以A开头的词语含有ACE词语,对应的属性标识为Ae,当前要匹配的字符为B,无预设最长分词,A的子节点为(C->Node1),那么B就没有可以匹配的节点。此时,A作为单一有效字符,按照为单一有效字符设置的属性标识,输出与A对应的属性标识。
(二)如果A不属于根节点的子节点,并且不符合A为字母并且根节点下含有Z开头的节点,或者A为数字并且根节点下含有S开头的加点两种情况之一。
此时,A作为单一有效字符存在,根据单一有效字符的不同,为单一有效字符设置不同的属性标识。例如,如果A之前的属性标识为Dd,根据其特征不同赋予A当前的属性标识,有以下几种情况:
(1)如果A为数字:
如果Dd为空、或者Un,则当前A对应的属性标识可以为N1,即结合A之前的属性标识,判断A应该表示订单号,也就是一串数字,此时可以将A的属性标识定义为N1。
如果Dd为Nn,n为0-9的数字,则A对应的属性标识和之前属性标识进行合并。如果Dd为Nn,也就是A之前的字符表示一串数字,那么A还是数字的话,可以将A的属性标识与之前的属性标识合并,成为新的属性标识,还是用于表示数字。其中,对于n=0-8,可以变成N(n+1),对于n=9,可以变成N0,对于n=0,可以保持N0。
如果Dd为En或Mn,n为0-9的数字,则当前A对应的属性标识和之前标识进行组合,变成Mn。如果Dd为En或Mn,也就是A之前的字符表示一串数字和字母的组合,那么A还是数字的话,可以将A的属性标识与之前的属性标识合并,成为新的属性标识,还是用于表示数字和字母的组合。其中,对于n=0-8,可以变成M(n+1),对于n=9,可以变成M0,对于n=0,可以保持M0。
(2)如果A为字母:
如果Dd为空、或者Un,则当前A对应的属性标识可以为E1,即结合A之前的属性标识,判断A应该表示一串字母,此时可以将A的属性标识定义为E1。
如果Dd为En,n为0-9的数字,则当前A对应的属性标识和之前属性标识进行合并。如果Dd为En,也就是A之前的字符表示一串字母,那么A还是字母的话,可以将A的属性标识与之前的属性标识合并,成为新的属性标识,还是用于表示字母。其中,对于n=0-8,可以变成E(n+1),对于n=9,可以变成E0,对于n=0,可以保持E0。
如果Dd为Nn或Mn,n为0-9的数字,则当前A对应的属性标识和之前属性标识进行组合,变成Mn。如果Dd为Nn或Mn,也就是A之前的字符表示一串数字和字母的组合,那么A还是字母的话,可以将A的属性标识与之前的属性标识合并,成为新的属性标识,还是用于表示数字和字母的组合。其中,对于n=0-8,可以变成M(n+1),对于n=9,可以变成M0,对于n=0,可以保持M0。
(3)如果A为中文:
如果Dd为空、或者En、Nn、Mn,即A之前的属性标识表示A之前的字符不是中文,那么当前A对应的属性标识可以为U1,表示中文。
如果Dd为Un,n为0-9的数字,则当前A对应的属性标识和之前属性标识进行合并。其中,对于n=0-8,可以变成U(n+1),对于n=9,可以变成U0,对于n=0,可以保持U0;
(4)如果A为停用字例如副词“的”“了”等或标点符合,则不输出任何属性标识;
通过本发明实施例提供的信息处理方法,对于输入的通知信息,例如尾号1234储蓄卡账户09:20通过ATM转出290元,所输出的匹配成功的属性标识为:KhN4ZhTmU2E3JxN3Bz,也就是生成的通知信息的模板。综上所述,在本发明实施例中,模板词典包括属性标识,词典树包括的每个节点包括属性标识、结束标识及当前节点对应的子节点。通过词典树对输入的通知信息进行匹配,在匹配过程中,遇到结束节点,就输出已匹配成功的属性标识。结束标识可以事先设置,遇到结束节点才输出已匹配成的属性标识,如果没遇到结束节点,就不输出,这样就不会将完整的词分割开,尽量保证完整的词的完整性,从而提高通知信息的正确率。
请参见图2,基于同一发明构思,本发明一实施例提供一种信息处理设备,该设备包括接收单元、匹配单元和输出单元。
其中,接收单元201可以用于接收输入的通知信息,通知信息包括至少一个分词。匹配单元202可以用于通过词典树对接收的通知信息进行匹配,其中,词典树为树格式的模板词典,模板词典包括至少一个分词,及与每个分词对应的属性标识,属性标识为普通属性标识或特殊属性标识,普通属性标识用于指示文字,特殊属性标识用于指示数字或字母,词典树的每个节点包括属性标识、结束标识及映射表,结束标识用于指示每个节点是否结束,映射表用于指示每个节点对应的子节点。输出单元203可以用于输出与通知信息包括的至少一个分词匹配成功的属性标识,以生成通知信息的模板。
可选的,匹配单元202用于通过词典树对接收的通知信息进行匹配,包括:
将通知信息包括的第一字符与词典树包括的多个节点进行匹配,若第一字符与第一节点匹配,则将位于第一字符后的第二字符与第一节点的多个子节点进行匹配,直到遇到结束节点;结束节点是指与结束标识匹配的节点。
可选的,匹配单元202还可以用于:
若第一字符与第一节点不匹配,则判断第一字符是否为字母,且词典树是否包括用于指示字母的特殊属性标识;
若第一字符为字母,且词典树包括用于指示字母的特殊属性标识,则从第二字符开始计数,出现非字母的字符则结束计数;
输出单元203还可以用于:
输出与第一字符对应的特殊属性标识及所计数的结果。
可选的,匹配单元202还可以用于:
若第一字符与第一节点不匹配,则判断第一字符是否为数字,且词典树是否包括用于指示数字的特殊属性标识;
若第一字符为数字,且词典树包括用于指示数字的特殊属性标识,则从第一字符开始计数,出现非数字的字符则结束计数;
输出单元203还可以用于:
输出与第二字符对应的特殊属性标识及所计数的结果。
可选的,输出单元203还可以用于:
在输出与所述通知信息包括的至少一个分词匹配成功的属性标识之后,输出最后匹配成功的属性标识。
匹配单元202还用于输出单元203在输出匹配成功的属性标识之后,从与任一字符相邻的下一个字符开始通过词典树重新进行匹配。
该设备可以用于执行图1所示的实施例所提供的方法。因此,对于该设备的各功能模块所能够实现的功能等可参考图1所示的实施例的描述,不多赘述。
请参见图3,本发明一实施例还提供一种信息处理设备,该信息处理设备包括处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的信息处理方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(英文:Field Programmable GateArray,简称:FPGA)开发的硬件电路,可以是基带处理器。
可选的,处理器301可以包括至少一个处理核心。
可选的,该信息处理设备还包括存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据。存储器302的数量为一个或多个。其中,存储器302在图3中一并示出。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种信息处理方法,其特征在于,包括:
接收输入的通知信息;其中,所述通知信息包括至少一个分词;
通过词典树对接收的通知信息进行匹配;其中,所述词典树为树格式的模板词典,所述模板词典包括至少一个分词,及与每个分词对应的属性标识,所述属性标识为普通属性标识或特殊属性标识,所述普通属性标识用于指示文字,所述特殊属性标识用于指示数字或字母;所述词典树的每个节点包括属性标识、结束标识及映射表,所述结束标识用于指示每个节点是否结束,所述映射表用于指示每个节点对应的子节点;
输出与所述通知信息包括的至少一个分词匹配成功的属性标识,以生成所述通知信息的模板。
2.如权利要求1所述的方法,其特征在于,通过词典树对接收的通知信息进行匹配,包括:
将所述通知信息包括的第一字符与所述词典树包括的多个节点进行匹配,若所述第一字符与第一节点匹配,则将位于所述第一字符后的第二字符与所述第一节点的多个子节点进行匹配,直到遇到结束节点;所述结束节点是指与结束标识匹配的节点。
3.如权利要求2所述的方法,其特征在于,还包括:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为字母,且所述词典树是否包括用于指示字母的特殊属性标识;
若所述第一字符为字母,且所述词典树包括用于指示字母的特殊属性标识,则从所述第二字符开始计数,出现非字母的字符则结束计数;
输出匹配成功的属性标识,包括:
输出与所述第一字符对应的特殊属性标识及所计数的结果。
4.如权利要求2所述的方法,其特征在于,还包括:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为数字,且所述词典树是否包括用于指示数字的特殊属性标识;
若所述第一字符为数字,且所述词典树包括用于指示数字的特殊属性标识,则从所述第一字符开始计数,出现非数字的字符则结束计数;
输出匹配成功的属性标识,包括:
输出与所述第二字符对应的特殊属性标识及所计数的结果。
5.如权利要求3或4所述的方法,其特征在于,在输出与所述通知信息包括的至少一个分词匹配成功的属性标识之后,还包括:
输出最后匹配成功的属性标识。
6.一种信息处理设备,其特征在于,包括:
接收单元,用于接收输入的通知信息;其中,所述通知信息包括至少一个分词;
匹配单元,用于通过词典树对接收的通知信息进行匹配;其中,所述词典树为树格式的模板词典,所述模板词典包括至少一个分词,及与每个分词对应的属性标识,所述属性标识为普通属性标识或特殊属性标识,所述普通属性标识用于指示文字,所述特殊属性标识用于指示数字或字母;所述词典树的每个节点包括属性标识、结束标识及映射表,所述结束标识用于指示每个节点是否结束,所述映射表用于指示每个节点对应的子节点;
输出单元,用于输出与所述通知信息包括的至少一个分词匹配成功的属性标识,以生成所述通知信息的模板。
7.如权利要求6所述的设备,其特征在于,所述匹配单元用于通过词典树对接收的通知信息进行匹配,包括:
将所述通知信息包括的第一字符与所述词典树包括的多个节点进行匹配,若所述第一字符与第一节点匹配,则将位于所述第一字符后的第二字符与所述第一节点的多个子节点进行匹配,直到遇到结束节点;所述结束节点是指与结束标识匹配的节点。
8.如权利要求7所述的设备,其特征在于,所述匹配单元还用于:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为字母,且所述词典树是否包括用于指示字母的特殊属性标识;
若所述第一字符为字母,且所述词典树包括用于指示字母的特殊属性标识,则从所述第二字符开始计数,出现非字母的字符则结束计数;
所述输出单元还用于:
输出与所述第一字符对应的特殊属性标识及所计数的结果。
9.如权利要求7所述的设备,其特征在于,所述匹配单元还用于:
若所述第一字符与第一节点不匹配,则判断所述第一字符是否为数字,且所述词典树是否包括用于指示数字的特殊属性标识;
若所述第一字符为数字,且所述词典树包括用于指示数字的特殊属性标识,则从所述第一字符开始计数,出现非数字的字符则结束计数;
所述输出单元还用于:
输出与所述第二字符对应的特殊属性标识及所计数的结果。
10.如权利要求8或9所述的设备,其特征在于,所述输出单元还用于:
在输出与所述通知信息包括的至少一个分词匹配成功的属性标识之后,输出最后匹配成功的属性标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710677548.3A CN107622045B (zh) | 2017-08-09 | 2017-08-09 | 一种信息处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710677548.3A CN107622045B (zh) | 2017-08-09 | 2017-08-09 | 一种信息处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622045A true CN107622045A (zh) | 2018-01-23 |
CN107622045B CN107622045B (zh) | 2021-02-23 |
Family
ID=61088751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710677548.3A Active CN107622045B (zh) | 2017-08-09 | 2017-08-09 | 一种信息处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622045B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085737A1 (en) * | 2004-10-18 | 2006-04-20 | Nokia Corporation | Adaptive compression scheme |
CN103617251A (zh) * | 2013-11-28 | 2014-03-05 | 金蝶软件(中国)有限公司 | 一种敏感词匹配方法及系统 |
CN104951508A (zh) * | 2015-05-21 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN106021397A (zh) * | 2016-05-12 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种关键词查找的树结构及实现方法 |
-
2017
- 2017-08-09 CN CN201710677548.3A patent/CN107622045B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060085737A1 (en) * | 2004-10-18 | 2006-04-20 | Nokia Corporation | Adaptive compression scheme |
CN103617251A (zh) * | 2013-11-28 | 2014-03-05 | 金蝶软件(中国)有限公司 | 一种敏感词匹配方法及系统 |
CN104951508A (zh) * | 2015-05-21 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN106021397A (zh) * | 2016-05-12 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种关键词查找的树结构及实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107622045B (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN110162767A (zh) | 文本纠错的方法和装置 | |
CN110069784A (zh) | 一种语音质检评分方法、装置、终端及可存储介质 | |
CN106940726B (zh) | 一种基于知识网络的创意自动生成方法与终端 | |
WO2003012685A2 (en) | A data quality system | |
CN110245557A (zh) | 图片处理方法、装置、计算机设备及存储介质 | |
CN107590291A (zh) | 一种图片的搜索方法、终端设备及存储介质 | |
CN107741972A (zh) | 一种图片的搜索方法、终端设备及存储介质 | |
CN109582788A (zh) | 垃圾评论训练、识别方法、装置、设备及可读存储介质 | |
CN108960944A (zh) | 用户评价处理方法及装置、计算机可读介质、电子设备 | |
CN106997339A (zh) | 文本特征提取方法、文本分类方法及装置 | |
WO2024098623A1 (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
CN109271481A (zh) | 一种电力诉求信息的分类方法、系统及终端设备 | |
CN110209772B (zh) | 一种文本处理方法、装置、设备及可读存储介质 | |
CN110162769A (zh) | 文本主题输出方法和装置、存储介质及电子装置 | |
CN108874780A (zh) | 一种分词算法系统 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
JP2019133565A (ja) | ニュース素材分類装置、プログラム及び学習モデル | |
CN112905787A (zh) | 文本信息处理方法、短信处理方法、电子设备及可读介质 | |
CN107622045A (zh) | 一种信息处理方法及设备 | |
CN116503878A (zh) | 一种业务决策处理方法及装置 | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN114281983B (zh) | 分层结构的文本分类方法、系统、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |