CN107633006B - 一种词典格式生成方法及电子设备 - Google Patents
一种词典格式生成方法及电子设备 Download PDFInfo
- Publication number
- CN107633006B CN107633006B CN201710676588.6A CN201710676588A CN107633006B CN 107633006 B CN107633006 B CN 107633006B CN 201710676588 A CN201710676588 A CN 201710676588A CN 107633006 B CN107633006 B CN 107633006B
- Authority
- CN
- China
- Prior art keywords
- character
- determining
- special
- semantic segment
- special character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提供一种词典格式生成方法及电子设备,用于实现对文本中特殊字符的处理,提高文本解析中对包含特殊字符串的字段的切分的准确性。该方法包括:获取来自至少一个数据源的多个文本信息,所述多个文本信息中每个文本信息包括特殊字符,所述特殊字符包括数字和/或字母;提取所述多个文本信息中与所述特殊字符相关的至少一个语义段;其中,所述至少一个语义段中每个语义段包括所述特殊字符及与所述特殊字符相邻的关联字符,所述关联字符的字符数量小于等于预设数量;根据所述至少一个语义段确定至少一个词典格式,所述至少一个词典格式用于表征特殊字符在相应语义段中的分布规则。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种词典格式生成方法及电子设备。
背景技术
在随着移动互联网的迅猛发展,其产生的信息量正在飞速增加,如何从这些信息中提取我们感兴趣的部分,正是自然语言处理(Neuro-Linguistic Programming,NLP)需要研究的内容。特别是对于移动互联网的入口——手机,已经成为众多互联网公司必争之地。因此,通过对这些应用类文本进行正确解析,可为用户提供更为优质的服务。
文本解析包括文本切分和语义分析两个阶段,对于手机上各类公司企业的应用文本信息,一般结构都较为规整,文字信息量充分,模板变化频度比较小,很适合在第一步文本切分阶段采用字典法。传统字典法都是采用固定词汇的方式定义属性,但是在公司应用信息中,会包含很多数字,英文、特殊含义标示等,传统字典无法完整覆盖这些信息并且准确对原文进行切分。
传统的词典设计的方法主要是采取尽可能穷尽所有可能出现的固定词汇或者只选取必要的字符串然后后期再处理。两种设计方式存在如下问题:
第一种方式是需要建设一个巨大的字典库,这从技术上和业务上都比较难以实现,需要花费巨大的时间和人力,并且不能预判未来出现的符合同样格式只是部分内容稍加修改的新词语的出现。此外,词典的规模过大也会导致文本切分阶段耗费资源增加,同时运行速度、执行效率显著降低;
对于后一种只选取必要固定词汇的处理方式,会导致整个语句被切分的非常琐碎,信息的完整性被一定程度的破坏,同时也不利于后期语义分析阶段的处理。
综上可知,现有技术中还没针对文本中特殊字符较好的处理方式。
发明内容
本发明实施例提供一种词典格式生成方法和电子设备,用于实现对文本中特殊字符的处理,提高文本解析中对包含特殊字符串的字段的切分的准确性。
第一方面,本发明实施例提供一种词典格式生成方法,包括以下步骤:
获取来自至少一个数据源的多个文本信息,所述多个文本信息中每个文本信息包括特殊字符,所述特殊字符包括数字和/或字母;
提取所述多个文本信息中与所述特殊字符相关的至少一个语义段;其中,所述至少一个语义段中每个语义段包括所述特殊字符及与所述特殊字符相邻的关联字符,所述关联字符的字符数量小于等于预设数量;
根据所述至少一个语义段确定至少一个词典格式,所述至少一个词典格式用于表征特殊字符在相应语义段中的分布规则。
可选的,提取所述多个文本信息中与所述特殊字符相关的至少一个语义段,包括:
根据所述特殊字符的字符类型,对所述多个文本信息进行归一化处理,获得归一化的文本信息;
确定所述归一化的文本信息中包括所述特殊字符的字符串;
提取所述字符串作为所述至少一个语义段。
可选的,确定所述归一化的文本信息中包括所述特殊字符的字符串,包括:
确定所述特殊字符在所述归一化的文本信息中对应的字符位置;
以所述字符位置为起点,确定在预设方向上与所述特殊字符相邻的关联字符;
确定所述特殊字符和所述关联字所符形成的字符串;
提取所述字符串作为所述至少一个语义段,包括:
根据所述字符位置及所述关联字符对应的字符位置,提取所述归一化的文本信息中的所述字符串,并将获得的所述字符串作为所述至少一个语义段。
可选的,根据所述至少一个语义段确定至少一个词典格式,包括:
确定所述至少一个语义段中出现频率大于等于第一预设频率的目标语义段;
根据业务特征及所述目标语义段,确定至少一个有效字符串;其中,所述至少一个有效字符串中每个有效字符串为所述目标语义段的组合或所述目标语义段中包括特殊字符的至少一部分字符串;
根据所述至少一个有效字符串确定所述至少一个词典格式。
可选的,根据所述至少一个有效字符串确定所述至少一个词典格式,包括:
确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式;
按照所述分布格式生成所述至少一个词典格式。
可选的,在确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式的同时,所述方法还包括:
根据所述至少一个有效字符串,确定每个有效字符串中特殊字符在文本信息中对应的至少一个原始字段;
确定所述至少一个原始字段中出现的频率;
将出现次数大于等于第二预设频率的原始字段确定为与所述特殊字符对应的特定字段;
在按照所述分布格式生成所述至少一个词典格式的同时,还包括:
将所述特定字段确定为生成的至少一个词典格式中所述特殊字符的固定字符。
第二方面,本发明实施提供一种电子设备,包括:
获取模块,用于获取来自至少一个数据源的多个文本信息,所述多个文本信息中每个文本信息包括特殊字符,所述特殊字符包括数字和/或字母;
提取模块,用于提取所述多个文本信息中与所述特殊字符相关的至少一个语义段;其中,所述至少一个语义段中每个语义段包括所述特殊字符及与所述特殊字符相邻的关联字符,所述关联字符的字符数量小于等于预设数量;
操作模块,用于根据所述至少一个语义段确定至少一个词典格式,所述至少一个词典格式用于表征特殊字符在相应语义段中的分布规则。
可选的,所述提取模块包括:
第一处理模块,用于根据所述特殊字符的字符类型,对所述多个文本信息进行归一化处理,获得归一化的文本信息;
第一确定模块,用于确定所述归一化的文本信息中包括所述特殊字符的字符串;
第二处理模块,用于提取所述字符串作为所述至少一个语义段。
可选的,所述第一确定模块用于:确定所述特殊字符在所述归一化的文本信息中对应的字符位置,并以所述字符位置为起点,确定在预设方向上与所述特殊字符相邻的关联字符;
所述第二处理模块用于:根据所述字符位置及所述关联字符对应的字符位置,提取所述归一化的文本信息中的所述字符串,并将获得的所述字符串作为所述至少一个语义段。
可选的,所述操作模块用于:
确定所述至少一个语义段中出现频率大于等于第一预设频率的目标语义段;
根据所述至少一个数据源的业务特征及所述目标语义段,确定至少一个有效字符串;其中,所述至少一个有效字符串中每个有效字符串为所述目标语义段的组合或所述目标语义段中包括特殊字符的至少一部分字符串;
根据所述至少一个有效字符串确定所述至少一个词典格式。
可选的,所述操作模块用于:
按照所述至少一个类型标识,确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式;
按照所述分布格式生成所述至少一个词典格式。
可选的,所述操作模块还包括:
第二确定模块,用于在确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式的同时,根据所述至少一个有效字符串,确定每个有效字符串中特殊字符在文本信息中对应的至少一个原始字段,及确定所述至少一个原始字段中出现的频率;
第三确定模块,用于将出现次数大于等于第二预设频率的原始字段确定为与所述特殊字符对应的特定字段;
第四确定模块,用于在按照所述分布格式生成所述至少一个词典格式的同时,将所述特定字段确定为生成的至少一个词典格式中所述特殊字符的固定字符。
本发明实施例中,电子设备通过获取来自至少一个数据源的多个文本信息,该多个文本信息中每个文本信息包括特殊字符,且该特殊字符包括数字和/或字母,进而通过提取多个文本信息中与特殊字符相关的至少一个语义段,该至少一个语义段中每个语义段包括特殊字符及与特殊字符相邻的关联字符,且关联字符的字符数量小于等于预设数量,进而根据至少一个语义段确即可定至少一个词典格式,该至少一个词典格式可用于表征特殊字符在相应语义段中的分布规则,故通过对信息中包括特殊字符及关联字符的语义段的提取,进而实现根据语义段生成用于指示特殊字符的分布规则的字典格式,则后期根据该字典格式即可将符合特殊字符规则的字段切分出来,提高文本的切分效果,有助于辅助后期的语义分析。
附图说明
图1为本发明实施例中词典生成方法的流程图;
图2为本发明实施例中电子设备的模块示意图;
图3为本发明实施例中电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例中的文本信息,是指商户、运营商或企业等机构向用户发送的包含特殊字符的通知信息,例如包含数字和/字母的快递信息、酒店机票预订信息、运营商资费信息、银行卡使用信息或应用推送信息等。
如图1所示,本发明实施例提供一种词典格式生成方法,该方法可以描述如下。
S11:获取来自至少一个数据源的多个文本信息,多个文本信息中每个文本信息包括特殊字符,特殊字符包括数字和/或字母。
在实际应用中,各类的公司企业都会开发自己的应用程序(Application,APP)或在第三方应用平台(例如微信、微博等平台)上建立自己的服务账号(例如微信公众号或者企业微博等)为用户提供各种服务。
本发明实施例中,数据源可以是电子设备中的应用,多个文本信息可以是应用发送的信息。例如,通过站内信、APP通知或者其他方式发送通知信息。文本信息中包括特殊字符,如数字和/或字母。
通常来说,不同的数据源获取的文本信息可能不同。例如,来自金融类(如银行)应用的文本信息可以是“尾号1234储蓄卡账户于12:40在ATM机取款300.67元。或者,来自保险公司的文本信息可以是“您的保单编号每天赢201980988期本期缴费金额RMB1779.98,最晚缴费为1月20日,请按时存于尾号为9877的银行卡中,谢谢”,等等。
在S11中,获取多个文本信息时,可以是按照预设抽样规则从至少一个数据源的通知信息进行抽样,获得包含特殊字符的多个抽样信息,这些抽样信息中即为获取的文本信息。其中,该预设抽样规则可以是公司的业务繁忙程度、用户使用习惯等因素设置的,预设抽样规则可以规定了相应的抽样时间段及抽样数量。例如,在业务高峰期、工作日抽样数量较大的抽样信息,在其他时间抽样较少的抽样信息。
在实际应用中,考虑到公司应用发送的通知类信息具有典型的时间相关特征,因此服务端需要将授权用户的来自相同公司的信息对敏感个人信息(如姓名、电话号、身份证号、家庭成员等信息)进行脱敏后,按照一定规则对文本信息进行抽样。常见的做法可以是,首先按照工作日和非公日区分每天的通知信息,然后将每天的通知信息按照不同的时间段切分,在每个时间段范围内抽取一定比例的数据形成多个抽样信息。
例如,工作日(周一-周五)每天抽取16000条信息;其中0-7点随机抽取1000条,7-9点随机抽取3000条,9-11点随机抽取2000条,11-13点随机抽取3000条,13-17点随机抽取2000条,17-20点随机抽取3000条,20-24点随机抽取2000条。以及,在非工作日(周六-周日)每天抽取8000条信息;其中0-7点随机抽取500条,7-9点随机抽取1500条,9-11点随机抽取1000条,11-13点随机抽取1500条,13-17点随机抽取1000条,17-20点随机抽取1500条,20-24点随机抽取1000条。
以上仅是举例,本发明实施例对电子设备采集文本信息所采用的原则不作任何限制,例如,电子设备采集文本信息可以是根据银行,公司等的业务繁忙程度、用户使用习惯等因素进行采集,在业务高峰期、工作日采集更多的通知信息,尽可能采集各种各样的通知信息,而在非工作日,非高峰期采集比较少的通知信息,以免采集的通知信息的数量很大,增加电子设备的负担。
文本信息通常具有不规则的格式。例如,多个文本信息是来自不同数据源,如金融机构、电商平台或其它通知等,多个文本信息的内容如下:
数据源1:金融机构
①尾号1234储蓄卡账户于12:40在ATM机取款300.67元。(银行)
②您的保单编号每天赢201980988期本期缴费金额RMB1779.98,最晚缴费为1月20日,请按时存于尾号为9877的银行卡中,谢谢。(保险公司)
数据源2:电商平台
③您购买的订单号Dh879885554已经从仓库运出,大概3天后到您的地址(北京市朝阳区东坝科技大厦A座2单元1101),请注意查收。(购物网站)
④您购买的本月5日CA1811次航班已经出票,请准时到达机场。(商旅类)
数据源3:其他通知
⑤温馨提示:截止03月07日24时,您的手机(130****7787)当月累计使用流量150.6MB。(运营商)
⑥【中国石油】积分商城(http://www.jf.95504.net、中油好客e站微信号)6月10日钜惠启航!(石油类)
通常来说,对于手机OS厂商、APP应用和第三方平台运营商来说,其通常会提供各种增值服务来吸引顾客,并在用户授权下,对这些应用的文本进行分析,以便提供优质的服务。
S12:提取多个文本信息中与特殊字符相关的至少一个语义段;其中,至少一个语义段中每个语义段包括特殊字符及与特殊字符相邻的关联字符,关联字符的字符数量小于等于预设数量。
其中,预设数量可以是根据文本划分需求设置的,或者也可以是该多个文本对应的数据源的业务需求确定的。在实际应用中,若预设数量可以是0,则语义段可以是数字串和/或字母串,或者,若预设数量为其他正整数值,如2或4等等,此时则语义段为包含特殊字符的字符串。
本发明实施例中,在获得来自同一数据源的多个文本信息后,可以确定特殊字符的字符类型,如字母类或数字类等。进而,电子设备根据字符类型可以对多个文本信息进行归一化处理,获得归一化的文本信息。该归一化处理,可将文本信息中具有相同字符类型的特殊字符的字符串进行归一,那么,电子设备可以根据归一化的文本信息确定含有同字符类型的特殊字符的字符串,通过提取该字符串即可从文本信息中划分出至少一个语义段。
也就是说,在获得多个文本信息(例如来自同一数据源)后,为了尽可能的减少模板,可以对原文(即多个文本信息)进行初步归一化处理。
例如,可以先基于以下几条规则进行初步处理:
1)连续数字部分用S替代;
2)连续字母部分用Z替代;
3)S之前和之后都选取不长于N个字符,如果出现Z或分割符号(例如,。!?),则提前结束;
4)Z之前和之后都选取不长于N个字符,如果出现S或分割符号(例如,。!?),则提前结束;
5)S和Z可以连续出现,并选取之前和之后不长于N个长度的字符;
6)如果两个连续的S或者Z之间不超过N个字符,那么需要合并成一个字符串输出。
进而,电子设备可选取归一化的多个文本信息中包含特殊字符的字符串。此时,电子设备可以确定特殊字符在归一化的文本信息中对应的字符位置,即对特殊字符进行定位。例如,电子设备可以通过特殊字符的字符类型(如S或Z)在字符串中的位置,确定归一化的文本信息中的特殊字符在字符串中的分布规则。
进而,电子设备可以以字符位置为起点,确定在预设方向上与特殊字符相邻的关联字符,确定特殊字符和关联字符所形成的字符串。其中,预设方向可以是沿字符向前或向后的方向,从而确定特殊字符相邻的关联字符。
本发明实施例中,可以提取归一化文本信息中所有数字和字母以及前/后N个字符,来组成待统计分析的字符串。其中,N的取值可以根据该公司的具体业务特征来定。本发明实施例中,以N取6为例。
根据如上规则,则可将第①-⑥条文本信息处理为以下格式:
第①条信息:尾号S,S储蓄卡账户于,储蓄卡账户于S:S,S:S在,在Z,Z机取款,机取款S.S,S.S元。
第②条信息:单编号天天赢S,S期本期缴费金,本期缴费金额ZS.S,ZS.S元,最晚缴费为S月S日,S月S日,时存于尾号为S,S的银行卡中。
第③条信息:购买的订单号ZS,ZS已经从仓库运出,大概S,S天后到您的地址,东坝科技大厦Z,Z座,座S单元S,S单元S。
第④条信息:您购买的本月S,S日,日ZS,ZS次航班已经出。
第⑤条信息:截止S月S日S,S月S日S时,S****S,累计使用流量S.SZ,S.SZ。
第⑥条信息:Z://Z.Z.Z.Z,中油好客Z,Z站微信号,S月S日,S月S日钜惠启航。
通过上述处理,即可获得包括特殊字符的字符串,即至少一个语义段,如“S月S日”,“Z://Z.Z.Z.Z”,等等。
S13:根据至少一个语义段确定至少一个词典格式,至少一个词典格式用于表征特殊字符在相应语义段中的分布规则。
在S13中,电子设备可以统计至少一个语义段中出现频率大于等于预设频率的目标语义段。那么,确定至少一个词典格式时,可以是根据确定的至少一个语义段中具有相同格式的语义段的统计来实现的。
例如,电子设备可将S12中得到的同一个机构的字符串按照出现频率从高到低进行排序,获得表1所示的统计表格:
表1
进而,根据业务特征及目标语义段,确定至少一个有效字符,该至少一个有效字符串中每个有效字符串为目标语义段的组合或目标语义段中包括特殊字符的至少一部分字符串。
则电子设备可以根据至少一个有效字符串确定至少一个词典格式,该过程中,电子设备可以按照至少一个类型标识,确定特殊字符在至少一个有效字符串的每个有效字符串中的分布格式,按照分布格式生成至少一个词典格式。
根据上述表格,就可以获得该企业的通知信息需要处理的特殊字符串的词典格式,为了考虑和固定字符串的区别,按照如下方式处理:
(1)大写的英文字符表示特殊匹配格式
①S表示一段任意长度数字,例如1234,544
②Z表示一段任意长度字母,例如zs,GDd,GDs
(2)小写英文字母表示是固定匹配部分
根据上面原则,对于出现在频率统计表格中的大于一定固定次数(比如出现5000次)或者大于一定相对比例(比如出现次数/总信息条数>10%)的信息段进行分析,根据业务特征选取有意义的特殊字符组合串处理并截取有效部分,得到词典中的符合特殊规则的字符串。
例如,若为电商平台业务,则可将“购买的订单号ZS”处理为“订单号ZS”,以便后期可将该部分作为有效部分生成词典格式。
(3)对于选取的符合特殊规则的字符串,统计其S和Z字段原始字符串的分布,并根据情况对字典进行相应调整
例如,得到的特殊规则字段有ZS.S、S年,则从原始待分析信息中提取Z,S的原始字段,并统计其出现的频率;
①ZS.S
表2
由表2可知,第一位Z其实只有有限选择,主要是币种rmb,cny,usd,eur,因此字典中使用其原始的字符串更为合适,而两位S标识不特定数字,可以有很多选择,还是保留S更加合适。因此,若设置的第二预设频率为20,相应的Z可以为rmb,usd或cny,那么可将这些特定字段可以作为Z对应的固定字段,例如字典格式中ZS.S可以变成rmbS.S,cnyS.S或usdS.S,从而便于对文本中的小写标识进行完全匹配,提高精准度。
②S年
S(第一个S) | 比例 |
2015 | 25% |
2016 | 35% |
2017 | 40% |
表3
由表3可知,第一位S目前只有2015,2016和2017,从已经存在的有限信息来看,可以把S年确定为2015年,2016年,2017年更为精确。
因此上述文本信息定义的与特殊字符串相关的词典格式可以如下所示:
1)时间型变量:S:S(①),S月S日(②),本月S日(④)
2)金额型变量:S.S元(①),rmbS.S(②)
3)产品名称:每天赢S(②)
4)地址编号:东坝科技大厦Z座S单元S(③)
5)合同编号:dhS(③)
6)航班号:caS(④)
7)手机号码:S****S(⑤)
8)流量大小:S.Smb(⑤)
9)网页地址:http://www.Z.S.net(⑥)
综上所述,在本发明实施例中,电子设备通过获取来自至少一个数据源的多个文本信息,该多个文本信息中每个文本信息包括特殊字符,且该特殊字符包括数字和/或字母,进而通过提取多个文本信息中与特殊字符相关的至少一个语义段,该至少一个语义段中每个语义段包括特殊字符及与特殊字符相邻的关联字符,且关联字符的字符数量小于等于预设数量。进而,根据至少一个语义段确即可定至少一个词典格式,该至少一个词典格式可用于表征特殊字符在相应语义段中的分布规则,故通过对信息中包括特殊字符及关联字符的语义段的提取,进而实现根据语义段生成用于指示特殊字符的分布规则的字典格式,则后期根据该字典格式即可将符合特殊字符规则的字段切分出来,提高文本的切分效果,有助于辅助后期的语义分析。
如图2所示,基于同一发明构思,本发明实施例还提供一种电子设备,该电子设备包括获取模块21、提取模块22和操作模块23。
其中,获取模块21可以用于获取来自至少一个数据源的多个文本信息,所述多个文本信息中每个文本信息包括特殊字符,所述特殊字符包括数字和/或字母;
提取模块22可以用于提取所述多个文本信息中与所述特殊字符相关的至少一个语义段;其中,所述至少一个语义段中每个语义段包括所述特殊字符及与所述特殊字符相邻的关联字符,所述关联字符的字符数量小于等于预设数量;
操作模块23可以用于根据所述至少一个语义段确定至少一个词典格式,所述至少一个词典格式用于表征特殊字符在相应语义段中的分布规则。
可选的,所述提取模块22包括:
第一确定模块,用于根据所述特殊字符的字符类型,确定所述多个文本信息中所述特殊字符对应的至少一个类型标识;
第一处理模块,用于根据所述至少一个类型标识对所述多个文本信息进行归一化处理,获得归一化的文本信息;
第二确定模块,用于根据所述至少一个类型标识确定所述归一化的文本信息中包括所述特殊字符的字符串;
第二处理模块,用于提取所述字符串作为所述至少一个语义段。
可选的,所述第二确定模块用于:根据所述至少一个类型标识,确定所述特殊字符在所述归一化的文本信息中对应的字符位置,并以所述字符位置为起点,确定在预设方向上与所述特殊字符相邻的关联字符;
所述第二处理模块用于:根据所述字符位置及所述关联字符对应的字符位置,提取所述归一化的文本信息中的所述字符串,并将获得的所述字符串作为所述至少一个语义段。
可选的,所述操作模块23可以用于:
确定所述至少一个语义段中出现频率大于等于预设频率的目标语义段;
根据业务特征及所述目标语义段,确定至少一个有效字符串;其中,所述至少一个有效字符串中每个有效字符串为所述目标语义段的组合或所述目标语义段中包括特殊字符的至少一部分字符串;
根据所述至少一个有效字符串确定所述至少一个词典格式。
可选的,所述操作模块23可用于:
按照所述至少一个类型标识,确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式;
按照所述分布格式生成所述至少一个词典格式。
请参见图3,本发明实施例还提供一种电子设备,该电子设备包括处理器301,处理器301用于执行存储器中存储的计算机程序时实现本发明实施例提供的词典格式生成方法的步骤。
可选的,处理器301具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(英文:Field Programmable GateArray,简称:FPGA)开发的硬件电路,可以是基带处理器。
可选的,处理器301可以包括至少一个处理核心。
可选的,该词典建立设备还包括存储器302,存储器302可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)和磁盘存储器。存储器302用于存储处理器301运行时所需的数据。存储器302的数量为一个或多个。其中,存储器302在图3中一并示出。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种词典格式生成方法,其特征在于,包括:
获取来自至少一个数据源的多个文本信息,所述多个文本信息中每个文本信息包括特殊字符,所述特殊字符包括数字和/或字母;
提取所述多个文本信息中与所述特殊字符相关的至少一个语义段;其中,所述至少一个语义段中每个语义段包括所述特殊字符及与所述特殊字符相邻的关联字符,所述关联字符的字符数量小于等于预设数量;
根据所述至少一个语义段确定至少一个词典格式,所述至少一个词典格式用于表征特殊字符在相应语义段中的分布规则;
其中,提取所述多个文本信息中与所述特殊字符相关的至少一个语义段,包括:
根据所述特殊字符的字符类型,对所述多个文本信息进行归一化处理,获得归一化的文本信息;
确定所述归一化的文本信息中包括所述特殊字符的字符串;
提取所述字符串作为所述至少一个语义段;
所述确定所述归一化的文本信息中包括所述特殊字符的字符串,包括:
确定所述特殊字符在所述归一化的文本信息中对应的字符位置;
以所述字符位置为起点,确定在预设方向上与所述特殊字符相邻的关联字符;
确定所述特殊字符和所述关联字符形成的字符串。
2.如权利要求1所述的方法,其特征在于,提取所述字符串作为所述至少一个语义段,包括:
根据所述字符位置及所述关联字符对应的字符位置,提取所述归一化的文本信息中的所述字符串,并将获得的所述字符串作为所述至少一个语义段。
3.如权利要求2所述的方法,其特征在于,根据所述至少一个语义段确定至少一个词典格式,包括:
确定所述至少一个语义段中出现频率大于等于第一预设频率的目标语义段;
根据所述至少一个数据源的业务特征及所述目标语义段,确定至少一个有效字符串;其中,所述至少一个有效字符串中每个有效字符串为所述目标语义段的组合或所述目标语义段中包括特殊字符的至少一部分字符串;
根据所述至少一个有效字符串确定所述至少一个词典格式。
4.如权利要求3所述的方法,其特征在于,根据所述至少一个有效字符串确定所述至少一个词典格式,包括:
确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式;
按照所述分布格式生成所述至少一个词典格式。
5.如权利要求4所述的方法,其特征在于,在确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式的同时,所述方法还包括:
根据所述至少一个有效字符串,确定每个有效字符串中特殊字符在文本信息中对应的至少一个原始字段;
确定所述至少一个原始字段中出现的频率;
将出现次数大于等于第二预设频率的原始字段确定为与所述特殊字符对应的特定字段;
在按照所述分布格式生成所述至少一个词典格式的同时,还包括:
将所述特定字段确定为生成的至少一个词典格式中所述特殊字符的固定字符。
6.一种电子设备,其特征在于,包括:
获取模块,用于获取来自至少一个数据源的多个文本信息,所述多个文本信息中每个文本信息包括特殊字符,所述特殊字符包括数字和/或字母;
提取模块,用于提取所述多个文本信息中与所述特殊字符相关的至少一个语义段;其中,所述至少一个语义段中每个语义段包括所述特殊字符及与所述特殊字符相邻的关联字符,所述关联字符的字符数量小于等于预设数量;
操作模块,用于根据所述至少一个语义段确定至少一个词典格式,所述至少一个词典格式用于表征特殊字符在相应语义段中的分布规则;
其中,所述提取模块包括:
第一处理模块,用于根据所述特殊字符的字符类型,对所述多个文本信息进行归一化处理,获得归一化的文本信息;
第一确定模块,用于确定所述归一化的文本信息中包括所述特殊字符的字符串;
第二处理模块,用于提取所述字符串作为所述至少一个语义段;
所述第一确定模块用于:
确定所述特殊字符在所述归一化的文本信息中对应的字符位置,并以所述字符位置为起点,确定在预设方向上与所述特殊字符相邻的关联字符。
7.如权利要求6所述的电子设备,其特征在于,所述第二处理模块用于:根据所述字符位置及所述关联字符对应的字符位置,提取所述归一化的文本信息中的所述字符串,并将获得的所述字符串作为所述至少一个语义段。
8.如权利要求7所述的电子设备,其特征在于,所述操作模块用于:
确定所述至少一个语义段中出现频率大于等于第一预设频率的目标语义段;
根据所述至少一个数据源的业务特征及所述目标语义段,确定至少一个有效字符串;其中,所述至少一个有效字符串中每个有效字符串为所述目标语义段的组合或所述目标语义段中包括特殊字符的至少一部分字符串;
根据所述至少一个有效字符串确定所述至少一个词典格式。
9.如权利要求8所述的电子设备,其特征在于,所述操作模块用于:
按照所述至少一个类型标识,确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式;
按照所述分布格式生成所述至少一个词典格式。
10.如权利要求9所述的电子设备,其特征在于,所述操作模块还包括:
第二确定模块,用于在确定所述特殊字符在所述至少一个有效字符串的每个有效字符串中的分布格式的同时,根据所述至少一个有效字符串,确定每个有效字符串中特殊字符在文本信息中对应的至少一个原始字段,及确定所述至少一个原始字段中出现的频率;
第三确定模块,用于将出现次数大于等于第二预设频率的原始字段确定为与所述特殊字符对应的特定字段;
第四确定模块,用于在按照所述分布格式生成所述至少一个词典格式的同时,将所述特定字段确定为生成的至少一个词典格式中所述特殊字符的固定字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710676588.6A CN107633006B (zh) | 2017-08-09 | 2017-08-09 | 一种词典格式生成方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710676588.6A CN107633006B (zh) | 2017-08-09 | 2017-08-09 | 一种词典格式生成方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107633006A CN107633006A (zh) | 2018-01-26 |
CN107633006B true CN107633006B (zh) | 2020-10-13 |
Family
ID=61099544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710676588.6A Active CN107633006B (zh) | 2017-08-09 | 2017-08-09 | 一种词典格式生成方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633006B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932612B (zh) * | 2018-08-17 | 2022-07-12 | 中国建设银行股份有限公司 | 一种应用于企业年金的数据处理方法、装置及电子设备 |
CN110532112B (zh) * | 2019-08-29 | 2022-10-04 | 维沃移动通信有限公司 | 一种对象提取方法及移动终端 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641633A (zh) * | 2005-01-07 | 2005-07-20 | 清华大学 | 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 |
CN101196881A (zh) * | 2006-12-08 | 2008-06-11 | 富士通株式会社 | 文本中数字和特殊符号串的文字符号化处理方法及系统 |
CN105550170A (zh) * | 2015-12-14 | 2016-05-04 | 北京锐安科技有限公司 | 一种中文分词方法及装置 |
JP2016177369A (ja) * | 2015-03-18 | 2016-10-06 | 株式会社東芝 | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 |
CN106126496A (zh) * | 2016-06-17 | 2016-11-16 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN106503045A (zh) * | 2016-09-21 | 2017-03-15 | 联动优势科技有限公司 | 一种更新模板库的方法及装置 |
CN106970919A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词组发现的方法及装置 |
-
2017
- 2017-08-09 CN CN201710676588.6A patent/CN107633006B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641633A (zh) * | 2005-01-07 | 2005-07-20 | 清华大学 | 基于成熟工艺文档的工艺术语提取、规律分析和重用方法 |
CN101196881A (zh) * | 2006-12-08 | 2008-06-11 | 富士通株式会社 | 文本中数字和特殊符号串的文字符号化处理方法及系统 |
JP2016177369A (ja) * | 2015-03-18 | 2016-10-06 | 株式会社東芝 | 辞書更新装置、辞書更新方法、辞書更新プログラムおよび形態素解析装置 |
CN105550170A (zh) * | 2015-12-14 | 2016-05-04 | 北京锐安科技有限公司 | 一种中文分词方法及装置 |
CN106970919A (zh) * | 2016-01-14 | 2017-07-21 | 北京国双科技有限公司 | 新词组发现的方法及装置 |
CN106126496A (zh) * | 2016-06-17 | 2016-11-16 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN106503045A (zh) * | 2016-09-21 | 2017-03-15 | 联动优势科技有限公司 | 一种更新模板库的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107633006A (zh) | 2018-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN106557971A (zh) | 基于语音识别技术的财务数据处理方法、系统及终端 | |
CN111275037B (zh) | 票据识别方法及装置 | |
Ghosh | Adoption of digital payment system by consumer: a review of literature | |
CN104572775B (zh) | 广告分类方法、装置及服务器 | |
CN111127009B (zh) | 一种应用于自助设备的错账定位方法和装置 | |
CN112668323B (zh) | 基于自然语言处理的文本要素提取方法及其文本审查系统 | |
CN102567534B (zh) | 互动产品用户生成内容拦截系统及其拦截方法 | |
CN109255703A (zh) | 交易数据处理方法及装置 | |
CN107633006B (zh) | 一种词典格式生成方法及电子设备 | |
CN113205402A (zh) | 对账方法、装置、电子设备及计算机可读介质 | |
CN106446149B (zh) | 一种通知信息的过滤方法及装置 | |
CN109145050B (zh) | 一种计算设备 | |
CN102387512B (zh) | 基于向量空间模型的重入网分析方法 | |
CN106126496B (zh) | 一种信息分词方法及装置 | |
CN115204998A (zh) | 一种基于搜索及数据分析引擎库的对账方法和对账系统 | |
CN113989859B (zh) | 一种防刷机设备指纹相似度识别方法和装置 | |
CN107038185A (zh) | 一种交易信息处理的方法及装置 | |
CN114092948A (zh) | 一种票据识别方法、装置、设备以及存储介质 | |
CN109766552A (zh) | 一种基于公告信息的指代消解方法及装置 | |
CN106776542B (zh) | 用户反馈信息的关键词处理方法、装置及服务器 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN110991169B (zh) | 一种风险内容变种的识别方法、装置及电子设备 | |
CN107993141A (zh) | 数据处理方法和装置、服务器 | |
CN112732754A (zh) | 一种信息匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |