CN106598945A - 模板检验方法及装置 - Google Patents
模板检验方法及装置 Download PDFInfo
- Publication number
- CN106598945A CN106598945A CN201611100661.7A CN201611100661A CN106598945A CN 106598945 A CN106598945 A CN 106598945A CN 201611100661 A CN201611100661 A CN 201611100661A CN 106598945 A CN106598945 A CN 106598945A
- Authority
- CN
- China
- Prior art keywords
- key message
- participle
- template
- message item
- communication information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
Abstract
本公开揭示了一种模板检验方法及装置,属于信息提取领域。所述模板方法包括:获取提取模板对应的关键信息项集合,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;获取属于预定分类的通信消息的有效分词集合,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。本实施例不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
Description
技术领域
本公开涉及信息提取领域,特别涉及一种模板检验方法及装置。
背景技术
短信卡片是一种将普通短信转化为电子卡片进行显示的增强型显示技术。
短信卡片的实现原理是:在接收到通知短信时,利用提取模板对该通知短信内的关键信息项进行提取,然后将提取到的各个关键信息项填充至预设卡片样式中,将该通知短信以电子卡片显示给用户。比如,在收到一条有关火车票的订票短信时,将该订票短信中的时间、车次、出发站、目的站、车厢号、座位号等信息项进行提取,并将时间、车次、出发站、目的站、车厢号、座位号等关键信息项填充至一张与实体火车票类似的电子卡片中进行显示。
短信卡片的显示效果依赖于提取模板的提取准确性,若提取模板对关键信息项的提取存在遗漏,比如没有提取到座位号,就会导致用户无法获知一部分信息。相关技术中,需要用户向开发人员反馈短信卡片的提取错误后,由开发人员对提取模板进行修改,使得提取模板的提取变得更准确。
发明内容
为了解决提取模板在短信中提取关键信息项时,可能会存在遗漏的问题,本公开提供一种模板检验方法及装置。所述技术方案如下:
根据本公开的第一方面,提供了一种模板检验方法,该方法包括:
获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。
可选地,获取属于预定分类的通信消息的有效分词集合,包括:
获取属于预定分类的至少一条通信消息;
将通信消息进行分词,得到全量分词集合;
使用提取模板对通信消息进行提取,得到提取词语集合;
将全量分词集合与提取词语集合相减,得到差集;
将差集中的分词进行过滤,得到有效分词集合。
可选地,将差集中的分词进行过滤,得到有效分词集合,包括:
将差集中符合预设词性的词语进行滤除,得到有效滤除集合;
和/或,
将差集中符合预设过滤词的词语进行滤除,得到有效分词集合;
其中,预设词性是无效分词对应的词性,预设过滤词是预先为预定分类所设置的过滤词。
可选地,检测有效分词在关键信息项集合中是否存在匹配的关键信息项,包括:
检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;
和/或,
检测关键信息项集合中是否存在第二关键信息项,第二关键信息项与有效分词的字符串不同但语义相同。
可选地,检测有效分词在关键信息项集合中是否存在匹配的关键信息项之后,包括:
若全部的有效分词均存在匹配的关键信息项,则确定提取模板符合预设要求。
根据本公开的第二方面,提供了一种模板检验装置,该装置包括:
第一获取模块,被配置为获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
第二获取模块,被配置为获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
检测模块,被配置为检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
确定模块,被配置为当不存在匹配的关键信息项时,确定提取模板存在遗漏的关键信息项。
可选地,第二获取模块,包括:获取子模块、分词子模块、提取子模块、差集子模块和过滤子模块;
获取子模块,被配置为获取属于预定分类的通信消息库,通信消息库包括至少一条通信消息;
分词子模块,被配置为将通信消息库中的通信消息进行分词,得到全量分词集合;
提取子模块,被配置为使用提取模板对通信消息进行提取,得到提取词语集合;
差集子模块,被配置为将全量分词集合与提取词语集合相减,得到差集;
过滤子模块,被配置为将差集中的分词进行过滤,得到有效分词集合。
可选地,过滤子模块,被配置为将差集中符合预设词性的词语进行滤除,得到有效滤除集合;
和/或,
过滤子模块,被配置为将差集中符合预设过滤词的词语进行滤除,得到有效分词集合;
其中,预设词性是无效分词对应的词性,预设过滤词是预先为预定分类所设置的过滤词。
可选地,检测模块,被配置为检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;和/或,检测模块,被配置为检测关键信息项集合中是否存在第二关键信息项,第二关键信息项与有效分词的字符串不同但语义相同。
可选地,确定模块,还被配置为当全部的有效分词均存在匹配的关键信息项时,确定提取模板的提取准确率符合预设要求。
根据本公开的第三方面,提供了一种模板检验装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项并以电子卡片进行显示的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过对原始的通信消息进行分词后得到有效分词,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项;不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是相关技术提供的一种短信卡片的原理示意图;
图2是一个示例性实施例提供的模板检验方法的流程图;
图3是另一个示例性实施例提供的模板检验方法的流程图;
图4是一个示例性实施例提供的模板检验装置的框图;
图5是另一个示例性提供的模板检验装置的框图;
图6是一个示例性实施例提供的模板检验装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本公开实施例涉及的若干个名词进行简介:
通信消息:是指短信息(Short Message Service,SMS)或者即时通信消息,通信消息通常是文本消息。
卡片式消息:以电子卡片形式显示的通信消息。可选地,通知类的通信消息适用于以电子卡片形式进行显示。示意性的参考图1,当终端接收到一条有关机票订购的短信息“你好,您在×××旅行社预定的11月30日CA14*7,11月30日CA14*7在上午8:30从哈尔滨的太平国际机场起飞,在下午15:30到达北京的北京国际机场。约翰的票号为3887341***444,请您提前2小时到机场。”后,终端将该短信息以普通形式12显示的方式如图1中左侧所示,将该短信息以电子卡片形式14显示的方式如图1中右侧所示。
提取模板:用于从通信消息中提取关键信息项的模板。可选地,提取模板采用正则表达式构建。
关键信息项:是从通信消息中提取并用于在电子卡片中显示的信息项。关键信息项是通信消息中携带的有效信息所对应的信息项,又称有效信息或知识点等。每条通知类的通信消息携带有至少一个关键信息项。以通信消息是图1中有关机票订购的短信息,则关键信息项包括:日期、航班号、起飞时间、降落时间、起飞地点、降落地点、起飞机场、落地机场、乘机人和票号。
分词:将一个汉字序列切分成一个一个单独的词。
有效分词:是指在分词结果中,除已经被提取模板提取的词语之外,其它携带有有效信息的词语。以通信消息是图1中有关机票订购的短信息,“你好”、“您”、“在”等是无效分词,“11月30日”、“CA14*7”、“哈尔滨”等是无效分词,“xxx旅行社”、“2小时”是有效分词。
图2是本公开一个示例性实施例提供的模板检验方法的流程图。本实施例以该模板检验方法应用于具有计算能力的服务器中举例说明。该模板检验方法包括如下步骤。
在步骤201中,获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
可选地,提取模板是采用正则表达式构建的模板。提取模板为多个,不同的提取模板使用模板标识(identification,ID)。每个提取模板对应一组通信消息的分类。
可选地,关键信息项是从通信消息中提取出的并用于在电子卡片中显示的信息项。每个提取模板用于从通信消息中提取出至少一个关键信息项。
比如,提取模板是机票订购类的提取模板,与该提取模板对应的关键信息项包括:日期、航班号、起飞时间、降落时间、起飞地点、降落地点、起飞机场、落地机场、乘机人和票号。
在步骤202中,获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
对通信消息进行分词,是指将通信消息中的文字序列切分成一个个单独的词语。
有效分词:是指在通信消息的分词结果中,除已经被提取模板提取的词语之外,其它携带有有效信息的词语。
在步骤203中,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
在步骤204,若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。
若有效分词不存在匹配的关键信息项,则提取模板未能在通信消息中提取到有效分词,表明提取模板存在遗漏的关键信息项。
综上所述,本实施例提供的模板检验方法,通过对原始的通信消息进行分词后得到有效分词,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项;不需要用户主动上报,仅需要服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
图3是本公开另一示例性实施例示出的一种模板检验方法的流程图。本实施例以该模板检验方法应用于具有计算能力的服务器中举例说明。该模板检验方法包括如下步骤。
步骤301,获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
可选地,提取模板是采用正则表达式构建的模板。提取模板为多个,不同的提取模板使用模板标识(identification,ID)。模板标识使用发信方的号码来表示,或者,模板标识使用“发信方的号码+关键字”来表示。
每个提取模板对应一组通信消息的分类。可选地,通信消息按照通知类型进行第一分类,示意性的第一分类类型包括:火车票、机票、电影票、银行卡、快递、手机充值、套餐余额查询、验证码等。每种第一分类类型还可根据“发信方的号码”或“发信方的号码+关键字”进行第二分类。本实施例对通信消息的分类方式不加以限定。
可选地,关键信息项是从通信消息中提取出的并用于在电子卡片中显示的信息项。每个提取模板用于从通信消息中提取出至少一个关键信息项。表一示意性地示出了模板标识、提取模板、通信消息分类和关键信息项的对应关系。
表一
步骤302,获取属于预定分类的至少一条通信消息,预定分类是与提取模板对应的通信消息分类;
当对提取模板1进行检验时,预定分类是火车票,则获取属于“火车票”分类的通信消息;当对提取模板2进行检验时,预定分类是机票,则获取属于“机票”分类的通信消息;当对提取模板3进行检验时,预定分类是电影票,则获取属于“电影票”分类的通信消息;当对提取模板4进行检验时,预定分类是手机充值,则获取属于“手机充值”分类的通信消息。
通常,每种通信消息分类包括很多条通信消息,属于同一通信消息分类的通信消息通常使用同一种提取模板。
比如,属于“火车票”分类的一条短信息包括:“用户A,您好,您于2016年10月31日成功订购一张火车票,订单号码EA70713035,出发日期2016年11月03日18:00,北京-上海,G99XX次列车,03车01C号,二等座,票价499.50元,请您在开车10分钟之前凭有效身份证件检票进站,以免耽误乘车”。
步骤303,将通信消息进行分词,得到全量分词集合;
对通信消息进行分词,是指将通信消息中的文字序列切分成一个个单独的词语。本实施例对服务器采用的分词技术不加以限定,服务器采用基于文字匹配的分词技术、基于统计的分词技术、基于语义的分词技术或者基于机器学习的分词技术等。
可选地,将属于预定分类的各条通信消息进行分词后,将分词结果归入与该预定分类对应的全量分词集合中。下面采用一条通信消息来举例说明。
比如,将短信息“用户A,您好,您于2016年10月31日成功订购一张火车票,订单号码EA70713035,出发日期2016年11月03日18:00,北京-上海,G99XX次列车,03车01C号,二等座,票价499.50元,请您在开车10分钟之前凭有效身份证件检票进站,以免耽误乘车”进行分词,得到的全量分词集合包括:用户A、您好、您、于、2016年10月31日、成功、订购、一张、火车票、订单号码、EA70713035、出发日期、2016年11月03日、18:00、北京、上海、G99XX、次、列车,03、车、01C、号、二等座、票价、499.50、元、请、您、在、开车、10分钟、之前、凭、有效身份证件、检票、进站、以免、耽误、乘车。
步骤304,使用提取模板对通信消息进行提取,得到提取词语集合;
对属于预定分类的各条通信消息,还使用提取模板进行关键信息项的提取,得到提取词语集合。提取词语集合包括提取模板已经能够提取到的各个词语。
比如,将短信息“用户A,您好,您于2016年10月31日成功订购一张火车票,订单号码EA70713035,出发日期2016年11月03日18:00,北京-上海,G99XX次列车,03车01C号,二等座,票价499.50元,请您在开车10分钟之前凭有效身份证件检票进站,以免耽误乘车”采用提取模板进行提取,得到的提取词语集合包括:用户A、2016年10月31日、2016年11月03日、18:00、北京、上海、G99XX、次、03、车、01C、号、二等座。
步骤305,将全量分词集合与提取词语集合相减,得到差集;
服务器将全量分词集合“用户A、您好、您、于、2016年10月31日、成功、订购、一张、火车票、订单号码、EA70713035、出发日期、2016年11月03日、18:00、开、北京、上海、G99XX、次、列车,03、车、01C、号、二等座、票价、49.50、元、请、您、在、开车、10分钟、之前、凭、有效身份证件、检票、进站、以免、耽误、乘车”与提取词语集合“用户A、2016年10月31日、2016年11月03日、18:00、北京、上海、G99XX、次、03、车、01C、号、二等座、票价499.5”相减。
相减后,得到差集包括:成功、订购、一张、火车票、订单号码、EA70713035,出发日期、请、您、在、开车、10分钟、之前、凭、有效身份证件、检票、进站、以免、耽误、乘车。
步骤306,将差集中的分词进行过滤,得到有效分词集合。
服务器还将差集中的无效分词进行过滤。无效分词是未携带有有效信息的词语。过滤方式包括但不限于如下两种方式:
第一,服务器将差集中符合预设词性的词语进行滤除,预设词性是无效分词对应的词性。
一般情况下,介词、代词、连词、助词、动词、量词、形容词、标点符号等词性的词语不会携带有有效信息。比如上述的“您好、您、成功、订购、一张、请、在、开车、之前、凭、检票、进站、以免、耽误、乘车”等词不会携带有效的关键信息。
开发人员预先设定预设词性,可选地,预设词性包括:介词、代词、连词、助词、量词、形容词、标点符号中的至少一种。
比如,将差集中符合预设词性的词语进行滤除后,得到有效分词集合:火车票、订单号码、EA70713035,出发日期、10分钟。
第二,服务器将差集中符合预设过滤词的词语进行滤除,预设词性是无效分词对应的词性。
可选地,开发人员还会针对每个预定分类设置过滤词集合,将有效分词集合中符合过滤词集合的词语进行滤除,得到更精确的有效分词集合。
比如,开发人员预先设定有过滤词集合:火车票、10分钟。服务器将有效分词集合中的“火车票”、“10分钟”进行滤除,得到更精确的有效分词集合“订单号码、EA70713035、出发日期”。
上述两种过滤方式可以结合实施或者单独实施,本实施例以上述两种过滤方式结合实施来举例说明。
步骤307,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
对于有效分词集合中的每个有效分词,服务器检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;和/或,检测关键信息项集合中是否存在第二关键信息项,第二关键信息项与有效分词的字符串不同但语义相同。
若不存在匹配的关键信息项,则进入步骤308;若全部有效分词均存在匹配的关键信息项,则进入步骤309。
比如,服务器检测有效分词“订单号码”在关键信息项集合中是否存在匹配的关键信息项,检测结果为不存在匹配的关键信息项;
又比如,服务器还检测有效分词“EA70713035”在关键信息项集合中是否存在匹配的关键信息项,检测结果为不存在匹配的关键信息项;
再比如,服务器还检测有效分词“出发日期”在关键信息项集合中是否存在匹配的关键信息项,检测结果为存在匹配的关键信息项“出发日期”。
步骤308,若不存在匹配的所述关键信息项,则确定提取模板存在遗漏的关键信息项;
比如,有效分词“订单号码”和“EA70713035”不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项,也即提取模板未能提取关键信息项“订单号码”。
步骤309,若全部分词均不存在匹配的关键信息项,则确定提取模板符合预设要求。
需要说明的是,步骤301是与步骤302至步骤306并列的步骤,步骤301可以在步骤302至步骤306之前执行,也可以与步骤302至步骤306同时执行,还可以在步骤302至步骤306之后执行。
还需要说明的一点是,由于发信方可能会不定时调整通知类消息的格式,所以上述方法可以每隔预定时间间隔执行一次,从而在用户发现错误之前,开发人员就能够及时地发现提取模板的提取错误,进而对提取模板进行及时调整。
综上所述,本实施例提供的模板检验方法,通过对原始的通信消息进行分词后得到有效分词,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项;不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
本实施例提供的模板检验方法,还通过将通信消息分词得到的全量分词集合与提取词语集合进行相减,得到差集;再将差集进行过滤后得到有效分词;一方面,不需要对提取模板已经能够提取出的词语进行分词,另一方面,通过过滤掉明显的无效分词,准确地提取出有效分词,以便于减少后续步骤中的检验计算量。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是根据一示例性实施例示出的一种模板检验装置的框图,如图4所示,该模板检验装置可以通过硬件、软件或两者的结合实现成为服务器的全部或一部分。该模板检验装置包括但不限于:第一获取模块410、第二获取模块420、检测模块430和确定模块440。
第一获取模块410,被配置为获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;
第二获取模块420,被配置为获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;
检测模块430,被配置为检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;
确定模块440,被配置为当不存在匹配的所述关键信息项时,确定所述提取模板存在遗漏的关键信息项。
综上所述,本实施例提供的模板检验装置,通过对原始的通信消息进行分词后得到有效分词,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项;不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
图5是根据一示例性实施例示出的一种模板检验装置的框图,如图4所示,该模板检验装置可以通过硬件、软件或两者的结合实现成为服务器的全部或一部分。该模板检验装置包括但不限于:第一获取模块410、第二获取模块420、检测模块430和确定模块440。
第一获取模块410,被配置为获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
第二获取模块420,被配置为获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
检测模块430,被配置为检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
确定模块440,被配置为当不存在匹配的关键信息项时,确定提取模板存在遗漏的关键信息项。
可选地,第二获取模块420,包括:获取子模块421、分词子模块422、提取子模块423、差集子模块424和过滤子模块425;
获取子模块421,被配置为获取属于预定分类的通信消息库,通信消息库包括至少一条通信消息;
分词子模块422,被配置为将通信消息库中的通信消息进行分词,得到全量分词集合;
提取子模块423,被配置为使用提取模板对通信消息进行提取,得到提取词语集合;
差集子模块424,被配置为将全量分词集合与提取词语集合相减,得到差集;
过滤子模块425,被配置为将差集中的分词进行过滤,得到有效分词集合。
可选地,过滤子模块425,被配置为将差集中符合预设词性的词语进行滤除,得到有效滤除集合;和/或,过滤子模块425,被配置为将差集中符合预设过滤词的词语进行滤除,得到有效分词集合;其中,预设词性是无效分词对应的词性,预设过滤词是预先为预定分类所设置的过滤词。
可选地,检测模块430,被配置为检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;和/或,检测模块,被配置为检测关键信息项集合中是否存在第二关键信息项,第二关键信息项与有效分词的字符串不同但语义相同。
可选地,确定模块440,还被配置为当全部的有效分词均存在匹配的关键信息项时,确定提取模板的提取准确率符合预设要求。
综上所述,本实施例提供的模板检验装置,通过对原始的通信消息进行分词后得到有效分词,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项;不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。
本实施例提供的模板检验装置,还通过将通信消息分词得到的全量分词集合与提取词语集合进行相减,得到差集;再将差集进行过滤后得到有效分词;一方面,不需要对提取模板已经能够提取出的词语进行分词,另一方面,通过过滤掉明显的无效分词,准确地提取出有效分词,以便于减少后续步骤中的检验计算量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种模板检验装置,能够实现本公开上述各个方法实施例中提供的模板检验方法,该模板检验装置包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项并以电子卡片进行显示的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;
获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;
检测有效分词在关键信息项集合中是否存在匹配的关键信息项;
若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。
图6是根据另一示例性实施例示出的一种用于获取体重信息的装置的框图。例如,装置600可以被提供为一网络侧设备。参照图6,装置600包括处理组件602,其进一步包括一个或多个处理器,以及由存储器604所代表的存储器资源,用于存储可由处理组件602的执行的指令,例如应用程序。存储器604中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件602被配置为执行指令,以执行上述模板检验方法。
装置600还可以包括一个电源组件606被配置为执行装置600的电源管理,一个有线或无线网络接口608被配置为将装置600连接到网络,和一个输入输出(I/O)接口610。装置600可以操作基于存储在存储器604的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种模板检验方法,其特征在于,所述方法包括:
获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;
获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;
检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;
若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。
2.根据权利要求1所述的方法,其特征在于,所述获取属于预定分类的通信消息的有效分词集合,包括:
获取属于所述预定分类的至少一条通信消息;
将所述通信消息进行分词,得到全量分词集合;
使用所述提取模板对所述通信消息进行提取,得到提取词语集合;
将所述全量分词集合与所述提取词语集合相减,得到差集;
将所述差集中的分词进行过滤,得到所述有效分词集合。
3.根据权利要求2所述的方法,其特征在于,所述将所述差集中的分词进行过滤,得到所述有效分词集合,包括:
将所述差集中符合预设词性的词语进行滤除,得到所述有效滤除集合;
和/或,
将所述差集中符合预设过滤词的词语进行滤除,得到所述有效分词集合;
其中,所述预设词性是无效分词对应的词性,所述预设过滤词是预先为所述预定分类所设置的过滤词。
4.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述有效分词在所述关键信息项集合中是否存在匹配的所述关键信息项,包括:
检测所述关键信息项集合中是否存在第一关键信息项,所述第一关键信息项与所述有效分词的字符串相同;
和/或,
检测所述关键信息项集合中是否存在第二关键信息项,所述第二关键信息项与所述有效分词的字符串不同但语义相同。
5.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述有效分词在所述关键信息项集合中是否存在匹配的所述关键信息项之后,包括:
若全部的所述有效分词均存在匹配的所述关键信息项,则确定所述提取模板符合预设要求。
6.一种模板检验装置,其特征在于,所述装置包括:
第一获取模块,被配置为获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;
第二获取模块,被配置为获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;
检测模块,被配置为检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;
确定模块,被配置为当不存在匹配的所述关键信息项时,确定所述提取模板存在遗漏的关键信息项。
7.根据权利要求6所述的装置,其特征在于,所述第二获取模块,包括:获取子模块、分词子模块、提取子模块、差集子模块和过滤子模块;
所述获取子模块,被配置为获取属于所述预定分类的通信消息库,所述通信消息库包括至少一条通信消息;
所述分词子模块,被配置为将所述通信消息库中的所述通信消息进行分词,得到全量分词集合;
所述提取子模块,被配置为使用所述提取模板对所述通信消息进行提取,得到提取词语集合;
所述差集子模块,被配置为将所述全量分词集合与所述提取词语集合相减,得到差集;
所述过滤子模块,被配置为将所述差集中的分词进行过滤,得到所述有效分词集合。
8.根据权利要求7所述的装置,其特征在于,
所述过滤子模块,被配置为将所述差集中符合预设词性的词语进行滤除,得到所述有效滤除集合;
和/或,
所述过滤子模块,被配置为将所述差集中符合预设过滤词的词语进行滤除,得到所述有效分词集合;
其中,所述预设词性是无效分词对应的词性,所述预设过滤词是预先为所述预定分类所设置的过滤词。
9.根据权利要求6至8任一所述的装置,其特征在于,
所述检测模块,被配置为检测所述关键信息项集合中是否存在第一关键信息项,所述第一关键信息项与所述有效分词的字符串相同;
和/或,
所述检测模块,被配置为检测所述关键信息项集合中是否存在第二关键信息项,所述第二关键信息项与所述有效分词的字符串不同但语义相同。
10.根据权利要求6至8任一所述的装置,其特征在于,
所述确定模块,还被配置为当全部的所述有效分词均存在匹配的所述关键信息项时,确定所述提取模板的提取准确率符合预设要求。
11.一种模板检验装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;
获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;
检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;
若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611100661.7A CN106598945B (zh) | 2016-12-02 | 2016-12-02 | 模板检验方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611100661.7A CN106598945B (zh) | 2016-12-02 | 2016-12-02 | 模板检验方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106598945A true CN106598945A (zh) | 2017-04-26 |
CN106598945B CN106598945B (zh) | 2019-08-06 |
Family
ID=58595662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611100661.7A Active CN106598945B (zh) | 2016-12-02 | 2016-12-02 | 模板检验方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106598945B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
CN111970406A (zh) * | 2020-10-22 | 2020-11-20 | 北京泰迪熊移动科技有限公司 | 一种短信显示方法和装置 |
CN112149384A (zh) * | 2020-11-25 | 2020-12-29 | 北京泰迪熊移动科技有限公司 | 一种短信显示方法、装置以及计算机可读存储介质 |
CN113094523A (zh) * | 2021-03-19 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 资源信息的获取方法、装置、电子设备和存储介质 |
CN113392628A (zh) * | 2020-03-12 | 2021-09-14 | 北京国双科技有限公司 | 一种文本解析结果的核查方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243897A1 (en) * | 2007-03-28 | 2008-10-02 | John Edward Petri | Autonomic updating of templates in a content management system |
CN105068976A (zh) * | 2015-07-31 | 2015-11-18 | 小米科技有限责任公司 | 票务信息展示方法及装置 |
CN105677632A (zh) * | 2014-11-19 | 2016-06-15 | 富士通株式会社 | 提取用于抽取实体的模板的方法和设备 |
CN106156196A (zh) * | 2015-04-22 | 2016-11-23 | 富士通株式会社 | 提取文本特征的装置和方法 |
-
2016
- 2016-12-02 CN CN201611100661.7A patent/CN106598945B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243897A1 (en) * | 2007-03-28 | 2008-10-02 | John Edward Petri | Autonomic updating of templates in a content management system |
CN105677632A (zh) * | 2014-11-19 | 2016-06-15 | 富士通株式会社 | 提取用于抽取实体的模板的方法和设备 |
CN106156196A (zh) * | 2015-04-22 | 2016-11-23 | 富士通株式会社 | 提取文本特征的装置和方法 |
CN105068976A (zh) * | 2015-07-31 | 2015-11-18 | 小米科技有限责任公司 | 票务信息展示方法及装置 |
Non-Patent Citations (2)
Title |
---|
M MASLENNIKOV 等: "Combining relations for information extraction from free text", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS》 * |
叶娜 等: "基于相似计算的信息抽取模板自动获取方法", 《第二届全国学生计算语言学研讨会论文集》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
CN113392628A (zh) * | 2020-03-12 | 2021-09-14 | 北京国双科技有限公司 | 一种文本解析结果的核查方法及装置 |
CN111970406A (zh) * | 2020-10-22 | 2020-11-20 | 北京泰迪熊移动科技有限公司 | 一种短信显示方法和装置 |
CN111970406B (zh) * | 2020-10-22 | 2021-07-09 | 北京泰迪熊移动科技有限公司 | 一种短信显示方法和装置 |
CN112149384A (zh) * | 2020-11-25 | 2020-12-29 | 北京泰迪熊移动科技有限公司 | 一种短信显示方法、装置以及计算机可读存储介质 |
CN113094523A (zh) * | 2021-03-19 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 资源信息的获取方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106598945B (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106598945A (zh) | 模板检验方法及装置 | |
CN106384273B (zh) | 恶意刷单检测系统及方法 | |
CN108170813A (zh) | 一种全媒体内容智能审核的方法及其系统 | |
CN105975980A (zh) | 监控图像标注质量的方法和装置 | |
CN105956180B (zh) | 一种敏感词过滤方法 | |
CN106557747B (zh) | 识别保险单号码的方法及装置 | |
CN108491388B (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN112861648B (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN104504335B (zh) | 基于页面特征和url特征的钓鱼app检测方法及系统 | |
US10216838B1 (en) | Generating and applying data extraction templates | |
CN103064764A (zh) | 一种快速恢复安卓手机删除信息的取证方法 | |
CN102737242A (zh) | 应用于移动终端的票据自动识别方法和系统 | |
CN109688137A (zh) | 一种sql注入攻击的检测方法、系统及相关组件 | |
CN107645709A (zh) | 一种确定人员信息的方法及装置 | |
CN107358561A (zh) | 一种基于个人信用评分的证书自助办理方法及装置 | |
CN102867231A (zh) | 具有人像、指纹比对功能的居民身份证制证系统及方法 | |
CN105512920A (zh) | 网络购票处理方法和服务器 | |
CN107590490A (zh) | 发票的全票面信息获取方法、装置及计算机可读存储介质 | |
CN114693906A (zh) | 基于时空规则的差旅报销异常行为检测方法和系统 | |
CN113596844A (zh) | 一种基于数据信息的预警方法、装置、介质及电子设备 | |
CN110110325A (zh) | 一种重复案件查找方法和装置、计算机可读存储介质 | |
CN110389941A (zh) | 数据库校验方法、装置、设备及存储介质 | |
CN110929110B (zh) | 一种电子文档检测方法、装置、设备及存储介质 | |
CN105930313A (zh) | 处理通知信息的方法和装置 | |
CN112487982A (zh) | 商户信息的审核方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |