CN105528403A - 目标数据识别方法及装置 - Google Patents
目标数据识别方法及装置 Download PDFInfo
- Publication number
- CN105528403A CN105528403A CN201510874200.4A CN201510874200A CN105528403A CN 105528403 A CN105528403 A CN 105528403A CN 201510874200 A CN201510874200 A CN 201510874200A CN 105528403 A CN105528403 A CN 105528403A
- Authority
- CN
- China
- Prior art keywords
- information
- sample
- target
- template
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Abstract
本公开是关于目标数据识别方法及装置,所述方法包括:调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。由于可以自动生成目标信息模板,提高了标注数据标识的效率。
Description
技术领域
本公开涉及数据识别技术领域,尤其涉及目标数据识别方法及装置。
背景技术
随着信息技术的发展,数字化的信息正以惊人的速度增长,用户需要花费大量的时间和精力去阅读和查找信息。为了提高效率,往往需要进行信息自动识别。在很多信息识别任务中,需要进行目标数据识别,才能进行相应的处理。其中,目标数据识别可以包括确定目标数据的数值和所属类别。例如,在流量识别任务中,需要识别出数值及其类别,类别可以有总流量、使用流量、剩余流量、超出流量等,确定这些数据后才能确定是否进行流量不足提醒。
相关技术中,人工对样本信息中的样本数据标注样本数据标识,从而获得样本信息模板,根据样本信息模板对目标信息中的数据进行识别。其中,样本数据标识是标识样本数据类别的标识。例如,样本信息“闲时流量合计500MB,已使用200MB,剩余300MB”,人工标注获得样本信息模板:“闲时流量合计<LEISURE_TOTAL>,已使用<LEISURE_USED>,剩余<LEISURE_REMAINED>”。但由于信息多样化,人工需要标注的模板比较多,耗费大量的人力资源,标注效率低。
发明内容
本公开提供了目标数据识别方法及装置,以解决相关技术中的标注效率较低的问题。
根据本公开实施例的第一方面,提供一种目标数据识别方法,所述方法包括:
调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;
根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;
根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
可选的,所述调用预设的信息训练模型之前,还包括:
获取标注有样本数据标识的样本信息模板;
根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量;
采用序列标注算法对所述样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型。
可选的,所述根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量,包括:
对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词;
计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值;
从每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,组成特征词集合;
从样本信息模板中获取样本数据标识的上下文信息;
根据所述特征词集合中各特征词与所述样本数据标识的上下文信息的匹配关系,生成所述样本数据标识对应的特征向量,所述特征向量的维数与特征词集合中特征词个数相同。
可选的,采用以下公式计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值:
其中,Nij=Aij+Bij+Cij+Dij,Kij表示所有样本信息模板中特征词i对样本数据标识j的卡方值;Aij表示所有样本信息模板中与特征词i相邻的样本数据标识为j的个数;Bij表示所有样本信息模板中与特征词i相邻的样本数据标识不为j的个数;Cij表示所有样本信息模板中样本数据标识为j的相邻特征词中没有特征词i的个数,Dij表示所有样本信息模板中样本数据标识不为j的相邻特征词中没有特征词i的个数。
可选的,所述从样本信息模板中获取样本数据标识的上下文信息,包括:
从所述样本信息模板中读取与样本数据标识相邻的预设字符长度的信息,将所读取的信息确定为样本数据标识的上下文信息;
或,
从所述样本信息模板中读取样本数据标识所属分句,将所述分句确定为样本数据标识的上下文信息。
可选的,所述根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板,包括:
根据所述特征词集合中各特征词与所述目标信息中目标数据的数值的上下文信息的匹配关系,生成所述目标数据对应的特征向量;
根据所述信息训练模型、所述目标信息、所述目标数据的特征向量对所述目标数据的目标数据标识进行预测;
利用预测结果对所述目标信息进行回标,获得标注有目标数据标识的目标信息模板。
可选的,所述生成所述目标数据对应的特征向量之前,还包括:
利用正则表达式识别出各初始信息中数据的数值;
将所述数值替换为设定的通配符,获得初始化信息模板;
将所述初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例;
将所述比例大于设定筛选比例的初始化信息模板确定为目标信息。
可选的,所述目标信息为目标通知类短信,所述目标信息模板为目标短信模板,所述目标数据为目标通知类短信中的通知数据。
根据本公开实施例的第二方面,提供一种目标数据识别装置,所述装置包括:
信息训练模型调用单元,用于调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;
目标信息模板确定单元,用于根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;
目标数据识别单元,用于根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
可选的,所述装置还包括:
样本信息模板获取单元,用于获取标注有样本数据标识的样本信息模板;
特征向量生成单元,用于根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量;
信息训练模型确定单元,用于采用序列标注算法对所述样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型。
可选的,所述特征向量生成单元包括:
特征词确定子单元,用于对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词;
卡方值计算子单元,用于计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值;
特征词集合确定子单元,用于从每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,组成特征词集合;
上下文信息获取子单元,用于从样本信息模板中获取样本数据标识的上下文信息;
第一特征向量生成子单元,用于根据所述特征词集合中各特征词与所述样本数据标识的上下文信息的匹配关系,生成所述样本数据标识对应的特征向量,所述特征向量的维数与特征词集合中特征词个数相同。
可选的,所述卡方值计算子单元,用于:
其中,Nij=Aij+Bij+Cij+Dij,Kij表示所有样本信息模板中特征词i对样本数据标识j的卡方值;Aij表示所有样本信息模板中与特征词i相邻的样本数据标识为j的个数;Bij表示所有样本信息模板中与特征词i相邻的样本数据标识不为j的个数;Cij表示所有样本信息模板中样本数据标识为j的相邻特征词中没有特征词i的个数,Dij表示所有样本信息模板中样本数据标识不为j的相邻特征词中没有特征词i的个数。
可选的,所述上下文信息获取子单元包括:
第一上下文信息获取模块,用于从所述样本信息模板中读取与样本数据标识相邻的预设字符长度的信息,将所读取的信息确定为样本数据标识的上下文信息;
或,
第二上下文信息获取模块,用于从所述样本信息模板中读取样本数据标识所属分句,将所述分句确定为样本数据标识的上下文信息。
可选的,所述目标信息模板确定单元包括:
第二特征向量生成子单元,用于根据所述特征词集合中各特征词与所述目标信息中目标数据的数值的上下文信息的匹配关系,生成所述目标数据对应的特征向量;
预测子单元,用于根据所述信息训练模型、所述目标信息、所述目标数据的特征向量对所述目标数据的目标数据标识进行预测;
目标信息模板确定子单元,用于利用预测结果对所述目标信息进行回标,获得标注有目标数据标识的目标信息模板。
可选的,所述目标信息模板确定单元还包括:
数值识别子单元,用于利用正则表达式识别出各初始信息中数据的数值;
初始化信息模板确定子单元,用于将所述数值替换为设定的通配符,获得初始化信息模板;
比例计算子单元,用于将所述初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例;
目标信息确定子单元,用于将所述比例大于设定筛选比例的初始化信息模板确定为目标信息。
根据本公开实施例的第三方面,提供一种目标数据识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;
根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;
根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开中,可以利用少量的样本信息模板预测出大量的目标信息模板,并利用目标信息模板对待识别的目标信息中的目标数据进行识别,避免所有样本都需要人工标注造成的人力资源浪费,同时由于可以自动生成目标信息模板,提高了标注数据标识的效率。
本公开中还提供了一种信息训练模型确定的方法,首先获取标注有样本数据标识的样本信息模板,然后将样本数据标识与样本信息模板中除样本数据标识外的其他信息的关系进行向量化,从而可以采用序列标注算法对样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型,通过这种方式获得的信息训练模型,充分体现了样本信息模板中各样本数据标识的关联性,并且提高了训练效率。
本公开中提出了一种确定特征向量的方法,通过对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词;计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值;并根据卡方值大小确定特征词集合,根据特征词集合中各特征词与样本数据标识的上下文信息的匹配关系,生成样本数据标识对应的特征向量,从而将特征词与样本数据标识的上下文信息之间的关系进行了量化,可以充分体现特征词与样本数据标识的上下文信息的关系,提高了获得特征向量的准确率。
本公开中可以将与样本数据标识相邻的预设字符长度的信息确定为样本数据标识的上下文信息,也可以将样本数据标识所属分句确定为样本数据标识的上下文信息,从而实现截取样本数据标识相邻的信息作为上下文信息,提高了获得特征向量的准确率。
本公开中可以根据特征词集合中各特征词与目标信息中目标数据的数值的上下文信息的匹配关系,生成目标数据对应的特征向量;再根据信息训练模型、目标信息、目标数据的特征向量对目标数据的目标数据标识进行预测;从而获得标注有目标数据标识的目标信息模板。由于在信息训练模型中表征了样本信息模板、样本数据标识及其对应的特征向量的关系,则可以根据信息训练模型、目标信息、目标数据的特征向量预测出目标数据标识,实现自动预测目标数据标识,提高了目标数据标识的预测效率,从而提高了获得目标信息模板的效率。
本公开通过对初始信息进行筛选,可以将初始化信息模板中信息相同的模板划分为一类,计算每类模板占总初始化信息模板的比例,并将比例比较高的初始化信息模板筛选出来,过滤掉比例比较低的初始化信息模板,从而可以提高确定目标信息模板的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种目标数据识别方法的流程图。
图2是本公开根据一示例性实施例示出的另一种目标数据识别方法的流程图。
图3是本公开根据一示例性实施例示出的一种目标数据识别装置的框图。
图4是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图。
图5是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图。
图6是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图。
图7是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图。
图8是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图。
图9是本公开根据一示例性实施例示出的一种用于目标数据识别装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,图1是根据一示例性实施例示出的一种目标数据识别方法的流程图,包括以下步骤101至步骤103:
在步骤101中,调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系。
其中,信息训练模型可以预先存储在本终端中,待需要时进行调用;信息训练模型也可以存储在其他终端中,其他终端对训练模型进行确定和存储,待本终端需要时从其他终端中进行调用。信息训练模型是对样本信息模板进行训练获得的模型,该模型包含样本数据标识与样本信息模板的关联关系,例如,关联关系可以是样本信息模板中样本数据标识与该样本信息模板中除样本数据标识外的其他信息的关系。
本步骤中涉及的样本信息模板是标注有样本数据标识的模板,其中,样本信息可以是通知类信息,比如通知类短信:流量通知类短信、信用卡账单类短信等。则样本信息模板为样本短信模板,样本数据为样本通知类短信中的通知数据,目标信息为目标通知类短信,目标信息模板为目标短信模板,目标数据为目标通知类短信中的通知数据。本公开中主要以流量通知类进行介绍。
样本数据标识是标识样本数据类别的标识,例如,针对流量通知短信中的流量数据,流量数据的类别可以是合计、已使用、剩余等。样本信息模板可以通过人工标注获得,例如:
样本信息“闲时流量合计500MB,已使用200MB,剩余300MB”
人工标注获得样本信息模板:“闲时流量合计<LEISURE_TOTAL>,已使用<LEISURE_USED>,剩余<LEISURE_REMAINED>”。
应当理解,样本数据标识可以是数字、字符串、符号等的任意组合,只要能唯一标识样本数据的类别即可。这里用<LEISURE_TOTAL>表征合计,用<LEISURE_USED>表征已使用,用<LEISURE_REMAINED>表征剩余,只是其中一种表示方式,其他方式在此不再限定。
调用信息训练模型的目的是为了对目标信息中的目标数据标识进行预测和标注,当目标信息有多种类型时,可以对目标信息进行识别,判断出目标信息的类型,在步骤101中调用所述类型对应的信息训练模型。
可以理解的是,每种类型的信息有对应的信息训练模型,例如,信息可以是流量通知类短信、信用卡账单类短信等,针对流量通知类短信,根据样本流量通知短信预先建立流量训练模型,以便后续利用流量训练模型对目标流量通知短信中的流量数据标识进行预测和标注;针对信用卡账单类短信,根据样本信用卡账单预先建立账单训练模型,以便后续根据账单训练模型对目标信用卡账单中账单数据标识进行预测和标注。
在步骤102中,根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板。
上述目标信息是没有标注目标数据标识的信息。本步骤目的是为了根据信息训练模型中样本数据标识与样本信息模板的关联关系对目标信息中的目标数据标识进行预测,并根据预测结果对目标信息中目标数据标注目标数据标识,从而获得标注有目标数据标识的目标信息模板。
本实施例中的目标数据标识是表征目标数据类别的标识。其中,目标数据标识可以是数字、字符串、符号等的任意组合,只要能唯一标识目标数据的类别即可。
在步骤103中,根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
所述待识别的目标信息为需要识别的目标信息,可以是步骤102中的目标信息,也可以是新的需要识别的目标信息。
本步骤中,可以将待识别的目标信息与步骤102中获得的目标信息模板进行文字信息匹配,其中,可以理解的是,步骤102中获得的目标信息模板可以为一个或多个。当待识别的目标信息与目标信息模板匹配成功时,从目标信息模板和待识别的目标信息中获取目标数据标识、目标数据及其两者之间的关系,从而实现对待识别的目标信息的目标数据进行识别。例如,目标信息模板为:赠送省内上网流量<ADD_TOTAL>,还剩<ADD_REMAINED>。待识别的目标信息为:赠送省内上网流量1G,还剩500MB。文字信息“赠送省内上网流量”、“还剩”匹配成功,则可知<ADD_TOTAL>为1G,<ADD_REMAINED>为500MB,从而实现对目标信息中的目标数据的数值和类别进行识别。
在确定目标信息模板后,可以将目标信息模板和历史信息模板集合获得模板集,利用模板集对待识别的目标信息中的目标数据进行识别。当随着时间的推移以及信息的增长,可以在预设时间段内,将获得的目标信息模板作为历史信息模板,对新的目标信息进行预测获得新的目标信息模板。
一方面,该方法可以单独用于终端(服务端或客户端)中,即在本终端中调用预设的信息训练模型,根据信息训练模型对目标信息中的目标数据标注目标数据标识生成目标信息模板,并对待识别的目标信息中的目标数据进行识别。另一方面,该方法中的步骤101和102可以在服务端执行,即由服务端调用预设的信息训练模型,根据信息训练模型对目标信息中的目标数据标注目标数据标识生成目标信息模板,并将目标信息模板发送至客户端,通过客户端根据目标信息模板对待识别的目标信息中的目标数据进行识别。其中,本公开实施例中涉及的客户端可以是各种具有处理功能的智能终端,例如,智能手机、计算机、PDA(PersonalDigitalAssistant,个人数字助理)等。
由上述实施例可见,可以利用少量的样本信息模板预测出大量的目标信息模板,并利用目标信息模板对待识别的目标信息中的目标数据进行识别,避免所有样本都需要人工标注造成的人力资源浪费,同时由于可以自动生成目标信息模板,提高了标注数据标识的效率。
如图2所示,图2是本公开根据一示例性实施例示出的一种目标数据识别方法的流程图,包括以下步骤201至步骤206:
在步骤201中,获取标注有样本数据标识的样本信息模板。
针对从历史信息中筛选出样本信息的方式,可以从历史信息中随机选择,获得样本信息;也可以筛选出设定时间段内的历史信息,将其作为样本信息。例如,筛选最近一个月终端内接收到的流量提醒信息,将其作为样本信息;还可以将同一类型下历史信息中的样本数据的数值进行统一化,例如将数值替换为设定的通配符,以便将数值不同但文字信息相同的历史信息划分为一类,并从历史信息中筛选出信息重复率比较高的几类历史信息作为样本信息,从而获得具有代表性的样本信息。
获得样本信息后,可以人工将样本信息中的样本数据标注为样本数据标识,例如,样本信息1:
您的全球通本地58套餐(2012版)本月内含500MB的国内移动数据流量,已使用125MB,剩余375MB。
人工标注后的样本信息模板1:
您的全球通本地58套餐(2012版)本月内含<DAILY_TOTAL>的国内移动数据流量,已使用<DAILY_USED>,剩余<DAILY_REMAINED>。
又如,样本信息2:
套餐58元档_流量套餐包含国内流量1G,剩余500MB。
人工标注后的样本信息模板2:
套餐58元档_流量套餐包含国内流量<DAILY_TOTAL>,剩余<DAILY_REMAINED>。
在步骤202中,根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量。
样本数据标识用于标识样本数据的类别,而样本数据的类别又是由样本信息模板中除样本数据标识外的其他信息决定的,因此,可以根据样本数据标识与样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量,可知,特征向量标志着样本数据标识与样本信息模板中除样本数据标识外的其他信息的关系。
例如,作为样本数据标识与样本信息模板中除样本数据标识外的其他信息的关系的其中一种表现方式,可以采用以下方式生成每个样本数据标识对应的特征向量:
S1:对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词。
分词指的是将一个汉字序列切分成一个一个单独的词,也就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词算法可以为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。例如,字与字相邻共现的频率或概率能够较好地反应成词的可信度,从而可以对信息中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,实现分词。
举例说明,将样本信息模板:“闲时流量合计<LEISURE_TOTAL>,已使用<LEISURE_USED>,剩余<LEISURE_REMAINED>”中除样本数据标识外的其他信息进行分词处理,可以获得的特征词有:“闲时”、“流量”、“合计”、“已”、“使用”、“闲时流量”、“流量合计”、“已使用”、“闲时流量合计”等。对每个样本信息模板中除样本数据标识外的其他信息都进行分词处理,并将重复出现的词删除,从而可以得到一个没有重复特征词的词群。
需要说明的是,通过分词算法对各样本信息模板中除样本数据标识外的其他信息进行分词处理的具体过程可以参见相关技术中的分词处理过程,对此本公开实施例不再进行赘述。
S2:计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值。
在对多个样本信息模板中除样本数据标识外的其他信息进行分词处理后,可以得到多个特征词,可以计算每个特征词对每个样本信息模板中的每个样本数据标识的关联度。从而,针对每个样本信息模板中的每个样本数据标识与特征词之间均有一个关联度值。
进一步的,特征词与样本数据标志的关联度可以用卡方值来衡量,即可以采用以下公式计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值:
其中,Nij=Aij+Bij+Cij+Dij,Kij表示所有样本信息模板中特征词i对样本数据标识j的卡方值;Aij表示所有样本信息模板中与特征词i相邻的样本数据标识为j的个数;Bij表示所有样本信息模板中与特征词i相邻的样本数据标识不为j的个数;Cij表示所有样本信息模板中样本数据标识为j的相邻特征词中没有特征词i的个数,Dij表示所有样本信息模板中样本数据标识不为j的相邻特征词中没有特征词i的个数。采用卡方值来衡量特征词与样本数据标识的关联度,提高了关联度计算效率。
S3:从每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,组成特征词集合。
每个样本信息模板中的样本数据标识与各个特征词之间都有一个卡方值,针对每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,所有样本数据标识都按照上述方法进行特征词筛选,将所有筛选得到的特征词组成特征词集合。在筛选过程中,可以采用以下方式:
方式一
由于每个样本数据标识与每个特征词都有对应的卡方值,则可以将每个样本数据标识对应的所有卡方值进行降序排列,筛选出排列靠前的N个卡方值,并根据数据标识、特征词和卡方值的关系确定这N个卡方值对应的特征词,获得该样本数据标识对应特征词子集,将各个样本数据标识筛选出的特征词子集组成特征词集合。
方式二
由于每个样本数据标识与每个特征词都有对应的卡方值,则可以将每个样本数据标识对应的所有卡方值进行升序排列,筛选出排列靠后的N个卡方值,并根据数据标识、特征词和卡方值的关系确定这N个卡方值对应的特征词,获得该样本数据标识对应特征词子集,将各个样本数据标识筛选出的特征词子集组成特征词集合。
方式三
可以预先设置一个卡方筛选阈值,针对所有样本数据标识,筛选出大于卡方筛选阈值的卡方值,并确定这些卡方值对应的特征词,将其组合为该样本数据标识对应特征词子集,将各个样本数据标识筛选出的特征词子集组成特征词集合。
S4:从样本信息模板中获取样本数据标识的上下文信息。
样本数据标识的上下文信息是在样本信息模板中与样本数据标识相邻的一些信息。样本数据标识的上下文信息是样本数据的类别的依据,即可以根据样本数据标识的上下文信息确定样本数据的类别。从样本信息模板中获取样本数据标识的上下文可以采用如下方式:
方式一:从所述样本信息模板中读取与样本数据标识相邻的预设字符长度的信息,将所读取的信息确定为样本数据标识的上下文信息。
在终端内,可以预先设置预设字符长度,用来限定样本数据标识的上下文信息的长度,将与样本数据标识相邻的预设字符长度的信息确定为该样本数据标识的上下文信息。由于样本数据的类别一般只与样本数据附近的信息有关联,所以可以将样本数据标识附近的一些信息确定为与样本数据有关联的上下文信息。
方式二:从所述样本信息模板中读取样本数据标识所属分句,将所述分句确定为样本数据标识的上下文信息。
由两个或两个以上结构上相对独立的单句形式构成的句子就是复句,复句中相对独立的单句形式被称为分句。在一个样本信息模板中,获取样本数据标识所在的分句,由于可以根据该分句分析出样本数据的类别,因此可以将该分句作为样本数据标识的上下文信息。
应当理解的是,可以将样本数据标识所属分句作为样本数据标识的上下文信息,在其他实施例中,也可以将样本数据标识所属分句及其相邻分句作为样本数据标识的上下文信息,对此本公开实施例不再进行限定。
S5:根据所述特征词集合中各特征词与所述样本数据标识的上下文信息的匹配关系,生成所述样本数据标识对应的特征向量,所述特征向量的维数与特征词集合中特征词个数相同。
将特征词集合中各特征词与样本数据标识的上下文信息进行匹配,匹配成功时,可以用匹配标识表示,例如用1表示;匹配未成功时,可以用不匹配标识表示,例如用0表示,则将特征词集合中各特征词与样本数据标识的上下文信息之间的关系进行量化,可以生成该样本数据标识对应的特征向量。
在步骤203中,采用序列标注算法对所述样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型。
在终端内可以预先设置序列标注算法,用于对样本信息模板、样本数据标识及其对应的特征向量进行训练,这些算法可以是相关技术中已有的各种序列标注算法,包括条件随机场(ConditionalRandomFields,CRFs)、隐马尔可夫模型(HiddenMarkovModel,HMM)。例如,条件随机场的预测是给定条件随机场和输入序列,求条件概率最大的输出序列,即对输入序列进行标注。
在对样本信息模板、样本数据标识及其对应的特征向量进行训练时,可以对样本信息模板中的样本数据标识进行标序,按照序列进行训练。在标序过程中,可以按样本数据标识在样本信息模板中的排列顺序进行标序。针对每个样本信息模板,根据样本数据标识的序列对样本信息模板、样本数据标识及其对应的特征向量进行排列组合,生成该样本信息模板的样本组合,比如:
样本信息模板1如下:
您的全球通本地58套餐(2012版)本月内含<DAILY_TOTAL>的国内移动数据流量,已使用<DAILY_USED>,剩余<DAILY_REMAINED>。
则样本信息模板1对应的样本组合1如下:
您的全球通本地58套餐(2012版)本月内含【样本数据标识】的国内移动数据流量,已使用<DAILY_USED>,剩余<DAILY_REMAINED>。01011010DAILY_TOTAL
您的全球通本地58套餐(2012版)本月内含<DAILY_TOTAL>的国内移动数据流量,已使用【样本数据标识】,剩余<DAILY_REMAINED>。00110111DAILY_USED
您的全球通本地58套餐(2012版)本月内含<DAILY_TOTAL>的国内移动数据流量,已使用<DAILY_USED>,剩余【样本数据标识】。01010101DAILY_REMAINED
样本信息模板2如下:
套餐58元档_流量套餐包含国内流量<DAILY_TOTAL>,剩余<DAILY_REMAINED>。
则样本信息模板2对应的样本组合2如下:
套餐58元档_流量套餐包含国内流量【样本数据标识】,剩余<DAILY_REMAINED>。01011111DAILY_TOTAL
套餐58元档_流量套餐包含国内流量<DAILY_TOTAL>,剩余【样本数据标识】。01100111DAILY_REMAINED
样本信息模板3如下:
全国促销流量卡账本上网流量共<DAILY_TOTAL>,剩余<DAILY_REMAINED>。
则样本信息模板3对应的样本组合3如下:
全国促销流量卡账本上网流量共【样本数据标识】,剩余<DAILY_REMAINED>;11111111DAILY_TOTAL
全国促销流量卡账本上网流量共<DAILY_TOTAL>,剩余【样本数据标识】;01101111DAILY_REMAINED
样本信息模板4如下:
赠送省内上网流量<ADD_TOTAL>,还剩<ADD_REMAINED>。
则样本信息模板4对应的样本组合4如下:
赠送省内上网流量【样本数据标识】,还剩<ADD_REMAINED>;11101100ADD_TOTAL
赠送省内上网流量<ADD_TOTAL>,还剩【样本数据标识】;01010100ADD_REMAINED
上面仅列举了四种样本信息模板对应的样本组合,将同一类型下的样本信息模板对应的样本组合进行训练,则可获得信息训练模型。
需要说明的是,通过序列标注算法对样本信息模板、样本数据标识及其对应的特征向量进行训练的具体过程,可以参见相关技术中序列标注算法的训练过程,对此本公开实施例不再进行赘述。
在步骤204中,调用信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系。
在步骤201至步骤203中,可以获得不同类型下的信息训练模型,例如流量通知类的信息训练模型、信用卡账单训练模型等,将这些模型进行缓存。在调用预设的信息训练模型时,可以对目标信息进行识别,判断目标信息的类型,从而选择相应类型的信息训练模型。例如,通过对目标信息的识别,判断出目标信息为流量通知类,则调用流量通知类的信息训练模型。
在步骤205中,根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板。
本步骤中可以采用序列标注算法利用信息训练模型对目标信息中的目标数据标识进行预测,例如可以采用条件随机场进行标注,根据动态规划,计算一个概率最大的标注方式。例如,目标信息:本地流量共<*>,已使用<*>,还剩余<*>。该目标信息有三个目标数据需要标注,比如定义了12个目标数据标识,那么这三个目标数据可能存在12*12*12种标注方式。利用信息训练模型,计算概率最大的标注方式。
进一步的,可以采用以下方式获得目标信息模板:
根据所述特征词集合中各特征词与所述目标信息中目标数据的数值的上下文信息的匹配关系,生成所述目标数据对应的特征向量;根据所述信息训练模型、所述目标信息、所述目标数据的特征向量对所述目标数据的目标数据标识进行预测;利用预测结果对所述目标信息进行回标,获得标注有目标数据标识的目标信息模板。
目标信息中目标数据的数值可以采用正则表达式进行识别。在该步骤中,并不需要确定目标数据的具体数值,只需要确定该数值在目标信息中的位置,从而获取其上下文信息,因此,可以将识别出的数值替换为统一的符号,例如替换为统一的通配符,则目标数据的数值的上下文信息即为通配符的上下文信息。
目标数据的数值的上下文是在目标信息中与目标数据的数值相邻的一些信息,可以根据目标数据的数值的上下文信息确定目标数据的类别。针对获取目标信息中目标数据的数值的上下文信息,一方面,可以从目标信息中读取与目标数据的数值相邻的预设字符长度的信息,将所读取的信息确定为目标数据的数值的上下文信息。另一方面,也可以从目标信息中读取目标数据的数值所属分句,将所述分句确定为目标数据的数值的上下文信息。
进一步的,在确定目标信息模板之前,还可以对目标信息进行筛选,筛选重复率比较高的初始信息作为目标信息,即生成所述目标数据对应的特征向量之前,还包括:
利用正则表达式识别出各初始信息中数据的数值。
将所述数值替换为设定的通配符,获得初始化信息模板。
将所述初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例。
将所述比例大于设定筛选比例的初始化信息模板确定为目标信息。
上述方式中,将数值替换为通配符的目的是为了将相同的模板划分为一类。例如:初始短信:
“本月您已使用的国内流量情况如下:本地流量共50.00MB,已使用30.00MB,还剩余20.00MB。”
可以通过正则表达式,发现里面的数值“50.00MB”,“30.00MB”,“20.00MB”,将它们替换成通配符“<*>”,得到一个初始化信息模板:
“本月您已使用的国内流量情况如下:本地流量共<*>,已使用<*>,还剩余<*>。”
对所有的初始信息都进行这样处理后,则可以将初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例;将比例大于设定筛选比例的初始化信息模板确定为目标信息。
应当理解的是,该进一步限定中,由于将初始信息中数据的数值替换为通配符,最后获得的目标信息是包括通配符的信息,则前述确定目标信息模板过程中所提及的目标数据的数值也替换为通配符。
该步骤通过对初始信息进行筛选,可以将初始化信息模板中信息相同的模板划分为一类,计算每类模板占总初始化信息模板的比例,并将比例比较高的初始化信息模板筛选出来,过滤掉比例比较低的初始化信息模板,从而可以提高确定目标信息模板的效率。
在步骤206中,根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
所述待识别的目标信息即需要识别的目标信息。本步骤中,可以将待识别的目标信息与获得的目标信息模板进行文字信息匹配,其中,可以理解的是,获得的目标信息模板可以为一个或多个。当待识别的目标信息与目标信息模板匹配成功时,从目标信息模板和待识别的目标信息中获取目标数据标识、目标数据及其对应关系,从而实现对待识别的目标信息的目标数据的数值和类别进行识别。例如,目标信息模板为:赠送省内上网流量<ADD_TOTAL>,还剩<ADD_REMAINED>。待识别的目标信息为:赠送省内上网流量1G,还剩500MB。文字信息“赠送省内上网流量”、“还剩”匹配成功,则可知<ADD_TOTAL>为1G,<ADD_REMAINED>为500MB,从而实现对目标信息中的目标数据的数值和类别进行识别。
与前述目标数据识别方法的实施例相对应,本公开还提供了目标数据识别装置及其所应用的终端的实施例。
如图3所示,图3是本公开根据一示例性实施例示出的一种目标数据识别装置的框图,所述装置包括:信息训练模型调用单元310、目标信息模板确定单元320和目标数据识别单元330。
其中,信息训练模型调用单元310,被配置为调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系。
目标信息模板确定单元320,被配置为根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板。
目标数据识别单元330,被配置为根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
由上述实施例可见,可以利用少量的样本信息模板预测出大量的目标信息模板,并利用目标信息模板对待识别的目标信息中的目标数据进行识别,避免所有样本都需要人工标注造成的人力资源浪费,同时由于可以自动生成目标信息模板,提高了标注数据标识的效率。
如图4所示,图4是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图,该实施例在前述图3所示实施例的基础上,所述装置还包括:样本信息模板获取单元340、特征向量生成单元350和信息训练模型确定单元360。
其中,样本信息模板获取单元340,被配置为获取标注有样本数据标识的样本信息模板。
特征向量生成单元350,被配置为根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量。
信息训练模型确定单元360,被配置为采用序列标注算法对所述样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型。
由上述实施例可见,提供了一种信息训练模型确定的方法,首先获取标注有样本数据标识的样本信息模板,然后将样本数据标识与样本信息模板中除样本数据标识外的其他信息的关系进行向量化,从而可以采用序列标注算法对样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型,通过这种方式获得的信息训练模型,充分体现了样本信息模板中各样本数据标识的关联性,并且提高了训练效率。
如图5所示,图5是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图,该实施例在前述图4所示实施例的基础上,所述特征向量生成单元350包括:特征词确定子单元351、卡方值计算子单元352、特征词集合确定子单元353、上下文信息获取子单元354和第一特征向量生成子单元355。
其中,特征词确定子单元351,被配置为对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词。
卡方值计算子单元352,被配置为计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值。
特征词集合确定子单元353,被配置为从每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,组成特征词集合。
上下文信息获取子单元354,被配置为从样本信息模板中获取样本数据标识的上下文信息。
第一特征向量生成子单元355,被配置为根据所述特征词集合中各特征词与所述样本数据标识的上下文信息的匹配关系,生成所述样本数据标识对应的特征向量,所述特征向量的维数与特征词集合中特征词个数相同。
由上述实施例可见,提出了一种确定特征向量的方法,通过对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词;计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值;并根据卡方值大小确定特征词集合,根据特征词集合中各特征词与样本数据标识的上下文信息的匹配关系,生成样本数据标识对应的特征向量,从而将特征词与样本数据标识的上下文信息之间的关系进行了量化,可以充分体现特征词与样本数据标识的上下文信息的关系,提高了获得特征向量的准确率。
所述卡方值计算子单元352,被配置为:
其中,Nij=Aij+Bij+Cij+Dij,Kij表示所有样本信息模板中特征词i对样本数据标识j的卡方值;Aij表示所有样本信息模板中与特征词i相邻的样本数据标识为j的个数;Bij表示所有样本信息模板中与特征词i相邻的样本数据标识不为j的个数;Cij表示所有样本信息模板中样本数据标识为j的相邻特征词中没有特征词i的个数,Dij表示所有样本信息模板中样本数据标识不为j的相邻特征词中没有特征词i的个数。
如图6所示,图6是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图,该实施例在前述图5所示实施例的基础上,所述上下文信息获取子单元354包括至少一个下述模块,为了示例清楚,图6示出了上下文信息获取子单元354可以包含的所有模块:第一上下文信息获取模块3541和第二上下文信息获取模块3542。
其中,第一上下文信息获取模块3541,被配置为从所述样本信息模板中读取与样本数据标识相邻的预设字符长度的信息,将所读取的信息确定为样本数据标识的上下文信息。
第二上下文信息获取模块3542,被配置为从所述样本信息模板中读取样本数据标识所属分句,将所述分句确定为样本数据标识的上下文信息。
由上述实施例可见,可以将与样本数据标识相邻的预设字符长度的信息确定为样本数据标识的上下文信息,也可以将样本数据标识所属分句确定为样本数据标识的上下文信息,从而实现截取样本数据标识相邻的信息作为上下文信息,提高了获得特征向量的准确率。
如图7所示,图7是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图,该实施例在前述图5所示实施例的基础上,所述目标信息模板确定单元320包括:第二特征向量生成子单元321、预测子单元322和目标信息模板确定子单元323。
其中,第二特征向量生成子单元321,被配置为根据所述特征词集合中各特征词与所述目标信息中目标数据的数值的上下文信息的匹配关系,生成所述目标数据对应的特征向量。
预测子单元322,被配置为根据所述信息训练模型、所述目标信息、所述目标数据的特征向量对所述目标数据的目标数据标识进行预测。
目标信息模板确定子单元323,被配置为利用预测结果对所述目标信息进行回标,获得标注有目标数据标识的目标信息模板。
由上述实施例可见,可以根据特征词集合中各特征词与目标信息中目标数据的数值的上下文信息的匹配关系,生成目标数据对应的特征向量;再根据信息训练模型、目标信息、目标数据的特征向量对目标数据的目标数据标识进行预测;从而获得标注有目标数据标识的目标信息模板。由于在信息训练模型中表征了样本信息模板、样本数据标识及其对应的特征向量的关系,则可以根据信息训练模型、目标信息、目标数据的特征向量预测出目标数据标识,实现自动预测目标数据标识,提高了目标数据标识的预测效率,从而提高了获得目标信息模板的效率。
如图8所示,图8是本公开根据一示例性实施例示出的另一种目标数据识别装置的框图,该实施例在前述图7所示实施例的基础上,所述目标信息模板确定单元320还包括:数值识别子单元324、初始化信息模板确定子单元325、比例计算子单元326和目标信息确定子单元327。
其中,数值识别子单元324,被配置为利用正则表达式识别出各初始信息中数据的数值。
初始化信息模板确定子单元325,被配置为将所述数值替换为设定的通配符,获得初始化信息模板。
比例计算子单元326,被配置为将所述初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例。
目标信息确定子单元327,被配置为将所述比例大于设定筛选比例的初始化信息模板确定为目标信息。
由上述实施例可见,通过对初始信息进行筛选,可以将初始化信息模板中信息相同的模板划分为一类,计算每类模板占总初始化信息模板的比例,并将比例比较高的初始化信息模板筛选出来,过滤掉比例比较低的初始化信息模板,从而可以提高确定目标信息模板的效率。
相应的,本公开还提供另一种目标数据识别装置,所述装置包括有处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系。
根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板。
根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
如图9所示,图9是本公开根据一示例性实施例示出的一种用于目标数据识别装置900的结构示意图。例如,装置900可以是具有路由功能的移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器,微波传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种目标数据识别方法,所述方法包括:调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (16)
1.一种目标数据识别方法,其特征在于,所述方法包括:
调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;
根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;
根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
2.根据权利要求1所述的方法,其特征在于,所述调用预设的信息训练模型之前,还包括:
获取标注有样本数据标识的样本信息模板;
根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量;
采用序列标注算法对所述样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量,包括:
对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词;
计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值;
从每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,组成特征词集合;
从样本信息模板中获取样本数据标识的上下文信息;
根据所述特征词集合中各特征词与所述样本数据标识的上下文信息的匹配关系,生成所述样本数据标识对应的特征向量,所述特征向量的维数与特征词集合中特征词个数相同。
4.根据权利要求3所述的方法,其特征在于,采用以下公式计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值:
其中,Nij=Aij+Bij+Cij+Dij,Kij表示所有样本信息模板中特征词i对样本数据标识j的卡方值;Aij表示所有样本信息模板中与特征词i相邻的样本数据标识为j的个数;Bij表示所有样本信息模板中与特征词i相邻的样本数据标识不为j的个数;Cij表示所有样本信息模板中样本数据标识为j的相邻特征词中没有特征词i的个数,Dij表示所有样本信息模板中样本数据标识不为j的相邻特征词中没有特征词i的个数。
5.根据权利要求3所述的方法,其特征在于,所述从样本信息模板中获取样本数据标识的上下文信息,包括:
从所述样本信息模板中读取与样本数据标识相邻的预设字符长度的信息,将所读取的信息确定为样本数据标识的上下文信息;
或,
从所述样本信息模板中读取样本数据标识所属分句,将所述分句确定为样本数据标识的上下文信息。
6.根据权利要求3所述的方法,其特征在于,所述根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板,包括:
根据所述特征词集合中各特征词与所述目标信息中目标数据的数值的上下文信息的匹配关系,生成所述目标数据对应的特征向量;
根据所述信息训练模型、所述目标信息、所述目标数据的特征向量对所述目标数据的目标数据标识进行预测;
利用预测结果对所述目标信息进行回标,获得标注有目标数据标识的目标信息模板。
7.根据权利要求6所述的方法,其特征在于,所述生成所述目标数据对应的特征向量之前,还包括:
利用正则表达式识别出各初始信息中数据的数值;
将所述数值替换为设定的通配符,获得初始化信息模板;
将所述初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例;
将所述比例大于设定筛选比例的初始化信息模板确定为目标信息。
8.根据权利要求1至7任一所述的方法,其特征在于,所述目标信息为目标通知类短信,所述目标信息模板为目标短信模板,所述目标数据为目标通知类短信中的通知数据。
9.一种目标数据识别装置,其特征在于,所述装置包括:
信息训练模型调用单元,用于调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;
目标信息模板确定单元,用于根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;
目标数据识别单元,用于根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
样本信息模板获取单元,用于获取标注有样本数据标识的样本信息模板;
特征向量生成单元,用于根据所述样本数据标识与所述样本信息模板中除样本数据标识外的其他信息的关系,生成每个样本数据标识对应的特征向量;
信息训练模型确定单元,用于采用序列标注算法对所述样本信息模板、样本数据标识及其对应的特征向量进行训练,获得信息训练模型。
11.根据权利要求10所述的装置,其特征在于,所述特征向量生成单元包括:
特征词确定子单元,用于对各样本信息模板中除样本数据标识外的其他信息进行分词处理,获得特征词;
卡方值计算子单元,用于计算所有样本信息模板中每个特征词对每个样本数据标识的卡方值;
特征词集合确定子单元,用于从每个样本数据标识对应的特征词中,按卡方值从大到小筛选出预设个数的特征词,组成特征词集合;
上下文信息获取子单元,用于从样本信息模板中获取样本数据标识的上下文信息;
第一特征向量生成子单元,用于根据所述特征词集合中各特征词与所述样本数据标识的上下文信息的匹配关系,生成所述样本数据标识对应的特征向量,所述特征向量的维数与特征词集合中特征词个数相同。
12.根据权利要求11所述的装置,其特征在于,所述卡方值计算子单元,用于:
其中,Nij=Aij+Bij+Cij+Dij,Kij表示所有样本信息模板中特征词i对样本数据标识j的卡方值;Aij表示所有样本信息模板中与特征词i相邻的样本数据标识为j的个数;Bij表示所有样本信息模板中与特征词i相邻的样本数据标识不为j的个数;Cij表示所有样本信息模板中样本数据标识为j的相邻特征词中没有特征词i的个数,Dij表示所有样本信息模板中样本数据标识不为j的相邻特征词中没有特征词i的个数。
13.根据权利要求11所述的装置,其特征在于,所述上下文信息获取子单元包括:
第一上下文信息获取模块,用于从所述样本信息模板中读取与样本数据标识相邻的预设字符长度的信息,将所读取的信息确定为样本数据标识的上下文信息;
或,
第二上下文信息获取模块,用于从所述样本信息模板中读取样本数据标识所属分句,将所述分句确定为样本数据标识的上下文信息。
14.根据权利要求11所述的装置,其特征在于,所述目标信息模板确定单元包括:
第二特征向量生成子单元,用于根据所述特征词集合中各特征词与所述目标信息中目标数据的数值的上下文信息的匹配关系,生成所述目标数据对应的特征向量;
预测子单元,用于根据所述信息训练模型、所述目标信息、所述目标数据的特征向量对所述目标数据的目标数据标识进行预测;
目标信息模板确定子单元,用于利用预测结果对所述目标信息进行回标,获得标注有目标数据标识的目标信息模板。
15.根据权利要求14所述的装置,其特征在于,所述目标信息模板确定单元还包括:
数值识别子单元,用于利用正则表达式识别出各初始信息中数据的数值;
初始化信息模板确定子单元,用于将所述数值替换为设定的通配符,获得初始化信息模板;
比例计算子单元,用于将所述初始化信息模板中信息相同的模板划分为一类,并计算每类模板占总初始化信息模板的比例;
目标信息确定子单元,用于将所述比例大于设定筛选比例的初始化信息模板确定为目标信息。
16.一种目标数据识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
调用预设的信息训练模型;其中,所述信息训练模型包含样本数据标识与样本信息模板的关联关系;
根据所述信息训练模型对目标信息中的目标数据标注目标数据标识,获得目标信息模板;
根据所述目标信息模板对待识别的目标信息中的目标数据进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510874200.4A CN105528403B (zh) | 2015-12-02 | 2015-12-02 | 目标数据识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510874200.4A CN105528403B (zh) | 2015-12-02 | 2015-12-02 | 目标数据识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105528403A true CN105528403A (zh) | 2016-04-27 |
CN105528403B CN105528403B (zh) | 2020-01-03 |
Family
ID=55770626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510874200.4A Active CN105528403B (zh) | 2015-12-02 | 2015-12-02 | 目标数据识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105528403B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296344A (zh) * | 2016-07-29 | 2017-01-04 | 北京小米移动软件有限公司 | 恶意地址识别方法及装置 |
CN106294476A (zh) * | 2015-06-05 | 2017-01-04 | 北京搜狗科技发展有限公司 | 一种特征词关系获取方法及装置 |
CN106657157A (zh) * | 2017-02-13 | 2017-05-10 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
CN106874451A (zh) * | 2017-02-13 | 2017-06-20 | 长沙军鸽软件有限公司 | 一种自动建立个人专属语料库的方法 |
CN108595047A (zh) * | 2018-04-20 | 2018-09-28 | 北京硬壳科技有限公司 | 触控物识别方法及装置 |
CN109558418A (zh) * | 2018-12-03 | 2019-04-02 | 上海熙菱信息技术有限公司 | 一种自动识别信息的方法 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182282A1 (en) * | 2002-02-14 | 2003-09-25 | Ripley John R. | Similarity search engine for use with relational databases |
CN101123532A (zh) * | 2006-08-07 | 2008-02-13 | 华为技术有限公司 | 一种生成通信用户描述信息的系统及方法 |
CN102411563A (zh) * | 2010-09-26 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
CN102495847A (zh) * | 2011-11-16 | 2012-06-13 | 浙江盘石信息技术有限公司 | 一种网络商品信息抽取方法 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
-
2015
- 2015-12-02 CN CN201510874200.4A patent/CN105528403B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030182282A1 (en) * | 2002-02-14 | 2003-09-25 | Ripley John R. | Similarity search engine for use with relational databases |
CN101123532A (zh) * | 2006-08-07 | 2008-02-13 | 华为技术有限公司 | 一种生成通信用户描述信息的系统及方法 |
CN102411563A (zh) * | 2010-09-26 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
CN102495847A (zh) * | 2011-11-16 | 2012-06-13 | 浙江盘石信息技术有限公司 | 一种网络商品信息抽取方法 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294476A (zh) * | 2015-06-05 | 2017-01-04 | 北京搜狗科技发展有限公司 | 一种特征词关系获取方法及装置 |
CN106296344A (zh) * | 2016-07-29 | 2017-01-04 | 北京小米移动软件有限公司 | 恶意地址识别方法及装置 |
CN106296344B (zh) * | 2016-07-29 | 2020-01-07 | 北京小米移动软件有限公司 | 恶意地址识别方法及装置 |
CN106657157A (zh) * | 2017-02-13 | 2017-05-10 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
CN106874451A (zh) * | 2017-02-13 | 2017-06-20 | 长沙军鸽软件有限公司 | 一种自动建立个人专属语料库的方法 |
CN106657157B (zh) * | 2017-02-13 | 2020-04-07 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
CN108595047A (zh) * | 2018-04-20 | 2018-09-28 | 北京硬壳科技有限公司 | 触控物识别方法及装置 |
CN109558418A (zh) * | 2018-12-03 | 2019-04-02 | 上海熙菱信息技术有限公司 | 一种自动识别信息的方法 |
CN109558418B (zh) * | 2018-12-03 | 2023-04-07 | 上海熙菱信息技术有限公司 | 一种自动识别信息的方法 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
US11755654B2 (en) | 2020-02-20 | 2023-09-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Category tag mining method, electronic device and non-transitory computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN105528403B (zh) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105528403A (zh) | 目标数据识别方法及装置 | |
CN106896932B (zh) | 一种候选词推荐方法及装置 | |
CN104378441B (zh) | 日程创建方法和装置 | |
CN105488025A (zh) | 模板构建方法和装置、信息识别方法和装置 | |
CN105447750A (zh) | 信息识别方法、装置、终端及服务器 | |
CN103941969A (zh) | 菜单显示方法及装置 | |
CN108256549A (zh) | 图像分类方法、装置及终端 | |
CN104268129A (zh) | 消息回复的方法及装置 | |
CN104850849A (zh) | 发送文字的方法、装置及终端 | |
CN105447109A (zh) | 关键字词搜索方法及装置 | |
CN104615663A (zh) | 文件排序方法、装置及终端 | |
CN104636164A (zh) | 启动页面生成方法及装置 | |
CN105095366A (zh) | 文字消息处理方法和装置 | |
CN104809158A (zh) | 网络内容过滤方法及装置 | |
CN109308240B (zh) | 操作处理方法及装置、存储介质 | |
CN108270661B (zh) | 一种信息回复的方法、装置和设备 | |
CN104317851A (zh) | 词汇提示方法和装置 | |
CN105302335B (zh) | 词汇推荐方法和装置及计算机可读存储介质 | |
CN110019885A (zh) | 一种表情数据推荐方法及装置 | |
CN106921958A (zh) | 退订业务的方法和装置 | |
CN105243051A (zh) | 酒店订单短信模板的创建方法、提取方法及装置 | |
CN113177419A (zh) | 文本改写方法、装置、存储介质及电子设备 | |
CN105224950A (zh) | 滤镜类别识别方法及装置 | |
CN112784151B (zh) | 一种确定推荐信息的方法及相关装置 | |
CN117130983A (zh) | 文件存储方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |