CN105183721A - 模板构建方法、信息提取方法及装置 - Google Patents
模板构建方法、信息提取方法及装置 Download PDFInfo
- Publication number
- CN105183721A CN105183721A CN201510498399.5A CN201510498399A CN105183721A CN 105183721 A CN105183721 A CN 105183721A CN 201510498399 A CN201510498399 A CN 201510498399A CN 105183721 A CN105183721 A CN 105183721A
- Authority
- CN
- China
- Prior art keywords
- template
- raw information
- information
- extraction template
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本公开揭示了一种模板构建方法、信息提取方法及装置,属于自然语言处理领域。所述方法包括:获取原始信息样本集,原始信息样本集包括至少一条原始信息;对于每条原始信息,构建与原始信息的特征所对应的提取模板;按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组;使用该提取模板组进行信息项提取。本公开解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
Description
技术领域
本公开涉及自然语言处理领域,特别涉及一种模板构建方法、信息提取方法及装置。
背景技术
在用户成功预定航班后,订票系统通常向用户的移动终端发送携带有航班信息的短信。
航班信息包括有:航班号、出发城市、出发机场、出发日期、出发时间、到达城市、到达机场、到达日期、到达时间等多个信息项。由于该类短信携带的信息项较为密集,相关的从短信中提取出各个信息项时的准确性较差。
发明内容
为了解决现有技术中的问题,本公开提供一种模板构建方法、信息提取方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种模板构建方法,该方法包括:
获取原始信息样本集,原始信息样本集包括至少一条原始信息;
对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征;
在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
在一个可选的实施例中,在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行排序,得到与原始信息的特征所对应的提取模板组,包括:
在与原始信息的特征所对应的提取模板为至少两个时,对于任意两个提取模板中的第一提取模板和第二提取模板,获取第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合的集合关系;
若第一提取模板所匹配的原始信息集合是第二提取模板所匹配的原始信息集合的真子集,则确定第一提取模板的优先级高于第二提取模板的优先级。
在一个可选的实施例中,该方法还包括:
若第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合相等,则删除第一提取模板和第二提取模板中的任意一个。
在一个可选的实施例中,对于每条原始信息,构建与原始信息的特征所对应的提取模板,包括:
获取原始信息的发送方标识特征和/或原始信息中的关键词;
根据原始信息中的信息项的排布特征构建提取模板;
建立发送方标识特征和/或关键词与提取模板之间的对应关系。
在一个可选的实施例中,提取模板采用上下文无关文法表达,提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项。
根据本公开实施例的第二方面,提供了一种信息提取方法,该方法包括:
获取原始信息;
查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
在一个可选的实施例中,查询与原始信息的特征对应的提取模板组,包括:
获取原始信息的发送方标识特征和/或原始信息中的关键词;
查询与发送方标识特征和/或关键词所对应的提取模板组。
在一个可选的实施例中,提取模板采用上下文无关文法表达,提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项;
根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项,包括:
从提取模板组中选择出尚未匹配的优先级最高的提取模板;
将原始信息与提取模板进行模板匹配;
判断提取模板中的每个非终结符是否匹配到对应的信息项;
若提取模板中的每个非终结符均匹配到对应的信息项,则提取信息项;
若提取模板中存在至少一个非终结符未匹配到对应的信息项,则重新执行从提取模板组中选择出尚未匹配的优先级最高的提取模板的步骤。
根据本公开实施例的第三方面,提供了一种模板构建装置,该装置包括:
获取模块,被配置为获取原始信息样本集,原始信息样本集包括至少一条原始信息;
构建模块,被配置为对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征;
排序模块,被配置为在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
在一个可选的实施例中,排序模块,包括:
获取子模块,被配置为在与原始信息的特征所对应的提取模板为至少两个时,对于任意两个提取模板中的第一提取模板和第二提取模板,获取第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合的集合关系;
确定子模块,被配置为在第一提取模板所匹配的原始信息集合是第二提取模板所匹配的原始信息集合的真子集时,确定第一提取模板的优先级高于第二提取模板的优先级。
在一个可选的实施例中,排序模块,还包括:
删除子模块,被配置为在第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合相等时,删除第一提取模板和第二提取模板中的任意一个。
在一个可选的实施例中,构建模块,包括:
特征子模块,被配置为获取原始信息的发送方标识特征和/或原始信息中的关键词;
构建子模块,被配置为根据原始信息中的信息项的排布特征构建提取模板;
建立子模块,被配置为建立发送方标识特征和/或关键词与提取模板之间的对应关系。
在一个可选的实施例中,提取模板采用上下文无关文法表达,提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项。
根据本公开实施例提供的一种信息提取装置,该装置包括:
获取模块,被配置为获取原始信息;
查询模块,被配置为查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
匹配模块,被配置为根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
在一个可选的实施例中,查询模块,包括:
获取子模块,被配置为获取原始信息的发送方标识特征和/或原始信息中的关键词;
查询子模块,被配置为查询与发送方标识特征和/或关键词所对应的提取模板组。
在一个可选的实施例中,提取模板采用上下文无关文法表达,提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项;
匹配模块,包括:
选择子模块,被配置为从提取模板组中选择出尚未匹配的优先级最高的提取模板;
匹配子模块,被配置为将原始信息与提取模板进行模板匹配;
判断子模块,被配置为判断提取模板中的每个非终结符是否匹配到对应的信息项;
提取子模块,被配置为在提取模板中的每个非终结符均匹配到对应的信息项时,提取信息项;
选择子模块,被配置为在提取模板中存在至少一个非终结符未匹配到对应的信息项时,重新执行从提取模板组中选择出尚未匹配的优先级最高的提取模板的步骤。
根据本公开实施例的第五方面,提供了一种模板构建装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取原始信息样本集,原始信息样本集包括至少一条原始信息;
对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征;
在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
根据本公开实施例的第六方面,提供了一种信息提取装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取原始信息;
查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种模板构建方法的流程图;
图2是根据另一示例性实施例示出的一种模板构建方法的流程图;
图3是根据一示例性实施例示出的一种信息提取方法的流程图;
图4是根据另一示例性实施例示出的一种信息提取方法的流程图;
图5是根据一示例性实施例示出的一种模板构建装置的框图;
图6是根据另一示例性实施例示出的一种模板构建装置的框图;
图7是根据一示例性实施例示出的一种信息提取装置的框图;
图8是根据另一示例性实施例示出的一种信息提取装置的框图;
图9是根据一示例性实施例示出的一种用于模板构建装置或信息提取装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了在携带的信息较为密集的短信中提取目标信息项。本公开实施例提供了一种基于词汇-句法模式的提取方法。该提取方法分为两个阶段:第一阶段,构建提取模板;第二阶段,采用提取模板提取信息。
下面采用不同的实施例来阐述上述两个过程。
第一阶段,构建提取模板。
图1是根据一示例性实施例示出的一种模板构建方法的流程图。该方法包括:
在步骤102中,获取原始信息样本集,原始信息样本集包括至少一条原始信息。
可选地,原始信息是短信、邮件、微博通知和即时通信信息中的任意一种。比如,原始信息是携带有航班信息的短信。
在步骤104中,对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征。
可选地,原始信息的特征是指该原始信息的发送方的特征。通常,存在不止一个发送方,且每个发送方可以发送很多原始信息,所以不同的原始信息具有相同或不同的特征。
在步骤106中,在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
同一个原始信息的特征所对应的提取模板可以为多个,但是为了保证匹配准确性和匹配速度,本实施例对多个提取模板进行优先级排序。
由于每个提取模板所能够匹配的原始信息集合的集合范围不同,集合范围较大的提取模板的提取准确性通常也更高,所以,本实施例通过每个提取模板所匹配的原始信息集合之间的集合关系对多个提取模板进行优先级排序,集合关系包括:真子集、相等等。
综上所述,本实施例提供的模板构建方法,通过在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
图2是根据另一示例性实施例提供的模板构建方法的流程图。为了简化描述,本实施例中以原始信息为短信,提取模板为航班信息模板来举例说明。该方法包括:
在步骤201中,获取原始信息样本集,原始信息样本集包括至少一条原始信息。
预先搜集若干个原始信息作为原始信息样本集。每条原始信息中携带有至少一个信息项。
比如,预先搜集100000条携带有航班信息的短信,作为原始信息样本集。
在步骤202中,获取原始信息的发送方标识特征和/或原始信息中的关键词;
原始信息的特征可以是该原始信息的发送方特征。通常,存在不止一个发送方,且每个发送方可以发送很多原始信息,所以不同的原始信息具有相同或不同的发送方特征。
为了将同一个发送方对应的提取模板归类至同一个组,首先需要获取原始信息的特征。可选地,该特征采用发送方标识特征或关键词来表示。在另一实施例中,该特征采用发送方标识特征和关键词的组合来表示。
可选地,发送方标识特征包括:完全相同的发送方标识,或者,具有相同前缀的发送方标识,或者,具有相同后缀的发送方标识。也即,同一个发送方会采用完全相同、或具有相同前缀、或具有相同后缀的发送方标识向终端发送原始信息。
关键词可以是原始信息中用于标识发送方的关键字。
示例性的,参考如下两个原始信息(其中的信息项仅为示意,非真实信息):
原始信息1:发信人:160000621“【阿三旅行·去啊】06-2207:15昆明长水机场--飞-08:55重庆江北机场2B降祥鹏航空8L9863,订单XXXXXXXXXXX已出票,张无忌(票号:XXX-XXXXXXXXXX)。点击http://tb.cn/3eXI06y客户端查看行程详细信息。”
原始信息2:发信人:160000622“【阿三旅行·去啊】06-0816:10北京首都机场T1飞-18:55重庆江北机场T2-B降海南航空HU7161,订单XXXXXXXXXXX已出票,张无忌(票号:XXX-XXXXXXXXXX)。点击http://tb.cn/3eXI06y客户端查看行程详细信息。”
原始信息1和原始信息2是同一家航空公司发送的短信息,原始信息1的发送方标识是“160000621”,原始信息2的发送方标识是“160000622”,两个发送方标识具有相同前缀“1600062”。在本实例中,两个原始信息还具有有相同的关键字“【阿三旅行·去啊】”,标识出两个原始信息的发送方为“阿三旅行·去啊”。
示例性的,提取出的原始信息的特征如下表一所示:
发送方标识特征 | 关键字 | |
原始信息1 | 16000062X | 【阿三旅行·去啊】 |
原始信息2 | 16000062X | 【阿三旅行·去啊】 |
表一
在步骤203中,根据原始信息中的信息项的排布特征构建提取模板;
排布特征包括:排列位置、排列版式、字符排布规律等。
本实施例中的提取模板采用上下文无关文法表达。每个提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项。
示意性的,以上述原始信息1和上述原始信息2构建的两个提取模板如下:
<?航班模板一>→“【阿里旅行·去啊】<?出发日期><?出发时间><?出发机场>--飞-<?到达时间><?到达机场>降<?航空公司><?航班号>,订单<?订单号>已出票,<?姓名>(票号:<?票号>)。”
<?航班模板二>→“【阿里旅行·去啊】<?出发日期><?出发时间><?出发机场>飞-<?到达时间><?到达机场>降<?航空公司><?航班号>,订单<?订单号>已出票,<?姓名>(票号:<?票号>)。”
<?出发日期>→<?日期>
<?出发时间>→<?时间>
<?出发机场>→<?机场>
<?到达时间>→<?时间>
<?到达机场>→<?机场>
<?日期>→MM-dd
<?时间>→HH:mm
<?机场>→<*>机场
<?航空公司>→<*>
<?航班号>→<#ENG><#NUM>|<#NUM><#ENG><#NUM>
<?票号>→<#NUM>-<#NUM>
其中以“<?”开头的为非终结符。产生式右部的“|”表示“或者”;“<#ENG>”用于匹配一个英文字符串,“<#NUM>”用于匹配一个数字字符串;“MM”、“dd”、“HH”、“mm”分别匹配月、日、小时、分钟;“<*>”匹配任意字符串。
“<?航班模板一>”或“<?航班模板二>”的产生式右部以“<?”开头的非终结符作为提取目标。
在步骤204中,建立发送方标识特征和/或关键词与提取模板之间的对应关系。
该对应关系如下表二所示:
原始信息的特征 | 提取模板 |
16000062X+【阿三旅行·去啊】 | <?航班模板一> |
16000062X+【阿三旅行·去啊】 | <?航班模板二> |
表二
根据表二可知,与同一个原始信息的特征所对应的提取模板可以为两个或者两个以上。由于通配符<*>可以匹配任意字符串,因此对于一条待匹配的原始信息,可能会被两个或两个以上的提取模板所匹配成功。为了能够让原始信息优先与匹配较为精准的提取模板匹配,本实施例还对与同一个原始信息的特征所对应的提取模板进行优先级排序。
在步骤205中,在与原始信息的特征所对应的提取模板为至少两个时,对于任意两个提取模板中的第一提取模板和第二提取模板,获取第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合的集合关系;
该集合关系包括真子集、相等等。
在步骤206中,若第一提取模板所匹配的原始信息集合是第二提取模板所匹配的原始信息集合的真子集,则确定第一提取模板的优先级高于第二提取模板的优先级。
示意性的,第一提取模板A所匹配的短信集合为S_A;第二提取模板B匹配的短信集合为S_B;
如果S_A是S_B的真子集(即A能匹配的短信,B都能匹配),则第一提取模板A的优先级高于第二提取模板B的优先级。
如果S_B是S_A的真子集(即B能匹配的短信,A都能匹配),则第二提取模板B的优先级高于第一提取模板A的优先级。
当然,在与原始信息的特征所对应的提取模板为三个或三个以上时,则对各个提取模板之间进行两两比较。
在步骤207中,若第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合相等,则删除第一提取模板和第二提取模板中的任意一个
如果S_A是S_B的相等,则第一提取模板A和第二提取模板B等价,删除第一提取模板和第二提取模板中的任意一个。
对于集合关系为其它类型的情况,本公开实施例不作限定。
至此,得到与原始信息的特征所对应的提取模板组,该提取模板组包括按照优先级排序的至少两个提取模板,该优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的。
在该提取模板组中,存在第一提取模板和第二提取模板,第一提取模板的优先级高于第二提取模板的优先级,第一提取模板所匹配的原始信息集合是第二提取模板所匹配的原始信息集合的真子集。
综上所述,本实施例提供的模板构建方法,通过在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
本实施例还通过根据真子集关系来对各个提取模板进行优先级排序,能够使得匹配较为精准的提取模板具有更高的优先级,从而提高了提取信息项时的准确性。
第二阶段,采用提取模板提取信息。
图3是根据一示例性实施例提供的信息提取方法的流程图。该信息提取方法中使用的提取模板是图1或图2所示模板构建方法所构建的提取模板。该方法包括:
在步骤301中,获取原始信息。
比如,该原始信息是携带有航班信息的短信。
在步骤302中,查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的。
可选地,原始信息的特征是原始信息的发送方特征。不同的原始信息具有相同或不同的发送方特征。
与同一个原始信息的特征对应的提取模板可以为两个或两个以上,若提取模板为两个或者两个以上,则该至少两个提取模板是按照预设的优先级进行排序的。
在步骤303中,根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
综上所述,本实施例提供的信息提取方法,通过根据优先级将原始信息与提取模板组中的提取模板依次进行模板匹配,根据匹配结果从原始信息中提取信息项;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
图4是根据一示例性实施例提供的信息提取方法的流程图。该信息提取方法中使用的提取模板是图1或图2所示模板构建方法所构建的提取模板。该方法包括:
在步骤401中,获取原始信息。
比如,该原始信息3是携带有航班信息的短信。
原始信息3:发信人:160000621“【阿三旅行·去啊】07-2107:15山东济南机场--飞-08:55上海虹桥机场降吉祥航空8L9863,订单1010102568444已出票,张三(票号:021-3344787878)。点击http://tb.cn/3eXI06y客户端查看行程详细信息。”
在步骤402中,获取原始信息的发送方标识特征和/或原始信息中的关键词;
比如,获取原始信息3的发送方标识特征为“16000062X”,或者关键词为“【阿三旅行·去啊】”。也可同时获取原始信息3的发送方标识特征为“16000062X”,以及关键词为“【阿三旅行·去啊】”
在步骤403中,查询与发送方标识特征和/或关键词所对应的提取模板组。
该提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的。
比如,查询与“16000062X”对应的提取模板,或者与“【阿三旅行·去啊】”对应的提取模板。或者查询与“16000062X”和“【阿三旅行·去啊】”两者的组合所对应的提取模板组,该提取模板组包括:第一提取模板和第二提取模板。
其中,第一提取模板的优先级高于第二提取模板。
在步骤404中,从提取模板组中选择出尚未匹配的优先级最高的提取模板。
比如,由于提取模板组包括第一提取模板和第二提取模板,先选择出尚未匹配的优先级最高的第一提取模板。
在步骤405中,将原始信息与提取模板进行模板匹配。
比如,将原始信息与第一提取模板进行匹配。
在步骤406中,判断提取模板中的每个非终结符是否匹配到对应的信息项。
在步骤407中,若提取模板中的每个非终结符均匹配到对应的信息项,则提取信息项。
如果第一提取模板中的每个非终结符均匹配到对应的信息项,则提取出该信息项。提取出的信息项示意如下:
<?出发日期>→07-21
<?出发时间>→07:15
<?出发机场>→山东济南机场
<?到达时间>→08:55
<?到达机场>→上海虹桥机场
<?航空公司>→吉祥航空
<?航班号>→8L9863
<?票号>→021-3344787878
在步骤408中,若提取模板中存在至少一个非终结符未匹配到对应的信息项,则重新进入步骤404。
如果第一提取模板存在至少一个非终结符未匹配到对应的信息项,则重新进入步骤404。也即,再次选择出提取模板组中的第二提取模板进行模板匹配。
综上所述,本实施例提供的信息提取方法,通过根据优先级将原始信息与提取模板组中的提取模板依次进行模板匹配,根据匹配结果从原始信息中提取信息项;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
本实施例中的各个提取模板是根据真子集关系来对进行优先级排序,能够使得匹配较为精准的提取模板具有更高的优先级,从而提高了提取信息项时的准确性。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种模板构建装置的框图,如图5所示,该模板构建装置可以通过软件或者硬件的结合实现成为电子设备的全部或一部分,该模板构建装置包括但不限于:
获取模块520,被配置为获取原始信息样本集,原始信息样本集包括至少一条原始信息;
构建模块540,被配置为对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征;
排序模块560,被配置为在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
综上所述,本实施例提供的模板构建装置,通过在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
图6是根据一示例性实施例示出的一种模板构建装置的框图,如图6所示,该模板构建装置可以通过软件或者硬件的结合实现成为电子设备的全部或一部分,该模板构建装置包括但不限于:
获取模块620,被配置为获取原始信息样本集,原始信息样本集包括至少一条原始信息;
构建模块640,被配置为对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征;
排序模块660,被配置为在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
可选地,排序模块660,包括:
获取子模块662,被配置为在与原始信息的特征所对应的提取模板为至少两个时,对于任意两个提取模板中的第一提取模板和第二提取模板,获取第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合的集合关系;
确定子模块664,被配置为在第一提取模板所匹配的原始信息集合是第二提取模板所匹配的原始信息集合的真子集时,确定第一提取模板的优先级高于第二提取模板的优先级。
可选地,排序模块660,还包括:
删除子模块666,被配置为在第一提取模板所匹配的原始信息集合与第二提取模板所匹配的原始信息集合相等时,删除第一提取模板和第二提取模板中的任意一个。
可选地,构建模块640,包括:
特征子模块642,被配置为获取原始信息的发送方标识特征和/或原始信息中的关键词;
构建子模块644,被配置为根据原始信息中的信息项的排布特征构建提取模板;
建立子模块646,被配置为建立发送方标识特征和/或关键词与提取模板之间的对应关系。
可选地,提取模板采用上下文无关文法表达,提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项。
综上所述,本实施例提供的模板构建装置,通过在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
本实施例还通过根据真子集关系来对各个提取模板进行优先级排序,能够使得匹配较为精准的提取模板具有更高的优先级,从而提高了提取信息项时的准确性。
图7是根据一示例性实施例提供的信息提取装置的框图,如图7所示,该信息提取装置可以通过软件或者硬件的结合实现成为电子设备的全部或一部分,该信息提取装置包括但不限于:
获取模块720,被配置为获取原始信息;
查询模块740,被配置为查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
匹配模块760,被配置为根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
综上所述,本实施例提供的信息提取装置,通过根据优先级将原始信息与提取模板组中的提取模板依次进行模板匹配,根据匹配结果从原始信息中提取信息项;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
图8是根据一示例性实施例提供的信息提取装置的框图,如图8所示,该信息提取装置可以通过软件或者硬件的结合实现成为电子设备的全部或一部分,该信息提取装置包括但不限于:
获取模块820,被配置为获取原始信息;
查询模块840,被配置为查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
匹配模块860,被配置为根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
可选地,查询模块840,包括:
获取子模块842,被配置为获取原始信息的发送方标识特征和/或原始信息中的关键词;
查询子模块844,被配置为查询与发送方标识特征和/或关键词所对应的提取模板组。
可选地,提取模板采用上下文无关文法表达,提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项;
匹配模块860,包括:
选择子模块861,被配置为从提取模板组中选择出尚未匹配的优先级最高的提取模板;
匹配子模块863,被配置为将原始信息与提取模板进行模板匹配;
判断子模块865,被配置为判断提取模板中的每个非终结符是否匹配到对应的信息项;
提取子模块867,被配置为在提取模板中的每个非终结符均匹配到对应的信息项时,提取信息项;
选择子模块861,还被配置为在提取模板中存在至少一个非终结符未匹配到对应的信息项时,重新执行从提取模板组中选择出尚未匹配的优先级最高的提取模板的步骤。
综上所述,本实施例提供的信息提取装置,通过根据优先级将原始信息与提取模板组中的提取模板依次进行模板匹配,根据匹配结果从原始信息中提取信息项;解决了在短信携带的信息项较为密集时,从短信中提取出各个信息项时的准确性较差的问题;达到了匹配较为精准的提取模板在提取模板组中的优先级较高,优先采用匹配较为精准的提取模板对原始信息进行匹配和提取,能够提高提取信息项时的准确性的效果。
本实施例中的各个提取模板是根据真子集关系来对进行优先级排序,能够使得匹配较为精准的提取模板具有更高的优先级,从而提高了提取信息项时的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供了一种模板构建装置,该装置可以用于实现本公开实施例提供的模板构建方法。该装置包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:
获取原始信息样本集,原始信息样本集包括至少一条原始信息;
对于每条原始信息,构建与原始信息的特征所对应的提取模板,不同的原始信息具有相同或不同的特征;
在与原始信息的特征所对应的提取模板为至少两个时,按照每个提取模板所匹配的原始信息集合之间的集合关系对提取模板进行优先级排序,得到与原始信息的特征所对应的提取模板组。
本公开实施例还提供了一种信息提取装置,该装置可以用于实现本公开实施例提供的信息提取方法。该装置包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:
获取原始信息;
查询与原始信息的特征对应的提取模板组,提取模板组包括按照优先级排序的至少两个提取模板,优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
根据优先级将原始信息与提取模板进行模板匹配,根据匹配结果从原始信息中提取信息项。
图9是根据一示例性实施例示出的一种模板构建装置或信息提取装置的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器918来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如Wi-Fi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述模板构建方法或信息提取方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器918执行以完成上述模板构建方法或信息提取方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (18)
1.一种模板构建方法,其特征在于,所述方法包括:
获取原始信息样本集,所述原始信息样本集包括至少一条原始信息;
对于每条所述原始信息,构建与所述原始信息的特征所对应的提取模板,不同的所述原始信息具有相同或不同的特征;
在与所述原始信息的特征所对应的所述提取模板为至少两个时,按照每个所述提取模板所匹配的原始信息集合之间的集合关系对所述提取模板进行优先级排序,得到与所述原始信息的特征所对应的提取模板组。
2.根据权利要求1所述的方法,其特征在于,所述在与所述原始信息的特征所对应的提取模板为至少两个时,按照每个所述提取模板所匹配的原始信息集合之间的集合关系对所述提取模板进行排序,得到与所述原始信息的特征所对应的提取模板组,包括:
在与所述原始信息的特征所对应的提取模板为至少两个时,对于任意两个所述提取模板中的第一提取模板和第二提取模板,获取所述第一提取模板所匹配的原始信息集合与所述第二提取模板所匹配的原始信息集合的集合关系;
若所述第一提取模板所匹配的原始信息集合是所述第二提取模板所匹配的原始信息集合的真子集,则确定所述第一提取模板的优先级高于所述第二提取模板的优先级。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述第一提取模板所匹配的原始信息集合与所述第二提取模板所匹配的原始信息集合相等,则删除所述第一提取模板和所述第二提取模板中的任意一个。
4.根据权利要求1至3任一所述的方法,其特征在于,所述对于每条所述原始信息,构建与所述原始信息的特征所对应的提取模板,包括:
获取所述原始信息的发送方标识特征和/或所述原始信息中的关键词;
根据所述原始信息中的信息项的排布特征构建提取模板;
建立所述发送方标识特征和/或所述关键词与所述提取模板之间的对应关系。
5.根据权利要求1至3任一所述的方法,其特征在于,所述提取模板采用上下文无关文法表达,所述提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项。
6.一种信息提取方法,其特征在于,所述方法包括:
获取原始信息;
查询与所述原始信息的特征对应的提取模板组,所述提取模板组包括按照优先级排序的至少两个提取模板,所述优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
根据所述优先级将所述原始信息与所述提取模板进行模板匹配,根据匹配结果从所述原始信息中提取信息项。
7.根据权利要求6所述的方法,其特征在于,所述查询与所述原始信息的特征对应的提取模板组,包括:
获取所述原始信息的发送方标识特征和/或所述原始信息中的关键词;
查询与所述发送方标识特征和/或所述关键词所对应的提取模板组。
8.根据权利要求6或7所述的方法,其特征在于,所述提取模板采用上下文无关文法表达,所述提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项;
所述根据所述优先级将所述原始信息与所述提取模板进行模板匹配,根据匹配结果从所述原始信息中提取信息项,包括:
从所述提取模板组中选择出尚未匹配的优先级最高的所述提取模板;
将所述原始信息与所述提取模板进行模板匹配;
判断所述提取模板中的每个所述非终结符是否匹配到对应的信息项;
若所述提取模板中的每个所述非终结符均匹配到对应的信息项,则提取所述信息项;
若所述提取模板中存在至少一个所述非终结符未匹配到对应的信息项,则重新执行所述从所述提取模板组中选择出尚未匹配的优先级最高的所述提取模板的步骤。
9.一种模板构建装置,其特征在于,所述装置包括:
获取模块,被配置为获取原始信息样本集,所述原始信息样本集包括至少一条原始信息;
构建模块,被配置为对于每条所述原始信息,构建与所述原始信息的特征所对应的提取模板,不同的所述原始信息具有相同或不同的特征;
排序模块,被配置为在与所述原始信息的特征所对应的所述提取模板为至少两个时,按照每个所述提取模板所匹配的原始信息集合之间的集合关系对所述提取模板进行优先级排序,得到与所述原始信息的特征所对应的提取模板组。
10.根据权利要求9所述的装置,其特征在于,所述排序模块,包括:
获取子模块,被配置为在与所述原始信息的特征所对应的提取模板为至少两个时,对于任意两个所述提取模板中的第一提取模板和第二提取模板,获取所述第一提取模板所匹配的原始信息集合与所述第二提取模板所匹配的原始信息集合的集合关系;
确定子模块,被配置为在所述第一提取模板所匹配的原始信息集合是所述第二提取模板所匹配的原始信息集合的真子集时,确定所述第一提取模板的优先级高于所述第二提取模板的优先级。
11.根据权利要求10所述的装置,其特征在于,所述排序模块,还包括:
删除子模块,被配置为在所述第一提取模板所匹配的原始信息集合与所述第二提取模板所匹配的原始信息集合相等时,删除所述第一提取模板和所述第二提取模板中的任意一个。
12.根据权利要求9至11任一所述的装置,其特征在于,所述构建模块,包括:
特征子模块,被配置为获取所述原始信息的发送方标识特征和/或所述原始信息中的关键词;
构建子模块,被配置为根据所述原始信息中的信息项的排布特征构建提取模板;
建立子模块,被配置为建立所述发送方标识特征和/或所述关键词与所述提取模板之间的对应关系。
13.根据权利要求9至11任一所述的装置,其特征在于,所述提取模板采用上下文无关文法表达,所述提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项。
14.一种信息提取装置,其特征在于,所述装置包括:
获取模块,被配置为获取原始信息;
查询模块,被配置为查询与所述原始信息的特征对应的提取模板组,所述提取模板组包括按照优先级排序的至少两个提取模板,所述优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
匹配模块,被配置为根据所述优先级将所述原始信息与所述提取模板进行模板匹配,根据匹配结果从所述原始信息中提取信息项。
15.根据权利要求14所述的装置,其特征在于,所述查询模块,包括:
获取子模块,被配置为获取所述原始信息的发送方标识特征和/或所述原始信息中的关键词;
查询子模块,被配置为查询与所述发送方标识特征和/或所述关键词所对应的提取模板组。
16.根据权利要求14或15所述的装置,其特征在于,所述提取模板采用上下文无关文法表达,所述提取模板包括至少一个非终结符,每个非终结符用于匹配一个信息项;
所述匹配模块,包括:
选择子模块,被配置为从所述提取模板组中选择出尚未匹配的优先级最高的所述提取模板;
匹配子模块,被配置为将所述原始信息与所述提取模板进行模板匹配;
判断子模块,被配置为判断所述提取模板中的每个所述非终结符是否匹配到对应的信息项;
提取子模块,被配置为在所述提取模板中的每个所述非终结符均匹配到对应的信息项时,提取所述信息项;
所述选择子模块,被配置为在所述提取模板中存在至少一个所述非终结符未匹配到对应的信息项时,重新执行所述从所述提取模板组中选择出尚未匹配的优先级最高的所述提取模板的步骤。
17.一种模板构建装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取原始信息样本集,所述原始信息样本集包括至少一条原始信息;
对于每条所述原始信息,构建与所述原始信息的特征所对应的提取模板,不同的所述原始信息具有相同或不同的特征;
在与所述原始信息的特征所对应的所述提取模板为至少两个时,按照每个所述提取模板所匹配的原始信息集合之间的集合关系对所述提取模板进行优先级排序,得到与所述原始信息的特征所对应的提取模板组。
18.一种信息提取装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取原始信息;
查询与所述原始信息的特征对应的提取模板组,所述提取模板组包括按照优先级排序的至少两个提取模板,所述优先级是按照每个提取模板所匹配的原始信息集合之间的集合关系排序的;
根据所述优先级将所述原始信息与所述提取模板进行模板匹配,根据匹配结果从所述原始信息中提取信息项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510498399.5A CN105183721B (zh) | 2015-08-13 | 2015-08-13 | 模板构建方法、信息提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510498399.5A CN105183721B (zh) | 2015-08-13 | 2015-08-13 | 模板构建方法、信息提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183721A true CN105183721A (zh) | 2015-12-23 |
CN105183721B CN105183721B (zh) | 2018-05-25 |
Family
ID=54905810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510498399.5A Active CN105183721B (zh) | 2015-08-13 | 2015-08-13 | 模板构建方法、信息提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183721B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777325A (zh) * | 2017-01-10 | 2017-05-31 | 上海百事通信息技术股份有限公司 | 案件证据清单生成方法及系统 |
US10558760B2 (en) | 2017-07-28 | 2020-02-11 | International Business Machines Corporation | Unsupervised template extraction |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009107456A1 (ja) * | 2008-02-29 | 2009-09-03 | シャープ株式会社 | 情報処理装置、方法、およびプログラム |
WO2011075119A1 (en) * | 2009-12-15 | 2011-06-23 | Intel Corporation | Systems, apparatus and methods using probabilistic techniques in trending and profiling and template-based predictions of user behavior in order to offer recommendations |
CN102368260A (zh) * | 2011-10-12 | 2012-03-07 | 北京百度网讯科技有限公司 | 一种生成领域需求模版的方法及其装置 |
CN103067891A (zh) * | 2012-12-20 | 2013-04-24 | 北京思特奇信息技术股份有限公司 | 一种将通讯信息模板化管理的方法及装置 |
WO2013166897A1 (en) * | 2012-05-09 | 2013-11-14 | Tencent Technology (Shenzhen) Company Limited | Method, client, server and system for intelligent recognizing contents of short message |
CN103634452A (zh) * | 2012-08-21 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 短信模板的显示控制方法、装置及具有该装置的移动终端 |
-
2015
- 2015-08-13 CN CN201510498399.5A patent/CN105183721B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009107456A1 (ja) * | 2008-02-29 | 2009-09-03 | シャープ株式会社 | 情報処理装置、方法、およびプログラム |
WO2011075119A1 (en) * | 2009-12-15 | 2011-06-23 | Intel Corporation | Systems, apparatus and methods using probabilistic techniques in trending and profiling and template-based predictions of user behavior in order to offer recommendations |
CN102368260A (zh) * | 2011-10-12 | 2012-03-07 | 北京百度网讯科技有限公司 | 一种生成领域需求模版的方法及其装置 |
WO2013166897A1 (en) * | 2012-05-09 | 2013-11-14 | Tencent Technology (Shenzhen) Company Limited | Method, client, server and system for intelligent recognizing contents of short message |
CN103634452A (zh) * | 2012-08-21 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 短信模板的显示控制方法、装置及具有该装置的移动终端 |
CN103067891A (zh) * | 2012-12-20 | 2013-04-24 | 北京思特奇信息技术股份有限公司 | 一种将通讯信息模板化管理的方法及装置 |
Non-Patent Citations (3)
Title |
---|
BURCU YILDIZ 等: "Motivating Ontology-Driven Information Extraction", 《MULTIMEDIA INFORMATION EXTRACTION AND DIGITAL HERITAGE PRESERVATION》 * |
吴中彪 等: "面向中文短信的信息抽取方法", 《计算机工程》 * |
郑长松 等: "基于模板的Web信息自动提取方法", 《计算机应用研究》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777325A (zh) * | 2017-01-10 | 2017-05-31 | 上海百事通信息技术股份有限公司 | 案件证据清单生成方法及系统 |
US10558760B2 (en) | 2017-07-28 | 2020-02-11 | International Business Machines Corporation | Unsupervised template extraction |
US10572601B2 (en) | 2017-07-28 | 2020-02-25 | International Business Machines Corporation | Unsupervised template extraction |
Also Published As
Publication number | Publication date |
---|---|
CN105183721B (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104753766B (zh) | 表情发送方法及装置 | |
EP3002911B1 (en) | Communication message recognition method and device thereof | |
CN105117384A (zh) | 分类器训练方法、类型识别方法及装置 | |
CN104731880A (zh) | 图片排序方法和装置 | |
CN105472580A (zh) | 信息的处理方法、装置、终端及服务器 | |
CN105095873A (zh) | 照片共享方法、装置 | |
CN105094760A (zh) | 一种图片标记方法及装置 | |
CN104240068A (zh) | 提醒事件创建方法和装置 | |
CN104735243B (zh) | 联系人列表显示方法及装置 | |
CN104378441A (zh) | 日程创建方法和装置 | |
CN104268129A (zh) | 消息回复的方法及装置 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN105472583A (zh) | 消息处理方法及装置 | |
CN104112119A (zh) | 基于人脸识别的通信方法及装置 | |
CN104615663A (zh) | 文件排序方法、装置及终端 | |
CN105335714A (zh) | 照片处理方法、装置和设备 | |
CN105469104A (zh) | 文本信息相似度的计算方法、装置及服务器 | |
CN105354284A (zh) | 模板的处理方法及装置、短信识别方法及装置 | |
CN104598534A (zh) | 图片折叠方法及装置 | |
CN105302877A (zh) | 用于短信领域分类的方法、短信领域识别方法及装置 | |
CN106331328A (zh) | 信息提示的方法及装置 | |
CN104182473A (zh) | 设置选项的显示方法及装置 | |
CN106921958A (zh) | 退订业务的方法和装置 | |
CN105183721A (zh) | 模板构建方法、信息提取方法及装置 | |
CN105426904A (zh) | 照片处理方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |