CN107544949A - 模板合并方法及装置 - Google Patents
模板合并方法及装置 Download PDFInfo
- Publication number
- CN107544949A CN107544949A CN201610493881.4A CN201610493881A CN107544949A CN 107544949 A CN107544949 A CN 107544949A CN 201610493881 A CN201610493881 A CN 201610493881A CN 107544949 A CN107544949 A CN 107544949A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- template
- text feature
- extraction template
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种模板合并方法及装置,属于信息处理技术领域。所述方法包括:获取第一文本提取模板和第二文本提取模板;检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件;如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;解决了由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小,达到了通过将第一文本提取模板和第二文本提取模板进行合并,减少了文本提取模板的数量,使得合并后的文本提取模板的适用范围更大、覆盖率更高的效果。
Description
技术领域
本发明实施例涉及信息处理技术领域,特别涉及一种模板合并方法及装置。
背景技术
文本提取模板是用于提取文本信息的模板,比如:短信息模板。例如:当终端接收到信用卡账单信息时,通过将信用卡账单信息和文本提取模板进行匹配,提取信用卡账单信息中的还款金额、还款日期和信用卡账号等信息。
现有技术中的模板生成方法包括:采集若干个样本文本信息;将每个样本文本信息中的数字字符串或字母字符串替换为变量文字片段,其余部分确定为固定文字片段;从而得到文本提取模板。在接收到文本信息时,根据文本提取模板匹配文本信息中的固定文字片段,并根据变量文字片段的位置提取文本信息中的有效信息。
在实现本发明实施例的过程中,发明人发现现有技术至少存在以下问题:
由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小。
发明内容
为了解决现有技术提供的模板生成方法中文本提取模板的数量较多、单个文本提取模板的适用范围较小的问题,本发明实施例提供了一种模板合并方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供了一种模板合并方法,该方法包括:
获取第一文本提取模板和第二文本提取模板,每个文本提取模板包括固定文字片段和变量文字片段,变量文字片段用于提取信息;
检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件;
如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;合并后的文本提取模板中位于文字位置的固定文字片段被合并为变量文字片段。
根据本发明实施例的第二方面,提供了一种模板合并装置,装置包括:
模板获取模块,用于获取第一文本提取模板和第二文本提取模板,每个文本提取模板包括固定文字片段和变量文字片段,变量文字片段用于提取信息;
片段检测模块,用于检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件;
模板合并模块,用于如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;合并后的文本提取模板中位于文字位置的固定文字片段被合并为变量文字片段。
本发明实施例提供的技术方案带来的有益效果包括:
通过获取第一文本提取模板和第二文本提取模板;检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件;如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;解决了由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小,达到了通过将第一文本提取模板和第二文本提取模板进行合并,减少了文本提取模板的数量,使得合并后的文本提取模板的适用范围更大、覆盖率更高的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一示例性实施例提供的模板合并方法的流程图;
图2是本发明另一示例性实施例提供的模板合并方法的流程图;
图3是图2所示实施例提供的模板合并方法中步骤202的子步骤的流程图;
图4是本发明一示例性实施例提供的两个文本提取模板合并的示意图;
图5是图2所示实施例提供的模板合并方法中步骤201的子步骤的流程图;
图6是本发明一示例性实施例提供的生成文本提取模板的示意图;
图7是本发明一示例性实施例提供的模板合并装置的框图;
图8是本发明一示例性实施例提供的模板合并装置的框图;
图9A是图8所示实施例提供的第一获取单元包括的子单元的框图;
图9B是图8所示实施例提供的模板聚类单元包括的子单元的框图;
图10是本发明一个实施例提供的服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供的方法,各步骤的执行主体可以是具备数据存储和计算能力的服务器。在下述方法实施例中,仅以各步骤的执行主体为服务器为例进行举例说明,但对此不构成限定。
请参考图1,其示出了本发明一个实施例提供的模板合并方法的流程图。本实施例以该模板合并方法应用于服务器中来举例说明。该方法可以包括如下几个步骤。
步骤101,获取第一文本提取模板和第二文本提取模板。
其中,每个文本提取模板包括固定文字片段和变量文字片段,每个变量文字片段用于提取一种有效信息。
步骤102,检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件。
步骤103,如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板。
其中,合并后的文本提取模板中位于文字位置的固定文字片段被合并为变量文字片段。
综上所述,本实施例提供的模板合并方法,通过在第一文本提取模板和第二文本提取模板中位于相同的文字位置且内容不同的固定文字片段满足合并条件时,将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;解决了由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小,达到了通过将第一文本提取模板和第二文本提取模板进行合并,减少了文本提取模板的数量,使得合并后的文本提取模板的适用范围更大、覆盖率更高的效果。
请参考图2,其示出了本发明另一个实施例提供的模板合并方法的流程图。在本实施例中,以各步骤的执行主体为服务器进行举例说明。该方法可以包括如下几个步骤。
步骤201,获取若干个文本提取模板。
服务器首先获取若干个文本提取模板,其中,每个文本提取模板包括固定文字片段和变量文字片段,变量文字片段用于提取信息。
可选的,文本提取模板中包括至少一个固定文字片段和至少一个变量文字片段,固定文字片段和变量文字片段通常交替出现。
文本提取模板可以是短信息模板、邮件信息模板、即时通信信息模板等;本实施例中对文本提取模板的类型不作具体限定。
可选的,变量文字片段可以包括具有标识的占位符。
作为一个示例性的例子,服务器获取到的一个文本提取模板为:“小明先生,您尾号[1]的信用卡本期应还款额人民币[2]元,最后还款日[3]年[4]月[5]日”。其中,“小明先生,您尾号”、“的信用卡本期应还款额人民币”、“元,最后还款日”、“年”、“月”和“日”为固定文字片段,[1]、[2]、[3]、[4]和[5]为具有标识的占位符。
步骤202,将相似度达到预定条件的文本提取模板聚类到一个模板集合。
服务器在获取到若干个文本提取模板后,将任意两个文本提取模板进行相似度比较,在相似度达到预定条件时,服务器将两个文本提取模板聚类到一个模板集合中。换句话说,一个模板集合中的任意两个文本提取模板之间的相似度都达到了预定条件。
在一种可能的实施方式中,如图3所示,步骤202可以包括如下几个子步骤:
步骤202a,为每个文本提取模板中的固定文字片段分配片段ID,内容不同的固定文字片段分配不同的片段ID。
服务器在获取到若干个文本提取模板后,获取每个文本提取模板中的固定文字片段的内容,服务器为每个文本提取模板中的固定文字片段分配片段标识(Identity,ID);内容不相同的固定文字片段分配不同的片段ID,内容相同的固定文字片段分配相同的片段ID。
比如:假定变量文字片段为具有标识的占位符,服务器接收到的两个文本提取模板为两条短信息模板,两条短信息模板的具体内容分别为:
“尊敬的吴先生,您尾号[1]的信用卡[2]年[3]月账单应还款额[4]元,请于[5]-[6]-[7]前还款”;和,
“尊敬的陈女士,您尾号[1]的信用卡[2]年[3]月账单应还款额[4]元,请于[5]-[6]-[7]前还款”
其中,[i]表示第i个变量文字片段。
服务器以变量文字片段为划分节点,得到第一条短信息模板的8个固定文字片段包括:“尊敬的吴先生,您尾号”、“的信用卡”、“年”、“月账单应还款额”、“元,请于”、“-”、“-”和“前还款”。
服务器以变量文字片段为划分节点,得到第二条短信息模板的8个固定文字片段包括:“尊敬的陈女士,您尾号”、“的信用卡”、“年”、“月账单应还款额”、“元,请于”、“-”、“-”和“前还款”。
假定服务器为第一条短信息模板中的每个固定文字片段分配的片段ID如下:“尊敬的吴先生,您尾号”片段ID为1、“的信用卡”片段ID为2、“年”片段ID为3、“月账单应还款额”片段ID为4、“元,请于”片段ID为5、“-”片段ID为6和“前还款”片段ID为7;由于第二条短信息模板中除了第一个固定文字片段与第一条短信息模板中的第一个固定文字片段的内容不相同,其余固定文字片段的内容都对应相同,则服务器为第二条短信模板中的每个固定文字片段分配的片段ID分别为:“尊敬的陈女士,您尾号”片段ID为8、“的信用卡”片段ID为2、“年”片段ID为3、“月账单应还款额”片段ID为4、“元,请于”片段ID为5、“-”片段ID为6和“前还款”片段ID为7,请参考图4所示。
可选的,每个文本提取模板中的固定文字片段是将文本提取模板中的内容以变量文字片段为划分界限,划分得到每个固定文字片段。
比如:文本提取模板“尊敬的吴先生,您尾号[1]的信用卡[2]年[3]月账单应还款额[4]元,请于[5]-[6]-[7]前还款”以变量文字片段[1]、[2]、[3]、[4]、[5]、[6]和[7]作为划分界限,对文本提取模板进行划分得到每个固定文字片段如下:“尊敬的吴先生,您尾号”、“的信用卡”、“年”、“月账单应还款额”、“元,请于”、“-”、“-”和“前还款”。
步骤202b,将每个文本提取模板中的各个固定文字片段所对应的片段ID按序排列,得到文本提取模板的模板向量。
服务器在对每个文本提取模板中的固定文字片段分配对应的片段ID后,将每个文本提取模板中的各个片段ID按照固定文字片段在文本提取模板中的先后顺序进行排列,得到每个文本提取模板的模板向量。
比如:如图4中所示的第一条短信息模板和第二条短信息模板中的各个固定文字片段所对应的片段ID为例,则第一条短信息模板的模板向量为[1,2,3,4,5,6,6,7],第二条短信息模板的模板向量为[8,2,3,4,5,6,6,7]。
步骤202c,检测任意两个文本提取模板的模板向量是否满足预定条件。
预定条件包括:len1=len2且diffs<th2且len1≥th3,或者,len1=len2且diffs=th4且len1>th5;
其中,len1表示一个文本提取模板的模板向量的长度,len2表示另一个文本提取模板的模板向量的长度;diffs表示两个文本提取模板的模板向量中位于相同位置的片段ID出现不相同的次数;th2表示第二阈值,th3表示第三阈值,th4表示第四阈值,th5表示第五阈值。优选的,第二阈值可以为3,第三阈值可以为5,第四阈值可以为1,第五阈值可以为5。
比如:参考根据图4所示的第一条短信息模板和第二条短信息模板中的各个固定文字片段所对应的片段ID得到的模板向量[1,2,3,4,5,6,6,7]和[8,2,3,4,5,6,6,7];由于第一条短信息模板的模板向量[1,2,3,4,5,6,6,7]的长度为8,则len1为8,第二条短信息模板的模板向量[8,2,3,4,5,6,6,7]的长度也为8,则len2也为8;由于模板向量[1,2,3,4,5,6,6,7]和[8,2,3,4,5,6,6,7]之间只有位于第一个位置的片段ID不相同,因此diffs为1。
步骤202c中的检测结果可以包括两种,当检测结果为满足预设条件时,则执行步骤202d;若检测结果为不满足预设条件时,则执行步骤202e。
步骤202d,若满足预设条件,则将两个文本提取模板添加至同一个模板集合。
若服务器检测到任意两个文本提取模板的模板向量满足预设条件,说明这两个文本提取模板之间的相似度较高,则服务器将这两个文本提取模板添加至同一个模板集合。
步骤202e,若不满足预设条件,则对两个文本提取模板不进行聚类操作。
若服务器检测到任意两个文本提取模板的模板向量不满足预设条件,说明这两个文本提取模板之间的相似度并不高,则服务器对这两个文本提取模板不进行聚类操作。
步骤203,将模板集合中的任意两个文本提取模板,确定为第一文本提取模板和第二文本提取模板。
服务器将聚类到一个模板集合中的任意两个文本提取模板确定为第一文本提取模板和第二文本提取模板。
步骤204,将第一文本提取模板按照最短编辑距离变换为第二文本提取模板,得到变换操作序列。
其中,变换操作序列包括:保留操作、删除操作和插入操作。
可选的,变换操作序列中的删除操作和插入操作是相互对应的执行操作。
服务器在确定第一文本提取模板和第二文本提取模板后,将第一文本提取模板按照最短编辑距离变换为第二提取模板,在变换过程中得到变换操作序列。
其中,最短编辑距离是指将第一文本提取模板变换为第二文本提取模板所需要的变换操作最少。
比如:参考图4所示的第一条短信息模板和第二条短信息模板,将第一条短信息模板按照最短编辑距离变换为第二条短信息模板的变换操作序列包括:保留“尊敬的”、删除“吴先生”、插入“陈女士”以及保留“,您尾号[1]的信用卡[2]年[3]月账单应还款额[4]元,请于[5]-[6]-[7]前还款”。
步骤205,检测变换操作序列是否满足合并条件。
服务器在获取到将第一文本提取模板按照最短编辑距离变换为第二文本提取模板的变换操作序列后,检测获取到的变换操作序列是否满足合并条件。
其中,合并条件包括:
diffs≤th1,且diff 1=diff 2,且max≤M1/2,且max≤M2/2,
或,diffs≤th1,且diff 1与diff 2相连,且max≤M1/2,且max≤M2/2;
其中,diffs表示变换操作序列中删除操作的次数或插入操作的次数,相当于步骤202c中两个文本提取模板的模板向量中位于相同位置的片段ID出现不相同的次数;diff 1表示变换操作序列中删除操作对应的文字位置或插入操作对应的文字位置;diff 2表示变换操作序列中删除操作对应的文字位置或插入操作对应的文字位置;diff 1和diff 2对应的变换操作不相同;max表示变换操作序列中删除操作的内容和插入操作的内容中的字符长度的最大值;M1表示变换操作序列中删除操作的内容或插入操作的内容所在的固定文字片段的字符长度;M2表示变换操作序列中删除操作的内容或插入操作的内容所在的固定文字片段的字符长度;M1和M2对应的变换操作不相同;th1表示第一阈值。优选的,第一阈值可以为2。
比如:参考图4所示的第一条短信息模板和第二条短信息模板,将第一条短信息模板按照最短编辑距离变换为第二条短信息模板的变换操作序列中存在有一次删除操作,也存在一次插入操作,因此diffs为1;diff 1表示删除的“吴先生”在第一条短信息模板中对应的文字位置;diff 2表示插入的“陈女士”在第二条短信息模板中对应的文字位置;max表示删除的“吴先生”和插入的“陈女士”中的字符长度的最大值,由于删除的“吴先生”的字符长度为6,插入的“陈女士”的字符长度也为6,则max为6;由于第一条短信息模板中“吴先生”所在的固定文字片段的内容“尊敬的吴先生”的字符长度为12,则M1为12;由于第二条短信息模板中“陈女士”所在的固定文字片段的内容“尊敬的陈女士”的字符长度为12,则M2也为12。
在步骤205的检测过程中,会出现两种检测结果,当检测结果为满足合并条件时,则执行步骤206;当检测结果为不满足合并条件时,则执行步骤207。
步骤206,如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板。
其中,合并后的文本提取模板中位于文字位置的固定文字片段被合并为变量文字片段。
可选的,变量文字片段可以包括通配符;也就是说,合并后的文本提取模板中位于文字位置的固定文字片段被合并为通配符。
若服务器检测发现将第一文本提取模板按照最短编辑距离变换为第二文本提取模板的变换操作序列满足合并条件,说明第一文本提取模板与第二文本提取模板中的文字位置相同且内容不相同的固定文字片段可以被合并为变量文字片段,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板。
比如:请参考图4所示的第一条短信息模板和第二条短信息模板,假定第一阈值为2,由于将第一条短信息模板按照最短编辑距离变换为第二条短信息模板过程中,diffs=1,diff1=diff2,max=6,M1=12,M2=12,所以将第一条短信息模板按照最短编辑距离变换为第二条短信息模板的变换操作序列满足合并条件diffs≤2,且diff 1=diff 2,且max≤M1/2,且max≤M2/2,则将第一条短信息模板和第二条短信息模板进行合并,得到合并后的短信息模板为:尊敬的[*n],您尾号[1]的信用卡[2]年[3]月账单应还款额[4]元,请于[5]-[6]-[7]前还款,其中,[*n]为通配符。
步骤207,如果不满足合并条件,则不对第一文本提取模板和第二文本提取模板进行合并操作。
若服务器检测发现将第一文本提取模板按照最短编辑距离变换为第二文本提取模板的变换操作序列不满足合并条件,说明第一文本提取模板与第二文本提取模板中的文字位置相同且内容不相同的固定文字片段不可以被合并为变量文字片段,则不对第一文本提取模板和第二文本提取模板进行合并操作。
综上所述,本实施例提供的模板合并方法,通过在第一文本提取模板和第二文本提取模板中位于相同的文字位置且内容不同的固定文字片段满足合并条件时,将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;解决了由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小,达到了通过将第一文本提取模板和第二文本提取模板进行合并,减少了文本提取模板的数量,使得合并后的文本提取模板的适用范围更大、覆盖率更高的效果。
基于图2所示的实施例中,在一种可能的实施方式中,如图5所示,步骤201可以包括如下几个子步骤:
步骤201a,采集若干个样本通信信息。
服务器首先采集若干个样本通信信息,若干个样本通信信息中包含有各个类型的通信信息,比如:样本短信息、样本邮件信息或样本即时通信信息等。
本实施例中对采集的样本通信信息的类型不作具体限定。
步骤201b,将每个样本通信信息中的数字字符串或字母字符串替换为变量文字片段,得到文本提取模板。
服务器在采集到若干个样本通信信息后,将每个样本通信信息中的数字字符串或者字母字符串替换为变量文字片段,得到文本提取模板。
以采集到若干个样本短信息为例,比如:服务器采集到的信用卡短信息的内容为:“小明先生,您尾号0712的信用卡本期应还款额人民币744.04元,最后还款日2016年07月02日”。则服务器将获取到的信用卡短信息中的数字字符串替换为具有标识的占位符,得到的文本提取模板为:“小明先生,您尾号[1]的信用卡本期应还款额人民币[2]元,最后还款日[3]年[4]月[5]日”。其中,[1]表示第一个数字字符串的位置为尾号,[2]表示第二个数字字符串的位置为金额,[3][4]和[5]表示第三、四和五个数字字符串的位置为还款日期。请参考图6所示。
需要补充说明的是,本发明实施例提供的合并后的文本提取模板可以应用于信用卡账单信息的提取、水费账单信息的提取、电费账单信息的提取、煤气费账单信息的提取和房贷账单信息的提取等,本发明实施例中对合并后的文本提取模板的使用场景不作具体限定。
请参考图7,其示出了本发明一个实施例提供的模板合并装置的结构方框图。该装置可通过软件、硬件或者两者的结合实现成为服务器的部分或者全部。该装置可以包括:模板获取模块720、片段检测模块740和模板合并模块760。
模板获取模块720,用于获取第一文本提取模板和第二文本提取模板,每个文本提取模板包括固定文字片段和变量文字片段,变量文字片段用于提取信息。
片段检测模块740,用于检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件。
模板合并模块760,用于如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;合并后的文本提取模板中位于文字位置的固定文字片段被合并为变量文字片段。
综上所述,本实施例提供的模板合并装置,通过在第一文本提取模板和第二文本提取模板中位于相同的文字位置且内容不同的固定文字片段满足合并条件时,将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;解决了由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小,达到了通过将第一文本提取模板和第二文本提取模板进行合并,减少了文本提取模板的数量,使得合并后的文本提取模板的适用范围更大、覆盖率更高的效果。
请参考图8,其示出了本发明另一个实施例提供的模板合并装置的结构方框图。该装置可通过软件、硬件或者两者的结合实现成为服务器的部分或者全部。该装置可以包括:模板获取模块720、片段检测模块740和模板合并模块760。
模板获取模块720,用于获取第一文本提取模板和第二文本提取模板,每个文本提取模板包括固定文字片段和变量文字片段,变量文字片段用于提取信息。
在一种可能的实现方式中,模板获取模块720,包括:第一获取单元721、模板聚类单元722和模板确定单元723。
第一获取单元721,用于获取若干个文本提取模板。
在一种可能的实现方式中,如图9A所示,第一获取单元721,包括:样本采集子单元721a和字符替换子单元721b。
样本采集子单元721a,用于采集若干个样本通信信息。
字符替换子单元721b,用于将每个样本通信信息中的数字字符串或字母字符串替换为变量文字片段,得到文本提取模板。
模板聚类单元722,用于将相似度达到预定条件的文本提取模板聚类到一个模板集合。
在一种可能的实现方式中,如图9B所示,模板聚类单元722,包括:标识分配子单元722a、标识排序子单元722b、向量检测子单元722c和模板添加子单元722d。
标识分配子单元722a,用于为每个文本提取模板中的固定文字片段分配片段标识ID,内容不同的固定文字片段分配不同的片段ID。
标识排序子单元722b,用于将每个文本提取模板中的各个固定文字片段所对应的片段ID按序排列,得到文本提取模板的模板向量。
向量检测子单元722c,用于检测任意两个文本提取模板的模板向量是否满足预定条件,预定条件包括:len1=len2且diffs<th2且len1≥th3,或者,len1=len2且diffs=th4且len1>th5。
其中,len1表示一个文本提取模板的模板向量的长度,len2表示另一个文本提取模板的模板向量的长度;diffs表示两个文本提取模板的模板向量中位于相同位置的片段ID出现不相同的次数;th2表示第二阈值,th3表示第三阈值,th4表示第四阈值,th5表示第五阈值。
模板添加子单元722d,用于若满足预设条件,则将两个文本提取模板添加至同一个模板集合。
模板确定单元723,用于将模板集合中的任意两个文本提取模板,确定为第一文本提取模板和第二文本提取模板。
片段检测模块740,用于检测在第一文本提取模板和第二文本提取模板中,位于相同的文字位置且内容不同的固定文字片段是否满足合并条件。
在一种可能的实现方式中,片段检测模块740,包括:模板变换单元741和变换检测单元742。
模板变换单元741,用于将第一文本提取模板按照最短编辑距离变换为第二文本提取模板,得到变换操作序列,变换操作序列包括:保留操作、删除操作和插入操作。
变换检测单元742,检测变换操作序列是否满足合并条件。
在一种可能的实现方式中,合并条件包括:
diffs≤th1,且diff 1=diff 2,且max≤M1/2,且max≤M2/2,
或,diffs≤th1,且diff 1与diff 2相连,且max≤M1/2,且max≤M2/2;
其中,diffs表示变换操作序列中删除操作的次数或插入操作的次数,相当于步骤202c中两个文本提取模板的模板向量中位于相同位置的片段ID出现不相同的次数;diff 1表示变换操作序列中删除操作对应的文字位置或插入操作对应的文字位置;diff 2表示变换操作序列中删除操作对应的文字位置或插入操作对应的文字位置;diff 1和diff 2对应的变换操作不相同;max表示变换操作序列中删除操作的内容和插入操作的内容中的字符长度的最大值;M1表示变换操作序列中删除操作的内容或插入操作的内容所在的固定文字片段的字符长度;M2表示变换操作序列中删除操作的内容或插入操作的内容所在的固定文字片段的字符长度;M1和M2对应的变换操作不相同;th1表示第一阈值。
模板合并模块760,用于如果满足合并条件,则将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;合并后的文本提取模板中位于文字位置的固定文字片段被合并为变量文字片段。
综上所述,本实施例提供的模板合并装置,通过在第一文本提取模板和第二文本提取模板中位于相同的文字位置且内容不同的固定文字片段满足合并条件时,将第一文本提取模板和第二文本提取模板进行合并,得到合并后的文本提取模板;解决了由于现有技术中文本提取模板仅将数字字符串或字母字符串替换为变量文字片段,导致文本提取模板的数量较多、单个文本提取模板的适用范围较小,达到了通过将第一文本提取模板和第二文本提取模板进行合并,减少了文本提取模板的数量,使得合并后的文本提取模板的适用范围更大、覆盖率更高的效果。
需要说明的是:上述实施例提供的模板合并的装置在模板合并时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的模板合并的装置与模板合并的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本发明一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的模板合并方法。具体来讲:
所述服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本发明的各种实施例,所述服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法的指令。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种模板合并方法,其特征在于,所述方法包括:
获取第一文本提取模板和第二文本提取模板,每个文本提取模板包括固定文字片段和变量文字片段,所述变量文字片段用于提取信息;
检测在所述第一文本提取模板和所述第二文本提取模板中,位于相同的文字位置且内容不同的所述固定文字片段是否满足合并条件;
如果满足所述合并条件,则将所述第一文本提取模板和所述第二文本提取模板进行合并,得到合并后的文本提取模板;所述合并后的文本提取模板中位于所述文字位置的所述固定文字片段被合并为所述变量文字片段。
2.根据权利要求1所述的方法,其特征在于,所述检测在所述第一文本提取模板和所述第二文本提取模板中,位于相同的文字位置且内容不同的所述固定文字片段是否满足合并条件,包括:
将所述第一文本提取模板按照最短编辑距离变换为所述第二文本提取模板,得到变换操作序列,所述变换操作序列包括:保留操作、删除操作和插入操作;
检测所述变换操作序列是否满足所述合并条件。
3.根据权利要求2所述的方法,其特征在于,
所述合并条件包括:
diffs≤th1,且diff 1=diff 2,且max≤M1/2,且max≤M2/2,
或,diffs≤th1,且diff 1与diff 2相连,且max≤M1/2,且max≤M2/2;
其中,所述diffs表示所述变换操作序列中所述删除操作的次数或所述插入操作的次数;所述diff 1表示所述变换操作序列中所述删除操作对应的文字位置或所述插入操作对应的文字位置;所述diff2表示所述变换操作序列中所述删除操作对应的文字位置或所述插入操作对应的文字位置;所述diff 1和所述diff 2对应的变换操作不相同;所述max表示所述变换操作序列中所述删除操作的内容和所述插入操作的内容中的字符长度的最大值;所述M1表示所述变换操作序列中所述删除操作的内容或所述插入操作的内容所在的所述固定文字片段的字符长度;所述M2表示所述变换操作序列中所述删除操作的内容或所述插入操作的内容所在的所述固定文字片段的字符长度;所述M1和所述M2对应的变换操作不相同;所述th1表示第一阈值。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取第一文本提取模板和第二文本提取模板,包括:
获取若干个所述文本提取模板;
将相似度达到预定条件的所述文本提取模板聚类到一个模板集合;
将所述模板集合中的任意两个文本提取模板,确定为所述第一文本提取模板和所述第二文本提取模板。
5.根据权利要求4所述的方法,其特征在于,所述将相似度达到预定条件的所述文本提取模板聚类到一个模板集合,包括:
为每个所述文本提取模板中的所述固定文字片段分配片段标识ID,内容不同的所述固定文字片段分配不同的所述片段ID;
将每个所述文本提取模板中的各个所述固定文字片段所对应的所述片段ID按序排列,得到所述文本提取模板的模板向量;
检测任意两个所述文本提取模板的所述模板向量是否满足所述预定条件,所述预定条件包括:len1=len2且diffs<th2且len1≥th3,或者,len1=len2且diffs=th4且len1>th5;
若满足所述预设条件,则将两个所述文本提取模板添加至同一个模板集合;
其中,所述len1表示一个文本提取模板的所述模板向量的长度,所述len2表示另一个文本提取模板的所述模板向量的长度;所述diffs表示两个所述文本提取模板的所述模板向量中位于相同位置的所述片段ID出现不相同的次数;所述th2表示第二阈值,所述th3表示第三阈值,所述th4表示第四阈值,所述th5表示第五阈值。
6.根据权利要求4所述的方法,其特征在于,所述获取若干个文本提取模板,包括:
采集若干个样本通信信息;
将每个所述样本通信信息中的数字字符串或字母字符串替换为所述变量文字片段,得到所述文本提取模板。
7.一种模板合并装置,其特征在于,所述装置包括:
模板获取模块,用于获取第一文本提取模板和第二文本提取模板,每个文本提取模板包括固定文字片段和变量文字片段,所述变量文字片段用于提取信息;
片段检测模块,用于检测在所述第一文本提取模板和所述第二文本提取模板中,位于相同的文字位置且内容不同的所述固定文字片段是否满足合并条件;
模板合并模块,用于如果满足所述合并条件,则将所述第一文本提取模板和所述第二文本提取模板进行合并,得到合并后的文本提取模板;所述合并后的文本提取模板中位于所述文字位置的所述固定文字片段被合并为所述变量文字片段。
8.根据权利要求7所述的装置,其特征在于,所述片段检测模块,包括:
模板变换单元,用于将所述第一文本提取模板按照最短编辑距离变换为所述第二文本提取模板,得到变换操作序列,所述变换操作序列包括:保留操作、删除操作和插入操作;
变换检测单元,检测所述变换操作序列是否满足所述合并条件。
9.根据权利要求8所述的装置,其特征在于,
所述合并条件包括:
diffs≤th1,且diff 1=diff 2,且max≤M1/2,且max≤M2/2,
或,diffs≤th1,且diff 1与diff 2相连,且max≤M1/2,且max≤M2/2;
其中,所述diffs表示所述变换操作序列中所述删除操作的次数或所述插入操作的次数;所述diff 1表示所述变换操作序列中所述删除操作对应的文字位置或所述插入操作对应的文字位置;所述diff2表示所述变换操作序列中所述删除操作对应的文字位置或所述插入操作对应的文字位置;所述diff 1和所述diff 2对应的变换操作不相同;所述max表示所述变换操作序列中所述删除操作的内容和所述插入操作的内容中的字符长度的最大值;所述M1表示所述变换操作序列中所述删除操作的内容或所述插入操作的内容所在的所述固定文字片段的字符长度;所述M2表示所述变换操作序列中所述删除操作的内容或所述插入操作的内容所在的所述固定文字片段的字符长度;所述M1和所述M2对应的变换操作不相同;所述th1表示第一阈值。
10.根据权利要求7至9任一所述的装置,其特征在于,所述模板获取模块,包括:
第一获取单元,用于获取若干个所述文本提取模板;
模板聚类单元,用于将相似度达到预定条件的所述文本提取模板聚类到一个模板集合;
模板确定单元,用于将所述模板集合中的任意两个文本提取模板,确定为所述第一文本提取模板和所述第二文本提取模板。
11.根据权利要求10所述的装置,其特征在于,所述模板聚类单元,包括:
标识分配子单元,用于为每个所述文本提取模板中的所述固定文字片段分配片段标识ID,内容不同的所述固定文字片段分配不同的所述片段ID;
标识排序子单元,用于将每个所述文本提取模板中的各个所述固定文字片段所对应的所述片段ID按序排列,得到所述文本提取模板的模板向量;
向量检测子单元,用于检测任意两个所述文本提取模板的所述模板向量是否满足所述预定条件,所述预定条件包括:len1=len2且diffs<th2且len1≥th3,或者,len1=len2且diffs=th4且len1>th5;
模板添加子单元,用于若满足所述预设条件,则将两个所述文本提取模板添加至同一个模板集合;
其中,所述len1表示一个文本提取模板的所述模板向量的长度,所述len2表示另一个文本提取模板的所述模板向量的长度;所述diffs表示两个所述文本提取模板的所述模板向量中位于相同位置的所述片段ID出现不相同的个数;所述th2表示第二阈值,所述th3表示第三阈值,所述th4表示第四阈值,所述th5表示第五阈值。
12.根据权利要求10所述的装置,其特征在于,所述第一获取单元,包括:
样本采集子单元,用于采集若干个样本通信信息;
字符替换子单元,用于将每个所述样本通信信息中的数字字符串或字母字符串替换为所述变量文字片段,得到所述文本提取模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610493881.4A CN107544949B (zh) | 2016-06-29 | 2016-06-29 | 模板合并方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610493881.4A CN107544949B (zh) | 2016-06-29 | 2016-06-29 | 模板合并方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107544949A true CN107544949A (zh) | 2018-01-05 |
CN107544949B CN107544949B (zh) | 2020-01-31 |
Family
ID=60962874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610493881.4A Active CN107544949B (zh) | 2016-06-29 | 2016-06-29 | 模板合并方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107544949B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509401A (zh) * | 2018-03-05 | 2018-09-07 | 平安普惠企业管理有限公司 | 合同生成方法、装置、计算机设备和存储介质 |
CN111143312A (zh) * | 2019-12-24 | 2020-05-12 | 广东电科院能源技术有限责任公司 | 一种电力日志的格式解析方法、装置、设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186509A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 通配符类模板泛化方法和装置、通用模板泛化方法和系统 |
-
2016
- 2016-06-29 CN CN201610493881.4A patent/CN107544949B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186509A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 通配符类模板泛化方法和装置、通用模板泛化方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509401A (zh) * | 2018-03-05 | 2018-09-07 | 平安普惠企业管理有限公司 | 合同生成方法、装置、计算机设备和存储介质 |
CN111143312A (zh) * | 2019-12-24 | 2020-05-12 | 广东电科院能源技术有限责任公司 | 一种电力日志的格式解析方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107544949B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619568A (zh) | 风险评估报告的生成方法、装置、设备及存储介质 | |
US11373441B2 (en) | Apparatus and method for coordinating the matching and initial communications between individuals in a dating application | |
CN109831665A (zh) | 一种视频质检方法、系统及终端设备 | |
CN110895568B (zh) | 处理庭审记录的方法和系统 | |
CN110598008B (zh) | 录制数据的数据质检方法及装置、存储介质 | |
CN107295082A (zh) | 软件运行处理方法、装置及系统 | |
CN111738083B (zh) | 一种人脸识别模型的训练方法和装置 | |
CN108153719A (zh) | 合并电子表格的方法和装置 | |
CN109829069A (zh) | 图像审核处理方法、装置、电子设备及存储介质 | |
CN109828900A (zh) | 测试脚本自动生成方法、装置、电子设备及存储介质 | |
CN105893615A (zh) | 基于手机取证数据的机主特征属性挖掘方法及其系统 | |
CN111815169A (zh) | 业务审批参数配置方法及装置 | |
CN106445918A (zh) | 一种中文地址处理方法及系统 | |
CN107729491A (zh) | 提高题目答案搜索的准确率的方法、装置及设备 | |
CN108549654A (zh) | 一种基于图像处理的大数据分析方法 | |
CN107544949A (zh) | 模板合并方法及装置 | |
WO2024179575A1 (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN111738078A (zh) | 一种人脸识别方法和装置 | |
CN114416986A (zh) | 一种文本数据清洗方法、装置及存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN105955961A (zh) | 预约信息处理方法和装置 | |
CN109657148A (zh) | 针对上报poi的异常操作识别方法、装置、服务器和介质 | |
CN112434547B (zh) | 一种用户身份稽核方法和设备 | |
CN107589965A (zh) | 一种软件开发方法及装置 | |
CN107506407A (zh) | 一种文件分类、调用的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |