CN111291547A - 模板生成方法、装置、设备及介质 - Google Patents
模板生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111291547A CN111291547A CN202010069754.8A CN202010069754A CN111291547A CN 111291547 A CN111291547 A CN 111291547A CN 202010069754 A CN202010069754 A CN 202010069754A CN 111291547 A CN111291547 A CN 111291547A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- template
- character
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000005065 mining Methods 0.000 claims abstract description 126
- 230000010354 integration Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000010408 sweeping Methods 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 235000019013 Viburnum opulus Nutrition 0.000 description 1
- 244000071378 Viburnum opulus Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种模板生成方法、装置、设备及介质,其中方法包括:获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;根据所述目标序列模式生成所述目标文本类型对应的文本模板。采用本发明实施例可以实现无监督地生成文本模板,降低成本并提升模板生成效率。
Description
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种模板生成方法、一种模板生成装置、一种计算机设备及一种计算机存储介质。
背景技术
随着数据文本以各种形式存在和爆炸式增长,从大规模的数据文本中抽取出相关的文本模板成为许多业务场景下提炼数据能力的必要需求。目前,获取文本模板的方法大致分为两种:基于统计的模板抽取方法和基于机器学习的模板抽取方法。其中,基于统计的模板抽取方法的原理为:先通过人工观察和整理数据规律,总结得到数据文本中蕴含的模板信息;其次将总结得到的模板信息转换为固定的匹配样式,即采用总结得到的模板信息创建一个结构化的表示形式;然后将转换后的结构化、半结构化的表达形式作为文本模板。而基于机器学习的模板抽取方法的原理为:先由标注人员对文本进行词性标注和句法分析,确定文本中的动词词组、名词词组等句法成分;然后根据确定出的句法成分将相关信息从文本中抽取出来以生成文本模板。由此可见,目前获取文本模板的两种方法均需要标注人员预先对文本进行标注或整理,然后根据标注人员整理得到的信息进行有监督地模板抽取;其需要消耗大量的人力成本,模板抽取效率较低。
发明内容
本发明实施例提供了一种模板生成方法、装置、设备及介质,可以实现无监督地生成文本模板,降低成本并提升模板生成效率。
一方面,本发明实施例提供了一种模板生成方法,该模板生成方法包括:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
另一方面,本发明实施例提供了一种模板生成装置,该模板生成装置包括:
获取单元,用于获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
处理单元,用于对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
所述处理单元,用于对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
所述处理单元,用于根据所述目标序列模式生成所述目标文本类型对应的文本模板。
再一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
本发明实施例在获取到目标文本类型下的样本文本集后,可先对样本文本集进行频繁序列模式挖掘,从而挖掘出样本文本集中各个样本文本之间潜在的样式和规律,得到多个序列模式。然后,可对多个序列模式进行规则整合,得到目标文本类型的目标序列模式;并可根据目标序列模式自动生成目标文本类型对应的文本模板。在上述模板生成过程中,无需标注人员预先对样本文本集中的各个样本文本进行标注,可实现无监督地生成文本模板,有效节省人力成本并提升模板生成效率;并且,通过序列模式自动生成文本模板,无需经过繁杂的特征构建和模型训练流程,可进一步降低生成文本模板的成本,提升模板生成效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种获取文本的示意图;
图2是本发明实施例提供的一种模板生成方法的流程示意图;
图3是本发明另一实施例提供的一种模板生成方法的流程示意图;
图4是本发明另一实施例提供的一种模板生成方法的流程示意图;
图5a是本发明实施例提供的一种文本模板的应用场景图;
图5b是本发明实施例提供的另一种文本模板的应用场景图;
图6a是本发明实施例提供的另一种文本模板的应用场景图;
图6b是本发明实施例提供的另一种文本模板的应用场景图;
图7是本发明实施例提供的一种模板生成装置的结构示意图;
图8是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
文本,是指书面语言的表现形式。一个文本中可包括多个字符,该字符可包括以下至少一种:中文字符(即汉字)、英文字符(即字母)、数字和标点符号(如逗号“,”、句号“。”、方括号“【】”),等等。大多数的文本通常均具有相应的文本模板,所谓的文本模板是指同一文本类型下的各个文本共同具有的固定格式,其是将同一文本类型下的各个文本之间的共同结构规律转换为固定化、结构化的成果。此处的文本类型可包括但不限于:数据报表文本类型、订单文本类型、广告语文本类型、祝福语文本类型、网页文本类型,等等。例如,以文本类型为经营分析的收入数据报表类型为例,该数据报表类型下的多个(如3个)文本可参见表1所示:
表1
那么,该数据报表类型所对应的文本模板便为“2019年XX月份常规收入中,四大区域应收占总应收比XX%,KPI完成率XX%;被集成项目应收XX万,占1-XX月常规总应收的XX%。产品维度上,大数据与AI收入XX万元,孵化产品收入XX万元。”其中,XX表示数据报表类型下的各个文本之间存在差异的地方,即表1所述的3个文本之间存在数值差异的地方。
经研究表明,数据文本通常具备来源广泛、文本内容形式不固定、文本规律不直观等特点;且不同的文本类型通常对应不同的文本模板,同一文本类型也可能对应不同的文本模板。基于此,本发明实施例提出了一种模板生成方案,以实现无监督地自动生成各文本类型所对应的文本模板,降低模板生成成本并提升模板生成效率。该模板生成方案可由计算机设备执行;此处的计算机设备可包括但不限于:智能手机、平板电脑、膝上计算机、台式电脑等终端设备、或者数据处理服务器、web服务器、应用服务器等服务设备。在具体实现中,计算机设备可先从本地的数据库、各个网站、应用程序(application,APP)、终端、数据服务器等一处或多处地方获取同一文本类型下的多个样本文本,如图1所示。其次,可采用序列模式挖掘算法对这多个样本文本进行频繁序列模式挖掘;此处的序列模式挖掘是指从多个样本文本中找出序列模式的处理过程,而序列模式则是指由一个或多个字频大于频率阈值的字符按照在样本文本中出现的顺序依次排列所构成的文本。然后,可根据挖掘结果自动生成文本模板。
本发明实施例所提出的模板生成方案具有如下优势:①无需预先建立相关领域知识和规则库,能够完全无监督地对文本进行挖掘以抽取出文本中潜在的文本模板,可节省人力成本;且无需经过繁杂的特征构建和训练模型流程,在实际应用(如工业应用)中具有高效率、底成本的特点,更能满足实际应用的要求。②基于频繁序列模式挖掘的方式,通过设置一个频率度阈值对文本进行多轮递归挖掘,能够有效提高模板挖掘的查全率和查准率。③对于不同文本类型的文本,无需预先界定文本的来源、内容和形式;针对任一文本类型,均可对该文本类型下的多个文本进行频繁序列模式挖掘,得到对应的文本模板,其适用性较高。
基于上述的描述,本发明实施例提出一种模板生成方法,该模板生成方法可以由上述所提及的计算机设备执行。在本发明实施例中,主要以生成中文字符的文本模板为例进行说明;而如何生成英文字符的文本模板可以参见本发明实施例的具体实施方式。请参见图2,该模板生成方法可包括以下步骤S201-S204:
S201,获取目标文本类型下的样本文本集。
计算机设备可从本地的数据库中获取目标文本类型下的样本文本集,也可以从互联网或其他设备处获取目标文本类型下的样本文本集。此处的目标文本类型可以包括以下任一项:数据报表文本类型、订单文本类型、广告语文本类型、祝福语文本类型、网页文本类型,等等。目标文本类型下的样本文本集中可包括多个样本文本,且每个样本文本中可包括多个字符。其中,字符可包括以下至少一项:中文字符(即汉字)、英文字符(即字母)、数字、标点符号、占位符,等等;所谓的占位符是指先占住一个固定位置,以便于后续往此固定位置添加内容的符号,例如空格符。
S202,对样本文本集进行频繁序列模式挖掘,得到多个序列模式。
经实践表明,当同一文本类型下的各个文本之间蕴含着较为固定的模板样式时,该固定的模板样式的特点与各个文本中一起频繁出现的字序列模式相关。因此,本发明实施例在进行生成文本模板时,可先对样本文本集进行频繁序列模式挖掘,得到多个序列模式,以便于后续根据这多个序列模式生成文本模板。其中,频繁序列模式挖掘是指采用一个频率阈值对样本文本集进行多次序列模式挖掘的过程;而序列模式挖掘是指从样本文本集中找出序列模式的处理过程。此处的序列模式是指由一个或多个字频大于频率阈值的字符按照在样本文本中出现的顺序依次排列所构成的文本,即每个序列模式中的各字符的字频大于频率阈值;例如,设总共有3个字符(如中、订、我)的字频大于频率阈值,且字符“中”在样本文本中出现的顺序早于字符“订”在样本文本中出现的顺序,而字符“订”在样本文本中出现的顺序早于字符“我”在样本文本中出现的顺序;那么序列模式可以包括:“中”“订”“我”“中订”“订我”“中订我”等等。
需要说明的是,本发明实施例所提及的字符的字频用于反映样本文本集中包含字符的样本文本的数量,而并不是指字符出现在样本文本集中的次数。例如,设样本文本集中包括3个样本文本,其分别是:样本文本1“A店的店铺收款码”、样本文本2“旗舰店-扫码”以及样本文本3“超市收款码”。虽然字符“店”在样本文本集中出现的次数为3,但是样本文本集中只有样本文本1和样本文本2等2个样本文本包含了字符“店”。因此,字符“店”的字频为2,而不是为3。
S203,对多个序列模式进行规则整合,得到目标文本类型的目标序列模式。
由于在对样本文本集中的各个样本文本进行频繁序列模式挖掘时,是以1个字符为挖掘单位并按照从前往后的顺序,依次判断各字符的字频是否大于频率阈值的方式进行挖掘的。因此,频繁序列模式挖掘得到的多个序列模式中,通常会出现一些冗余的序列模式;此处的冗余的序列模式是指对文本模板的生成没有参考价值的序列模式。例如,针对只包含1个字符的序列模式而言,由于其无法生成文本模板,那么可将只包含1个字符的序列模式作为冗余的序列模式。又如,由于本发明实施例是为了生成中文字符的文本模板,那么未包含中文字符的序列模式(如只包含英文字符和数字的序列模式)对于文本模板的生成就没有任何参考价值,那么可将未包含中文字符的序列模式作为冗余的序列模式。再如,由于序列模式“中订我”包含的参考信息比序列模式“中订”包含的参考信息多,在生成文本模板时,通常会选择序列模式“中订我”作为参考,而不会选择序列模式“中订”作为参考;那么若同时存在序列模式“中订”和“中订我”,则可将“中订”视为冗余的序列模式。而由于这些冗余的序列模式对文本模板的生成无任何参考价值,因此为了提高生成文本模板的准确性和效率,本发明实施例可先对多个序列模式进行规则整合,得到目标文本类型的目标序列模式。其中,规则整合是指消除多个序列模式中的冗余的序列模式的处理。
在具体实现中,可先从多个序列模式中筛选出有效序列模式,有效序列模式是指包含中文字符且序列长度大于长度阈值的序列模式。其中,长度阈值可根据经验值或者实际业务需求设置;例如可设置长度阈值为1。序列长度为序列模式中的字符的数量;例如,针对序列模式“中订”而言,其包含了2个字符,则该序列模式“中订”的序列长度为2;又如,针对序列模式“中”而言,其包含了1个字符,则该序列模式“中”的序列长度为1。相应的,从多个序列模式中筛选出有效序列模式的具体实施方式可以是:直接从多个序列模式中选取包含中文字符且序列长度大于长度阈值的序列模式作为有效序列模式。或者在所述多个序列模式中过滤掉序列长度小于或等于长度阈值的序列模式,以及去除未包含中文字符的序列模式,从而得到有效序列模式;此处的未包含中文字符的序列模式可包括以下三种:只包含英文字符的序列模式、只包含数字的序列模式、以及只包含英文字符和数字的序列模式。应理解的是,上述所提及的有效序列模式的定义可以根据服务信息模板的类型进行调整。例如,由于本发明实施例是以生成中文字符的服务信息模板为例进行说明的,所以将有效序列模式定义为了包含中文字符且序列长度大于长度阈值的序列模式;而在实际应用中,若需要生成英文字符的服务信息模板,则有效序列模式便是指未包含英文字符且序列长度大于长度阈值的序列模式。
在筛选出有效序列模式后,可对筛选出的有效序列模式进行子序列模式的过滤处理,从而得到目标文本类型的目标序列模式。具体的,针对任一有效序列模式,可检测筛选出的有效序列模式中是否存在该任一有效序列模式的超序列;若不存在,则可将该任一有效序列模式作为目标文本类型的目标序列模式。其中,超序列的定义如下:针对序列模式A={a1,a2,…,an}和序列模式B={b1,b2,…,bm},n≤m,如果存在数字序列1≤j1≤j2≤…≤jn≤m,满足 则称序列模式A是序列模式B的子序列,或序列模式B是序列模式A的超序列。也就是说,本发明实施例所提及的超序列是指包含了该任一有效序列模式中的所有字符,且存在至少一个字符不属于该任一有效序列模式的序列模式。例如,设有两个序列模式:“中订”和“中订我”;针对序列模式“中订”而言,由于序列模式“中订我”包含了序列模式“中订”中的所有字符,且存在字符“我”不属于该序列模式“中订”。因此,序列模式“中订”存在超序列(即序列模式“中订我”),那么序列模式“中订”便不能作为目标文本类型的目标序列模式。
S204,根据目标序列模式生成目标文本类型对应的文本模板。
在得到目标序列模式之后,便可根据目标序列模式生成目标文本类型对应的文本模板。在一种实施方式中,可直接根据目标序列模式生成目标文本类型对应的文本模板;具体的,若目标序列模式中存在占位符,则可采用至少一个标识符号替换该目标序列模式中的占位符,得到目标文本类型所对应的文本模板。再一种实施方式中,可先根据目标序列模式中的各字符在至少一个样本文本中的排列位置,对目标序列模式进行模板转换,得到目标文本类型的初始模板;其模板转换的原理为:若目标序列模式存在相邻的两个字符在一个或多个样本文本中的排列位置是非相邻的,则在该相邻的两个字符之间添加占位符。在得到初始模板之后,可按照正则规则对初始模板进行正则转换,得到目标文本类型的文本模板。其中,正则规则包括:采用至少一个标识符号替换初始模板中的占位符。上述所提及的标识符号可用于指示:在文本模板中该标识符号所处的位置上至少存在一个中文字符;例如,文本模板中第5个排列位置为标识符号,则表明该文本模板中的第5个排列位置处至少存在一个中文字符。该标识符号可根据实际需求设置,例如可设置为“××”“.*”,等等。
本发明实施例在获取到目标文本类型下的样本文本集后,可先对样本文本集进行频繁序列模式挖掘,从而挖掘出样本文本集中各个样本文本之间潜在的样式和规律,得到多个序列模式。然后,可对多个序列模式进行规则整合,得到目标文本类型的目标序列模式;并可根据目标序列模式自动生成目标文本类型对应的文本模板。在上述模板生成过程中,无需标注人员预先对样本文本集中的各个样本文本进行标注,可实现无监督地生成文本模板,有效节省人力成本并提升模板生成效率;并且,通过序列模式自动生成文本模板,无需经过繁杂的特征构建和模型训练流程,可进一步降低生成文本模板的成本,提升模板生成效率。
请参见图3,是本发明实施例提供的另一种模板生成方法的流程示意图。该模板生成方法可以由上述所提及的计算机设备执行。在本发明实施例中,主要以生成中文字符的文本模板为例进行说明;而如何生成英文字符的文本模板可以参见本发明实施例的具体实施方式。请参见图3,该模板生成方法可包括以下步骤S301-S305:
S301,获取目标文本类型下的样本文本集;样本文本集中可包括多个样本文本,且每个样本文本中包括多个字符。
在具体实施过程中,可以先获取目标文本类型下的初始文本集;具体的,可以从本地的数据库、互联网或者其它设备处获取目标文本类型下的多个原始文本,然后对多个原始文本进行文本预处理,得到目标文本类型下的多个初始文本,并将采用多个初始文本构建初始文本集。其中,文本预处理可包括以下至少一项:对多个原始文本进行去重处理、过滤无效原始文本、对有效原始文本进行中文字符的字体转换(如从繁体转换为简体)、以及对有效原始文本进行英文字符的大小写转换(如将大写字母转换为小写字母)。其中,无效原始文本是指未包含中文字符的原始文本;例如,空文本、只包含英文字符或数字的原始文本、只包含英文字符和数字的原始文本,等等。有效原始文本则是指包含中文字符的原始文本。在一种实施方式中,若对文本模板不具有标点符号的需求,则为避免标点符号对后续序列模式挖掘的影响,文本预处理还可包括:采用占位符(如空格符)替换原始文本中的各个标点符号。应理解的是,上述所提及的无效原始文本和有效原始文本的定义可以根据服务信息模板的类型进行调整。例如,由于本发明实施例是以生成中文字符的服务信息模板为例进行说明的,所以将无效原始文本定义为了未包含中文字符的原始文本;而在实际应用中,若需要生成英文字符的服务信息模板,则无效原始文本便是指未包含英文字符的原始文本。
在获取到目标文本类型下的初始文本集后,可直接将初始文本集作为目标文本类型下的样本文本集。另一种实施方式中,由于初始文本集中的各个初始文本中通常存在一些低频字符,所谓的低频字符是指字频小于某个阈值的字符;而这个低频字符通常不具备代表性,是不应该被挖掘出以用来构成文本模板的。因此,为了提高文本模板的生成效率以及准确性,本发明实施例还可预先设置一个文本阈值(即文本行最小支持度)以对初始文本进行字符过滤,使得将初始文本中字频小于该文本阈值的字符过滤掉。其中,文本阈值的设置方式可参见如下计算公式:
文本阈值=文本行数×行最小支持率行最小支持率∈(0.5,1]
此处的文本行数是指初始文本集中的初始文本的数量,行最小支持率可根据经验值设置。本发明实施例以行最小支持率的取值为1进行说明,若初始文本集包括4个初始文本,则文本阈值为4*1=4。相应的,在得到初始样本集后,可统计初始样本集中的各个字符的字频;字符的字频等于初始样本集中包含该字符的初始样本的数量。然后,根据文本阈值和各个字符的字频,对初始文本集中的各个初始文本进行字符过滤,得到目标文本类型下的样本文本集;样本文本集中的各个样本文本中的各个字符的字频大于文本阈值。本发明实施例先通过文本阈值的设置将字频达不到文本阈值的字符过滤,可极大地提高频繁序列模式挖掘的效率;尤其是针对字符数量较多的长文本而言,可在较大程度上缩短挖掘时间,极大地提高了挖掘效率。应理解的是,由于样本文本是通过过滤掉初始文本中的低频字符所得到的,其初始样本的数量和样本文本的数量是相同的,且样本文本中的各字符必然是存在于初始文本中的;因此对各个初始文本进行字符过滤,并不会改变字符的字频。
下面以目标文本类型为订单文本类型为例,设目标文本类型下的初始文本集中共有2个初始文本,如表2所示:
表2
初始文本1 | 北亭广场店-支付扫码 |
初始文本2 | 旗舰店-扫码 |
统计初始文本集中的各个字符的字频,可得到表3:
表3
北 | 亭 | 广 | 场 | 店 | - | 支 | 付 | 扫 | 码 | 旗 | 舰 |
1 | 1 | 1 | 1 | 2 | 2 | 1 | 1 | 2 | 2 | 1 | 1 |
设行最小支持率为1,则文本阈值为2,那么根据文本阈值对表2中的两个初始文本进行字符过滤,可得到如表4所示的样本文本集:
表4
样本文本1 | 店-扫码 |
样本文本2 | 店-扫码 |
S302,对样本文本集进行频繁序列模式挖掘,得到多个序列模式。
在具体实现中,步骤S302的一种实施方式可以是:采用序列模式挖掘算法对样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值。此处的序列模式挖掘算法可包括但不限于:PrefixSpan(Prefix-ProjectedPattern Growth,前缀投影的模式挖掘)算法、Apriori(挖掘关联规则的频繁项集)算法、GSP(Generalized Sequential Pattern mining algorithm)算法,等等。其中,PrefixSpan算法的原理如下:设置频率阈值(即频率最小支持度),并基于该频率阈值从样本文本集中的各个样本文本中挖掘出满足该频率阈值的各个序列长度的序列模式;其中,频率阈值的设置方式可参见如下计算公式:
min_sup=a×n
此处的min_sup表示频率阈值(即频率最小支持度),n表示样本文本集中的样本文本的数量。a为频率最小支持率,a∈(0,1];a的具体取值可根据样本文本集的量级进行调整。例如,若样本文本集的量级较大(如包含1000个样本文本),则a的取值可以为1;若样本文本集的量级较小(如只包含10个样本文本),则a的取值可以为2/3。
下面以采用PrefixSpan算法进行频繁序列模式挖掘为例,对样本文本集进行频繁序列模式挖掘的具体流程进行阐述,其具体可包括步骤①-④:
①统计样本文本集中的各个字符的字频;
②将字频大于频率阈值的每个字符均作为一个前缀,并获取各个一项前缀的投影数据集。投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于该前缀后的字符所构成。可选的,若样本文本中存在空格符,则前缀所对应的后缀由一个样本文本中位于该前缀后的字符和空格符构成。例如,承接表4的例子,并设频率最小支持率为0.5,那么频率阈值(即频率最小支持度)为0.5*2=1;由于样本文本集中的各个字符的字频均大于1,因此可得到4个前缀:“店”“-”“扫”“码”。针对一项前缀“店”而言,其在样本文本1中的后缀为“-扫码”;其在样本文本2中的后缀也为“-扫码”,因此,一项前缀“店”的投影数据集可包括:“-扫码”和“-扫码”。那么,表4所示的样本文本集所对应的一项前缀和投影数据集可参见表5所示:
表5
③对所有长度为i且大于频率阈值要求的前缀进行递归挖掘:
1)挖掘当前前缀的投影数据集,如果投影数据集为空集合,则返回递归。
2)根据当前前缀的投影数据集中各后缀中的各字符的字频,将各后缀中大于频率阈值的字符分别与当前前缀合并,得到新前缀;若不存在大于频率阈值的字符,则返回递归。例如,以表5中的一项前缀“店”为例,其对应的后缀中的各个字符的字频均大于频率阈值,因此可得到二项前缀“店-”“店扫”“店码”。同理,还可对其他表5中的其他一项前缀的投影数据集进行挖掘,从而得到表6所示的二项前缀和对应的投影数据集。
表6
3)令i=i+1,前缀为合并后的各个新前缀,分别递归执行第3步;直至挖掘得到的投影数据集为空。例如,由于表6中存在投影数据集不为空,因此可继续对表6中的各个二项前缀的投影数据集进行挖掘,可得到表7所示的三项前缀及对应的投影数据集。
表7
对表7中的各个三项前缀的投影数据集进行递归挖掘,可得到表8所示的四项前缀及对应的投影数据集。
表8
四项前缀 | 对应的投影数据集 |
店-扫码 |
④返回递归挖掘得到的所有前缀,并采用各个前缀分别序列模式,一个前缀对应一个序列模式。例如,采用表5-表8中的各个前缀,可构建得到15个序列模式:“店”“-”“扫”“码”“店-”“店扫”“店码”“-扫”“-码”“扫码”“店-扫”“店-码”“店扫码”“-扫码”“店-扫码”。
经实践表明:采用上述的PrefixSpan算法对样本文本集进行频繁序列模式挖掘,会得到较多冗余前缀;此处的冗余前缀是指相邻的两个字符之间缺失了字频大于频率阈值的前缀。例如,表6中所示的二项前缀“店扫”,其包含的“店”和“扫”之间缺失了字频大于频率阈值的字符“-”;则二项前缀“店扫”为冗余前缀。由于采用冗余前缀所构建的序列模式必然会存在超序列,如采用二项前缀“店扫”构建的序列模式“店扫”必然存在超序列“店-扫”;而由前述可知,在后续的规则整合中存在超序列的序列模式必然会被过滤掉。因此,生成冗余前缀对后续的文本模板的生成无任何参考价值,其只会增加模式挖掘的工作量,降低挖掘效率。基于此,本发明实施例还提出了一种改进的PrefixSpan算法,以减少冗余前缀的生成;相对于现有的PrefixSpan算法,本发明实施例所提出的改进的PrefixSpan算法的改进点在于:在对任一前缀的投影数据集的任一个后缀进行挖掘时,按照从前往后的顺序依次对后缀中的字符进行检测;若当前检测的字符的字频大于频率阈值,则停止查找,并采用当前检测的字符和对应的前缀进行合并;否则,则继续检测下一个字符的字频是否大于频率阈值,以此类推。相应的,本发明实施例所提出的改进的PrefixSpan算法进行频繁序列模式挖掘时,步骤S302的另一种具体实施方式可包括以下步骤s11-s13:
s11,根据样本文本集中的各个字符的字频,从样本文本集中选取多个一项前缀,每个一项前缀由一个字频大于频率阈值的字符构成。
s12,采用各个一项前缀分别构建序列模式,并获取各个一项前缀的投影数据集。
步骤s11-s12的具体实施方式与上述算法中的步骤②的具体实施方式类似,在此不再赘述。也就是说,承接表4所示的样本文本集,可通过步骤s11-s12得到表5所示的一项前缀和对应的投影数据集。
s13,对各个一项前缀的投影数据集进行递归挖掘,得到N项前缀;并采用N项前缀分别构建序列模式;N为大于一的正整数。
在步骤s13的具体实施过程中,可先对各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集。具体的,可从任意一项前缀的投影数据集中选取任一个后缀作为目标后缀,并根据频率阈值从目标后缀中获取待合并字符。其中,待合并字符满足如下条件:待合并字符的字频大于频率阈值,且目标后缀中位于待合并字符之前的各字符的字频均小于或等于频率阈值。其次,可合并任意一项前缀和待合并字符,得到二项前缀;并可从任意一项前缀的投影数据集中确定包含待合并字符的待构建后缀,待构建后缀至少包括目标后缀。然后,可删除待构建后缀中位于待合并字符之前的字符以及待合并字符,得到二项前缀所对应的后缀;并将二项前缀所对应的后缀添加至二项前缀的投影数据集中。若任意一项前缀对应的投影数据集中的各后缀均被选取,则结束对任意一项前缀的投影数据集的挖掘。
下面以表5中的一项前缀“店”为例,对步骤s13的具体实施方式作进一步举例说明:参见表5可知,一项前缀“店”的投影数据集包括两个后缀。可先选取第一个后缀作为目标后缀,由于该目标后缀的第一个字符“-”的字频大于频率阈值,因此可将该目标后缀中的第一个字符“-”作为待合并字符;并将该字符“-”和一项前缀“店”进行合并,得到二项前缀“店-”。而虽然该后缀的第二个字符“扫”的字频也大于频率阈值,但是由于字符“扫”前面存在字符“-”的字频大于频率阈值,因此字符“扫”无法作为待合并字符和一项前缀“店”进行合并,从而可避免生成冗余前缀“店扫”。在得到二项前缀“店-”后,可从一项前缀“店”的投影数据集中确定包含待合并字符“-”的待构建后缀有两个:第一个后缀(即目标后缀)和第二个后缀。其次,可分别删除各个待构建后缀“-扫码”中位于字符“-”之前的字符以及字符“-”,从而得到二项前缀“店-”所对应的后缀“扫码”和“扫码”。然后,可将得到的后缀添加至二项前缀“店-”的投影数据集中。同理,还可继续选取一项前缀“店”的投影数据集的第二个后缀作为目标后缀,并执行上述步骤。并且,针对表5中的每一个一项前缀,均可执行上述步骤,从而可得到9所示的二项前缀和对应的投影数据集。
表9
在挖掘得到二项前缀以及各个二项前缀的投影数据集,可判断各个二项前缀的投影数据集是否满足结束条件;结束条件包括:挖掘得到的投影数据集为空,或者挖掘得到的投影数据集中各字符的字频小于或等于频率预设阈值。若各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,则对不满足结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集。若各个三项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足结束条件。例如,由于表9中存在2个二项前缀(即“店-”和“-扫”)的投影数据集不满足结束条件,因此可继续对这2个二项前缀的投影数据集进行挖掘,得到如表10所示的三项前缀和各个三项前缀的投影数据集。
表10
由于表10中仍存在1个三项前缀(即“店-扫”)的投影数据集不满足结束条件,因此可继续对这1个三项前缀的投影数据集进行挖掘,得到如表11所示的四项前缀和各个四项前缀的投影数据集。
表11
四项前缀 | 对应的投影数据集 |
店-扫码 |
由于挖掘得到的四项前缀的投影数据集为空,即挖掘得到的投影数据集满足了结束条件;因此,可结束递归挖掘。在得到一项前缀后,可分别采用一项前缀构建序列模式;同理,在得到N项前缀之后,也可分别采用N项前缀构建序列模式,从而可构建得到10个序列模式:“店”“-”“扫”“码”“店-”“-扫”“扫码”“店-扫”“-扫码”“店-扫码”。
由此可见,本发明实施例所提出的改进的PrefixSpan算法适用了一种“滚雪球”的方法和思路;即每一轮挖掘均设置一个频率阈值保证序列模式挖掘的准确性,然后通过多轮递归挖掘提高序列模式的查全率。并且,采用本发明实施例所提出的改进的PrefixSpan算法进行频繁序列模式挖掘,可有效减少冗余前缀的生成,提高挖掘效率。
S303,对多个序列模式进行规则整合,得到目标文本类型的目标序列模式。
S304,根据目标序列模式中的各字符在至少一个样本文本中的排列位置,对目标序列模式进行模板转换,得到目标文本类型的初始模板。
在得到多个序列模式后,可先通过步骤S303对多个序列模式进行规则整合,得到目标文本类型的目标序列模式;其具体实施方式可以参见上述发明实施例中的步骤S203,在此不再赘述。以采用改进的PrefixSpan算法挖掘得到10个序列模式为例,通过步骤S303可得到目标文本类型的目标序列模式为“店-扫码”。在得到目标序列模式之后,可执行步骤S304以得到目标文本类型的初始模板。
在一种实施方式中,步骤S304的具体实施方式可以是:先根据目标序列模式中各字符在任一样本文本中的排列位置,确定目标序列模式中各字符的位置索引;此处的位置索引用于指示字符在样本文本中的排列位置。例如,以选取表4所示的样本文本1“北亭广场店-支付扫码”作为任一样本文本为例,目标序列模式“店-扫码”中各个字符的位置索引可以参见表12所示:
表12
字符 | 北 | 亭 | 广 | 场 | 店 | - | 支 | 付 | 扫 | 码 |
位置索引 | 5 | 6 | 7 | 8 |
在得到目标序列模式中各字符的位置索引后,可在目标序列模式中的位置索引不连续的字符之间添加占位符,得到目标文本类型的初始模板。例如,参见表12可知,目标序列模式中的字符“-”和字符“扫”的位置索引不连续,则可在字符“-”和字符“扫”添加占位符(如空格符)。可选的,若目标序列模式中的第一个字符在任一样本文本中的排列位置为非首位,则可在该目标序列模式中的第一个字符前添加占位符。例如,参见表12可知,目标序列模式中的字符“店”在样本文本1中的排列位置为第5位(即非首位),则可在字符“店”之前添加占位符(如空格符),从而可得到初始模板为“(空格符)店-(空格符)扫码”(即“店-扫码”)。
需要说明的是,若根据选取的任一样本文本确定的位置索引,使得目标序列模式中不存在位置索引不连续的字符,则可无需执行在目标序列模式中的位置索引不连续的字符之间添加占位符的步骤;此情况下,可直接将目标序列模式作为初始模板。例如,以选取表4所示的样本文本2“旗舰店-扫码”作为任一样本文本为例,目标序列模式“店-扫码”中各个字符的位置索引可以参见表13所示:
表13
字符 | 旗 | 舰 | 店 | - | 扫 | 码 |
位置索引 | 1 | 2 | 3 | 4 | 5 | 6 |
参见表13可知,目标序列模式并不存在位置索引不连续的字符,因此可直接将目标序列模式作为初始模板,即初始模板为“店-扫码”。
再一种实施方式中,为了进一步提高初始模板的准确性;步骤S304的具体实施方式还可以是:从目标序列模式中依序选取的相邻的两个字符;统计包含被选取的两个字符,且该被选取的两个字符在样本文本中的排列位置为非相邻的样本文本的文本数量;若统计得到的文本数量大于数量阈值,则可在目标序列模式中的该被选取的两个字符之间添加占位符,得到目标文本类型的初始模板;此处的数量阈值可根据经验值或业务需求设置。例如,设总共有4个样本文本,数量阈值为3;目标序列模式为“店-扫码”,且被选取的相邻的两个字符为“-”和“扫”。若只有1个样本文本包含字符“-”和“扫”,且“-”和“扫”在这3个样本文本中的排列位置是非相邻的;有3个样本文本包含“-”和“扫”,且“-”和“扫”在这1个样本文本中的排列位置是相邻的;那么可统计得到的文本数量为1,即文本数量小于数量阈值,因此无需在目标序列模式中的字符“-”和“扫”之间添加占位符。可选的,若目标序列模式中的第一个字符在样本文本中的排列位置为非首位的样本文本的数量大于数量阈值,则还可在该目标序列模式中的第一个字符前添加占位符。例如,设总共有4个样本文本,数量阈值为3;且目标序列模式为“店-扫码”。若目标序列模式中的第一个字符“店”在3个样本文本中的排列位置均为非首位,其只在1个样本文本中的排列位置为首位;则可统计得到的文本数量为3,即文本数量大于数量阈值,因此可在目标序列模式中的第一个字符“店”之前添加占位符。
S305,按照正则规则对初始模板进行正则转换,得到目标文本类型的文本模板。
其中,正则规则可包括:采用至少一个标识符号替换初始模板中的占位符。以初始模板为“店-扫码”,标识符号为“.*”为例,则可得到目标文本类型的文本模板为“.*店-扫码”。
本发明实施例在获取到目标文本类型下的样本文本集后,可先对样本文本集进行频繁序列模式挖掘,从而挖掘出样本文本集中各个样本文本之间潜在的样式和规律,得到多个序列模式。然后,可对多个序列模式进行规则整合,得到目标文本类型的目标序列模式;并可根据目标序列模式自动生成目标文本类型对应的文本模板。在上述模板生成过程中,无需标注人员预先对样本文本集中的各个样本文本进行标注,可实现无监督地生成文本模板,有效节省人力成本并提升模板生成效率;并且,通过序列模式自动生成文本模板,无需经过繁杂的特征构建和模型训练流程,可进一步降低生成文本模板的成本,提升模板生成效率。
应理解的是,上述发明实施例只是以目标文本类型为订单文本类型为例,对如何采用本发明实施例所提出的模板生成方法生成文本模板的具体流程进行举例说明的。在实际应用中,本发明实施例所提出的模板生成方法还可适应于其他的文本类型,如网页文本类型、数据报表文本类型、广告语文本类型以及祝福语文本类型,等等。下面以目标文本类型为网页文本类型为例,对本发明实施例所提出的模板生成方法生成网页文本类型的文本模板的具体过程进行阐述,其具体流程可一并参见图4所示:
首先,可通过爬取百科词条得到多个网页文本,从而得到如表14所示的原始样本集:
表14
其次,可通过步骤S401对表14中的4个网页文本(即原始文本)进行文本预处理,可得到初始文本集;然后可统计初始文本集中的各个字符的字频,得到表15:
表15
设文本阈值为4,则可通过步骤S402根据文本阈值和各个字符的字频,对初始文本集中的各个初始文本进行字符过滤,可得到网页文本类型下的样本文本集,如表16所示:
表16
样本文本集中的各个字符的字频可参见表17所示:
表17
序号 | 字符 | 字频 | 序号 | 字符 | 字频 |
1 | 中 | 4 | 13 | 型 | 4 |
2 | 文 | 4 | 14 | 身 | 4 |
3 | 名 | 4 | 15 | 高 | 4 |
4 | 外 | 4 | 16 | 出 | 4 |
5 | 别 | 4 | 17 | 生 | 4 |
6 | 国 | 4 | 18 | 地 | 4 |
7 | 籍 | 4 | 19 | 日 | 4 |
8 | 民 | 4 | 20 | 期 | 4 |
9 | 族 | 4 | 21 | 年 | 4 |
10 | 星 | 4 | 22 | 月 | 4 |
11 | 座 | 4 | 23 | cm | 4 |
12 | 血 | 4 |
然后,可设置频率阈值为2/3*4=8/3;并通过步骤S403根据各字符的字频和频率阈值,对样本文本集进行频繁序列模式挖掘,得到多个序列模式。接着,可通过步骤S404对多个序列模式进行规则整合,得到网页文本类型的目标序列模式:“中文名外文名别名国籍国民族星座座血型型身高cm出生地出生日期年月日”。最后可通过步骤S405根据目标序列模式生成网页文本类型的文本模板“中文名.*外文名.*别名.*国籍.*国民族.*星座.*座血型.*型身高.*cm出生地.*出生日期.*年.*月.*日”。
由此可见,本发明实施例所提出的模板生成方法适用于各种关于文本模板的挖掘场景;例如:订单平台(如外卖订单平台、电商订单平台等)上的订单文本的模板挖掘场景、电子支付平台(如微信支付平台、扫码支付平台)上的商家信息的模板挖掘场景、网页信息的模板挖掘场景、广告平台上的广告信息的模板挖掘场景、节假日的祝福语的模板挖掘场景、以及一些定制化报表的模板挖掘场景,等等。并且,在各挖掘场景下采用本发明实施例所提出的模板生成方法生成相应的文本模板后,还可使用生成的文本模板来解决实际的业务需求;如信息提取需求,文本生成需求,等等。
在一种实施方式中,当用户想要从目标文本类型下的某文本中提取出有效信息时,可以将该待处理文本上传至计算机设备(以台式电脑为例)中,如图5a所示。然后,可对计算机设备执行关于待处理文本的信息提取操作;例如可点击用户界面的确认按钮(如点击“提取”按钮)以触发计算机设备执行后续的信息提取,如图5b所示。相应的,计算机设备可响应于信息提取操作,获取目标文本类型下的待处理文本。其次,可将待处理文本和文本模板进行差异比对,并根据比对结果从待处理文本中提取出有效字符;此处的有效字符是指存在待处理文本中且不存在文本模板中的字符。然后,可采用有效字符生成待处理文本的有效信息,并输出有效信息。举例来说,设文本模板为“中文名.*外文名.*国籍.*民族.*”;若待处理文本(即文本1)为“中文名小周外文名zhou国籍中国民族汉族”,则进行差异比对可得到有效字符为“小周”“zhou”“中国”和“汉族”;根据此有效字符可生成有效信息为“小周zhou中国汉族”,然后可输出该有效信息,如图5b所示。
再一种实施方式中,当用户想要根据目标文本类型的文本模板生成目标文本时,可将待适配数据上传至计算机设备(以台式电脑为例)中,如图6a所示。然后,可对计算机设备执行关于待适配数据的文本生成操作;例如可点击用户界面的确认按钮(如点击“生成”按钮)以触发计算机设备执行后续的文本生成,如图6b所示。相应的,计算机设备可响应于文本生成操作,获取目标文本类型下的待适配数据;然后,将待适配数据适配至文本模板中,得到目标文本并输出目标文本。举例来说,设文本模板为“中文名.*外文名.*国籍.*民族.*”;若待适配数据为“小周的英文名为zhou,中国人且民族为汉族”,则将该待适配数据适配至文本模板中,可得到目标文本为“中文名小周外文名zhou国籍中国民族汉族”,然后可输出该目标文本,如图6b所示。
应理解的是,将本发明实施例所提出的模板生成方法应用在不同的挖掘场景中,可得到不同类型的文本模板;并且,不同类型的文本模板可具有不同的使用价值。例如,在针对订单平台上的订单文本的模板挖掘场景中,可先采用上述的模板生成方法对订单平台上的海量订单文本进行模板挖掘得到潜在的订单文本类型的文本模板,然后可采用该订单文本类型的文本模板对各订单文本进行文本清洗,得到订单文本中的有效信息。又如,在针对电子支付平台上的商家信息的模板挖掘场景中,可先采用上述的模板生成方法可对支付商家的文本信息进行模板挖掘得到潜在的商家信息类型的文本模板,然后可采用该商家信息类型的文本模板对商家信息进行提取,从而提取出相较于订单号等其他字段更为丰富有效的商家信息,助力构建商户画像。再如,在定制化报表的模板挖掘场景(如BI分析、财务分析等报表挖掘场景)中,可先采用上述的模板生成方法从大量的数据报表文本中自动提炼出数据报表类型的文本模板;后续可基于该数据报表类型的文本模板进行定制化报表的开发,或者过滤冗余信息,从而更加关注数据报表文本中的有效信息。再如,在广告信息或祝福语的模板挖掘场景中,可先采用上述的模板生成方法从大量的广告信息或祝福语中提取出相应的文本模板;然后,可基于该相应的文本模板自动生成不同广告主的广告信息或者不同的祝福语。
基于上述模板生成方法实施例的描述,本发明实施例还公开了一种模板生成装置,所述模板生成装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该模板生成装置可以执行图2至图4所示的方法。请参见图7,所述模板生成装置可以运行如下单元:
获取单元701,用于获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
处理单元702,用于对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
所述处理单元702,用于对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
所述处理单元702,用于根据所述目标序列模式生成所述目标文本类型对应的文本模板。
在一种实施方式中,获取单元701在用于获取目标文本类型下的样本文本集时,可具体用于:
获取目标文本类型下的初始文本集;所述初始文本集中包括多个初始文本,且每个初始文本中包括多个字符;
统计所述初始文本集中的各个字符的字频;
根据文本阈值和所述各个字符的字频,对所述初始文本集中的各个初始文本进行字符过滤,得到所述目标文本类型下的样本文本集,所述样本文本集中的各个样本文本中的各个字符的字频大于或等于所述文本阈值。
再一种实施方式中,处理单元702在用于对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式时,可具体用于:
根据所述样本文本集中的各个字符的字频,从所述样本文本集中选取多个一项前缀,每个一项前缀由一个字频大于频率阈值的字符构成;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集;所述投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于所述前缀后的字符所构成;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀;并采用N项前缀分别构建序列模式;N为大于一的正整数。
再一种实施方式中,处理单元702在用于对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀时,可具体用于:
对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集;
若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,则对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若所述各个三项前缀的投影数据集均满足所述结束条件,则结束递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;所述结束条件包括:挖掘得到的投影数据集为空,或者挖掘得到的投影数据集中各字符的字频小于或等于所述频率阈值。
再一种实施方式中,处理单元702在用于对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集时,可具体用于:
从任意一项前缀的投影数据集中选取任一个后缀作为目标后缀,并根据所述频率阈值从所述目标后缀中获取待合并字符,所述待合并字符满足如下条件:所述待合并字符的字频大于所述频率阈值,且所述目标后缀中位于所述待合并字符之前的各字符的字频均小于或等于所述频率阈值;
合并所述任意一项前缀和所述待合并字符,得到二项前缀;并从所述任意一项前缀的投影数据集中确定包含所述待合并字符的待构建后缀;
删除所述待构建后缀中位于所述待合并字符之前的字符以及所述待合并字符,得到所述二项前缀所对应的后缀;并将所述二项前缀所对应的后缀添加至所述二项前缀的投影数据集中;
若所述任意一项前缀对应的投影数据集中的各后缀均被选取,则结束对所述任意一项前缀的投影数据集的挖掘。
再一种实施方式中,所述字符包括以下至少一种:中文字符、英文字符和数字;相应的,处理单元702在用于对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式时,可具体用于:
从所述多个序列模式中筛选出有效序列模式,所述有效序列模式是指包含中文字符且序列长度大于长度阈值的序列模式;所述序列长度为序列模式中的字符的数量;
针对任一有效序列模式,检测筛选出的有效序列模式中是否存在所述任一有效序列模式的超序列;
若不存在,则将所述任一有效序列模式作为所述目标文本类型的目标序列模式。
再一种实施方式中,处理单元702在用于根据所述目标序列模式生成所述目标文本类型的文本模板时,可具体用于:
根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板;
按照正则规则对所述初始模板进行正则转换,得到所述目标文本类型的文本模板;所述正则规则包括:采用至少一个标识符号替换所述初始模板中的占位符。
再一种实施方式中,处理单元702在用于根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板时,可具体用于:
根据所述目标序列模式中各字符在任一样本文本中的排列位置,确定所述目标序列模式中各字符的位置索引;
在所述目标序列模式中的位置索引不连续的字符之间添加占位符,得到所述目标文本类型的初始模板。
再一种实施方式中,处理单元702在用于根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板时,可具体用于:
从所述目标序列模式中依序选取的相邻的两个字符;
统计包含被选取的两个字符,且所述被选取的两个字符在样本文本中的排列位置为非相邻的样本文本的文本数量;
若统计得到的文本数量大于数量阈值,则在所述目标序列模式中的所述被选取的两个字符之间添加占位符,得到所述目标文本类型的初始模板。
再一种实施方式中,处理单元702还可用于:
响应于信息提取操作,获取所述目标文本类型下的待处理文本;
将所述待处理文本和所述文本模板进行差异比对,并根据比对结果从所述待处理文本中提取出有效字符,所述有效字符是指存在所述待处理文本中且不存在所述文本模板中的字符;
采用所述有效字符生成所述待处理文本的有效信息,并输出所述有效信息。
再一种实施方式中,处理单元702还可用于:
响应于文本生成操作,获取所述目标文本类型下的待适配数据;
将所述待适配数据适配至所述文本模板中,得到目标文本并输出所述目标文本。
根据本发明的一个实施例,图2至图4所示的方法所涉及的各个步骤均可以是由图7所示的模板生成装置中的各个单元来执行的。例如,图2中所示的步骤S201可由图7中所示的获取单元701来执行,步骤S202-S204可由图7中所示的处理单元702来执行;又如,图3中所示的步骤S301可由图7中所示的获取单元701来执行,步骤S302-S305可由图7中所示的处理单元702来执行;再如,图4中的各个步骤均可由图7中所示的处理单元702来执行。
根据本发明的另一个实施例,图7所示的模板生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于模板生成装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2至图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的模板生成装置设备,以及来实现本发明实施例的模板生成方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本发明实施例在获取到目标文本类型下的样本文本集后,可先对样本文本集进行频繁序列模式挖掘,从而挖掘出样本文本集中各个样本文本之间潜在的样式和规律,得到多个序列模式。然后,可对多个序列模式进行规则整合,得到目标文本类型的目标序列模式;并可根据目标序列模式自动生成目标文本类型对应的文本模板。在上述模板生成过程中,无需标注人员预先对样本文本集中的各个样本文本进行标注,可实现无监督地生成文本模板,有效节省人力成本并提升模板生成效率;并且,通过序列模式自动生成文本模板,无需经过繁杂的特征构建和模型训练流程,可进一步降低生成文本模板的成本,提升模板生成效率。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种计算机设备。请参见图8,该计算机设备至少包括处理器801、输入接口802、输出接口803以及计算机存储介质804。其中,计算机设备内的处理器801、输入接口802、输出接口803以及计算机存储介质804可通过总线或其他方式连接。
计算机存储介质804可以存储在计算机设备的存储器中,所述计算机存储介质804用于存储计算机程序,所述计算机程序包括程序指令,所述处理器801用于执行所述计算机存储介质804存储的程序指令。处理器801(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能;在一个实施例中,本发明实施例所述的处理器801可以用于进行一系列的模板生成处理,包括:获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;根据所述目标序列模式生成所述目标文本类型对应的文本模板,等等。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,该计算机存储介质还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器801加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关模板生成方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器801加载并执行如下步骤:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
在一种实施方式中,在获取目标文本类型下的样本文本集时,所述一条或多条指令由处理器801加载并具体执行:
获取目标文本类型下的初始文本集;所述初始文本集中包括多个初始文本,且每个初始文本中包括多个字符;
统计所述初始文本集中的各个字符的字频;
根据文本阈值和所述各个字符的字频,对所述初始文本集中的各个初始文本进行字符过滤,得到所述目标文本类型下的样本文本集,所述样本文本集中的各个样本文本中的各个字符的字频大于或等于所述文本阈值。
再一种实施方式中,在对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式时,所述一条或多条指令由处理器801加载并具体执行:
根据所述样本文本集中的各个字符的字频,从所述样本文本集中选取多个一项前缀,每个一项前缀由一个字频大于频率阈值的字符构成;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集;所述投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于所述前缀后的字符所构成;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀;并采用N项前缀分别构建序列模式;N为大于一的正整数。
再一种实施方式中,在对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀时,所述一条或多条指令由处理器801加载并具体执行:
对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集;
若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,则对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若所述各个三项前缀的投影数据集均满足所述结束条件,则结束递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;所述结束条件包括:挖掘得到的投影数据集为空,或者挖掘得到的投影数据集中各字符的字频小于或等于所述频率阈值。
再一种实施方式中,在对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集时,所述一条或多条指令由处理器801加载并具体执行:
从任意一项前缀的投影数据集中选取任一个后缀作为目标后缀,并根据所述频率阈值从所述目标后缀中获取待合并字符,所述待合并字符满足如下条件:所述待合并字符的字频大于所述频率阈值,且所述目标后缀中位于所述待合并字符之前的各字符的字频均小于或等于所述频率阈值;
合并所述任意一项前缀和所述待合并字符,得到二项前缀;并从所述任意一项前缀的投影数据集中确定包含所述待合并字符的待构建后缀;
删除所述待构建后缀中位于所述待合并字符之前的字符以及所述待合并字符,得到所述二项前缀所对应的后缀;并将所述二项前缀所对应的后缀添加至所述二项前缀的投影数据集中;
若所述任意一项前缀对应的投影数据集中的各后缀均被选取,则结束对所述任意一项前缀的投影数据集的挖掘。
再一种实施方式中,所述字符包括以下至少一种:中文字符、英文字符和数字;相应的,在用于对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式时,所述一条或多条指令由处理器801加载并具体执行:
从所述多个序列模式中筛选出有效序列模式,所述有效序列模式是指包含中文字符且序列长度大于长度阈值的序列模式;所述序列长度为序列模式中的字符的数量;
针对任一有效序列模式,检测筛选出的有效序列模式中是否存在所述任一有效序列模式的超序列;
若不存在,则将所述任一有效序列模式作为所述目标文本类型的目标序列模式。
再一种实施方式中,在根据所述目标序列模式生成所述目标文本类型的文本模板时,所述一条或多条指令由处理器801加载并具体执行:
根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板;
按照正则规则对所述初始模板进行正则转换,得到所述目标文本类型的文本模板;所述正则规则包括:采用至少一个标识符号替换所述初始模板中的占位符。
再一种实施方式中,在根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板时,所述一条或多条指令由处理器801加载并具体执行:
根据所述目标序列模式中各字符在任一样本文本中的排列位置,确定所述目标序列模式中各字符的位置索引;
在所述目标序列模式中的位置索引不连续的字符之间添加占位符,得到所述目标文本类型的初始模板。
再一种实施方式中,在根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板时,所述一条或多条指令由处理器801加载并具体执行:
从所述目标序列模式中依序选取的相邻的两个字符;
统计包含被选取的两个字符,且所述被选取的两个字符在样本文本中的排列位置为非相邻的样本文本的文本数量;
若统计得到的文本数量大于数量阈值,则在所述目标序列模式中的所述被选取的两个字符之间添加占位符,得到所述目标文本类型的初始模板。
再一种实施方式中,所述一条或多条指令由处理器801加载并具体执行:
响应于信息提取操作,获取所述目标文本类型下的待处理文本;
将所述待处理文本和所述文本模板进行差异比对,并根据比对结果从所述待处理文本中提取出有效字符,所述有效字符是指存在所述待处理文本中且不存在所述文本模板中的字符;
采用所述有效字符生成所述待处理文本的有效信息,并输出所述有效信息。
再一种实施方式中,所述一条或多条指令由处理器801加载并具体执行:
响应于文本生成操作,获取所述目标文本类型下的待适配数据;
将所述待适配数据适配至所述文本模板中,得到目标文本并输出所述目标文本。
本发明实施例在获取到目标文本类型下的样本文本集后,可先对样本文本集进行频繁序列模式挖掘,从而挖掘出样本文本集中各个样本文本之间潜在的样式和规律,得到多个序列模式。然后,可对多个序列模式进行规则整合,得到目标文本类型的目标序列模式;并可根据目标序列模式自动生成目标文本类型对应的文本模板。在上述模板生成过程中,无需标注人员预先对样本文本集中的各个样本文本进行标注,可实现无监督地生成文本模板,有效节省人力成本并提升模板生成效率;并且,通过序列模式自动生成文本模板,无需经过繁杂的特征构建和模型训练流程,可进一步降低生成文本模板的成本,提升模板生成效率。
需要说明的是,上述描述的终端和单元的具体工作过程,可以参考前述各个关于信息识别方法的发明实施例中的相关描述,在此不再赘述。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (14)
1.一种模板生成方法,其特征在于,包括:
获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
根据所述目标序列模式生成所述目标文本类型对应的文本模板。
2.如权利要求1所述的方法,其特征在于,所述获取目标文本类型下的样本文本集,包括:
获取目标文本类型下的初始文本集;所述初始文本集中包括多个初始文本,且每个初始文本中包括多个字符;
统计所述初始文本集中的各个字符的字频;
根据文本阈值和所述各个字符的字频,对所述初始文本集中的各个初始文本进行字符过滤,得到所述目标文本类型下的样本文本集,所述样本文本集中的各个样本文本中的各个字符的字频大于或等于所述文本阈值。
3.如权利要求1所述的方法,其特征在于,所述对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式,包括:
根据所述样本文本集中的各个字符的字频,从所述样本文本集中选取多个一项前缀,每个一项前缀由一个字频大于频率阈值的字符构成;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集;所述投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于所述前缀后的字符所构成;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀;并采用N项前缀分别构建序列模式;N为大于一的正整数。
4.如权利要求3所述的方法,其特征在于,所述对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,包括:
对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集;
若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,则对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若所述各个三项前缀的投影数据集均满足所述结束条件,则结束递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;所述结束条件包括:挖掘得到的投影数据集为空,或者挖掘得到的投影数据集中各字符的字频小于或等于所述频率阈值。
5.如权利要求4所述的方法,其特征在于,所述对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集,包括:
从任意一项前缀的投影数据集中选取任一个后缀作为目标后缀,并根据所述频率阈值从所述目标后缀中获取待合并字符,所述待合并字符满足如下条件:所述待合并字符的字频大于所述频率阈值,且所述目标后缀中位于所述待合并字符之前的各字符的字频均小于或等于所述频率阈值;
合并所述任意一项前缀和所述待合并字符,得到二项前缀;并从所述任意一项前缀的投影数据集中确定包含所述待合并字符的待构建后缀;
删除所述待构建后缀中位于所述待合并字符之前的字符以及所述待合并字符,得到所述二项前缀所对应的后缀;并将所述二项前缀所对应的后缀添加至所述二项前缀的投影数据集中;
若所述任意一项前缀对应的投影数据集中的各后缀均被选取,则结束对所述任意一项前缀的投影数据集的挖掘。
6.如权利要求1所述的方法,其特征在于,所述字符包括以下至少一种:中文字符、英文字符和数字;所述对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式,包括:
从所述多个序列模式中筛选出有效序列模式,所述有效序列模式是指包含中文字符且序列长度大于长度阈值的序列模式;所述序列长度为序列模式中的字符的数量;
针对任一有效序列模式,检测筛选出的有效序列模式中是否存在所述任一有效序列模式的超序列;
若不存在,则将所述任一有效序列模式作为所述目标文本类型的目标序列模式。
7.如权利要求1所述的方法,其特征在于,所述根据所述目标序列模式生成所述目标文本类型的文本模板,包括:
根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板;
按照正则规则对所述初始模板进行正则转换,得到所述目标文本类型的文本模板;所述正则规则包括:采用至少一个标识符号替换所述初始模板中的占位符。
8.如权利要求7所述的方法,其特征在于,所述根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板,包括:
根据所述目标序列模式中各字符在任一样本文本中的排列位置,确定所述目标序列模式中各字符的位置索引;
在所述目标序列模式中的位置索引不连续的字符之间添加占位符,得到所述目标文本类型的初始模板。
9.如权利要求7所述的方法,其特征在于,所述根据所述目标序列模式中的各字符在至少一个样本文本中的排列位置,对所述目标序列模式进行模板转换,得到所述目标文本类型的初始模板,包括:
从所述目标序列模式中依序选取的相邻的两个字符;
统计包含被选取的两个字符,且所述被选取的两个字符在样本文本中的排列位置为非相邻的样本文本的文本数量;
若统计得到的文本数量大于数量阈值,则在所述目标序列模式中的所述被选取的两个字符之间添加占位符,得到所述目标文本类型的初始模板。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
响应于信息提取操作,获取所述目标文本类型下的待处理文本;
将所述待处理文本和所述文本模板进行差异比对,并根据比对结果从所述待处理文本中提取出有效字符,所述有效字符是指存在所述待处理文本中且不存在所述文本模板中的字符;
采用所述有效字符生成所述待处理文本的有效信息,并输出所述有效信息。
11.如权利要求1所述的方法,其特征在于,所述方法还包括:
响应于文本生成操作,获取所述目标文本类型下的待适配数据;
将所述待适配数据适配至所述文本模板中,得到目标文本并输出所述目标文本。
12.一种模板生成装置,其特征在于,包括:
获取单元,用于获取目标文本类型下的样本文本集,所述样本文本集中包括多个样本文本,且每个样本文本中包括多个字符;
处理单元,用于对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于频率阈值;
所述处理单元,用于对所述多个序列模式进行规则整合,得到所述目标文本类型的目标序列模式;
所述处理单元,用于根据所述目标序列模式生成所述目标文本类型对应的文本模板。
13.一种计算机设备,包括输入接口和输出接口,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-12任一项所述的模板生成方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-12任一项所述的模板生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010069754.8A CN111291547B (zh) | 2020-01-20 | 2020-01-20 | 模板生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010069754.8A CN111291547B (zh) | 2020-01-20 | 2020-01-20 | 模板生成方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291547A true CN111291547A (zh) | 2020-06-16 |
CN111291547B CN111291547B (zh) | 2024-04-26 |
Family
ID=71024309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010069754.8A Active CN111291547B (zh) | 2020-01-20 | 2020-01-20 | 模板生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291547B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948589A (zh) * | 2021-05-13 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置和计算机可读存储介质 |
CN113408271A (zh) * | 2021-06-16 | 2021-09-17 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
WO2006136055A1 (fr) * | 2005-06-22 | 2006-12-28 | Zte Corporation | Procédé d'exploration de données texte |
US20170293670A1 (en) * | 2016-04-07 | 2017-10-12 | University Of Virginia Patent Foundation | Sequential pattern mining with the micron automata processor |
US20180285424A1 (en) * | 2017-03-31 | 2018-10-04 | University Of Virginia Patent Foundation | Disjunctive rule mining with finite automaton hardware |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
-
2020
- 2020-01-20 CN CN202010069754.8A patent/CN111291547B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
WO2006136055A1 (fr) * | 2005-06-22 | 2006-12-28 | Zte Corporation | Procédé d'exploration de données texte |
US20170293670A1 (en) * | 2016-04-07 | 2017-10-12 | University Of Virginia Patent Foundation | Sequential pattern mining with the micron automata processor |
US20180285424A1 (en) * | 2017-03-31 | 2018-10-04 | University Of Virginia Patent Foundation | Disjunctive rule mining with finite automaton hardware |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
Non-Patent Citations (2)
Title |
---|
DEBASHIS DAS: "Cluster based template generation for fast and secure fingerprint matching", AICTC \'16: PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ADVANCES IN INFORMATION COMMUNICATION TECHNOLOGY & COMPUTING, 12 August 2016 (2016-08-12), pages 1, XP058306231, DOI: 10.1145/2979779.2979803 * |
朱福勇等: "基于图谱融合的人工智能司法数据库构建研究", 扬州大学学报(人文社会科学版), vol. 23, no. 6, 29 November 2019 (2019-11-29), pages 89 - 96 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948589A (zh) * | 2021-05-13 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置和计算机可读存储介质 |
CN112948589B (zh) * | 2021-05-13 | 2021-07-30 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置和计算机可读存储介质 |
CN113408271A (zh) * | 2021-06-16 | 2021-09-17 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111291547B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582909B (zh) | 网页自动生成方法、装置、电子设备和存储介质 | |
CN101025738B (zh) | 一种免模板动态网站生成方法 | |
US9645979B2 (en) | Device, method and program for generating accurate corpus data for presentation target for searching | |
CN101968788B (zh) | 提取商品属性信息的方法和设备 | |
CN101620636B (zh) | 一种显示表格数据的方法和装置 | |
US8140533B1 (en) | Harvesting relational tables from lists on the web | |
CN102375746A (zh) | 一种输入法自适应应用程序的方法及装置 | |
CN109710771B (zh) | 表格信息提取方法、装置和存储介质 | |
CN105426508A (zh) | 网页生成方法和装置 | |
Evert | A Lightweight and Efficient Tool for Cleaning Web Pages. | |
CN111291547A (zh) | 模板生成方法、装置、设备及介质 | |
CN110781183A (zh) | Hive数据库中增量数据的处理方法、装置以及计算机设备 | |
CN103491116A (zh) | 正文相关的结构化数据的处理方法及装置 | |
CN103500332A (zh) | 图片内文字显示方法及装置 | |
CN103699544A (zh) | 跨页选择数据的方法和系统 | |
CN113886708A (zh) | 基于用户信息的产品推荐方法、装置、设备及存储介质 | |
CN110309457A (zh) | 网页数据处理方法、装置、计算机设备和存储介质 | |
CN107590288A (zh) | 用于抽取网页图文块的方法和装置 | |
CN114022188A (zh) | 目标人群圈选方法、装置、设备以及存储介质 | |
CN111723142A (zh) | 一种数据处理方法及装置 | |
KR20210098813A (ko) | 텍스트 데이터 수집과 분석 장치 및 방법 | |
CN110941638B (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN111539186A (zh) | 一种应用于html5的大数据树组件实现方法及系统 | |
CN116225956A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
CN115357625A (zh) | 结构化数据比对方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024385 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |