CN102129422A - 模板提取方法和装置 - Google Patents
模板提取方法和装置 Download PDFInfo
- Publication number
- CN102129422A CN102129422A CN2010100042025A CN201010004202A CN102129422A CN 102129422 A CN102129422 A CN 102129422A CN 2010100042025 A CN2010100042025 A CN 2010100042025A CN 201010004202 A CN201010004202 A CN 201010004202A CN 102129422 A CN102129422 A CN 102129422A
- Authority
- CN
- China
- Prior art keywords
- template
- speech
- candidate template
- word sequence
- language material
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种模板提取方法和装置。所述模板提取方法包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
Description
技术领域
本发明涉及自然语言处理领域,具体而言涉及一种从语料中提取模板的方法和装置。
背景技术
随着自然语言处理技术的发展,越来越多的语料库资源被应用于机器翻译和自然语言理解等自然语言处理领域以便获取知识。而模板作为自然语言处理过程中的一项重要工具,受到了广泛关注。
模板指的是通过对大规模语料的统计分析,提取出一些固定的语言搭配,这些搭配在语料中具有普遍的意义,能够反映语料的特定语言结构特征。
但是目前模板很大程度上依赖于人工提取和加工,效率低,成本高,难以满足需求。在机器翻译领域,在David Chiang的“A Hierarchicalphrase-based model for statistical machine translation”(Proceeding of43rd Annual Meeting of the ACL,2005年,第263-270页)中,提出了一种模板提取方法,但是这种方法提取的模板数量庞大,存在很多噪声和冗余。
发明内容
鉴于以上问题,本发明的一个目的是提供一种模板提取方法和装置,其能够高效地、低噪声地从语料中提取模板。
本发明的另一个目的是提供一种模板提取方法和装置,其能够低冗余地从语料中提取模板。
为了实现上述目的,根据本发明的一个方面,提供了一种模板提取方法,其包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
根据本发明的一个实施例,所述从预处理后的语料中提取出候选模板的步骤包括:针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
根据本发明的一个实施例,在去除干扰模板之后,所述方法还包括:从提取出的候选模板中去除重复的候选模板。
根据本发明的另一个方面,一种模板提取装置包括:预处理单元,配置用于对语料进行包括分句和分词在内的预处理;候选模板提取单元,配置用于从预处理后的语料中提取出候选模板;以及优化单元,配置用于对提取出的候选模板进行优化。其中,所述优化单元进一步配置用于:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
使用本发明的方法和装置,可以自动地从大规模的语料中提取语言模板,节省了大量的人工劳动。
本发明的另一优点在于,通过对候选模板的优化剪枝,去除了候选模板中的干扰模板,降低了模板中的噪声。
本发明的又一优点在于,通过从提取出的候选模板中去除重复的候选模板,降低了模板中的冗余。
根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
根据本发明的另一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出根据本发明的实施例的模板提取方法的流程图;
图2示出根据本发明的实施例的候选模板提取步骤的流程图;
图3示出根据本发明的实施例的优化步骤的流程图;
图4示出根据本发明的实施例的模板提取装置的示意性框图;以及
图5示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1示出根据本发明的实施例的模板提取方法的流程图。如图1所示,所述方法包括语料预处理步骤S110、候选模板提取步骤S120和优化步骤S130。
在语料预处理步骤S110中,利用现有技术的方法,对语料进行包括分句和分词在内的预处理。
可以根据现有技术的分句方法,例如根据诸如句号、问号、叹号之类的标点符号,对输入的语料进行分句,以得到多个句子。作为示例,通过分句得到以下句子:
S1:与所述物理差错对应的下载请求
S2:一种发光二极管的制作方法
S3:本发明提供一种发光二极管的制作方法及装置
注意,由于各种情况,例如在分句过程中存在对标点符号的误读,或者标题等也作为一个句子,因此对语料分句所得到的句子有可能并不严格符合语言学中对句子的要求。例如,以上的句子S1和S2,并不完整具备语言学中句子的主语、谓语和宾语。
可以利用现有技术的分词方法,对分句后得到的句子进行分词,以将语料中的句子切分成词。作为示例,上述句子可以切分为:
S1:与所述物理差错对应的下载请求
S2:一种发光二极管的制作方法
S3:本发明提供一种发光二极管的制作方法及装置
在候选模板提取步骤S120中,从预处理后的语料中提取出候选模板。这里,可以使用各种现有的和将要开发的模板提取方法来从语料中提取出候选模板。例如,可以使用在David Chiang的“A Hierarchicalphrase-based model for statistical machine translation”.In Proceeding of43rd Annual Meeting of the ACL,2005的第263-270页中提出的模板提取方法。在以下,为说明目的,将结合附图2来说明根据本发明的实施例的候选模板提取步骤。
如图2所示,根据本发明的实施例的候选模板提取步骤包括子步骤S1210和S1220。在子步骤S1210中,针对语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语。这里,短语由句子中的一个词或更多个连续词的序列组成。例如,对于上面示例中的句子S1,可以枚举出长度低于例如7的短语“与”、“与所”、......、“物理”、“物理差错”、“物理 差错 对应”、......、“物理 差错 对应的下载请求”等等,这里不一一列出。
在子步骤S1220中,对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板。在该实施例中,所述至少一个词或词序列是从短语中截取的一部分,也称为子短语,其长度小于所述短语的长度。
例如,对于上面示例中枚举出的短语P1“物理差错对应的下载请求”,其包含的一个词序列是:
SP1=“物理差错对应”。
将SP1替换为通配符X,可以得到一个候选模板:
T1=“X的下载请求”。
另外,P1也包含词序列:
SP2=“下载请求”。
因此,将SP2替换为通配符X,可以得到另外一个候选模板:
T2=“物理差错对应的X”。
此外,将P1中的词序列“物理差错”和“下载请求”分别替换为通配符X1和X2,可以得到另一候选模板:
T3=“X1对应的X2”。
诸如此类,不再一一列举。
在实际应用中,可以将每个候选模板中的通配符个数限制为低于预定通配符个数。
通过上述过程,能够自动地从大规模的语料中快速提取语言模板,节省了大量的人工劳动。
作为示例,给定一个如上所述分句后包含N个词的汉语句子S=W1,W2,...WN,其中Wn是如上所述分词后得到的汉语词,其中n=1,2,...,N,n、N均为自然数。上述候选模板提取步骤可以用以下算法来表示:
1.PT=NULL//将短语表PT初始化为空
2.For start=1 to N
3. For end=start to N
4. LEN=start-end+1;//短语长度LEN
5. If LEN<LT//LT是短语长度阈值
6. Then
7. Insert[start,end]to PT//在短语表PT中插入短语
[start,end]
8. End if
9. End For
10.End For
11.For each A=Wi1...Wi2in PT//对于短语表PT中的每一个短语
12. If there exists a sub-phrase B=Wj1...Wj2 and i1<j1<=j2<i2
//如果存在子短语B=Wj1...Wj2且i1<j1<=j2<i2
13.Then
14. C=Wi1...Wj1-1XWj2+1...Wi2is a candidate template//得到含
有通配符X的候选模板C
15. Insert C into PT//将候选模板C插入短语表PT中
16. End if
17.End for
第1步初始化短语表PT为空,第2-10步枚举出初始短语,并将其插入到短语表PT中,第11-17步用通配符替换存储在短语表PT中的短语中的至少一个词或词序列(子短语),最终得到一个短语表PT,其中含有通配符的短语为候选模板。
从上面的示例中可以看出,通过候选模板提取步骤,将会从语料中提取数量庞大的候选模板。这些候选模板中包含了许多冗余及噪声,因此要对提取的候选模板进行优化剪枝,以滤除无用的干扰模板。
返回来参考图1,在优化步骤S130中,针对每个候选模板,计算根据该候选模板中的通配符所代表的词或词序列以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率,将上述频率满足预定条件的候选模板确定为干扰模板,然后从在候选模板提取步骤S120中提取出的候选模板中去除干扰模板。
具体而言,本发明可采用TF/DF方法进行优化剪枝。TF(TermFrequency)表示一个词w在语料的某篇来源文档中出现的次数。DF(Document Frequency)表示在整个语料的来源文档中,包含词w的文档篇数。
TF-DF值的意义在于,DF值高的词可以认为更具有一般性,因为该词普遍存在于各文档之中;而TF值高的词,可以认为该词只出现在某些特定的文档之中,不具有一般性,但是这些词很可能是某篇文档的关键词。
因为模板要具有较好的泛化能力,所以对于模板中含有的非通配符部分,即通配符所分隔开的词或词序列,希望它的DF值较高,这意味着它更具有普遍性;而对于模板中的通配符部分,希望其代表的词或词序列的TF值较高而DF值较低,这意味着它只频繁地出现在某一篇或几篇文档中,对于这一篇或几篇文档是关键词,但是不具有普遍性。
例如,在专利文献中,“发明”、“方法”、“权利”等词汇具有一定的代表性,即具有高DF值;而一部分词汇例如“发光二极管”、“电容”、“荧光灯”等词汇只在某些特定领域的文档中频繁出现,即具有低DF值、高TF值,这些词汇应该被替换为通配符。下面举例进一步说明:例如短语:“一种发光二极管的制作方法”,模板提取的结果应该是“一种X1的制作方法”。这样的模板具有很好的泛化能力,因为“一种”、“的”、“制作”、“方法”在专利文档中经常出现,更容易泛化。
因此,在对候选模板进行优化剪枝时,通过设定阈值,保留模板中DF值高的词,对其他词进行泛化,从而除去不希望的干扰模板。
另外,为了降低模板提取的冗余度,还可以去除候选模板中的重复候选模板。
图3示出根据本发明的实施例的优化步骤的流程图。如图3所示,在根据该实施例的优化步骤中,对于步骤S120中得到的每个候选模板,如果该候选模板中由通配符分隔出的每个词或词序列的DF值低于第一预定阈值TH1(步骤S1310),即表明该词或词序列不具有普遍性,或者该候选模板中的每个通配符所代表的词或词序列的TF值低于第二预定阈值TH2(步骤S1320),即表明该词或词序列在单篇文档中出现的频率不高,则确定该候选模板为干扰模板并删除该候选模板(步骤S1330)。然后对下一个候选模板进行判断。
考虑到某些通配符所代表的词或词序列可能不仅在单篇文档中频繁出现,而且在多篇文档中也都出现,这种词或词序列具有普遍性,应作为词汇保留。因此,在根据另一实施例的优化步骤中,如果候选模板中的每个通配符所代表的词或词序列的DF值高于第三阈值TH3(步骤S1325),则确定该候选模板为干扰模板并删除该候选模板(步骤S1330)。
应当理解,这里的步骤S1310、S1320和S1325的顺序可以任意调整,而不限于图3所示出的顺序。这些步骤顺序的调整对本发明的方法并没有实质性影响。
以下分别使用函数TF(w)=counttf(w)和DF(w)=countdf(w)来表示词或短语w的TF值和DF值。例如,“方法”一词,在某篇文档中出现了10次,那么TF(“方法”)就等于10;整个语料包括5篇文档,其中有3篇都出现了“方法”,那么DF(“方法”)就等于3。则作为示例,上述优化步骤可以用以下的过滤算法来表示:
1.For each candidate template T in PT//对于短语表PT中的每个候选
模板T
2. If(DF(W(T))<TH1)or(TF(V(T))<TH2)
//如果T中的词或词序列的DF值低于第一阈值TH1或者T中的通配
符所对应的词或词序列的TF值低于第二阈值TH2
3. T is an interferential template and Discard T
//确定候选模板T为干扰模板,并去除T
4. Else if(DF(V(T))>TH3)//如果T中的通配符所对应的词或词序
列的DF值高于第三阈值
5.T is an interferential template and Discard T
//确定候选模板T为干扰模板,并去除T
6. Else
7. T is a template//T为模板
8. End If
9. End If
10.End For
其中,W(T)代表T中的由通配符分隔开的词或词序列,V(T)代表T中的通配符所对应的词或词序列。
根据上述过滤算法,如果候选模板中的每个词或词序列的DF值等于或高于第一预定阈值且每个通配符所代表的词或词序列的TF值等于或高于第二预定阈值,则可以认为该候选模板为模板。优选地,当候选模板中的每个词或词序列的DF值等于或高于第一预定阈值、每个通配符所代表的词或词序列的TF值等于或高于第二预定阈值、且每个通配符所代表的词或词序列的DF值等于或低于第三预定阈值时,才确认该候选模板为模板。
为说明目的,作为例子,以下分别依据上述过滤算法对从上面示例中枚举出的短语P1“物理差错对应的下载请求”中得到的候选模板T1=“X的下载请求”、T2=“物理差错对应的X”和T3=“X1对应的X2”进行判断。
在该例子中,通常T1要比T2和T3更有普遍性。因为T1中“的下载请求”经常出现在多个文档中,而T2中“物理差错对应的”和T3中的“物理差错”可能只出现在某个或某些特定文档中。
在该例子中,假设T1、T2及T3中的各个词或词序列对应的DF和TF值如下:
短语 | DF值 | TF值 |
的 下载 请求 | 10 | 3 |
物理 差错 对应 | 1 | 5 |
物理 差错 对应的 | 1 | 5 |
物理 差错 | 1 | 5 |
对应的 | 2 | 6 |
下载 请求 | 10 | 3 |
因此,DF(W(T1))=10,TF(V(T1))=5,DF(V(T1))=1;
DF(W(T2))=1,TF(V(T2))=3,DF(V(T2))=10;
DF(W(T3))=2,TF(V(T3)1)=5,DF(V(T3)1)=1,TF(V(T3)2)=3,DF(V(T3)1)=10。
如果设定阈值TH1=5,TH2=4,TH3=5,那么根据以上优化步骤,由于DF(W(T1))>TH1、TF(V(T1))>TH2且DF(V(T1))<TH3,因此T1将被保留为模板;由于DF(W(T2))<TH1,DF(W(T3))<TH1,因此T2和T3都将作为干扰模板被过滤掉。
另外,为了降低模板提取的冗余度,根据本发明的实施例,优化步骤S130还可以包括去除重复的候选模板。
以下参考图4来说明根据本发明的实施例的模板提取装置。如图4所示,根据本发明的实施例的模板提取装置400包括预处理单元410、候选模板提取单元420和优化单元430。
根据本发明的一个实施例,预处理单元410被配置用于对语料进行包括分句和分词在内的预处理;候选模板提取单元420被配置用于从预处理后的语料中提取出候选模板;优化单元430被配置用于对提取出的候选模板进行优化。具体而言,优化单元430针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
根据本发明的一个实施例,如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,则优化单元430确定该候选模板为干扰模板。
根据本发明的另一个实施例,如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表的词或词序列的来源文档的篇数高于第三阈值,则优化单元430确定该候选模板为干扰模板。
根据本发明的一个实施例,优化单元430被进一步配置用于从候选模板提取单元420提取出的候选模板中去除重复的候选模板。
根据本发明的一个实施例,候选模板提取单元420进一步配置用于:针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
根据本发明的一个实施例,每个候选模板中的通配符个数低于预定通配符个数。
关于模板提取装置400的各个单元的操作的进一步细节,可以参考以上所述的模板提取方法的各个实施例,这里不再详细描述。
通过根据本发明的方法和装置,可以自动地从大规模的语料中提取语言模板,节省了大量的人工劳动。并且通过对候选模板的优化剪枝,去除了候选模板中的干扰模板,从而实现高效地、低噪声地从语料中提取模板。另外,通过去除重复候选模板,实现了低冗余地从语料中提取模板。
另外,本发明的方法和装置优选地应用于用语严谨、格式规范的文档中,例如专利文献、新闻报道等。本发明的方法和装置能够从这些文献中自动提取出具有普遍性的模板。这些模板可以应用于例如专利或新闻报道的辅助撰写、翻译、分析等。
此外,尽管上述的实施例中给出的示例都是单语模板,但是本领域技术人员应当理解,本文所述的模板可以是单语模板,也可以是双语模板。单语模板可以反映出语言的某些特定搭配,而双语模板反映了两种语言模板之间的映射关系。双语模板的优化步骤可以与单语模板的优化步骤相同。
另外,上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
附记1.一种模板提取方法,包括:
对语料进行包括分句和分词在内的预处理;
从预处理后的语料中提取出候选模板;以及
对提取出的候选模板进行优化,
其中,所述优化步骤包括:
针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及
确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
附记2.如附记1所述的方法,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,则确定该候选模板为干扰模板。
附记3.如附记1所述的方法,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表的词或词序列的来源文档的篇数高于第三阈值,则确定该候选模板为干扰模板。
附记4.如附记1-3中任一项所述的方法,其中在去除干扰模板之后,所述方法还包括:
从提取出的候选模板中去除重复的候选模板。
附记5.如附记1-3中任一项所述的方法,其中,所述从预处理后的语料中提取出候选模板的步骤包括:
针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及
对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
附记6.如附记5所述的方法,其中,
每个候选模板中的通配符个数低于预定通配符个数。
附记7.一种模板提取装置,包括:
预处理单元,配置用于对语料进行包括分句和分词在内的预处理;
候选模板提取单元,配置用于从预处理后的语料中提取出候选模板;以及
优化单元,配置用于对提取出的候选模板进行优化,
其中,所述优化单元进一步配置用于:
针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及
确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
附记8.如附记7所述的装置,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,则所述优化单元确定该候选模板为干扰模板。
附记9.如附记7所述的装置,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表的词或词序列的来源文档的篇数高于第三阈值,则所述优化单元确定该候选模板为干扰模板。
附记10.如附记7-9中任一项所述的装置,其中,所述优化单元进一步配置用于:
在去除干扰模板之后,从提取出的候选模板中去除重复的候选模板。
附记11.如附记7-9中任一项所述的装置,其中,所述候选模板提取单元进一步配置用于:
针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及
对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
附记12.如附记11所述的装置,其中,
每个候选模板中的通配符个数低于预定通配符个数。
附记13.一种计算机程序代码,用于在计算设备上被执行时使计算设备执行根据附记1至6中任何一项所述的方法的处理。
附记14.一种其上存储有计算机程序代码的计算机可读存储介质,所述计算机程序代码在计算设备上被执行时,用于使计算设备执行根据附记1至6中任何一项所述的方法的处理。
Claims (10)
1.一种模板提取方法,包括:
对语料进行包括分句和分词在内的预处理;
从预处理后的语料中提取出候选模板;以及
对提取出的候选模板进行优化,
其中,所述优化步骤包括:
针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及
确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
2.如权利要求1所述的方法,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,则确定该候选模板为干扰模板。
3.如权利要求1所述的方法,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表的词或词序列的来源文档的篇数高于第三阈值,则确定该候选模板为干扰模板。
4.如权利要求1-3中任一项所述的方法,其中在去除干扰模板之后,所述方法还包括:
从提取出的候选模板中去除重复的候选模板。
5.如权利要求1-3中任一项所述的方法,其中,所述从预处理后的语料中提取出候选模板的步骤包括:
针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及
对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
6.一种模板提取装置,包括:
预处理单元,配置用于对语料进行包括分句和分词在内的预处理;
候选模板提取单元,配置用于从预处理后的语料中提取出候选模板;以及
优化单元,配置用于对提取出的候选模板进行优化,
其中,所述优化单元进一步配置用于:
针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及
确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
7.如权利要求6所述的装置,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,则所述优化单元确定该候选模板为干扰模板。
8.如权利要求6所述的装置,其中,
如果一个候选模板中的通配符所代表的词或词序列在所述语料的单篇来源文档中出现的次数低于第一预定阈值,或者所述语料中出现该候选模板中由所述通配符分隔出的词或词序列的来源文档的篇数低于第二预定阈值,或者所述语料中出现所述通配符所代表的词或词序列的来源文档的篇数高于第三阈值,则所述优化单元确定该候选模板为干扰模板。
9.如权利要求6-8中任一项所述的装置,其中,所述优化单元进一步配置用于:
在去除干扰模板之后,从提取出的候选模板中去除重复的候选模板。
10.如权利要求6-8中任一项所述的装置,其中,所述候选模板提取单元进一步配置用于:
针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及
对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010004202.5A CN102129422B (zh) | 2010-01-14 | 2010-01-14 | 模板提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010004202.5A CN102129422B (zh) | 2010-01-14 | 2010-01-14 | 模板提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102129422A true CN102129422A (zh) | 2011-07-20 |
CN102129422B CN102129422B (zh) | 2015-10-14 |
Family
ID=44267508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010004202.5A Expired - Fee Related CN102129422B (zh) | 2010-01-14 | 2010-01-14 | 模板提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102129422B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999496A (zh) * | 2011-09-09 | 2013-03-27 | 北京百度网讯科技有限公司 | 建立需求分析模板的方法、搜索需求识别的方法及装置 |
CN103136219A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种基于时效性的需求挖掘方法和装置 |
CN103136220A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 建立词项需求分类模型的方法、词项需求分类方法及装置 |
CN103186509A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 通配符类模板泛化方法和装置、通用模板泛化方法和系统 |
CN105677632A (zh) * | 2014-11-19 | 2016-06-15 | 富士通株式会社 | 提取用于抽取实体的模板的方法和设备 |
CN103136220B (zh) * | 2011-11-24 | 2016-12-14 | 北京百度网讯科技有限公司 | 建立词项需求分类模型的方法、词项需求分类方法及装置 |
CN107193798A (zh) * | 2017-05-17 | 2017-09-22 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
CN107463549A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 一种提取实例模板的方法和设备 |
CN109408789A (zh) * | 2018-10-10 | 2019-03-01 | 厦门市法度信息科技有限公司 | 一种笔录模板及其生成方法及笔录模板选择系统 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100595760C (zh) * | 2007-08-31 | 2010-03-24 | 北京搜狗科技发展有限公司 | 一种获取口语词条的方法、装置以及一种输入法系统 |
CN101404033A (zh) * | 2008-11-14 | 2009-04-08 | 北京大学 | 本体层级结构的自动生成方法及系统 |
CN101464898B (zh) * | 2009-01-12 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
-
2010
- 2010-01-14 CN CN201010004202.5A patent/CN102129422B/zh not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999496A (zh) * | 2011-09-09 | 2013-03-27 | 北京百度网讯科技有限公司 | 建立需求分析模板的方法、搜索需求识别的方法及装置 |
CN103136219B (zh) * | 2011-11-24 | 2016-08-17 | 北京百度网讯科技有限公司 | 一种基于时效性的需求挖掘方法和装置 |
CN103136219A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种基于时效性的需求挖掘方法和装置 |
CN103136220A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 建立词项需求分类模型的方法、词项需求分类方法及装置 |
CN103136220B (zh) * | 2011-11-24 | 2016-12-14 | 北京百度网讯科技有限公司 | 建立词项需求分类模型的方法、词项需求分类方法及装置 |
CN103186509A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 通配符类模板泛化方法和装置、通用模板泛化方法和系统 |
CN103186509B (zh) * | 2011-12-29 | 2016-03-30 | 北京百度网讯科技有限公司 | 通配符类模板泛化方法和装置、通用模板泛化方法和系统 |
CN105677632A (zh) * | 2014-11-19 | 2016-06-15 | 富士通株式会社 | 提取用于抽取实体的模板的方法和设备 |
CN107463549A (zh) * | 2016-06-02 | 2017-12-12 | 阿里巴巴集团控股有限公司 | 一种提取实例模板的方法和设备 |
CN107463549B (zh) * | 2016-06-02 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 一种提取实例模板的方法和设备 |
CN107193798A (zh) * | 2017-05-17 | 2017-09-22 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
CN107193798B (zh) * | 2017-05-17 | 2019-06-04 | 南京大学 | 一种基于规则的试题类自动问答系统中的试题理解方法 |
CN109408789A (zh) * | 2018-10-10 | 2019-03-01 | 厦门市法度信息科技有限公司 | 一种笔录模板及其生成方法及笔录模板选择系统 |
CN109408789B (zh) * | 2018-10-10 | 2022-07-29 | 厦门市法度信息科技有限公司 | 一种笔录模板及其生成方法及笔录模板选择系统 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102129422B (zh) | 2015-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102129422A (zh) | 模板提取方法和装置 | |
EP2664997B1 (en) | System and method for resolving named entity coreference | |
US9740685B2 (en) | Generation of natural language processing model for an information domain | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
JP7164701B2 (ja) | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 | |
US20080059442A1 (en) | System and method for automatically expanding referenced data | |
CN102253930A (zh) | 一种文本翻译的方法及装置 | |
AU2016210590A1 (en) | Method and System for Entity Relationship Model Generation | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
US11163806B2 (en) | Obtaining candidates for a relationship type and its label | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
US9864738B2 (en) | Methods and apparatus related to automatically rewriting strings of text | |
Andrusyak et al. | Detection of Abusive Speech for Mixed Sociolects of Russian and Ukrainian Languages. | |
CN112214574A (zh) | 上下文感知句子压缩 | |
Plu et al. | A hybrid approach for entity recognition and linking | |
US11269942B2 (en) | Automatic keyphrase extraction from text using the cross-entropy method | |
US10546063B2 (en) | Processing of string inputs utilizing machine learning | |
US20140244676A1 (en) | Discovering Title Information for Structured Data in a Document | |
CN101271448A (zh) | 汉语基本名词短语的识别及其规则的生成方法和装置 | |
YUMUŞAK et al. | Tagging accuracy analysis on part-of-speech taggers | |
CN107203509A (zh) | 标题生成方法和装置 | |
Shrawankar et al. | Construction of news headline from detailed news article | |
US10372816B2 (en) | Preprocessing of string inputs in natural language processing | |
CN111626055B (zh) | 文本处理方法及装置、计算机存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151014 Termination date: 20190114 |