CN102004724B - 文档段落分割方法 - Google Patents

文档段落分割方法 Download PDF

Info

Publication number
CN102004724B
CN102004724B CN2010106020301A CN201010602030A CN102004724B CN 102004724 B CN102004724 B CN 102004724B CN 2010106020301 A CN2010106020301 A CN 2010106020301A CN 201010602030 A CN201010602030 A CN 201010602030A CN 102004724 B CN102004724 B CN 102004724B
Authority
CN
China
Prior art keywords
fragment
chain
similarity
speech
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010106020301A
Other languages
English (en)
Other versions
CN102004724A (zh
Inventor
刘铭
刘远超
王晓龙
刘秉权
林磊
单丽莉
孙承杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN2010106020301A priority Critical patent/CN102004724B/zh
Publication of CN102004724A publication Critical patent/CN102004724A/zh
Application granted granted Critical
Publication of CN102004724B publication Critical patent/CN102004724B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

文档段落分割方法,本发明涉及文档的分割方法。用于文本分割。它解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。它通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。

Description

文档段落分割方法
技术领域
本发明涉及文档的分割方法。
背景技术
文本分割,主要是对一篇文本中的各个段落,按照语义关系进行分割,将各个自然段落进行归并,使得文章中所有大意属于一个子主题的段落归并于一个语义段落,这样把一篇文本分割成若干个语义段落。这种文本分割的方式很类似于小学语文教学中对文章分段的方式。
文本分割的意义在于对文本的分析可以从原来的文本级别细致到语义段落级别。过去对文本的分析只能停留在当前文本的主题思想或者类别等有限的范围内。如果想进一步分析文本就只能以自然段落为单位,但这样的自然段落往往不能完整地表达一个子主题,所以很难对文本的结构做出分析。
一旦文本的结构能够正确地被分析出来,则文本处理的很多任务可以通过结构分析的结果完成或提高。文本的自动摘要就是一个典型的例子,对于摘要的对象完全可以根据文本的结构分析出主题的位置、修饰的成分或者结论性语句,这样在这些信息的基础上进行摘要无疑将大大提升结果的准确程度。文本分割的用途除了上文提及自动文本摘要外还有很多,但这些用途多数都是建立在文本理解的基础之上的,而较为著名的应用应当是问答系统。因为问答系统是要计算机模拟人对用户的提问做出回答,整个过程与图灵试验极其相似,所以要求对文本的理解程度较高。
尤其是在信息检索任务中,文本分割将直接提升检索的准确性和缩小结果的范围。以往信息检索是以篇章为单位,结果往往是一篇篇与检索关键字相关的文档,而这样的结果使得用户很少有耐心读完整个文档以确定是否检索结果是其感兴趣的内容。如果结合文本分割技术,将不在以文档为检索的最小单位,而是使用语义段落作为最小的单位,这样用户在检索的时候就能更准确的获知其感兴趣内容的位置,从而不需要通读全文,节省了时间,提高了效率。目前无论是基于局部片段相似性的文本分割算法还是基于全局片段相似性的文本分割算法均以文中所有词作为片段相似度计算的依据。此方法非常容易引入与文档描述的主题无关的噪声词,而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确。同时由于上述方法没有对文档主题进行分析,很可能将描述相同子主题的片段分裂到不同的分割单元中。
发明内容
本发明的目的是提供一种文档段落分割方法,以解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度,使得片段划分的结果不准确的缺陷。本发明的方法通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。
文本分割是按照文档主题叙述的线性变换将文档划分成为若干个语义片段或分割单元,以形成语义片段序列的过程,其能够使不同的分割单元描述不同的子主题信息。文本分割的应用范围相当广泛,如自动文摘、问答检索等系统中文本分割均起到很大的作用。本发明通过分析文档主题,去除与主题信息无关的词语对片段相似度计算的干扰。同时将图的思想引入到文本分割中,使分割转化为一种在全局范围内寻找连通分量的过程,结合了全局和局部特征寻找片段划分的最优值,增加了划分的可信度。由于当代语言处理已经要求越来越高,所以基于内容理解的技术已经得到了广泛的重视。因此本发明提出了一种新颖的文本分割方法,其首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类。本发明通过分析文档主题去除与主题信息无关的词语对片段相似度计算的干扰,同时将图的思想引入到文本分割中,使分割转化为一种在全局范围内寻找连通分量的过程,结合了全局和局部特征寻找片段划分的最优值,增加了划分的可信度。
附图说明
图1是以片段(BLOCK)为顶点,以片段间的相似度为边构造片段对子主题的覆盖图。图2是根据阈值去掉弱相关弧后的片段对子主题的覆盖图。
具体实施方式
具体实施方式一:本实施方式通过下述步骤实现:一、对文档进行分词(把整个句子以词为单位划分)的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段(Block),对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割。
本实施方式采用《知网》确定文档的词义,并将词义确定和词汇链构造融合在一起。《知网》将词的词义表示为DEF,但是观察《知网》可知,《知网》中对于词义(DEF)的区分过于严格,并且每个词的DEF中的基本义原在很大程度上决定了该词的含义,至少对于本发明的应用来说这个结论是成立的。因此本实施方式将《知网》中每个词条的DEF集合划分为多个子集,使每个子集仅包含基本义原相同的DEF,并将此子集视为该词的一个义类。将每个义类表示为两部分:一部分是该义类对应的基本义原,另一部分是该义类的每个DEF所包含的关系义原的并集。对文档进行分词及停用词过滤后即可获得文档的词空间,本实施方式通过计算词空间中的词语之间反映信息的相似程度将相似或相关的词构成一条词汇链,下面为词汇链的构造过程:
[1]过滤掉《知网》中含义过大、过于宽泛的抽象义原,如“属性”、“事件”、“实体”等。
[2]设待分割文档Doc的词空间为WordSet,词汇链集合为L。
[3]顺序扫描WordSet,设当前正在扫描的词为Wi,该词具有t个义类。
[4]顺序扫描Wi的t个义类,设当前正在扫描第j个义类,记其为Wij
[5]按公式(1)计算Wij与L中每条链的关联关系,并找到与Wij具有最大关联关系的链,设此词汇链为Lm
[6]按公式(2)计算Wij与Lm的Select值,如值为1,则将词Wi插入到词汇链Lm中,并标记Wi在Lm中的义类为Wij,否则新建一条词汇链包含Wi,同时标记Wi在新建链中的义类为Wij
[7]如果j≥t,即Wij为词Wi的最后一个义类则转步骤[8],否则循环运行步骤[4]~步骤[7]。
[8]如果词Wi为WordSet的末尾则转步骤[9],否则循环运行步骤[3]~步骤[8]。
[9]计算L中每条词汇链的权值,权值为词汇链包含的词数。
[10]取大于平均链权重的词汇链作为文档Doc描述的子主题的代表,并记这些大于平均链权重的词汇链为强链。
R(Wij,Lk)=max(Sim(Wij,Lk),Cor(Wij,Lk))    (1)
公式(1)中Sim(Wij,Lk)反映的是义类Wij和词汇链Lk所描述的信息之间的相似性。Cor(Wij,Lk)反映的是Wij和Lk所描述的信息之间的相关性。
Select ( W ij , L m ) = 1 ; IfR ( W ij , L m ) ≥ TH 0 ; Else - - - ( 2 )
公式(2)中TH为义类Wij与词汇链Lm反映的信息之间是否相互关联的阈值。其中以词与词汇链包含的所有词的最大相似度和最大相关度作为词与链的关联度。因此词与词汇链之间的关联度阈值也就是词与词之间的关联度阈值。实验中发现,如果词与词之间的关联度超过0.7,则两个词较为相似,因此本发明设TH为0.7。
本发明将待分割文档划分成为固定大小的片段(BLOCK)。如果片段的结尾不为复句标点(“.”、“!”、“;”等),则扩充此片段到最近的复句标点。此方法可以使每个片段的结尾均为有意义的分割点。首先为每个片段建立词汇链集合以反映该片段所描述的信息,然后计算每个片段的词汇链集合与文中强链集合的相交模式,并将结果表示为矩阵A=(Aij)。矩阵A的第i个行向量为片段i与文中强链集合的相交模式。A的行为强链集合,列为片段集合,Aij为待分割文档中的第i个片段覆盖第j条强链所述信息的程度。由于强链能够在一定程度上反映文中的多个子主题,因此矩阵A能够在一定程度上反映片段对子主题的侧重程度。
具体实施方式二:本实施方式与实施方式一的不同点是:它还包括步骤八、如果某些分割点位于片段的内部,以这些分割点为疑似分割点把这些片段采用片段内部划分重新确定片段内的分割点。
由于将片段划分为固定大小,然而片段的大小大多是根据经验值得到的,这样某些片段的结尾并不一定是真实的段落分割点,真实的分割点很可能落在算法确定的分割点上下两个片段的内部。此时将片段内部可能的分割点记为疑似分割点。本发明以片段内的复句标点作为疑似分割点,并以这些疑似分割点重新划分片段。
具体实施方式三:下面结合图1和图2具体说明本实施方式:以标题为《驻沪海军某部党委机关倾心为基层解难》的文档作为说明文档。(http://military.people.com.cn/GB/1076/52965/5269015.html),该文主要叙述了海军党委对海军官兵学习、工作、生活上的关心。
首先将待分割文档划分成为固定大小的片段(BLOCK),并以矩阵A=(Aij)表示每个片段的词汇链集合与文中强链集合的相交模式。设待分割文档中的第i个片段的词汇链集合为BL(i),大小为|BL(i)|,其中第m条词汇链为BL(i)m。设文中第j条强链为SLj.公式(3)为Aij的计算方法:
A ij = Σ m = 1 | BL ( i ) | LS ( BL ( i ) m , SL j ) | BL ( i ) | - - - ( 3 )
设词汇链BL(i)m和文中强链SLj中词的并集为CWSet,其大小记为|CWSet|。CWSet中的第l个词为CWl,Blockfre(i,CWl)和Articlefre(CWl)分别为词CWl在文中第i个片段和在全文中的词频。如果词CWl在BL(i)m和SLj中均出现,Same(CWl)为1,否则为0。公式(4)为词汇链BL(i)m和强链SLj的相似度:
LS ( BL ( i ) m , SL j ) = Σ l = 1 | CWSet | Same ( C W l ) × Blockfre ( i , CW l ) Articlefre ( CW l ) | CWSet | - - - ( 4 )
以乘号为界,公式(4)中分母的第一部分反映了词汇链BL(i)m和SLj中相同词的个数,代表了两条词汇链反映的信息的相似程度。而乘上相同词CWl在片段i中的频率与该词在待分割文档中的频率之商,则反映了此相似程度就全文来说的比例。因此该公式能够反映词汇链BL(i)m和SLj所述信息的相似度。
计算任意两个片段i、j在矩阵A中对应的行向量Ai和Aj的余弦相似度,以无向图反映此片段相似度。以片段代表图中顶点,以边(弧)代表两个顶点(片段)之间的相似性,边上的权值则反映了此相似性的大小。由于矩阵A能够反映片段对子主题的侧重程度,则此图即为片段对子主题的覆盖图,具体图示可参见图1、2。图2中线性融合片段内距离BI和片段间距离BA后可得相似度阈值为0.089,去掉相似度小于阈值的边后获得的片段对子主题的覆盖图。
上述片段对子主题的覆盖图中的某些顶点间的相似弧相对于其它顶点间的相似弧是一种弱相关,应该依据阈值予以去掉以减少分割干扰。本发明以矩阵A作为阈值计算的依据,通过矩阵A计算片段内部以及片段间子主题的分布情况,即片段内距离BI和片段间距离BA,并通过线性回归融合BI和BA以确定分割阈值。
定义片段内距离BI为:
BI = Σ i = 1 b log 2 ( P i + 1 ) b - - - ( 5 )
其中Pi为片段i在矩阵A中对应的行向量的非零列数,反映了片段i对文中多个子主题的侧重程度,b为片段总数.则BI反映了各片段对文中多个子主题的侧重程度的平均值。
定义片段间距离BA为:
BA = Σ i = 1 b | | A i - M | | 2 b - - - ( 6 )
其中M为矩阵A中各行向量的平均向量。则BA反映了各片段对文档中心的离散程度。
在片段分割中本发明将片段划分为固定大小,然而片段的大小大多是根据经验值得到的,这样某些片段的结尾并不一定是真实的段落分割点,真实的分割点很可能落在算法确定的分割点上下两个片段的内部。此时将片段内部可能的分割点记为疑似分割点。本发明以片段内的复句标点作为疑似分割点,并以这些疑似分割点重新划分片段。下面即详细叙述了如何寻找某些落在片段内的分割点:
[1]设分割点s的上下两个片段分别为BU(s)和BD(s),设BU(s)和BD(s)的相似度为SimUD(s),设BU(s)和BD(s)内疑似分割点的集合为SegUSet(s)和SegDSet(s)。
[2]设片段BU(s)和BD(s)内所有疑似分割点对应的上下两个片段的相似度集合为SegSimSet(s)。
[3]顺序扫描SegUSet(s),设当前正在扫描的疑似分割点为SegU(s)p
[4]以SegU(s)p作为划分点,将片段BU(s)中位于SegU(s)p以上的内容作为一个单独的片段,将SegU(s)p以下的内容归入到片段BD(s)中,这样即可以形成两个新的片段,将其记为BU(s,SegU(s)p)和BD(s,SegU(s)p)。
[5]分别计算BU(s,SegU(s)p)和BD(s,SegU(s)p)与强链集合的相交模式,然后计算这两个片段对应的相交模式的余弦相似度,记此相似度为SimUD(s,SegU(s)p),并将其插入到SegSimSet(s)中。
[6]如果SegU(s)p为SegUSet(s)的末尾则转[7],否则循环步骤[3]~[6]。
[7]按步骤[3]~[6]处理SegDSet(s)中的疑似分割点。
[8]设SegSimSet(s)中相似度的最小值为SegSim(s)min,检测其是否小于SimUD(s),如小于,则以SegSim(s)min对应的疑似分割点作为新的片段分割点。

Claims (2)

1.文档段落分割方法,其特征在于通过下述步骤实现:一、对文档进行分词的操作及停用词过滤的操作;二、采用词典《知网》对文档的多义词进行消歧;三、对消歧后的词语通过词语之间的相似度构造词汇链;四、对文档构造全文词汇链;五、对文档进行划分,将其划分为多个长度相等的片段,对片段构造词汇链;六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度;七、根据片段之间的相似度构造片段相似图,根据片段相似度图对片段进行分割;
步骤三中词汇链的构造过程如下:
[1]过滤掉《知网》中的抽象义原;
[2]设待分割文档Doc的词空间为WordSet,词汇链集合为L;
[3]顺序扫描WordSet,设当前正在扫描的词为Wi,该词具有t个义类;
[4]顺序扫描Wi的t个义类,设当前正在扫描第j个义类,记其为Wij
[5]按公式(1)计算Wij与L中每条链的关联关系,并找到与Wij具有最大关联关系的链,设此词汇链为Lm
[6]按公式(2)计算Wij与Lm的Select值,如值为1,则将词Wi插入到词汇链Lm中,并标记Wi在Lm中的义类为Wij,否则新建一条词汇链包含Wi,同时标记Wi在新建链中的义类为Wij
[7]如果j≥t,即Wij为词Wi的最后一个义类则转步骤[8],否则循环运行步骤[4]~步骤[7];
[8]如果词Wi为WordSet的末尾则转步骤[9],否则循环运行步骤[3]~步骤[8];
[9]计算L中每条词汇链的权值,权值为词汇链包含的词数;
[10]取大于平均链权重的词汇链作为文档Doc描述的子主题的代表,并记这些大于平均链权重的词汇链为强链;
R(Wij,Lk)=max(Sim(Wij,Lk),Cor(Wij,Lk))    (1)
公式(1)中Sim(Wij,Lk)反映的是义类Wij和词汇链Lk所描述的信息之间的相似性;Cor(Wij,Lk)反映的是Wij和Lk所描述的信息之间的相关性;
Figure FDA0000117090430000011
公式(2)中TH为义类Wij与词汇链Lm反映的信息之间是否相互关联的阈值;其中以词与词汇链包含的所有词的最大相似度和最大相关度作为词与链的关联度;因此词与词汇链之间的关联度阈值也就是词与词之间的关联度阈值;TH为0.7;
文档段落分割方法,首先将待分割文档划分成为固定大小的片段,并以矩阵A=(Aij)表示每个片段的词汇链集合与文中强链集合的相交模式;待分割文档中的第i个片段的词汇链集合为BL(i),大小为|BL(i)|,其中第m条词汇链为BL(i)m;文中第j条强链为SLj公式(3)为Aij的计算方法:
A ij = Σ m = 1 | BL ( i ) | LS ( BL ( i ) m , SL j ) | BL ( i ) | - - - ( 3 )
设词汇链BL(i)m和文中强链SLj中词的并集为CWSet,其大小记为|CWSet|;CWSet中的第1个词为CW1,Blockfre(i,CW1)和Articlefre(CW1)分别为词CW1在文中第i个片段和在全文中的词频;如果词CW1在BL(i)m和SLj中均出现,Same(CW1)为1,否则为0;公式(4)为词汇链BL(i)m和强链SLj的相似度:
LS ( BL ( i ) m , SL j ) = Σ l = 1 | CWSet | Same ( CW 1 ) × Blockfre ( i , CW 1 ) Articlefre ( CW 1 ) | CWSet | - - - ( 4 )
以乘号为界,公式(4)中分子的第一部分反映了词汇链BL(i)m和SLj中相同词的个数,代表了两条词汇链反映的信息的相似程度;而乘上相同词CW1在片段i中的频率与该词在待分割文档中的频率之商,则反映了此相似程度就全文来说的比例;
计算任意两个片段i、j在矩阵A中对应的行向量Ai和Aj的余弦相似度,以无向图反映此片段相似度;以片段代表代表图中顶点,以边或弧代表两个顶点或片段之间的相似性,边上的权值则反映了此相似性的大小;
以矩阵A作为阈值计算的依据,通过矩阵A计算片段内部以及片段间子主题的分布情况,即片段内距离BI和片段间距离BA,并通过线性回归融合BI和BA以确定分割阈值;
片段内距离BI为:
BI = Σ i = 1 b log 2 ( P i + 1 ) b - - - ( 5 )
其中Pi为片段i在矩阵A中对应的行向量的非零列数,反映了片段i对文中多个子主题的侧重程度,b为片段总数.则BI反映了各片段对文中多个子主题的侧重程度的平均值;
片段间距离BA为:
BA = Σ i = 1 b | | A i - M | | b - - - ( 6 )
其中M为矩阵A中各行向量的平均向量;BA反映了各片段对文档中心的离散程度。
2.根据权利要求1所述的文档段落分割方法,其特征在于它还包括步骤八、如果某些分割点位于片段的内部,以这些分割点为疑似分割点把这些片段采用片段内部划分重新确定片段内的分割点;
寻找落在片段内的分割点的步骤如下:
[I]设分割点s的上下两个片段分别为BU(s)和BD(s),设BU(s)和BD(s)的相似度为SimUD(s),设BU(s)和BD(s)内疑似分割点的集合为SegUSet(s)和SegDSet(s);
[II]设片段BU(s)和BD(s)内所有疑似分割点对应的上下两个片段的相似度集合为SegSimSet(s);
[III]顺序扫描SegUSet(s),设当前正在扫描的疑似分割点为SegU(s)p
[IV]以SegU(s)p作为划分点,将片段BU(s)中位于SegU(s)p以上的内容作为一个单独的片段,将SegU(s)p以下的内容归入到片段BD(s)中,这样即可以形成两个新的片段,将其记为BU(s,SegU(s)p)和BD(s,SegU(s)p);
[V]分别计算BU(s,SegU(s)p)和BD(s,SegU(s)p)与强链集合的相交模式,然后计算这两个片段对应的相交模式的余弦相似度,记此相似度为SimUD(s,SegU(s)p),并将其插入到SegSimSet(s)中;
[VI]如果SegU(s)p为SegUSet(s)的末尾则转步骤[VII],否则循环步骤[III]~步骤[VI];
[VII]按步骤[III]~步骤[VI]处理SegDSet(s)中的疑似分割点;
[VIII]设SegSimSet(s)中相似度的最小值为SegSim(s)min,检测其是否小于SimUD(s),如小于,则以SegSim(s)min对应的疑似分割点作为新的片段分割点。
CN2010106020301A 2010-12-23 2010-12-23 文档段落分割方法 Expired - Fee Related CN102004724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106020301A CN102004724B (zh) 2010-12-23 2010-12-23 文档段落分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106020301A CN102004724B (zh) 2010-12-23 2010-12-23 文档段落分割方法

Publications (2)

Publication Number Publication Date
CN102004724A CN102004724A (zh) 2011-04-06
CN102004724B true CN102004724B (zh) 2012-06-20

Family

ID=43812095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106020301A Expired - Fee Related CN102004724B (zh) 2010-12-23 2010-12-23 文档段落分割方法

Country Status (1)

Country Link
CN (1) CN102004724B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5869948B2 (ja) * 2012-04-19 2016-02-24 株式会社日立製作所 パッセージ分割方法、装置、及びプログラム
CN102831159B (zh) * 2012-07-16 2016-04-27 上海大学 一种基于专家投票的文本相似网络构建方法
CN103226580B (zh) * 2013-04-02 2016-03-30 西安交通大学 一种面向交互文本的话题识别方法
CN105005554A (zh) * 2015-06-30 2015-10-28 北京信息科技大学 一种词汇语义相关度的计算方法
CN106815206A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN106815208A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN108009151B (zh) * 2017-11-29 2021-04-16 深圳中泓在线股份有限公司 新闻文本自动分段方法和装置、服务器及可读存储介质
CN108419123B (zh) * 2018-03-28 2020-09-04 广州市创新互联网教育研究院 一种教学视频的虚拟切片方法
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法
CN109815395B (zh) * 2018-12-26 2021-06-08 北京中科闻歌科技股份有限公司 网页垃圾信息过滤方法、装置及存储介质
CN110674635B (zh) * 2019-09-27 2023-04-25 北京妙笔智能科技有限公司 一种用于文本段落划分的方法和装置
CN112016292B (zh) * 2020-09-09 2022-10-11 平安科技(深圳)有限公司 文章截断点的设定方法、装置以及计算机设备
CN113591468B (zh) * 2021-06-15 2024-02-13 天津师范大学 国际组织科技文本词汇链自动构建与主题发现方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100432996C (zh) * 2004-12-07 2008-11-12 国际商业机器公司 基于网页页面布局提取网页核心内容的系统、方法
CN100543735C (zh) * 2005-10-31 2009-09-23 北大方正集团有限公司 基于文档结构的文档相似性度量方法
CN101694670B (zh) * 2009-10-20 2012-07-04 北京航空航天大学 一种基于公共子串的中文Web文档在线聚类方法

Also Published As

Publication number Publication date
CN102004724A (zh) 2011-04-06

Similar Documents

Publication Publication Date Title
CN102004724B (zh) 文档段落分割方法
Stamatatos et al. Clustering by authorship within and across documents
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Wang et al. Relevant document discovery for fact-checking articles
CN103399901B (zh) 一种关键词抽取方法
Mejova et al. GOP primary season on twitter: " popular" political sentiment in social media
CN102081627B (zh) 一种确定词语在文本中的贡献度的方法及系统
CN102662952A (zh) 一种基于层次的中文文本并行数据挖掘方法
CN105868108A (zh) 基于神经网络的指令集无关的二进制代码相似性检测方法
CN108319587B (zh) 一种多权重的舆情价值计算方法及系统、计算机
CN104462378A (zh) 用于文本识别的数据处理方法及装置
Hong et al. An extended keyword extraction method
CN103927297A (zh) 基于证据理论的中文微博可信度评估方法
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN101425071A (zh) 位置描述检测装置、程序以及存储介质
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN103605781A (zh) 一种隐式篇章关系类型推理方法及系统
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
CN110956033A (zh) 一种文本相似度计算方法及装置
CN110472256B (zh) 一种基于篇章的机器翻译引擎测评优选方法及系统
JP6237639B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
Liu et al. Knowledge graph for maritime pollution regulations based on deep learning methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

Termination date: 20141223

EXPY Termination of patent right or utility model