CN102945228B - 一种基于文本分割技术的多文档文摘方法 - Google Patents

一种基于文本分割技术的多文档文摘方法 Download PDF

Info

Publication number
CN102945228B
CN102945228B CN201210437340.1A CN201210437340A CN102945228B CN 102945228 B CN102945228 B CN 102945228B CN 201210437340 A CN201210437340 A CN 201210437340A CN 102945228 B CN102945228 B CN 102945228B
Authority
CN
China
Prior art keywords
sentence
word
concept
border
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210437340.1A
Other languages
English (en)
Other versions
CN102945228A (zh
Inventor
王萌
唐新来
王晓荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi super macro science and Technology Co., Ltd.
Original Assignee
Guangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Science and Technology filed Critical Guangxi University of Science and Technology
Priority to CN201210437340.1A priority Critical patent/CN102945228B/zh
Publication of CN102945228A publication Critical patent/CN102945228A/zh
Application granted granted Critical
Publication of CN102945228B publication Critical patent/CN102945228B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于多文档文摘技术领域,提供了一种基于文本分割技术的多文档文摘方法,使用HowNet进行概念获取,建立概念向量空间模型,采用改进的DotPlotting模型和句子概念向量空间进行文本分割,利用建立的概念向量空间模型计算句子权重,根据句子权重、文本分割和相似度情况产生文摘,同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的,该多文档文摘方法将把用户提供的相关文档集合形成文摘,并以适当的形式展现给用户,极大地提高了获取信息的效率,实用性强,具有较强的推广与应用价值。

Description

一种基于文本分割技术的多文档文摘方法
技术领域
本发明属于多文档文摘技术领域,尤其涉及一种基于文本分割技术的多文档文摘方法。
背景技术
在网络时代中,各类电子文本信息大量涌现,如何帮助用户在较少的时间从信息海洋中迅速准确地获得用户感兴趣的信息,日益成为自然语言理解领域的研究热点。多文档文摘是将同一主题的多个文本去除冗余信息,按照一定的压缩比有机地融合在一起的技术,该技术将把用户提供的相关文档集合形成文摘,并以适当的形式展现给用户,提高了获取信息的效率,并随着近几年连续举办的各类国际大型评测会议,相关技术有了较大突破。
多文档文摘技术的特点是将同一主题下的文档集合进行有效的压缩,而这些文档集合虽属于同一主题,但往往从多个不同的方面和角度对事件进行论述,形成了所谓的子主题或子事件。传统文本处理技术以篇章作为基本处理单元,认为一篇文章只讨论一个主题,从句子重要度出发抽取若干文摘句,该方法容易造成对次重要主题的遗漏或忽略。秦兵等人提出了基于子主题的多文档文摘方法,孔庆苹等人基于概念获取的多文档主题划分。上述方法都考虑到了多文档包含多个子主题的特点,但这些方法多通过句子聚类法将各句子划分到相应主题下,然后提取文摘句。然而在实际的文档写作过程中,作者一般都会用连续的段落来表达一个主题,基于这个情况,描述某个局部主题的段落通常都是连续的、而非离散的。因此完全按照句子作为处理颗粒度将会使得有些信息可能被忽略。
文本分割技术可以按照文档主题叙述的线性变换将文档划分成为若干个语义片段或分割单元。将文本分割技术作为多文档自动文摘的主题分析或主题划分技术,使用语义段落(文本片段)作为基本处理单元,来识别文本内部不同子主题的边界,并将其线性分割开来。
发明内容
本发明提供了一种基于文本分割技术的多文档文摘方法,旨在解决传统文本处理技术以篇章作为基本处理单元,认为一篇文章只讨论一个主题,从句子重要度出发抽取若干文摘句,容易造成对次重要主题的遗漏或忽略,以及当完全按照句子作为处理颗粒度将会使得有些信息可能被忽略的问题。
本发明的目的在于提供一种基于文本分割技术的多文档文摘方法,该多文档文摘方法包括以下步骤:
步骤一,以“知网”作为工具获取概念,并以获取的概念作为特征建立概念向量空间模型;
步骤二,使用改进的Dotpfotting算法进行文本分割,获得文本的主题划分;
步骤三,利用建立的概念向量空间模型计算句子权重,根据句子权重、主题划分、句子相似度产生文摘。
进一步,步骤一,以“知网”作为工具获取概念时,将“知网”结构中的DEF项相同的词语作为词义相同的义原,提取出来作为同一个概念不同词语的集合,具体的实现步骤为:
S11,选择多义词的DEF项
S111,利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注,去除对文本文摘作用不大的介词、虚词、数词词语,提取出关键的名词、形容词重要词语进行处理,得到一个切分好和带词性标注的文本;
S112,在对多义词的DEF项选取主要分两种情况进行,一种情况是有些多义词在不同语境下的词性是不同的,可根据标注好词性的特点确定这些多义词的DEF项,另外一种情况是在不同DEF项下有相同的词性,但在不同语境下需要与不同词性词语搭配使用,根据不同语境将会产生不同的语法形式确定这类多义词的DEF项;
S12,在确定多义词DEF项后,采用改进的DEF项获取其他词语概念
S121,重新定义DEF项,将DEF项扩展为包含的基本义原和该词语中的关系义原的并集,在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原;
S122,以句子为单位建立概念获取前的文档模型,表示为Sj(W1,W2,...Wn),文档由j句话构成,每句话包含n个词语;
S123,进入建立向量空间模型的句子扫描,设目前正在扫描第j句话;
S124,扫描句中词语Wi,找到所对应的DEF项,并在该句话中扫描是否有与DEF项义原相同的词语,如果没有则标注词语Wi的概念,则扫描句子下一个词语Wi+1,转到S24,句中所有词语扫描完,进入下一个句子的扫描,转到S23;若有相同词语,转到S25;
S125,提取出词语Wk,找出Wk所对应的DEF项,若词语Wk的DEF项义原词语未包含Wi,则将词语Wi和Wk的概念以Wi的DEF项进行标注;若出现词语Wi,则通过比较两个词语在DEF项描述的义原的距离,采用离基本义原更有的那个词语的DEF项作为这两个词语的概念,进入下一个词语Wi+1的扫描,转到S24;句中所有词语扫描完,进入下一个句子的扫描,转到S23。
进一步,步骤二,使用改进的Dotpfotting算法进行文本分割,获得文本的主题划分时,改进的DotPlotting模型的修改密度函数为:
f D ′ = Σ j = 2 | P | V P j - 1 , P k · V P j , n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 , P j · V p j , P J + 1 P j ( P J + 1 - P j )
其中n为整篇文档的长度,Pj为第j个语义段落边界的位置,|P|文档中的语段数目,Vx,y为第x个词至第y个词组成的文本片段的词频向量;
DotPlotting模型中语义段落边界的确定方法为:假设B为已确定的语义边界集合,那么余下的所有边界都是候选语义边界;将余下的边界集合作为下一轮需要进行选择待选边界,它们组成候选边界集合C,对C中每个候选边界i,令P=B∪{i},根据改进的DotPlotting模型的修改密度函数,计算出由P分割出的总体密度,选择总体密度最小的候选边界作为下一个最佳语义段落边界,并将该边界加入集合B,具体的实现步骤如下:
S21,对给定文档W进行词语预处理和根据第二部分的概念获取方法获取词语的概念,并建立概念二维点图,给定语义段分割数目K;
S22,初始化语义边界集合B为空,以各个段落为边界,作为候选分割点,并以候选分割点为基础建立候选边界集合C,使用标识S作为记录最佳分割点的变量;
S23,将分割段落数从1到K重复(4)-(5)操作:
S24,对于集合C中的每一个边界候选点i,令P=B∪{i},根据改进的DotPlotting模型的修改密度函数,计算出由P分割出的总体密度d,如果dmin>d,dmin=d,并且记录下S=i;
S25,将该边界作为一个目标边界记录到集合B中,即B∪{S};同时将该边界在候选边界集合C中删除C-{S}。
进一步,改进的Dotpfotting算法的含义是语义段落边界是依次添加进来的,将文档中自然段落末尾作为候选语义段落分割点,选取新的语段边界时,考察每个候选边界,尝试将其加入边界集合B,组成新的边界集合P,并利用密度函数来评价由新的边界集合里的边界构成的分割方式,选取使得密度函数值最小的候选边界作为分割边界,并将该边界加入分割边界集合,直至边界的个数达到预先指定的数目K为止。
进一步,在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算,具体计算方法如下:
(1)概念权重计算
建立好基于句子的概念向量空间模型后,采用传统的TF*IDF法来计算概念重要度;
(2)句子权重计算
句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1,W1j;C2,W2j;....;Cn,Wnj)进行句子权重计算,从语言学结构分析和相关统计运行分析,句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置等因素相关,设计句子权重的计算函数为:
W ( S j ) = λ Σ i = 1 n F ij × w i ( d i ) M
其中wi(dt)为概念Ti的重要度,Fij为Ci在句子Sj中出现的频度,M为句子Sj包含的所有概念个数;λ为当句子是段落的句首或者结尾时的加权值,设为1.5,在计算句子权重时除以M主要是为了单位化句子权重,使句子权重计算不因句子长短不同而有较大波动;
(3)句子相似度计算
为防止抽取出的文摘句有内容相似的语句,采用两个句子间概念重叠个数与各句子间概念个数和的2倍作为计算句子间相似度的方法,具体算法为:
R s = 2 * ( # overlapping words ) ( # words insentencel + # words in sentence 2 )
通过对大量语料中相似句的计算,相似度阈值设定为0.7比较合理。
进一步,该多文档文摘方法通过内部评测的方式进行验证。
本发明提出了一种基于文本分割技术的多文档文摘方法,使用HowNet进行概念获取,建立概念向量空间模型,采用改进的DotPlotting模型和句子概念向量空间进行文本分割,利用建立的概念向量空间模型计算句子权重,根据句子权重、文本分割和相似度情况产生文摘,同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的,该多文档文摘方法将把用户提供的相关文档集合形成文摘,并以适当的形式展现给用户,极大地提高了获取信息的效率,实用性强,具有较强的推广与应用价值。
附图说明
图1是本发明实施例提供的基于文本分割技术的多文档文摘方法的实现流程图;
图2是本发明实施例提供的基于文本分割技术的多文档文摘方法的工作原理流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定发明。
图1示出了本发明实施例提供的基于文本分割技术的多文档文摘方法的实现流程。
该多文档文摘方法包括以下步骤:
步骤S101,以“知网”作为工具获取概念,并以获取的概念作为特征建立概念向量空间模型;
步骤S102,使用改进的Dotpfotting算法进行文本分割,获得文本的主题划分;
步骤S103,利用建立的概念向量空间模型计算句子权重,根据句子权重、主题划分、句子相似度产生文摘。
进一步,步骤S101,以“知网”作为工具获取概念时,将“知网”结构中的DEF项相同的词语作为词义相同的义原,提取出来作为同一个概念不同词语的集合,具体的实现步骤为:
S11,选择多义词的DEF项
S111,利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注,去除对文本文摘作用不大的介词、虚词、数词词语,提取出关键的名词、形容词重要词语进行处理,得到一个切分好和带词性标注的文本;
S112,在对多义词的DEF项选取主要分两种情况进行,一种情况是有些多义词在不同语境下的词性是不同的,可根据标注好词性的特点确定这些多义词的DEF项,另外一种情况是在不同DEF项下有相同的词性,但在不同语境下需要与不同词性词语搭配使用,根据不同语境将会产生不同的语法形式确定这类多义词的DEF项;
S12,在确定多义词DEF项后,采用改进的DEF项获取其他词语概念
S121,重新定义DEF项,将DEF项扩展为包含的基本义原和该词语中的关系义原的并集,在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原;
S122,以句子为单位建立概念获取前的文档模型,表示为Sj(W1,W2,...Wn),文档由j句话构成,每句话包含n个词语;
S123,进入建立向量空间模型的句子扫描,设目前正在扫描第j句话;
S124,扫描句中词语Wi,找到所对应的DEF项,并在该句话中扫描是否有与DEF项义原相同的词语,如果没有则标注词语Wi的概念,则扫描句子下一个词语Wi+1,转到S24,句中所有词语扫描完,进入下一个句子的扫描,转到S23;若有相同词语,转到S25;
S125,提取出词语Wk,找出Wk所对应的DEF项,若词语Wk的DEF项义原词语未包含Wi,则将词语Wi和Wk的概念以Wi的DEF项进行标注;若出现词语Wi,则通过比较两个词语在DEF项描述的义原的距离,采用离基本义原更有的那个词语的DEF项作为这两个词语的概念,进入下一个词语Wi+1的扫描,转到S24;句中所有词语扫描完,进入下一个句子的扫描,转到S23。
进一步,步骤S102,使用改进的Dotpfotting算法进行文本分割,获得文本的主题划分时,改进的DotPlotting模型的修改密度函数为:
f D ′ = Σ j = 2 | P | V P j - 1 , P k · V P j , n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 , P j · V p j , P J + 1 P j ( P J + 1 - P j )
其中n为整篇文档的长度,Pj为第j个语义段落边界的位置,|P|文档中的语段数目,Vx,y为第x个词至第y个词组成的文本片段的词频向量;
DotPlotting模型中语义段落边界的确定方法为:假设B为已确定的语义边界集合,那么余下的所有边界都是候选语义边界;将余下的边界集合作为下一轮需要进行选择待选边界,它们组成候选边界集合C,对C中每个候选边界i,令P=B∪{i},根据改进的DotPlotting模型的修改密度函数,计算出由P分割出的总体密度,选择总体密度最小的候选边界作为下一个最佳语义段落边界,并将该边界加入集合B,具体的实现步骤如下:
S21,对给定文档W进行词语预处理和根据第二部分的概念获取方法获取词语的概念,并建立概念二维点图,给定语义段分割数目K;
S22,初始化语义边界集合B为空,以各个段落为边界,作为候选分割点,并以候选分割点为基础建立候选边界集合C,使用标识S作为记录最佳分割点的变量;
S23,将分割段落数从1到K重复(4)-(5)操作:
S24,对于集合C中的每一个边界候选点i,令P=B∪{i},根据改进的DotPlotting模型的修改密度函数,计算出由P分割出的总体密度d,如果dmin>d,dmin=d,并且记录下S=i;
S25,将该边界作为一个目标边界记录到集合B中,即B∪{S};同时将该边界在候选边界集合C中删除C-{S}。
进一步,改进的Dotpfotting算法的含义是语义段落边界是依次添加进来的,将文档中自然段落末尾作为候选语义段落分割点,选取新的语段边界时,考察每个候选边界,尝试将其加入边界集合B,组成新的边界集合P,并利用密度函数来评价由新的边界集合里的边界构成的分割方式,选取使得密度函数值最小的候选边界作为分割边界,并将该边界加入分割边界集合,直至边界的个数达到预先指定的数目K为止。
进一步,在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算,具体计算方法如下:
(1)概念权重计算
建立好基于句子的概念向量空间模型后,采用传统的TF*IDF法来计算概念重要度;
(2)句子权重计算
句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1,W1j;C2,W2j;....;Cn,Wnj)进行句子权重计算,从语言学结构分析和相关统计运行分析,句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置等因素相关,设计句子权重的计算函数为:
W ( S j ) = λ Σ i = 1 n F ij × w i ( d i ) M
其中wi(dt)为概念Ti的重要度,Fij为Ci在句子Sj中出现的频度,M为句子Sj包含的所有概念个数;λ为当句子是段落的句首或者结尾时的加权值,设为1.5,在计算句子权重时除以M主要是为了单位化句子权重,使句子权重计算不因句子长短不同而有较大波动;
(3)句子相似度计算
为防止抽取出的文摘句有内容相似的语句,采用两个句子间概念重叠个数与各句子间概念个数和的2倍作为计算句子间相似度的方法,具体算法为:
R s = 2 * ( # overlapping words ) ( # words insentencel + # words in sentence 2 )
通过对大量语料中相似句的计算,相似度阈值设定为0.7比较合理。
在本发明实施例中,该多文档文摘方法通过内部评测的方式进行验证。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
概念获取:
在自动文摘中一个必要的过程是对句子进行重要度计算,而对句子的重要度计算多采用建立的向量空间模型来进行。传统的基于词频模型的向量空间在建模过程中由于未能将描述同一概念的词语进行聚类,导致所建立模型中各向量并未真正做到相互完全正交,这一现象将导致后期的文摘准确率较低,为此本发明以概念作为特征代替词频特征,建立概念向量空间模型,以避免上述情况的发生,本发明以“知网”作为概念获取的工具。
“知网”介绍:
“知网”是中文语义辞典,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常用知识库,目前定义了1500多个义原。“知网”中的每个词条均含有NO.、W_C、G_C、E_C、DEF,其中NO.为概念编号,剩下的符号分别对应于词条的词语、词性、词语举例和词语的定义,表达了词条的语义信息,由两部分组成,如“爆炸”(NO.=005987)的DEF为{FormChange|形变:StateFin={OutOfOrder|坏掉}。以冒号为界,第一部分为基本义原:{FormChange|形变},能够在很大程度上反映DEF的含义;第二部分为关系义原:{StateFin={OutOfOrder|坏掉},代表了DEF的关系结构特性。“知网”以树形组织义原,越相似的义原在义原树内的位置越接近。
基于“知网”的概念获取:
从“知网”的结构可以看出DEF项很好的表达了词语的词义,可以将DEF项相同的词语作为词义相同的义原,提取出来作为同一个概念不同词语的集合。但在实际的概念获取过程中会存在两个问题,第一个问题就是在对多义词获取词语概念的时候仅仅以DEF项相同来作为获取的原则是不够的,这样无法区分多义词实际所属的义原项而影响到概念获取准确率;另一个方面则表现为“知网”中对于词义(DEF)的区分过于严格,完全以DEF项本身进行匹配搜索将可能遗漏掉一些相关信息。
首先,解决多义词DEF项的选择问题,再采用一个改进的DEF项获取词语概念。可以先利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注,去除对文本文摘作用不大的介词、虚词、数词等词语,提取出关键的名词,形容词等重要词语进行处理;这样的一个切分好和带词性标注的文本。在对多义词的DEF项选取主要分两种情况进行。一种情况是有些多义词在不同语境下的词性是不同的,可以根据标注好词性的特点确定这些多义词的DEF项;另外一种情况是在不同DEF项下有相同的词性,但在不同语境下需要与不同词性词语搭配使用。例如,“知网”中编号分别为(NO.=005987和NO.=005990)两个词语来说,对于第一个“爆炸”义项来说,在实际使用过程中多指“核电厂发生爆炸、炸药爆炸了”,语法分析形式上多使用N+V;而对第二个“爆炸”义项来说,多指“爆炸了敌人的弹药库、准备爆炸的大楼”,语法分析形式上多使用V+N。不同语境将会产生不同的语法形式,根据这点可以确定这类多义词的DEF项。
在多义词确定其DEF项后,采用改进的DEF项获取其他词语概念,详细过程如下:
1)重新定义DEF项,将DEF项扩展为包含的基本义原和该词语中的关系义原的并集,在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原,如“属性”、“事件”、“实体”等;
2)以句子为单位建立概念获取前的文档模型,表示为Sj(W1,W2,...Wn)(文档由j句话构成,每句话包含n个词语);
4)进入建立向量空间模型的句子扫描,设目前正在扫描第j句话;
5)扫描句中词语Wi,找到所对应的DEF项,并在该句话中扫描是否有与DEF项义原相同的词语,如果没有则标注词语Wi的概念,则扫描句子下一个词语Wi+1,转到(5),句中所有词语扫描完,进入下一个句子的扫描,转到(4);若有相同词语,转到(6);
6)提取出词语Wk,找出Wk所对应的DEF项,若词语Wk的DEF项义原词语未包含Wi,则将词语Wi和Wk的概念以Wi的DEF项进行标注;若出现词语Wi,则通过比较两个词语在DEF项描述的义原的距离,采用离基本义原更有的那个词语的DEF项作为这两个词语的概念,进入下一个词语Wi+1的扫描,转到(5);句中所有词语扫描完,进入下一个句子的扫描,转到(4);
在完成上述工作后,可以获得所有词语的概念,这样获得到的词语概念不仅解决了多义词的消解问题,同时考虑了将同一语境中有相同关系的词语作为一个概念来对待处理,这样更能保证在以概念为基础所建立的概念向量空间模型中各个概念元素的正交关系,从而为后期生成更高质量的文本摘要打下坚实的基础。
3基于概念密度的文本分割方法
3.1传统DotPlotting模型
DotPlotting[7]是文本分割领域的著名模型,该算法是一种基于词汇聚合度和图像分析技术的方法,它通过一个反映文档词汇整体分布情况的点图来识别语义段落边界。如果某个词在文档中位置x和位置y处重复出现,则分别在图中(x,x),(x,y),(y,x),(y,y)四个坐标上用一个点标出该词。利用该方法将整篇文本的所有词汇都表示在图上,就会形成一个对称的二维点图。二维点图能够明显地反映了一篇文档内部的子主题分布情况,通过建立密度评价函数来度量主题的连贯性,已达到对文本进行分割的效果。
Dotplotting模型传统的密度函数表示为:
f D = Σ j = 2 | P | V P j - 1 , P j · V P j , n ( P j - P j - 1 ) ( n - P j ) - - - ( 1 )
其中n为整篇文档的长度,Pj为第j个语义段落边界的位置,|P|文档中的语段数目,Vx,y为第x个词至第y个词组成的文本片段的词频向量。
在整个传统DotPlotting模型中,如果仅仅采用词汇作为一个基本语义单位,在整个二维点图中将存在大量的系数矩阵情况,该情况在使用密度函数进行评价时无法准确提取出一些语义段落的边界;另一方面公式(1)中,密度函数对每个候选的语义段落边界,在由它所带来的总体密度中,每个单个密度项是每个位置Pj对应的密度项计算它的前一个语义段落与它之后的所有文本之间的词汇相似度,因此位置Pj的密度由它的前一个语义段落边界Pj-1,和整篇文档的结尾位置n决定。这就存在一个密度函数不对称性问题,该问题会导致从前向后扫描文档与从后向前扫描文档得出完全不相同的文本分割结果。而现在是在一个对称的二维点图上进行一个密度函数评价来进行文本分割,因此需要解决传统Dotplotting模型密度函数不对称的问题。
3.2改进的DotPlotting模型
基于上述对传统DotPlotting模型的分析与研究,本发明采用第二部分获得概念来代替词汇,利用概念来建立对称的二维点图;同时为了弥补传统Dotplotting模型密度函数的不对称性问题,修改密度函数为:
f D ′ = Σ j = 2 | P | V P j - 1 , P k · V P j , n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 , P j · V p j , P J + 1 P j ( P J + 1 - P j ) - - - ( 2 )
公式(2)后半部分是为了使密度函数对称化而引入的“后向”密度。通过对公式(1)的修正,候选边界位置Pj的“后向”密度是由它的后一个语义段落边界Pj+1和整篇文档的起始位置0决定的。该密度函数能保证,从前向后和从后向前扫描文档将得到相同的密度函数值。
3.3文本分割算法
DotPlotting模型中语义段落边界的确定方法为:假设B为已确定的语义边界集合,那么余下的所有边界都是候选语义边界;将余下的边界集合作为下一轮需要进行选择待选边界,它们组成候选边界集合C。对C中每个候选边界i,令P=B∪{i},根据公式(2)的密度函数,计算出由P分割出的总体密度,选择总体密度最小的候选边界作为下一个最佳语义段落边界,并将该边界加入集合B。具体的算法描述如下:
(1)对给定文档W进行词语预处理和根据第二部分的概念获取方法获取词语的概念,并建立概念二维点图,给定语义段分割数目K;
(2)初始化语义边界集合B为空,以各个段落为边界,作为候选分割点,并以候选分割点为基础建立候选边界集合C,使用标识S作为记录最佳分割点的变量;
(3)将分割段落数从1到K重复(4)-(5)操作:
(4)对于集合C中的每一个边界候选点i,令P=B∪{i},根据公式(2)的密度函数,计算出由P分割出的总体密度d,如果dmin>d,dmin=d,并且记录下S=i;
(5)将该边界作为一个目标边界记录到集合B中,即B∪{S};同时将该边界在候选边界集合C中删除C-{S}。
该算法的含义是语义段落边界是依次添加进来的。将文档中自然段落末尾作为候选语义段落分割点。选取新的语段边界时,考察每个候选边界,尝试将其加入边界集合B,组成新的边界集合P。并利用密度函数来评价由新的边界集合里的边界构成的分割方式,选取使密度函数值最小的候选边界作为分割边界,并将该边界加入分割边界集合,直至边界的个数达到预先指定的数目K为止。
4基于文本分割的自动文摘
基于文本分割的多文档摘要,首先通过预处理提取出那些有意义的动词、名词,通过第二部分基于HOWNET的算法获取这些词语的概念,并建立概念向量空间模型,采用文本分割技术将文本进行分割,根据分割后的段落集合以及各段落内句子的重要度来生成摘要。整个多文档文摘产生的全过程如下图所示:
在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算等问题,具体计算方法如下:
(1)概念权重计算
建立好基于句子的概念向量空间模型后,采用传统的TF*IDF法来计算概念重要度。
(2)句子权重计算
句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1,W1j;C2,W2j;....;Cn,Wnj)进行句子权重计算。从语言学结构分析和相关统计运行分析,句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置等因素相关,设计句子权重的计算函数为:
W ( S j ) = λ Σ i = 1 n F ij × w i ( d i ) M - - - ( 3 )
其中wi(dt)为概念Ti的重要度,Fij为Ci在句子Sj中出现的频度,M为句子Sj包含的所有概念个数;λ为当句子是段落的句首或者结尾时的加权值,本系统设为1.5。在计算句子权重时除以M主要是为了单位化句子权重,使句子权重计算不因句子长短不同而有较大波动。
(3)句子相似度计算
为防止抽取出的文摘句有内容相似的语句,系统采用两个句子间概念重叠个数与各句子间概念个数和的2倍作为计算句子间相似度的方法,具体算法为:
R s = 2 * ( # overlapping words ) ( # words insentencel + # words in sentence 2 ) - - - ( 4 )
通过对大量语料中相似句的计算,系统相似度阈值设定为0.7比较合理。
5系统评估
5.1评价标准
文本摘要的评估方法大致可以分为两类:外部评测和内部评测。外部评测方式通过比较自动文摘的结果对信息检索等其他工作的影响来判断文摘的质量。内部评测是在提供参考摘要的前提下,以参考摘要为基准评价系统摘要的质量。
本系统采用内部评测的方式对所设计的方法进行验证。传统的内部评测指标主要有:召回率、准确率、F-Score;目前比较通用的内部评测方法,由LinChin-Yew等人提出的自动文摘评测方法ROUGE[8,9],该方法从2006年开始在DUC自动文摘评测中被逐步采用。但DUC所面向的都是英文的测试语料,在对中文文本进行自动文摘测评时需要进行相应语料库的建设,在建好语料库后采用ROUGE方法对文档自动摘要进行测试。
(1)召回率、准确率以及F_Score:其中召回率指系统正确识别的比率,准确率指系统准确识别的比率。具体公式为:召回率R=Nhm/Nh,准确率P=Nhm/Nh,Nhm为同时被文摘系统和专家文摘抽取的句子数目,Nh为专家文摘抽取的句子数目,Nm为文摘系统抽取的句子数目,
(2)ROUGE工具是自动文摘领域著名的评价标准。ROUGE主要包括以下五种评测标准:Rouge-N、Rouge-L、Rouge-S、Rouge-W和和Rouge-Su。目前主流评测多采用Rouge-N和Rouge-Su两个指标来进行评测。Rouge-N代表的是基于N-unigram的共现统计;Rouge-S是用来统计Skip-Bigram跳跃二元串共现频率的,而Rouge-SU是Rouge-S的扩展一种扩充评测,主要为解决Rouge-S在与参考摘要没有共同skip-bigram的候选摘要将得分为0的问题。本系统使用Rouge-2和Rouge-SU4作为评测标准。
5.2评测系统
评测系统采用:1CoverageBaseline:依次取文档集合(文档数为n)中的第一个文档的第一个句子、第二个文档的第一个句子...,第N个文档的第一个句子;第一个文档的第二个句子,第二个文档的第二个句子...,第N个文档的第二个句子;第一个文档的第三个句子,...直到满足文摘目标长度。2本发明描述的文本分割系统。
5.3文摘结果实验与分析
通过如下的方法获取实验数据:从国家语委语料库中选择200篇在经济、新闻、文学等方面不同类型的文章,该文档集合包含8个不同的主题,每个主题包含有25篇文章。请中文系的学生通过人工的方式对上述文章进行人工文摘,并把每篇文章的文摘长度设置为文章长度的20%,将这样的语料作为评测语料。然后将各算法生成的摘要与评测语料进行比较,如表1和表2所示相应实验数据。
表1F_Score值等三个参数实验结果
表2Rouge-2和Rouge-SU4实验结果
系统类型 Rouge-2 Rouge-SU4
文本分割系统 0.0733 0.1231
Baseline系统 0.0662 0.1112
从表1的实验数据分析可以发现,文本分割方法得到的文摘与文章题材的不同有一定的差异。对于文学类等语义结构复杂的文章,文摘的效果相对较差。
对于新闻报道等语义结构相对单一的文章,实验结果相对较好。文章结构的简单和复杂在一定程度上会影响文章结构分割中的效果,进而进一步影响后期的文摘的结果。
从表2的实验数据可以发现,文本分割系统与DUC2006所参赛的各类文摘系统平均分(Rouge-2为0.0736,Rouge-SU4为0.1288)还是比较接近的,虽然文本分割系统所得出的结果低于平均分一点点,但是系统所产生的文章毕竟是中文文摘,相对英文文摘由于文字本身特点会有一定的偏差,另外大部分DUC参赛系统都利用了语言工具、外部语料和人工构造的知识库等资源的帮助,以实现对文档内容的深层理解。本系统所采用的是基本统计语言学的方法,系统不依赖于任何外部资源,相对运行速度和独立性会相对更好。
从表1和表2的综合结果来看,文本分割系统在各方面的综合指标都明显优于简单Baseline系统,说明通过一些统计语言学方面的相关处理,能够以较小的运行代价来换取文本摘要质量的一个明显提高。
本发明实施例提出了一种基于文本分割技术的多文档文摘方法,使用HowNet进行概念获取,建立概念向量空间模型,采用改进的DotPlotting模型和句子概念向量空间进行文本分割,利用建立的概念向量空间模型计算句子权重,根据句子权重、文本分割和相似度情况产生文摘,同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的,该多文档文摘方法将把用户提供的相关文档集合形成文摘,并以适当的形式展现给用户,极大地提高了获取信息的效率,实用性强,具有较强的推广与应用价值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于文本分割技术的多文档文摘方法,其特征在于,该多文档文摘方法包括以下步骤:
步骤一,以“知网”作为工具获取概念,并以获取的概念作为特征建立概念向量空间模型;
步骤二,使用改进的Dotplotting算法进行文本分割,获得文本的主题划分;
步骤三,利用建立的概念向量空间模型计算句子权重,根据句子权重、主题划分、句子相似度产生文摘;
步骤一,以“知网”作为工具获取概念时,将“知网”结构中的DEF项相同的词语作为词义相同的义原,提取出来作为同一个概念不同词语的集合,具体的实现步骤为:
S11,选择多义词的DEF项
S111,利用中科院计算所的ICTCLAS平台对文本进行词语切分和词性的标注,去除对文本文摘作用不大的介词、虚词、数词词语,提取出关键的名词、形容词进行处理,得到一个切分好和带词性标注的文本;
S112,在对多义词的DEF项选取主要分两种情况进行,一种情况是有些多义词在不同语境下的词性是不同的,可根据标注好词性的特点确定这些多义词的DEF项,另外一种情况是在不同DEF项下有相同的词性,但在不同语境下需要与不同词性词语搭配使用,根据不同语境将会产生不同的语法形式确定这类多义词的DEF项;
S12,在确定多义词DEF项后,采用改进的DEF项获取其他词语概念;
S121,重新定义DEF项,将DEF项扩展为包含的基本义原和DEF项中的关系义原的并集,在扩展时过滤掉“知网”中含义过大、过宽泛的抽象义原;
S122,以句子为单位建立概念获取前的文档模型,表示为Sj(W1,W2,...Wn),文档由j句话构成,每句话包含n个词语;
S123,进入建立概念向量空间模型的句子扫描,设目前正在扫描第j句话;
S124,扫描句中词语Wi,找到所对应的DEF项,并在该句话中扫描是否有与DEF项义原相同的词语,如果没有则标注词语Wi的概念,则扫描句子下一个词语Wi+1,转到S124,句中所有词语扫描完,进入下一个句子的扫描,转到S123;若有相同词语,转到S125;
S125,提取出词语Wk,找出Wk所对应的DEF项,若词语Wk的DEF项义原未包含Wi,则将词语Wi和Wk的概念以Wi的DEF项进行标注;若出现词语Wi,则通过比较两个词语在DEF项描述的义原的距离,采用离基本义原更远的那个词语的DEF项作为这两个词语的概念,进入下一个词语Wi+1的扫描,转到S124;句中所有词语扫描完,进入下一个句子的扫描,转到S123;
步骤二,使用改进的Dotplotting算法进行文本分割,获得文本的主题划分时,改进的DotPlotting模型的修改密度函数为:
f D ′ = Σ j = 2 | P | V P j - 1 , P k · V P j , n ( P j - P j - 1 ) ( n - P j ) + Σ j = 1 | P - 1 | V 0 , P j · V p j , P J + 1 P j ( P J + 1 - P j )
其中n为整篇文档的长度,Pj为第j个语义段落边界的位置,|P|为文档中的语段数目,Vx,y为第x个词至第y个词组成的文本片段的词频向量;
DotPlotting模型中语义段落边界的确定方法为:假设B为已确定的语义边界集合,那么余下的所有边界都是候选语义边界;将余下的边界集合作为下一轮需要进行选择待选边界,它们组成候选边界集合C,对C中每个候选边界i,令P=B∪{i},根据改进的DotPlotting模型的修改密度函数,计算出由P分割出的总体密度,选择总体密度最小的候选边界作为下一个最佳语义段落边界,并将该边界加入集合B,具体的实现步骤如下:
S21,对给定文档W进行词语预处理和根据第二部分的概念获取方法获取词语的概念,并建立概念二维点图,给定语义段分割数目K;
S22,初始化语义边界集合B为空,以各个段落为边界,作为候选分割点,并以候选分割点为基础建立候选边界集合C,使用标识S作为记录最佳分割点的变量;
S23,将分割段落数从1到K重复S24-S25操作:
S24,对于集合C中的每一个边界候选点i,令P=B∪{i},根据改进的DotPlotting模型的修改密度函数,计算出由P分割出的总体密度d,如果dmin>d,dmin=d,并且记录下S=i;
S25,将该边界作为一个目标边界记录到集合B中,即B∪{S};同时将该边界在候选边界集合C中删除C-{S};
改进的Dotplotting算法的含义是语义段落边界是依次添加进来的,将文档中自然段落末尾作为候选语义段落分割点,选取新的语段边界时,考察每个候选边界,尝试将其加入边界集合B,组成新的边界集合P,并利用密度函数来评价由新的边界集合里的边界构成的分割方式,选取使得密度函数值最小的候选边界作为分割边界,并将该边界加入分割边界集合,直至边界的个数达到预先指定的数目K为止;
在整个多文档文摘生成过程中包括句子权值计算和文摘句相似度计算,具体计算方法如下:
(1)概念权重计算
建立好基于句子的概念向量空间模型后,采用传统的TF*IDF法来计算概念重要度;
(2)句子权重计算
句子权重计算是对待处理的文本建立起句子的概念向量空间模型Sj(C1,W1j;C2,W2j;...;Cn,Wnj)进行句子权重计算,从语言学结构分析和相关统计运行分析,句子的重要程度与句中包含的词语、自身在段落中的位置以及段落在整个文章中的位置因素相关,设计句子权重的计算函数为:
W ( S j ) = λ Σ i = 1 n F i j × w i ( d t ) M
其中wi(di)为概念Ti的重要度,Fij为Ci在句子Sj中出现的频度,M为句子Sj包含的所有概念个数;λ为当句子是段落的句首或者结尾时的加权值,设为1.5,在计算句子权重时除以M主要是为了单位化句子权重,使句子权重计算不因句子长短不同而有较大波动;
(3)句子相似度计算
为防止抽取出的文摘句有内容相似的语句,采用两个句子间概念重叠个数与各句子间概念个数之和的商的2倍作为计算句子间相似度的方法,具体算法为:
R s = 2 * ( # o v e r l a p p i n g w o r d s ) ( # w o r d s i n s e n t e n c e 1 + # w o r d s i n s e n t e n c e 2 )
通过对大量语料中相似句的计算,相似度阈值设定为0.7比较合理;
该多文档文摘方法通过内部评测的方式进行验证。
CN201210437340.1A 2012-10-29 2012-10-29 一种基于文本分割技术的多文档文摘方法 Expired - Fee Related CN102945228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210437340.1A CN102945228B (zh) 2012-10-29 2012-10-29 一种基于文本分割技术的多文档文摘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210437340.1A CN102945228B (zh) 2012-10-29 2012-10-29 一种基于文本分割技术的多文档文摘方法

Publications (2)

Publication Number Publication Date
CN102945228A CN102945228A (zh) 2013-02-27
CN102945228B true CN102945228B (zh) 2016-07-06

Family

ID=47728175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210437340.1A Expired - Fee Related CN102945228B (zh) 2012-10-29 2012-10-29 一种基于文本分割技术的多文档文摘方法

Country Status (1)

Country Link
CN (1) CN102945228B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473280B (zh) * 2013-08-28 2017-02-08 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法
US9058374B2 (en) * 2013-09-26 2015-06-16 International Business Machines Corporation Concept driven automatic section identification
CN103970729B (zh) * 2014-04-29 2016-08-24 河海大学 一种基于语义类的多主题提取方法
CN104090918B (zh) * 2014-06-16 2017-02-22 北京理工大学 一种基于信息量的句子相似度计算方法
US9852348B2 (en) * 2015-04-17 2017-12-26 Google Llc Document scanner
CN105868175A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 摘要生成方法及装置
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
CN107145482B (zh) * 2017-03-28 2020-10-30 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法及装置、设备与可读介质
CN107016092B (zh) * 2017-04-06 2019-12-03 湘潭大学 一种基于扁平化算法的文本搜索方法
CN107368525B (zh) * 2017-06-07 2020-03-03 广州视源电子科技股份有限公司 搜索相关词的方法及装置、存储介质和终端设备
WO2018232290A1 (en) * 2017-06-16 2018-12-20 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
CN108984520A (zh) * 2018-06-19 2018-12-11 中国科学院自动化研究所 层次化文本主题分割方法
CN109101489B (zh) * 2018-07-18 2022-05-20 武汉数博科技有限责任公司 一种文本自动摘要方法、装置及一种电子设备
CN110264792B (zh) * 2019-06-17 2021-11-09 上海元趣信息技术有限公司 一种针对小学生作文智能辅导系统
CN110427483B (zh) * 2019-08-05 2023-12-26 腾讯科技(深圳)有限公司 文本摘要评测方法、装置、系统及评测服务器
CN110619122B (zh) * 2019-09-19 2023-08-22 中国联合网络通信集团有限公司 分词处理方法、装置、设备及计算机可读存储介质
US11334722B2 (en) 2019-09-23 2022-05-17 Hong Kong Applied Science and Technology Research Institute Company Limited Method of summarizing text with sentence extraction
CN110705287B (zh) * 2019-09-27 2023-06-30 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
TWI772709B (zh) * 2019-11-14 2022-08-01 雲拓科技有限公司 對於無字間空格語言文字申請專利範圍之元件名詞及元件名詞所屬位置自動得出設備
CN111046672B (zh) * 2019-12-11 2020-07-14 山东众阳健康科技集团有限公司 多场景文本摘要生成方法
CN111914532B (zh) * 2020-09-14 2024-05-03 北京阅神智能科技有限公司 一种中文作文评分方法
CN112989834B (zh) * 2021-04-15 2021-08-20 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113076734B (zh) * 2021-04-15 2023-01-20 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113312910B (zh) * 2021-05-25 2022-10-25 华南理工大学 一种基于主题模型的本体学习方法、系统、装置及介质
CN113435184B (zh) * 2021-07-05 2022-07-12 平安科技(深圳)有限公司 文本主题抽取方法、系统、设备及存储介质
US11836175B1 (en) 2022-06-29 2023-12-05 Microsoft Technology Licensing, Llc Systems and methods for semantic search via focused summarizations
CN114969843B (zh) * 2022-08-03 2022-11-01 确信信息股份有限公司 支持文档样式保护的签验章方法、系统、存储介质及设备
CN116681042B (zh) * 2023-08-01 2023-10-10 成都信通信息技术有限公司 基于关键字提取的内容概要生成方法、系统及介质
CN117216217B (zh) * 2023-09-19 2024-03-22 山东汇商脉网络科技有限公司 一种档案智能分类与检索方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411621A (zh) * 2011-11-22 2012-04-11 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1894686A (zh) * 2003-11-21 2007-01-10 皇家飞利浦电子股份有限公司 用于文档构造的文本分段和主题注释

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411621A (zh) * 2011-11-22 2012-04-11 华中师范大学 一种基于云模型的中文面向查询的多文档自动文摘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于子主题区域划分的多文档自动文摘方法;王萌等;《计算机工程》;20110630;第37卷(第12期);158-160,163 *
基于概念向量空间模型的中文自动文摘研究;王萌;《万方学位论文全文数据库》;20051116;正文第26-28页 *
文本分割关键技术及其在多文档摘要中的应用研究;叶娜;《中国博士学位论文全文数据库 信息科技辑》;20110515(第5期);正文第2-3,27-33页 *

Also Published As

Publication number Publication date
CN102945228A (zh) 2013-02-27

Similar Documents

Publication Publication Date Title
CN102945228B (zh) 一种基于文本分割技术的多文档文摘方法
Liu et al. Measuring similarity of academic articles with semantic profile and joint word embedding
Biemann Structure discovery in natural language
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN103064969A (zh) 自动建立关键词索引表的方法
JP2009093651A (ja) 統計分布を用いたトピックスのモデリング
CN103154936A (zh) 用于自动化文本校正的方法和系统
Kostoff Co-word analysis
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
Rahman et al. Improvement of query-based text summarization using word sense disambiguation
Turdakov Word sense disambiguation methods
CN104765779A (zh) 一种基于YAGO2s的专利文档查询扩展方法
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
AlMahmoud et al. A modified bond energy algorithm with fuzzy merging and its application to Arabic text document clustering
Garigliotti et al. Target type identification for entity-bearing queries
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
Zhang et al. Association-Based Segmentation for Chinese-Crossed Query Expansion.
Tian et al. Measuring the similarity of short texts by word similarity and tree kernels
Séaghdha Annotating and learning compound noun semantics
Heidary et al. Automatic text summarization using genetic algorithm and repetitive patterns
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Dabholkar et al. Automatic document summarization using sentiment analysis
Li et al. A keyword extraction method for Chinese scientific abstracts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 545006 No. 268 East Ring Road, Guangxi University of science and technology, the Guangxi Zhuang Autonomous Region, Liuzhou

Applicant after: Guangxi University of Science and Technology

Address before: 545006 the Guangxi Zhuang Autonomous Region East Ring Road, Liuzhou, No. 268

Applicant before: Guangxi University of Technology

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180531

Address after: 545616 No. 262, No. 3, A plant, No. 19, No. 19, early Yang Road, Liu Dong New District, Liuzhou, the Guangxi Zhuang Autonomous Region

Patentee after: Guangxi super macro science and Technology Co., Ltd.

Address before: 545006 268 East loop road, Guangxi science and Technology University, Liuzhou, Guangxi

Patentee before: Guangxi University of Science and Technology

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160706

Termination date: 20181029