CN101937462B - 文献评价自动检索方法及系统 - Google Patents
文献评价自动检索方法及系统 Download PDFInfo
- Publication number
- CN101937462B CN101937462B CN201010272982.1A CN201010272982A CN101937462B CN 101937462 B CN101937462 B CN 101937462B CN 201010272982 A CN201010272982 A CN 201010272982A CN 101937462 B CN101937462 B CN 101937462B
- Authority
- CN
- China
- Prior art keywords
- sentence
- semantic
- concept
- document
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012552 review Methods 0.000 title claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 68
- 230000011218 segmentation Effects 0.000 claims abstract description 50
- 230000014509 gene expression Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000007689 inspection Methods 0.000 claims abstract description 10
- 238000013210 evaluation model Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims description 94
- 238000012360 testing method Methods 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 15
- 238000004806 packaging method and process Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000002349 favourable effect Effects 0.000 claims description 9
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 238000012797 qualification Methods 0.000 claims description 3
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 40
- 239000003345 natural gas Substances 0.000 description 18
- 238000011160 research Methods 0.000 description 15
- 239000003463 adsorbent Substances 0.000 description 10
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 239000007789 gas Substances 0.000 description 6
- 235000019640 taste Nutrition 0.000 description 6
- 229910052799 carbon Inorganic materials 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 2
- 238000003889 chemical engineering Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 239000003209 petroleum derivative Substances 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000001179 sorption measurement Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003949 liquefied natural gas Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种文献评价自动检索方法,包括:从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;根据语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及参考文献的内容得到所述引证文本对参考文献的倾向性态度。
Description
技术领域
本发明涉及文本检索领域,特别涉及一种文献评价自动检索方法以及相应的系统。
背景技术
科学研究的成果之一就是学术论文的发表,数字图书馆的飞速发展使得浩如烟海的学术文献可以被计算机检索、分析和评价。目前,中国知网(CNKI)仅核心期刊库从1994年至今(部分刊物回溯至创刊)就已经有近34,210,000篇文献,而且每日新增约3万多篇文献。科研工作者要从如此多的学术文献中找到有价值的高质量的文献需要耗费大量时间,如果能够利用计算机语言信息处理技术自动为科研工作者推荐相关的文献、给出论文作者对文献的评价结果,那么将大大减轻科研工作者的检索工作量,节省时间,从而提高文献调研效率。
文献评价最常用的指标之一是被引频次,一般被引频次不包括文献著者对自己所著文献的引用。被引频次一方面反映了该文献被其他研究者的关注程度,他引次数越多说明关注者越多、文献价值越大;另一方面被引频次也有它自身的局限性。首先,最新发表的文献不可能获得很高的引用频次,而科研工作者往往希望获得最新的有价值的文献,被引频次不利于新发表论文的传播和价值体现。其次,被引频次只是从数量上进行了统计,没有考虑文献来源期刊的质量。期刊质量一般用影响因子来衡量,影响因子越大说明期刊影响范围越大或质量越高。在影响因子大或质量高的期刊发表的论文其质量也较高,被引频次没有反映出这方面的特性。第三,从文献的被引频次中也得不到引用该文献的论文对该文献的态度或评价,在某些论文中会指出引用文献的不足之处甚至是错误之处,当然也会对引用文献进行肯定、赞同或推荐。这种主观性的评价信息一般通过同行专家评议或打分得到对文献的综合评价得分,体现出文献在本领域内的影响或价值。
从上述说明可以看出,单纯采用被引频次来评价文献具有局限性。因此本领域技术人员又提出了文本情感倾向性分析方法,该方法能够直接从文献的语言陈述中获取文献作者对引用文献的评价或态度,给出被引文献的推荐度,从而更好地服务于科研工作者对文献检索、文献评价的需求。
现有技术中的文本情感倾向性分析方法的基本原理是利用计算机分析文本中的语句结构、词语及其内在语义关系,获得主观性文本中评价者对于某些评价对象的一种倾向性态度。要获得评价者对评价对象的倾向性态度,其实现基础是极性词典。所谓的极性词典包括如“很好、赞同、很差、缺陷”等具有明显倾向性和评价态度的极性词语,以及与极性词语相关的知识描述。有了极性词典以后,文本情感倾向性分析方法就可以从文本中找出极性词语,然后以极性词语为中心,分析极性词语周围的文本,获得极性词语所关联的评价对象和评价者,从而确定出评价者对于评价对象的倾向性态度。
在上述基本实现原理的基础上,现有技术中的文本情感倾向性分析方法可进一步分为两类。一类是机器学习的方法,该方法通过已经标注好极性词、评价对象、评价者、倾向性态度的文本(文本中的这些知识通常由下面所提到的语法分析加规则的方法获取)进行训练,得到统计模型的参数,再用训练好的统计模型去分析新的文本,常见的模型和方法有Boosting、SVM(支持向量机)、CRF(条件随机场)和最大熵模型等。另一类是语法分析加规则的方法,即分析极性词语所在的句子,得到词语的句法成分,根据一定的评价模式或规则确定评价者、评价对象和倾向性态度,主要用到词语词性、句法主谓宾结构、推理规则等知识。
上述两类方法都有各自的缺陷。机器学习的方法需要大量的标注好的训练语料文本,增加了前期准备的成本,此外在实际分析的文本中会有许多训练语料中没有出现的词语,造成数据稀疏的处理难题。语法分析需要精确细致的语句结构分析结果,传统语法的主谓宾结构还无法适应倾向性评价的多种模式,只能获得部分简单的、粗颗粒度的评价结果。
发明内容
本发明的目的是克服现有技术中的文本情感倾向性分析方法或者前期成本高、易出现数据稀疏,或者评价结果粗糙的缺陷,从而提供一种成本低、评价结果客观公正的文献评价自动检索方法和系统。
为了实现上述目的,本发明还提供了一种文献评价自动检索方法,包括:
步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;
步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;
步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。
上述技术方案中,还包括:
步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
上述技术方案中,在所述的步骤2)中,在所述的句类假设和检验后还包括对包含有句子以及句子变形的复杂语义块的构成分析。
上述技术方案中,在所述的步骤2)中,所述的分词处理包括根据已知的通用词语知识库对所述引证文本中的语句切分成字或词语,同时得到该字或词语的概念符号和概念类别。
上述技术方案中,在所述的步骤2)中,所述的语义块切分包括:
步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;
步骤2-1-2)、对于所述语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;
步骤2-1-3)、对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;
步骤2-1-4)、根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK;
步骤2-1-5)、根据特征语义块EK和EK之前的“l”类概念,把它们切分语句后形成的词语组合作为广义对象语义块GBK。
上述技术方案中,在所述的步骤2)中,所述的句类假设和检验包括:
步骤2-2-1)、在排队后的多个特征语义块中按顺序取进行假设,根据假设的特征语义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到语句所对应的实际语句格式;
步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识;
步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较结果都符合的句类表达式和语义块。
上述技术方案中,在所述的步骤2)中,所述复杂语义块的构成分析包括:
步骤2-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若为要素句蜕,执行步骤2-3-3),若为包装句蜕,执行步骤2-3-4);
步骤2-3-2)、将所述复杂语义块中的用于表示动态概念的“v”类概念作为新语句的特征语义块进行句类的假设和检验,结束本步骤的操作;
步骤2-3-3)、对所述复杂语义块中的用于表示动态概念的“v”类概念重新恢复特征语义块的资格,然后进行新语句的句类假设和检验,结束本步骤的操作;
步骤2-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语,去除该包装品,然后对剩余的部分进行句类的假设和检验,结束本步骤的操作。
上述技术方案中,所述的步骤3)包括:
步骤3-1)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;
步骤3-2)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句的句类、语义块以及语义块的内部结构;
步骤3-3)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为2,那么按二元模型计算语句的倾向性态度;其中,所述主语义块包括特征语义块以及广义对象语义块,所述二元模型为“AB”的形式,A表示被评价对象,B表示极性词语;
步骤3-4)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为3,那么按三元模型计算语句的倾向性态度;其中,三元模型为“CXD”的形式,C表示评价者,X表示极性词语,D表示被评价对象;
步骤3-5)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为4,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块GBK3的组合,然后再与广义对象语义块GBK1和特征语义块EK组合,按三元模型计算语句的倾向性态度;
步骤3-6)、如果广义对象语义块GBK只含两个特征词语,那么按二元模型计算其倾向性态度,并把结果返回;
步骤3-7)、如果广义对象语义块GBK内含多个特征词语,按照特征词语在语句中的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-5);
步骤3-8)、如果语句的广义对象语义块GBK内含语句,那么把广义对象语义块GBK作为新语句,对该新语句做语义块分析后执行步骤3-2),做递归处理;
步骤3-9)、递归处理结束,获得语句的一个总的倾向性态度。
上述技术方案中,所述的步骤4)包括:
步骤4-1)、统计一个文献集合中的各个文献对参考文献的倾向性态度以及相关的统计信息,包括引证文本中出现的参考文献总数Nr、某篇文献的他引次数Tr、作者对参考文献的好评总数Gr、作者对参考文献的差评总数Br、在文献的他引次数中获得好评的次数Gtr、在文献的他引次数中获得好评和差评的总次数Ptr;
步骤4-2)、分别计算文献的他引好评率Gtr/Ptr、文献的评他好评率Gr/Nr、文献的评他差评率Br/Nr;
步骤3)、设定权重修正系数α;
步骤4)、根据下列公式计算文献推荐度:
Rec=Tr+Gtr/Ptr+Max(Gr/Nr,Br/Nr)+α(Gr+Br)/Nr。
本发明还提供了一种文献评价自动检索系统,包括文献及引文分析器、特征词语知识库、通用词语知识库、分词处理器、语句语义分析器以及文献评价器;其中,
所述的文献及引文分析器用于从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本,并传给所述的分词处理器;
所述的特征词语知识库用于存储极性词语及词语的褒贬属性、立场属性、逻辑属性和程度属性,这些信息被提供给所述的文献评价器使用;
所述的通用词语知识库用于存储常用词语及其概念符号,并向分词处理器和语句语义分析器提供所需的词语及其概念符号;
所述的分词处理器用于将所述引证文本中的语句切分成词语,并送入到所述语句语义分析器;
所述的语句语义分析器用于根据词语的概念类别生成所述语句的概念类别,以及根据所述语句的概念类别生成该语句的句类表达式和语义块;
所述的文献评价器用于根据语句语义分析器所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及所述文献及引文分析器所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。
上述技术方案中,还包括有文献推荐度评价器,它用于统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
本发明的优点在于:
本发明通过分析文献中的引证文本,自动获取了文献作者对所引用参考文献的评价,具有适用范围广、受制约较少的优点。而本发明所生成的文献推荐度由于综合考虑了他引频次、他引好评率、评他率等多方面的主客观影响因素,因而也具有全面、客观、公正的优点。
附图说明
图1为本发明的文献评价自动检索方法的流程图;
图2为本发明的文献评价自动检索方法中的语义块切分操作的流程图;
图3为本发明的文献评价自动检索方法中的句类假设和检验操作的流程图;
图4为本发明的文献评价自动检索方法中的语句倾向性分析的流程图;
图5为本发明的文献评价自动检索系统的结构图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
在本发明的一个实施例中,从中国知网(http://ww.cnki.net)下载了关于新能源汽车领域的论文文献139篇,得到一个文献集合。在本实施例中需要对该文献集合中的各个文献进行评价。由于对各文献的评价过程基本类似,因此在下面的描述中将以其中的一篇文献为例并结合图1进行说明。提取与参考文献有关的文本
在一篇名称为《天然气汽车甲烷专用吸附剂的研究开发概况》的论文中,首先要找出该论文所包含的所有参考文献的信息。
众所周知,在论文中对参考文献的引用有一定的规定,例如在一篇论文的结尾处有对论文中所引用的全部参考文献进行说明的附录。前述论文《天然气汽车甲烷专用吸附剂的研究开发概况》中的附录的形式如下:
“参考文献
[1]肖锦堂.国外天然气消费利用现状和发展动向[J].石油与天然气化工,1997,26(2):94-99.
[2]陈进富,陆绍信.吸附法储存天然气汽车燃料技术的研究[J].天然气工业,1999,19(4):81-83.
[3]邹勇,吴肇亮,陆绍信,朱亚杰.微孔炭质吸附剂吸附储存天然气的最佳孔径研究[J].石油与天然气化工,1997,26(1):15-16.
[4]陈进富,娄世松,陆绍信.天然气吸附剂的开发及其储气性能的研究[J].燃料化学学报,1999,27(5):399-402.
[5]邹勇,韩布兴,阎海科.储存天然气用高目的微孔炭质吸附剂的研究[J].炭素技术,1998,(5):23-25.
[6]刘海燕,乔文明,凌立成,刘朗.炭质吸附剂吸附储存天然气浅谈[J].炭素技术,1999,(1):17-21.
[7]唐晓东.天然气汽车的储气技术[J].石油与天然气化工,1997,26(4):227-231.
[8]徐文渊.液化天然气、压缩天然气的生产和应用[J].天然气工业,1993,13(3):76-79.
[9]Matranga K R,Myers A L,Glandt E D,Storage of nature gas byadsorption on activated carbon[J].Chemical Engineering Science,1991,47(7):1569.
[10]Quinn D F,Macdonald J A,Nature gas storage[J].Carbon,1992,30(7):1097-1103.
[11]Parkyns N D,Quinn D F,Nature gas adsorbed on carbon [A].Porosityin carbons[C].Patrick J W,London:Edward Arnold,1995.302.”
上述附录中包含有论文所引用的参考文献的作者、出处、发表日期等信息。由于本发明所要完成的工作是要对参考文献做出评价,因此必然要将参考文献信息从整个论文文本中提取出来。在一个具体的实现方式中,在输入前述论文的文本后,首先寻找“参”字,然后跳过文本中的空格等非汉字字符,获得四个汉字组成的字符串R。如果R等于“参考文献”,且R前为空格、回车或标点符号,R后为一篇参考文献的起始特征(如“[1]”、“1.”),那么记录R在论文文本中的位置iPos。接着从iPos开始,逐篇获取论文文本中的所有参考文献。
在获取一篇论文的参考文献的过程中,先获取iPos后的参考文献起始特征(如“[1]”、“1.”、“1”等),然后获取下一篇参考文献(如“[2]”、“2.”、“2”等)的起始位置iPos1,如果参考文献起始特征的风格一致,即“[1]”后面是“[2]”、“1”后面是“2”,那么由iPos和iPos1之间的文本内容就可以得到一篇参考文献的内容,如参考文献的作者、文献名、出版单位、出版时间等,这些内容存入一个数组refArray中。如果没有找到下一篇参考文献的起始特征,那么把所述的iPos1设置为其后回车符号的位置(没有回车符号则为文本末尾),把iPos和iPos1之间的文本内容作为最后一篇参考文献存入数组refArray中。在完成对一篇论文的参考文献的获取后,可以把iPos的位置设为iPos1的位置,然后重复上述操作就能够得到论文文本中的所有参考文献。
上述说明有一个潜在的前提,那就是论文文本中所有论文的附录中的参考文献的格式描述是一致的,在实际情况中必然存在不同论文文本中的参考文献的格式描述不一致的情况。但一般来说,同一论文文本中的参考文献的格式描述是一样的,因此在获取一篇论文文本的参考文献的内容之前,可以预先确定该论文对参考文献的格式描述,然后根据具体的格式描述调用相应的参考文献内容获取方法。虽然在前面的例子中只给出了如前面所列举的参考文献内容的获取方法,但对于其它格式的参考文献,参照前述方法同样可以获取与参考文献有关的信息。
论文中对参考文献的描述除了附录中的内容外,还包括在论文正文部分对参考文献的评述,这些评述可被称为引证文本。本发明还需要将引证文本从论文文本中提取出来。在提取引证文本的过程中,对于论文文本,在所述的iPos之前,找到引用参考文献的起始标志(如“[”)的位置iPos2,然后往后寻找对应的结束标志(如“]”)iPos3。如果iPos2和iPos3之间的内容为数字,或者数字之间用符号(如“-”、“,”)隔开,并且iPos3之后的内容为标点符号或回车,那么从iPos2往前找到句号等语句结束符的位置iPos4,从iPos3往后找到句号等语句结束符的位置iPos5,把iPos4和iPos5之间的文本内容S作为一个引用了参考文献的语句,并存入一个数组sArray中。然后在S之后iPos之前继续寻找参考文献的起始标志,直到找不到为止。对于参考文献起始标志不是“[”的情况,如“(Abney,1990)”,可以根据标志符做类似的处理。
通过上述两个步骤的相关操作,可以得到两种类型的数组,在数组refArray中包含有参考文献的内容,在数组sArray中包含有引证文本的内容。在下面的操作中将根据上述两个数组中的内容实现对论文文献的评价。
语义分析
所述语义分析是要对前一操作中所得到的引证文本进行分析,得到引证文本中所包含的语义内容。语义分析可以分为分词、语义块切分、假设检验和语义块构成分析等多个操作。通过语义分析可以得到语句的概念类型、语句中语义块的划分和角色、各语义块内部的构成成分及其关系等多种类型的信息。下面对语义分析中的各个操作分别予以说明。
1、分词处理
与西文句子中词与词之间存在间隔不同,汉语句子中的各个词语之间并没有明确的分界线,因此需要对汉语句子做分词、分段操作。所述的分词操作是根据通用词语知识库形成的词典按照诸如最大匹配法等相关算法把句子切分为词语,同时获得字、词在通用词语知识库中的概念符号、概念类别等知识,以备后续阶段使用。所述的分段操作主要是把连续出现的数字、英文字母、以及配对标号(如书名号“《》”)形成的数字段、英文段和标号段作为一个整体处理。特别的,对于成语、俗语等固定的整体也把它们作为字段处理,而不是拆成字或词。在上述的分词、分段过程中所涉及的通用词语知识库是指用来存储常用词语及其概念符号的知识库。上述说明中,分词、分段操作的具体实现以及词语知识库的构建都为本领域技术人员的公知常识,因此不在此处做详细说明。
2、语义块切分
引证文本中的句子在经过前述的分词操作而被切分成词语以后,词语成为了相关操作的基本单位。由于词语在通用词语知识库中已经对词语的属性信息有定义好的概念类别,例如“l”类概念是指“把、被、向、对”等语言逻辑虚词,“v”类概念是指动态概念(通常是动词),因此可以由词语的概念类别进一步得到句子的概念类别。考虑到句子中语义块的切分主要依靠“l”类概念和“v”类概念,因此一个句子经过分词后,可以用下面的公式(1)来表示:
其中,S代表一个句子,l代表具有l类概念类别的词语,v代表具有v类概念类别的词语,K代表l和v之间的词语或一段文字,m、n和k分别为句子中出现的l、v和K的总数;一个句子中可能没有l或v。
从上述公式可以看出,通过l概念和v概念可以把句子切分成多个块K,进一步的,l和v之间的语义块被定义为辅语义块fK或广义对象语义块GBK,v概念词及其前后修饰词构成特征语义块EK,从而使得句子可被进一步地用公式(2)来表示:
其中,S代表一个句子,fK代表句子中的辅助语义块(如表示时间地点的词、短语等),EK代表句子中的核心动词及其前后修饰,GBK表示句子中除fK和EK之外的语义块;m’和k’分别是句子中出现的fK和GBK的总数,一个句子中可以没有EK或fK。
如何通过计算机将一个句子从前述公式(1)表示的形式转换为公式(2)表示的形式被称为语义块切分假设。由于在实际的自然语言环境中,一般情况下m′<5且k′≤3,当m’为0时表示句子没有辅块fK(主要是时间、地点等概念),只有EK和GBK。EK和GBK统称主块,它们构成了语句的句类表示式,即句子的主要联想脉络。因此,语义块切分假设的关键是感知并确定句子中的“l”和“v”类概念。
对“l”和“v”类概念的感知可以利用字词的概念类别实现,但一个字词的概念类别可能有多个,因此需要根据该字词的概念和前后字词的概念排除或优先确认某种概念类别。即便如此,“l”和“v”类概念的感知结果仍然可能有多个,由此会产生多个语义块切分假设结果。这些结果会在后续的句类检验阶段验证是否正确。
由于汉语中存在一些高频的特殊词语,如“l”概念大多是“把、被、向、对”等单字虚词,因此可以通过制定特殊字的感知规则来实现相应概念的感知。对v概念也可以做特别的处理,如根据v概念前后的概念类别制定某些排除规则(例如数量概念后的v概念不能作为EK);当句子中出现多个v概念时,需要根据语句的实际情况和v概念字词本身的一些概念知识和句类知识确定这些v概念作为句子EK的可能性,然后按可能性大小排序,以在后续操作中分别进行句类假设和检验。
总结上述内容,语义块切分操作如图2所示,可包括以下步骤:
步骤1-a)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;
步骤1-b)、对于所述语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;
步骤1-c)、对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;
步骤1-d)、根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK;
步骤1-e)、根据特征语义块EK和EK之前的“l”类概念,把它们切分语句后形成的词语组合作为广义对象语义块GBK。
3、句类假设和检验
在经过前述的语义块切分阶段后,引证文本中的一个句子可被切分成多个语义块,但此时的语义块只能给出一般的类型信息,如前面所提到的辅块fK、特征语义块EK、广义对象语义块GBK。由此所得到的句子表示式也是一般表示式,例如“GBK1+EK+GBK2”。这样的句子表示式只能粗略地表达了句子中所包含的语义,要用来做文献评价显然是不够的,需要在本步骤中实现句类假设和检验,以获得进一步的信息。
所述的句类是指一个语句的语义类型,它反映了一个语句所要实现的功能。例如,有这样一个针对性接收句:“哈勃望远镜探测到了新的宇宙射线”。该语句主要描述了针对性接收概念“探测”,接收者是“哈勃望远镜”,针对性接收的对象或内容是“新的宇宙射线”。而在另一个句子“萨科齐收到一封匿名信”中,该语句描述的也是接收概念“收到”,但不是针对性接收。句类通常用代码表示,如T19J,而与句类相对应的句类表达式则用语义块组合的形式表示,其通式如前文的公式(2)所示,如“TA+T19+TBC”。由此也可以得到诸如“T19J=TA+T19+TBC”的句类表示方法。
根据参考文献1“《概念层次网络理论》,黄曾阳,1998”中所提出的概念层次网络理论,现有技术中已经定义了用于表示自然语言语句的语义构成的57组基本句类。这些基本句类都有对应的句类代码,一个句类代码对应一个确定的句类表示式。例如,针对性接收句的句类代码为“T19J”,对应的句类表示式为“TA+T19+TBC”。在现有技术中已经给出了所述57组基本句类的句类代码和句类表达式,这些内容都可存储在数据库表中,在本发明中可根据特征语义块EK中的核心动词得到相应的句类代码。在实际应用中,由于动词的多义性,一个动词可以有多个句类代码。再加上一个句子中可能有多个动词,因此一个语句的句类假设或句类代码假设有多个。所述的句类假设或句类代码假设实际上就是候选的句类或候选的句类代码。
例如,语句“爱迪生首先让人尝到了他的厉害”有两个v概念,即“让”和“尝”。在常用词语知识库中,“让”的v概念义项有v0008、!v048和v7114e81,句类代码分别是X03、X4和X20;“尝”只有一个句类代码“T1”。
在句类假设时,如果假设v概念“让”为句子的特征语义块EK,那么句子可能对应三种句类表示式:“X03A+X03+XBC”、“A+X4+XB”、“X2B+X20+XBC”;如果假设v概念“尝”为句子的特征语义块,那么句子可能对应的句类表示式为:TB+T1+TBC。这样可以假设出句子可能的句类代码及表示式有四种:
X03J=X03A+X03+XBC
X4J=A+X4+XB
X20J=X2B+X20+XBC
T1J=TB+T1+TBC
这些假设的句类以及语义块是否合理,需要在后面的句类检验过程中根据句类的基本知识和语义块的概念约束,结合句子中的相应词语的概念进行判断。
在句类假设的基础上,需要确定语义块的具体角色。这一确定语义块具体角色的过程可通过将前一步骤所得到的句子的一般表达式与由句类代码所生成的句类表达式做一一对应完成。例如,“GBK1+EK+GBK2”所对应的句类表达式为“TA+T19+TBC”,则第一个语义块GBK1为TA,第二个语义块EK为T19,第三个语义块GBK2为TBC。这一对应关系仅仅是初步的,还需要根据语义块角色知识对语义块核心概念(指语义块对应的词语或短语中的核心字词的概念)进行检验。
句类检验主要是以词语知识库中的句类知识和概念约束知识为标准,和句子现场得到的句类及语义块假设进行比较,若比较结果相符则通过检验,否则就没有通过检验。检验的主要内容有:语义块个数、语句格式、语义块核心的概念。
在检验过程中,假设的语句格式和句类代码确定后,首先根据基本句类表示式和语句格式可以确定语义块的应有数目。如果这个数目与自然语言语句中语义块切分得到的数目不同,那么语义块个数的检验不能通过,也没有必要进行语句格式和语义块核心概念的检验。如果数目相同,则进一步做语句格式的检验。语句格式的检验主要是对某些特定句类或者某些特定动词形成的句类进行格式方面的约束检验,例如“广义效应句没有规范格式”约束了如果假设的句类是广义效应句,而且假设的语句格式是规范格式的话,那么该语句格式不能通过检验。在通过语句格式检验后,还要做语义块核心概念的检验。该检验主要是计算假设的语义块核心概念与句类知识中的概念约束符号是否相符。句类知识中的概念约束符号一般比较抽象,因此当句子中假设的语义块核心概念的符号是概念约束符号的子节点时,则语义块核心概念的符号通过了检验。
具体的说,如图3所示,句类假设和检验主要包括以下步骤:
步骤2-a)、在排队后的多个特征语义块中按顺序进行假设,根据假设的特征语义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到语句所对应的实际语句格式;
步骤2-b)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识;
步骤2-c)、将步骤2-b)得到的约束知识与步骤2-a)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较结果都符合的句类表达式和语义块。
例如,前面的例子“爱迪生首先让人尝到了他的厉害”有四个假设的句类及其表示式,需要一一进行句类检验。
第一个假设为“X03J=X03A+X03+XBC”,对应的语句的语义块切分假设为“爱迪生首先||让||人尝到了他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式(没有1类概念),通过检验;句类知识要求XBC又是一个句子,这里“人|尝到了|他的厉害”构成了又一句子,通过检验。
第二个假设为“X4J=A+X4+XB”,对应的语句的语义块切分假设为“爱迪生首先||让||人尝到了他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式,通过检验;句类知识要求A的核心概念一般是抽象概念或是一个句子,这里“爱迪生”是具体的人概念,因此不能通过检验。
第三个假设为“X20J=X2B+X20+XBC”,对应的语句的语义块切分假设为“爱迪生首先||让||人尝到了他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式,通过检验;词语知识库要求XBC的核心概念是具体概念,这里“人尝到了他的厉害”不是具体的人或物概念,因此不能通过检验。
第四个假设为“T1J=TB+T1+TBC”,对应的语句的语义块切分假设为“爱迪生首先让人||尝到了||他的厉害”。语义块个数都是3,通过检验;语句格式都是基本格式,通过检验;句类知识要求TB的核心概念一定是具体概念,这里“爱迪生首先让人”不是是具体的人或物概念,因此不能通过检验。
经过句类假设和检验所得到的句类表达式和语义块就是语义分析的结果。
4、语义块构成分析
在一些结构复杂的语句中,某些语义块还包括有别的句子或者句子变形,这些语义块被称为复杂语义块。语义块构成分析的目的就在于分析复杂语义块的内部构成。
复杂语义块的一个显著特征是在该语义块中还包括有“v”概念,对于复杂语义块需要按以下四种情形处理:块扩、原型句蜕、要素句蜕、包装句蜕。块扩是指语义块扩展成了一个句子,即该语义块由一个语句充当,对于这种情况可以直接把该语义块中的v概念作为新语句的特征语义块进行句类的假设、检验;原型句蜕是指该语义块也由一个语句充当,与块扩不同的是它在词语知识库的句类知识中没有指示,对这种情形的处理方法与块扩是一样的;要素句蜕是句子变形后形成了语义块,即句子蜕化为语义块,语义块中的语句常常在特征语义块的前面或后面加“的”,对于这种情形需要对语义块中的v概念重新恢复特征语义块的资格,然后进行新语句的句类假设、检验;包装句蜕是指原型句蜕或要素句蜕的外部又加上了一层“包装品”(字、词或短语),对于这种情形需要识别出包装品,把包装品去掉后对剩下的句蜕再进行句类的假设、检验。由此可知,语义块的构成分析实际上是对语义块内部嵌套语句的一次又一次句类假设检验,直到语义块没有复杂构成为止,形成逐级分解的递归处理。
从上述说明可以看出,语义块构成分析并不是每一个句子都要完成的操作,对于结构简单的语句完全可以省略本步操作。
5、句类分析结果
通过上述操作,可以完成对一个句子的语义分析,得到句类分析结果。例如有以下例句:“国内对天然气吸附剂的研究主要有石油大学(北京),中国科学院化学研究所,中国科学院山西煤炭化学研究所等几个少数实力较强的科研单位,目前也取得较大成果[2]。”,它的句类分析结果如下:
语句:<国内~|对天然气吸附剂|的研究>||主要有||石油大学(北京),中国科学院化学研究所,中国科学院山西煤炭化学研究所等几个少数实力较强的科研单位,+~目前~||也取得||较大成果[2]。
概念符号表示:jD1J+~CnYa0J
句类代码:jD1J、Ya0J
句类表示式:jD1J=DB+jD1+DC Ya0J=YB+Y+YC
语义块:
DB:国内对天然气吸附剂的研究
jD1:主要有
DC:石油大学(北京),中国科学院化学研究所,中国科学院山西煤炭化学研究所等几个少数实力较强的科研单位
Cn:目前
Y:也取得
YC:较大成果
语义块内部构成:DB=<Cn!31111XD01*21J>XD01*21J=A+XD01+DBC
Cn:国内
XD01:研究
DBC:对天然气吸附剂
其中,“Cn”是表示时间地点等概念的辅块 fK。“jD1J”、“Ya0J”和“XD01*21J”称为句类代码,表示语句属于哪一种语义类型,即句类。每一种句类都有自己的由语义块组成的基本句类表示式,在实际语句中句类表示式中的某些语义块可能不出现。例如,“Ya0J”中的YB省略了,它其实就是前面语句“jD1J”中的DC或DC的部分内容。语句中的标注符号“||”和“|”用于分隔语义块,符号“~||”和“~|”表示其左边是辅块,语句中的词语(即分词结果)用空格隔开。语义块的内部构成“DB=<!31111XD01*21J>”表示:语义块DB内部由一个要素句蜕(用符号“<”和“>”括起来)构成,要素句蜕的语句句类代码为“XD01*21J”,其句类表示式为“A+XD01+DBC”;其中,“!31”表示句类中的语义块“A”省略了,“111”表示语义块“DBC”位置调整到前面且有标记“对”。
语句的倾向性分析
语句的倾向性分析就是要根据语句中的极性词语、语义块和语句类型,以及倾向性评价中的二元和三元模型,分层逐级计算得到论文文献中的语句对于参考文献的倾向性态度。
由于在论文文献中主要由引证文本实现对参考文献的评价,因此对语句的倾向性分析主要是对引证文本中的语句做倾向性分析。引证文本如何获取在前文中已经有详细的描述,下面就对引证文本中的语句做倾向性分析的过程加以说明。
首先判断引证文本中的语句中是否有极性词语,如果没有,则引证文本中的语句对于所引证的参考文献的倾向性态度为中性,无需再做后续操作,如果有极性词语,则要对该语句做语义分析,得到语句的句类、句类表示式和语义块构成。这些语义分析的结果将利用下文中提到的评价模型来生成引证文本对参考文献的倾向性态度。此处所提到的极性词语已经在背景技术部分中做了相关描述,极性词语通常被保存在极性词典中,所述极性词语以及极性词典都为本领域的公知常识,本领域技术人员可以直接选用。在本发明中用于保存极性词典的数据库也被称为特征词语知识库。
本发明中所涉及到的评价模型包括有二元模型和三元模型,下面分别加以说明。二元模型是倾向性评价中最基本的模型,其基本形式为“AB”,其中A是被评价对象,B是极性词语。例如文本为“该方法好”,那么陈述者对于评价对象“该方法”的倾向性态度是正面的(“好”)。三元模型的形式为“CXD”,其中“C”是评价者,“X”是极性词语,“D”是被评价对象。例如“C反对D”,则评价者C对于被评价对象D的倾向性态度是反面的。由此可见,通过二元模型和三元模型可以得到语句中的极性词语,从而得到倾向性态度。
倾向性态度除了如前面提到的正面、负面等定性指标外,也可以做定量计算。在定量计算前,需要为极性词设定极性值,为程度词设定程度值,为逻辑词设定正负值。例如,极性词主要分两种,一种是褒义词(正面、积极评价词),其值取“+1”;另一种是贬义词(负面、消极评价词),其值取“-1”。如为“好”、“成果”、“有益”取+1,而为“差”、“缺点”可取“-1”。程度词是指一些描述程度的修饰词语,如“最”、“很大”、“较大”、“一定程度”等,按照程度从小到大,从0到1分配其值,如“最”取0.9,“很大”取0.8,“较大”取0.6。然后,分情况做具体的计算。例如,在二元模型“AB”中,如果A为程度词,B为极性词,那么倾向性态度的计算结果为程度词的程度值乘以极性词的极性;如果A为逻辑词,B为极性词,那么倾向性态度的计算结果为逻辑词的正负值乘以极性词的极性。同理,在三元模型中,如果极性词前面有程度词或逻辑词,那么需要在极性词极性的基础上乘以程度词和逻辑词的作用系数。
在描述了如何由二元模型与三元模型得到倾向性态度的基础上,下面对语句的语义结构如何对应为二元模型或三元模型加以说明。在前述公式(2)的基础上,不计辅块fK的影响,由EK和GBK组成的语句可分为两块句、三块句和四块句。其中,两块句的表示式有三种,即“EK+GBK1”、“GBK1+EK”和“GBK1+GBK2”,前两种可以对应三元模型的缺省模型“CX”和“XD”,第三种则直接对应二元模型。三块句的表示式为“GBK1+EK+GBK2”,可直接对应于三元模型,当EK不是极性词语则转化为二元模型处理。四块句的表示式为“GBK1+EK+GBK2+GBK3”,把“GBK2+GBK3”用二元模型处理,然后将四块句转化为三块句进行处理。由于存在GBK属于复杂语义块的情况,即GBK内部由局部的EK’和GBK’构成,因此可对GBK内部的表示式按照上述方法先行处理。如果语句的主语义块EK和GBK中都不含极性词语,那么此时需要对辅块fK的表示式进行二元模型或三元模型的处理。在将语句的语义结构对应为二元模型或三元模型后,就可以根据前段对二元模型或三元模型的描述得到语句对被评价对象的倾向性态度。
无论采用上述何种方式获得引证文本中的语句对被评价对象的倾向性态度,由于引证文本对被评价的参考文献通常仅仅引用了该参考文献的编号,如“[2]”,无法从引证文本中直接得到参考文献的作者、文献名称等其他信息,因此,可以利用前文中所提到的所提取的参考文献的内容,进一步明确被评价的参考文献的相关信息。
引证文本在对参考文献的评价过程中,有些情况下会指出明确的评价对象,如在引证文本的语句中出现如“文献xx”、“该方法”、“这篇文献”等具体指出的文献或对象,此时评价对象是明确的。但在有些情况下,评价对象并不明确。此时,考虑到引证文本中已经包含了评价对象(即引用的参考文献),因此默认极性词语是对参考文献的评价,语句的倾向性态度是对参考文献的倾向性态度。无论引证文本的语句中有无出现明确的评价者,均可认为语句对被评价对象(参考文献)的倾向性态度就是作者对于参考文献的倾向性态度。
综合前述说明,结合图4,下面给出如何获取引证文本的语句对于参考文献的倾向性态度的相关步骤:
步骤3-a)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;
步骤3-b)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句的句类、语义块以及语义块的内部结构;
步骤3-c)、如果语句的每一个GBK都只含有一个特征词语,且语句的主语义块(EK和GBK)个数为2,那么按二元模型计算语句的倾向性态度;
步骤3-d)、如果语句的每一个GBK都只含有一个特征词语,且语句的主语义块(EK和GBK)个数为3,那么按三元模型计算语句的倾向性态度;
步骤3-e)、如果语句的每一个GBK都只含有一个特征词语,且语句的主语义块(EK和GBK)个数为4,那么先按二元模型计算GBK2和GBK3的组合,然后再与GBK1和EK组合,按三元模型计算语句的倾向性态度;
步骤3-f)、如果GBK只含两个特征词语,那么按二元模型计算其倾向性态度,并把结果返回;
步骤3-g)、如果GBK内含多个特征词语,按照特征词语在语句中的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-e);
步骤3-h)、如果语句的GBK内含语句,那么把GBK作为新语句,转步骤3-b),做递归处理;
步骤3-i)、递归处理结束,获得语句的一个总的倾向性态度。
以上是对本发明如何获取论文文献对参考文献的倾向性态度的说明。结合前面所提到的例子,前述多个语句中含有特征词语(包括褒贬词、逻辑词、程度词等)的语句为“目前也取得较大成果[2]”,其中“较大”为程度词,“成果”为褒贬词(指带有感情倾向的词语,如果是褒义的,其值为正,如果是贬义的,其值为负),参考文献“[2]”为被评价对象。再根据语句倾向性分析的二元模型,用程度词属性值“0.6”乘以褒贬词属性“+1”,可以得到语句对于参考文献“[2]”的倾向性态度为“好评”,且得分为+0.6。
文献的推荐度
在得到论文文献对参考文献的倾向性态度后,结合被引频次等信息可进一步得到用于表示文献被自动推荐程度的文献推荐度指标。
一篇论文文献在经过前述步骤的分析处理后,可以得到如下量化指标:
N:“参考文献”中列出的文献数;
Nr:引证文本中出现的参考文献总数;
nr:引证文本中出现的某篇参考文献的次数;
gr:作者对某篇参考文献的好评次数;
br:作者对某篇参考文献的差评次数;
Gr:作者对参考文献的好评总数;
Br:作者对参考文献的差评总数。
依据前述说明可以获得引证文本中作者对于参考文献的倾向性态度,其值在-1到1之间,0表示评价为中性,负值表示获得差评,正值表示获得好评。在一篇论文文献中,如果论文作者对参考文献的差评总数越大,说明该论文作者越具有批判或创新精神,勇于指出别人的不足。这样的论文文献是值得推荐的,其推荐度的值应该高。
对于文献集合,文献集合中的每一篇文献都经过前述的分析处理后,可以通过统计获取以下的量化数据:
R:某篇文献的被引次数,即该文献在“参考文献”中被列出的总次数。
Rr:某篇文献的自引次数,即文献作者与参考文献作者相同。
Tr:某篇文献的他引次数,Tr=R-Rr。
Ptr:在文献的他引次数中,获得好评和差评的总次数。
Gtr:在文献的他引次数中,获得好评的次数。
Btr:在文献的他引次数中,获得差评的次数。
在计算文献的推荐度时,首先考虑它作为参考文献的他引次数和好评率;其次如果该参考文献也是文献集合中的一篇文献,那么还要考虑它对其它文献做评价的情况;再次,为了消除文献作者对自身评价的不确定性,不考虑文献的自引次数。基于以上考虑,设计文献推荐度的计算公式如下:
Rec=Tr+Gtr/Ptr+Max(Gr/Nr,Br/Nr)+α(Gr+Br)/Nr (3)
其中,“Gtr/Ptr”为文献的他引好评率,“Gr/Nr”和“Br/Nr”则分别为文献的评他好评率和评他差评率,“α”为权重修正系数(一般取0.1),“Tr”、“Gtr”、“Ptr”、“Gr”、“Br”、“Nr”的含义分别如前所述。
从推荐度“Rec”的计算公式可以看出,影响推荐的因素有他引次数、他引好评率、评他好评率、评他差评率以及评他率,即他引次数越多、他引好评率越高、评他率(包括好评差评)越高,则文献获得的推荐度越大。当评他差评率高于评他好评率时,作者对参考文献的批判价值值得推荐,因此取“Max(Gr/Nr,Br/Nr)”。当文献评价其它文献的比率“(Gr+Br)/Nr”很低时,说明作者只是在引用文献而很少做出评价,同时为了避免影响前面的“Max(Gr/Nr,Br/Nr)”,用权值系数“α”来降低“(Gr+Br)/Nr”在公式中的影响。
在计算出文献集合中每一篇文献的推荐度后,可以按照文献的推荐度大小进行排序,按照一定的等级和范围向用户推荐。
以上是对本发明的文献评价自动检索方法的说明,根据该方法的思想,本发明还提出了一种用于实现文献评价自动检索方法的系统,如图5所示,该系统包括文献及引文分析器、特征词语知识库、通用词语知识库、分词处理器、语句语义分析器以及文献评价器;其中,
所述的文献及引文分析器用于从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本,并传给所述的分词处理器;
所述的特征词语知识库用于存储极性词语及词语的褒贬属性、立场属性、逻辑属性和程度属性,这些信息被提供给所述的文献评价器使用;
所述的通用词语知识库用于存储常用词语及其概念符号,并向分词处理器和语句语义分析器提供所需的词语及其概念符号;
所述的分词处理器用于将所述引证文本中的语句切分成词语,并送入到所述语句语义分析器;
所述的语句语义分析器用于根据词语的概念类别生成所述语句的概念类别,以及根据所述语句的概念类别生成该语句的句类表达式和语义块;
所述的文献评价器用于根据语句语义分析器所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及所述文献及引文分析器所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度。
在本发明的另一个实施例中,文献评价自动检索系统还包括有文献推荐度评价器,它用于统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
本发明的优点在于:
1、本发明在计算文献推荐度时综合考虑了他引频次、他引好评率、评他率等方面的主客观影响因素,是对文献的一种新的全面评价方法。
2、本发明提供的文本倾向性分析方法不仅可以获得文献作者对于参考文献的一种定性评价,而且给出了具体的量化评价数值,有利于参考文献主观评价的量化分析。
3、本发明提供的语句语义分析方法不仅可以用于文本的倾向性分析,还可以用于文本的语义角色标注、事件分析及机器翻译等方面。
4、本发明提供的文献评价自动检索系统及方法可以自动计算文献的推荐度,无需人工干预,可自动向用户推荐有价值的文献。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (14)
1.一种文献评价自动检索方法,包括:
步骤1)、从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本;
步骤2)、对所述引证文本中的语句做语义分析,所述语义分析包括将所述语句切分成词语的分词处理,根据所述词语的概念类别生成所述语句的概念类别的语义块切分,以及根据所述语句的概念类别生成该语句的句类表达式和语义块的句类假设和检验;
步骤3)、根据步骤2)所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及步骤1)所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度;其中,该步骤进一步包括:
步骤3-1)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;
步骤3-2)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句的句类、语义块以及语义块的内部结构;
步骤3-3)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为2,那么按二元模型计算语句的倾向性态度;其中,所述主语义块包括特征语义块以及广义对象语义块,所述二元模型为“A B”的形式,A表示被评价对象,B表示极性词语;
步骤3-4)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为3,那么按三元模型计算语句的倾向性态度;其中,三元模型为“CXD”的形式,C表示评价者,X表示极性词语,D表示被评价对象;
步骤3-5)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为4,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块GBK3的组合,然后再与广义对象语义块GBK1和特征语义块EK组合,按三元模型计算语句的倾向性态度;
步骤3-6)、如果广义对象语义块GBK只含两个特征词语,那么按二元模型计算其倾向性态度,并把结果返回;
步骤3-7)、如果广义对象语义块GBK内含多个特征词语,按照特征词语在语句中的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-5);
步骤3-8)、如果语句的广义对象语义块GBK内含语句,那么把广义对象语义块GBK作为新语句,对该新语句做语义块分析后执行步骤3-2),做递归处理;
步骤3-9)、递归处理结束,获得语句的一个总的倾向性态度。
2.根据权利要求1所述的文献评价自动检索方法,其特征在于,还包括:
步骤4)、统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
3.根据权利要求2所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,在所述的句类假设和检验后还包括对包含有句子以及句子变形的复杂语义块的构成分析。
4.根据权利要求1或2所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述的分词处理包括根据已知的通用词语知识库对所述引证文本中的语句切分成字或词语,同时得到该字或词语的概念符号和概念类别。
5.根据权利要求3所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述的分词处理包括根据已知的通用词语知识库对所述引证文本中的语句切分成字或词语,同时得到该字或词语的概念符号和概念类别。
6.根据权利要求1或2所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述的语义块切分包括:
步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;
步骤2-1-2)、对于所述语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;
步骤2-1-3)、对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;
步骤2-1-4)、根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK;
步骤2-1-5)、根据特征语义块EK和EK之前的“l”类概念,把它们切分语句后形成的词语组合作为广义对象语义块GBK。
7.根据权利要求3所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述的语义块切分包括:
步骤2-1-1)、根据所述分词处理所得到的词语的概念类别,找出所述语句中用于表示语言逻辑虚词的“l”类概念以及用于表示动态概念的“v”类概念;
步骤2-1-2)、对于所述语句中得到的多个“v”类概念,逐个进行如下操作:如果其前后概念符合预先制定的排除规则的条件,那么去除该概念的“v”类概念属性;
步骤2-1-3)、对于进行排除操作后剩下的多个“v”类概念,按照优选规则计算出每一个“v”类概念作为特征语义块的权重,然后按所述权重做从大到小的排队;
步骤2-1-4)、根据特征语义块的构成规则,把“v”类概念与前后的修饰概念合并得到特征语义块EK;
步骤2-1-5)、根据特征语义块EK和EK之前的“l”类概念,把它们切分语句后形成的词语组合作为广义对象语义块GBK。
8.根据权利要求1或2所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述的句类假设和检验包括:
步骤2-2-1)、在排队后的多个特征语义块中按顺序取进行假设,根据假设的特征语义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到语句所对应的实际语句格式;
步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识;
步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较结果都符合的句类表达式和语义块。
9.根据权利要求3所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述的句类假设和检验包括:
步骤2-2-1)、在排队后的多个特征语义块中按顺序取进行假设,根据假设的特征语义块得到语句的概念类别,由所述语句的概念类别得到该语句对应的所有可能的实际句类表达式和语义块,并得到语句所对应的实际语句格式;
步骤2-2-2)、由所述语句的概念类别得到句类知识中标准的句类表达式和语义块约束知识,由特征语义块的核心概念词语得到词语知识库中的句类约束、语句格式约束和语义块约束知识;
步骤2-2-3)、将步骤2-2-2)得到的约束知识与步骤2-2-1)中假设得到的实际句类表达式和语义块在语义块个数、语句格式、语义块核心概念三个方面依次进行比较,保留比较结果都符合的句类表达式和语义块。
10.根据权利要求3所述的文献评价自动检索方法,其特征在于,在所述的步骤2)中,所述复杂语义块的构成分析包括:
步骤2-3-1)、判断所述复杂语义块的类型,若为块扩或原型句蜕,执行下一步,若为要素句蜕,执行步骤2-3-3),若为包装句蜕,执行步骤2-3-4);
步骤2-3-2)、将所述复杂语义块中的用于表示动态概念的“v”类概念作为新语句的特征语义块进行句类的假设和检验,结束本步骤的操作;
步骤2-3-3)、对所述复杂语义块中的用于表示动态概念的“v”类概念重新恢复特征语义块的资格,然后进行新语句的句类假设和检验,结束本步骤的操作;
步骤2-3-4)、识别出所述包装句蜕外部作为“包装品”的字或词或短语,去除该包装品,然后对剩余的部分进行句类的假设和检验,结束本步骤的操作。
11.根据权利要求2所述的文献评价自动检索方法,其特征在于,所述的步骤4)包括:
步骤4-1)、统计一个文献集合中的各个文献对参考文献的倾向性态度以及相关的统计信息,包括引证文本中出现的参考文献总数Nr、某篇文献的他引次数Tr、作者对参考文献的好评总数Gr、作者对参考文献的差评总数Br、在文献的他引次数中获得好评的次数Gtr、在文献的他引次数中获得好评和差评的总次数Ptr;
步骤4-2)、分别计算文献的他引好评率Gtr/Ptr、文献的评他好评率Gr/Nr、文献的评他差评率Br/Nr;
步骤4-3)、设定权重修正系数α;
步骤4-4)、根据下列公式计算文献推荐度:
Rec=Tr+Gtr/Ptr+Max(Gr/Nr,Br/Nr)+α(Gr+Br)/Nr。
12.根据权利要求3所述的文献评价自动检索方法,其特征在于,所述的步骤4)包括:
步骤4-1)、统计一个文献集合中的各个文献对参考文献的倾向性态度以及相关的统计信息,包括引证文本中出现的参考文献总数Nr、某篇文献的他引次数Tr、作者对参考文献的好评总数Gr、作者对参考文献的差评总数Br、在文献的他引次数中获得好评的次数Gtr、在文献的他引次数中获得好评和差评的总次数Ptr;
步骤4-2)、分别计算文献的他引好评率Gtr/Ptr、文献的评他好评率Gr/Nr、文献的评他差评率Br/Nr;
步骤4-3)、设定权重修正系数α;
步骤4-4)、根据下列公式计算文献推荐度:
Rec=Tr+Gtr/Ptr+Max(Gr/Nr,Br/Nr)+α(Gr+Br)/Nr。
13.一种文献评价自动检索系统,其特征在于,包括文献及引文分析器、特征词语知识库、通用词语知识库、分词处理器、语句语义分析器以及文献评价器;其中,
所述的文献及引文分析器用于从文献中提取所述文献中所含参考文献的内容以及所述文献中对参考文献的引证文本,并传给所述的分词处理器;
所述的特征词语知识库用于存储极性词语及词语的褒贬属性、立场属性、逻辑属性和程度属性,这些信息被提供给所述的文献评价器使用;
所述的通用词语知识库用于存储常用词语及其概念符号,并向分词处理器和语句语义分析器提供所需的词语及其概念符号;
所述的分词处理器用于将所述引证文本中的语句切分成词语,并送入到所述语句语义分析器;
所述的语句语义分析器用于根据词语的概念类别生成所述语句的概念类别,以及根据所述语句的概念类别生成该语句的句类表达式和语义块;
所述的文献评价器用于根据语句语义分析器所得到的语句的语义块和句类表达式、所述语句中所包含的极性词语以及倾向性评价模型对所述引证文本中的语句做倾向性分析,由所述倾向性分析的结果以及所述文献及引文分析器所得到的参考文献的内容得到所述引证文本对参考文献的倾向性态度;其中,所述的文献评价器在做文献评价时,进一步包括:
步骤3-1)、判断所述引证文本的语句中是否包含极性词语,如果未包含,则所述引证文本对参考文献的倾向性态度为中性,结束本步骤的操作,如果包含,则执行下一步;
步骤3-2)、提取所述引证文本中的语句的语义分析结果,所述语义分析结果包括语句的句类、语义块以及语义块的内部结构;
步骤3-3)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为2,那么按二元模型计算语句的倾向性态度;其中,所述主语义块包括特征语义块以及广义对象语义块,所述二元模型为“AB”的形式,A表示被评价对象,B表示极性词语;
步骤3-4)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为3,那么按三元模型计算语句的倾向性态度;其中,三元模型为“CXD”的形式,C表示评价者,X表示极性词语,D表示被评价对象;
步骤3-5)、如果语句的每一个广义对象语义块GBK都只含有一个特征词语,且语句的主语义块个数为4,那么先按二元模型计算广义对象语义块GBK2和广义对象语义块GBK3的组合,然后再与广义对象语义块GBK1和特征语义块EK组合,按三元模型计算语句的倾向性态度;
步骤3-6)、如果广义对象语义块GBK只含两个特征词语,那么按二元模型计算其倾向性态度,并把结果返回;
步骤3-7)、如果广义对象语义块GBK内含多个特征词语,按照特征词语在语句中的位置,从左到右逐个减少进行递归处理,减少到只有两个特征词语时,转步骤3-5);
步骤3-8)、如果语句的广义对象语义块GBK内含语句,那么把广义对象语义块GBK作为新语句,对该新语句做语义块分析后执行步骤3-2),做递归处理;
步骤3-9)、递归处理结束,获得语句的一个总的倾向性态度。
14.根据权利要求13所述的文献评价自动检索系统,其特征在于,还包括有文献推荐度评价器,它用于统计一个文献集合中的各个文献对参考文献的倾向性态度,根据所述倾向性态度中所包含的某一文献作为参考文献出现的次数、作为参考文献获得好评的次数、该文献中对其他文献加以好评与差评的比率,生成对所述文献集合中文献的推荐度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010272982.1A CN101937462B (zh) | 2010-09-03 | 2010-09-03 | 文献评价自动检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010272982.1A CN101937462B (zh) | 2010-09-03 | 2010-09-03 | 文献评价自动检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101937462A CN101937462A (zh) | 2011-01-05 |
CN101937462B true CN101937462B (zh) | 2016-08-24 |
Family
ID=43390791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010272982.1A Expired - Fee Related CN101937462B (zh) | 2010-09-03 | 2010-09-03 | 文献评价自动检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101937462B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176956B (zh) * | 2011-12-21 | 2016-08-03 | 北大方正集团有限公司 | 用于提取文档结构的方法和装置 |
CN104199965B (zh) * | 2014-09-22 | 2020-08-07 | 吴晨 | 一种语义信息检索方法 |
CN106487845A (zh) * | 2015-08-28 | 2017-03-08 | 百度在线网络技术(北京)有限公司 | 站点评价的展示方法和装置 |
CN106933815B (zh) * | 2015-12-29 | 2021-02-05 | 索意互动(北京)信息技术有限公司 | 文献价值获取方法与装置 |
CN108255803B (zh) * | 2016-12-29 | 2022-03-01 | 北京国双科技有限公司 | 文档情感的判断方法和装置 |
CN108319581B (zh) * | 2017-01-17 | 2021-10-08 | 科大讯飞股份有限公司 | 一种自然语言语句评价方法及装置 |
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
CN111125381B (zh) * | 2018-11-01 | 2023-08-11 | 新方正控股发展有限责任公司 | 参考文献关键信息的识别方法、装置、设备及存储介质 |
CN110020729B (zh) * | 2019-03-05 | 2021-03-16 | 中国联合网络通信集团有限公司 | 基于人工智能的文章评审方法及装置 |
CN111611392B (zh) * | 2020-06-23 | 2023-07-25 | 中国人民解放军国防科技大学 | 综合多特征和投票策略的教育资源引用分析方法、系统及介质 |
CN117976231B (zh) * | 2024-01-30 | 2024-09-10 | 北京康众时代医药科技集团有限公司 | 一种循证医学的中成药物临床数据整合分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000632A (zh) * | 2007-01-11 | 2007-07-18 | 上海交通大学 | 意向驱动的博客搜索以及浏览系统 |
CN101645083A (zh) * | 2009-01-16 | 2010-02-10 | 中国科学院声学研究所 | 一种基于概念符号的文本领域的获取系统及方法 |
-
2010
- 2010-09-03 CN CN201010272982.1A patent/CN101937462B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101000632A (zh) * | 2007-01-11 | 2007-07-18 | 上海交通大学 | 意向驱动的博客搜索以及浏览系统 |
CN101645083A (zh) * | 2009-01-16 | 2010-02-10 | 中国科学院声学研究所 | 一种基于概念符号的文本领域的获取系统及方法 |
Non-Patent Citations (2)
Title |
---|
"网络评论观点的倾向性分析";钱杰;《中国优秀硕士学位论文全文数据库(电子期刊)》;20090615;4-5页,13-18页,33-35页,47-48页 * |
"语义块类型、构成及变换的分析与处理";雒自清;《中国博士学位论文全文数据库(电子期刊)》;20061115;25-29,33-34,48-50,99 * |
Also Published As
Publication number | Publication date |
---|---|
CN101937462A (zh) | 2011-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101937462B (zh) | 文献评价自动检索方法及系统 | |
Dey et al. | Opinion mining from noisy text data | |
Piao et al. | Comparing and combining a semantic tagger and a statistical tool for MWE extraction | |
CN105550171B (zh) | 一种垂直搜索引擎的查询信息纠错方法和系统 | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
Attia et al. | Improved spelling error detection and correction for Arabic | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN110688836A (zh) | 基于监督学习的领域词典自动化构建方法 | |
CN114817570B (zh) | 基于知识图谱的新闻领域多场景文本纠错方法 | |
Khasawneh et al. | Sentiment analysis of Arabic social media content: a comparative study | |
CN110633463A (zh) | 一种应用于垂直领域的专业词汇纠错方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
CN114493783A (zh) | 一种基于双重检索机制的商品匹配方法 | |
Nezhad et al. | Sarcasm detection in Persian | |
CN109933787A (zh) | 文本关键信息的提取方法、装置及介质 | |
Tesfaye et al. | Designing a rule based stemmer for Afaan Oromo text | |
CN103646017B (zh) | 用于命名的缩略词生成系统及其工作方法 | |
Taji et al. | The columbia university-new york university abu dhabi sigmorphon 2016 morphological reinflection shared task submission | |
Ihnaini et al. | Lexicon-based sentiment analysis of arabic tweets: A survey | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN106126501A (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm | |
Huang et al. | Sentiment Detection through Emotion Classification Using Deep Learning Approach for Chinese Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160824 Termination date: 20200903 |
|
CF01 | Termination of patent right due to non-payment of annual fee |