CN105677634B - 一种从学术文献中提取语义相似且语法规范句子的方法 - Google Patents
一种从学术文献中提取语义相似且语法规范句子的方法 Download PDFInfo
- Publication number
- CN105677634B CN105677634B CN201510421798.1A CN201510421798A CN105677634B CN 105677634 B CN105677634 B CN 105677634B CN 201510421798 A CN201510421798 A CN 201510421798A CN 105677634 B CN105677634 B CN 105677634B
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- similarity
- document
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000002075 main ingredient Substances 0.000 claims abstract description 77
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 38
- 239000003607 modifier Substances 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000011160 research Methods 0.000 claims description 10
- 230000008520 organization Effects 0.000 claims 1
- 239000000523 sample Substances 0.000 description 10
- 238000001514 detection method Methods 0.000 description 6
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 4
- 229910021389 graphene Inorganic materials 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 229910052738 indium Inorganic materials 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种从学术文献中提取语义相似且语法规范句子的方法。该方法包括首先将拟访问的数据库限定为已发表的学术论文。根据使用者输入拟查询句子所属领域的关键词、文献作者所在国家、以及输入句子的主要成份与数据库中的句子进行相似度计算。根据所限定要素的权值提取相似度比较高的几个句子供使用者参考,从而获得恰当语义的句子和所获语句的文献源。本发明可供非英语母语英语论文作者等在写作科技文献时,快捷获取规范表达想法的参考句子。
Description
技术领域
本发明属于计算机技术领域,特别涉及一种应用于英语句子匹配的方法,尤其是考虑了语法不规范句子的匹配方法。
背景技术
语句相似度在双语翻译、自动问答、论文查重等领域有重要的应用价值。语句相似度的计算方法有很多,不同应用领域的侧重点不同,有的偏重于文本表层内容的匹配度,如论文查重等;有的则偏重于语句包含的内在语义的相似度,如双语翻译和自动问答等。以论文查重为例进行简要说明:论文查重包含的数据库主要为已发表的文献、专利、著作、网页等,并且必须尽可能的包含所有文献资料,以确保查重结果的可靠性。论文查重的句子相似度评价标准需要考虑文字在句子中的出现顺序,以及多个连续文字的匹配程度,当文字匹配的个数超过规定的数量时则认为该句子抄袭了原有句子。句子之间的匹配算法在计算机技术研究领域已经有大量的研究,此处不再赘述。国内外大量从事科研工作的研究人员、学生等群体经常需要写作英文科技文献,如发表论文、申请专利、撰写毕业论文等。对于非英语母语国家的科研人员来说,写出一篇能够完全表达自己意思,并且语法规范、语句流畅的文章通常是一件比较困难的事情。研究人员即使有一定的英语写作能力,而写出的文章中却包含有一定的语法错误、语义模糊甚至出现歧义。为了能够改善这种现象,研究人员通常的做法是在自己阅读过的大量外文文献中寻找与自己表达意思相近的句子,并在此基础上根据自己的英语知识进行一定的修改,从而形成一个完整表达自己意思的、没有语法错误的并且和原句有一定差异的句子。由于科技论文中的内容主要是作者自己的创新性工作,因此完全与原句重合的概率很小。对于研究人员来说想要在自己阅读的外文文献中找到所有能够表达自己意思的句子是很困难的,并且该过程也是一项非常费时费力的工作。如何通过现代电子计算机技术,如语句相似度计算技术,实现非常方便和快捷地查找与作者想要表达意思相近的、没有语法错误的甚至具有一定写作技巧的英文语句是一项亟待解决的重要问题。
发明内容
本发明的目的是提供一种从学术文献中提取语义相似且语法规范句子的方法。该方法能够利用用户输入的、语法可能不完全正确的英语句子搜索到与用户意思相同或相近的、语义清晰的英语句子,为用户提供参考。该方法解决了非英语母语科研人员、学生等在写作科技文献时,难以专业表达想法或者无法确定句子语法规范的问题。
本发明的具体技术方案是:一种从学术文献中提取语义相似且语法规范句子的方法,包括以下几个步骤:
A. 将已建立的英语文献数据库中所有文献的关键词、第一作者或通讯作者所在国家提取出来,并与相应文献建立对应关系;
B. 对所述英语文献数据库中所有文献的摘要和正文文本以句子为单位进行划分,提取句子的主要成份,并与原句建立对应关系;
C. 用户输入所要匹配句子所属的学科、领域或者研究方向的一个或多个关键词;
D. 用户输入所需匹配的英语句子,对该句子的主要成份进行提取,并与英语文献数据库中所有句子的主要成份按照词性相似度和语法相似度两个方面进行相似度计算;
E. 将用户输入的关键词与文献关键词进行比较,并设定每篇文献的关键词权值,根据第一作者或通讯作者所在国家,设定每篇文献第一作者或通讯作者的英语熟练度权值;
F. 综合考虑句子主要成份相似度、文献关键词权值、文献作者英语熟练度权值计算两个句子的最终相似度,按照最终相似度的高低进行排序,并反馈给用户相似度最高的一个或几个英文原句及其文献出处。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤A中,英语文献数据库指的是包含有已公开发表的、获得出版方授权使用的英语学术论文的数据库。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤A中,对没有关键词的文献将文献的标题进行分解,将名词作为该文献的关键词。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤A中,第一作者或通讯作者所在国家指的是文献中第一作者或通讯作者的通信地址或服务机构中给出的国家,所述第一作者或通讯作者是该国国籍的公民,或在该国从事研究的外籍人员。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤B和D中,句子的主要成份包括语法主要成份,指的是划分句子的主语、谓语、宾语、定语和状语,并将介词、冠词、数词去掉,保留名词、动词、形容词、副词。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤B和D中,句子的主要成份还包括词性主要成份,指的是略去句中不影响主要词义匹配的介词、冠词、数词,保留名词、动词、形容词、副词。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤D中,句子主要成份相似度为:
,
其中,Qs1为句子语法结构相似度,Qs2为句子词性结构相似度,
所述句子语法结构相似度是将用户输入句子和文献句子中的主语、谓语、宾语、定语和状语分别进行比较,计算两个词之间的相似度,并和该词的权值一起作为两个词之间的匹配度,该句子语法结构相似度Qs1为:
其中,Qsubi为主语中第i个词的相似度,Qprej为谓语中第j个词的相似度,Qobjk为宾语中第k个词的相似度,Qattl为定语中第l个词的相似度,Qamz为状语中第z个词的相似度;M1为主语中词的个数,M2为谓语中词的个数,M3为宾语中词的个数,M4为定语中词的个数,M5为状语中词的个数;n1、n2、n3、n4、n5分别表示主语、谓语、宾语、定语和状语的权值,n1、n2、n3、n4、n5的取值范围是(0,1);
所述句子词性结构相似度是将用户输入句子和文献句子中的名词、动词、形容词和副词分别进行比较,计算两个词之间的相似度,并和该词的权值一起作为两个词之间的匹配度,该句子词性结构相似度Qs2为:
其中,Qnouni为第i个名词相似度,Qverbj为第j个动词相似度,Qadjk为第k个形容词相似度,Qadvl为第l个副词相似度;N1为名词的个数,N2为动词的个数,N3为形容词的个数,N4为副词的个数;m1、m2、m3、m4分别为名词、动词、形容词、副词的权值,m1、m2、m3、m4的取值范围是(0,1)。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,如果用户输入句子中的主语、谓语、宾语、定语和状语中不止一个词,则将每个词和文献句子中对应语法结构中所有词进行相似度计算,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,如果用户输入句子中出现多个名词、动词、形容词和副词,需要分别计算每个词和文献句子中相应词的相似度,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述两个词之间的相似度为:如果用户输入句子和文献句子中的词完全相同,则所述两个词之间的相似度为1;如果用户输入句子和文献句子中的词不相同,即是差异词,对差异词进行扩展,并比较扩展后的差异词与用户输入句子中的词之间的相似度,其取值范围为0≤Qi<1,Qi为两个词之间的相似度。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述对差异词进行扩展是对该差异词进行词汇变换,包括同义词变换、单复数变换、时态变换以及反义词变换。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述扩展后的差异词与用户输入句子中的词之间的相似度为:如果扩展后的差异词属于用户输入句子中的词的同义词,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和用户输入句子中的词属于单复数关系,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和用户输入句子中的词之间能够进行时态变换,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和用户输入句子中的词属于反义词关系,则相似度为0≤Qi<0.6。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤E中,英语熟练度权值是根据文献第一作者或通讯作者所在国家不同,为文献设定不同的权值,英语母语国家的第一作者或通讯作者英语熟练度权值Qc =1,非英语母语国家的第一作者或通讯作者英语熟练度权值设定为0-1之间的数值。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤E中,根据用户输入的关键词,计算机对文献的关键词进行匹配,根据关键词的匹配程度设定该文献的关键词权值,如果用户输入的关键词全部被文献的关键词包含,则是完全匹配,匹配权值为1,匹配到关键词的数量越少,则权值越低,关键词权值为: ,其中,N为用户输入的关键词个数,T为文献关键词包含用户关键词的个数,Qg为文献关键词权值。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤F中,两个句子最终的相似度Q为: 其中,fs为句子主要成份相似度Qs在最终相似度Q计算中占的权值,0<fs<1;fg为关键词权值Qg在最终相似度Q计算中占的权值,0<fg<1;fc为第一作者或通讯作者英语熟练度权值Qc在最终相似度Q计算中占的权值,0<fc<1。
较佳的,前述一种从学术文献中提取语义相似且语法规范句子的方法,所述步骤D中,用户输入的句子是语法正确的,或语法不正确的。
本发明的优点是:解决了科研人员在撰写科技文献时难以准确表达自身想法的问题,节省了大量查找文献的时间和精力。查找资源以专业、权威的英文数据库以基础,确保查找结果有较佳的选择句子。相似度计算方法引入了作者所在国家、关键词、句子主要成份,既考虑了句子在语法、词性等语句层面上的相似度,又考虑了作者写作英文语句的水平以及不同领域专业术语的差异,并且给每个因素详细设定不同的权值,以提高查找结果与作者本意相符合的概率。与以往的“论文查重”方法相比,不存在漏查问题,只提供了相近的最佳参考。
附图说明
图1是本发明从学术文献中提取语义相似且语法规范句子的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1是本发明从学术文献中提取语义相似且语法规范句子的方法的流程图。下面结合图1说明本发明的具体步骤。
步骤一、建立一个包含有大量英语科技文献的英文文献数据库。该英文文献数据库中的文献必须是已经公开发表的、已经获得出版方授权的。
步骤二、提取所述英文文献数据库中每篇文献的关键词、第一作者或通讯作者所在国家,并与相应文献建立对应关系。
步骤三、提取所述英文文献数据库中每篇文献的句子的主要成份,并与原句建立对应关系。
将每篇文献中的摘要和正文文本按照句子为单位进行划分,并对每个划分好的句子提取句子主要成份。句子的主要成份包括语法主要成份和词性主要成份。语法主要成份指的是划分句子的主语、谓语、宾语、定语和状语,并将介词、冠词、数词去掉,保留名词、动词、形容词、副词;词性主要成份指的是略去句中的介词、冠词、数词等不影响主要词义匹配的因素,只提取句子的名词、动词、形容词、副词等主要词义因素作为句子的词性主要成份。给句子的主要成份设定不同的权值,m1、m2、m3、m4分别为名词、动词、形容词、副词的权值,m1、m2、m3、m4的取值范围都是(0,1)。n1、n2、n3、n4、n5分别表示主语、谓语、宾语、定语和状语的权值,n1、n2、n3、n4、n5的取值范围都是(0,1)。
步骤四、用户输入待匹配的句子和关键词。
用户需要具有一定的英语知识,将要表达的意思按照自己掌握的英语知识写出一个英语句子,并输入到计算机中。输入待匹配句子所属的学科、领域或者研究方向的一个或多个关键词。
步骤五、提取用户输入句子的主要成份。
计算机对该句子进行主要成份提取并设定权值,包括语法主要成份和词性主要成份,提取的方法、权值设定和上文一致。将用户输入句子的主要成份与英文数据库中所有句子的主要成份进行相似度计算。
步骤六、将输入句子的主要成份与文献句子的主要成份进行相似度比较,计算句子主要成份相似度。
将用户输入句子和文献句子中的主语、谓语、宾语、定语和状语分别进行比较,计算句子语法结构的相似度Qs1,并且将用户输入句子和文献句子中的名词、动词、形容词、副词分别进行比较,计算句子词性结构的相似度Qs2。
比较两个词之间相似度的方法是:如果用户输入句子和文献句子中是完全相同的词,认为完全匹配,则相似度为Qi=1;如果用户输入句子和文献句子中的词不相同,认为是差异词。为便于描述,在本发明中用户输入句子中的词认为是输入词,文献中和用户输入句子中不同的词认为是差异词。对差异词进行扩展,并比较差异词与输入词之间的相似度Qi,该相似度的取值范围为0≤Qi<1。对词进行扩展指的是词汇变换,主要包括词的同义词、时态变换、单复数变换、反义词变换和其他相关项。最后和该词的权值一起作为两个词之间的匹配度。
差异词与输入词之间的相似度计算方法为:如果扩展后的差异词属于输入词的同义词,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和输入词属于单复数关系,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和输入词之间能够进行时态变换,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和输入词属于反义词关系,则相似度为0≤Qi<0.6。
两个句子语法结构的相似度Qs1可由下式计算:
其中Qs1为句子语法结构的相似度,Qsubi为主语中第i个词的相似度,Qprej为谓语中第j个词的相似度,Qobjk为宾语中第k个词的相似度,Qattl为定语中第l个词的相似度,Qamz为状语中第z个词的相似度。M1为主语中词的个数,M2为谓语中词的个数,M3为宾语中词的个数,M4为定语中词的个数,M5为状语中词的个数。如果用户输入句子中的主语、谓语、宾语、定语和状语中不止一个词,则将每个词和文献句子中对应语法结构中所有词进行相似度计算,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
两个句子词性结构的相似度Qs2可有下式计算:
其中Qs2为句子词性的相似度,Qnouni为第i个名词相似度,Qverbj为第j个动词相似度,Qadjk为第k个形容词相似度,Qadvl为第l个副词相似度,N1为名词的个数,N2为动词的个数,N3为形容词的个数,N4为副词的个数,m1、m2、m3、m4分别为名词、动词、形容词、副词的权值,m1、m2、m3、m4的取值范围是(0,1)。
用户输入句子中可能出现多个名词、动词、形容词和副词,需要分别计算每个词和文献句子中相应词的相似度,选取相似度最大的两个词认为是相互匹配的词。当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
句子主要成份相似度Qs包括句子语法结构相似度Qs1和句子词性结构相似度Qs2,其计算公式为:。
步骤七、计算文献关键词权值和文献作者英语熟练度权值。
用户在查找句子之前可以输入所需查找句子所属的学科、领域或者研究方向的一个或多个关键词,用来更为精确地匹配到相关领域内的高相似度句子。根据用户输入的关键词,计算机对文献的关键词进行匹配,根据关键词的匹配程度设定每篇文献的权值,如果用户输入的关键词全部被文献的关键词包含则认为是完全匹配,匹配权值为1,匹配到关键词的数量越少权值越低。关键词权值计算方法:,其中N为用户输入的关键词个数,T为文献关键词包含用户关键词的个数,Qg为文献关键词权值。
英语熟练度权值指的是根据文献第一作者或通讯作者所在国家不同,为文献设定不同的权值,将数据库中每篇文献的第一作者所在的国家提取出来,并按照该国家人民平均英语水平,为每篇文献设定不同的权值Qc。例如英语母语国家的作者很少会出现英语语法错误或歧义等写作技巧的问题,因此给予该国作者所写文章的权值最高,设定为Qc =1。非英语母语国家的第一作者或通讯作者英语熟练度权值设定为0-1之间的数值,所述非英语母语国家的第一作者或通讯作者的英语熟练度越高,则权值越高。有些国家虽然并不是英语母语国家,但是将英语作为其官方语言或者是与英语是同一语系,例如印度和德国,该国家作者所写文章的权值次之,设定为Qc=0.95-0.5之间。对其他一些国家,如中国、韩国、日本等国家作者所写文章的权值再次之,设定为Qc =0.2-0.4之间。将科技文献与作者国家相联系的主要目的是最大程度地确保匹配到的高相似度例句是符合英语语法、表述清晰的。
步骤八、计算两个句子的最终相似度。
两个句子最终的相似度需要综合考虑句子主要成份相似度、文献关键词匹配、文献作者所在国家三个方面的因素。最终相似度Q可由下式计算:
,
其中fs为句子主要成份相似度Qs在最终相似度Q计算中占的权值,0<fs<1;fg为关键词权值Qg在最终相似度Q计算中占的权值,0<fg<1;fc为作者英语熟练度权值Qc在最终相似度Q计算中占的权值,0<fc<1。由于两个句子主要成份的相似度是整个方法的关键,因此fs的值通常会设置的相对较高。
按照最终相似度Q的高低进行排序,并反馈给用户相似度最高的一个或几个英文原句及其文献出处。
以下是两个实施例:
实施例一
以美国ACS出版社出版的ACSnano期刊作为数据库源,该数据库收录了ACSnano期刊发表的部分电子版论文,经过ACS出版社授权使用。将该数据库中所有论文中的第一作者所在国家和关键词提取出来。例如文献“Rational Design of Hybrid Graphene Filmsfor High-Performance Transparent Electrodes”的作者来自美国RICE大学,关键词为:graphene,transparent electrode,metal grid,flexible。由于作者来自美国,该文献的作者英语熟练度权值设为1,Qc=1。将该数据库中所有文献的摘要和正文文本提取出来,按照句子为单位进行划分并提取句子主要成份。句子的主要成份指的是提取句子的主语、谓语、宾语、定语和状语作为句子的语法主要成份。并且提取句子的名词、动词、形容词、副词作为句子的词性主要成份。给句子的主要成份设定不同的权值,其中名词设为0.3,动词设为0.3,形容词、副词分别设为0.2、 0.2。句子的主语、谓语、宾语设定权值分别为0.3、0.3、0.3,定语和状语设定权值分别为0.2、0.2。
用户需要根据自己的英语知识写出一个英语句子,例如用户想要表达的意思是“通过四探针测量法对透明电极的方块电阻进行了测量”。用户写出的句子为“Throughfour-point probe, transparent electrode’s sheet resistance was tested”。用户输入关键词为:graphene,transparent electrode, conduction。对该句子提取主要成份,语法主要成份为:主语transparent electrode’s sheetresistance,谓语was tested,状语为through four-point probe;词性主要成份为:名词sheet resistance, transparentelectrode,four-point probe,动词tested。由于用户具备一定的英语水平,并且对所从事领域的专业词汇比较熟悉,因此该句子没有明显的语法错误,但是并不符合英语常用的表达逻辑。将用户输入句子的主要成份在文献数据库中进行匹配,比较所有文献句子的主要成份。例如上文中提到ACSnano期刊中文献的句子“The sheet resistance of the hybridtransparent electrode was measured by an Alessi four-point probe.”语法主要成份为:主语the sheet resistance of the hybrid transparent electrode,谓语wasmeasured,状语by an Alessi four-point probe;词性主要成份为:名词sheetresistance, transparent electrode,four-point probe,动词measured,形容词hybrid。两个句子进行比较,语法主要成份中用户输入句子中主语中的词transparent electrode和文献句子主语中的词transparent electrode完全匹配,同理主语中的词sheetresistance、状语中的词four-point probe完全匹配,相似度设置为1。measured 和tested都有测试的意思,属于近义词,可在词性扩展中匹配,相似度设置为0.5。综上所述句子语法结构的相似度Qs1为0.3+0.3+0.2+0.3×0.5=0.95。词性主要成份中用户输入句子中名词sheet resistance, transparent electrode,four-point probe和文献句子主语中的词sheet resistance,transparent electrode,four-point probe完全匹配,相似度设置为1,动词measured 和tested属于近义词,相似度设置为0.5。综上所述句子词性主要成份的相似度Qs2为0.3+0.3+0.3+0.3×0.5=1.05。因此上述两个句子的主要成份相似度为Q= Qs1+Qs2=2。对文献例句与用户输入语句的关键词相似度计算,graphene,transparentelectrode两个词完全相同,则:Qg=0.67。
计算将用户输入句子和文献例句的最终相似度,设定句子主要成份的权值为0.6,关键词权值和作者英语熟练度权值分别设为0.2。则Q=2×0.6+0.67×0.2+1×0.2=1.534。按此方法计算文献库中所有句子与用户输入句子的最终相似度,并反馈给用户最高的一个或几个例句。
实施例二
以美国光学学会OSA收录的Optical Engineering期刊作为数据库,该数据库收录了Optical Engineering期刊发表的部分电子版论文。将该数据库中所有论文中的第一作者所在国家和关键词提取出来。例如文献“Two-color infrared counter-countermeasurebased on the signal ratio between two detection bands for a crossed-arraytracker”的作者来自韩国的Pukyong National University,关键词为:infrared seeker;two-color counter-countermeasure; crossed-array tracker。该文献作者的英语熟练度权值设为Qc=0.5。以及文献“Countermeasure effectiveness against a man-portableair-defense system containing a two-color spinscan infrared seeker”的作者来自美国的Cranfield University,关键词为:man-portable air-defense; simulation;infrared; electro-optics; countermeasures。该文献的作者英语熟练度权值设为Qc=1。
将该数据库中所有文献的摘要和正文文本提取出来,按照句子为单位进行划分并提取句子主要成份。句子的主要成份指的是提取句子的主语、谓语、宾语、定语和状语作为句子的语法主要成份。并且提取句子的名词、动词、形容词、副词作为句子的词性主要成份。给句子的主要成份设定不同的权值,其中名词设为0.4,动词设为0.4,形容词、副词分别设为0.1、 0.1。句子的主语、谓语、宾语设定权值分别为0.4、0.4、0.4,定语和状语设定权值分别为0.1、0.1。
用户需要根据自己的英语知识写出一个英语句子,例如用户想要表达的意思是“双色抗干扰能够利用物体在两个波段内的辐射差异来区分目标和干扰。”用户写出的句子为:“Two-color IRCCM can efficiently distinguish target from flare by usingthe difference of two waveband.”关键词为infrared,countermeasure,two-color。对该句子提取主要成份,语法主要成份为:主语IRCCM,谓语can efficiently distinguish,宾语target,定语two-color,状语from flare by using the difference of twowaveband。词性主要成份为:名词Two-color,IRCCM,target, flare, difference,waveband,动词can distinguish,using,副词efficiently。将用户输入句子的主要成份在文献数据库中进行匹配,比较所有文献句子的主要成份。例如上文中提到OpticalEngineering期刊中文献 “Countermeasure effectiveness against a man-portableair-defense system containing a two-color spinscan infrared seeker”的句子“Termed two-color, the seeker can compare the emissions from the target and acountermeasure in different wavebands and reject the countermeasure”。语法主要成份为:主语seeker,谓语can compare,reject,宾语emission,countermeasure,状语fromthe target and a countermeasure in different wavebands,termed two-color。词性主要成份为:名词two-color,seeker,emission, target, countermeasure,waveband,countermeasure,动词can compare,reject,形容词different。两个句子进行比较,语法主要成份中主语相似度为0,谓语中distiguish和compare属于近义词,相似度为0.5,宾语相似度为0,定语相似度为0,状语中flare和countermeasure在专业术语中属于近义词,相似度为0.5,difference和different的词性不同,词义相近,相似度为0.5,waveband的相似度为1。因此两个句子的语法主要成份相似度为0.4×0.5+(0.5+0.5+1)×0.1=0.4。词性主要成份中名词two-color,target,waveband相似度为1,countermeasure和flare,countermeasure和IRCCM相似度为0.5。动词compare和distinguish为近义词,相似度为0.5,形容词和副词的相似度为0。因此两个句子的词性相似度为(1+1+1)×0.4+(0.5+0.5)×0.4+0.5×0.4=1.8。两个句子的主要成份相似度为Q=1.8+0.4=2.2。在文献“Two-colorinfrared counter-countermeasure based on the signal ratio between twodetection bands for a crossed-array tracker”中匹配到句子“Most IRCCMs use twoseparate detection bands to distinguish the target from the IRCM”。语法主要成份为:主语IRCCMs,谓语use,宾语detection bands,定语Most,two separate,状语todistinguish the target from the IRCM。词性主要成份为:名词IRCCMs,detectionband,target,IRCM,动词use,distinguish,形容词separate。比较两个句子的主要成份,主语相似度为1,谓语相似度为0,宾语相似度为0,定语相似度为0,状语中flare和IRCM在专业术语中属于近义词,相似度为0.5。因此,语法主要成份相似度为0.45。词性主要成份中,名词IRCCM,target相似度为1,IRCM和flare,detection band和waveband属于近义词,相似度为0.5。词性主要成份相似度为1.2。该句子的主要成份相似度为1.65。
韩国作者文献的关键词权值为0.33,美国作者文献的关键词权值为0.66。计算将用户输入句子和文献例句的最终相似度,设定句子主要成份的权值为0.6,关键词权值和作者英语熟练度权值分别设为0.2。则韩国作者文献的最终相似度为(0.33+0.5)×0.2+1.65×0.6=1.156。美国作者文献的最终相似度为(0.66+1)×0.2+2.2×0.6=1.652。因此“Termed two-color, the seeker can compare the emissions from the target and acountermeasure in different wavebands andreject the countermeasure”拥有更高的相似度会优先反馈给用户。按此方法,计算该数据库中所有文献中句子和用户输入句子的相似度,并进行排序。将相似度最高的一个或几个句子反馈给用户。同时将各个文献的出处也反馈给用户,以便于用户进一步的对该文献进行了解。
Claims (16)
1.一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述方法包括以下几个步骤:
A.将已建立的英语文献数据库中所有文献的关键词、第一作者或通讯作者所在国家提取出来,并与相应文献建立对应关系;
B.对所述英语文献数据库中所有文献的摘要和正文文本以句子为单位进行划分,提取句子的主要成份,并与原句建立对应关系;
C.用户输入所要匹配句子所属的学科、领域或者研究方向的一个或多个关键词;
D.用户输入所需匹配的英语句子,对该句子的主要成份进行提取,并与英语文献数据库中所有句子的主要成份按照词性相似度和语法相似度两个方面进行相似度计算;
E.将用户输入的关键词与文献关键词进行比较,并设定每篇文献的关键词权值,根据第一作者或通讯作者所在国家,设定每篇文献第一作者或通讯作者的英语熟练度权值;
F.综合考虑句子主要成份相似度、文献关键词权值、文献作者英语熟练度权值计算两个句子的最终相似度,按照最终相似度的高低进行排序,并反馈给用户相似度最高的一个或几个英文原句及其文献出处。
2.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤A中,英语文献数据库指的是包含有已公开发表的、获得出版方授权使用的英语学术论文的数据库。
3.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤A中,对没有关键词的文献将文献的标题进行分解,将名词作为该文献的关键词。
4.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤A中,第一作者或通讯作者所在国家指的是文献中第一作者或通讯作者的通信地址或服务机构中给出的国家,所述第一作者或通讯作者是该国国籍的公民,或在该国从事研究的外籍人员。
5.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤B和D中,句子的主要成份包括语法主要成份,指的是划分句子的主语、谓语、宾语、定语和状语,并将介词、冠词、数词去掉,保留名词、动词、形容词、副词。
6.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤B和D中,句子的主要成份包括词性主要成份,指的是略去句中不影响主要词义匹配的介词、冠词、数词,保留名词、动词、形容词、副词。
7.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤D中,句子主要成份相似度Qs为:
Qs=Qs1+Qs2,
其中,Qs1为句子语法结构相似度,Qs2为句子词性结构相似度,
所述句子语法结构相似度是将用户输入句子和文献句子中的主语、谓语、宾语、定语和状语分别进行比较,计算两个词之间的相似度,并和用户输入句子与文献句子中相应的词的权值一起作为两个词之间的匹配度,该句子语法结构相似度Qs1为:
其中,Qsubi为主语中第i个词的相似度,Qprej为谓语中第j个词的相似度,Qobjk为宾语中第k个词的相似度,Qattl为定语中第l个词的相似度,Qamz为状语中第z个词的相似度;M1为主语中词的个数,M2为谓语中词的个数,M3为宾语中词的个数,M4为定语中词的个数,M5为状语中词的个数;n1、n2、n3、n4、n5分别表示主语、谓语、宾语、定语和状语的权值,n1、n2、n3、n4、n5的取值范围是(0,1);
所述句子词性结构相似度是将用户输入句子和文献句子中的名词、动词、形容词和副词分别进行比较,计算两个词之间的相似度,并和用户输入句子和文献句子中相应的词的权值一起作为两个词之间的匹配度,该句子词性结构相似度Qs2为:
其中,Qnouni为第i个名词相似度,Qverbj为第j个动词相似度,Qadjk为第k个形容词相似度,Qadvl为第l个副词相似度;N1为名词的个数,N2为动词的个数,N3为形容词的个数,N4为副词的个数;m1、m2、m3、m4分别为名词、动词、形容词、副词的权值,m1、m2、m3、m4的取值范围是(0,1)。
8.根据权利要求7所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,如果用户输入句子中的主语、谓语、宾语、定语或状语中不止一个词,则将每个词和文献句子中对应语法结构中所有词进行相似度计算,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
9.根据权利要求7所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,如果用户输入句子中出现多个名词、动词、形容词或副词,需要分别计算每个词和文献句子中相应词的相似度,选取相似度最大的两个词认为是相互匹配的词,当用户输入句子和文献句子中出现多个相同的词时,每个词仅进行一次相似度计算。
10.根据权利要求7所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述两个词之间的相似度为:如果用户输入句子和文献句子中的词完全相同,则所述两个词之间的相似度为1;如果用户输入句子和文献句子中的词不相同,即是差异词,对差异词进行扩展,并比较扩展后的差异词与用户输入句子中的词之间的相似度,其取值范围为0≤Qi<1,Qi为两个词之间的相似度。
11.根据权利要求10所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述对差异词进行扩展是对该差异词进行词汇变换,包括同义词变换、单复数变换、时态变换以及反义词变换。
12.根据权利要求10所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述扩展后的差异词与用户输入句子中的词之间的相似度为:如果扩展后的差异词属于用户输入句子中的词的同义词,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和用户输入句子中的词属于单复数关系,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和用户输入句子中的词之间能够进行时态变换,则相似度为0.2≤Qi<0.9;如果扩展后的差异词和用户输入句子中的词属于反义词关系,则相似度为0≤Qi<0.6。
13.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤E中,英语熟练度权值是根据文献第一作者或通讯作者所在国家不同,为文献设定不同的权值,英语母语国家的第一作者或通讯作者英语熟练度权值Qc=1,非英语母语国家的第一作者或通讯作者英语熟练度权值设定为0-1之间的数值。
14.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤E中,根据用户输入的关键词,计算机对文献的关键词进行匹配,根据关键词的匹配程度设定该文献的关键词权值,如果用户输入的关键词全部被文献的关键词包含,则是完全匹配,匹配权值为1,匹配到关键词的数量越少,则权值越低,关键词权值Qg为:Qg=T/N,其中,N为用户输入的关键词个数,T为文献关键词包含用户关键词的个数,Qg为文献关键词权值。
15.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤F中,两个句子最终的相似度Q为:Q=fs×Qs+fg×Qg+fc×Qc其中,fs为句子主要成份相似度Qs在最终相似度Q计算中占的权值,0<fs<1;fg为关键词权值Qg在最终相似度Q计算中占的权值,0<fg<1;fc为第一作者或通讯作者英语熟练度权值Qc在最终相似度Q计算中占的权值,0<fc<1。
16.根据权利要求1所述的一种从学术文献中提取语义相似且语法规范句子的方法,其特征在于,所述步骤D中,用户输入的句子是语法正确的,或语法不正确的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510421798.1A CN105677634B (zh) | 2015-07-18 | 2015-07-18 | 一种从学术文献中提取语义相似且语法规范句子的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510421798.1A CN105677634B (zh) | 2015-07-18 | 2015-07-18 | 一种从学术文献中提取语义相似且语法规范句子的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677634A CN105677634A (zh) | 2016-06-15 |
CN105677634B true CN105677634B (zh) | 2018-07-10 |
Family
ID=56946927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510421798.1A Active CN105677634B (zh) | 2015-07-18 | 2015-07-18 | 一种从学术文献中提取语义相似且语法规范句子的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677634B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294639B (zh) * | 2016-08-01 | 2020-04-21 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN108132941B (zh) * | 2016-11-30 | 2021-03-26 | 北京国双科技有限公司 | 法律文献的关联关系的处理方法和装置 |
CN107066535A (zh) * | 2017-03-03 | 2017-08-18 | 中国人民解放军海军大连舰艇学院 | 一种基于时态和关键词查询的检索方法和系统 |
CN107123318B (zh) * | 2017-03-30 | 2020-05-08 | 河南工学院 | 一种基于输入法装置的外文写作学习系统 |
CN108090047B (zh) * | 2018-01-10 | 2022-05-24 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
CN108845983B (zh) * | 2018-05-08 | 2021-11-05 | 陕西师范大学 | 基于场景描述的语义评价方法 |
CN109284490B (zh) * | 2018-09-13 | 2024-02-27 | 长沙劲旅网络科技有限公司 | 一种文本相似度计算方法、装置、电子设备及存储介质 |
CN109284502B (zh) * | 2018-09-13 | 2024-02-13 | 广州财盟科技有限公司 | 一种文本相似度计算方法、装置、电子设备及存储介质 |
CN109284399B (zh) * | 2018-10-11 | 2022-03-15 | 深圳前海微众银行股份有限公司 | 相似度预测模型训练方法、设备及计算机可读存储介质 |
CN110309280B (zh) * | 2019-05-27 | 2021-11-09 | 重庆小雨点小额贷款有限公司 | 一种语料扩容方法及相关设备 |
CN110309263B (zh) * | 2019-06-06 | 2021-12-17 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
CN112632282B (zh) * | 2020-12-30 | 2021-11-19 | 中科院计算技术研究所大数据研究院 | 一种中英文论文数据分类与查询方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1107916C (zh) * | 1998-11-12 | 2003-05-07 | 英业达集团(上海)电子技术有限公司 | 写作辅助系统及方法 |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
CN104657344A (zh) * | 2013-11-21 | 2015-05-27 | 英业达科技有限公司 | 写作提示系统及其方法 |
-
2015
- 2015-07-18 CN CN201510421798.1A patent/CN105677634B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105677634A (zh) | 2016-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677634B (zh) | 一种从学术文献中提取语义相似且语法规范句子的方法 | |
Yosef et al. | Aida: An online tool for accurate disambiguation of named entities in text and tables | |
He et al. | CASIA@ QALD-3: A Question Answering System over Linked Data. | |
Habernal et al. | Semantic spaces for sentiment analysis | |
Novak et al. | Why is a document relevant? Understanding the relevance scores in cross-lingual document retrieval | |
Vilares et al. | On the feasibility of character n-grams pseudo-translation for Cross-Language Information Retrieval tasks | |
Hosseinzadeh Vahid et al. | A comparative study of online translation services for cross language information retrieval | |
Chen et al. | A node semantic similarity schema-matching method for multi-version Web Coverage Service retrieval | |
Aggarwal et al. | Cross-lingual natural language querying over the web of data | |
Zeng et al. | Linking entities in short texts based on a Chinese semantic knowledge base | |
Reddy et al. | Indic language machine translation tool: English to Kannada/Telugu | |
Datta et al. | Analysis of automatic evaluation metric on low-resourced language: BERTScore vs BLEU score | |
Avetisyan et al. | Cross-lingual plagiarism detection: Two are better than one | |
Bhattacharjee et al. | Automatic resolution of semantic heterogeneity in GIS: An ontology based approach | |
Stanković et al. | Indexing of textual databases based on lexical resources: a case study for Serbian | |
Sidhu et al. | Role of machine translation and word sense disambiguation in natural language processing | |
Martono et al. | Review implementation of linguistic approach in schema matching. | |
Stanković et al. | Improving document retrieval in large domain specific textual databases using lexical resources | |
Yin et al. | Modeling multi-prototype Chinese word representation learning for word similarity | |
Hinrichs et al. | Automatic Annotation and Manual Evaluation of the Diachronic German Corpus TüBa-D/DC. | |
Dastgheib et al. | Design and implementation of Persian spelling detection and correction system based on Semantic | |
Song et al. | RSpell: Retrieval-augmented Framework for Domain Adaptive Chinese Spelling Check | |
Alexeyevsky | Word sense disambiguation features for taxonomy extraction | |
Giang et al. | Experiments with query translation and re-ranking methods in Vietnamese-English bilingual information retrieval | |
Wushouer et al. | Building contemporary Uyghur grammatical information dictionary |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200423 Address after: 210000 19 / F, unit 1, building B3, science and technology innovation complex, No. 8, Jiangdong Street, Jialing, Jianye District, Nanjing City, Jiangsu Province Patentee after: Nanjing Zhongzhi Tengfei Aviation Technology Research Institute Co., Ltd Address before: 471000 2-602, building 1, No.6 Yingcai Road, Luolong District, Luoyang City, Henan Province Co-patentee before: Li Mo Patentee before: Sun Weiguo |