CN111125381B

CN111125381B - 参考文献关键信息的识别方法、装置、设备及存储介质

Info

Publication number: CN111125381B
Application number: CN201811295095.9A
Authority: CN
Inventors: 王丹
Original assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2023-08-11
Anticipated expiration: 2038-11-01
Also published as: CN111125381A

Abstract

本发明公开了一种参考文献关键信息的识别方法、装置、设备及存储介质，获取待识别参考文献条目，按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定所述待识别参考文献条目的类型为止，采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。本发明的方案中，建立了一套标引参考文献类库，并合理设定该标引参考文献类库中各识别模型的执行顺序，以高效定位每个参考文献条目识别拆分过程所使用的识别模型，过程的清晰性有效避免了不同类型参考文献条目识别拆分的相互干扰，识别拆分的效率和准确度大幅度提升，从而有利于参考文献的结构化。

Description

参考文献关键信息的识别方法、装置、设备及存储介质

技术领域

本发明涉及科技期刊排版领域，尤其涉及一种参考文献关键信息的识别方法、装置、设备及存储介质。

背景技术

参考文献是论文的重要组成部分，在各种论文中都不可避免的要引述在先公开的参考文献以帮助阅读者理解论文的背景知识。

参考文献有多种类型，例如：专著、论文集、报纸文章、期刊文章、学位论文、报告、标准、专利等。一般引述参考文献时需要提供参考文献的作者(author)、标题(title)、出版者(publisher)，即该著作在何处公开发表，出版页码(publishpage)、出版日期(publishyear)等信息。由于参考文献条目类型的多样化，会存在各种类型参考文献条目中各关键信息的编排顺序、方式不同，使得在对论文进行结构化时，参考文献条目中各关键信息识别拆分的准确度显得尤为重要。

现有技术中，一般采用机器学习和正则匹配相结合的方式对参考文献条目的各关键信息进行识别和拆分，但不同类型参考文献条目的识别拆分存在相互干扰，因此识别拆分的效率较低，识别拆分的准确度也较低。

发明内容

有鉴于此，本发明实施例提供了一种参考文献关键信息的识别方法、装置、设备及存储介质，以能够提高对参考文献的各关键信息识别拆分的效率和准确度。

第一方面，本发明实施例提供了一种参考文献关键信息的识别方法，包括：

获取待识别参考文献条目；

按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定所述待识别参考文献条目的类型为止；

采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，所述识别模型包括作者关键信息识别模型；

所述采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注，具体包括：

采用作者关键信息识别模型识别所述作者关键信息的位置，以进行作者关键信息的拆分和标注；

根据所述待识别参考文献条目的类型确定每个关键信息的顺序；

按照所述每个关键信息的顺序通过正则匹配算法确定除所述作者关键信息外的其他每个关键信息的位置；

根据除所述作者关键信息外的其他每个关键信息的位置对所述除所述作者关键信息外的其他每个关键信息进行拆分和标注。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，所述采用作者关键信息识别模型识别所述作者关键信息的位置，具体包括：

采用百家姓匹配算法相结合训练后的NER模型，识别所述作者关键信息的位置。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，所述采用百家姓匹配算法相结合训练后的NER模型，识别所述作者关键信息的位置，具体包括：

采用百家姓匹配算法识别所述作者关键信息，以确定所述作者关键信息的位置；

若不能识别出所述作者关键信息，则采用所述训练后的NER模型识别所述作者关键信息的位置。

结合第一方面至第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，所述采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注之后，还包括：

将标注后的关键信息转化为符合JATS标准的XML数据。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，还包括：

若所述待识别参考文献条目为中英文混合条目，则将所述待识别参考文献条目拆分成符合标准的中文单条参考文献条目和英文单条参考文献条目；

分别将所述中文单条参考文献条目和英文单条参考文献条目作为所述待识别参考文献条目。

第二方面，本发明实施例提供了一种参考文献关键信息的识别装置，包括：

获取模块，用于获取待识别参考文献条目；

识别模块，用于按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定所述待识别参考文献条目的类型为止；

标注模块，用于采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，所述识别模型包括作者关键信息识别模型；

所述标注模块，包括：

作者关键信息标注单元，用于采用作者关键信息识别模型识别所述作者关键信息的位置，以进行作者关键信息的拆分和标注；

其他关键信息标注单元，用于根据所述待识别参考文献条目的类型确定每个关键信息的顺序；按照所述每个关键信息的顺序通过正则匹配算法确定除所述作者关键信息外的其他每个关键信息的位置；根据除所述作者关键信息外的其他每个关键信息的位置对所述除所述作者关键信息外的其他每个关键信息进行拆分和标注。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，所述作者关键信息标注单元，具体用于采用百家姓匹配算法相结合训练后的NER模型，识别所述作者关键信息的位置。

结合第二方面的第二种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，所述作者关键信息标注单元，具体用于采用百家姓匹配算法识别所述作者关键信息，以确定所述作者关键信息的位置；若不能识别出所述作者关键信息，则采用所述训练后的NER模型识别所述作者关键信息的位置。

结合第二方面至第二方面的第四种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，还包括：转化模块，用于在所述标注模块采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注之后，将标注后的关键信息转化为符合JATS标准的XML数据。

结合第二方面，本发明实施例提供了第二方面的第五种可能的实施方式，还包括：混合条目拆分模块，用于若所述待识别参考文献条目为中英文混合条目，则将所述待识别参考文献条目拆分成符合标准的中文单条参考文献条目和英文单条参考文献条目；分别将所述中文单条参考文献条目和英文单条参考文献条目作为所述待识别参考文献条目。

第三方面，本发明实施例提供了一种参考文献关键信息的识别设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

其中，所述处理器执行所述存储器中的计算机程序，以实现上述第一方面至第一方面的第五种可能的实施方式中所述的方法。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述第一方面至第一方面的第五种可能的实施方式中所述的方法。

本发明提供的参考文献关键信息的识别方法、装置、设备及存储介质，获取待识别参考文献条目，按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定所述待识别参考文献条目的类型为止，采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。本发明的方案中，建立了一套标引参考文献类库，并合理设定该标引参考文献类库中各识别模型的执行顺序，以高效定位每个参考文献条目识别拆分过程所使用的识别模型，过程的清晰性有效避免了不同类型参考文献条目识别拆分的相互干扰，识别拆分的效率和准确度大幅度提升，从而有利于参考文献的结构化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的参考文献关键信息的识别方法的流程示意图；

图1A为本发明实施例一提供的标引参考文献类库的示意图；

图2为本发明实施例二提供的参考文献关键信息的识别方法的流程示意图；

图2A为本发明实施例二中步骤S103的流程示意图；

图3为本发明实施例三提供的参考文献关键信息的识别装置的结构示意图；

图4为本发明实施例四提供的参考文献关键信息的识别装置的结构示意图

图5为本发明实施例五提供的参考文献关键信息的识别设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的参考文献关键信息的识别方法的流程示意图。实际应用中，本实施例的执行主体可以为参考文献关键信息的识别装置，该参考文献关键信息的识别装置可以集成在参考文献关键信息的识别设备上。在实际应用中，该参考文献关键信息的识别装置可以通过虚拟装置，例如软件代码实现，也可以通过写入有相关执行代码的实体装置，例如，U盘实现，再或者，也可以通过集成有相关执行代码的实体装置实现，例如，智能终端、各式电脑等。如图1所示，本实施例提供的方法可以包括以下步骤：

S101、获取待识别参考文献条目。

实际应用中，参考文献是论文的重要组成部分，参考文献中可以包括多条参考文献条目，根据相关规定，参考文献条目类型及标识可以是专著M、报纸文章N、期刊文章J、学位论文D、科技报告R、技术标准S、专利文献P等。每一参考文献条目中包括多个关键信息，如期刊文章J参考文献条目中包括：作者、文献标题、来源、期刊类型、期刊年、卷、期号、起始页、终止页等。例如：“金显贺，王昌长，王忠东，等.一种用于在线检测局部放电的数字滤波技术[J].清华大学学报(自然科学版)，1993，33⑷：62-67.”

具体地，参考文献关键信息的识别装置首先获取待识别参考文献条目，获取的方式可以为自动识别获取，也可以是用户输入。

S102、按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定所述待识别参考文献条目的类型为止。

具体地，首先该参考文献关键信息的识别装置中建立有一套标引参考文献类库，该标引参考文献类库中包括多个识别模型，每个识别模型可以对应识别一种参考文献条目的类型，如图1A所示。按照参考文献类型由大到小的出现概率对识别模型的执行顺序进行排列，例如按J、M、D、R的顺序排列对应的识别模型的执行顺序，将待识别参考文献条目依次输入到每个识别模型中进行类型识别，直到某识别模型确定该待识别参考文献条目的类型为止，如上述参考文献条目中有“J”标识，则第一位的J对应的识别模型将其识别，此时不再继续执行类型识别。

S103、采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。

具体地，每种类型的识别模型都按照作者、文献标题、来源等各关键信息出现的顺序，优化了正则匹配的执行流程，并进行了机器学习训练。通过训练好的对应类型的识别模型对该待识别参考文献条目进行关键信息的拆分和标注，例如将“金显贺，王昌长，王忠东”分别标注为作者，将“一种用于在线检测局部放电的数字滤波技术”标注为文献标题，将“清华大学学报(自然科学版)”标注为来源。

本实施例提供的参考文献关键信息的识别方法，获取待识别参考文献条目，按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定所述待识别参考文献条目的类型为止，采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。本方案中，建立了一套标引参考文献类库，并合理设定该标引参考文献类库中各识别模型的执行顺序，以高效定位每个参考文献条目识别拆分过程所使用的识别模型，过程的清晰性有效避免了不同类型参考文献条目识别拆分的相互干扰，识别拆分的效率和准确度大幅度提升，从而有利于参考文献的结构化。

实施例二

图2为本发明实施例二提供的参考文献关键信息的识别方法的流程示意图，如图2所示，在上述实施例一的基础上，本实施例中，识别模型包括作者关键信息识别模型。

相应的，上述步骤S103，如图2A所示，可以具体包括：

S103a、采用作者关键信息识别模型识别作者关键信息的位置，以进行作者关键信息的拆分和标注。

具体地，实际应用中，可以采用百家姓匹配算法相结合训练后的NER模型，识别作者关键信息的位置。更具体地，可以采用百家姓匹配算法识别作者关键信息，以确定作者关键信息的位置。若不能识别出作者关键信息，则采用训练后的NER模型识别作者关键信息的位置。优选的，将期刊论文的一部分作为训练数据，标记大量的作者信息文本，进行NER模型的训练，数据量越大，后期使用训练后的NER模型识别作者关键信息的准确率越高。

本步骤中，首先使用百家姓匹配算法识别作者关键信息，当参考文献条目中存在百家姓包括的姓氏时，可以快速识别出作者关键信息的位置，若参考文献条目中不存在百家姓包括的姓氏时，则可以使用训练后的NER模型准确识别出作者关键信息的位置。

S103b、根据待识别参考文献条目的类型确定每个关键信息的顺序。

具体地，根据相关规定，每一参考文献条目中的多个关键信息按照规定的顺序编排，因此可以根据待识别参考文献条目的类型确定每个关键信息的顺序。

S103c、按照每个关键信息的顺序通过正则匹配算法确定除作者关键信息外的其他每个关键信息的位置。

具体地，当确定待识别参考文献条目的类型对应的关键信息的顺序后，可以通过正则匹配算法确定除作者关键信息外的其他每个关键信息的位置，正则匹配算法采用相关技术，在此不再赘述。

S103d、根据除作者关键信息外的其他每个关键信息的位置对除作者关键信息外的其他每个关键信息进行拆分和标注。

一种优选的实施方式中，步骤S103之后，还可以包括：

S201、将标注后的关键信息转化为符合JATS标准的XML数据。

具体地，对每个关键信息进行准确标注后，可以将标注后的关键信息进行结构化，优选的，转化为符合JATS标准的XML数据。

另一种优选的实施方式中，本实施例提供的方法，还可以包括：

S202、若待识别参考文献条目为中英文混合条目，则将待识别参考文献条目拆分成符合标准的中文单条参考文献条目和英文单条参考文献条目。

S203、分别将中文单条参考文献条目和英文单条参考文献条目作为待识别参考文献条目。

本实施方式中，对于中英文混合条目，首先进行拆分，拆分为单条参考文献条目，然后再进行上述关键信息的拆分识别步骤，最后拆分识别的结果进行重组输出，保证复杂的参考文献条目的拆分识别准确度。值得一提的是，混合条目参考文献中的单条参考文献条目的拆分标注输出后需要进一步处理，属于同一标注内容的相邻的中英文条目信息需要进行合并，添加符合标准的混合标签节点，并将两个相关的单条信息并列输出到这个节点下，后续删除其他无用的单条信息中的节点内容，如空格等无用信息。

本实施例提供的参考文献关键信息的识别方法，通过采用百家姓匹配算法相结合训练后的NER模型，可以精确识别作者关键信息的位置，根据作者关键信息的位置，通过正则匹配算法确定除作者关键信息外的其他每个关键信息的位置，提高了关键信息识别的准确性，进而提高了拆分标注的准确性。对于中英文混合条目，首先拆分成单条参考文献条目，然后再进行关键信息的拆分识别，保证了复杂的参考文献条目的拆分识别准确度，过程的清晰性有效避免了不同类型参考文献条目识别拆分的相互干扰，识别拆分的效率和准确度大幅度提升，从而有利于参考文献的结构化。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

实施例三

图3为本发明实施例三提供的参考文献关键信息的识别装置的结构示意图，如图3所示，该装置包括：

获取模块310，用于获取待识别参考文献条目。

识别模块320，用于按照标引参考文献类库中每个识别模型对应的文献类型由大到小的出现概率依次输入到每个识别模型中进行类型识别，直到某识别模型确定待识别参考文献条目的类型为止。

标注模块330，用于采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注。

上述各个模块的具体执行方式和有益效果与图1对应的实施例中的描述类似，在这里不再赘述。

实施例四

图4为本发明实施例四提供的参考文献关键信息的识别装置的结构示意图，如图4所示，在上述实施例三的基础上，本实施例中，识别模型包括作者关键信息识别模型。

标注模块330，包括：

作者关键信息标注单元331，用于采用作者关键信息识别模型识别作者关键信息的位置，以进行作者关键信息的拆分和标注。

其他关键信息标注单元332，用于根据待识别参考文献条目的类型确定每个关键信息的顺序。按照每个关键信息的顺序通过正则匹配算法确定除作者关键信息外的其他每个关键信息的位置。根据除作者关键信息外的其他每个关键信息的位置对除作者关键信息外的其他每个关键信息进行拆分和标注。

优选的，作者关键信息标注单元331，具体用于采用百家姓匹配算法相结合训练后的NER模型，识别作者关键信息的位置。

优选的，作者关键信息标注单元331，具体用于采用百家姓匹配算法识别作者关键信息，以确定作者关键信息的位置。若不能识别出作者关键信息，则采用训练后的NER模型识别作者关键信息的位置。

优选的，该装置还包括：

转化模块340，用于在标注模块采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注之后，将标注后的关键信息转化为符合JATS标准的XML数据。

优选的，该装置还包括：

混合条目拆分模块350，用于若待识别参考文献条目为中英文混合条目，则将待识别参考文献条目拆分成符合标准的中文单条参考文献条目和英文单条参考文献条目。分别将中文单条参考文献条目和英文单条参考文献条目作为待识别参考文献条目。

上述各个模块的具体执行方式和有益效果与图2对应的实施例中的描述类似，在这里不再赘述。

实施例五

图5为本发明实施例五提供的参考文献关键信息的识别设备的结构示意图。如图5所示，该设备包括：存储器510和处理器520。

存储器510，用于存储计算机程序。

其中，处理器520执行存储器510中的计算机程序，以实现上述实施例一和实施例二中的方法。

实施例六

本发明实施例六提供一种计算机存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时用于实现上述实施例一和实施例二中的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种参考文献关键信息的识别方法，其特征在于，包括：

获取待识别参考文献条目；

采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注；

所述识别模型包括作者关键信息识别模型；

2.根据权利要求1所述的方法，其特征在于，所述采用作者关键信息识别模型识别所述作者关键信息的位置，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述采用百家姓匹配算法相结合训练后的NER模型，识别所述作者关键信息的位置，具体包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注之后，还包括：

将标注后的关键信息转化为符合JATS标准的XML数据。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种参考文献关键信息的识别装置，其特征在于，包括：

获取模块，用于获取待识别参考文献条目；

标注模块，用于采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注；

所述识别模型包括作者关键信息识别模型；

所述标注模块，包括：

7.根据权利要求6所述的装置，其特征在于，

所述作者关键信息标注单元，具体用于采用百家姓匹配算法相结合训练后的NER模型，识别所述作者关键信息的位置。

8.根据权利要求7所述的装置，其特征在于，

所述作者关键信息标注单元，具体用于采用百家姓匹配算法识别所述作者关键信息，以确定所述作者关键信息的位置；若不能识别出所述作者关键信息，则采用所述训练后的NER模型识别所述作者关键信息的位置。

9.根据权利要求6-8任一项所述的装置，其特征在于，还包括：

转化模块，用于在所述标注模块采用确定类型的识别模型对待识别参考文献条目进行关键信息的拆分和标注之后，将标注后的关键信息转化为符合JATS标准的XML数据。

10.根据权利要求6所述的装置，其特征在于，还包括：

混合条目拆分模块，用于若所述待识别参考文献条目为中英文混合条目，则将所述待识别参考文献条目拆分成符合标准的中文单条参考文献条目和英文单条参考文献条目；分别将所述中文单条参考文献条目和英文单条参考文献条目作为所述待识别参考文献条目。

11.一种参考文献关键信息的识别设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

其中，所述处理器执行所述存储器中的计算机程序，以实现如权利要求1-5中任一项所述的方法。

12.一种计算机存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-5中任一项所述的方法。