CN108733634A

CN108733634A - 参考文献的识别方法及识别装置

Info

Publication number: CN108733634A
Application number: CN201710260557.2A
Authority: CN
Inventors: 殷延伟; 严昌华
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2018-11-02

Abstract

本发明提供了一种参考文献的识别方法及识别装置。其中，一种参考文献的识别方法，包括：创建用于模型训练的训练集；根据训练集，采用stanford‑ner开源库训练参考文献识别模型；根据参考文献识别模型，自动识别参考文献。通过本发明的技术方案，实现了自动识别参考文献，方便、快捷，从而为科技工作者带来了极大的便利，有助于提高工作效率。

Description

参考文献的识别方法及识别装置

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种参考文献的识别方法，还涉及一种参考文献的识别装置。

背景技术

参考文献是对期刊论文引文进行统计和分析的重要信息源之一，是科技论文中的重要组成部分，反映论文作者的科学态度和论文具有真实、广泛的科学依据，也反映出该论文的起点和深度，能方便地把论文作者的成果与他人的成果区别开来，体现自身研究的创新性和创造性，由此参考文献的识别变得十分必要，而目前相关技术对于参考文献的识别大多为手工标注，过程十分繁琐。

因此，如何提供一种参考文献的智能识别方法，成为目前亟待解决的技术问题。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的一个目的在于提出了一种参考文献的识别方法。

本发明的另一个目的在于提出了一种参考文献的识别装置。

有鉴于此，本发明提出了一种参考文献的识别方法，包括：创建用于模型训练的训练集；根据训练集，采用stanford-ner开源库训练参考文献识别模型；根据参考文献识别模型，自动识别参考文献。

根据本发明的参考文献的识别方法，通过创建用于模型训练的训练集，为采用stanford-ner开源库训练参考文献识别模型提供了目标数据，在训练过程中，根据训练集不断调整参考文献识别模型的参数，以得到最满意的参考文献识别模型，在得到参考文献识别模型后，后续的文献识别不必手工标注，只需将需要识别的参考文献带入模型即可自动识别，确保参考文献格式的规范性、防止出现遗漏，从而为科技工作者带来了极大的便利，有助于提高工作效率。

另外，根据本发明上述的参考文献的识别方法，还可以具有如下附加的技术特征：

在上述技术方案中，优选地，创建用于模型训练的训练集的具体步骤，包括：对多条参考文献按类别进行手工标注；对标注后的多条参考文献进行数据格式的训练；将数据格式训练完成后的多条参考文献作为训练集。

在该技术方案中，通过对多条参考文献按类别进行手工标注，并对标注后的多条参考文献进行数据格式的训练，从而得到符合需求的训练集，在模型训练过程中，该训练集作为不断调整参考文献识别模型的参数的目标数据，为训练最佳模型提供了依据。

在上述任一技术方案中，优选地，对多条参考文献按类别进行手工标注，具体包括：手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码。

在该技术方案中，应用标注符号手工标注参考文献中涉及的各个类别，其中，类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等，标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的，使用F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码。

在上述任一技术方案中，优选地，对标注后的多条参考文献进行数据格式的训练，具体包括：将参考文献中每个单词独立成行，Tab后跟类别的标注符号。

在该技术方案中，通过将参考文献中每个单词独立成行，Tab后跟类别的标注符号的方式，训练每条参考文献的数据格式，使得训练集中的每条数据的格式一致，从而为训练参考文献识别模型，提供可靠、标注的目标数据。

在上述任一技术方案中，优选地，还包括：根据训练集，采用stanford-ner开源库训练参考文献识别模型的具体步骤，包括：设置配置文件，配置文件用于配置参考文献识别模型的参数；按照stanford-ner开源库的程序算法，执行模型训练命令，并根据训练集不断调整参考文献识别模型的参数。

在该技术方案中，通过设置配置文件，配置参考文献识别模型的各个参数，按照stanford-ner开源库的程序算法进行训练，并根据训练集不断调整参考文献识别模型的参数，直到得到最佳训练模型，从而能够智能、精准识别参考文献。

本发明还提出一种参考文献的识别装置，包括：训练集创建单元，用于创建用于模型训练的训练集；模型创建单元，用于根据训练集，采用stanford-ner开源库训练参考文献识别模型；识别单元，根据参考文献识别模型，自动识别参考文献。

根据本发明的参考文献的识别装置，通过创建用于模型训练的训练集，为采用stanford-ner开源库训练参考文献识别模型提供了目标数据，在训练过程中，根据训练集不断调整参考文献识别模型的参数，以得到最满意的参考文献识别模型，在得到参考文献识别模型后，后续的文献识别不必手工标注，只需将需要识别的参考文献带入模型即可自动识别，确保参考文献格式的规范性、防止出现遗漏，从而为科技工作者带来了极大的便利，有助于提高工作效率。

另外，根据本发明上述的参考文献的识别装置，还可以具有如下附加的技术特征：

在上述技术方案中，优选地，训练集创建单元，具体包括：标注单元，用于对多条参考文献按类别进行手工标注；格式训练单元，用于对标注后的多条参考文献进行数据格式的训练；将数据格式训练完成后的多条参考文献作为训练集。

在上述任一技术方案中，优选地，标注单元，具体用于：手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码。

在上述任一技术方案中，优选地，格式训练单元，具体用于：将参考文献中每个单词独立成行，Tab后跟类别的标注符号。

在上述任一技术方案中，优选地，模型创建单元，具体用于：设置配置文件，配置文件用于配置参考文献识别模型的参数；按照stanford-ner开源库的程序算法，执行模型训练命令，并根据训练集不断调整参考文献识别模型的参数。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明的一个实施例的参考文献的识别方法的流程示意图；

图2示出了根据本发明的另一个实施例的参考文献的识别方法的流程示意图；

图3示出了根据本发明的再一个实施例的参考文献的识别方法的流程示意图；

图4示出了根据本发明的又一个实施例的参考文献的识别方法的流程示意图；

图5示出了根据本发明的第五个实施例的参考文献的识别方法的流程示意图；

图6示出了根据本发明的一个实施例的参考文献的识别装置的示意框图；

图7示出了根据本发明的另一个实施例的参考文献的识别装置的示意框图；

图8示出了根据本发明的一个实施例的参考文献的识别结果的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，根据本发明的一个实施例的参考文献的识别方法的流程示意图。其中，该识别方法包括：

步骤102，创建用于模型训练的训练集；

步骤104，根据训练集，采用stanford-ner开源库训练参考文献识别模型；

步骤106，根据参考文献识别模型，自动识别参考文献。

在该实施例中，通过创建用于模型训练的训练集，为采用stanford-ner开源库训练参考文献识别模型提供了目标数据，在训练过程中，根据训练集不断调整参考文献识别模型的参数，以得到最满意的参考文献识别模型，在得到参考文献识别模型后，后续的文献识别不必手工标注，只需将需要识别的参考文献带入模型即可自动识别，确保参考文献格式的规范性、防止出现遗漏，从而为科技工作者带来了极大的便利，有助于提高工作效率。

如图2所示，根据本发明的另一个实施例的参考文献的识别方法的流程示意图。其中，该识别方法包括：

步骤202，对多条参考文献按类别进行手工标注；

步骤204，对标注后的多条参考文献进行数据格式的训练；将数据格式训练完成后的多条参考文献作为训练集；

步骤206，根据训练集，采用stanford-ner开源库训练参考文献识别模型；

步骤208，根据参考文献识别模型，自动识别参考文献。

在该实施例中，通过对多条参考文献按类别进行手工标注，并对标注后的多条参考文献进行数据格式的训练，从而得到符合需求的训练集，在模型训练过程中，该训练集作为不断调整参考文献识别模型的参数的目标数据，为训练最佳模型提供了依据。

如图3所示，根据本发明的再一个实施例的参考文献的识别方法的流程示意图。其中，该识别方法包括：

步骤302，手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码；

步骤304，对标注后的多条参考文献进行数据格式的训练；将数据格式训练完成后的多条参考文献作为训练集；

步骤306，根据训练集，采用stanford-ner开源库训练参考文献识别模型；

步骤308，根据参考文献识别模型，自动识别参考文献。

在该实施例中，应用标注符号手工标注参考文献中涉及的各个类别，其中，类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等，标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的，使用F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码。

如图4所示，根据本发明的又一个实施例的参考文献的识别方法的流程示意图。其中，该识别方法包括：

步骤402，手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码；

步骤404，将参考文献中每个单词独立成行，Tab后跟类别的标注符号；将数据格式训练完成后的多条参考文献作为训练集；

步骤406，根据训练集，采用stanford-ner开源库训练参考文献识别模型；

步骤408，根据参考文献识别模型，自动识别参考文献。

在该实施例中，通过将参考文献中每个单词独立成行，Tab后跟类别的标注符号的方式，训练每条参考文献的数据格式，使得训练集中的每条数据的格式一致，从而为训练参考文献识别模型，提供可靠、标注的目标数据。

如图5所示，根据本发明的第五个实施例的参考文献的识别方法的流程示意图。其中，该识别方法包括：

步骤502，手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码；

步骤504，将参考文献中每个单词独立成行，Tab后跟类别的标注符号；将数据格式训练完成后的多条参考文献作为训练集；

步骤506，设置配置文件，配置文件用于配置参考文献识别模型的参数；

步骤508，按照stanford-ner开源库的程序算法，执行模型训练命令，并根据训练集不断调整参考文献识别模型的参数；

步骤510，根据参考文献识别模型，自动识别参考文献。

在该实施例中，通过设置配置文件，配置参考文献识别模型的各个参数，按照stanford-ner开源库的程序算法进行训练，并根据训练集不断调整参考文献识别模型的参数，直到得到最佳训练模型，从而能够智能、精准识别参考文献。

如图6所示，根据本发明的一个实施例的参考文献的识别装置的示意框图。其中，该识别装置包括：

训练集创建单元602，用于创建用于模型训练的训练集；

模型创建单元604，用于根据训练集，采用stanford-ner开源库训练参考文献识别模型；

识别单元606，根据参考文献识别模型，自动识别参考文献。

如图7所示，根据本发明的另一个实施例的参考文献的识别装置的示意框图。其中，该识别装置包括：

训练集创建单元702，具体包括：

标注单元7022，用于对多条参考文献按类别进行手工标注；

格式训练单元7024，用于对标注后的多条参考文献进行数据格式的训练；将数据格式训练完成后的多条参考文献作为训练集；

模型创建单元704，用于根据训练集，采用stanford-ner开源库训练参考文献识别模型；

识别单元606，根据参考文献识别模型，自动识别参考文献。

在上述任一实施例中，优选地，标注单元7022，具体用于：手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中F标注姓，N标注名，O表示未标注，SOURCE标注来源，TITLE标注标题，VOLUME标注卷号，PUBLICATIONNUM标注刊号，PAGENUM标注起始终至页码。

在上述任一实施例中，优选地，格式训练单元7024，具体用于：将参考文献中每个单词独立成行，Tab后跟类别的标注符号。

在上述任一实施例中，优选地，模型创建单元704，具体用于：设置配置文件，配置文件用于配置参考文献识别模型的参数；按照stanford-ner开源库的程序算法，执行模型训练命令，并根据训练集不断调整参考文献识别模型的参数。

具体实施例，参考文献智能识别，实现步骤如下：

1.下载Stanford NER开源库，解压到stanford-ner文件夹。http://nlp.stanford.edu/software/CRF-NER.shtml#Download

2.训练分类器模型

人工标注，如原文：Cao Hequan,Zhang Guangming,Sun Sujie,et al..Statusand development of protection technologyof armored vehicles[J].ActaArmamentarii,2012,33(12):1549-1554.

标注：F表示类别(姓)，N表示类别(名)，O表示未标注，SOURCE表示类别(来源)，TITLE表示类别(标题)，VOLUME表示类别(卷号)，PUBLICATIONNUM表示类别(刊号)，PAGENUM表示类别(起始终至页码)。

训练数据格式如下：

生成训练集testdata.tsv，设置配置文件如austen.prop；其中trainFile＝testdata.tsv指定了用于训练的数据，serializeTo＝ner-model.ser.gz指定了输出model的名字，其余参数也均有注释说明；将该配置文件austen.prop和训练数据testdata.tsv都放到stanford-ner文件夹中。

cmd中将当前目录切换到stanford-ner文件夹，并执行命令：

java-cp stanford-ner.jar；slf4j-api-1.7.21.jar；slf4j-sim

ple-1.7.21.jar edu.stanford.nlp.ie.crf.CRFClassifier-prop austen.prop

值得注意的是，需要把lib目录下的slf4j-api.jar和slf4j-simple.jar拷贝到stanford-ner目录下。

3.使用分类器模型，自动识别科技论文中的参考文献，识别结果如图8所示。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种参考文献的识别方法，其特征在于，包括：

创建用于模型训练的训练集；

根据所述训练集，采用stanford-ner开源库训练参考文献识别模型；

根据所述参考文献识别模型，自动识别所述参考文献。

2.根据权利要求1所述的参考文献的识别方法，其特征在于，所述创建用于模型训练的训练集的具体步骤，包括：

对多条所述参考文献按类别进行手工标注；

对标注后的多条所述参考文献进行数据格式的训练；

将所述数据格式训练完成后的多条所述参考文献作为所述训练集。

3.根据权利要求2所述的参考文献的识别方法，其特征在于，所述对多条所述参考文献按类别进行手工标注，具体包括：

手工标注所述参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码，其中

F标注所述姓，N标注所述名，O表示未标注，SOURCE标注所述来源，TITLE标注所述标题，VOLUME标注所述卷号，PUBLICATIONNUM标注所述刊号，PAGENUM标注所述起始终至页码。

4.根据权利要求2所述的参考文献的识别方法，其特征在于，所述对标注后的多条所述参考文献进行数据格式的训练，具体包括：

将所述参考文献中每个单词独立成行，Tab后跟所述类别的标注符号。

5.根据权利要求1所述的参考文献的识别方法，其特征在于，所述根据所述训练集，采用stanford-ner开源库训练参考文献识别模型的具体步骤，包括：

设置配置文件，所述配置文件用于配置所述参考文献识别模型的参数；

按照所述stanford-ner开源库的程序算法，执行模型训练命令，并根据所述训练集不断调整所述参考文献识别模型的参数。

6.一种参考文献的识别装置，其特征在于，包括：

训练集创建单元，用于创建用于模型训练的训练集；

模型创建单元，用于根据所述训练集，采用stanford-ner开源库训练参考文献识别模型；

识别单元，根据所述参考文献识别模型，自动识别所述参考文献。

7.根据权利要求6所述的参考文献的识别装置，其特征在于，所述训练集创建单元，具体包括：

标注单元，用于对多条所述参考文献按类别进行手工标注；

格式训练单元，用于对标注后的多条所述参考文献进行数据格式的训练；将所述数据格式训练完成后的多条所述参考文献作为所述训练集。

8.根据权利要求7所述的参考文献的识别装置，其特征在于，所述标注单元，具体用于：

9.根据权利要求7所述的参考文献的识别装置，其特征在于，所述格式训练单元，具体用于：

10.根据权利要求6所述的参考文献的识别装置，其特征在于，所述模型创建单元，具体用于：