CN113268616B

CN113268616B - 参考文献内容提取方法和装置

Info

Publication number: CN113268616B
Application number: CN202110572882.9A
Authority: CN
Inventors: 王丹; 关燕妮
Original assignee: Beijing Founder Electronics Co Ltd
Current assignee: Beijing Founder Electronics Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-08-22
Anticipated expiration: 2041-05-25
Also published as: CN113268616A

Abstract

本申请提供一种参考文献内容提取方法和装置。该方法包括：服务器获取待提取参考文献。其中，每一条待提取参考文献中包括参考文献的引文和第一编码。服务器将待提取参考文献中的第一编码输入到文献预测模型中。文献预测模型根据一第一编码，预测其对应的第二编码。服务器根据第一编码对参考文献进行分段，得到多个字段。服务器根据第二编码确定每一字段的标签。服务器通过合并连续且相同的标签，确定最终提取结果。本申请的方法，提高了参考文献提取的效率，提高了参考文献的提取过程的自动化和智能化。

Description

参考文献内容提取方法和装置

技术领域

本申请涉及计算机领域，尤其涉及一种参考文献内容提取方法和装置。

背景技术

参考文献是论文的重要组成部分，每一条目的参考文献中包含了被引用文献的元数据信息。该元数据信息可以包括编号、作者、标题、出版者、年份、页码、卷号等字段。然而，在参考文献生成过程中，不同类型的被引用文献或者来自不同数据库的被引用文献，通常具有不同的数据局格式。当服务器需要提取参考文献中的内容时，不同的格式使该参考文献中的内容无法被直接提取。

在论文中，每一条目的参考文献通常由字符串组成，其中可以包括汉字、字母、数字、符号等。该字符串本身不具有结构化的信息。因此，服务器需要对该字符串中的内容进行提取，以实现元数据信息的获取。现有技术中，管理员可以根据参考文献的格式，针对该参考文献制定对应的正则表达式。服务器使用该正则表达式从该参考文献中提取元数据信息，实现该元数据信息的结构化提取。

然而，该正则表达式提取方法需要在确定参考文献格式的情况下，有针对性的制定正则表达式。该方法通常无法实现大批量参考文献内容的自动提取，存在提取效率低的问题。

发明内容

本申请提供一种参考文献内容提取方法和装置，用以解决参考文献提取效率低的问题。

第一方面，本申请提供一种参考文献内容提取方法，包括：

获取待提取参考文献，所述待提取参考文献包括参考文献的引文和第一编码，所述第一编码为服务器根据所述引文的字符串生成的字符串编码；

使用文献预测模型对所述待提取参考文献进行预测，得到所述待提取参考文献的第二编码，所述第二编码用于指示所述第一编码中每一字符对应的标签信息；

根据所述待提取参考文献和所述第二编码，提取所述待提取参考文献的内容。

可选地，所述获取待提取参考文献，包括：

获取所述待提取参考文献，所述待提取参考文献包括参考文献的引文，所述引文为字符串；

根据所述引文中各个字符的字符类型，将所述引文划分为多个字段，每一所述字段中包括一个或者多个字符；

根据每一所述字段中字符的字符类型，确定所述字段对应的编码；

根据各个所述字段对应的所述编码，确定所述待提取参考文献对应的第一编码。

可选地，所述方法，还包括：

当所述待提取参考文献的所述引文中包括杂质符号时，将所述杂质符号从所述待提取参考文献中剔除。

可选地，所述根据所述待提取参考文献和所述第二编码，提取所述待提取参考文献的内容，包括：

根据所述第二编码将为每一所述字段打上对应的标签，所述标签为所述字段的字段名称；

当存在多个连续字段具有相同标签时，将标签相同且连续的多个所述字段合并为一个字段。

可选地，所述使用文献内容提取模型对所述待提取引文进行预测之前，所述方法，还包括：

获取参考文献数据集，所述参考文献数据集中包括不同格式的多条参考文献，以及每一参考文献对应标注的第一编码和第二编码；

使用维特比算法训练所述参考文献数据集，得到文献预测模型，所述文献预测模型用于根据一待提取参考文献的参考文献和第一编码，预测所述待提取参考文献的第二编码。

可选地，所述方法，还包括：

根据预设格式，输出所述待提取参考文献中对应字段的内容。

第二方面，本申请提供一种参考文献内容提取装置，包括：

获取模块，用于获取待提取参考文献，所述待提取参考文献包括参考文献的引文和第一编码，所述第一编码为服务器根据所述引文的字符串生成的字符串编码；

预测模块，用于使用文献预测模型对所述待提取参考文献进行预测，得到所述待提取参考文献的第二编码，所述第二编码用于指示所述第一编码中每一字符对应的标签信息；

提取模块，用于根据所述待提取参考文献和所述第二编码，提取所述待提取参考文献的内容。

可选地，所述获取模块，包括：

获取子模块，用于获取所述待提取参考文献，所述待提取参考文献包括参考文献的引文，所述引文为字符串；

划分子模块，用于根据所述引文中各个字符的字符类型，将所述引文划分为多个字段，每一所述字段中包括一个或者多个字符；

确定子模块，用于根据每一所述字段中字符的字符类型，确定所述字段对应的编码；

编码子模块，用于根据各个所述字段对应的所述编码，确定所述待提取参考文献对应的第一编码。

可选地，所述获取模块，还包括：

剔除子模块，用于当所述待提取参考文献的所述引文中包括杂质符号时，将所述杂质符号从所述待提取参考文献中剔除。

可选地，所述提取模块，包括：

拆分子模块，用于根据所述第二编码将为每一所述字段打上对应的标签，所述标签为所述字段的字段名称；

标签子模块，用于当存在多个连续字段具有相同标签时，将标签相同且连续的多个所述字段合并为一个字段。

可选地，所述装置，还包括模型训练模块，具体用于获取参考文献数据集，所述参考文献数据集中包括不同格式的多条参考文献，以及每一参考文献对应标注的第一编码和第二编码；使用维特比算法训练所述参考文献数据集，得到文献预测模型，所述文献预测模型用于根据一待提取参考文献的参考文献和第一编码，预测所述待提取参考文献的第二编码。

可选地，所述装置，还包括输出模块，具体用于根据预设格式，输出所述待提取参考文献中对应字段的内容。

第三方面，本申请提供一种服务器，包括：存储器和处理器；存储器用于存储计算机程序；处理器用于调用存储器存储的计算机程序执行第一方面及第一方面任一种可能的设计中的参考文献内容提取方法。

第四方面，本申请提供一种可读存储介质，可读存储介质中存储有计算机程序，当服务器的至少一个处理器执行该计算机程序时，服务器执行第一方面及第一方面任一种可能的设计中的参考文献内容提取方法。

第五方面，本申请提供一种计算机程序产品，计算机程序产品包括计算机程序，当服务器的至少一个处理器执行该计算机程序时，服务器执行第一方面及第一方面任一种可能的设计中的参考文献内容提取方法。

本申请提供的参考文献内容提取方法和装置，通过获取待提取参考文献，每一条待提取参考文献中包括参考文献的引文和第一编码；将待提取参考文献中的第一编码输入到文献预测模型中，预测其对应的第二编码；根据第一编码对参考文献进行分段，得到多个字段；根据第二编码确定每一字段的标签；通过合并连续且相同的标签，确定最终提取结果的手段，实现提高了参考文献提取的效率，提高了参考文献的提取过程的自动化和智能化效果。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种参考文献的输出示意图；

图2为本申请一实施例提供的一种参考文献内容提取方法的流程图；

图3为本申请一实施例提供的一种参考文献示意图；

图4为本申请一实施例提供的一种标签类型示意图；

图5为本申请一实施例提供的另一种参考文献内容提取方法的流程图；

图6为本申请一实施例提供的一种参考文献数据集示意图；

图7为本申请一实施例提供的一种文献预测模型参数示意图；

图8为本申请一实施例提供的一种参考文献内容提取装置的结构示意图；

图9为本申请一实施例提供的另一种参考文献内容提取装置的结构示意图；

图10为本申请一实施例提供的一种服务器的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一编码也可以被称为第二编码，类似地，第二编码也可以被称为第一编码。再者，在本文中所使用的单数形式“一”、“一个”和“该”也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

参考文献是论文的重要组成部分，每一篇论文中通常可以包括一条或者多条参考文献。在一篇论文中这些参考文献的使用可以帮助作者阐明研究基础，为论证提供依据。对于读者而言，这些参考文献还可以引导读者更加便捷的获取其相关技术。在对多篇论文中，对这些参考文献的分析和统计还可以帮助了解学术发展的继承关系、预测学术发展的方向、论证论文的创新性和科学性等。

在每一条参考文献的引文中通常包含了被引用文献的元数据信息。该元数据信息可以包括编号、作者、标题、出版者、年份、页码、卷号等字段。参考文献所引用的内容的来源多种多样，例如专著、报纸、期刊、会议记录、电影片等。在同一篇论文中，或者同一期刊中，相同来源的参考文献通常具有相同的格式。而不同来源的参考文献则具有不同格式。例如，在期刊《计算机工程与应用》中专著类的参考文献的格式为“编号.作者.标题[类型].出版社.年份-页码”，或者会议类的参考文献的格式为“编号.作者.标题[类型].会议名称，年份；卷号：页码-页码”。而在不同的期刊，或者不同类型的文章中，参考文献的格式通常是不同的。例如，期刊《计算机工程与应用》中期刊类的参考文献的格式为“编号.作者，作者.标题[类型].期刊名称，年份；卷号：页码-页码”，期刊《Information Retrieval》中期刊类的参考文献的格式为“作者，作者.年份.标题.期刊名称，卷号：页码-页码.”。

每一条参考文献为一条引文，该引文具体表现为一个字符串。该字符串可以由不同类型的字符组成。其中，字符可以包括汉字、字母、数字、符号等。当服务器需要对多篇论文中的参考文献进行分析时，考虑到参考文献的不同格式，现有技术提出了一种使用正则表达式提取参考文献中内容的方法。管理员可以根据需要提取的参考文献的格式，有针对性的制定对应的正则表达式。该被制定的正则表达式可以通过字符匹配的方式提取该参考文献中的内容，进而实现对每一参考文献中元数据信息的结构化提取。

然而，该正则表达式提取方法要求被提取的字符串具有较高的一致性。针对具有不同格式的参考文献，管理员可能需要制定不同的正则表达式，以确保每一参考文献的元数据均能被全面和准确的提取。因此，在使用正则表达式对参考文献进行提取之前，服务器需要根据参考文献的格式，将参考文献分配给对应的正则表达式。在该过程中，如果参考文献出现新的格式，或者服务器将参考文献分配给错误的正则表达式，均可能导致该参考文献的内容无法被正确提取。可见，现有技术中，当存在大批量的参考文献需要进行提取时，可能需要管理员较多的介入。因此，现有技术存在参考文献提取的自动化程度低，提取效率低的问题。

针对上述问题，本申请提出了一种基于人工智能的参考文献内容提取方法。发明人在对大量的语义识别算法进行研究后，发现维特比算法是一种适用于本申请的算法。维特比算法是一种动态规划算法，通常用于寻找观测事件序列最有可能产生的隐含状态序列。目前，维特比算法已经被用于语音识别、关键字识别、计算语言学和生物信息学等研究中。例如，在语音识别中，声音信号作为观察到的事件序列，而文本字符串则被看作是隐含的产生声音信号的原因。此时，维特比算法被用于根据声音信号寻找最有可能的文本字符串。例如，在统计句法分析中，维特比算法可以用于发现最可能的上下文无关的派生(解析)的字符串。

在本申请中，待提取参考文献可以作为观测事件序列，而该参考文献的解析字符串则为隐含状态序列。然而，参考文献的字符串中包括了汉字、字母、数字、符号等。如果直接使用该参考文献进行识别，大量的字符的使用必然导致训练数据需求的增加。同时，待提取参考文献的长度与标题、会议名称、期刊名称等元数据信息的长度直接相关。长短变化较大的参考文献通常需要更多的训练数据。然而，在训练中，过多的训练数据不仅增加了训练数据的制备成本、模型的训练成本，而且容易增加训练过程的不可控性，增加模型的训练难度。

针对上述问题，本申请进一步对参考文献的引文内容进行了分析。本申请提出了一种将第一编码作为观测事件序列，第二编码作为隐含状态序列的方法。其中，第一编码的编码过程可以包括：服务器根据一条参考文献的字符串中的字符进行分段。每一字段中的字符类型相同。服务器根据各个字段中字符类型，将每一字段进行编码，并组成该参考文献得到第一编码。第二编码中每一字符与第一编码中的字符对应，用于指示第一编码中每一字符的标签信息。该标签信息标识了该字段对应内容属于哪一元数据信息。第一编码中每一字段的内容必然属于一个元数据信息。一个元数据信息的内容可能被分成多个字段。其中，第一编码可以在获取到待提取参考文献后，由服务器根据其字符串中字符编码得到。

本申请中，第一编码的使用极大减少了训练数据的字符数量。并且字段的划分使较长的标题、会议名称或者期刊名称通过编码缩短为一个或者几个字符，极大的减少了训练数据的长度。此外，第一编码的使用，减少了作者、标题、会议名称、期刊名称等内部字符间相关性对训练结果的干扰，增强了不同元数据信息之间的关联关系。本申请通过维特比算法预测了第一编码对应的第二编码，完成了对第一编码中各个字段内容的识别。服务器根据该第一编码和第二编码，自动识别了待提取参考文献中的各个元数据信息。该方法的使用提高了参考文献提取的效率，使参考文献的提取过程更加自动化和智能化。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1示出了本申请一实施例提供的一种参考文献的输出示意图。如图所示，服务器根据下述实施例获取到该条参考文献的各个元数据信息。服务器根据预设输出格式，对该条参考文献的各个元数据信息进行重新组合。其中，服务器可以预设有XML代码。该XML代码中包括多个子标签，每一子标签中需要对应添加一个元数据信息。服务器将该填写完成的XML代码渲染并输出。其输出结果可以如图中“中文参考文献条目内容”所示。其中，上述XML代码输出的参考文献格式可以为符合JATS标准的参考文献格式。

本申请中，以服务器为执行主体，执行如下实施例的参考文献内容提取方法。具体地，该执行主体可以为服务器的硬件装置，或者为服务器中实现下述实施例的软件应用，或者为安装有实现下述实施例的软件应用的计算机可读存储介质，或者为实现下述实施例的软件应用的代码。

图2示出了本申请一实施例提供的一种参考文献内容提取方法的流程图。如图2所示，以服务器为执行主体，本实施例的方法可以包括如下步骤：

S101、获取待提取参考文献，待提取参考文献包括参考文献的引文和第一编码，第一编码为服务器根据引文的字符串生成的字符串编码。

本实施例中，服务器获取待提取参考文献。其中，每一条待提取参考文献中包括参考文献的引文和第一编码。其中，参考文献的引文为一个包括元数据信息的字符串。如图3中Text所示为参考文献的引文的一种格式，其中包括编号、作者、标题、类型、出版社名称、年份和页码。第一编码为服务器根据预设规则编码得到的字符串。参考文献对应的第一编码可以如图3中Code所示。该第一编码中每一字符表示参考文献中的一个字段。每一字段中包括该参考文献字符串中的至少一个字符。

服务器获取的待提取参考文献中可以包括一条或者多条待提取参考文献。当获取待提取参考文献中包括多条参考文献时，服务器根据文献预测模型的预设输入格式输入待提取参考文献。例如，当文献预测模型的输入格式为逐条输入时，服务器逐条将待提取参考文献输入到文献预测模型中。当文献预测模型可以同时输入多条待提取参考文献，且多条参考文献使用预设分隔符分隔时，服务器可以使用预设分隔符连接待提取参考文献中的第一编码，得到输入数据。该输入数据为一个字符串，且该字符串中包括使用分隔符连接的多个第一编码。

S102、使用文献预测模型对待提取参考文献进行预测，得到待提取参考文献的第二编码，第二编码用于指示第一编码中每一字符对应的标签信息。

本实施例中，服务器将待提取参考文献中的第一编码输入到文献预测模型中。文献预测模型根据一第一编码，预测其对应的第二编码。该第二编码的字符串长度与第一编码一致。该第二编码中每一字符为一标签信息。且该第二编码中每一字符用于标识第一编码中对应字符。该第二编码可以如图3中State所示。该第二编码中每一标签可以对应一种原数据信息。

其中，文献预测模型具体为根据维特比算法计算得到最优概率模型。当服务器将待提取参考文献的第一编码输入该文献预测模型后，服务器可以计算得到初始概率、转移概率分布矩阵、发射概率分布矩阵。根据上述三个概率矩阵，服务器可以预测得到第一编码中每一字符可能性最大的隐藏状态。根据该第一编码中各个字符的隐藏状态，服务器可以确定隐藏状态序列，即第二编码。

具体地，文献预测模型可以预测得到第一编码中每一字符对应第二编码中各个标签的可能性。根据该字符对应第二编码中各个标签的可能性，服务器确定可能性最大的标签为该字符对应的标签。服务器在确定第一编码中每一字符对应的标签后，根据该标签，确定第二编码。

S103、根据待提取参考文献和第二编码，提取待提取参考文献的内容。

本实施例中，服务器根据第一编码对参考文献进行分段，得到多个字段。服务器根据第二编码确定每一字段的标签。当多个连续的字段具有同一标签时，服务器确定该多个字段属于一个元数据信息，并将该多个字段合并为一个字段。服务器确定完成合并后的每一字段为一个元数据信息，每一元数据信息对应有一个标签。

其中，标签的类型可以如图4所示。图3所示的State中，每一小写字母对应一个标签。例如，“d”对应{“author”，“作者_FZ”}。图4中每一大括号中包括两个字符串，例如“author”和“作者_FZ”。其中，前一个字符串为计算机程序中小写字母对应的字符串。例如，在计算机程序中，“d”对应“author”。在输出前，服务器通过图4所示的结构体，确定字符串“author”对应的字符串“作者_FZ”。服务器在输出参考文献中对应的字段时，服务器输出的该字段的标签为“作者_FZ”。

本申请提供的参考文献内容提取方法，服务器获取待提取参考文献。其中，每一条待提取参考文献中包括参考文献的引文和第一编码。服务器将待提取参考文献中的第一编码输入到文献预测模型中。文献预测模型根据一第一编码，预测其对应的第二编码。服务器根据第一编码对参考文献进行分段，得到多个字段。服务器根据第二编码确定每一字段的标签。当多个连续的字段具有同一标签时，服务器确定该多个字段属于一个元数据信息，并将该多个字段合并为一个字段。服务器确定完成合并后的每一字段为一个元数据信息，每一元数据信息对应有一个标签。本申请中，通过将待提取参考文献转化为第一编码，减少了参考文献内各个字符之间相关性对预测结果的干扰，增强了不同元数据信息之间的关联关系。此外，通过使用文献预测模型，提高了参考文献提取的效率，提高了参考文献的提取过程的自动化和智能化。

图5示出了本申请一实施例提供的另一种参考文献内容提取方法的流程图。在图2至图4所示实施例的基础上，如图5所示，以服务器为执行主体，本实施例的方法可以包括如下步骤：

S201、获取待提取参考文献，待提取参考文献包括参考文献的引文，引文为字符串。

本实施例中，服务器获取的待提取从参考文献中可以包括一条或者多条待提取参考文献。每一条待提取参考文献中包括参考文献的引文。参考文献的引文为一个包括元数据信息的字符串。该元数据信息可以包括编号、作者、标题、出版者、年份、页码、卷号等字段。如图3中Text所示为参考文献的引文的一种格式，其中包括编号、作者、标题、类型、出版社名称、年份和页码。

S202、当待提取参考文献的引文中包括杂质符号时，将杂质符号从待提取参考文献中剔除。

本实施例中，为了避免杂质符号对预测结果的干扰，服务器需要在生成第一编码前，剔除引文中的杂质符号。其中，杂质符号可以包括多余符合和特殊符号。例如，该杂质符号可以包括@、￥、$、引号等。

S203、根据引文中各个字符的字符类型，将引文划分为多个字段，每一字段中包括一个或者多个字符。

本实施例中，在完成了杂质符号的剔除后，服务器根据引文中的字符，对引文进行分段。在该过程中，连续的相同字符被分到同一字段，不同的符号被分到不同的字段。

例如，在如图3所示的引文“[12]王勇裴.水稻热激蛋白(Hsp)的鉴定及其Hsp70家族的功能分析.[M]福建，福建农林大学.2012:1-76.”中，可以根据该引文中每一字符的字符类型，将该引文分成“[”、“12”、“]”、“王勇裴”、“.”、“水稻热激蛋白”、“(”、“Hsp”、“)”、“的鉴定及其Hsp”、“70”、“家族的功能分析”、“.”、“[”、“M”、“]”、“福建”、“，”、“福建农林大学”、“.”、“2012”、“:”、“1”、“-”、“76”、“.”，共26个字段。

需要注意的是，由于在英文的引文中，“and”可能作为作者与作者之间的分隔。因此，当引文中出现“and”时，“and”可以被认为是一个类似于“、”或者“，”的符号进行划分。

S204、根据每一字段中字符的字符类型，确定字段对应的编码。

本实施例中，服务器中预设有每一符号或者字符类型对应的编码。根据该对应关系，服务器根据每一字段中的字符类型，确定该字段对应的编码。

以图3所示的引文为例，在上述26个字段中，该对应关系可以包括：符号“[”、“]”、“(”、“)”可以使用大写字母B表示。符号“.”可以使用大写字母D表示。符号“，”可以使用大写字母M表示。符号“：”可以使用大写字母L表示。符号“-”可以使用大写字母S表示。当该字段中包括数字时，其对应的编码可以为N。当该字段中包括中文时，其对应的编码可以为W。

S205、根据各个字段对应的编码，确定待提取参考文献对应的第一编码。

本实施例中，当服务器确定每一字段对应的编码后，服务器可以根据引文中各个字段的顺序，生成第一编码。以3所示的引文为例，上述引文的第一编码为“BNBWDWBWBWNWDBSBWMWDNLNSND”。

S206、使用文献预测模型对待提取参考文献进行预测，得到待提取参考文献的第二编码，第二编码用于指示第一编码中每一字符对应的标签信息。

其中，步骤S206与图2实施例中的步骤S102实现方式类似，本实施例此处不再赘述。

S207、根据第二编码将为每一字段打上对应的标签，标签为字段的字段名称。

本实施例中，第二编码的长度与第一编码相同。因此，服务器根据引文中的顺序，为每一字段打上其对应的标签。其中，第二编码中每一字符为一个标签。

以图3所示的引文为例，假设其中的State为文献预测模型预测得到的第二编码。服务器可以根据第一编码，将该第二编码的标签打到对应的26个字段中。“[”对应标签a、“12”对应标签b、“]”对应标签c、“王勇裴”对应标签d、“.”对应标签f、“水稻热激蛋白”对应标签g、“(”对应标签g、“Hsp”对应标签g、“)”对应标签g、“的鉴定及其Hsp”对应标签g、“70”对应标签g、“家族的功能分析”对应标签g、“.”对应标签h、“[”对应标签i、“M”对应标签j、“]”对应标签k、“福建”对应标签m、“，”对应标签m、“福建农林大学”对应标签m、“.”对应标签o、“2012”对应标签p、“:”对应标签v、“1”对应标签w、“-”对应标签x、“76”对应标签y、“.”对应标签f。

其中，每一小写字母可以对应图4所示结构体中一行标签。例如，w可以对应{“fpage”，“起始页_FZ”}，y可以对应{“lpage”，“终止页_FZ”}，d可以对应{“author”，“作者_FZ”}。

S208、当存在多个连续字段具有相同标签时，将标签相同且连续的多个字段合并为一个字段。

本实施例中，当服务器发现存在多个连续且相同的标签时，服务器可以将该标签对应的字段合并为一个字段。

例如，在图3所示的引文中，“水稻热激蛋白”、“(”、“Hsp”、“)”、“的鉴定及其Hsp”、“70”、“家族的功能分析”，7个字段对应的标签均为g。此时，服务器可以将上述7个字段合并为一个字段“水稻热激蛋白(Hsp)的鉴定及其Hsp70家族的功能分析”。服务器确定该字段的标签为g。

S209、根据预设格式，输出待提取参考文献中对应字段的内容。

本实施例中，当服务器根据上述步骤完成引文中各个字段的提取后，服务器可以得到多个字段，每一字段具有一个标签。服务器可以将该字段的标签确定为该字段的字段名。当服务器需要输出一参考文献的引文时，服务器可以根据预设格式，对该引文的字段进行重新排列。该重新排列过程中，服务器可以根据各个字段的字段名确定各个字段的排列顺序。当服务器根据预设格式完成对引文的重新排列后，服务器输出该预设格式的引文。

本申请提供的参考文献内容提取方法，服务器获取的待提取从参考文献中可以包括一条或者多条待提取参考文献。每一条待提取参考文献中包括参考文献的引文。服务器剔除引文中的杂质符号。服务器根据引文中的字符，对引文进行分段。其中，连续的相同字符被分到同一字段，不同的符号为不同字段。服务器根据每一字段中的字符类型，生成第一编码。服务器使用文献预测模型对待提取参考文献中的第一编码进行预测，得到待提取参考文献的第二编码。服务器根据引文中的顺序，为第一编码对应的每一字段打上其对应的标签。该每一标签在第二编码以一个字符表示。当服务器发现存在多个连续且相同的标签时，服务器可以将该标签对应的字段合并为一个字段。当服务器需要输出一参考文献的引文时，服务器可以根据预设格式，对该引文的字段进行重新排列。当服务器根据预设格式完成对引文的重新排列后，服务器输出该预设格式的引文。本申请中，将待提取参考文献转化为第一编码，减少了参考文献内各个字符之间相关性对预测结果的干扰，增强了不同元数据信息之间的关联关系。此外，通过剔除引文中的杂质符号，提高了引文得到有效性，减少了杂质符号对训练以及预测的影响。此外，通过使用文献预测模型，提高了参考文献提取的效率，提高了参考文献的提取过程的自动化和智能化。

在上述各是实施例的基础上，本实施例还能够通过维特比算法训练得到文献预测模型，以得到预测参考文献的第二编码的效果，以服务器为执行主体，其具体步骤可以包括：

步骤1、获取参考文献数据集，参考文献数据集中包括不同格式的多条参考文献，以及每一参考文献对应标注的第一编码和第二编码。

本步骤中，参考文献数据集中的一个样本可以如3中一个AnnotationModel结构体所示，一个样本中可以包括参考文献的引文Text、第一编码Code和第二编码State。其中，引文Text为剔除杂质符号后的引文。Code为根据引文Text自动生成的第一编码。第二编码State需要管理员根据引文Text和第一编码Code对应标注。

在参考文献数据集中可以包括各类参考文献，例如专著M、报纸N、期刊J、专利文献P、汇编G、古籍O、技术标准S等。针对期刊，由于不同期刊可能具有不同的参考文献格式，因此，参考文献数据集中增加了APA格式参考文献、IEEE格式参考文献等知名期刊的参考文献样本。此外，参考文献数据集还针对缺少作者、缺少期刊名称、缺少卷号页码等情况，有针对性的增加了参考文献样本。如图6所示，为了便于数据统计和处理，服务器可以根据上述分类，设置多个文件夹，并将参考文献添加到对应的文件夹中。参考文献数据集中文件夹可以包括：APA格式的学位论文(APA Dissertation)、APA格式未知作者的参考文献(APA EnBookNo Author)、Constants格式的参考文献(Constants)、专利(patent)、报告(report)等。

为了确保训练数据的全面性和数据的均衡性，服务器还可以根据上述文件夹的分类情况，调整每一文件夹中参考文献的样本数量。每一文件夹中样本数量可以不同。该样本数量的调整，可以在保证训练数据的全面性的同时，增加常见样本的比重，从而提高常见样本的学习效率。

步骤2、使用维特比算法训练参考文献数据集，得到文献预测模型，文献预测模型用于根据一待提取参考文献的参考文献和第一编码，预测待提取参考文献的第二编码。

本步骤中，服务器将步骤1中整理好的参考文献数据集输入到维特比算法中。维特比算法通过训练参考文献数据集，得到文献预测模型。该文献预测模型通过获取参考文献数据集中的第一编码，预测该第一编码对应的可能性最大的第二编码。

具体地，该文献预测模型中可以包括初始概率、转移概率分布矩阵、发射概率分布矩阵等参数。当服务器将一第一编码输入该文献预测模型后，通过上述参数，服务器可以预测得到第一编码中每一字符可能性最大的隐藏状态。根据该第一编码中各个字符的隐藏状态，服务器可以确定隐藏状态序列，即第二编码。其中，文献预测模型中的参数具体可以如图7所示。

图8示出了本申请一实施例提供的一种参考文献内容提取装置的结构示意图，如图8所示，本实施例的参考文献内容提取装置10用于实现上述任一方法实施例中对应于服务器的操作，本实施例的参考文献内容提取装置10包括：

获取模块11，用于获取待提取参考文献，待提取参考文献包括参考文献的引文和第一编码，第一编码为服务器根据引文的字符串生成的字符串编码。

预测模块12，用于使用文献预测模型对待提取参考文献进行预测，得到待提取参考文献的第二编码，第二编码用于指示第一编码中每一字符的标签信息。

提取模块13，用于根据待提取参考文献和第二编码，提取待提取参考文献的内容。

一种示例中，参考文献内容提取装置10还包括模型训练模块14，具体用于获取参考文献数据集，参考文献数据集中包括不同格式的多条参考文献，以及每一参考文献对应标注的第一编码和第二编码。使用维特比算法训练参考文献数据集，得到文献预测模型，文献预测模型用于根据一待提取参考文献的参考文献和第一编码，预测待提取参考文献的第二编码。

一种示例中，参考文献内容提取装置10还包括输出模块15，具体用于根据预设格式，输出待提取参考文献中对应字段的内容。

本申请实施例提供的参考文献内容提取装置10，可执行上述方法实施例，其具体实现原理和技术效果，可参见上述方法实施例，本实施例此处不再赘述。

图9示出了本申请一实施例提供的另一种参考文献内容提取装置的结构示意图，在图8所示实施例的基础上，如图9所示，本实施例的参考文献内容提取装置10用于实现上述任一方法实施例中对应于服务器的操作，本实施例的获取模块11和提取模块13分别包括：

获取子模块111，用于获取待提取参考文献，待提取参考文献包括参考文献的引文，引文为字符串。

划分子模块112，用于根据引文中各个字符的字符类型，将引文划分为多个字段，每一字段中包括一个或者多个字符。

确定子模块113，用于根据每一字段中字符的字符类型，确定字段对应的编码。

编码子模块114，用于根据各个字段对应的编码，确定待提取参考文献对应的第一编码。

剔除子模块115，用于当待提取参考文献的引文中包括杂质符号时，将杂质符号从待提取参考文献中剔除。

拆分子模块131，用于根据第二编码将为每一字段打上对应的标签，标签为字段的字段名称。

标签子模块132，用于当存在多个连续字段具有相同标签时，将标签相同且连续的多个字段合并为一个字段。

图10示出了本申请实施例提供的一种服务器的硬件结构示意图。如图10所示，该服务器20，用于实现上述任一方法实施例中对应于服务器的操作，本实施例的服务器20可以包括：存储器21和处理器22。

存储器21，用于存储计算机程序。该存储器21可能包含高速随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

处理器22，用于执行存储器存储的计算机程序，以实现上述实施例中的参考文献内容提取方法。具体可以参见前述方法实施例中的相关描述。该处理器22可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

可选地，存储器21既可以是独立的，也可以跟处理器22集成在一起。

当存储器21是独立于处理器22之外的器件时，服务器20还可以包括总线23。该总线23用于连接存储器21和处理器22。该总线23可以是工业标准体系结构(IndustryStandard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本实施例提供的服务器可用于执行上述的参考文献内容提取方法，其实现方式和技术效果类似，本实施例此处不再赘述。

本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，计算机可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，计算机可读存储介质耦合至处理器，从而使处理器能够从该计算机可读存储介质读取信息，且可向该计算机可读存储介质写入信息。当然，计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits，ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和计算机可读存储介质也可以作为分立组件存在于通信设备中。

具体地，该计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable read-only memory，PROM)，只读存储器(Read-OnlyMemory，ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本申请还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质中读取该计算机程序，至少一个处理器执行该计算机程序使得设备实施上述的各种实施方式提供的方法。

本申请实施例还提供一种芯片，该芯片包括存储器和处理器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行如上各种可能的实施方式中的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

其中，各个模块可以是物理上分开的，例如安装于一个的设备的不同位置，或者安装于不同的设备上，或者分布到多个网络单元上，或者分布到多个处理器上。各个模块也可以是集成在一起的，例如，安装于同一个设备中，或者，集成在一套代码中。各个模块可以以硬件的形式存在，或者也可以以软件的形式存在，或者也可以采用软件加硬件的形式实现。本申请可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

当各个模块以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。

应该理解的是，虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种参考文献内容提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待提取参考文献，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述待提取参考文献和所述第二编码，提取所述待提取参考文献的内容，包括：

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述使用文献内容提取模型对所述待提取引文进行预测之前，所述方法，还包括：

使用维比特算法训练所述参考文献数据集，得到文献预测模型，所述文献预测模型用于根据一待提取参考文献的参考文献和第一编码，预测所述待提取参考文献的第二编码。

6.根据权利要求1-4中任意一项所述的方法，其特征在于，所述方法，还包括：

7.一种参考文献内容提取装置，其特征在于，所述装置，包括：

获取模块，用于获取待提取参考文献，所述待提取参考文献包括参考文献和第一编码，所述第一编码为服务器根据所述参考文献的字符串生成的字符串编码；

预测模块，用于使用文献预测模型对所述待提取参考文献进行预测，得到所述待提取参考文献的第二编码，所述第二编码用于指示所述第一编码中每一字符的标签信息；

提取模块，用于根据所述第一编码、所述第二编码和所述待提取参考文献，提取所述待提取参考文献的内容。

8.一种服务器，其特征在于，所述服务器，包括：存储器，处理器；

所述存储器用于存储计算机程序；所述处理器用于根据所述存储器存储的计算机程序，实现如权利要求1至6中任意一项所述的参考文献内容提取方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1至6中任意一项所述的参考文献内容提取方法。