CN111401005B

CN111401005B - 文本转换方法、装置及可读存储介质

Info

Publication number: CN111401005B
Application number: CN201811625152.5A
Authority: CN
Inventors: 殷延伟; 殷梦丹; 陈巍
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2022-06-14
Anticipated expiration: 2038-12-28
Also published as: CN111401005A

Abstract

本发明提供了一种文本转换方法、装置及可读存储介质，通过获取待转换的参考文献文本；利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件，从而实现了对参考文献的XML文件的自动生成，提高了XML文件的生成效率。

Description

文本转换方法、装置及可读存储介质

技术领域

本发明涉及计算机技术，尤其涉及一种文本转换方法、装置及可读存储介质。

背景技术

可扩展标记语言(Extensible Markup Language,简称XML)，它是标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。随着网络技术的发展，XML技术逐步应用到数字出版相关领域，特别是针对于基于word文本的文本转换和出版。

科技论文一般也是基于word文本进行撰写的，与其他类型的word文本不同的是，科技论文是由正文部分以及参考文献部分构成的，在对科技论文转换时，需要针对论文的不同部分分别进行转换。

但是，在现有技术中，仅能对正文部分进行自动转换，而针对于参考文献部分则需要人工标注的方式进行文本转换，这使得对于科技论文的文本转换效率低，严重影响了其出版效率。

发明内容

针对上述提及的现有在现有技术中，针对于科技论文的参考文献部分仅能采用人工标注的方式进行文本转换，从而导致转换效率低，进而造成科技论文的出版效率低的问题，本发明提供了一种文本转换方法、装置及可读存储介质。

一方面，本发明提供了一种文本转换方法，包括：

获取待转换的参考文献文本；

利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；

根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。

在其中一种可选的实施方式中，所述正则表达式组包括第一正则表达式和第二正则表达式；

相应的，所述利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以确定参考文献中的与每个类型的正则表达式相应的元素信息，包括：

利用各类型的第一正则表达式依次对所述参考文献文本进行处理，获得各类型的待提取的元素信息在参考文献文本中的位置范围；

利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取，获得各类型的元素信息。

在其中一种可选的实施方式中，所述获取待转换的参考文献文本之前，还包括：

根据参考文献文本的格式标准，从预设的正则表达式组库中选取相应类型的正则表达式组，并构建相应的结构树，其中所述结构树用于记录各类型的正则表达式组的处理顺序；

相应的，所述利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，包括：

按照所述结构树中记录的处理顺序，利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。

在其中一种可选的实施方式中，所述标签文件包括：参考文献编号、作者、文献题目、出版年、卷号、期号、页码。

另一方面，本发明提供了一种文本转换装置，包括：

通信模块，用于获取待转换的参考文献文本；

元素提取模块，用于利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；

输出模块，用于根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。

所述元素提取模块，具体用于：

利用各类型的第一正则表达式依次对所述参考文献文本进行处理，获得各类型的待提取的元素信息在参考文献文本中的位置范围；利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取，获得各类型的元素信息。

在其中一种可选的实施方式中，该文本转换装置还包括：架构模块；

所述架构模块具体用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准，从预设的正则表达式组库中选取相应类型的正则表达式组，并构建相应的结构树，其中所述结构树用于记录各类型的正则表达式组的处理顺序；

所述元素提取模块具体用于：按照所述结构树中记录的处理顺序，利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。

再一方面，本发明提供了一种文本转换装置，包括：存储器、与所述存储器连接的处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，

所述处理器运行所述计算机程序时执行如前任一项所述的方法。

最后一方面，本发明提供了一种可读存储介质，包括程序，当其在终端上运行时，使得终端执行如前任一项所述的方法。

附图说明

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

图1为本发明基于的网络架构示意图；

图2为本发明实施例一提供的一种文本转换方法的流程示意图；

图3为本发明实施例二提供的一种文本转换方法的流程示意图；

图4为本发明实施例三提供的一种文本转换装置的结构示意图；

图5为本发明实施例四提供的一种文本转换装置的硬件结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请提供的文本转换方法、装置及可读存储介质，可运用在各类需要对文本进行转换的场景中，如，电子出版等。该文本转换方法特别针对于具备参考文献的文本，例如，基于科技论文的参考文献的转换、基于学术文章的参考文献的转换等等。

图1为本发明基于的网络架构示意图，如图1所示，本发明基于的网络架构至少包括：文本转换装置1、以及数据服务器2。数据服务器2中存储有大量待转换的文本，这些文本可为用户通过电脑终端或智能手机等设备3上传至该数据服务器2中的。而文本转换装置1可与数据服务器2通过无线通信进行通信连接和数据交互，以获得待转换的文本进行相应处理。

此外，文本转换装置1和数据服务器2均可架设在云端的服务器，其二者可架设在同一服务器平台或服务器集群中，也可架设在不同服务器平台或服务器集群中。

同时，文本转换装置1以及数据服务器2中分别加载或安装有可用于实现文本转换方法的插件或程序，这些插件或程序可采用C/C++、Java、Shell或Python等语言编写。

图2为本发明实施例一提供的一种文本转换方法的流程示意图。

如图2所示，该文本转换方法包括：

步骤101、获取待转换的参考文献文本。

步骤102、利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息。

步骤103、根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。

需要说明的是，本发明提供的文本转换方法执行主体具体可为图1所示的文本转换装置1。

由于在现有技术中，文本转换是指将文本从一个文本格式转换到另一个文本格式的过程。一般来说，在电子出版领域，需要将word文本转换至XML格式，以便实现电子出版。针对于包括参考文献的文本来讲，由于参考文献部分中的信息类型多，信息量大，现有技术中，对于这部分的文本转换一般依靠人工标注实现。为了解决该问题，本实施方式中采用了不同类型的正则表达式组的方式以用于对不同类型的元素信息进行提取。

具体来说，文本转换装置首先获取从数据服务器中接收待转换的文本，随后，可从该文本中提取出待转换的参考文献文本。

随后，文本转换装置将利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息。一般来说，依据于待提取元素信息类型的不同，正则表达式的类型也将发生相应变化。前述的元素信息的类型可包括有参考文献编号、作者、文献题目、出版年、卷号、期号、页码等，而相应的，针对于每一个类型的元素信息，也应采用相应类型的正则表达式组，以对元素进行提取。

最后，文本转换装置将预先构建的标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。

具体来说，标签文件中包括有前述的元素类型，即参考文献编号、作者、文献题目、出版年、卷号、期号、页码。通过标签文件，能够使提取出的每一个元素信息与其相应的标签进行一一对应关联，随后，再利用结构样本模板进行输出，其中的结构样本模板中应包括有输出的XML文件的标签以及相应的输出位置。即，通过结构样本模块以确定每一元素信息在输出的XML文件中的输出位置，从而获得参考文献的XML文件。

本发明实施例一提供了一种文本转换方法，通过获取待转换的参考文献文本；利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件，从而实现了对参考文献的XML文件的自动生成，提高了XML文件的生成效率。

在实施例一的基础上，图3为本发明实施例二提供的一种文本转换方法的流程示意图，如图3所示，该文本转换方法包括：

步骤201、获取待转换的参考文献文本；

步骤202、利用各类型的第一正则表达式依次对所述参考文献文本进行处理，获得各类型的待提取的元素信息在参考文献文本中的位置范围。

步骤203、利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取，获得各类型的元素信息。

步骤204、根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。

需要说明的是，与前述实施方式类似的是，本发明提供的文本转换方法执行主体具体可为图1所示的文本转换装置1。

首先，文本转换装置首先获取从数据服务器中接收待转换的文本，本实施方式还可根据其格式标准，从预设的正则表达式组库中选取相应类型的正则表达式组，并构建相应的结构树，其中所述结构树用于记录各类型的正则表达式组的处理顺序。

具体的，在对参考文献进行标引之前，可对文本转换过程所需的文件进行预先定义，这些文件包括但不限于标签文件、结构样本模板、正则表达式组、结构树。其中，上述的文件的构建均可依据参考文献文本的格式标准而确定，即从预设的正则表达式组库中选取相应类型的正则表达式组，并构建相应的结构树，其中所述结构树用于记录各类型的正则表达式组的处理顺序。

进一步来说，标签文件中包括有前述的元素类型，即参考文献编号、作者、文献题目、出版年、卷号、期号、页码。通过标签文件可使提取出的每一个元素信息与其相应的标签进行一一对应关联，以记录每个元素信息的标签名字、样式类型以及XML节点属性。而预设的结构样本模板中应包括有输出的XML文件的标签以及相应的输出位置。即，通过结构样本模块以确定每一元素信息在输出的XML文件中的输出位置，从而获得参考文献的XML文件。

此外，结构树用于记录各类型的正则表达式组的处理顺序，这个结构树来执行每一步的识别和标引操作。在结构树中，预先设计有流程节点、节点名称，以及执行到某一流程节点时，需要调用的正则表达式组。

然后，与实施例一类似的是，文本转换装置将利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息。一般来说，依据于待提取元素信息类型的不同，正则表达式的类型也将发生相应变化。前述的元素信息的类型可包括有参考文献编号、作者、文献题目、出版年、卷号、期号、页码等，而相应的，针对于每一个类型的元素信息，也应采用相应类型的正则表达式组，以对元素进行提取。

此外，在本实施方式中，特别的正则表达式组中可包括第一正则表达式和第二正则表达式。其中，利用各类型的第一正则表达式依次对所述参考文献文本进行处理，获得各类型的待提取的元素信息在参考文献文本中的位置范围。而利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取，获得各类型的元素信息。进一步的，在标引时，首先利用相应的正则表达式获取到包含需要被标引内容的大致范围，再利用正则表达式在该范围内识别并标引相应的内容。当调用某一个正则表达式时，就会执行该结构树中的流程。

最后，文本转换装置可利用上述的预先构建的标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。具体来说，标签文件中包括有前述的元素类型，即参考文献编号、作者、文献题目、出版年、卷号、期号、页码。通过标签文件，能够使提取出的每一个元素信息与其相应的标签进行一一对应关联，随后，再利用结构样本模板进行输出，其中的结构样本模板中应包括有输出的XML文件的标签以及相应的输出位置。即，通过结构样本模块以确定每一元素信息在输出的XML文件中的输出位置，从而获得参考文献的XML文件。

本发明实施例二提供了一种文本转换方法，通过获取待转换的参考文献文本；利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件，从而实现了对参考文献的XML文件的自动生成，提高了XML文件的生成效率。

图4为本发明实施例三提供的一种文本转换装置的结构示意图，如图5所示，该文本转换装置包括：

通信模块10，用于获取待转换的参考文献文本；

元素提取模块20，用于利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；

输出模块30，用于根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件。

所述元素提取模块，具体用于：

本发明实施例三提供了一种文本转换装置，通过获取待转换的参考文献文本；利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息；根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件，从而实现了对参考文献的XML文件的自动生成，提高了XML文件的生成效率。

图5为本发明实施例四提供的一种文本转换装置的硬件结构示意图。如图5所示，该文本转换装置包括：存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序，处理器42运行计算机程序时执行上述实施例的方法。

本发明还提供一种可读存储介质，包括程序，当其在终端上运行时，使得终端执行上述实施例的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种文本转换方法，其特征在于，包括：

获取待转换的参考文献文本；

根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件；

所述正则表达式组包括第一正则表达式和第二正则表达式，所述利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以确定参考文献中的与每个类型的正则表达式相应的元素信息，包括：

利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取，获得各类型的元素信息；

所述获取待转换的参考文献文本之前，还包括：

2.根据权利要求1所述的文本转换方法，其特征在于，所述标签文件包括：参考文献编号、作者、文献题目、出版年、卷号、期号、页码。

3.一种文本转换装置，其特征在于，包括：

通信模块，用于获取待转换的参考文献文本；

元素提取模块，用于利用预设的多个类型的正则表达式组，依次对所述参考文献文本进行处理，以提取参考文献中的与每个类型的正则表达式组相应的元素信息，所述正则表达式组包括第一正则表达式和第二正则表达式；

输出模块，用于根据标签文件对获得的所述元素信息进行标签标注，并将标注后的元素信息输入至结构样本模板，生成参考文献的XML文件；

所述元素提取模块，还具体用于利用各类型的第一正则表达式依次对所述参考文献文本进行处理，获得各类型的待提取的元素信息在参考文献文本中的位置范围；利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取，获得各类型的元素信息；

架构模块，用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准，从预设的正则表达式组库中选取相应类型的正则表达式组，并构建相应的结构树，其中所述结构树用于记录各类型的正则表达式组的处理顺序；所述元素提取模块具体用于：按照所述结构树中记录的处理顺序，利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。

4.根据权利要求3所述的文本转换装置，其特征在于，所述标签文件包括：参考文献编号、作者、文献题目、出版年、卷号、期号、页码。

5.一种文本转换装置，其特征在于，包括：存储器、与所述存储器连接的处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，

所述处理器运行所述计算机程序时执行权利要求1或2任一项所述的方法。

6.一种可读存储介质，其特征在于，包括程序，当其在终端上运行时，使得终端执行权利要求1或2任一项所述的方法。