CN111401005A - 文本转换方法、装置及可读存储介质 - Google Patents

文本转换方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111401005A
CN111401005A CN201811625152.5A CN201811625152A CN111401005A CN 111401005 A CN111401005 A CN 111401005A CN 201811625152 A CN201811625152 A CN 201811625152A CN 111401005 A CN111401005 A CN 111401005A
Authority
CN
China
Prior art keywords
reference document
regular expression
text
type
element information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811625152.5A
Other languages
English (en)
Other versions
CN111401005B (zh
Inventor
殷延伟
殷梦丹
陈巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201811625152.5A priority Critical patent/CN111401005B/zh
Publication of CN111401005A publication Critical patent/CN111401005A/zh
Application granted granted Critical
Publication of CN111401005B publication Critical patent/CN111401005B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种文本转换方法、装置及可读存储介质,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。

Description

文本转换方法、装置及可读存储介质
技术领域
本发明涉及计算机技术,尤其涉及一种文本转换方法、装置及可读存储介质。
背景技术
可扩展标记语言(Extensible Markup Language,简称XML),它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。随着网络技术的发展,XML技术逐步应用到数字出版相关领域,特别是针对于基于word文本的文本转换和出版。
科技论文一般也是基于word文本进行撰写的,与其他类型的word文本不同的是,科技论文是由正文部分以及参考文献部分构成的,在对科技论文转换时,需要针对论文的不同部分分别进行转换。
但是,在现有技术中,仅能对正文部分进行自动转换,而针对于参考文献部分则需要人工标注的方式进行文本转换,这使得对于科技论文的文本转换效率低,严重影响了其出版效率。
发明内容
针对上述提及的现有在现有技术中,针对于科技论文的参考文献部分仅能采用人工标注的方式进行文本转换,从而导致转换效率低,进而造成科技论文的出版效率低的问题,本发明提供了一种文本转换方法、装置及可读存储介质。
一方面,本发明提供了一种文本转换方法,包括:
获取待转换的参考文献文本;
利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;
根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
在其中一种可选的实施方式中,所述正则表达式组包括第一正则表达式和第二正则表达式;
相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以确定参考文献中的与每个类型的正则表达式相应的元素信息,包括:
利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;
利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。
在其中一种可选的实施方式中,所述获取待转换的参考文献文本之前,还包括:
根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;
相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,包括:
按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。
在其中一种可选的实施方式中,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。
另一方面,本发明提供了一种文本转换装置,包括:
通信模块,用于获取待转换的参考文献文本;
元素提取模块,用于利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;
输出模块,用于根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
在其中一种可选的实施方式中,所述正则表达式组包括第一正则表达式和第二正则表达式;
所述元素提取模块,具体用于:
利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。
在其中一种可选的实施方式中,该文本转换装置还包括:架构模块;
所述架构模块具体用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;
所述元素提取模块具体用于:按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。
在其中一种可选的实施方式中,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。
再一方面,本发明提供了一种文本转换装置,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器运行所述计算机程序时执行如前任一项所述的方法。
最后一方面,本发明提供了一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行如前任一项所述的方法。
本发明提供了一种文本转换方法、装置及可读存储介质,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。
附图说明
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
图1为本发明基于的网络架构示意图;
图2为本发明实施例一提供的一种文本转换方法的流程示意图;
图3为本发明实施例二提供的一种文本转换方法的流程示意图;
图4为本发明实施例三提供的一种文本转换装置的结构示意图;
图5为本发明实施例四提供的一种文本转换装置的硬件结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
可扩展标记语言(Extensible Markup Language,简称XML),它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。随着网络技术的发展,XML技术逐步应用到数字出版相关领域,特别是针对于基于word文本的文本转换和出版。
科技论文一般也是基于word文本进行撰写的,与其他类型的word文本不同的是,科技论文是由正文部分以及参考文献部分构成的,在对科技论文转换时,需要针对论文的不同部分分别进行转换。
但是,在现有技术中,仅能对正文部分进行自动转换,而针对于参考文献部分则需要人工标注的方式进行文本转换,这使得对于科技论文的文本转换效率低,严重影响了其出版效率。
针对上述提及的现有在现有技术中,针对于科技论文的参考文献部分仅能采用人工标注的方式进行文本转换,从而导致转换效率低,进而造成科技论文的出版效率低的问题,本发明提供了一种文本转换方法、装置及可读存储介质。
需要说明的是,本申请提供的文本转换方法、装置及可读存储介质,可运用在各类需要对文本进行转换的场景中,如,电子出版等。该文本转换方法特别针对于具备参考文献的文本,例如,基于科技论文的参考文献的转换、基于学术文章的参考文献的转换等等。
图1为本发明基于的网络架构示意图,如图1所示,本发明基于的网络架构至少包括:文本转换装置1、以及数据服务器2。数据服务器2中存储有大量待转换的文本,这些文本可为用户通过电脑终端或智能手机等设备3上传至该数据服务器2中的。而文本转换装置1可与数据服务器2通过无线通信进行通信连接和数据交互,以获得待转换的文本进行相应处理。
此外,文本转换装置1和数据服务器2均可架设在云端的服务器,其二者可架设在同一服务器平台或服务器集群中,也可架设在不同服务器平台或服务器集群中。
同时,文本转换装置1以及数据服务器2中分别加载或安装有可用于实现文本转换方法的插件或程序,这些插件或程序可采用C/C++、Java、Shell或Python等语言编写。
图2为本发明实施例一提供的一种文本转换方法的流程示意图。
如图2所示,该文本转换方法包括:
步骤101、获取待转换的参考文献文本。
步骤102、利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息。
步骤103、根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
需要说明的是,本发明提供的文本转换方法执行主体具体可为图1所示的文本转换装置1。
由于在现有技术中,文本转换是指将文本从一个文本格式转换到另一个文本格式的过程。一般来说,在电子出版领域,需要将word文本转换至XML格式,以便实现电子出版。针对于包括参考文献的文本来讲,由于参考文献部分中的信息类型多,信息量大,现有技术中,对于这部分的文本转换一般依靠人工标注实现。为了解决该问题,本实施方式中采用了不同类型的正则表达式组的方式以用于对不同类型的元素信息进行提取。
具体来说,文本转换装置首先获取从数据服务器中接收待转换的文本,随后,可从该文本中提取出待转换的参考文献文本。
随后,文本转换装置将利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息。一般来说,依据于待提取元素信息类型的不同,正则表达式的类型也将发生相应变化。前述的元素信息的类型可包括有参考文献编号、作者、文献题目、出版年、卷号、期号、页码等,而相应的,针对于每一个类型的元素信息,也应采用相应类型的正则表达式组,以对元素进行提取。
最后,文本转换装置将预先构建的标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
具体来说,标签文件中包括有前述的元素类型,即参考文献编号、作者、文献题目、出版年、卷号、期号、页码。通过标签文件,能够使提取出的每一个元素信息与其相应的标签进行一一对应关联,随后,再利用结构样本模板进行输出,其中的结构样本模板中应包括有输出的XML文件的标签以及相应的输出位置。即,通过结构样本模块以确定每一元素信息在输出的XML文件中的输出位置,从而获得参考文献的XML文件。
本发明实施例一提供了一种文本转换方法,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。
在实施例一的基础上,图3为本发明实施例二提供的一种文本转换方法的流程示意图,如图3所示,该文本转换方法包括:
步骤201、获取待转换的参考文献文本;
步骤202、利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围。
步骤203、利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。
步骤204、根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
需要说明的是,与前述实施方式类似的是,本发明提供的文本转换方法执行主体具体可为图1所示的文本转换装置1。
首先,文本转换装置首先获取从数据服务器中接收待转换的文本,本实施方式还可根据其格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序。
具体的,在对参考文献进行标引之前,可对文本转换过程所需的文件进行预先定义,这些文件包括但不限于标签文件、结构样本模板、正则表达式组、结构树。其中,上述的文件的构建均可依据参考文献文本的格式标准而确定,即从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序。
进一步来说,标签文件中包括有前述的元素类型,即参考文献编号、作者、文献题目、出版年、卷号、期号、页码。通过标签文件可使提取出的每一个元素信息与其相应的标签进行一一对应关联,以记录每个元素信息的标签名字、样式类型以及XML节点属性。而预设的结构样本模板中应包括有输出的XML文件的标签以及相应的输出位置。即,通过结构样本模块以确定每一元素信息在输出的XML文件中的输出位置,从而获得参考文献的XML文件。
此外,结构树用于记录各类型的正则表达式组的处理顺序,这个结构树来执行每一步的识别和标引操作。在结构树中,预先设计有流程节点、节点名称,以及执行到某一流程节点时,需要调用的正则表达式组。
然后,与实施例一类似的是,文本转换装置将利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息。一般来说,依据于待提取元素信息类型的不同,正则表达式的类型也将发生相应变化。前述的元素信息的类型可包括有参考文献编号、作者、文献题目、出版年、卷号、期号、页码等,而相应的,针对于每一个类型的元素信息,也应采用相应类型的正则表达式组,以对元素进行提取。
此外,在本实施方式中,特别的正则表达式组中可包括第一正则表达式和第二正则表达式。其中,利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围。而利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。进一步的,在标引时,首先利用相应的正则表达式获取到包含需要被标引内容的大致范围,再利用正则表达式在该范围内识别并标引相应的内容。当调用某一个正则表达式时,就会执行该结构树中的流程。
最后,文本转换装置可利用上述的预先构建的标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。具体来说,标签文件中包括有前述的元素类型,即参考文献编号、作者、文献题目、出版年、卷号、期号、页码。通过标签文件,能够使提取出的每一个元素信息与其相应的标签进行一一对应关联,随后,再利用结构样本模板进行输出,其中的结构样本模板中应包括有输出的XML文件的标签以及相应的输出位置。即,通过结构样本模块以确定每一元素信息在输出的XML文件中的输出位置,从而获得参考文献的XML文件。
本发明实施例二提供了一种文本转换方法,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。
图4为本发明实施例三提供的一种文本转换装置的结构示意图,如图5所示,该文本转换装置包括:
通信模块10,用于获取待转换的参考文献文本;
元素提取模块20,用于利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;
输出模块30,用于根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
在其中一种可选的实施方式中,所述正则表达式组包括第一正则表达式和第二正则表达式;
所述元素提取模块,具体用于:
利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。
在其中一种可选的实施方式中,该文本转换装置还包括:架构模块;
所述架构模块具体用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;
所述元素提取模块具体用于:按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。
在其中一种可选的实施方式中,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。
本发明实施例三提供了一种文本转换装置,通过获取待转换的参考文献文本;利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件,从而实现了对参考文献的XML文件的自动生成,提高了XML文件的生成效率。
图5为本发明实施例四提供的一种文本转换装置的硬件结构示意图。如图5所示,该文本转换装置包括:存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述实施例的方法。
本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述实施例的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种文本转换方法,其特征在于,包括:
获取待转换的参考文献文本;
利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;
根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
2.根据权利要求1所述的文本转换方法,其特征在于,所述正则表达式组包括第一正则表达式和第二正则表达式;
相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以确定参考文献中的与每个类型的正则表达式相应的元素信息,包括:
利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;
利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。
3.根据权利要求1所述的文本转换方法,其特征在于,所述获取待转换的参考文献文本之前,还包括:
根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;
相应的,所述利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,包括:
按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。
4.根据权利要求1-3任一项所述的文本转换方法,其特征在于,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。
5.一种文本转换装置,其特征在于,包括:
通信模块,用于获取待转换的参考文献文本;
元素提取模块,用于利用预设的多个类型的正则表达式组,依次对所述参考文献文本进行处理,以提取参考文献中的与每个类型的正则表达式组相应的元素信息;
输出模块,用于根据标签文件对获得的所述元素信息进行标签标注,并将标注后的元素信息输入至结构样本模板,生成参考文献的XML文件。
6.根据权利要求5所述的文本转换装置,其特征在于,所述正则表达式组包括第一正则表达式和第二正则表达式;
所述元素提取模块,具体用于:
利用各类型的第一正则表达式依次对所述参考文献文本进行处理,获得各类型的待提取的元素信息在参考文献文本中的位置范围;利用各类型的第二正则表达式对与相应类型的位置范围的参考文献文本进行元素提取,获得各类型的元素信息。
7.根据权利要求5所述的文本转换装置,其特征在于,还包括:架构模块;
所述架构模块具体用于在获取待转换的参考文献文本之前根据参考文献文本的格式标准,从预设的正则表达式组库中选取相应类型的正则表达式组,并构建相应的结构树,其中所述结构树用于记录各类型的正则表达式组的处理顺序;
所述元素提取模块具体用于:按照所述结构树中记录的处理顺序,利用预设的多个类型的正则表达式组对所述参考文献文本进行处理。
8.根据权利要求5-7任一项所述的文本转换装置,其特征在于,所述标签文件包括:参考文献编号、作者、文献题目、出版年、卷号、期号、页码。
9.一种文本转换装置,其特征在于,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器运行所述计算机程序时执行权利要求1-4任一项所述的方法。
10.一种可读存储介质,其特征在于,包括程序,当其在终端上运行时,使得终端执行权利要求1-4任一项所述的方法。
CN201811625152.5A 2018-12-28 2018-12-28 文本转换方法、装置及可读存储介质 Expired - Fee Related CN111401005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811625152.5A CN111401005B (zh) 2018-12-28 2018-12-28 文本转换方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811625152.5A CN111401005B (zh) 2018-12-28 2018-12-28 文本转换方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN111401005A true CN111401005A (zh) 2020-07-10
CN111401005B CN111401005B (zh) 2022-06-14

Family

ID=71435898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811625152.5A Expired - Fee Related CN111401005B (zh) 2018-12-28 2018-12-28 文本转换方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111401005B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591438A (zh) * 2021-07-30 2021-11-02 远光软件股份有限公司 文本转换方法、电子设备及计算机可读存储装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
US20080320579A1 (en) * 2007-06-21 2008-12-25 Thomson Corporation Method and system for validating references
CN101630283A (zh) * 2008-07-16 2010-01-20 鸿富锦精密工业(深圳)有限公司 自动生成报告的系统及方法
WO2011159843A2 (en) * 2010-06-15 2011-12-22 Thomson Reuters (Scientific) Inc. System and method for citation processing, presentation and transport for validating references
CN105824791A (zh) * 2016-03-17 2016-08-03 北京信息科技大学 一种参考文献格式检查方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
US20080320579A1 (en) * 2007-06-21 2008-12-25 Thomson Corporation Method and system for validating references
CN101630283A (zh) * 2008-07-16 2010-01-20 鸿富锦精密工业(深圳)有限公司 自动生成报告的系统及方法
WO2011159843A2 (en) * 2010-06-15 2011-12-22 Thomson Reuters (Scientific) Inc. System and method for citation processing, presentation and transport for validating references
CN105824791A (zh) * 2016-03-17 2016-08-03 北京信息科技大学 一种参考文献格式检查方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591438A (zh) * 2021-07-30 2021-11-02 远光软件股份有限公司 文本转换方法、电子设备及计算机可读存储装置
CN113591438B (zh) * 2021-07-30 2024-01-12 远光软件股份有限公司 文本转换方法、电子设备及计算机可读存储装置

Also Published As

Publication number Publication date
CN111401005B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN109933752B (zh) 一种导出电子文档的方法和装置
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
CN102402432A (zh) 用于产生多国语言网页的方法
CN108681547A (zh) 一种基于小程序的网页内容转换方法及装置
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN110826342A (zh) 一种实现模型管理的方法、装置、计算机存储介质及终端
CN106776779B (zh) 基于Mac平台的JSON数据生成实体文件的方法
CN104899203B (zh) 一种网页页面的生成方法、装置及终端设备
CN108509504A (zh) 文档在线预览方法、装置、设备、客户端及存储介质
CN111143642A (zh) 网页分类方法、装置、电子设备及计算机可读存储介质
CN111401005B (zh) 文本转换方法、装置及可读存储介质
CN111611788B (zh) 一种数据处理的方法及装置、电子设备、存储介质
CN112632948B (zh) 案件文书排序方法及相关设备
CN111273903B (zh) 网页制作方法、装置、计算机设备及计算机存储介质
CN103440231A (zh) 用于比较文本的设备和方法
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN106372042A (zh) 一种文档内容获取方法和装置
CN115796146A (zh) 一种文件对比方法及装置
CN114817586A (zh) 目标对象的分类方法、装置、电子设备和存储介质
CN113778820A (zh) 应用程序数据导出方法、设备、电子设备及存储介质
CN109992293B (zh) Android系统组件版本信息的组装方法及装置
KR101165201B1 (ko) 컨텐츠 제공 시스템의 변환서버
CN112785284A (zh) 基于结构化文档的报文入库方法及装置
CN112800078A (zh) 基于javascript的轻量级文本标注方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230613

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220614

CF01 Termination of patent right due to non-payment of annual fee