CN110852044A - 一种基于结构化的文本编辑方法和系统 - Google Patents

一种基于结构化的文本编辑方法和系统 Download PDF

Info

Publication number
CN110852044A
CN110852044A CN201810948587.7A CN201810948587A CN110852044A CN 110852044 A CN110852044 A CN 110852044A CN 201810948587 A CN201810948587 A CN 201810948587A CN 110852044 A CN110852044 A CN 110852044A
Authority
CN
China
Prior art keywords
text
editing
character string
structured
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810948587.7A
Other languages
English (en)
Other versions
CN110852044B (zh
Inventor
马正方
谭红
马也驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yi Network Technology Co Ltd
Original Assignee
Shanghai Yi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yi Network Technology Co Ltd filed Critical Shanghai Yi Network Technology Co Ltd
Priority to CN201810948587.7A priority Critical patent/CN110852044B/zh
Publication of CN110852044A publication Critical patent/CN110852044A/zh
Application granted granted Critical
Publication of CN110852044B publication Critical patent/CN110852044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于结构化的文本编辑方法和系统,提高了尤其是大容量、对内容理解要求高的电子文本的编辑效率。其技术方案为:通过先将电子文本进行自动结构化,用树形图表达文本结构,用户可在树形图上调整文本结构(例如可以通过简单的拖曳操作实现结构上的编辑),最后系统将调整后的文本结构自动化转换成新的电子文本。相较于传统技术,本发明能够通过树形图所展现的文本内容的知识结构,让用户能全面迅速的理解电子文本对应的内容,并方便的在树形图上开展基于知识结构的编辑操作,一方面加大了用户对文本内容的把握,另一方面提高了编辑的精准度和工作效率。

Description

一种基于结构化的文本编辑方法和系统
技术领域
本发明涉及电子文本的编辑处理技术,尤其涉及基于结构化体系实现对电子文本的编辑处理。
背景技术
传统的电子文本的编辑是由用户在文本编辑软件(例如WORD软件、WPS软件等)中手动编辑(包括增加、删除、修改等操作)文本内容来实现。这种编辑方式只适合简单内容的编辑,或者某一局部内容的编辑。对于一份内容较多、逻辑复杂的文本,用户无法在短时间内对文本进行有效的编辑,而是需要用户花费较长时间阅读文本内容,在获得对文本内容的深刻理解之后,才能有效的对文本进行编辑。因此,传统的电子文本编辑方式在面对大容量、复杂度高的文本内容的时候,会大大降低工作效率。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种基于结构化的文本编辑方法和系统,提高了尤其是大容量、对内容理解要求高的电子文本的编辑效率。
本发明的技术方案为:本发明揭示了一种基于结构化的文本编辑方法,包括:
步骤1:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;
步骤2:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;
步骤3:将处理后的知识结构显示在界面上供用户编辑;
步骤4:将用户编辑后的知识结构自动转换为新的电子文本。
根据本发明的基于结构化的文本编辑方法的一实施例,步骤1中的待编辑的电子文本是同一文本或多个文本。
根据本发明的基于结构化的文本编辑方法的一实施例,步骤2进一步包括:
步骤a:将字符串文本按照换行符进行分隔;
步骤b:加载序号,其中序号分为多个等级的序号;
步骤c:创建字典格式的数据;
步骤d:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行不同等级序号的检索;
步骤e:输出嵌套形式的字典格式的数据。
根据本发明的基于结构化的文本编辑方法的一实施例,步骤b中加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号。
根据本发明的基于结构化的文本编辑方法的一实施例,在步骤b和步骤c之间还包括:
从字符串文本中识别并分隔出目录和/或结论对应的一段文本。
根据本发明的基于结构化的文本编辑方法的一实施例,在步骤2中,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。
根据本发明的基于结构化的文本编辑方法的一实施例,步骤3中的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。
本发明还揭示了一种基于结构化的文本编辑系统,系统包括:
第一格式转换模块,用于对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;
自动结构化处理模块,用于基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;
知识结构编辑模块,用于将处理后的知识结构显示在界面上并由用户进行编辑;
第二格式转换模块,用于将用户编辑后的知识结构自动转换为新的电子文本。
根据本发明的基于结构化的文本编辑系统的一实施例,自动结构化处理模块进一步包括:
换行分隔单元,将字符串文本按照换行符进行分隔;
序号加载单元,加载序号;
字典创建单元,创建字典格式的数据;
循环检索单元,基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号以及后续等级序号的检索;
字典数据输出单元,输出经过自动结构化处理的嵌套形式的字典格式数据。
根据本发明的基于结构化的文本编辑系统的一实施例,序号加载单元所加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号;自动结构化处理模块还包括:
序号检索单元,检索字符串文本中的序号。
根据本发明的基于结构化的文本编辑系统的一实施例,自动结构化处理模块还包括:
特殊段落分隔单元,从字符串文本中识别并分隔出目录和/或结论对应的一段文本。
根据本发明的基于结构化的文本编辑系统的一实施例,系统还包括:
深度学习目标检测模块,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。
根据本发明的基于结构化的文本编辑系统的一实施例,第一格式转换模块中待编辑的电子文本是同一文本或多个文本;知识结构编辑模块的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。
本发明揭示了一种基于结构化的文本编辑系统,包括:
处理器;以及
存储器,存储器被配置为存储一系列计算机可执行的指令以及与一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如前述的方法。
本发明还揭示了一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如前述的方法。
本发明对比现有技术有如下的有益效果:本发明通过先将电子文本进行自动结构化,用树形图表达文本结构,用户可在树形图上调整文本结构(例如可以通过简单的拖曳操作实现结构上的编辑),最后系统将调整后的文本结构自动化转换成新的电子文本。相较于传统技术,本发明能够通过树形图所展现的文本内容的知识结构,让用户能全面迅速的理解电子文本对应的内容,并方便的在树形图上开展基于知识结构的编辑操作,一方面加大了用户对文本内容的把握,另一方面提高了编辑的精准度和工作效率。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的基于结构化的文本编辑方法的一实施例的流程图。
图2示出了本发明的基于结构化的文本编辑方法的另一实施例的流程图。
图3示出了本发明的基于结构化的文本编辑系统的一实施例的原理图。
图4示出了本发明实施例中的自动结构化处理模块的原理图。
图5示出了本发明实施例中的将文本进行自动结构化处理步骤的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的基于结构化的文本编辑方法的一实施例的流程。请参见图1,下面是对本实施例的文本编辑方法的实施步骤的详细描述。
本实施例是针对在单一一个电子文本中进行编辑的情况。
步骤S11:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本。
对于Word文本来说,通常是使用docx开源库来解析Word文本中的文字。而转换成的字符串文本的格式通常是Python语言下的str格式。
步骤S12:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理。
自动结构化的具体处理过程如图5所示,包括了以下的处理步骤。
步骤S31:将字符串文本按照换行符进行分隔。
例如,在Python中使用document=document_parameter.split('\n')进行换行符分隔。
步骤S32:检索字符串文本中的序号。
序号例如可以包括“第一……”、“第1……”、“……一”、“……1”等诸如此类的格式。
步骤S33:加载系统自带的序号库以及步骤S32中检索出的序号。
其中系统自带的序号库包括但不限于word文档中常用的序号库等。当然,本实施例此处的目的是得到后续步骤中需要用到的序号,而序号的来源可以来自于步骤S32中的检索、也可以来自于系统自带的序号库,序号的具体来源并不用于限制本发明的保护范围。
步骤S34:从字符串文本中识别并分隔出目录和/或结论对应的一段文本。
例如,可以对分隔后的每一段文本检索包括“目录”和/或“结论”等相关字样在内的关键词,将检索到的这一段文本从字符串文本中分隔出来。
步骤S35:创建字典格式的数据。
字典格式(dic格式)的数据例如为:{'name':”,'doc':”,'ch':[]},其中name为标题,类型为字符串;doc为标题下的文本,类型为字符串;ch为标题下的子集,类型为列表。
步骤S36:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号检索。
按照步骤S33加载好的序号对字符串文本进行检索。循环字符串文本的所有段落,针对每一段落循环序号列表中所有序号的第一个序号,即“1.”、“a.”等等,若检索不到,则将该段落的文本复制到相对应dic数据中的doc下;若检索到了,则接下来对每段字符串文本中检索该序号的继承序号,即“2.”、“b.”等等,以此类推,每检测到一个序号就在dic数据中的ch列表中新建一个{'name':”,'doc':”,'ch':[]}字典,将序号段落赋值在“name”中,两个序号之间的段落暂时复制在中间变量中,附属在相对应的序号下,针对于后续等级序号检索使用。
步骤S37:对后续等级序号的检索
根据步骤S36的中间变量中的内容,在其相应的序号的ch列表中创建新的字典(dic格式)格式的数据,重新按照步骤S36的检索序号的方式进行后续等级序号(例如第二等级序号、第三等级序号、……)检索,直至新的中间变量中所有段落都检索不到序号列表中所有序号的第一个序号,即“1.”、“a.”等等。
步骤S38:经过上述自动结构化处理,最终输出嵌套形式的dic格式数据的结果。
举例来说,原始文本内容如下:
“基于岗位市场薪酬的人才保留决策模型(修订版)
原创2017-03-13章森
一、决策情境
当一些员工提出离职,这人是留还是不留?
二、决策准备:基于岗位的市场薪酬数据
在做定性决策之前,需要有一个基本的决策信息准备,即这个岗位的市场薪酬数据的正态分布是怎么样的,笔者称为3P数据结构(岗位,薪酬,百分位)。。
三、六种保留情境
基于以上这个模型(一正态,三根轴)框架,我们可以得到人才保留的六种情境,不同的情境,保留策略不一样。如何保留,看情况!!
情境1:VOD<VOP<VOM
该员工相比现在的payment,能够在市场上拿到更好的OFFER.但是理性滴思考,企业其实并不需要在该岗位上有那么强的人才,或许一个50分位的能力就差不多,能力高了,也是一种浪费!
情境2:VOD<VOM<VOP
该员工在组织内被高pay了,市场不会对价该员工现在的payment。同时企业在该岗位上,也不需要那么好的人才;那么在合适的时候,换人、调薪或许是一个理性的决策!
情境3:VOP<VOM<VOD
该岗位是公司的核心岗位,需要高分位的人才,但该员工的市场能力略低于组织的需要,但是公司也低pay了;这时候,进行调薪且有针对性滴培养,或许是一条不错的策略。
情境4:VOP<VOD<VOM
该员工在组织内被远远低pay了,但是企业在该岗位上也不需要那么能力那么强的人才。这时,合适的调薪,给予员工更多的发挥价值空间,或许是比较不错的做法。
情境5:VOM<VOP<VOD
该员工在组织内被高pay了,但是企业在该岗位上需要能力更强的人才。这是一个比较典型糟糕的雇佣局面,换人或许是最理性的决策。
情境6:VOM<VOD<VOP
该员工在组织内被远远低高pay了,企业在该岗位上需要中等能力的人才。这也算是比较糟糕的雇佣局面,那么调薪且在合适的时间换人或许是较为理性的做法。
四、特别说明
此模型适合个人(One-One)的薪酬决策,不适合组织的决策!可以适合组织诊断,看看每种情境下,你的组织更多是哪种情境?可以做一个情境分布观察!”
对于上述例子中的文本,本实施例的序号处理过程为:
1)加载序号库里面的序号,这里指的是“一、”序号,加载检索出的序号,这里指的是“情景一”序号。
2)对分隔好的每一段文本循环检索序号,这里指的是前两段文字,即:“基于岗位市场薪酬的人才保留决策模型(修订版)”,“原创2017-03-13章森”并没有检索到序号,因此放在dic数据中的doc下;第三段文字,即“一、决策情境”,检索到“一、”序号,所以后续段落检索“一、”的继承序号,每检测到一个序号就在dic数据中的ch列表中新建一个{'name':”,'doc':”,'ch':[]}字典,将序号段落赋值在“name”中,这里包括“一、决策情境”、“二、决策准备:基于岗位的市场薪酬数据”、“三、六种保留情境”以及“四、特别说明”,两个序号之间的段落暂时复制在中间变量中,并附属在相对应的序号下,针对于下一等级序号检索使用。
步骤S13:将处理后的知识结构显示在界面上,其中知识结构中的每一个知识点的标题以及标题对应的文本内容都由用户进行编辑。
其中知识结构在界面上的显示方式是树形图(也可以称为脑图)的方式。
步骤S14:将用户编辑后的知识结构自动转换为新的电子文本。
转换格式的设置例如为:不同等级标题的字体设置为12-16号宋体,等级越高字体越小;其中不同等级标题下文档的字体统一设置12号宋体;其中不同等级标题的缩进按照1个字符不断增加;其中不同等级标题下文档的每个段落起始行缩进2个字符。
树形的知识结构中的知识点(或称为词条)属性包括:词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
在前述实施例中,由于在自动结构化字符串文本中可能会出现“首先、其次、最后”这样的序号或者出现“1.、”、“2.、”、“4./”、“3..”这样的笔误序号,针对于这种文本情况,按照前述的传统检索方式(前述的步骤S12)会出现漏检的情况,可以辅助结合深度学习目标检测方法对前述实施例的方法进行改进。具体而言,采用前述实施例步骤S12中检测出的结果以及人为增加一些容易笔误的序号,通过FasterRCNN目标检测方法进行检测,根据一份处理的原始电子文本,将其转换成图片格式数据,圈出图片下的全部序号,再结合前述实施例步骤S12的序号检测结果,对自动结构化的结果进行二次校正,从而避免漏检序号。
图2示出了本发明的基于结构化的文本编辑方法的另一实施例的流程。请参见图2,下面是对本实施例的文本编辑方法的实施步骤的详细描述。
本实施例是针对多个电子文本进行编辑的情况,例如从多个文本中剪切出部分内容后将其编辑到另一个新的文本中。
步骤S21:对多个待编辑的电子文本进行文字解析,将每一文本中的文字各自转换成字符串文本。
对于Word文本来说,通常是使用docx开源库来解析Word文本中的文字。而转换成的字符串文本的格式通常是Python语言下的str格式。
步骤S22:基于转换来的多个字符串文本,对各自对应的待编辑的每一电子文本进行自动结构化的处理。
自动结构化的具体处理过程如图5所示,包括了以下的处理步骤。
步骤S31:将字符串文本按照换行符进行分隔。
例如,在Python中使用document=document_parameter.split('\n')进行换行符分隔。
步骤S32:检索字符串文本中的序号。
序号例如可以包括“第一……”、“第1……”、“……一”、“……1”等诸如此类的格式。
步骤S33:加载系统自带的序号库以及步骤S32中检索出的序号。
其中系统自带的序号库包括但不限于word文档中常用的序号库等。当然,本实施例此处的目的是得到后续步骤中需要用到的序号,而序号的来源可以来自于步骤S32中的检索、也可以来自于系统自带的序号库,序号的具体来源并不用于限制本发明的保护范围。
步骤S34:从字符串文本中识别并分隔出目录和/或结论对应的一段文本。
例如,可以对分隔后的每一段文本检索包括“目录”和/或“结论”等相关字样在内的关键词,将检索到的这一段文本从字符串文本中分隔出来。
步骤S35:创建字典格式的数据。
字典格式(dic格式)的数据例如为:{'name':”,'doc':”,'ch':[]},其中name为标题,类型为字符串;doc为标题下的文本,类型为字符串;ch为标题下的子集,类型为列表。
步骤S36:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号检索。
按照步骤S33加载好的序号对字符串文本进行检索。循环字符串文本的所有段落,针对每一段落循环序号列表中所有序号的第一个序号,即“1.”、“a.”等等,若检索不到,则将该段落的文本复制到相对应dic数据中的doc下;若检索到了,则接下来对每段字符串文本中检索该序号的继承序号,即“2.”、“b.”等等,以此类推,每检测到一个序号就在dic数据中的ch列表中新建一个{'name':”,'doc':”,'ch':[]}字典,将序号段落赋值在“name”中,两个序号之间的段落暂时复制在中间变量中,附属在相对应的序号下,针对于后续等级序号检索使用。
步骤S37:对后续等级序号的检索
根据步骤S36的中间变量中的内容,在其相应的序号的ch列表中创建新的字典(dic格式)格式的数据,重新按照步骤S36的检索序号的方式进行后续等级序号(例如第二等级序号、第三等级序号、……)检索,直至新的中间变量中所有段落都检索不到序号列表中所有序号的第一个序号,即“1.”、“a.”等等。
步骤S38:经过上述自动结构化处理,最终输出嵌套形式的dic格式数据的结果。
步骤S23:将处理后的每一电子文本对应的知识结构显示在界面上,其中任一知识结构中的每一个知识点的标题以及标题对应的文本内容都由用户进行编辑,用户的编辑动作包括从每一个知识结构中摘取所需部分,重新拼接成新的知识结构。
其中知识结构在界面上的显示方式是树形图(也可以称为脑图)的方式。
步骤S24:将用户拼接而成的知识结构自动转换为新的电子文本。
转换格式的设置例如为:不同等级标题的字体设置为12-16号宋体,等级越高字体越小;其中不同等级标题下文档的字体统一设置12号宋体;其中不同等级标题的缩进按照1个字符不断增加;其中不同等级标题下文档的每个段落起始行缩进2个字符。
树形的知识结构中的知识点(或称为词条)属性包括:词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
在前述实施例中,由于在自动结构化字符串文本中可能会出现“首先、其次、最后”这样的序号或者出现“1.、”、“2.、”、“4./”、“3..”这样的笔误序号,针对于这种文本情况,按照前述的传统检索方式(前述的步骤S22)会出现漏检的情况,可以辅助结合深度学习目标检测方法对前述实施例的方法进行改进。具体而言,采用前述实施例步骤S22中检测出的结果以及人为增加一些容易笔误的序号,通过FasterRCNN目标检测方法进行检测,根据一份处理的原始电子文本,将其转换成图片格式数据,圈出图片下的全部序号,再结合前述实施例步骤S22的序号检测结果,对自动结构化的结果进行二次校正,从而避免漏检序号。
图3示出了本发明的基于结构化的文本编辑系统的一实施例的原理。请参见图3,本实施例的文本编辑系统包括:第一格式转换模块、自动结构化处理模块、知识结构编辑模块、第二格式转换模块。
第一格式转换模块用于对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本。可以如前述的第一实施例那样对单一文本场景的格式转换,也可以如前述的第二实施例那样对多个文本场景的格式转换。
自动结构化处理用于基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理。同样的,也可以如前述的第一实施例那样对单一文本格式转换后的字符串文本进行自动结构化处理,也可以如前述的第二实施例那样对多个文本中的每一个字符串文本分别都进行自动结构化处理。
图4示出了本发明实施例中的自动结构化处理模块的原理。请参见图4,本实施例中的自动结构化处理模块包括:换行分隔单元、序号检索单元、序号加载单元、特殊段落分隔单元、字典创建单元、循环检索单元、字典数据输出单元。
换行分隔单元将字符串文本按照换行符进行分隔。
序号检索单元检索字符串文本中的序号。序号例如可以包括“第一……”、“第1……”、“……一”、“……1”等诸如此类的格式。
序号加载单元加载系统自带的序号库以及序号检索单元中检索出的序号。其中系统自带的序号库包括但不限于word文档中常用的序号库等。当然,本实施例此处的目的是得到后续单元的处理中需要用到的序号,而序号的来源可以来自于序号检索单元的检索、也可以来自于系统自带的序号库,序号的具体来源并不用于限制本发明的保护范围。
特殊段落分隔单元从字符串文本中识别并分隔出目录和/或结论对应的一段文本。此处的特殊段落是指包括目录或者结论等在内的区分于文本中其他普通段落的内容。例如,特殊段落分隔单元可以对分隔后的每一段文本检索包括“目录”和/或“结论”等相关字样在内的关键词,将检索到的这一段文本从字符串文本中分隔出来。
字典创建单元创建字典格式的数据。字典格式(dic格式)的数据例如为:{'name':”,'doc':”,'ch':[]},其中name为标题,类型为字符串;doc为标题下的文本,类型为字符串;ch为标题下的子集,类型为列表。
循环检索单元基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号以及后续等级序号的检索。
详细而言,先按照序号加载单元加载好的序号对字符串文本进行检索。循环字符串文本的所有段落,针对每一段落循环序号列表中所有序号的第一个序号,即“1.”、“a.”等等,若检索不到,则将该段落的文本复制到相对应dic数据中的doc下;若检索到了,则接下来对每段字符串文本中检索该序号的继承序号,即“2.”、“b.”等等,以此类推,每检测到一个序号就在dic数据中的ch列表中新建一个{'name':”,'doc':”,'ch':[]}字典,将序号段落赋值在“name”中,两个序号之间的段落暂时复制在中间变量中,附属在相对应的序号下,针对于后续等级序号检索使用。
然后根据之前的中间变量中的内容,在其相应的序号的ch列表中创建新的字典(dic格式)格式的数据,重新按照之前对第一等级序号的检索方式进行后续等级序号(例如第二等级序号、第三等级序号、……)检索,直至新的中间变量中所有段落都检索不到序号列表中所有序号的第一个序号,即“1.”、“a.”等等。
字典数据输出单元输出经过自动结构化处理的嵌套形式的dic格式数据的结果。
知识结构编辑模块用于将处理后的知识结构显示在界面上并由用户进行编辑。可以如前述的第一实施例那样,对单一知识结构中的每一个知识点的标题以及标题对应的文本内容都可进行编辑,重新编辑成一个新的知识结构。也可以如前述的第二实施例那样,对多个知识结构中的每一个知识结构的局部进行剪切,再将剪切出的结构重新拼接为一个新的知识结构。其中知识结构在界面上的显示方式是树形图(也可以称为脑图)的方式。
第二格式转换模块用于将用户编辑后的知识结构自动转换为新的电子文本。树形的知识结构中的知识点(或称为词条)属性包括:词条标识(ID)、词条名称(name)、词条文本(document)、父级词条(parent)、子级词条(children)。在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。转换格式的设置例如为:不同等级标题的字体设置为12-16号宋体,等级越高字体越小;其中不同等级标题下文档的字体统一设置12号宋体;其中不同等级标题的缩进按照1个字符不断增加;其中不同等级标题下文档的每个段落起始行缩进2个字符。
此外,在前述实施例中,由于在自动结构化字符串文本中可能会出现“首先、其次、最后”这样的序号或者出现“1.、”、“2.、”、“4./”、“3..”这样的笔误序号,针对于这种文本情况,按照前述系统的传统检索方式会出现漏检的情况,可以辅助结合深度学习目标检测方法对前述实施例的系统进行改进。具体而言,系统还包括深度学习目标检测模块,采用前述实施例中检测出的结果以及人为增加一些容易笔误的序号,通过FasterRCNN目标检测方法进行检测,根据一份处理的原始电子文本,将其转换成图片格式数据,圈出图片下的全部序号,再结合前述实施例的序号检测结果,对自动结构化的结果进行二次校正,从而避免漏检序号。
此外,本发明揭示了一种基于结构化的文本编辑系统,包括处理器和存储器,其中存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据,其中,当这一系列计算机可执行的指令被该处理器执行时,使得该处理器进行如前述两个实施例的方法。
本发明还揭示了一种非临时性计算机可读存储介质,非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当这一系列可执行的指令被计算装置执行时,使得计算装置进行如前述两个实施例的方法。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (15)

1.一种基于结构化的文本编辑方法,其特征在于,包括:
步骤1:对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;
步骤2:基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;
步骤3:将处理后的知识结构显示在界面上供用户编辑;
步骤4:将用户编辑后的知识结构自动转换为新的电子文本。
2.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤1中的待编辑的电子文本是同一文本或多个文本。
3.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤2进一步包括:
步骤a:将字符串文本按照换行符进行分隔;
步骤b:加载序号,其中序号分为多个等级的序号;
步骤c:创建字典格式的数据;
步骤d:基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行不同等级序号的检索;
步骤e:输出嵌套形式的字典格式的数据。
4.根据权利要求3所述的基于结构化的文本编辑方法,其特征在于,步骤b中加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号。
5.根据权利要求4所述的基于结构化的文本编辑方法,其特征在于,在步骤b和步骤c之间还包括:
从字符串文本中识别并分隔出目录和/或结论对应的一段文本。
6.根据权利要求3所述的基于结构化的文本编辑方法,其特征在于,在步骤2中,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。
7.根据权利要求1所述的基于结构化的文本编辑方法,其特征在于,步骤3中的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。
8.一种基于结构化的文本编辑系统,其特征在于,系统包括:
第一格式转换模块,用于对待编辑的电子文本进行文字解析,将文本中的文字转换成字符串文本;
自动结构化处理模块,用于基于转换来的字符串文本,对待编辑的电子文本进行自动结构化的处理;
知识结构编辑模块,用于将处理后的知识结构显示在界面上并由用户进行编辑;
第二格式转换模块,用于将用户编辑后的知识结构自动转换为新的电子文本。
9.根据权利要求8所述的基于结构化的文本编辑系统,其特征在于,自动结构化处理模块进一步包括:
换行分隔单元,将字符串文本按照换行符进行分隔;
序号加载单元,加载序号;
字典创建单元,创建字典格式的数据;
循环检索单元,基于所创建的字典格式的数据,以循环字符串文本所有段落的方式对字符串文本进行第一等级序号以及后续等级序号的检索;
字典数据输出单元,输出经过自动结构化处理的嵌套形式的字典格式数据。
10.根据权利要求9所述的基于结构化的文本编辑系统,其特征在于,序号加载单元所加载的序号包括系统自带的序号库或者从字符串文本中检索得到的序号;自动结构化处理模块还包括:
序号检索单元,检索字符串文本中的序号。
11.根据权利要求9所述的基于结构化的文本编辑系统,其特征在于,自动结构化处理模块还包括:
特殊段落分隔单元,从字符串文本中识别并分隔出目录和/或结论对应的一段文本。
12.根据权利要求9所述的基于结构化的文本编辑系统,其特征在于,系统还包括:
深度学习目标检测模块,基于检测出的结果以及人为增加的容易笔误的序号,通过FasterRCNN目标检测方法进行检测,对自动结构化的结果进行二次校正以避免漏检序号。
13.根据权利要求8所述的基于结构化的文本编辑系统,其特征在于,第一格式转换模块中待编辑的电子文本是同一文本或多个文本;知识结构编辑模块的用户编辑包括在单一一个知识结构上的对其所包含的知识点的标题及其内容的编辑、或者在多个知识结构中的其中任意的局部结构的剪切并进行拼接的编辑。
14.一种基于结构化的文本编辑系统,其特征在于,包括:
处理器;以及
存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如权利要求1至7中任一项所述的方法。
15.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如权利要求1至7中任一项所述的方法。
CN201810948587.7A 2018-08-20 2018-08-20 一种基于结构化的文本编辑方法和系统 Active CN110852044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810948587.7A CN110852044B (zh) 2018-08-20 2018-08-20 一种基于结构化的文本编辑方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810948587.7A CN110852044B (zh) 2018-08-20 2018-08-20 一种基于结构化的文本编辑方法和系统

Publications (2)

Publication Number Publication Date
CN110852044A true CN110852044A (zh) 2020-02-28
CN110852044B CN110852044B (zh) 2023-09-15

Family

ID=69594382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810948587.7A Active CN110852044B (zh) 2018-08-20 2018-08-20 一种基于结构化的文本编辑方法和系统

Country Status (1)

Country Link
CN (1) CN110852044B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415412A (zh) * 2020-03-18 2020-07-14 北京山维科技股份有限公司 一种立体测图采编系统和方法
CN113221516A (zh) * 2020-09-14 2021-08-06 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009007181A1 (en) * 2007-07-10 2009-01-15 International Business Machines Corporation A method, system and computer program for intelligent text annotation
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN107145588A (zh) * 2017-05-11 2017-09-08 上海颐学网络科技有限公司 一种文件夹树形图自动创建方法和系统
CN107463537A (zh) * 2016-06-03 2017-12-12 北京新唐思创教育科技有限公司 一种对文本信息进行结构化处理的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009007181A1 (en) * 2007-07-10 2009-01-15 International Business Machines Corporation A method, system and computer program for intelligent text annotation
CN105630916A (zh) * 2015-12-21 2016-06-01 浙江工业大学 一种大数据环境下非结构化表格文档数据抽取与组织方法
CN107463537A (zh) * 2016-06-03 2017-12-12 北京新唐思创教育科技有限公司 一种对文本信息进行结构化处理的方法
CN107145588A (zh) * 2017-05-11 2017-09-08 上海颐学网络科技有限公司 一种文件夹树形图自动创建方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
侯霞;孟飞;杨鸿波;: "文档编辑与排版系统的设计" *
黄传连;郭世仁;周志德;: "《声律启蒙》原文文本结构化数据库的设计与实现" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415412A (zh) * 2020-03-18 2020-07-14 北京山维科技股份有限公司 一种立体测图采编系统和方法
CN111415412B (zh) * 2020-03-18 2023-08-04 北京山维科技股份有限公司 一种立体测图采编系统和方法
CN113221516A (zh) * 2020-09-14 2021-08-06 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统
CN113221516B (zh) * 2020-09-14 2021-11-30 苏州七星天专利运营管理有限责任公司 一种文档辅助编辑的方法和系统

Also Published As

Publication number Publication date
CN110852044B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
US10897439B2 (en) Conversational enterprise document editing
US10733193B2 (en) Similar document identification using artificial intelligence
US11573954B1 (en) Systems and methods for processing natural language queries for healthcare data
US7130867B2 (en) Information component based data storage and management
US7739116B2 (en) Subtitle generation and retrieval combining document with speech recognition
US20050234858A1 (en) Recording and reproducing apparatus, reproducing apparatus, recording and reproducing method, reproducing method, program and recording medium
US10698937B2 (en) Split mapping for dynamic rendering and maintaining consistency of data processed by applications
CN112632326B (zh) 一种基于视频脚本语义识别的视频生产方法及装置
US9372843B2 (en) Document association device, document association method, and non-transitory computer readable medium
US20170228356A1 (en) System Generator Module for Electronic Document and Electronic File
CN107203574A (zh) 数据管理和数据分析的聚合
US11334644B2 (en) Methods and systems for three-way merges of object representations
CN110852044B (zh) 一种基于结构化的文本编辑方法和系统
US9652456B2 (en) Automated relationship management for darwin information typing architecture
CN112507660A (zh) 一种用于复合文档的同源判定、差异化显示方法和系统
CN109118156B (zh) 一种图书信息协同系统和方法
US20220318329A1 (en) Collaborative comment analysis and modification to content
US10073838B2 (en) Method and system for enabling verifiable semantic rule building for semantic data
CN112699642B (zh) 复杂医疗文书的索引提取方法及装置、介质及电子设备
CN111401005B (zh) 文本转换方法、装置及可读存储介质
US20220100703A1 (en) Integrated universal file converter
CN116011453A (zh) 一种实体关系抽取模型生成方法及实体关系抽取方法
KR100478903B1 (ko) 매개 파일을 이용한 웹사이트 편집 장치 및 방법
EP1628227A1 (en) Data processing device, data processing method, data processing program, and computer-readable recording medium containing the data processing program
JPH11327972A (ja) 文書間差異反映方法および文書間差異反映プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant