CN108804404B - 字符文本处理方法及装置 - Google Patents

字符文本处理方法及装置 Download PDF

Info

Publication number
CN108804404B
CN108804404B CN201810530782.8A CN201810530782A CN108804404B CN 108804404 B CN108804404 B CN 108804404B CN 201810530782 A CN201810530782 A CN 201810530782A CN 108804404 B CN108804404 B CN 108804404B
Authority
CN
China
Prior art keywords
character
text data
chapter
sorting
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810530782.8A
Other languages
English (en)
Other versions
CN108804404A (zh
Inventor
周宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810530782.8A priority Critical patent/CN108804404B/zh
Publication of CN108804404A publication Critical patent/CN108804404A/zh
Application granted granted Critical
Publication of CN108804404B publication Critical patent/CN108804404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实提供的一种字符文本处理方法及装置。其中,所述方法包括获取待处理的字符文本数据;将所述字符文本数据划分为多个章节文本数据;统计每一所述章节文本数据内的所述字符句的首字母的种类数量,并按照从小到大的顺序,对所述章节文本数据进行排序;获得多个目标字符句;提取对应的标记字符,以便生成对应的第一思维云图,供所述电子学习设备进行展示。也就是,通过对字符文本数据的章节的重排,更加符合人记忆对规律的依赖性,再利用第一思维云图对每个章节中的目标字符句的标记字符进行展示,确保在每一个学习的时间间隔内,学习者接受到的字符句不过量,避免遗忘,提高学习效率。

Description

字符文本处理方法及装置
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种字符文本处理方法及装置。
背景技术
随着通信技术的进步,人们的生活学习方式时刻改变着。人们可接触到的各类语种撰写的文本越来越多,而对文本的学习首先则是对该文本进行记忆。但人们阅读文本时通常原定的章节顺序进行阅读,这种方式并不方便学习者学习和记忆。特别是伴随着信息量爆炸增长,人接受信息量的能力明显减弱。因此,亟需一种辅助人们快速学习记忆大量字符组成的文本的方法,辅助学习者快速接收和记忆大量的信息量。
发明内容
本发明实施例提供一种字符文本处理方法、装置及电子学习设备,以改善上述问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
本发明实施例提供一种字符文本处理方法,应用于电子学习设备,所述方法包括:获取待处理的字符文本数据;根据所述字符文本数据的章节分隔符,将所述字符文本数据划分为多个章节文本数据,其中,所述章节文本数据包括多个字符句;统计每一所述章节文本数据内的所述字符句的首字母的种类数量;根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序;根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句;提取每个所述目标字符句的所述首字母作为对应的标记字符;根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备进行展示。
本发明实施例提供一种字符文本处理装置,应用于电子学习设备,所述装置包括:获取模块,获取待处理的字符文本数据;划分模块,用于根据所述字符文本数据的章节分隔符,将所述字符文本数据划分为多个章节文本数据,其中,所述章节文本数据包括多个字符句;统计模块,用于统计每一所述章节文本数据内的所述字符句的首字母的种类数量;排序模块,用于根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序;处理模块,用于根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句;提取模块,用于提取每个所述目标字符句的所述首字母作为对应的标记字符;生成模块,用于根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备进行展示。
与现有技术相比,本发明实施例提供的一种字符文本处理方法通过获取待处理的字符文本数据,统计字符文本数据中每一所述章节文本数据内的所述字符句的首字母的种类数量,以便根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序。然后根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,获取目标字符句,并提取每个目标字符句的所述首字母作为对应的标记字符,最后根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备进行展示。也就是,通过对字符文本数据的章节的重排,更加符合人记忆对规律的依赖性,再利用第一思维云图对每个章节中的目标字符句的标记字符进行展示,确保在每一个学习的时间间隔内,学习者接受到的字符句不过量,避免遗忘,提高学习效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明较佳实施例提供的电子学习设备的方框示意图。
图2为本发明较佳实施例提供的字符文本处理方法的步骤流程图。
图3为本发明较佳实施例提供的字符文本处理方法的步骤流程图的另一部分。
图4为本发明较佳实施例提供的字符文本处理装置的示意图。
图标:100-电子学习设备;111-存储器;112-处理器;113-通信单元;200-字符文本处理装置;201-获取模块;202-划分模块;203-统计模块;204-排列模块;205-处理模块;206-提取模块;207-生成模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是电子学习设备100的方框示意图。电子学习设备100可以是学习机、阅读器、平板电脑等。所述电子学习设备100包括字符文本处理装置200、存储器111、处理器112及通信单元113。
所述存储器111、处理器112及通信单元113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述字符文本处理装置200包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器111中或固化在所述电子学习设备的操作系统(Operating System,OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块,例如所述字符文本处理装置200所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序或者数据,存储器111还用于存储多种语种的字符文本数据,该字符文本数据可以理解为由对应语种的多个单词组成的文本。
所述通信单元113用于通过所述网络建立所述电子学习设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子学习设备100的结构示意图,所述电子学习设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
第一实施例
请参照图2,是本发明较佳实施例提供的一种字符文本处理方法。上述字符文本处理方法可以包括以下步骤:
步骤S101,获取待处理的字符文本数据。
在本发明实施例中,上述待处理的字符文本数据可以是用户从电子学习设备100中已存储的字符文本数据中选中的文本数据;也可以是由用户导入电子学习设备100的字符文本数据。
步骤S102,根据字符文本数据的章节分隔符,将字符文本数据划分为多个章节文本数据。
在本发明实施例中,字符文本数据可以包括至少一个章节文本数据。当具有多个章节文本数据时,每一个章节文本数据对应序号。任意两个章节文本数据之间具有章节分隔符。电子学习设备100可以通过识别章节分隔符,将字符文本数据划分为多个章节文本数据。进一步地,章节文本数据包括多个字符句及句分隔符,字符句由多个单词组成。以英文语种的字符文本数据为例,字符句由多个英文单词组成,字符句之间通过句分隔符“.”分开,电子学习设备100可以通过识别分隔符“.”,从章节文本数据提取出多个字符句。需要说明的是,本发明实施例还可以处理其他语种的字符文本数据(例如,法语、俄语、日语等),其处理过程相同,为了方便对本发明实施例进行说明,下面均以英文的字符文本数据进行描述。
步骤S103,统计每一章节文本数据内的字符句的首字母的种类数量。
在本发明实施例中,上述字符句的首字母可以是每个字符句中位于首位的单词的首位字符节点。统计章节文本数据中出现的不同首字母的种类数量。例如,章节文本数据包括“Last week I went to the theatre.I had a very good seat.The play was veryinteresting.I did not enjoy it.”时,则对应的首字母包括L、I及T,则对应的首字母的种类数量为3。
步骤S104,根据每个章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序。
步骤S105,根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句。
在本发明实施例中,先获取所述字符句对应的单词量,再将获取的单词量与预选阈值进行比较,若单词量超过预选阈值,则将对应的字符句划分为至少两个目标字符句,其中,目标字符句对应的单词量不超过预选阈值,若单词量未超过预选阈值,则将该字符句作为目标字符句。需要说明的是,预选阈值可以由用户根据自身在短时间内对单词接收的量设定,例如,用户1分钟可以记住5个单词,则可以将预选阈值设置为5。
步骤S106,提取每个目标字符句的首字母作为对应的标记字符。
在本发明实施例中,一字符句可以包括多个目标字符句,因此,一字符句可以对应多个标记字符。上述标记字符与对应的目标字符句之间具有映射关系,可以通过标记字符查找对应的目标字符句。
步骤S107,根据目标字符句对应的字符句在章节文本数据中出现顺序、章节文本数据的排序及该章节文本数据中字符句对应的标记字符,生成对应的第一思维云图,以便电子学习设备100进行展示。
在本发明实施例中,将每个所述章节文本数据对应的序号作为所述第一思维云图的第一根,按照所述章节文本数据的排序,按照指定方向,对所述第一根进行排列。将每个所述章节文本数据中的所述字符句对应的所述标记字符作为该章节文本数据的所述第一思维云图的第一根对应的第一树。根据每个所述字符句在对应的所述章节文本数据内的所述出现顺序,依次将所述第一根对应的所述第一树按照所述指定方向排列,以生成所述第一思维云图。需要说明的是,当字符句包括多个目标字符句时,则把排列在首位的目标字符句对应的标识字符作为所述第一根的第一树,再以第一树为第二根,将相邻下一个目标字符句对应的标识字符作为该第二根的第二树,重复直至将最后一个目标字符句对应的标识字符标记于该第一思维云图上。例如,章节文本数据为“Last week I went to thetheatre.I had a very good seat.The play was very interesting.I did not enjoyit.A young man and a young woman were sitting behind me.They were talkingloudly.I got very angry.I could not hear the actors.I turned round.I lookedat the man and the woman angrily.They did not pay any attention.In the end,Icould not bear it.I turned round again.'I can't hear a word!'I said angrily.'It's none of your business,'the young man said rudely.'This is a privateconversation!”时,对应的第一思维云图如下所示:
Figure GDA0003515636450000071
其中,
Figure GDA0003515636450000072
表示该章节文本数据中第五句字符句对应三个目标字符句,分别为“A young man and a”“young woman were sitting behind”“me”。其对应的标识字符分别为A、y和m。若相邻的多个字符句具有相同的首字母,则在对应的标识字符可以是首字母和数字组成,方便区分。
进一步地,如图3所示,字符文本处理方法还可以包括:
步骤S201,依次获取每个章节文本数据包括的多个单词。
步骤S202,将首位字符节点相同的单词放入同一排序集合中。
在本发明实施例中,分别将每一章节文本数据对应的所有单词按照首位字符节点进行分类。具体地,将具有相同首位字符节点的单词归入同一排序集合。例如,章节文本数据中包括bay、baffle、better、bitch、bit、can、clear、change、cap、crayon、why、what、where这些单词,则将bay、baffle、better、bitch、bit放入排序集合1中,将can、clear、change、cap、crayon放入排序集合2中,将why、what、where、when放入排序集合3中。
步骤S203,分别统计每个排序集合内的单词的第二位字符节点的类别的第一数量。
在本发明实施例中,将相同的第二位字符节点算作一个类别,统计每个排序集合内单词中出现的不同的第二位字符节点的种类数量。接上例,排序集合1中单词中对应的第二位字符节点的类别分别包括a、e、i三类,也就是,排序集合1对应的第一数量为3;排序集合2中单词中对应的第二位字符节点的类别分别包括a、l、h、r四类,也就是,排序集合2对应的第一数量为4;排序集合3中单词中对应的第二位字符节点的类别分别包括h一类,也就是,排序集合3对应的第一数量为1。
步骤S204,根据每个排序集合对应的第一数量,按照从小到大的顺序,对排序集合排列。
在本发明实施例中,在指定方向上,根据排序集合的第一数量之间的大小关系进行排序。具体地,将对应的第一数量大的排序集合排列在对应第一数量小的排序集合之后。接上例,三个排列集合的顺序为{why、what、where、when}{bay、baffle、baffle、better、bitch、bit}{can、clear、change、cap、crayon}。
步骤S205,根据每个排序集合内的单词的第二位字符节点的类别,分别将排序集合划分为多个排序子集。
在本发明实施例中,可以同时对每个排序集合进行划分,也可以按照排序集合的排列顺序先后划分,每个排序子集包括至少一个单词,同一个排序子集内的单词对应的第二位字符节点相同。接上例,可以将排列集合3划分为排列子集1[why、what、where、when];排列集合1划分为排序子集1[bay、baffle、baffle]、排序子集2[better]、排序子集3[bitch、bit];排列集合3划分为排序子集1[can、cap]、排序子集2[clear]、排序子集3[change],排序子集4[crayon]。
步骤S206,依次对每个排序集合对应的排序子集进行排序。
在本发明实施例中,先分别统计每个排序子集内的单词的第三位字符节点的类别的第二数量。根据每个排序子集对应的所述第二数量,按照从小到大的顺序,对所述排序子集排列,以便获得排序结果。需要说明的,仅对属于同一排序集合的排列子集之间进行排序。接上例,排列集合1的排列子集1第三位字符节点分别为y、f,即对应的第二数量为2;排列集合1的排列子集2第三位字符节点为t,即对应的第二数量为1;排列集合1的排列子集3第三位字符节点为t,即对应的第二数量为1。对排列集合1对应的排列子集进行排列后为[better][bitch、bit][bay、baffle、baffle],因此,对所有的排列集合排序后其顺序为{[why、what、where、when]}{[better][bitch、bit][bay、baffle、baffle]}{[clear][change][crayon][can、cap]}。
进一步地,在本发明实施例中,所述方法还包括:依次将每个所述排序子集划分为多个展示集合,其中,每个所述展示集合包括至少一个所述单词,同一个所述展示集合内的单词对应的第三位字符节点相同。接上例,可以将排列集合3的排列子集1划分为(why)、(what)、(where、when)三个展示集合。依次对每个所述排序子集对应的所述展示集合进行排序,以便获得所述排序结果。具体地,先获取每个所述展示集合内对应的所述单词的第三数量,根据每个所述展示集合对应的所述第三数量,按照从小到大的顺序,依次对每个所述排序子集对应的所述展示集合排列。
进一步地,在本发明实施例中,所述方法还包括:将每个所述展示集合对应的所述第三数量与所述预选阈值进行比较。若所述第三数量超过所述预选阈值,则将对应的所述展示集合拆分为至少一个所述展示子集合,其中,不具有第四位字符节点的单词作为一所述展示子集合,拆分出的每个其他所述展示子集合中的所述单词的第四位字符节点相同。上述预选阈值由用户选定。优选地,预选阈值为5,当然也可以是6、7、或8。重复对每个被拆分的所述展示集合对应的所述展示子集合进行排序,将每个所述展示子集合中所述单词的第三数量与所述预选阈值进行比较。若所述第三数量超过所述预选阈值,则重复拆分对应的所述展示子集合并排序,直至拆分后的每个集合对应的所述单词的个数不超过所述预选阈值,以获得最终的排序结果。
步骤S207,根据所述排序结果及每个所述章节文本数据对应的多个单词,按照预定规则,生成第二思维云图,以便所述电子学习设备100结合所述第一思维云图及第二思维云图进行展示。
在本发明实施例中,根据所述排序集合的排列顺序,将每个所述排序集合对应的所述首位字符节点作为第一级根,并沿着指定方向排列,将所述排序集合的每个所述排序子集对应的所述第二位字符节点作为该排序集合的所述第一级根对应的第一级树,根据每个排序集合内的所述排序子集的排列顺序,将每一个所述第一级根对应的所述第一级树按照所述指定方向排列。将每个所述第一级树作为第二级根,将所述第二级根对应的每个所述展示集合的所述第三位字符节点作为该第二级根对应的第二级树,根据每个所述排序子集内的所述展示集合的排列顺序,将每一个所述第二级根对应的所述第二级树按照所述指定方向排列。将每个所述第二级树作为第三级根,将所述第三级根对应的每个所述展示集合的所述第三数量作为该第三级根对应的第三级树。将所述第三级树作为第四级根,将对应的所述第三数量不超过所述预选阈值的所述第四级根所对应的所述展示集合内的所述单词作为该第四级根的第四级树,将对应的所述第三数量超过所述预选阈值的所述第四级根对应的所述展示集合对应的所述展示子集合作为该第四级根的所述第四级树,并根据该展示集合内的所述展示子集合的排列顺序,对该第四级树按照所述指定方向排列。
在本发明实施例中,电子学习设备100结合所述第一思维云图及第二思维云图进行展示的方式可以是依照排序后的章节文本数据的顺序,依次通过电子学习设备100向用户展示对应的第二思维云图,并响应用户触发的学习完毕指令后将该章节文本数据对应的第一思维云图向用户展示。用户可以通过点击电子学习设备100所展示的第一思维云图上的标记字符,触发电子学习设备100展示对应的目标字符句。
本发明通过按照字母结构在每一个字符节点上的数量关系进行重新排列顺序。目的是创新展示词典的易记结构。根据按照字母顺序的词典,创新按照节点字母数量多少来进行重新排列顺序,当词汇量足够多,就会出现奇迹,那就是数量关系出现了0、1、3、4……这样连续的数量关系,便于学习和记忆。具体示范如下:
对b开头的单词排列顺序为:
b{a e i o u y l r}
ba{y1 f2m2 z3 i4 b5 g6 d7 k8 l10 t11 c12 s14 n16 r29}
这个排序方法是按照上一个字符节点与下一个字符节点的从属关系的个数来重新对词汇表进行排序。为了更好排序,我们引入0字母概念。比如:bat,bat两个单词排序的时候,我们就认为bat是02数量,在字符节点t后面没有任何字母了,并且01是一个独立单词的尾部标识,02则是两个相同单词的尾部标识,代表两个单词后面都没有字母了,请参照表1:
表1:
Figure GDA0003515636450000111
Figure GDA0003515636450000121
需要说明的是,现有技术中的对单词排序基本上按照字母顺序自然排序的词典,进行重新按照字母所在位置出现次数多少来重新排序。比如在英语词典中,a字母的词汇都是以首字母为a的字母所组成的词汇组合到一起来自然排序的,b字母的词汇都是以首字母为b的字母所组成的词汇组合到一起来自然排序的,c以后的字母类推。而本发明实施例提供的所述方法则是按照数量关系对单词排序以方便用户快速学习。例如,章节文本数据中由一万个b开头的单词,经过重新排序后,ba后面的字母组合为:{y1 f2m2 z3 i4 b5 g6 d7k8 l10 t11 c12 s14 n16 r29}。需要说明的是,上述y1代表ba后接y的单词仅有1个,f2m2代表ba后接f的单词有2个,后接m的单词也有两个,将ba后接f和后接m的单词作为同一学习推送节点。相应生成的第二思维云图。具体地,基于12种符号:“─”、“│”、“├”、“┤”、“┬”、“┴”、“┼”、“┌”、“┐”、“└”、“┘”和“0”,构思一个5-8个字母的非构词法原生词汇和后缀结构库,根据节点数量排序的结果,我们就可以通过算法重新绘制一套词典结构动态图谱。方法如下凡是上下文第一位字母出现相同的字母,第一个字母前导符号位为“┌”。凡是上下文某一位出现字母,就用“─”符号作为节点字母的导引。凡是根据上下文,下一词的某一位节点的字母与上一词的某一位节点相同,就用“│”代表,凡是根据上下文词的某一位字母数量为一个,就引进“0”来标识,凡是根据上下文词的某一位字母数量超过一个,就从第一个词的该位字母导引前使用“┬”来引导该位字母。而下文下一个词和再下文下一个词在该位节点字母都有字母存在,则该位节点字母前的导引用“├”符号代表。如果下文下一个词是最后一个字母,即再下文下一个词在该位节点字母不相同,这在下文下一个词的该位节点字母前使用“└”,凡是上下文等距离词的前导符号使用“┤”。当说明结构时,后位有字母,则前导符号使用“┼”,剩下的字母数通过对比原生词库和后缀词库后,凡是有的整体截取字符作为节点,凡是没有的,就截取单个字母作为节点标识,结构说明的第一位后导符号“┐”,中间后导符号用“│”,中间说明符号使用“├”符号,如果前导有字母,则使用“┼”符号,最后位后导符号使用“┘”。部分可如下所示:
Figure GDA0003515636450000131
Figure GDA0003515636450000141
第二实施例
请参照图4,是本发明较佳实施例提供的字符文本处理装置200,字符文本处理装置200包括:获取模块201、划分模块202、统计模块203、排列模块204、处理模块205、提取模块206及生成模块207。
获取模块201,获取待处理的字符文本数据;
划分模块202,用于根据所述字符文本数据的章节分隔符,将所述字符文本数据划分为多个章节文本数据,其中,所述章节文本数据包括多个字符句;
统计模块203,用于统计每一所述章节文本数据内的所述字符句的首字母的种类数量;
排序模块,用于根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序;
处理模块205,用于根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句;
提取模块206,用于提取每个所述目标字符句的所述首字母作为对应的标记字符;
生成模块207,用于根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备100进行展示。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,本发明实施例提供的一种字符文本处理方法、装置及电子学习设备。其中,字符文本处理方法包括:获取待处理的字符文本数据;根据所述字符文本数据的章节分隔符,将所述字符文本数据划分为多个章节文本数据,其中,所述章节文本数据包括多个字符句;统计每一所述章节文本数据内的所述字符句的首字母的种类数量;根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序;根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句;提取每个所述目标字符句的所述首字母作为对应的标记字符;根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备进行展示。也就是,通过对字符文本数据的章节的重排,更加符合人记忆对规律的依赖性,再利用第一思维云图对每个章节中的目标字符句的标记字符进行展示,确保在每一个学习的时间间隔内,学习者接受到的字符句不过量,避免遗忘,提高学习效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (10)

1.一种字符文本处理方法,应用于电子学习设备,其特征在于,所述方法包括:
获取待处理的字符文本数据;
根据所述字符文本数据的章节分隔符,将所述字符文本数据划分为多个章节文本数据,其中,所述章节文本数据包括多个字符句;
统计每一所述章节文本数据内的所述字符句的首字母的种类数量;
根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序;
根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句;
提取每个所述目标字符句的所述首字母作为对应的标记字符;
根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备进行展示。
2.如权利要求1所述方法,其特征在于,所述根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句的步骤包括:
获取所述字符句对应的单词量;
将获取的所述单词量与所述预选阈值进行比较;
若所述单词量超过所述预选阈值,则将对应的所述字符句划分为至少两个所述目标字符句,其中,所述目标字符句对应的单词量不超过所述预选阈值;
若所述单词量未超过所述预选阈值,则将该字符句作为所述目标字符句。
3.如权利要求1所述方法,其特征在于,所述根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图的步骤包括:
将每个所述章节文本数据对应的序号作为所述第一思维云图的第一根,按照所述章节文本数据的排序,按照指定方向,对所述第一根进行排列;
将每个所述章节文本数据中的所述字符句对应的所述标记字符作为该章节文本数据的所述第一思维云图的第一根对应的第一树;
根据每个所述字符句在对应的所述章节文本数据内的所述出现顺序,依次将所述第一根对应的所述第一树按照所述指定方向排列,以生成所述第一思维云图。
4.如权利要求1所述方法,其特征在于,所述方法还包括:
获取依次获取每个所述章节文本数据包括的多个单词,其中,所述单词包括至少一个字符节点;
将首位字符节点相同的所述单词放入对应的同一排序集合中;
分别统计每个所述排序集合内的所述单词的第二位字符节点的类别的第一数量;
根据每个所述排序集合对应的所述第一数量,按照从小到大的顺序,对所述排序集合排列;
根据每个所述排序集合内的所述单词的第二位字符节点的类别,分别将所述排序集合划分为多个排序子集,其中,每个所述排序子集包括至少一个所述单词,同一个所述排序子集内的单词对应的第二位字符节点相同;
依次对每个所述排序集合对应的所述排序子集进行排序,以便获得排序结果;
根据所述排序结果及每个所述章节文本数据对应的多个单词,按照预定规则,生成第二思维云图,以便所述电子学习设备结合所述第一思维云图及第二思维云图进行展示。
5.如权利要求4所述方法,其特征在于,所述依次对每个所述排序集合对应的所述排序子集进行排序的步骤包括:
分别统计每个所述排序子集内的所述单词的第三位字符节点的类别的第二数量;
根据每个所述排序子集对应的所述第二数量,按照从小到大的顺序,对所述排序子集排列。
6.如权利要求5所述方法,其特征在于,在对所述排序子集排列之后,所述方法还包括:
依次将每个所述排序子集划分为多个展示集合,其中,每个所述展示集合包括至少一个所述单词,同一个所述展示集合内的单词对应的第三位字符节点相同;
依次对每个所述排序子集对应的所述展示集合进行排序,以便获得所述排序结果。
7.如权利要求6所述方法,其特征在于,依次对每个所述排序子集对应的所述展示集合进行排序的步骤包括:
获取每个所述展示集合内对应的所述单词的第三数量;
根据每个所述展示集合对应的所述第三数量,按照从小到大的顺序,依次对每个所述排序子集对应的所述展示集合排列。
8.如权利要求7所述方法,其特征在于,所述方法还包括:
将每个所述展示集合对应的所述第三数量与所述预选阈值进行比较;
若所述第三数量超过所述预选阈值,则将对应的所述展示集合拆分为至少一个展示子集合,其中,不具有第四位字符节点的单词作为一所述展示子集合,拆分出的每个其他所述展示子集合中的所述单词的第四位字符节点相同;
重复对每个被拆分的所述展示集合对应的所述展示子集合进行排序;
将每个所述展示子集合中所述单词的第三数量与所述预选阈值进行比较;
若所述第三数量超过所述预选阈值,则重复拆分对应的所述展示子集合并排序,直至拆分后的每个集合对应的所述单词的个数不超过所述预选阈值,以获得所述排序结果。
9.如权利要求8所述方法,其特征在于,所述根据所述排序结果及每个所述章节文本数据对应的多个单词,按照预定规则,生成第二思维云图的步骤包括:
根据所述排序集合的排列顺序,将每个所述排序集合对应的所述首位字符节点作为第一级根,并沿着指定方向排列;
将所述排序集合的每个所述排序子集对应的所述第二位字符节点作为该排序集合的所述第一级根对应的第一级树;
根据每个所述排序集合内的所述排序子集的排列顺序,将每一个所述第一级根对应的所述第一级树按照所述指定方向排列;
将每个所述第一级树作为第二级根;
将所述第二级根对应的每个所述展示集合的所述第三位字符节点作为该第二级根对应的第二级树;
根据每个所述排序子集内的所述展示集合的排列顺序,将每一个所述第二级根对应的所述第二级树按照所述指定方向排列;
将每个所述第二级树作为第三级根;
将所述第三级根对应的每个所述展示集合的所述第三数量作为该第三级根对应的第三级树;
将所述第三级树作为第四级根;
将对应的所述第三数量不超过所述预选阈值的所述第四级根所对应的所述展示集合内的所述单词作为该第四级根的第四级树;
将对应的所述第三数量超过所述预选阈值的所述第四级根对应的所述展示集合对应的所述展示子集合作为该第四级根的所述第四级树,并根据该展示集合内的所述展示子集合的排列顺序,对该第四级树按照所述指定方向排列。
10.一种字符文本处理装置,应用于电子学习设备,其特征在于,所述装置包括:
获取模块,获取待处理的字符文本数据;
划分模块,用于根据所述字符文本数据的章节分隔符,将所述字符文本数据划分为多个章节文本数据,其中,所述章节文本数据包括多个字符句;
统计模块,用于统计每一所述章节文本数据内的所述字符句的首字母的种类数量;
排序模块,用于根据每个所述章节文本数据对应的所述种类数量,按照从小到大的顺序,对所述章节文本数据进行排序;
处理模块,用于根据预选阈值,依次对每一所述章节文本数据中的所述字符句进行处理,以获得多个目标字符句;
提取模块,用于提取每个所述目标字符句的所述首字母作为对应的标记字符;
生成模块,用于根据所述目标字符句对应的所述字符句在所述章节文本数据中出现顺序、所述章节文本数据的排序及该章节文本数据中所述字符句对应的所述标记字符,生成对应的第一思维云图,以便所述电子学习设备进行展示。
CN201810530782.8A 2018-05-29 2018-05-29 字符文本处理方法及装置 Active CN108804404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810530782.8A CN108804404B (zh) 2018-05-29 2018-05-29 字符文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810530782.8A CN108804404B (zh) 2018-05-29 2018-05-29 字符文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN108804404A CN108804404A (zh) 2018-11-13
CN108804404B true CN108804404B (zh) 2022-04-15

Family

ID=64090774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810530782.8A Active CN108804404B (zh) 2018-05-29 2018-05-29 字符文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN108804404B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN105302778A (zh) * 2015-10-23 2016-02-03 北京奇虎科技有限公司 文章章节生成方法、系统和电子书阅读器
CN106202423A (zh) * 2016-07-12 2016-12-07 乐视控股(北京)有限公司 一种文件排序方法和设备
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234287B2 (en) * 2008-09-24 2012-07-31 International Business Machines Corporation Sorting records based on free text field content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN105302778A (zh) * 2015-10-23 2016-02-03 北京奇虎科技有限公司 文章章节生成方法、系统和电子书阅读器
CN106202423A (zh) * 2016-07-12 2016-12-07 乐视控股(北京)有限公司 一种文件排序方法和设备
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置

Also Published As

Publication number Publication date
CN108804404A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN107239440B (zh) 一种垃圾文本识别方法和装置
Mehri et al. Variation of Zipf's exponent in one hundred live languages: A study of the Holy Bible translations
CN102486787B (zh) 用于提取文档结构的方法和装置
CN102063482A (zh) 一种手持设备高效联系人查找方法
CN103608805B (zh) 辞典产生装置及方法
CN109524008A (zh) 一种语音识别方法、装置及设备
CN108763468B (zh) 字典排序处理方法、装置及电子学习设备
JP2021179781A (ja) 文抽出装置及び文抽出方法
CN108804404B (zh) 字符文本处理方法及装置
CN113535916A (zh) 一种基于表格的问答方法、装置及计算机设备
CN112017079A (zh) 专利文档的元件信息提取方法、处理装置以及存储介质
CN112017078A (zh) 专利文档的辅助撰写方法、处理装置以及存储介质
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
WO2008038993A1 (en) Database system and its handling method for ideogram
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
CN109002454A (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN110533035B (zh) 基于文本匹配的学生作业页码识别方法
US7546233B2 (en) Succession Chinese character input method
KR20180007183A (ko) 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치
CN112069821A (zh) 一种命名实体的提取方法、装置、电子设备及存储介质
CN112001821A (zh) 专利文档的审核方法、处理装置以及存储介质
CN112016282A (zh) 专利文档的审核方法、处理装置以及存储介质
EP2030659B1 (en) Word search device, method, and program
Sodhar et al. Word by Word Labelling of Romanized Sindhi Text by using Online Python Tool
CN109376339B (zh) 一种基于用户行为的文本转换候选规则信息提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant