CN110717323A - 文档分章方法及装置、终端和计算机可读存储介质 - Google Patents

文档分章方法及装置、终端和计算机可读存储介质 Download PDF

Info

Publication number
CN110717323A
CN110717323A CN201910989926.0A CN201910989926A CN110717323A CN 110717323 A CN110717323 A CN 110717323A CN 201910989926 A CN201910989926 A CN 201910989926A CN 110717323 A CN110717323 A CN 110717323A
Authority
CN
China
Prior art keywords
document
seal
dividing
chapter
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910989926.0A
Other languages
English (en)
Other versions
CN110717323B (zh
Inventor
张云帆
李红
何健秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING FANTASY NETWORK TECHNOLOGY Co Ltd
Original Assignee
BEIJING FANTASY NETWORK TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING FANTASY NETWORK TECHNOLOGY Co Ltd filed Critical BEIJING FANTASY NETWORK TECHNOLOGY Co Ltd
Priority to CN201910989926.0A priority Critical patent/CN110717323B/zh
Publication of CN110717323A publication Critical patent/CN110717323A/zh
Application granted granted Critical
Publication of CN110717323B publication Critical patent/CN110717323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文档分章方法及装置、终端和计算机可读存储介质,该方法包括:获取针对目标文档的文档读取指令;基于所述文档读取指令,启动阅读线程和分章线程;在所述阅读线程中,读取所述目标文档的第一部分;在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。通过本发明的技术方案,在准确分章的基础上,避免了分章过程影响用户阅读,提升了用户的阅读体验。

Description

文档分章方法及装置、终端和计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档分章方法及装置、终端和计算机可读存储介质。
背景技术
txt源文件内是没有分章节的,因此,为提升用户阅读体验,可对txt源文件进行分章。相关技术主要通过以下几种方式进行分章:
1、全文匹配有多少换行符“/n”、回车符“/r”或两者结合,就认为全文具有多少章。
2、在全文进行串行搜索,根据关键字“章”、“卷”、“部”等,来提取章节。
然而,这些分章方式过于简略。同一章内也可出现换行符“/n”、回车符“/r”等内容,以此为依据分章很容易造成章节错乱;而串行搜索虽更具准确性,但其搜索过程耗时久,导致打开txt文档缓慢,影响用户的阅读体验。
因此,如何在准确分章的基础上不影响用户的阅读体验,成为目前亟待解决的技术问题。
发明内容
本发明提供一种文档分章方法及装置、终端和计算机可读存储介质,针对相关技术中如何在准确分章的基础上不影响用户的阅读体验的技术问题,在阅读线程之外单独启动了分章线程,可在用户阅读的同时进行后续内容的分章。
本发明第一方面提供一种文档分章方法,包括:获取针对目标文档的文档读取指令;基于所述文档读取指令,启动阅读线程和分章线程;在所述阅读线程中,读取所述目标文档的第一部分;在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。
在本发明上述实施例中,可选地,所述读取所述目标文档的第一部分的步骤,具体包括:经历史访问路径获取所述目标文档;对所述目标文档中位于历史阅读进度位置后的未阅读内容提取文本字符串;基于所述文本字符串和预定显示规则,在人机交互界面显示位于所述未阅读内容内的所述第一部分。
在本发明上述实施例中,可选地,在所述通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章的步骤之前,还包括:基于预定的分章字符提取规则,在所述目标文档的所述第二部分中提取待验证分章字符集合;则所述通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章的步骤,具体包括:将所述第二部分对应的文本字符串、预定分章字符集合和所述待验证分章字符集合输入所述文档分章模型,并通过所述文档分章模型输出分章结果集合;存储所述分章结果集合;根据所述分章结果集合,刷新人机交互界面中的章节显示区域。
在本发明上述实施例中,可选地,还包括:在满足第一预定条件的情况下,对所述分章结果集合进行更改;在满足第二预定条件的情况下,重启所述分章线程。
在本发明上述实施例中,可选地,建立所述文档分章模型的方式包括:根据接收到的分章规则设置信息,设置所述文档分章模型;或者获取训练样本集合,所述训练样本集合中的每个训练样本包括样本文档文本字符串、样本预定分章字符集合、从所述样本文档文本字符串中提取的样本待验证分章字符集合以及对应的分章结果集合预测值;初始化初始文档分章模型的模型参数;将所述每个训练样本的所述样本文档文本字符串、所述样本预定分章字符集合、从所述样本文档文本字符串中提取的所述样本待验证分章字符集合输入所述初始文档分章模型,得到所述每个训练样本对应的分章结果集合有效值;基于所述每个训练样本的所述分章结果集合有效值和所述分章结果集合预测值的差异,对所述初始文档分章模型的模型参数进行调整,得到所述文档分章模型。
本发明第二方面提供一种文档分章装置,包括:文档读取指令获取单元,用于获取针对目标文档的文档读取指令;异步线程启动单元,用于基于所述文档读取指令,启动阅读线程和分章线程;阅读线程运行单元,用于在所述阅读线程中,读取所述目标文档的第一部分;分章线程运行单元,用于在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。
在本发明上述实施例中,可选地,所述阅读线程运行单元包括:目标文档获取单元,用于经历史访问路径获取所述目标文档;字符串提取单元,用于对所述目标文档中位于历史阅读进度位置后的未阅读内容提取文本字符串;阅读内容显示单元,用于基于所述文本字符串和预定显示规则,在人机交互界面显示位于所述未阅读内容内的所述第一部分。
在本发明上述实施例中,可选地,还包括:分章字符提取单元,用于在所述分章线程运行单元进行分章之前,基于预定的分章字符提取规则,在所述目标文档的所述第二部分中提取待验证分章字符集合;则所述分章线程运行单元包括:文档分章模型输入单元,用于将所述第二部分对应的文本字符串、预定分章字符集合和所述待验证分章字符集合输入所述文档分章模型;文档分章模型输出单元,用于通过所述文档分章模型输出分章结果集合;分章结果集合存储单元,用于存储所述分章结果集合;章节显示区域刷新单元,用于根据所述分章结果集合,刷新人机交互界面中的章节显示区域。
在本发明上述实施例中,可选地,还包括:分章结果集合更改单元,用于在满足第一预定条件的情况下,对所述分章结果集合进行更改;分章线程重启单元,用于在满足第二预定条件的情况下,重启所述分章线程。
在本发明上述实施例中,可选地,还包括:文档分章模型建立单元,用于根据接收到的分章规则设置信息,设置所述文档分章模型;或者用于获取训练样本集合,所述训练样本集合中的每个训练样本包括样本文档文本字符串、样本预定分章字符集合、从所述样本文档文本字符串中提取的样本待验证分章字符集合以及对应的分章结果集合预测值;初始化初始文档分章模型的模型参数;将所述每个训练样本的所述样本文档文本字符串、所述样本预定分章字符集合、从所述样本文档文本字符串中提取的所述样本待验证分章字符集合输入所述初始文档分章模型,得到所述每个训练样本对应的分章结果集合有效值;基于所述每个训练样本的所述分章结果集合有效值和所述分章结果集合预测值的差异,对所述初始文档分章模型的模型参数进行调整,得到所述文档分章模型。
本发明第三方面提供一种终端,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面和第二方面中任一项所述的方法。
本发明第四方面提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面和第二方面中任一项所述的方法流程。
本发明的技术方案,针对相关技术中如何在准确分章的基础上不影响用户的阅读体验的技术问题,具体来说,在接收到对目标文档的文档读取指令时,可同时开启阅读线程和分章线程,在阅读线程中,直接将目标文档的起始部分显示在人机交互界面,这一起始部分我们称之为第一部分,则同时,对于目标文档中第一部分后的第二部分,可在分章线程中进行异步分章,将第二部分输入预设的文档分章模型,并通过预设的文档分章模型输出分章结果。由此,用户在阅读目标文档的第一部分的同时,对第一部分后的内容的分章就已在进行,以此类推,当用户阅读到第二部分时,第二部分的分章已完成,分章线程正在对第二部分后的剩余内容进行分章。
这样一来,通过在阅读线程之外单独启动分章线程进行分章,使得分章的耗时无需占用用户的时间,换言之,用户一旦打开目标文档,就可直接阅读目标文档,取代了相关技术中等到分章完成后用户再开始阅读的方案。通过以上技术方案,在准确分章的基础上,避免了分章过程影响用户阅读,提升了用户的阅读体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一个实施例的文档分章方法的流程图;
图2示出了根据本发明的另一个实施例的文档分章方法的流程图;
图3示出了根据本发明的一个实施例的文档分章装置的框图;
图4示出了根据本发明的一个实施例的终端的框图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本发明的一个实施例的文档分章方法的流程图。
如图1所示,根据本发明的一个实施例的文档分章方法的流程包括:
步骤102,获取针对目标文档的文档读取指令。
其中,目标文档包括但不限于txt文本等不具有分章功能的文档。
步骤104,基于所述文档读取指令,启动阅读线程和分章线程。
在接收到对目标文档的文档读取指令时,可同时开启阅读线程和分章线程,两个线程同时进行,互不干涉。
步骤106,在所述阅读线程中,读取所述目标文档的第一部分。
在阅读线程中,直接将目标文档的起始部分显示在人机交互界面,这一起始部分我们称之为第一部分。
步骤108,在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。
同时,对于目标文档中第一部分后的第二部分,可在分章线程中进行异步分章,将第二部分输入预设的文档分章模型,并通过预设的文档分章模型输出分章结果。由此,用户在阅读目标文档的第一部分的同时,对第一部分后的内容的分章就已在进行,以此类推,当用户阅读到第二部分时,第二部分的分章已完成,分章线程正在对第二部分后的剩余内容进行分章。
这样一来,通过在阅读线程之外单独启动分章线程进行分章,使得分章的耗时无需占用用户的时间,换言之,用户一旦打开目标文档,就可直接阅读目标文档,取代了相关技术中等到分章完成后用户再开始阅读的方案。通过以上技术方案,在准确分章的基础上,避免了分章过程影响用户阅读,提升了用户的阅读体验。
图2示出了根据本发明的另一个实施例的文档分章方法的流程图。
如图2所示,根据本发明的另一个实施例的文档分章方法的流程包括:
步骤202,获取针对目标文档的文档读取指令。
步骤204,基于所述文档读取指令,启动阅读线程和分章线程。
其中,目标文档包括但不限于txt文本等不具有分章功能的文档。在接收到对目标文档的文档读取指令时,可同时开启阅读线程和分章线程,两个线程同时进行,互不干涉。
步骤206,在所述阅读线程中,经历史访问路径获取所述目标文档。
目标文档作为一个本地文件存储在app指定的沙盒路径下保存,打开目标文档的方式为通过历史访问路径访问该目标文档。
步骤208,对所述目标文档中位于历史阅读进度位置后的未阅读内容提取文本字符串。
步骤210,基于所述文本字符串和预定显示规则,在人机交互界面显示位于所述未阅读内容内的所述第一部分。
获取目标文档后,可通过stringWithContentsOfFile的方法直接获取文本字符串string。其中,可获取已存储的历史阅读进度位置,并只获取目标文档的历史阅读进度位置后的未阅读内容对应的文本字符串。由此可知,第一部分为目标文档的历史阅读进度位置后的未阅读内容中的在前部分,以及下述的第二部分位于该未阅读内容中以及该未阅读内容中的第一部分后。
预定显示规则规定有目标文档的字体、文字大小、文字颜色、行间距、段间距、背景图案、背景颜色等,读取文本字符串后可按照预定显示规则将该未阅读内容的一部分显示于人机交互界面。
步骤212,在所述分章线程中,基于预定的分章字符提取规则,在所述目标文档的所述第二部分中提取待验证分章字符集合。
分章字符提取规则规定了哪些关键字可被认定为可能的分章字符,因此,通过分章字符提取规则可在第二部分对应的文本字符串中确定可能的分章字符,形成待验证分章字符集合。
步骤214,将所述第二部分对应的文本字符串、预定分章字符集合和所述待验证分章字符集合输入所述文档分章模型,并通过所述文档分章模型输出分章结果集合。
在本发明的一种实现方式中,建立文档分章模型的方式为:根据接收到的分章规则设置信息,设置所述文档分章模型。其中,先将目标文档解析成文本字符串,形成以行为单位,再进行字符检索,获得待验证分章字符集合,将待验证分章字符集合与预定分章字符集合进行比对,从而判断待验证分章字符集合内的字符是否为真正有效的分章字符。具体来说,分章规则设置信息包括:
步骤1,整行超过135个字符或者为空行,则忽略,否则进入步骤2。
步骤2,长度少于36个字符,则进入步骤3。
步骤3,行首行尾如果分别以“(”、“)”开始和结束则忽略,否则进入步骤4。
步骤4,检查整行是否都是数字、空格以及特殊字符组成,如果是则忽略,否则进入到步骤5,去掉数字。
步骤5,如果行文字是@"序言"、@"序幕"、@"绪论"、@"楔子"、@"书籍介绍"、@“序"、@"前言"、@"推荐序"、@"自序"、@"作者序"、@"引言"、@"引子"、@"总序"、@"序曲"、@"序章"、@"目录"、@"导读"、@"简介"其中之一,或者这些组合行头或者行尾包含冒号“:”,则认为是章节名,否则进入步骤6。
步骤6,如果此行包含@"。::」;;"这些特殊字符的其中一个,则认为不是章节,否则进入到步骤7,去掉冒号。
步骤7分为以下多个子步骤:
步骤7.1,含有“第”,“第”后面跟着的是“零”、“一”、“二”、“两”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“十”、“百”、“千”,“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”其中之一的,且再后面跟着的是“卷册部季集篇章回节弹幕分”其中之一的,则认为是章节名。
步骤7.2,行文字刚好全部是“零”、“一”、“二”、“两”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“十”、“百”、“千”,“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”其中之一的,则认为是章节名。
步骤7.3,行头以“零”、“一”、“二”、“两”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“十”、“百”、“千”,“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”其中之一开头(支持持续多个),且后面接着的是“空格”、“空格:”、“空格、”、“空格”、“_”或者“-”且此特殊字符不是最后一个字符则是章节名。
步骤7.4,行文字以“卷”和“(“零”、“一”、“二”、“两”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“十”、“百”、“千”,“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”其中一个)”开头的认为是章节名。
步骤7.5,“)”为结尾,且括号前是数字,认为是章节名,比如,不死囚徒(1)、正文(一)。
步骤7.6,以“零”、“一”、“二”、“两”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“十”、“百”、“千”,“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”其中一个为结尾,并且前面包含短横线-或者下划线_或者空格的,认为是章节名,比如标题-1。
步骤7.7、含有“CHAPTER”、“Chapter”、“chapter”,"Number","No.","正文","分节阅读",并且后面包含“零”、“一”、“二”、“两”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“十”、“百”、“千”,“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”其中一个的,认为是章节名,比如Chapter 1。
每个章节名之间内容,就是分出的章节,得到了章节名就知道了章节名的位置,在读取目标文档的章节内容时通过得到章节名位置来进行文字获取。
在本发明的另一种实现方式中,建立文档分章模型的方式为:获取训练样本集合,所述训练样本集合中的每个训练样本包括样本文档文本字符串、样本预定分章字符集合、从所述样本文档文本字符串中提取的样本待验证分章字符集合以及对应的分章结果集合预测值;初始化初始文档分章模型的模型参数;将所述每个训练样本的所述样本文档文本字符串、所述样本预定分章字符集合、从所述样本文档文本字符串中提取的所述样本待验证分章字符集合输入所述初始文档分章模型,得到所述每个训练样本对应的分章结果集合有效值;基于所述每个训练样本的所述分章结果集合有效值和所述分章结果集合预测值的差异,对所述初始文档分章模型的模型参数进行调整,得到所述文档分章模型。
也就是说,根据训练样本训练文档分章模型,以使得到的文档分章模型尽可能适应文档分章的实际场景,从而直接得出分章结果。
步骤216,存储所述分章结果集合。
将分章结果集合存储至指定位置,以供在指定位置读取分章结果集合以显示在人机交互界面。
步骤218,根据所述分章结果集合,刷新人机交互界面中的章节显示区域。
在得到新的分章结果集合后,可刷新人机交互界面,以在其章节显示区域显示该新得的分章结果集合,方便用户查阅。该步骤与阅读进程异步进行,不影响用户对目标文档的阅读,节省了用户的阅读前等待时间,提升了用户体验。
在图1和图2示出的实施例的基础上,还包括:在满足第一预定条件的情况下,对所述分章结果集合进行更改。第一预定条件包括接收到到章节错误指示信息、目标文档的内容发生变更等,比如,用户在阅读过程中可能会发现分章不准确的情况,此时用户可通过人机交互界面发出指令,同理,目标文档的内容发生变更等时会自动生成对应的章节错误指示信息,相应地,人机交互界面接收到章节错误指示信息,对分章结果集合进行更改。
在图1和图2示出的实施例的基础上,在满足第二预定条件的情况下,重启所述分章线程。第二预定条件为检测到分章线程和/或分章结果集合发生异常,此时,确定分章结果集合不可信,可删除全部分章结果集合,释放内存空间,为避免原地址不安全导致分章结果集合不可信的可能性,可为分章线程重新分配地址。
以上技术方案,通过对分章线程和分章结果集合的变更或重置,可有效保护分章线程的安全,提升分章结果集合的准确性。
图3示出了根据本发明的一个实施例的文档分章装置的框图。
如图3所示,根据本发明的一个实施例的文档分章装置300包括:文档读取指令获取单元302,用于获取针对目标文档的文档读取指令;异步线程启动单元304,用于基于所述文档读取指令,启动阅读线程和分章线程;阅读线程运行单元306,用于在所述阅读线程中,读取所述目标文档的第一部分;分章线程运行单元308,用于在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。
在本发明上述实施例中,可选地,所述阅读线程运行单元306包括:目标文档获取单元,用于经历史访问路径获取所述目标文档;字符串提取单元,用于对所述目标文档中位于历史阅读进度位置后的未阅读内容提取文本字符串;阅读内容显示单元,用于基于所述文本字符串和预定显示规则,在人机交互界面显示位于所述未阅读内容内的所述第一部分。
在本发明上述实施例中,可选地,还包括:分章字符提取单元,用于在所述分章线程运行单元308进行分章之前,基于预定的分章字符提取规则,在所述目标文档的所述第二部分中提取待验证分章字符集合;则所述分章线程运行单元包括:文档分章模型输入单元,用于将所述第二部分对应的文本字符串、预定分章字符集合和所述待验证分章字符集合输入所述文档分章模型;文档分章模型输出单元,用于通过所述文档分章模型输出分章结果集合;分章结果集合存储单元,用于存储所述分章结果集合;章节显示区域刷新单元,用于根据所述分章结果集合,刷新人机交互界面中的章节显示区域。
在本发明上述实施例中,可选地,还包括:分章结果集合更改单元,用于在满足第一预定条件的情况下,对所述分章结果集合进行更改;分章线程重启单元,用于在满足第二预定条件的情况下,重启所述分章线程。
在本发明上述实施例中,可选地,还包括:文档分章模型建立单元,用于根据接收到的分章规则设置信息,设置所述文档分章模型;或者用于获取训练样本集合,所述训练样本集合中的每个训练样本包括样本文档文本字符串、样本预定分章字符集合、从所述样本文档文本字符串中提取的样本待验证分章字符集合以及对应的分章结果集合预测值;初始化初始文档分章模型的模型参数;将所述每个训练样本的所述样本文档文本字符串、所述样本预定分章字符集合、从所述样本文档文本字符串中提取的所述样本待验证分章字符集合输入所述初始文档分章模型,得到所述每个训练样本对应的分章结果集合有效值;基于所述每个训练样本的所述分章结果集合有效值和所述分章结果集合预测值的差异,对所述初始文档分章模型的模型参数进行调整,得到所述文档分章模型。
该文档分章装置300使用图1和图2示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图4示出了根据本发明的一个实施例的终端的框图。
如图4所示,本发明的一个实施例的终端400,包括至少一个存储器402;以及,与所述至少一个存储器402通信连接的处理器404;其中,所述存储器存储有可被所述至少一个处理器404执行的指令,所述指令被设置为用于执行上述图1和图2实施例中任一项所述的方案。因此,该终端400具有和图1和图2实施例中任一项相同的技术效果,在此不再赘述。本发明实施例的终端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,在准确分章的基础上,避免了分章过程影响用户阅读,提升了用户的阅读体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种文档分章方法,其特征在于,包括:
获取针对目标文档的文档读取指令;
基于所述文档读取指令,启动阅读线程和分章线程;
在所述阅读线程中,读取所述目标文档的第一部分;
在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。
2.根据权利要求1所述的文档分章方法,其特征在于,所述读取所述目标文档的第一部分的步骤,具体包括:
经历史访问路径获取所述目标文档;
对所述目标文档中位于历史阅读进度位置后的未阅读内容提取文本字符串;
基于所述文本字符串和预定显示规则,在人机交互界面显示位于所述未阅读内容内的所述第一部分。
3.根据权利要求1所述的文档分章方法,其特征在于,在所述通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章的步骤之前,还包括:
基于预定的分章字符提取规则,在所述目标文档的所述第二部分中提取待验证分章字符集合;
则所述通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章的步骤,具体包括:
将所述第二部分对应的文本字符串、预定分章字符集合和所述待验证分章字符集合输入所述文档分章模型,并通过所述文档分章模型输出分章结果集合;
存储所述分章结果集合;
根据所述分章结果集合,刷新人机交互界面中的章节显示区域。
4.根据权利要求3所述的文档分章方法,其特征在于,还包括:
在满足第一预定条件的情况下,对所述分章结果集合进行更改;
在满足第二预定条件的情况下,重启所述分章线程。
5.根据权利要求1至4中任一项所述的文档分章方法,其特征在于,建立所述文档分章模型的方式包括:
根据接收到的分章规则设置信息,设置所述文档分章模型;
或者
获取训练样本集合,所述训练样本集合中的每个训练样本包括样本文档文本字符串、样本预定分章字符集合、从所述样本文档文本字符串中提取的样本待验证分章字符集合以及对应的分章结果集合预测值;
初始化初始文档分章模型的模型参数;
将所述每个训练样本的所述样本文档文本字符串、所述样本预定分章字符集合、从所述样本文档文本字符串中提取的所述样本待验证分章字符集合输入所述初始文档分章模型,得到所述每个训练样本对应的分章结果集合有效值;
基于所述每个训练样本的所述分章结果集合有效值和所述分章结果集合预测值的差异,对所述初始文档分章模型的模型参数进行调整,得到所述文档分章模型。
6.一种文档分章装置,其特征在于,包括:
文档读取指令获取单元,用于获取针对目标文档的文档读取指令;
异步线程启动单元,用于基于所述文档读取指令,启动阅读线程和分章线程;
阅读线程运行单元,用于在所述阅读线程中,读取所述目标文档的第一部分;
分章线程运行单元,用于在所述分章线程中,通过文档分章模型对所述目标文档中所述第一部分后的第二部分进行分章。
7.根据权利要求6所述的文档分章装置,其特征在于,所述阅读线程运行单元包括:
目标文档获取单元,用于经历史访问路径获取所述目标文档;
字符串提取单元,用于对所述目标文档中位于历史阅读进度位置后的未阅读内容提取文本字符串;
阅读内容显示单元,用于基于所述文本字符串和预定显示规则,在人机交互界面显示位于所述未阅读内容内的所述第一部分。
8.根据权利要求6所述的文档分章装置,其特征在于,还包括:
分章字符提取单元,用于在所述分章线程运行单元进行分章之前,基于预定的分章字符提取规则,在所述目标文档的所述第二部分中提取待验证分章字符集合;
则所述分章线程运行单元包括:
文档分章模型输入单元,用于将所述第二部分对应的文本字符串、预定分章字符集合和所述待验证分章字符集合输入所述文档分章模型;
文档分章模型输出单元,用于通过所述文档分章模型输出分章结果集合;
分章结果集合存储单元,用于存储所述分章结果集合;
章节显示区域刷新单元,用于根据所述分章结果集合,刷新人机交互界面中的章节显示区域。
9.一种终端,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至5中任一项所述的方法流程。
CN201910989926.0A 2019-10-17 2019-10-17 文档分章方法及装置、终端和计算机可读存储介质 Active CN110717323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910989926.0A CN110717323B (zh) 2019-10-17 2019-10-17 文档分章方法及装置、终端和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989926.0A CN110717323B (zh) 2019-10-17 2019-10-17 文档分章方法及装置、终端和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110717323A true CN110717323A (zh) 2020-01-21
CN110717323B CN110717323B (zh) 2020-07-31

Family

ID=69211845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989926.0A Active CN110717323B (zh) 2019-10-17 2019-10-17 文档分章方法及装置、终端和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110717323B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备
CN114997138A (zh) * 2022-06-20 2022-09-02 壹沓科技(上海)有限公司 一种化学品说明书解析方法、装置、设备及可读存储介质
JP7536546B2 (ja) 2020-07-28 2024-08-20 キヤノン株式会社 画像形成装置、その制御方法、プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521280A (zh) * 2011-11-26 2012-06-27 华为技术有限公司 一种EPub电子书加载方法及装置
CN103761277A (zh) * 2014-01-09 2014-04-30 北京掌阔技术有限公司 一种ePub电子书的加载方法和系统
CN104391886A (zh) * 2014-11-07 2015-03-04 武汉大学 一种电子书发送方法及装置
CN105988975A (zh) * 2014-08-18 2016-10-05 葆光信息有限公司 自动切割章节方法
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN109697291A (zh) * 2018-12-29 2019-04-30 北京百度网讯科技有限公司 文本的语义段落识别方法和装置
CN110096691A (zh) * 2019-04-16 2019-08-06 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521280A (zh) * 2011-11-26 2012-06-27 华为技术有限公司 一种EPub电子书加载方法及装置
CN103761277A (zh) * 2014-01-09 2014-04-30 北京掌阔技术有限公司 一种ePub电子书的加载方法和系统
CN105988975A (zh) * 2014-08-18 2016-10-05 葆光信息有限公司 自动切割章节方法
CN104391886A (zh) * 2014-11-07 2015-03-04 武汉大学 一种电子书发送方法及装置
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN109697291A (zh) * 2018-12-29 2019-04-30 北京百度网讯科技有限公司 文本的语义段落识别方法和装置
CN110096691A (zh) * 2019-04-16 2019-08-06 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7536546B2 (ja) 2020-07-28 2024-08-20 キヤノン株式会社 画像形成装置、その制御方法、プログラム
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备
CN114997138A (zh) * 2022-06-20 2022-09-02 壹沓科技(上海)有限公司 一种化学品说明书解析方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN110717323B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN110717323B (zh) 文档分章方法及装置、终端和计算机可读存储介质
CN109657213B (zh) 文本相似度检测方法、装置和电子设备
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
CN111079412A (zh) 文本纠错方法及装置
JP2015179497A (ja) 入力方法及びシステム
CN109508391B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN110489674B (zh) 页面处理方法、装置及设备
CN107885483B (zh) 音频信息的校验方法、装置、存储介质及电子设备
CN109165336B (zh) 一种信息输出控制方法及家教设备
CN110808065A (zh) 副歌检测方法、装置、电子设备及存储介质
CN108170294B (zh) 词汇显示、字段转换方法及客户端、电子设备和计算机存储介质
CN109656385B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN111179904B (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN111241496B (zh) 确定小程序特征向量的方法、装置和电子设备
CN116955720A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN118511178A (zh) 灵活地标识和播放来自任何网页的媒体内容
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN109508390B (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN109783689B (zh) 信息处理方法、装置及电子设备
CN116541114A (zh) 一种信息展示方法、装置、计算机设备以及存储介质
CN114386407B (zh) 文本的分词方法及装置
CN115410188A (zh) 一种弹幕处理方法、设备及存储介质
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN110875959B (zh) 识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
CN111160044A (zh) 文语转换方法及装置、终端和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant