CN111382258A - 电子阅读对象章节的确定方法及其装置 - Google Patents

电子阅读对象章节的确定方法及其装置 Download PDF

Info

Publication number
CN111382258A
CN111382258A CN201811611673.5A CN201811611673A CN111382258A CN 111382258 A CN111382258 A CN 111382258A CN 201811611673 A CN201811611673 A CN 201811611673A CN 111382258 A CN111382258 A CN 111382258A
Authority
CN
China
Prior art keywords
electronic reading
reading object
chapter
determining
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811611673.5A
Other languages
English (en)
Inventor
尤洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811611673.5A priority Critical patent/CN111382258A/zh
Publication of CN111382258A publication Critical patent/CN111382258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/025Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application
    • G06F15/0291Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application for reading, e.g. e-books

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种电子阅读对象章节的确定方法、装置、电子设备、计算机可读介质,涉及互联网技术领域。其中,该方法的一具体实施方式包括:对电子阅读对象进行文本解析,确定电子阅读对象的至少一个段落;基于至少一个段落的字数,确定电子阅读对象的单个章节的字数范围;基于字数范围,对电子阅读对象的至少一个段落进行章节划分,确定电子阅读对象的章节。通过本申请实施例,能有效地确定不具有章节关键词的电子阅读对象的章节,使得排版引擎对电子阅读对象进行正常排版,从而提升用户的电子阅读体验。此外,还能按章节加载电子阅读对象,解决了现有的在解析电子阅读对象的过程中存在的解析时间过长和终端设备的内存占用过高的问题。

Description

电子阅读对象章节的确定方法及其装置
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种电子阅读对象章节的确定方法、装置、电子设备、计算机可读介质。
背景技术
近年来随着网络文学的兴起,越来越多的人己经摆脱纸质书籍,而选择在电脑和手机上看电子书。电子书是以网络为媒介手段,实现浏览借阅与管理网络一体化的电子图书,用户通过在线或离线的方式可以在终端设备上进行阅读。电子书的格式包括TXT、DOC、PDF、HTM、HTML、EPUB、CHM等,通常TXT格式的较受欢迎。
目前,各大厂商的排版技术都比较成熟,对于专人处理过的在线电子书都能很好的排版出来。这是因为专人处理过的在线电子书具有章节信息,便于排版引擎进行解析。现有的大部分排版引擎也是针对具有章节信息的电子书进行排版。
然而,对于没有章节信息的电子书,没有很好的方法解析出来,只能原文展示。这样,给用户造成比较差的体验。即使是能够解析没有章节信息的电子书,很多电子书在解析后会存在格式问题,例如,整个电子书只有一个章节,电子书的章节结构或章节混乱等。此外,在解析没有章节信息的电子书时,需要一次性加载整个电子书的内容,这样会导致电子书解析时间过长和终端设备的内存占用过高的问题。
发明内容
本申请的目的在于提出一种电子阅读对象章节的确定方法、装置、电子设备、计算机可读介质,用于解决现有技术中存在的如何有效地确定不具有章节关键词的电子阅读对象的章节的问题。
根据本申请实施例的第一方面,提供了一种电子阅读对象章节的确定方法。所述方法包括:对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
根据本申请实施例的第二方面,提供了一种电子阅读对象章节的确定装置。所述装置包括:文本解析模块,用于对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;第一确定模块,用于基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;章节划分模块,用于基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
根据本申请实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例中所述的电子阅读对象章节的确定方法。
根据本申请实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中所述的电子阅读对象章节的确定方法。
通过本申请实施例提供的技术方案,对电子阅读对象进行文本解析,确定电子阅读对象的至少一个段落;基于至少一个段落的字数,确定电子阅读对象的单个章节的字数范围;基于字数范围,对电子阅读对象的至少一个段落进行章节划分,确定电子阅读对象的章节,与现有的其它方式相比,能有效地确定不具有章节关键词的电子阅读对象的章节,使得排版引擎对电子阅读对象进行正常排版,从而提升用户的电子阅读体验。此外,还能按章节加载电子阅读对象,解决了现有的在解析电子阅读对象的过程中存在的解析时间过长和终端设备的内存占用过高的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例一中电子阅读对象章节的确定方法的流程示意图;
图2为本申请实施例二中电子阅读对象章节的确定方法的流程示意图;
图3为本申请实施例三中电子阅读对象章节的确定装置的结构示意图;
图4为本申请实施例四中电子阅读对象章节的确定装置的结构示意图;
图5为本申请实施例五中电子设备的结构示意图;
图6为本申请实施例六中电子设备的硬件结构。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
在现有技术中,如果电子阅读对象具有章节关键词,例如,第几章、第几回、卷一等一系列的词汇,可先对电子阅读对象进行文本解析,确定电子阅读对象的章节关键词,再基于电子阅读对象的章节关键词,确定电子阅读对象的章节。然而,对于不具有章节关键词的电子阅读对象,现有技术中没有适用的方法确定电子阅读对象的章节。针对现有技术中存在的如何有效地确定不具有章节关键词的电子阅读对象的章节的问题,本申请提出以下解决方案。
参照图1,示出了根据本申请实施例一的电子阅读对象章节的确定方法的流程示意图。
本实施例的电子阅读对象章节的确定方法包括以下步骤:
在步骤S101中,对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落。
在本申请实施例中,所述电子阅读对象包括电子书、网络电子读物、新闻电子读物等,所述段落可以理解为电子阅读对象中最基本的单位。在内容上,它具有一个相对完整的意思;在电子阅读对象中,段落具有换行的标志。段落是由句子或句群组成的,在电子阅读对象中用于体现作者的思路发展或全篇的层次。在具体的实施方式中,通过给定的电子阅读对象的地址,读取电子阅读对象,并对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在对所述电子阅读对象进行文本解析时,对所述电子阅读对象的文本数据进行切分,确定所述电子阅读对象的关键词;通过语义分析模型,对所述电子阅读对象的关键词进行语义分析,确定所述电子阅读对象的至少一个段落。其中,所述语义分析模型可为神经网络模型。可以理解的是,任何对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落的实施方式均可适用于此,本申请实施例对此不做任何限定。
在步骤S102中,基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围。
在一些可选实施例中,在基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围时,基于所述至少一个段落的字数,确定段落的最大字数和所述至少一个段落的平均字数;基于所述最大字数和所述平均字数,确定所述电子阅读对象的单个章节的字数范围。籍此,能够确定电子阅读对象的单个章节的适宜的字数范围。可以理解的是,任何基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,在确定段落的最大字数时,将所述至少一个段落的字数进行相互比较,确定所述至少一个段落中的段落的最大字数。在确定所述至少一个段落的平均字数时,将所述至少一个段落的字数的和除以所述至少一个段落的数量,获得所述至少一个段落的平均字数。在基于所述最大字数和所述平均字数,确定所述电子阅读对象的单个章节的字数范围时,基于所述平均字数和预设的章节长度,确定所述字数范围的上限值;基于所述平均字数、所述最大字数和预设的章节长度,确定所述字数范围的下限值。其中,所述预设的章节长度可为根据客户端的加载能力所规定的章节长度。举例来说,所述字数范围的上限值可为20*average,所述字数范围的下限值可为20*average-max,其中,预设的章节长度为20,这是个粗估值,可以动态调整。具体需要考虑的是一个章节的字数多少,一般而言一章5000到一万字会比较合适。按照一段平均有250字左右计算就会乘以20。但是这个预设的章节长度并不一定要设置成20。如果统计出来的段落平均字数比较大,这个预设的章节长就可以设置小一点,反之亦然。average表示所述至少一个段落的平均字数,max表示所述至少一个段落中的段落的最大字数。如此确定电子阅读对象的单个章节的字数范围,可避免出现增加一个段落的字数超出字数范围的上限,而减少一个段落的字数又低于字数范围的下限值的情况的发生。此外,预设的章节长度能够保证电子阅读对象不会因为章节的数据量过大而导致阅读时加载章节缓慢而引起的卡顿。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S103中,基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
在一些可选实施例中,在基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节时,基于所述至少一个段落在所述电子阅读对象中的位置顺序,依次对段落的字数进行累加,获得累加的总字数;当所述累加的总字数处于所述字数范围时,确定当前累加字数的段落属于同一章节。籍此,能够适宜地确定电子阅读对象的章节。可以理解的是,任何基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,基于所述至少一个段落在所述电子阅读对象中的位置的前后顺序,依次对段落的字数进行累加,获得累加的总字数。当累加的总字数处于字数范围时,基于当前累加字数的段落,生成所述电子阅读对象的一个章节。然后,基于所述至少一个段落在所述电子阅读对象中的位置的前后顺序,依次对后续的段落的字数进行累加,获得累加的总字数。当累加的总字数处于字数范围时,基于当前累加字数的段落,生成所述电子阅读对象的一个章节,直到完成电子阅读对象的至少一个段落的章节划分为止。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
通过本申请实施例提供的电子阅读对象章节的确定方法,对电子阅读对象进行文本解析,确定电子阅读对象的至少一个段落;基于至少一个段落的字数,确定电子阅读对象的单个章节的字数范围;基于字数范围,对电子阅读对象的至少一个段落进行章节划分,确定电子阅读对象的章节,与现有的其它方式相比,能有效地确定不具有章节关键词的电子阅读对象的章节,使得排版引擎对电子阅读对象进行正常排版,从而提升用户的电子阅读体验。此外,还能按章节加载电子阅读对象,解决了现有的在解析电子阅读对象的过程中存在的解析时间过长和终端设备的内存占用过高的问题。
本实施例的电子阅读对象章节的确定方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、GearVR)等。
参照图2,示出了根据本申请实施例二的电子阅读对象章节的确定方法的流程示意图。
本实施例的电子阅读对象章节的确定方法包括以下步骤:
在步骤S201中,对所述电子阅读对象进行文本解析,确定所述电子阅读对象的换行符。
在本申请实施例中,对所述电子阅读对象的文本数据进行识别,确定所述电子阅读对象的换行符及其位置。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S202中,基于所述电子阅读对象的换行符,确定所述电子阅读对象的至少一个段落。
在本申请实施例中,每两个相邻的换行符的位置之间的文本数据可确定为电子阅读对象的一个段落。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S203中,基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围。
由于该步骤S203与上述步骤S102类似,在此不再赘述。
在步骤S204中,基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
由于该步骤S204与上述步骤S103类似,在此不再赘述。
在一些可选实施例中,所述确定所述电子阅读对象的章节之后,所述方法还包括:基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量;基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题。籍此,能够准确地确定电子阅读对象的各个章节所对应的章节标题。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量时,针对所述各个章节所对应的章节内容,对所述章节内容进行分词处理,确定所述章节内容所对应的词语;统计所述词语在所述章节内容中的出现频率;将所述词语和所述词语对应的出现频率标记为所述词语对应的二元组;基于所述词语对应的二元组,生成所述电子阅读对象的相应章节对应的章节内容特征向量。籍此,能够准确地确定电子阅读对象的各个章节所对应的章节内容特征向量。可以理解的是,任何基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,以章节内容A“全世界的企鹅共有18种,大多数都分布在南半球。主要生活在南半球,属于企鹅目,企鹅科”为例,对该章节内容进行分词后,统计各个词语的出现频率,得到“世界”的出现频率为1,“企鹅”的出现频率为3,“分布”的出现频率为1,“南半球”的出现频率为1,“生活”的出现频率为1,“属于”的出现频率为1,将词语与该词语对应的出现频率记为该词语对应的二元组,得到(世界,1)、(企鹅,3)、(分布,1)、(南半球,1)、(生活,1)和(属于,1)。将词语与该词语对应的出现频率记为该词语对应的二元组,得到(世界,1)、(企鹅,3)、(分布,1)、(南半球,1)、(生活,1)和(属于,1)后,将这些二元组组成的二元组集合[(世界,1)、(企鹅,3)、(分布,1)、(南半球,1)、(生活,1)和(属于,1)]标记为章节内容A对应的章节内容特征向量。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在对所述章节内容进行分词处理之后,所述方法还包括:对分词处理得到的词语进行停用词过滤处理,确定所述章节内容所对应的词语。籍此,能够准确地确定章节内容所对应的词语。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,停用词过滤具体为过滤掉章节内容中无意义但是出现频率比较高的词语,比如语气助词,数字等。在具体的实施方式中,可以预先建立停用词词库进行匹配,将己经停用的词语过滤掉,停用词过滤还可以包括去掉客套词语(如请问、请问一下等)、助词(如的、吗、呢、啊等)等对章节内容意义关系不大但出现频率较高的词语。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题时,通过章节标题生成模型,基于所述电子阅读对象的各个章节所对应的章节内容特征向量,生成所述电子阅读对象的各个章节所对应的章节标题。籍此,能够准确地生成电子阅读对象的各个章节所对应的章节标题。可以理解的是,任何基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题的实施方式均可适用于此,本申请实施例对此不做任何限定。
在一个具体的例子中,所述章节标题生成模型可为用于章节标题生成的神经网络模型,所述神经网络模型可以是任意适当的可实现特征提取或目标对象检测的神经网络,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等,本申请实施例对此不作限制。在具体的实施方式中,通过现有的新闻标题生成模型,将每个章节所对应的章节内容当成一篇短小的新闻,生成每个章节的章节标题。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选的实施例中,在确定所述电子阅读对象的各个章节所对应的章节标题之后,所述方法还包括:建立所述电子阅读对象的各个章节分别到对应的章节内容之间的索引关系;基于所述索引关系和所述电子阅读对象的各个章节的章节标题,生成所述电子阅读对象的章节目录信息。籍此,能够生成电子阅读对象的章节目录信息。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,根据每个章节在电子阅读对象中的位置来确定对应的章节内容。例如,在生成的章节目录中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”在电子阅读对象中的位置,可以确定“第一回”后紧接着的文本内容为“第一回”所对应的章节内容的起始位置。毕竟对于用户而言,只需知道章节所对应的章节内容起始位置即可以阅读,并不需要知道章节所对应的全部章节内容。以文章《三国演义》为例,“第一回”后紧接着的文本内容为:“滚长江东道水,法花淘尽英雄。是非成败转头空,青山依旧在,凡度夕阳红。白发渔樵江洁上,惯看秋月春风。一壶浊酒喜相逢,古今多少事,都付笑谈中。”因此,可以建立“第一回”和上述文本内容(位置)的索引关系,用户可以通过文章目录找到章节对应的章节内容的起始位置,从而方便用户从章节目录直接跳转到相应的章节内容的起始位置。当然,可通过相邻两个章节的各自位置,来确定相邻两个章节中的第一个章节的章节内容。例如生成的章节目录中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”和“第二回”在文章中的位置,可以确定“第一回”之后到“第二回”之前的文本内容即为“第一回”的章节内容。通过这种方法确定的章节内容为相应章节的全部章节内容。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
通过本申请实施例提供的电子阅读对象章节的确定方法,对电子阅读对象进行文本解析,确定电子阅读对象的换行符;基于电子阅读对象的换行符,确定电子阅读对象的至少一个段落;基于至少一个段落的字数,确定电子阅读对象的单个章节的字数范围;基于字数范围,对电子阅读对象的至少一个段落进行章节划分,确定电子阅读对象的章节,与现有的其它方式相比,能有效地确定不具有章节关键词的电子阅读对象的章节,使得排版引擎对电子阅读对象进行正常排版,从而提升用户的电子阅读体验。此外,还能按章节加载电子阅读对象,解决了现有的在解析电子阅读对象的过程中存在的解析时间过长和终端设备的内存占用过高的问题。
本实施例的电子阅读对象章节的确定方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、GearVR)等。
参照图3,示出了本申请实施例三中电子阅读对象章节的确定装置的结构示意图。
本实施例的电子阅读对象章节的确定装置包括:文本解析模块301,用于对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;第一确定模块302,用于基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;章节划分模块303,用于基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
本实施例的电子阅读对象章节的确定装置用于实现前述多个方法实施例中相应的电子阅读对象章节的确定方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图4,示出了本申请实施例四中电子阅读对象章节的确定装置的结构示意图。
本实施例的电子阅读对象章节的确定装置包括:文本解析模块401,用于对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;第一确定模块402,用于基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;章节划分模块403,用于基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
可选地,所述文本解析模块401,具体用于:对所述电子阅读对象进行文本解析,确定所述电子阅读对象的换行符;基于所述电子阅读对象的换行符,确定所述电子阅读对象的至少一个段落。
可选地,所述第一确定模块402,具体用于:基于所述至少一个段落的字数,确定段落的最大字数和所述至少一个段落的平均字数;基于所述最大字数和所述平均字数,确定所述电子阅读对象的单个章节的字数范围。
可选地,所述章节划分模块403,具体用于:基于所述至少一个段落在所述电子阅读对象中的位置顺序,依次对段落的字数进行累加,获得累加的总字数;当所述累加的总字数处于所述字数范围时,确定当前累加字数的段落属于同一章节。
可选地,所述章节划分模块403之后,所述装置还包括:第二确定模块404,用于基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量;第三确定模块405,用于基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题。
可选地,所述第二确定模块404,具体用于:针对所述各个章节所对应的章节内容,对所述章节内容进行分词处理,确定所述章节内容所对应的词语;统计所述词语在所述章节内容中的出现频率;将所述词语和所述词语对应的出现频率标记为所述词语对应的二元组;基于所述词语对应的二元组,生成所述电子阅读对象的相应章节对应的章节内容特征向量。
可选地,所述第二确定模块404,还用于:在对所述章节内容进行分词处理之后,对分词处理得到的词语进行停用词过滤处理,确定所述章节内容所对应的词语。
可选地,所述第三确定模块405,具体用于:通过章节标题生成模型,基于所述电子阅读对象的各个章节所对应的章节内容特征向量,生成所述电子阅读对象的各个章节所对应的章节标题。
可选地,所述第三确定模块405之后,所述装置还包括:建立模块406,用于建立所述电子阅读对象的各个章节分别到对应的章节内容之间的索引关系;生成模块407,用于基于所述索引关系和所述电子阅读对象的各个章节的章节标题,生成所述电子阅读对象的章节目录信息。
本实施例的电子阅读对象章节的确定装置用于实现前述多个方法实施例中相应的电子阅读对象章节的确定方法,并具有相应的方法实施例的有益效果,在此不再赘述。
图5为本申请实施例五中电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器501;
计算机可读介质502,可以配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例中所述的电子阅读对象章节的确定方法。
图6为本申请实施例六中电子设备的硬件结构;如图6所示,该电子设备的硬件结构可以包括:处理器601,通信接口602,计算机可读介质603和通信总线604;
其中处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信;
可选的,通信接口602可以为通信模块的接口,如GSM模块的接口;
其中,处理器601具体可以配置为:对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读介质603可以是,但不限于,随机存取存储介质(Random AccessMemory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-Only Memory,PROM),可擦除只读存储介质(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括文本解析模块、第一确定模块、章节划分模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文本解析模块还可以被描述为“对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中所描述的电子阅读对象章节的确定方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种电子阅读对象章节的确定方法,其特征在于,所述方法包括:
对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;
基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;
基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
2.根据权利要求1所述的方法,其特征在于,所述对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落,包括:
对所述电子阅读对象进行文本解析,确定所述电子阅读对象的换行符;
基于所述电子阅读对象的换行符,确定所述电子阅读对象的至少一个段落。
3.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围,包括:
基于所述至少一个段落的字数,确定段落的最大字数和所述至少一个段落的平均字数;
基于所述最大字数和所述平均字数,确定所述电子阅读对象的单个章节的字数范围。
4.根据权利要求1所述的方法,其特征在于,所述基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节,包括:
基于所述至少一个段落在所述电子阅读对象中的位置顺序,依次对段落的字数进行累加,获得累加的总字数;
当所述累加的总字数处于所述字数范围时,确定当前累加字数的段落属于同一章节。
5.根据权利要求1-4中任意一项权利要求所述的方法,其特征在于,所述确定所述电子阅读对象的章节之后,所述方法还包括:
基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量;
基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题。
6.根据权利要求5所述的方法,其特征在于,所述基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量,包括:
针对所述各个章节所对应的章节内容,对所述章节内容进行分词处理,确定所述章节内容所对应的词语;
统计所述词语在所述章节内容中的出现频率;
将所述词语和所述词语对应的出现频率标记为所述词语对应的二元组;
基于所述词语对应的二元组,生成所述电子阅读对象的相应章节对应的章节内容特征向量。
7.根据权利要求6所述的方法,其特征在于,所述对所述章节内容进行分词处理之后,所述方法还包括:
对分词处理得到的词语进行停用词过滤处理,确定所述章节内容所对应的词语。
8.根据权利要求5所述的方法,其特征在于,所述基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题,包括:
通过章节标题生成模型,基于所述电子阅读对象的各个章节所对应的章节内容特征向量,生成所述电子阅读对象的各个章节所对应的章节标题。
9.根据权利要求5所述的方法,其特征在于,所述确定所述电子阅读对象的各个章节所对应的章节标题之后,所述方法还包括:
建立所述电子阅读对象的各个章节分别到对应的章节内容之间的索引关系;
基于所述索引关系和所述电子阅读对象的各个章节的章节标题,生成所述电子阅读对象的章节目录信息。
10.一种电子阅读对象章节的确定装置,其特征在于,所述装置包括:
文本解析模块,用于对所述电子阅读对象进行文本解析,确定所述电子阅读对象的至少一个段落;
第一确定模块,用于基于所述至少一个段落的字数,确定所述电子阅读对象的单个章节的字数范围;
章节划分模块,用于基于所述字数范围,对所述电子阅读对象的至少一个段落进行章节划分,确定所述电子阅读对象的章节。
11.根据权利要求10所述的装置,其特征在于,所述文本解析模块,具体用于:
对所述电子阅读对象进行文本解析,确定所述电子阅读对象的换行符;
基于所述电子阅读对象的换行符,确定所述电子阅读对象的至少一个段落。
12.根据权利要求10所述的装置,其特征在于,所述第一确定模块,具体用于:
基于所述至少一个段落的字数,确定段落的最大字数和所述至少一个段落的平均字数;
基于所述最大字数和所述平均字数,确定所述电子阅读对象的单个章节的字数范围。
13.根据权利要求10所述的装置,其特征在于,所述章节划分模块,具体用于:
基于所述至少一个段落在所述电子阅读对象中的位置顺序,依次对段落的字数进行累加,获得累加的总字数;
当所述累加的总字数处于所述字数范围时,确定当前累加字数的段落属于同一章节。
14.根据权利要求10-13中任意一项权利要求所述的装置,其特征在于,所述章节划分模块之后,所述装置还包括:
第二确定模块,用于基于所述电子阅读对象的各个章节所对应的章节内容,确定所述电子阅读对象的各个章节所对应的章节内容特征向量;
第三确定模块,用于基于所述电子阅读对象的各个章节所对应的章节内容特征向量,确定所述电子阅读对象的各个章节所对应的章节标题。
15.根据权利要求14所述的装置,其特征在于,所述第二确定模块,具体用于:
针对所述各个章节所对应的章节内容,对所述章节内容进行分词处理,确定所述章节内容所对应的词语;
统计所述词语在所述章节内容中的出现频率;
将所述词语和所述词语对应的出现频率标记为所述词语对应的二元组;
基于所述词语对应的二元组,生成所述电子阅读对象的相应章节对应的章节内容特征向量。
16.根据权利要求15所述的装置,其特征在于,所述第二确定模块,还用于:
在对所述章节内容进行分词处理之后,对分词处理得到的词语进行停用词过滤处理,确定所述章节内容所对应的词语。
17.根据权利要求14所述的装置,其特征在于,所述第三确定模块,具体用于:
通过章节标题生成模型,基于所述电子阅读对象的各个章节所对应的章节内容特征向量,生成所述电子阅读对象的各个章节所对应的章节标题。
18.根据权利要求14所述的装置,其特征在于,所述第三确定模块之后,所述装置还包括:
建立模块,用于建立所述电子阅读对象的各个章节分别到对应的章节内容之间的索引关系;
生成模块,用于基于所述索引关系和所述电子阅读对象的各个章节的章节标题,生成所述电子阅读对象的章节目录信息。
19.一种电子设备,包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任意一项权利要求所述的电子阅读对象章节的确定方法。
20.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任意一项权利要求所述的电子阅读对象章节的确定方法。
CN201811611673.5A 2018-12-27 2018-12-27 电子阅读对象章节的确定方法及其装置 Pending CN111382258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811611673.5A CN111382258A (zh) 2018-12-27 2018-12-27 电子阅读对象章节的确定方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811611673.5A CN111382258A (zh) 2018-12-27 2018-12-27 电子阅读对象章节的确定方法及其装置

Publications (1)

Publication Number Publication Date
CN111382258A true CN111382258A (zh) 2020-07-07

Family

ID=71222401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811611673.5A Pending CN111382258A (zh) 2018-12-27 2018-12-27 电子阅读对象章节的确定方法及其装置

Country Status (1)

Country Link
CN (1) CN111382258A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备
CN115146608A (zh) * 2022-05-13 2022-10-04 北京字节跳动网络技术有限公司 内容排版方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN105302778A (zh) * 2015-10-23 2016-02-03 北京奇虎科技有限公司 文章章节生成方法、系统和电子书阅读器
CN105808615A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种基于分词权重的文档索引生成方法和装置
CN106033404A (zh) * 2015-03-20 2016-10-19 广州金山移动科技有限公司 一种章节跳转方法及装置
CN106294292A (zh) * 2016-07-20 2017-01-04 腾讯科技(深圳)有限公司 章节目录筛选方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN105808615A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种基于分词权重的文档索引生成方法和装置
CN106033404A (zh) * 2015-03-20 2016-10-19 广州金山移动科技有限公司 一种章节跳转方法及装置
CN105302778A (zh) * 2015-10-23 2016-02-03 北京奇虎科技有限公司 文章章节生成方法、系统和电子书阅读器
CN106294292A (zh) * 2016-07-20 2017-01-04 腾讯科技(深圳)有限公司 章节目录筛选方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204951A (zh) * 2021-05-27 2021-08-03 广州文石信息科技有限公司 文档处理方法、装置、存储介质及计算机设备
CN115146608A (zh) * 2022-05-13 2022-10-04 北京字节跳动网络技术有限公司 内容排版方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US10558757B2 (en) Symbol management
US9310879B2 (en) Methods and systems for displaying web pages based on a user-specific browser history analysis
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US10565401B2 (en) Sorting and displaying documents according to sentiment level in an online community
CN111259271A (zh) 评论信息的展示方法、装置、电子设备及计算机可读介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN112087667A (zh) 一种信息处理方法、装置以及计算机存储介质
CN107402945A (zh) 词库生成方法及装置、短文本检测方法及装置
CN111368551A (zh) 一种确定事件主体的方法和装置
CN111382258A (zh) 电子阅读对象章节的确定方法及其装置
CN108763202A (zh) 识别敏感文本的方法、装置、设备及可读存储介质
CN111428011B (zh) 词语的推荐方法、装置、设备及存储介质
WO2020117694A1 (en) New media information displaying method, device, electronic device, and computer readable medium
CN113011169B (zh) 一种会议纪要的处理方法、装置、设备及介质
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN105320641B (zh) 一种文本校验方法及用户终端
CN106959945B (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN114386407B (zh) 文本的分词方法及装置
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
CN112148872B (zh) 自然对话主题分析方法、装置、电子设备和存储介质
US20130339003A1 (en) Assisted Free Form Decision Definition Using Rules Vocabulary
US11120204B2 (en) Comment-based article augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination