CN111782586A - 电子书数据源文件的匹配方法、计算设备及存储介质 - Google Patents

电子书数据源文件的匹配方法、计算设备及存储介质 Download PDF

Info

Publication number
CN111782586A
CN111782586A CN202010604303.XA CN202010604303A CN111782586A CN 111782586 A CN111782586 A CN 111782586A CN 202010604303 A CN202010604303 A CN 202010604303A CN 111782586 A CN111782586 A CN 111782586A
Authority
CN
China
Prior art keywords
file
data source
attribute information
folder
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010604303.XA
Other languages
English (en)
Other versions
CN111782586B (zh
Inventor
方建华
于刚
张恒
宋程龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ireader Technology Co Ltd
Original Assignee
Ireader Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ireader Technology Co Ltd filed Critical Ireader Technology Co Ltd
Priority to CN202010604303.XA priority Critical patent/CN111782586B/zh
Publication of CN111782586A publication Critical patent/CN111782586A/zh
Application granted granted Critical
Publication of CN111782586B publication Critical patent/CN111782586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子书数据源文件的匹配方法、计算设备及存储介质,该方法包括:读取书单文件中任一电子书的第一维度属性信息;其中,该书单文件用于记录至少一本电子书的至少一个维度的属性信息;将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;获取该目标文件夹包含的该电子书的数据源文件,将该数据源文件发送至排版系统以进行电子书制作处理。本发明方案,通过第一维度属性信息与文件夹名称的匹配,确定出电子书的数据源文件所在的目标文件夹,实现自动准确的匹配数据源以进行电子书制作。

Description

电子书数据源文件的匹配方法、计算设备及存储介质
技术领域
本发明涉及互联网技术领域,具体涉及一种电子书数据源文件的匹配方法、计算设备及存储介质。
背景技术
电子书制作主要是将书籍的内容信息(包括文字、图片等)进行预定要求的样式排版,例如,排版过程包括确定页面版心位置,页边距留白宽度,文字与图片的环绕方式,增加何种装饰元素等,而后制作成符合行业主流格式(指流式格式,例如EPUB格式)的电子书。在进行上述排版制作之前,需要先获取电子书的数据源文件,数据源内容包括文字、图片、样式信息等。
通常情况下,电子书阅读应用的数字版权合作方是第三方出版社,由该第三方出版社提供电子书的数据源文件,然后阅读应用通过排版制作形成流式格式电子书上线。而实际中,由于合作的版权数量庞大,出版社会在一个批次里提供上百本电子书的数据源文件,且出版社提供的数据源的形式一般是建立一个文件目录,将不同书籍的数据源文件放入不同的文件夹中,与此同时,为方便查找,还会另附一个书单文件,这个书单文件里记录有这个批次书籍的属性信息,包括书名、作者、ISBN、出版社等信息。出版社将该文件目录和书单文件上传到阅读应用的制作系统后,由人工对照书单从各个文件夹里找到每本书的数据源内容,然后导入到制作系统中执行排版制作流程。这个查找数据源内容的过程可以称为数据源匹配。然而,现有数据源匹配的方式由人工完成,当书籍数量较大时效率极低
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的电子书数据源文件的匹配方法、计算设备及存储介质。
根据本发明实施例的一个方面,提供了一种电子书数据源文件的匹配方法,包括:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
根据本发明实施例的电子书数据源文件的匹配方法、计算设备及存储介质,读取书单文件中任一电子书的第一维度属性信息,并与存储数据源文件的各个文件夹的文件夹名称进行匹配,得到匹配成功的文件夹,进而可以确定出该任一电子书的数据源文件所在的目标文件夹;然后从该目标文件夹中获取电子书的数据源文件发送至排版系统进行制作。由此可见,本实施例方案,可以通过书单文件中的第一属性信息与文件夹名称的匹配,来最终实现电子书的数据源的自动匹配,以提高数据源匹配的效率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的电子书数据源文件的匹配方法的流程图;
图2示出了本发明另一个实施例提供的电子书数据源文件的匹配方法的流程图;
图3示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的电子书数据源文件的匹配方法的流程图。该方法可由任意具有数据处理能力的计算设备来执行,该计算设备接收出版社提供的书单文件和用于数据源文件的文件夹及其目录结构,并通过匹配得到书单文件中各本电子书在文件夹中的数据源文件,而后输出给排版系统进行电子书制作处理。如图1所示,该方法包括以下步骤:
步骤S110:读取书单文件中任一电子书的第一维度属性信息;其中,该书单文件用于记录至少一本电子书的至少一个维度的属性信息。
在本发明实施例中,针对书单文件中的任一电子书的数据源文件的匹配过程进行说明,实际实施时,若有多本电子书,则可对多本电子书同时或依次按照本发明实施例的方案进行匹配。
其中,书单文件中存储有至少一本电子书的至少一个维度的属性信息,该至少一个维度包括但不限于书名维度、作者信息维度、国际标准书号(International StandardBook Number,简称ISBN)维度以及出版社信息维度中的一个或多个维度。
以及,第一维度属性信息则是某一个或多个具体维度的属性信息,该第一维度可依据出版社对存储数据源文件的文件夹的命名规则来确定,例如,文件夹的命名是书籍名称+作者的格式,则可确定第一维度为书名维度和/或作者信息维度,则第一维度属性信息可以为该任一电子书的书籍名称,或者作者名,或者为书籍名称和作者名。
步骤S120:将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹。
其中,目标文件夹是指存储有当前匹配的电子书(即为该任一电子书,同下文中的当前电子书)的数据源文件的文件夹。
考虑到无论是将一本还是多本电子书的数据源文件存放在一个文件夹中,通常情况下该文件夹的文件夹名称会包括该一本或多本电子书的属性信息,通过第一维度属性信息与文件夹名称的匹配,可以得到文件夹命名与第一属性信息相匹配的文件夹,进而可以进一步确定出目标文件夹,例如,匹配成功的文件夹为多个,则可进一步从该多个文件夹中定位出目标文件夹。需要在此说明的是,本发明实施例中不限定确定目标文件夹的具体方式,实际中,需要根据匹配成功的文件夹的数量分不同的情况确定目标文文件夹,以确保确定结果的准确性。
步骤S130:获取该目标文件夹包含的该电子书的数据源文件,将该数据源文件发送至排版系统以进行电子书制作处理。
其中,电子书的数据源文件即为制作该电子书所需的数据所在的文件,例如,电子书的文字内容所在的文件,电子书的图片内容所在的文件等等。
根据本实施例提供的电子书数据源文件的匹配方法,读取书单文件中任一电子书的第一维度属性信息,并与存储数据源文件的各个文件夹的文件夹名称进行匹配,得到匹配成功的文件夹,进而可以确定出该任一电子书的数据源文件所在的目标文件夹;然后从该目标文件夹中获取电子书的数据源文件发送至排版系统进行制作。由此可见,本实施例方案,可以通过书单文件中的第一属性信息与文件夹名称的匹配,来最终实现电子书的数据源的自动匹配,以提高数据源匹配的效率。
图2示出了本发明另一个实施例提供的电子书数据源文件的匹配方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210:读取书单文件中任一电子书的第一维度属性信息;其中,该书单文件用于记录至少一本电子书的至少一个维度的属性信息。
其中,第一维度属性信息可以为书单文件中记录有的至少一个维度中的任一个或多个维度的属性信息,具体可参考用于存储数据源的文件夹的命名规则进行选择。在本发明的一些具体的实施例中,第一维度为书名维度,则第一维度的属性信息为该任一电子书的电子书名称,下文中将主要以第一维度属性信息为电子书名称的情况进行说明。
以及,在本发明实施例中,不对书单文件的文件格式以及文件内的书单内容排版做具体的限定,例如,书单文件可以为word、txt、excel等格式,书单内容可以以电子书为单位按行或按列排版属性信息。在本发明的一个具体实施例中,书单文件为excel表格的格式,并且在该表格中,一行表示一本电子书的属性信息,一列表示一个维度的属性信息,通过这种设置,则可方便的按行和列读取出任一电子书的第一维度的属性信息,同时可提高读取的准确性。
步骤S220:将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹。
其中,该数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件,其中,样式类文件提供的是电子书排版所需采用的样式模板的数据源。
具体地,将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配,其中,模糊匹配包括第一维度属性信息为文件夹名称中的部分字符,或者,文件夹名称为第一维度属性信息的部分字符,而无需两者严格一致。实际中,由于书单文件和/或文件夹都是人工制作的,可能存在缩略语或者命名不准确的情况,或者有些系列书籍,有多部系列书,则会导致书单文件中的电子书名称和文件夹的命名不完全一致,通过模糊匹配的方式,可以避免匹配结果遗漏掉真正包含当前电子书的数据源的文件夹,例如,第一维度属性信息为《三体》,而某一文件夹的名称为《三体全集》,又如,第一维度属性信息为《明朝那些事第二部》,而某一文件夹的名称为《明朝那些事》。
进一步的,通过上述模糊匹配,匹配到的结果分为匹配到一个文件夹,多个文件夹以及零个文件夹共三种情况,相应的,在根据匹配结果确定目标文件夹时,依据匹配成功的文件夹的数量和/或文件夹中包含的文件情况来确定目标文件夹。下面分别针对上述三种情况进行说明:
第一种情况,将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,则直接将该文件夹确定为目标文件夹。
第二种情况,将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,则需进一步依据该多个文件夹包含的文件情况确定出目标文件夹,其中主要通过确定当前电子书的唯一特征所在的文件所属的文件夹,来锁定目标文件夹,具体的实现方式可以多种多样,例如,依据当前电子书的字数或者ISBN信息确定出目标文件夹,下面将以一种具体的方式来说明:
针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件,利用文字类文件的文件来准确确定出目标文件夹,具体过程为:读取书单文件中该电子书的第二维度属性信息,将该第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件,其中,第二维度属性信息也是至少一个维度中具体的一个或多个维度的属性信息,该第二维度属性信息可表示当前电子书的唯一特征,在一个具体的实施例中,第二维度属性信息为ISBN信息;然后,将该目标文字类文件所在的文件夹确定为该目标文件夹。需要在此说明的是,为确保通过第二维度属性信息匹配得到的结果的唯一性,将该第二维度属性信息与各个文字类文件中的文字内容进行精确匹配,在第二维度属性信息与文字类文件中的某段文字内容完全一致时,才认为匹配成功;以及,需要说明的是,文字类文件若是WORD、TXT等流式格式的文件,则可以直接进行第二维度属性信息的匹配;若是PDF之类的版式格式的文件,则首先进行文字识别,然后进行第二维度属性信息的匹配。通过这种方式,针对各个匹配成功的文件夹中的文字类文件来进行进一步的精确匹配,可快速准确的锁定目标文件夹。
另外,在一些可选的实施例中,针对每个文字类文件,截取该文字类文件的文件内容中的前N个页面作为版权信息页(CIP),其中,N为大于0的自然数,相应的,在利用第二维度的属性信息进行匹配时,将该第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配,与前文同理,若文字类文件为版式文件,则需首先对版权信息页进行文字识别,然后匹配。实际中,N取1,通过截取第一页,则可得到版权信息页。在这些可选的实施例中,进一步将匹配范围缩小到版权信息页,进而可以提高匹配的效率。
实际情况中,首先通过电子书名称的模糊匹配,得到匹配成功的一个或多个文件夹,然后针对多个文件夹的情况,则可以通过ISBN信息的精确匹配,从该多个文件夹中锁定目标文件,而一个文件夹则可直接确定为目标文件夹,上述流程为一种较常见的匹配流程,可以实现大多数情况下数据源的准确匹配。而下文提到的第三种情况则较为少见一些,通常在文件夹命名命名错误之类的较为严重的不规范情况下,才会出现下述第三种情况。
第三种情况,将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为零个,则需进一步依据所有文件夹包含的文件情况确定出目标文件夹,其中,主要通过文件名称来锁定可能的目标文件夹,下面将以一种具体的方式来说明:
将该第一维度属性信息与用于存储数据源文件的所有文件夹包含的所有文件的文件名称进行匹配,即将利用第一维度属性信息进行匹配的对象由文件夹降级为文件夹下的文件;若匹配到至少一个目标文件,则将该至少一个目标文件所在的一个或多个文件夹确定为目标文件夹。通过这种方式,可以在第一次匹配未匹配到文件夹的情况下,通过降级匹配来锁定目标文件夹,避免无法确定目标文件夹的情况发生。
步骤S230:获取该目标文件夹包含的该电子书的数据源文件。
具体地,在确定出目标文件夹之后,则相当于确定了存储当前电子书的数据源文件的文件夹,可将该目标文件夹中包含的文件确定为电子书的数据源文件并获取。这种获取方式对于步骤S220中的第一种情况和第二种情况是没有问题的,但对于第三种情况,目标文件夹可能为多个,直接确定并获取的方式并不是完全准确的,基于此,针对第三种情况获取数据源文件的过程如下:
若该目标文件夹为一个,则获取该目标文件夹包含的该电子书的数据源文件;若该目标文件夹为多个,则根据多个目标文件夹包含的文件的文件类型获取该多个目标文件夹包含的该电子书的数据源文件,通常情况下,一本电子书的数据源文件中,数据源内容是按照类别存放在不同类型的文件中的,最理想的情况是同一类别的数据源内容存放在同一类型的一个文件中,例如,电子书的文本内容集中存储在一个文字类文件中,图片内容集中存储在一个图片类文件中,则通过文件类型可确定出多余的数据源内容,进一步可确定出当前电子书的数据源内容并进行获取。一种具体的实现方式如下:根据扩展名判断该多个目标文件夹包含的文件的文件类型是否存在重复,若是,则对文件类型重复的文件进行删除处理,并获取经删除处理后该多个目标文件夹剩余包含的该电子书的数据源文件,对于类型重复的文件,经删除处理后仅保留一个,例如,若有两个图片类文件,则删除其中一个,另外,与下文中步骤S240类似,若同时有版式格式的文字类文件和流式格式的文字类文件,则保留流式格式的文字类文件,并且,对于经过此处是否存在重复的判断及相应处理后的情况,则可不再执行步骤S240;若否,则获取该多个目标文件夹包含的该电子书的数据源文件,若不存在重复,则表明是将一本电子书的数据源文件错误的放在了不同的文件夹中,则合并两个目标文件夹中的文件即可。
通过上述步骤S220和步骤S230中针对三种情况,分别确定目标文件夹和获取数据源文件的具体方式,可以避免各种因存储数据源文件的文件夹的目录结构不规范而导致的无法准确确定目标文件夹的情况出现。例如,对于属性信息与文件夹命名不完全一致(例如缩略命名)的情况,可以通过电子书名称的模糊匹配和ISBN信息的精确匹配确定出目标文件夹;又如,对于将同一电子书的数据源文件分散存放在多个文件夹中的情况,可以通过重复文件类型的判断来获取数据源文件;再如,对于将同一电子书的数据源文件重复存放在多个文件夹中的情况,可以通过删除重复类型的文件来获取数据源文件,等等。
另外,在本发明的一些可选的实施方式中,在确定目标文件夹之后,还包括:判断该目标文件夹包含的文件是否存在文字类文件,若不存在文字类文件,则进行报错处理,电子书的主要组成是文字,若缺少文字类文件,则表明电子书的数据源文件不全,此时进行报错处理;反之,若存在文字类文件,则获取该目标文件夹包含的该电子书的数据源文件。需要在此说明的是,实际中,该判断是否存在文字类文件的过程可在上述三种情况确定出目标文件后均执行,这样可以避免区分不同的情况;但在另一些具体的方式中,可仅针对第一和第三种情况确定出目标文件后执行,这是由于第二种情况中利用第二维度属性信息进行匹配本身就是针对文字类文件进行的,则默认是具有文字类文件的,这样可以减少该判断过程的执行次数,提高数据源匹配的效率。
步骤S240:根据扩展名对数据源文件的文件类型进行识别,若该数据源文件中同时包括版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件,而后发送给排版系统以进行电子书制作处理。
具体地,依据版式格式的文字类文件进行排版处理还需执行版式转流式的处理,通过将版式格式的文字类文件删除,而利用流式格式的文字类文件进行排版,则可省略转换处理的过程。例如,数据源文件中既包括PDF格式的文字类文件,又包括word、txt或者epub格式的文字类文件,则删除PDF格式的文字类文件。
根据本实施例提供的电子书数据源文件的匹配方法,读取书单文件中任一电子书的第一维度属性信息,将该第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,根据匹配结果的情况不同而采用不同的方式来确定出目标文件夹,并获取目标文件夹中包含的电子书的数据源文件,使得在存储数据源文件的文件夹的目录结构不规范的情况下,依然可以准确的确定出目标文件夹以及获取数据源文件,而不受目录结构不规范的影响;然后,在数据源文件中同时包含版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件,而后发送给排版系统以进行电子书制作处理,以减少排版系统将版式格式的内容转化为流式格式的内容的处理。由此可见,通过本实施例方案,不仅可以实现电子书数据源文件的自动匹配,提高匹配的效率;而且可以避免各种因存储数据源文件的文件夹的目录结构不规范而导致的无法准确确定目标文件夹的情况出现,提高匹配的准确性。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的电子书数据源文件的匹配方法。
可执行指令具体可以用于使得处理器执行以下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
在一种可选的方式中,所述数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,将该文件夹确定为目标文件夹。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件;
读取书单文件中所述电子书的第二维度属性信息,将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件;
将所述目标文字类文件所在的文件夹确定为所述目标文件夹。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对每个文字类文件,截取所述文字类文件的文件内容中的前N个页面作为版权信息页;
将所述第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述第二维度属性信息与各个文字类文件中的文字内容进行精确匹配。
在一种可选的方式中,所述第一维度属性信息为电子书名称,所述第二维度属性信息为国际标准书号。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为零个,将所述第一维度属性信息与用于存储数据源文件的所有文件夹包含的所有文件的文件名称进行匹配;
若匹配到至少一个目标文件,则将所述至少一个目标文件所在的一个或多个文件夹确定为目标文件夹。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
若所述目标文件夹为一个,则获取所述目标文件夹包含的所述电子书的数据源文件;
若所述目标文件夹为多个,则根据多个目标文件夹包含的文件的文件类型获取所述多个目标文件夹包含的所述电子书的数据源文件。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据扩展名判断所述多个目标文件夹包含的文件的文件类型是否存在重复;若是,则对文件类型重复的文件进行删除处理,并获取经删除处理后所述多个目标文件夹剩余包含的所述电子书的数据源文件;若否,则获取所述多个目标文件夹包含的所述电子书的数据源文件。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
判断所述目标文件夹包含的文件是否存在文字类文件;
若存在文字类文件,则获取所述目标文件夹包含的所述电子书的数据源文件。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
若不存在文字类文件,则进行报错处理。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据扩展名对数据源文件的文件类型进行识别,若所述数据源文件中同时包括版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件。
图3示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述用于计算设备的电子书数据源文件的匹配方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
在一种可选的方式中,所述数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,将该文件夹确定为目标文件夹。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件;
读取书单文件中所述电子书的第二维度属性信息,将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件;
将所述目标文字类文件所在的文件夹确定为所述目标文件夹。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
针对每个文字类文件,截取所述文字类文件的文件内容中的前N个页面作为版权信息页;
将所述第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
将所述第二维度属性信息与各个文字类文件中的文字内容进行精确匹配。
在一种可选的方式中,所述第一维度属性信息为电子书名称,所述第二维度属性信息为国际标准书号。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为零个,将所述第一维度属性信息与用于存储数据源文件的所有文件夹包含的所有文件的文件名称进行匹配;
若匹配到至少一个目标文件,则将所述至少一个目标文件所在的一个或多个文件夹确定为目标文件夹。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
若所述目标文件夹为一个,则获取所述目标文件夹包含的所述电子书的数据源文件;
若所述目标文件夹为多个,则根据多个目标文件夹包含的文件的文件类型获取所述多个目标文件夹包含的所述电子书的数据源文件。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
根据扩展名判断所述多个目标文件夹包含的文件的文件类型是否存在重复;若是,则对文件类型重复的文件进行删除处理,并获取经删除处理后所述多个目标文件夹剩余包含的所述电子书的数据源文件;若否,则获取所述多个目标文件夹包含的所述电子书的数据源文件。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
判断所述目标文件夹包含的文件是否存在文字类文件;
若存在文字类文件,则获取所述目标文件夹包含的所述电子书的数据源文件。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
若不存在文字类文件,则进行报错处理。
在一种可选的方式中,所述程序310使所述处理器302执行以下操作:
根据扩展名对数据源文件的文件类型进行识别,若所述数据源文件中同时包括版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
本发明公开了:A1.一种电子书数据源文件的匹配方法,包括:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
A2.根据A1所述的方法,其中,所述数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件。
A3.根据A1或A2所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配具体为:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配。
A4.根据A1-A3任一项所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹进一步包括:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,将该文件夹确定为目标文件夹。
A5.根据A1-A3任一项所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹进一步包括:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件;
读取书单文件中所述电子书的第二维度属性信息,将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件;
将所述目标文字类文件所在的文件夹确定为所述目标文件夹。
A6.根据A5所述的方法,其中,在所述提取出多个文字类文件之后,所述方法还包括:
针对每个文字类文件,截取所述文字类文件的文件内容中的前N个页面作为版权信息页;
所述将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配具体为:
将所述第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配。
A7.根据A5或A6所述的方法,其中,所述将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配具体为:
将所述第二维度属性信息与各个文字类文件中的文字内容进行精确匹配。
A8.根据A5-A7任一项所述的方法,其中,所述第一维度属性信息为电子书名称,所述第二维度属性信息为国际标准书号。
A9.根据A1-A3任一项所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹进一步包括:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为零个,将所述第一维度属性信息与用于存储数据源文件的所有文件夹包含的所有文件的文件名称进行匹配;
若匹配到至少一个目标文件,则将所述至少一个目标文件所在的一个或多个文件夹确定为目标文件夹。
A10.根据A9所述的方法,其中,所述获取所述目标文件夹包含的所述电子书的数据源文件进一步包括:
若所述目标文件夹为一个,则获取所述目标文件夹包含的所述电子书的数据源文件;
若所述目标文件夹为多个,则根据多个目标文件夹包含的文件的文件类型获取所述多个目标文件夹包含的所述电子书的数据源文件。
A11.根据A10所述的方法,其中,所述根据多个目标文件夹包含的文件的文件类型获取所述多个目标文件夹包含的所述电子书的数据源文件进一步包括:
根据扩展名判断所述多个目标文件夹包含的文件的文件类型是否存在重复;若是,则对文件类型重复的文件进行删除处理,并获取经删除处理后所述多个目标文件夹剩余包含的所述电子书的数据源文件;若否,则获取所述多个目标文件夹包含的所述电子书的数据源文件。
A12.根据A1-A11任一项所述的方法,其中,在所述确定目标文件夹之后,所述方法还包括:
判断所述目标文件夹包含的文件是否存在文字类文件;
所述获取所述目标文件夹包含的所述电子书的数据源文件进一步包括:若存在文字类文件,则获取所述目标文件夹包含的所述电子书的数据源文件。
A13.根据A12所述的方法,其中,所述方法还包括:若不存在文字类文件,则进行报错处理。
A14.根据A1-A13任一项所述的方法,其中,在所述获取所述目标文件夹包含的所述电子书的数据源文件之后,所述方法还包括:
根据扩展名对数据源文件的文件类型进行识别,若所述数据源文件中同时包括版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件。
本发明还公开了:B15.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
B16.根据B15所述的计算设备,其中,所述数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件。
B17.根据B15或B16所述的计算设备,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配。
B18.根据B15-B17任一项所述的计算设备,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,将该文件夹确定为目标文件夹。
B19.根据B15-B17任一项所述的计算设备,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件;
读取书单文件中所述电子书的第二维度属性信息,将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件;
将所述目标文字类文件所在的文件夹确定为所述目标文件夹。
B20.根据B19所述的计算设备,所述可执行指令使所述处理器执行如下操作:
针对每个文字类文件,截取所述文字类文件的文件内容中的前N个页面作为版权信息页;
将所述第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配。
B21.根据B19或B20所述的计算设备,所述可执行指令使所述处理器执行如下操作:
将所述第二维度属性信息与各个文字类文件中的文字内容进行精确匹配。
B22.根据B19-B21任一项所述的计算设备,其中,所述第一维度属性信息为电子书名称,所述第二维度属性信息为国际标准书号。
B23.根据B15-B17任一项所述的计算设备,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为零个,将所述第一维度属性信息与用于存储数据源文件的所有文件夹包含的所有文件的文件名称进行匹配;
若匹配到至少一个目标文件,则将所述至少一个目标文件所在的一个或多个文件夹确定为目标文件夹。
B24.根据B23所述的计算设备,所述可执行指令使所述处理器执行如下操作:
若所述目标文件夹为一个,则获取所述目标文件夹包含的所述电子书的数据源文件;
若所述目标文件夹为多个,则根据多个目标文件夹包含的文件的文件类型获取所述多个目标文件夹包含的所述电子书的数据源文件。
B25.根据B24所述的计算设备,所述可执行指令使所述处理器执行如下操作:
根据扩展名判断所述多个目标文件夹包含的文件的文件类型是否存在重复;若是,则对文件类型重复的文件进行删除处理,并获取经删除处理后所述多个目标文件夹剩余包含的所述电子书的数据源文件;若否,则获取所述多个目标文件夹包含的所述电子书的数据源文件。
B26.根据B15-B25任一项所述的计算设备,所述可执行指令使所述处理器执行如下操作:
判断所述目标文件夹包含的文件是否存在文字类文件;
若存在文字类文件,则获取所述目标文件夹包含的所述电子书的数据源文件。
B27.根据B26所述的计算设备,所述可执行指令使所述处理器执行如下操作:
若不存在文字类文件,则进行报错处理。
B28.根据B15-B27任一项所述的计算设备,所述可执行指令使所述处理器执行如下操作:
根据扩展名对数据源文件的文件类型进行识别,若所述数据源文件中同时包括版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件。
本发明还公开了:C29.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
C30.根据C29所述的计算机存储介质,其中,所述数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件。
C31.根据C29或C30所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配。
C32.根据C29-C31任一项所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,将该文件夹确定为目标文件夹。
C33.根据C29-C31任一项所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件;
读取书单文件中所述电子书的第二维度属性信息,将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件;
将所述目标文字类文件所在的文件夹确定为所述目标文件夹。
C34.根据C33所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
针对每个文字类文件,截取所述文字类文件的文件内容中的前N个页面作为版权信息页;
将所述第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配。
C35.根据C33或C34所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
将所述第二维度属性信息与各个文字类文件中的文字内容进行精确匹配。
C36.根据C33-C35任一项所述的计算机存储介质,其中,所述第一维度属性信息为电子书名称,所述第二维度属性信息为国际标准书号。
C37.根据C29-C31任一项所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为零个,将所述第一维度属性信息与用于存储数据源文件的所有文件夹包含的所有文件的文件名称进行匹配;
若匹配到至少一个目标文件,则将所述至少一个目标文件所在的一个或多个文件夹确定为目标文件夹。
C38.根据C37所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
若所述目标文件夹为一个,则获取所述目标文件夹包含的所述电子书的数据源文件;
若所述目标文件夹为多个,则根据多个目标文件夹包含的文件的文件类型获取所述多个目标文件夹包含的所述电子书的数据源文件。
C39.根据C38所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
根据扩展名判断所述多个目标文件夹包含的文件的文件类型是否存在重复;若是,则对文件类型重复的文件进行删除处理,并获取经删除处理后所述多个目标文件夹剩余包含的所述电子书的数据源文件;若否,则获取所述多个目标文件夹包含的所述电子书的数据源文件。
C40.根据C29-C39任一项所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
判断所述目标文件夹包含的文件是否存在文字类文件;
若存在文字类文件,则获取所述目标文件夹包含的所述电子书的数据源文件。
C41.根据C40所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
若不存在文字类文件,则进行报错处理。
C42.根据C29-C41任一项所述的计算机存储介质,所述可执行指令使所述处理器执行如下操作:
根据扩展名对数据源文件的文件类型进行识别,若所述数据源文件中同时包括版式格式的文字类文件和流式格式的文字类文件,则删除版式格式的文字类文件。

Claims (10)

1.一种电子书数据源文件的匹配方法,包括:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
2.根据权利要求1所述的方法,其中,所述数据源文件包括文字类文件、图片类文件、样式类文件和/或页面信息类文件。
3.根据权利要求1或2所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配具体为:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行模糊匹配。
4.根据权利要求1-3任一项所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹进一步包括:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为一个,将该文件夹确定为目标文件夹。
5.根据权利要求1-3任一项所述的方法,其中,所述将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹进一步包括:
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,若匹配成功的文件夹为多个,针对每个匹配成功的文件夹包含的文件进行扩展名识别,提取出多个文字类文件;
读取书单文件中所述电子书的第二维度属性信息,将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配,根据匹配结果从多个文字类文件中筛选出目标文字类文件;
将所述目标文字类文件所在的文件夹确定为所述目标文件夹。
6.根据权利要求5所述的方法,其中,在所述提取出多个文字类文件之后,所述方法还包括:
针对每个文字类文件,截取所述文字类文件的文件内容中的前N个页面作为版权信息页;
所述将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配具体为:
将所述第二维度属性信息与各个文字类文件的版权信息页中的文字内容进行匹配。
7.根据权利要求5或6所述的方法,其中,所述将所述第二维度属性信息与各个文字类文件中的文字内容进行匹配具体为:
将所述第二维度属性信息与各个文字类文件中的文字内容进行精确匹配。
8.根据权利要求5-7任一项所述的方法,其中,所述第一维度属性信息为电子书名称,所述第二维度属性信息为国际标准书号。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如下操作:
读取书单文件中任一电子书的第一维度属性信息;其中,所述书单文件用于记录至少一本电子书的至少一个维度的属性信息;
将所述第一维度属性信息与用于存储数据源文件的各个文件夹的文件夹名称进行匹配,确定目标文件夹;
获取所述目标文件夹包含的所述电子书的数据源文件,将所述数据源文件发送至排版系统以进行电子书制作处理。
CN202010604303.XA 2020-06-29 2020-06-29 电子书数据源文件的匹配方法、计算设备及存储介质 Active CN111782586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604303.XA CN111782586B (zh) 2020-06-29 2020-06-29 电子书数据源文件的匹配方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604303.XA CN111782586B (zh) 2020-06-29 2020-06-29 电子书数据源文件的匹配方法、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN111782586A true CN111782586A (zh) 2020-10-16
CN111782586B CN111782586B (zh) 2024-08-13

Family

ID=72761055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604303.XA Active CN111782586B (zh) 2020-06-29 2020-06-29 电子书数据源文件的匹配方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN111782586B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608761A (zh) * 2021-07-26 2021-11-05 安徽华米信息科技有限公司 固件文件匹配方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200283A (ja) * 2005-12-28 2007-08-09 Nippon Digital Kenkyusho:Kk 電子ファイル管理方法、電子ファイル管理装置、電子ファイル管理プログラム、ファイル情報生成方法、ファイル情報生成装置、およびファイル情報生成プログラム
CN101354718A (zh) * 2008-07-23 2009-01-28 深圳市迅雷网络技术有限公司 确定文件包资源标识信息的方法及装置
US20090248615A1 (en) * 2008-03-25 2009-10-01 Tal Drory Method and System for Folder Recommendation in a File Operation
CN102622332A (zh) * 2011-01-27 2012-08-01 天脉聚源(北京)传媒科技有限公司 一种电子书实现方法及制作系统
CN104915462A (zh) * 2015-07-14 2015-09-16 魅族科技(中国)有限公司 一种文件管理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200283A (ja) * 2005-12-28 2007-08-09 Nippon Digital Kenkyusho:Kk 電子ファイル管理方法、電子ファイル管理装置、電子ファイル管理プログラム、ファイル情報生成方法、ファイル情報生成装置、およびファイル情報生成プログラム
US20090248615A1 (en) * 2008-03-25 2009-10-01 Tal Drory Method and System for Folder Recommendation in a File Operation
CN101354718A (zh) * 2008-07-23 2009-01-28 深圳市迅雷网络技术有限公司 确定文件包资源标识信息的方法及装置
CN102622332A (zh) * 2011-01-27 2012-08-01 天脉聚源(北京)传媒科技有限公司 一种电子书实现方法及制作系统
CN104915462A (zh) * 2015-07-14 2015-09-16 魅族科技(中国)有限公司 一种文件管理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608761A (zh) * 2021-07-26 2021-11-05 安徽华米信息科技有限公司 固件文件匹配方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111782586B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
CN109074383B (zh) 文档背景内可视化的文档搜索
US11182544B2 (en) User interface for contextual document recognition
US11222067B2 (en) Multi-index method and apparatus, cloud system and computer-readable storage medium
CN110704719B (zh) 企业搜索文本分词方法和装置
CN104699837B (zh) 网页配图选取方法、装置及服务器
CN110688349A (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN110704573B (zh) 目录存储方法、装置、计算机设备及存储介质
CN110750434A (zh) 接口测试方法、装置、电子设备和计算机可读存储介质
US20090204889A1 (en) Adaptive sampling of web pages for extraction
CN111782586A (zh) 电子书数据源文件的匹配方法、计算设备及存储介质
CN108921193B (zh) 图片录入方法、服务器及计算机存储介质
CN113343109A (zh) 榜单推荐方法、计算设备及计算机存储介质
CN117540374A (zh) 文件扫描方法和装置
CN105893556B (zh) 基于百科内容的词条分类方法及装置
CN117194322A (zh) 文件分类管理方法、系统及计算设备
CN111460765A (zh) 电子书籍标注处理方法、电子设备及存储介质
US20170242865A1 (en) Data verification device
CN112463896B (zh) 档案编目数据处理方法、装置、计算设备及存储介质
CN115294586A (zh) 一种识别发票的方法、装置、存储介质及电子设备
CN112532414B (zh) 确定isp归属的方法、装置、设备及计算机存储介质
CN109710833B (zh) 用于确定内容节点的方法与设备
CN111782661A (zh) 一种数据存储方法、数据查询方法和装置
CN112434239B (zh) 配置信息确定、页面显示方法、装置、设备及存储介质
CN113268193A (zh) 笔记页的移动方法、电子设备及计算机存储介质
CN109857302B (zh) 电子书信息的修复方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant