CN102280104A

CN102280104A - 一种基于智能标引的文件语音化处理方法和系统

Info

Publication number: CN102280104A
Application number: CN2010102042072A
Authority: CN
Inventors: 邓姿; 王长桥; 张军; 李松峰
Original assignee: BEIJING FOUNDER FEIYUE MEDIA TECHNOLOGY Co Ltd; Peking University Founder Group Co Ltd
Current assignee: Leade Technology Development Co., Ltd.
Priority date: 2010-06-11
Filing date: 2010-06-11
Publication date: 2011-12-14
Anticipated expiration: 2030-06-11
Also published as: CN102280104B

Abstract

本发明提供基于智能标引的文件语音化处理方法，包括：对从数字文件中提取的原始文字块和图片块进行标引，以合并文字块、标定文字块的内容属性、关联图片块与图说文字块和构建文章；建立描述不同文章之间和/或同一文章中的文本内容之间的数据关系、图片块与图说文字块的关联关系和/或图片信息及阅读顺序的文本信息列表；将文本信息列表中的信息传入语音库中生成语音记录文件或产品或者进行语音朗读。相应地，提供文件语音化处理系统。本发明实现了不同文本块的不同语音化方式以及语音化过程中的段落跳转，增加了语音化的灵活性和多样性，提高了阅读的趣味性，而且，用户可预制阅读顺序和语音库参数，使用灵活性高。

Description

一种基于智能标引的文件语音化处理方法和系统

技术领域

本发明属于信息处理技术领域，尤其涉及一种基于智能标引的文件语音化处理方法和系统。

背景技术

随着语音技术的发展，语音朗读已经成为各种终端设备上一种重要的功能，为终端用户提供听觉享受，带来全新的阅读体验。但是，目前市面上的语音朗读软件和已公布的文件语音朗读方法，基本上都是逐页朗读，不对内容进行识别区分，方式单一。即使是某些支持拖放朗读的语音软件，也必须在人工的干预下才能够实现。比如，随读语音朗读(Free Read)软件，需要使用者手工选中部分文字来实现拖放朗读。这对于使用者而言，灵活性差，方式单一。

在申请号为200910151284.3的中国专利申请“一种提供文本信息朗读服务的系统和方法”中，提供了一种能够实时主动地为用户提供文本的朗读服务的方法。在该方法中，首先制作含有控制标识符的文本文件，其中，控制标识符用于根据语义标识不同类型的文本内容，包括用于标识普通文本的控制标识符、用于标识作者注的控制标识符和用于标识重点内容的控制标识符；接着，根据用户的订阅请求将文本文件对应的文本流按照预定的顺序发送到无线朗读终端，该发送过程支持断点传输；最后，无线朗读终端将该文本流合成为语音文件并播放。此外，为了满足使用者的高级听觉享受，所制作的文本文件中还可包括用于控制语音合成效果的合成效果标识符，无线朗读终端根据该合成效果标识符将文本流合成为富有丰富表现力的语音文件。该方法存在如下问题：1、仅根据语义区分不同文本内容的属性，不能有效地、正确地识别版面复杂的数字文件中的文本内容的属性；2、由于不涉及对图片与其图说的关联关系的识别，因此，不能适用于包含图片的数字文件的语音朗读，尤其是对于图片表达丰富的信息的数字文件，图片的缺失必然导致大量信息的缺失，从而导致朗读内容不连贯或者错误；3、该方法可允许用户订阅文本文件中的不同文本内容，但是不能够实现朗读过程中的段落跳转，而且用户不能根据自己的需要为不同内容设置不同的朗读方式和阅读顺序，使用灵活性差。

发明内容

为了解决以上问题，本发明提供一种基于智能标引的文件语音化处理方法和系统，以增加文件语音化的灵活性和多样性。

对于文本内容的语音化，本发明提供的基于智能标引的文件语音化处理方法包括以下步骤：a.解析文件，提取原始文字块信息，其中，原始文字块信息包括原始文字块的文本内容、位置信息和样式信息中的至少一种；b.对原始文字块进行标引，以合并文字块、标定合并文字块的内容属性和构建文章；c.建立文本信息列表，该列表描述不同文章之间和/或同一文章中的文本内容之间的数据关系及阅读顺序；d.将文本信息列表中的信息传入语音库中，以按输出顺序生成语音记录文件或产品或者进行语音朗读，其中输出顺序与阅读顺序相同或基于阅读顺序修改而成。

优选地，标引步骤包括：根据原始文字块信息对原始文字块进行合并，得到合并文字块；根据合并文字块的样式信息标定合并文字块的内容属性；对合并文字块进行再合并，构建文章。

为了实现以上方法，本发明相应地提供了一种基于智能标引的语音化处理系统，该系统包括文件解析单元、文字块标引单元、文本信息列表建立单元和语音库。优选地，还可包括用户交互界面，通过该界面，用户可根据自己的需要调整阅读顺序和配置语音库的处理参数。

对于包括文字内容和图片及其图说的文件，本发明提供的基于智能标引的文件语音化处理方法进一步包括以下步骤：在步骤a中，进一步包括：提取图片块信息，所述图片块信息包括图片块的位置信息；在步骤b中，进一步包括：对图片块进行标引，以关联图片块与原始文字块中的图说文字块；在步骤c中，在所建立的文本信息列表中，还包括图片块与相应的图说文字块的关联关系和/或图片块的图片信息，所述阅读顺序中还包括图说文字块和图片块的阅读顺序；在步骤d中，还将文本信息列表中的图片块与相应图说文字块的关联关系和/或图片块的图片信息传入语音库中。

优选地，标引步骤包括：根据原始文字块信息对原始文字块进行合并，得到合并文字块；根据合并文字块的样式信息标定合并文字块的内容属性；将每个选定图片块与相应的图说文字块进行关联；合并文字块和图片块，从而构建文章。

为了实现以上方法，本发明相应地提供了一种基于智能标引的语音化处理系统，该系统包括文件解析单元、文字块标引单元、图片关联单元、文本信息列表建立单元和语音库。优选地，还可包括用户交互界面，通过该界面，用户可根据自己的需要调整阅读顺序和配置语音库的处理参数。

本发明通过对待语音化文件进行智能标引，根据文本内容、位置、字体、字号等样式信息将文本内容识别为多个内容属性不同的文本块，并建立文本块之间的阅读顺序和配置语音库的处理参数，从而实现不同文本块、不同段落的不同语音化方式以及语音化过程中的段落跳转，增加了文件语音化的灵活性和多样性，提高了阅读的趣味性。对于包含图片的文件，将图片与图说文本块相关联，并将这些关联关系和/或图片块的图片信息语音化。此外，通过用户交互界面，实现了用户定制功能，进一步增加了文件语音化的灵活性。

附图说明

图1是根据本发明的第一实施例的基于智能标引的文件语音化处理方法的流程图；

图2是根据本发明的第一实施例的基于智能标引的文件语音化处理系统的框图；

图3是根据本发明的第二实施例的基于智能标引的文件语音化处理方法的流程图；

图4是根据本发明的第二实施例的基于智能标引的文件语音化处理系统的框图；

图5是根据本发明的示例的基于智能标引的文件语音朗读方法的流程图；

图6是原始文字块经过聚类分析形成多个原始文字块集合的效果图；

图7是经过排序的合并文字块的效果图；

图8是语音朗读参数配置交互界面的示意图。

具体实施方式

本发明提供一种数字文件的语音化功能，主要应用于满足以下条件的数字文件：能够自动提取其中的原始文字块信息和图片块信息，从而能够按照内容属性或者其它可以区分文本身份的属性对文本内容进行划分，比如PDF文件、CEBX文件。以下，将结合附图和实施例对本发明进行详细描述。

(第一实施例)

在本实施例中，语音化对象为满足上述条件的数字文件中所包含的文本内容。图1是根据本实施例的基于智能标引的文件语音化处理方法的流程图。参照图1，该方法包括以下步骤：

步骤S11、文件解析步骤

在该步骤中，对待语音化文件进行解析，提取原始文字块信息，其中，原始文字块信息包括原始文字块的文本内容、位置信息和样式信息，样式信息包括字体、字号、序号等信息。

步骤S12、文字块标引步骤

在该步骤中，对原始文字块进行标引，以合并文字块、标定合并文字块的内容属性和构建文章。

在本发明中，为了能够实现文本内容的正确识别，优选根据原始文字块信息中所包含的位置、字体、字号等信息利用相近、相似等原则对原始文字块进行标引，例如可采用申请号为200710179938.4的中国专利申请“一种基于PDF的复杂版面的标引方法”中所公开的文字块标引方法来对PDF等满足上述条件的数字文件进行标引。

步骤S13、文本信息列表建立步骤

在该步骤中，建立文本信息列表，在该列表中，描述不同文章之间和/或同一文章的文本内容之间的数据关系及阅读顺序，这里，阅读顺序是指正被语音化处理的文件原有的阅读顺序，该阅读顺序通过以上标引步骤确定。

步骤S15、语音化步骤

在该步骤中，将文本信息列表中的文本内容传入语音库中，以按输出顺序生成语音记录文件或产品或者进行语音朗读，这里，输出顺序可与阅读顺序相同，或者基于阅读顺序修改而成。在优选实施例中，用户可从文件中选取特定文件内容，并基于阅读顺序而生成有关这些特定文件内容的输出顺序。

优选地，该方法还可包括用户交互步骤，在该步骤中，向用户提供文本信息列表中的信息，用户根据这些信息基于阅读顺序获得输出顺序、和/或配置语音库的处理参数、和/或选择生成语音记录文件或产品或者进行语音朗读。然后，可将用户设置的输出顺序传送到语音库中，语音库根据该输出顺序按照默认的或用户配置的语音库处理参数生成语音记录文件或产品或者进行语音朗读。

优选地，在语音化步骤中，可按阅读顺序建立待朗读文件的章节目录，用于生成语音记录文件或产品或者进行语音朗读。此时，可提供视频或音频的用户交互界面，供用户从这些章节目录中选择生成语音记录文件或产品或者进行语音朗读的起始点和/或中断点(例如结束点)，以从起始点进行语音朗读，和/或，至中断点中断语音朗读。

优选地，可缓存记录章节目录和/或朗读起始点和/或朗读中断点(例如结束点)，从而有利于例如分多次为用户朗读。

优选地，可以在将所生成的语音记录文件或产品缓存在用户终端中，实现断点续读，即，当由于用户自行中断朗读或者其它原因导致朗读中断时，可记录中断的文本内容的位置，并在下次开始朗读时，从该中断位置继续朗读，而不必重复已经朗读过的内容。

图2是实现图1所示方法的文件语音化处理系统。参照图2，该系统包括：

文件解析单元11，用于对待语音化文件进行解析，提取原始文字块信息，其中，原始文字块信息包括原始文字块的文本内容、位置信息和样式信息，其中样式信息可为以下中的至少一种：字体、字号、序号；

文字块标引单元12，用于对原始文字块进行标引，以合并文字块、标定合并文字块的内容属性和构建文章；

文本信息列表建立单元13，用于建立文本信息列表，并将文本信息列表中的信息传入语音库14中，其中，所述文本信息列表描述不同文章之间和/或同一文章中的文本内容之间的数据关系及阅读顺序；

语音库14，用于将文本信息列表中的信息按照输出顺序生成语音记录文件或产品或者进行语音朗读。

优选地，该系统还可包括用户交互界面15。在该界面中，默认显示文本信息列表中的信息，用户可根据这些信息基于阅读顺序获得输出顺序、和/或配置语音库的处理参数、和/或选择生成语音记录文件或产品或者进行语音朗读。然后，用户交互界面15将用户设置的输出顺序和/或语音库处理参数发送给语音库14，语音库14根据该输出顺序按照语音库默认的处理参数或者用户设置的语音库处理参数生成语音记录文件或产品或者进行语音朗读。此时，可提供视频或音频的用户交互界面。基于阅读顺序通过用户交互界面确定的输出顺序可经由文本信息列表建立单元13发送到语音库14或者直接发送到语音库14。

优选地，语音库14可按阅读顺序建立待朗读文件的章节目录，用于生成语音记录文件或产品或者进行语音朗读。此时，通过用户交互界面，用户根据这些章节目录选择生成语音记录文件或产品或者进行语音朗读的起始点以从该起始点进行语音朗读，和/或确定如前所述的输出顺序。

优选地，在存在缓存器18时，可将所生成的语音记录文件或产品缓存在缓存器18中，实现断点续读，即，当由于用户自行中断朗读或者其它原因导致朗读中断时，可记录中断的文本内容的位置，并在下次开始朗读时，从该中断位置开始朗读，而不必重复已经朗读过的内容。该用户交互界面可与图2中所示用户交互界面15融合或者可单独提供。或者，也可由单独的模块来建立待朗读文件的章节目录。

从以上描述可看出，本发明通过智能标引将文本内容识别为多个内容属性不同的文本块，并建立文本块之间的阅读顺序和配置语音库的处理参数，从而实现不同文本块、不同段落的不同语音化方式以及语音化过程中的段落跳转，增加了语音化的灵活性和多样性，提高了阅读的趣味性。此外，通过用户交互界面，实现了用户定制功能，进一步增加了语音化的灵活性。

(第二实施例)

在本实施例中，语音化对象包括满足上述条件的数字文件中所包含的文本内容和图片信息。图3是根据本发明的第二实施例的基于智能标引的文件语音化处理方法的流程图。参照图3，该方法包括以下步骤：

步骤S31、文件解析步骤

在该步骤中，解析待语音化文件，提取原始文字块信息和图片块信息，其中，原始文字块信息包括原始文字块的文本内容、位置信息和样式信息中的至少一种，图片块信息包括图片块的位置信息。

步骤S32、文字块和图片块标引步骤

在该步骤中，对原始文字块和图片块进行标引，以合并文字块、标定合并文字块的内容属性、关联图片块与图说文字块和构建文章，其中，文字块的标引步骤，即，合并、标定、再合并等步骤与图1中的步骤S12相同。

该步骤与步骤S12的不同之处在于，增加了关联图片块与图说文字块(即，内容属性为图说的文字块)的步骤，并且在构建文章时对合并文字块和图片块进行再合并，即，除了对合并文字块进行再合并之外，还将图片块附加到相应图说文字块处。在具体实现该步骤时，遍历每个选定图片块(例如文件中的每个图片块)，并将每个选定图片块与相应图说文字块进行关联，其中，例如可利用申请号为200810239369.2的中国专利申请“一种版式文件图文自动关联的方法与系统”中的图片关联方法来实现该步骤。

步骤S33、文本信息列表建立步骤

在该步骤中，建立文本信息列表，该列表描述不同文章之间和/或同一文章的文本内容之间的数据关系、图片块与相应图说文字块的关联关系和/或图片块的图片信息以及阅读顺序，这里，阅读顺序不仅包括不同文章之间的阅读顺序和/或同一文章中的不同文本内容之间的阅读顺序，而且还包括与图说文字块和图片块的阅读顺序，图片信息可包括对图片内容的描述、图片的大小等内容。

步骤S34、语音化步骤

在该步骤中，配置语音库的参数，并将文本信息列表中的信息(包括文本内容、图片块与相应图说文本块的关联关系和/或图片块的图片信息)传入语音库中，以按输出顺序生成语音记录文件或产品或者进行语音朗读。

与第一实施例相同，优选地，还可包括用户交互步骤。当然，用户可根据需要通过交互步骤选择是否输出文件中的图片内容。

图4是实现图3所示方法的文件语音化处理系统。参照图4，该系统与图2所示系统的区别在于，还包括图片关联单元16。图片关联单元16用于遍历每个选定图片块(例如文件中的每个图片块)，并将每个选定图片块与从文字块标引单元12接收的相应图说文字块进行关联。

在该系统中，文件解析单元11不仅提取原始文字块信息，而且还提取图片块信息。文字块标引单元12根据从图片关联单元16接收的图片块与相应图说文字块的关联关系对原始文字块和图片块进行标引，以合并文字块、标定合并文字块的内容属性、关联图片块与图说文字块和构建文章，并将建立文本信息列表所需的标引信息发送给文本信息列表建立单元13。文本信息列表建立单元13在建立文本信息列表时将图片块与相应图说文字块的关联关系和/或图片块的图片信息并入到文本信息列表中，然后将文本信息列表中的信息(包括文本内容、图片块与相应图说文字块的关联关系和/或图片块的图片信息)传入语音库14中。语音库14将文本信息列表中的信息(包括文本内容、图片块与相应图说文字块的关联关系和/或图片块的图片信息)按输出顺序生成语音记录文件或产品或者进行语音朗读。

从以上描述可看出，第二实施例可将图片信息语音化，从而实现了复杂版面中文本内容和图片信息的自动语音化。

以下，将通过一个具体的示例来对第二实施例的具体实现进行详细描述。在本示例中，可采用申请号为200710179938.4的中国专利申请“一种基于PDF的复杂版面的标引方法”中所公开的文字块标引方法来对PDF文件进行标引。

图5是该示例的方法流程图。参照图5，具体流程如下：

步骤S51：文件解析步骤

在本示例中，导入PDF文件，并对该PDF文件进行解析，以获得版面上的全部的文字内容、文字的位置、字体、字号、序号等样式信息，从而得到一个原始文字块的列表和图片块列表。通过原始文字块列表和图片块列表可形成文本信息列表，例如通过下述步骤S52-S57获得文本信息列表。

对于原始文字块列表，由于PDF排版软件对文字进行了位置控制，因此，从PDF文件中提取到的是很多个小的文字块，基本上是每个字符对应一个小的文字块。关于原始文字块列表的详细内容，例如可参见上述申请号为200710179938.4的中国专利申请。

对于图片块列表，主要是用于遍历图片块。

步骤S52、文字块聚类步骤

在该步骤中，根据原始文字块的位置关系和样式信息，比如，距离、字体、字号等信息，对原始文字块进行聚类分析，得到多个原始文字块的集合。该步骤也可以理解为将单个字符的文字块连接形成独立成句或独立成段的文字块。

在本示例中，经过步骤S51和S52之后，得到多个文字块集合，如图6所示。在图6中，每个文字块集合均用方框标出，文字块集合左前的数字表示该文字块集合的序号。

步骤S53、文字块合并步骤

在该步骤中，根据排版类型对每个集合中的原始文字块按位置进行排序，并对该集合内的所有原始文字块的文本内容、区域、字号、字体等进行合并，得到合并文字块。此时，已经将文字块(独立成句的文字块或独立成段的文字块)按照排版类型的自然顺序排序。

本示例中，经过步骤S53之后，原始文字块合并后的效果如图7所示。在图7中，其中双边框文字块与单边框文字块内容属性不相同；双边框文字块为子标题，例如序号为1、4的文字块；单边框文字块为段落正文，例如，序号为2、3、5、6的文字块。

步骤S54、文字块标定步骤

在该步骤中，按合并文字块的样式信息(比如字号)标定合并文字块的内容属性，例如指明文字块为标题、正文或图说。此步骤实际上是对每个文字块添加身份识别的属性。

步骤S55、图片关联步骤

在该步骤中，遍历图片块列表，计算图说文字块与图片块之间的位置关系，然后根据所计算的位置关系判定图片块与图说文字块的近邻关系，并将判定为最近邻的图说文字块与该图片块关联对图片与图说进行自动关联。在一个实施例中，步骤S55也可在步骤S53之前执行，从而在步骤S53中将文字块和图片块合并为图文块。

步骤S56、文字块和图片块成文步骤

在该步骤中，对多个合并文字块、图片块进行再合并，比如，可采用人工干预的方法或者可根据文字块的位置、排版类型、样式信息、语义和词性信息以及图片块与相应图说文字块的关联关系中的至少一种智能判定阅读顺序后再对合并文字块和图片块进行再合并，从而构建文章。

在人工干预的情况下，根据本发明的文件语音化处理系统还应包括用于用户手工合并文字块的交互界面。

步骤S57、文本信息列表建立步骤

在该步骤中，根据文章之间的位置关系、单篇文章的文本内容之间的内容属性、图片块与图说文字块的关联关系形成文本信息列表。

可基于文本信息列表中的各种信息确定文件语音化的处理参数，从而实现所希望的语音输出方式。例如，在一个实施例中，可按所希望的输出顺序朗读文件内容。例如，针对文章之间，第一篇文章结束后跳转到最后一篇文章，最后一篇文章结束后对第二篇文章进行朗读；针对单篇文章的内容，对文章标题进行重读，正文进行轻读，文章第一段内容朗读结束后，对第二段内容进行重复朗读，第四段内容朗读结束后直接跳到最后一段，对最后一段进行朗读时要放慢语速等。

步骤S58、语音朗读步骤

在该步骤中，配置语音库的各种参数，将在步骤S57中建立的文本信息列表中的信息(包括文本内容、图片块与图说文字块的关联关系和/或图片块的图片信息)传入语音库中，进行语音朗读。

此外，如上所述，用户可根据自己的需要提前对文本信息列表中的信息进行预制，例如提前设置好文章之间的输出顺序。在本示例中，用户可通过图8所示的用户交互界面来配置文本信息列表的描述参数。图8所示交互界面由“阅读顺序”、“重读”和“语音特点”三部分组成。

首先，对“阅读顺序”进行说明。导入PDF文件后，根据标引结果，“文章阅读顺序”列表中列出版面中解析出的所有文章标题，选中列表中的某篇文章后，“内容阅读顺序”列表中加载解析出的该篇文章的标题及所有段落，段落名称由“段落”二字和当前的段落序号组成；选中“文章阅读顺序”或“内容阅读顺序”列表中的某一项，鼠标按下，拖动，放开，即可改变选中项在列表中的位置。此时，输出顺序即为列表项目的排列顺序，这些列表项目构成了按输出顺序建立的待朗读文件的章节目录。

然后，在“重读”部分中预制当前文章或当前段落朗读的重复次数。“需要重读的文章”指的是“文章阅读顺序”列表中选中的文章，“需要重读的内容”指的是“内容阅读顺序”列表中选中的段落或标题。

最后，“语音特点”部分包括语速和发声方式两项。语速分快、中、慢三个等级，发生方式分为男声和女声。

用户设置好输出顺序和语音库参数之后，点击“确定”按钮时，可开始进行语音朗读。

以上示例以“语音朗读”为例说明本发明的技术方案。不过，应该理解，语音朗读仅为语音化的一种实施方式，本发明所述“语音化”还包括将文件生成语音记录文件或产品。同样，如上所述，在将文本信息列表中的信息(包括文本内容和图片内容)按照输出顺序生成语音记录文件或产品的情况下，可将所生成的语音记录文件或产品缓存在缓存器中。当朗读中断时，还可将断点缓存在缓存器中，下次进行朗读时，从该断点开始进行朗读。

同样，如上所述，本发明方法并不局限于PDF文件，若文件的内容可以按照内容属性(或是其它可以区分身份的属性)进行划分，则根据配置页面预制文本信息列表的描述参数，同样可以实现多样化的语音朗读。

应该理解，图8所示用户交互界面仅仅是用于示例性目的，任何可根据以上信息基于阅读顺序定制输出顺序的界面形式都应包括在本发明的保护范围内。比如，还可通过拖放条的形式来设置语音朗读的起始点。或者，可将“阅读顺序”部分中的选项设置为单选项或复选项，这样用户可仅选择部分内容建立实际输出顺序，以生成语音记录文件或产品或者进行语音朗读。

以上已参照附图和实施例对本发明进行了详细描述，但是，应该理解，本发明并不限于以上所公开的具体实施例，任何本领域的技术人员在此基础之上容易想到的修改和变型都应包括在本发明的保护范围内。

Claims

1.一种基于智能标引的文件语音化处理方法，包括以下步骤：

a.解析文件，提取原始文字块信息，其中，原始文字块信息包括原始文字块的文本内容、位置信息和样式信息中的至少一种；

b.对原始文字块进行标引，以合并文字块、标定合并文字块的内容属性和构建文章；

c.建立文本信息列表，该列表描述不同文章之间和/或同一文章中的文本内容之间的数据关系及阅读顺序；

d.将文本信息列表中的信息传入语音库中，以按输出顺序生成语音记录文件或产品或者进行语音朗读，其中输出顺序与阅读顺序相同或基于阅读顺序修改而成。

2.根据权利要求1所述的文件语音化处理方法，其特征在于，进一步包括：

在步骤a中，进一步包括：提取图片块信息，所述图片块信息包括图片块的位置信息；

在步骤b中，进一步包括：对图片块进行标引，以关联图片块与原始文字块中的图说文字块；

在步骤c中，在所建立的文本信息列表中，还包括图片块与相应的图说文字块的关联关系和/或图片块的图片信息，所述阅读顺序中还包括图说文字块和图片块的阅读顺序；

在步骤d中，还将文本信息列表中的图片块与相应图说文字块的关联关系和/或图片块的图片信息传入语音库中。

3.根据权利要求1或2所述的文件语音化处理方法，其特征在于，步骤b包括以下步骤：

根据原始文字块信息对原始文字块进行合并，得到合并文字块；

根据合并文字块的样式信息标定合并文字块的内容属性；

对合并文字块进行再合并，构建文章；

如果执行提取图像块信息的步骤，则进一步包括：将每个选定图片块与相应的图说文字块进行关联；合并文字块和图片块，从而构建文章。

4.根据权利要求3所述的文件语音化处理方法，其特征在于，

在对原始文字块进行合并时，首先根据原始文字块的位置关系和/或样式信息对原始文字块进行聚类分析，得到多个原始文字块的集合；然后根据排版类型对每个集合中的原始文字块按位置进行排序，并根据所述集合内的原始文字块的文本内容、区域、字号、字体中的至少一种进行文字块合并，得到合并文字块；和/或

在对合并文字块进行再合并时，采用人工干预的方法或者根据文字块的位置、排版类型、样式信息、语义和词性信息中的至少一种智能判定阅读顺序后再对合并文字块进行再合并；

如果执行提取图像块信息的步骤，则在对图片块与图说文字块进行关联时，首先计算图片块与图说文字块之间的位置关系；然后根据所计算的位置关系判定图片块与图说文字块的近邻关系，并将判定为最近邻的图说文字块与该图片块关联；在对合并文字块和图片块进行再合并时，优选地采用人工干预的方法或者根据文字块的位置、排版类型、样式信息、语义和词性信息以及图片块与相应图说文字块的关联关系中的至少一种智能判定阅读顺序后再对合并文字块和图片块进行再合并。

5.根据权利要求1或2所述的文件语音化处理方法，其特征在于，所述语音库的处理参数包括朗读速度、重读参数、发声方式中的至少一种。

6.根据权利要求1或2所述的文件语音化处理方法，其特征在于，进一步包括用户交互步骤，在该步骤中，向用户提供文本信息列表中的信息，用户根据这些信息基于阅读顺序获得输出顺序、和/或配置语音库的处理参数、和/或选择生成语音记录文件或产品或者进行语音朗读。

7.根据权利要求1或2所述的文件语音化处理方法，其特征在于，进一步包括：按阅读顺序建立所述文件的章节目录，用于生成语音记录文件或产品或者进行语音朗读。

8.根据权利要求7所述的文件语音化处理方法，其特征在于，进一步包括：提供视频或音频的用户交互界面，供用户根据所述章节目录选择生成语音记录文件或产品或者进行语音朗读的起始点和/或中断点，优选地缓存记录章节目录和/或由用户选择的起始点和/或中断点。

9.一种基于智能标引的文件语音化处理系统，包括：

文件解析单元，用于对文件进行解析，提取原始文字块信息，其中，原始文字块信息包括原始文字块的文本内容、位置信息和样式信息中的至少一种；

文字块标引单元，用于对原始文字块进行标引，以合并文字块、标定合并文字块的内容属性和构建文章；

文本信息列表建立单元，用于建立文本信息列表，并将文本信息列表中的信息传入语音库中，其中，所述文本信息列表描述不同文章之间和/或同一文章中的文本内容之间的数据关系及阅读顺序；

语音库，用于根据文本信息列表中的信息按输出顺序生成语音记录文件或产品或者进行语音朗读，其中输出顺序与阅读顺序相同或基于阅读顺序修改而成。

10.根据权利要求9所述的文件语音化处理系统，其特征在于，还包括图片关联单元，其用于将每个选定图片块与原始文字块中的相应的图说文字块进行关联；

其中，文件解析单元还提取图片块信息，所述图片块信息包括图片块的位置信息；文字块标引单元根据从图片关联单元接收的图片块与相应图说文字块的关联关系对图片块进行标引；文本信息列表建立单元在建立文本信息列表时将图片块与相应图说文字块的关联关系和/或图片块的图片信息并入到文本信息列表中，所述阅读顺序中还包括图说文字块和图片块的阅读顺序，文本信息列表建立单元将文本信息列表中的文本内容和图片块与相应图说文字块的关联关系和/或图片块的图片信息传入语音库中。

11.根据权利要求9或10所述的文件语音化处理系统，其特征在于，所述文字块标引单元执行以下标引步骤：

根据合并文字块的样式信息标定合并文字块的内容属性；

对合并文字块进行再合并，构建文章；

在所述系统包括图片关联单元的情况下，图片关联单元将每个选定图片块与相应的图说文字块进行关联；文字块标引单元合并文字块和图片块，从而构建文章。

12.根据权利要求9或10所述的文件语音化处理系统，其特征在于，还包括用户交互界面，在该界面中，默认显示文本信息列表中的信息，用户根据这些信息基于阅读顺序获得输出顺序、和/或配置语音库的处理参数、和/或选择生成语音记录文件或产品或者进行语音朗读。

13.根据权利要求9或10所述的文件语音化处理系统，其特征在于，所述语音库按阅读顺序建立所述文件的章节目录，用于生成语音记录文件或产品或者进行语音朗读。

14.根据权利要求13所述的文件语音化处理系统，其特征在于，进一步包括视频或音频的用户交互界面，供用户根据所述章节目录选择生成语音记录文件或产品或者进行语音朗读的起始点和/或中断点，优选地缓存记录章节目录和/或由用户选择的起始点和/或中断点。

15.根据权利要求9或10所述的文件语音化处理系统，其特征在于，还包括缓存器，其用于缓存语音库生成的语音记录文件或产品和语音朗读的起始点和/或中断点。