CN108280118A

CN108280118A - 文本播读方法、装置及客户端、服务器和存储介质

Info

Publication number: CN108280118A
Application number: CN201711231804.2A
Authority: CN
Inventors: 吴伟勇
Original assignee: Guangzhou Dongjing Computer Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-07-13

Abstract

本发明实施例提供一种文本播读方法、装置及客户端、服务器和存储介质，涉及互联网通信技术领域。该文本播读方法包括：提取待播读文本中的第一待播读分词，第一待播读分词与从服务器选择的词汇库内的分词对应；从用户语音库中调取与第一待播读分词对应的用户语音段，用户语音库包括用户依据词汇库内的分词录入的多个用户语音段；依据第一待播读分词在待播读文本中的顺序，播读与第一待播读分词对应的用户语音段。将待播读文本进行分词处理，得到多个待播读分词，并与用于预先选择的词汇库中的分词相比较，提取出对应的用户语音段，并按照待播读文本中词组的顺序播放提取的多个用户语音段，可以满足不同用户的个性化需求，提高用户的体验感。

Description

文本播读方法、装置及客户端、服务器和存储介质

技术领域

本发明涉及互联网通信技术领域，具体而言，涉及文本播读方法、装置及客户端、服务器和存储介质。

背景技术

随着互联网的持续发展，文本转语音播读(Text To Speech，TTS)的技术已经广泛的应用于大量的数字化生活场景。其关键技术点在于对文本进行分词处理，再基于分词从TTS语音库检索出其关联的语音段，把各自独立的语音段数据按照原文本中的分词位置重新组织为一段连续的语音数据并进行播读。但是，使用的TTS语音库播读的语种(普通话，粤语，四川话)是有限的，语句段的语调也是统一的，而每用户对语调、语速等的需求不尽相同，不能满足用户的个性化需求。

发明内容

有鉴于此，本发明实施例的目的在于提供一种文本播读方法、装置及客户端和存储介质，通过用户自行选择不同阶级的词汇库，录入与词汇库对应的用户语音段，以满足用户的个性化需求。

本发明实施例的另一目的在于提供一种服务器，以提供不同阶级的词汇库供用户选择，以满足用户的个性化需求。

第一方面，本发明实施例提供一种文本播读方法，应用于客户端，所述方法包括：提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应；从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段；依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。

第二方面，本发明实施例还提供一种文本播读装置，应用于客户端，所述装置包括：分词处理模块，用于提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应；语音调取模块，用于从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段；播读模块，用于依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。

第三方面，本发明实施例还提供一种客户端，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的文本播读方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如上所述的文本播读方法。

第五方面，本发明实施例还提供一种服务器，包括：存储器；处理器；及词汇库建立装置；所述词汇库建立装置存储于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块，所述词汇库建立装置包括：提取模块，用于利用分词技术从多个文本中提取分词；排序模块，用于按照多个所述分词出现的频率进行排序；建库模块，用于建立不同阶级的词汇库，并将排序后的多个所述分词按照在多个文本中出现的比例归入对应阶级的词汇库。

与现有技术相比，本发明实施例提供一种文本播读方法、装置、客户端及存储介质，该文本播读方法包括：提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应；从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段；依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。用户可以依据自己的需求和喜好，通过客户端预先从服务器获取对应的词汇库，依据词汇库语音输入与词汇库中的分词对应用户语音段，客户端将词汇库中的分词与用户语音段进行关联，建立相应的索引关系。在需要对文本进行播读时，客户端可以将待播读文本进行分词处理，得到多个待播读分词，并与用于预先选择的词汇库中的分词相比较，提取出对应的用户语音段，并按照待播读文本中词组的顺序播放提取的多个用户语音段，可以满足不同用户的个性化需求，提高用户的体验感。

服务器可以按照每个分词在统计的所有的文本中出现的频率建立不同阶级的词汇库，不同阶级的词汇库中的分词个数不同，需要用户录入用户语音段的时间也不同。因此，服务器通过设置不同阶级的词汇库，可以满足不同用户的个性化需求，提高用户的体验感。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的服务器与客户端进行交互的示意图。

图2为本发明实施例提供的客户端和服务器间的信令交互图。

图3为本发明实施例提供的词汇库建立方法的流程图。

图4为本发明第一实施例提供的文本播读方法的流程图。

图5为本发明第二实施例提供的文本播读方法的流程图。

图6为本发明第三实施例提供的文本播读方法的流程图。

图7为本发明第三实施例提供的文本播读方法中步骤S14的子流程图。

图8为本发明第四实施例提供的客户端的结构示意图。

图9为本发明第四实施例提供的文本播读装置的功能模块图。

图10为本发明第五实施例提供的文本播读装置的功能模块图。

图11为本发明第六实施例提供的服务器的结构框图。

图12为本发明第六实施例提供的词汇库建立装置的功能模块图。

图标：100-客户端；200-服务器；300-网络；10-文本播读装置；11- 第一处理器；12-第一存储器；13-总线；14-通信接口；101-词汇库选择模块；102-录入模块；103-关联模块；104-分词处理模块；105-语音调取模块；106-播读模块；1061-重组单元；1062-缓存单元；1063-加载单元；107- 语音库选择模块；20-词汇库建立装置；21-第二存储器；22-存储控制器； 23-第二处理器；201-提取模块；202-排序模块；203-建库模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参考图1，是本发明实施例提供的客户端100与服务器200进行交互的示意图。客户端100通过可以通过网络300与服务器200进行通信，于本发明实施例中，客户端100可以通过网络300从服务器200获取语音数据库、录入用户语音段所需要的词汇库等，对应的，服务器200可以提供词汇库、语音数据库的下载服务。容易理解的是，多个客户端100可以同时与服务器200通信连接，同时从服务器200获取语音数据库和词汇库等。

服务器200可以是，但不限于网络服务器、数据库服务器、云端服务器等。客户端100可以是，但不限于智能音箱、智能头盔等智能语音播放设备，也可以是智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)等具有语音输入/输出功能的智能移动设备。所述客户端100的操作系统可以是，但不限于，安卓(Android)系统、IOS (iPhoneoperating system)系统、Windows phone系统、Windows系统等。

请参考图2，是本发明实施例提供的客户端100和服务器200间的信令交互图。所述服务器200可以按照每个分词在统计的所有的文本中出现的频率建立不同阶级的词汇库，以供用户选择。不同阶级的词汇库中的分词个数不同，需要用户录入用户语音段的时间也不同。因此，为了满足不同用户的需求，服务器200可以设置不同阶级的词汇库，下面对服务器 200建立不同阶级词汇库的方法详细描述。

请参考图3，是本发明实施例提供的词汇库建立方法的流程图。该词汇库建立方法可以由服务器200执行，所述词汇库建立方法包括：

步骤S31，利用分词技术从多个文本中提取分词。

服务器200可以预先收集多个文本，该文本可以是短篇小说、长篇小说、博客新闻文字等，其文本的个数越多，所统计出的常用分词越精确。对收集的大量的文本进行数据分析，并结合分词技术提取所有的文本中的分词。例如，服务器200收集的文本为“北京水立方在北京”时，提取的分词可以是“北京”，“水立方”，“在”。

步骤S32，按照多个所述分词出现的频率进行排序。

按照预先收集的多个文本中的所有分词在多个文本中出现的频率由高到低进行排序，例如，在“北京水立方在北京”这个文本中，分词的排序方式为“北京”，“水立方”，“在”或者“北京”，“在”，“水立方”，容易理解的是，文本的分词数量越多，分词的基数越大，排列的顺序也就越精确。

步骤S33，建立不同阶级的词汇库，并将排序后的多个所述分词按照在多个文本中出现的比例归入对应阶级的词汇库。

服务器200可以建立不同阶级的词汇库，以满足不同用户的个性化需求，例如可以初阶词汇库、中级词汇库和高阶词汇库，以步骤S32中的举例为例，“北京”在“北京水立方在北京”这个文本中出现的比例为50％， “在”和“水立方”在“北京水立方在北京”这个文本中出现的比例均为 25％，对于此文本来说，“北京”为常用词汇，如果初阶词汇库中的分词需要覆盖文本的50％，则“北京”可以纳入初阶词汇库，如果中阶词汇库中的分词需要覆盖文本的75％，则还可将“水立方”或“在”纳入中阶词汇库，如果高阶词汇库中的分词需要覆盖文本的100％，则需要将“北京”、 “水立方”、“在”均纳入高阶词汇库。

本实施例中，还可以按照多个文本中的分词由高到低出现的频率，分为初阶词汇库、中阶词汇库、高阶词汇库、顶阶词汇库，容易理解的是，从所述初阶词汇库、所述中阶词汇库、所述高阶词汇库到所述顶阶词汇库覆盖的分词依次增多。可以的是，初阶词汇库覆盖被服务器200收集的多个文本中所有分词的30％，中阶词汇库覆盖被服务器200收集的多个文本中所有分词的70％，高阶词汇库覆盖被服务器200收集的多个文本中所有分词的90％，顶阶词汇库覆盖被服务器200收集的多个文本中所有分词的 100％。当然，在其他具体实施方式中，对词汇库划分的阶级还可以为其他个数，本发明实施例对此不做限定。

请再次参考图2，用户通过客户端100从服务器200选择词汇库和语音数据库。针对语音数据库，服务器200可以预先存储多个不同的语音数据库，可以按照语种(如普通话，粤语，四川话等)和角色(如男，女，真人明星)等的不同，建立不同的语音数据库，以满足用户的个性化需求。用户可以依据自己录入的语音的语种和自己的性别通过客户端100选择服务器200存储的合适的语音数据库，例如用户性别是男性，且录入的是四川话，则可以通过客户端100在服务器200选择四川话男声语音数据库。

对于词汇库，用户可以通过录入自己的语音段需要耗费的时间来选择不同阶级的词汇库。例如，用户愿意花费更多的时间录入用户自己的语音，则可以选择分词最多的顶级词汇库，用户不太愿意花费太多的时间录入自己的语音，则可以选择覆盖常用的词汇的初阶词汇。

用户选择词汇库后，可以按照词汇库中提供的分词，向客户端100录入自己的声音，本实施例中，用户对照词汇库中的分词录入的声音可以称为用户语音段。用户语音段的个数和词汇库中的分词个数对应，如果词汇库中没有读音相同的分词，则用户语音段的个数和词汇库中的分词个数相同，若汇库中存在读音相同的分词，则用户语音段的个数小于词汇库中的分词个数。

客户端100将用户录入的用户语音段与对应的分词进行关联，建立相应的索引关系，并进行保存，以便匹配到与词汇库中的分词对应的待播读分词时，调取关联的用户语音段。客户端100再按照待播读文本中各个分词的顺序，播读用户语音段。

若待播读文本中的分词在用户选择的词汇库中没有，可以从语音数据库中调取对应的预设语音段。并按照待播读文本中各个分词的顺序，播读用户语音段和预设语音段，以实现对每个用户的个性化的文本播读。

第一实施例

请参考图4，是本发明第一实施例提供的文本播读方法的流程图。需要提到的是，本发明所述的方法不以图4及以下所示的具体顺序为限制。下面将对图4所示的具体流程及步骤进行详细阐述，所述文本播读方法包括：

步骤S11，提取待播读文本中的第一待播读分词。

当用户需要将某个文本转化为声音收听时，需要客户端对该文本进行语音播读，该文本可以称为待播读文本，客户端将待播读文本进行分词提取，得到与从服务器选择的词汇库内的分词对应第一待播读分词。

步骤S12，从用户语音库中调取与所述第一待播读分词对应的用户语音段。

用户可以预先针对词汇库录入多个语音段，将多个语音段放入用户语音库，用户语音库存储于客户端。由于第一待播读分词与词汇库内的分词对应，客户端可以依据词汇库内的分词与用户录入的语音段之间的关系，调取与所述第一待播读分词对应的用户语音段。

步骤S13，依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。

待播读文本包括了多个第一待播读分词，将第一待播读分词进行播读时，客户端会依据待播读文本中各个分词的顺序组织第一待播读分词，并调用的对应的播放设备(如扬声器)进行播读。例如，待播读文本为“今天天气很不错”，第一待播读分词为“很”、“今天”、“不错”、“天气”，“很”、 “今天”、“不错”、“天气”均对应有用户语音段，客户端将按照待播读文本“今天天气很不错”的顺序，将用户语音段组织为“今天”、“天气”、 “很”、“不错”的顺序，并进行播读。

从该服务器获取词汇库，用户通过词汇库录入用户语音段，在用户需要收听某一文本时，可以将该文本转化为自己的声音并进行播读，更具个性化，用户体验感更好。

第二实施例

请参考图5，是本发明第二实施例提供的文本播读方法的流程图。需要提到的是，本发明所述的方法不以图5及以下所示的具体顺序为限制。相比于第一实施例的文本播读方法，本实施例还包括有词汇库预先选择和语音录入的步骤，下面将对图5所示的具体流程及步骤进行详细阐述，所述文本播读方法包括：

步骤S1，依据用户的选择，从服务器选择对应阶级的词汇库。

本实施例中，所述服务器生成的词汇库可以包括初阶词汇库、中阶词汇库、高阶词汇库、顶阶词汇库，用户可以根据自身的需求通过客户端调取对应的词汇库；若用户平时所需要播读的文本都是新闻，初阶词汇库可将大多数的新闻词汇覆盖，则用户可以通过客户端下载初阶词汇库。

步骤S2，接收用户依据所述词汇库内的分词录入的多个用户语音段，并生成用户语音库。

客户端调取词汇库后，需要用户针对调取的词汇库录入用户语音段，一般的，对于词汇库中的每个分词均需要录入一个用户语音段，但是，若词汇库中存在同音词，则可以针对多个同音词仅录入一个用户语音段。客户端可以在本地建立一个用户语音库，并将用户录入的每个用户语音段都放入该用户语音库。

步骤S3，将所述用户语音库中的所述多个用户语音段与所述词汇库内的分词进行关联，以生成相应的索引关系，并保存所述索引关系。

将用户录入的用户语音段与所述词汇库内的分词进行关联，其中，关联的方式可以为一对一，每录入一个用户语音段，就将该用户语音段与此时用户所读的分词进行关联，建立索引关系，以便在找到分词的时候就可以调取到对应的用户语音段。保存所述索引关系的方式可以是按照TTS (Text To Speech)语音库数据格式进行持久化保存。

当然，关联的方式也可以为多个分词对应一个语音段，具体的，若词汇库中存在同音词，则可以针对多个同音词仅录入一个用户语音段，此时多个同音词均与此用户语音段关联。例如，当词汇库中收录有“简谱”和 “俭朴”这两个分词时，用户先录入“简谱”的用户语音段A时，则不需要录入“俭朴”的用户语音段，客户端可将“简谱”和“俭朴”均与用户语音段A关联，建立索引关系，在后续文本播读时，只要待播读文本中有“俭朴”或者“简谱”这两个分词时，均调取用户语音段A。

步骤S11，提取待播读文本中的第一待播读分词。

利用分词技术将待播读文本中的分词进行拆分，提取出步骤S1的词汇库内的分词对应的分词，即第一待播读分词。一般的，用户依据需求选取的词汇库可以满足用户选择的待播读文本中的所有分词，即待播读文本中的拆分出的分词基本全为第一待播读分词。

第三实施例

请参考图6，是本发明第三实施例提供的文本播读方法的流程图。需要提到的是，本发明所述的方法不以图6及以下所示的具体顺序为限制。相比于第一实施例和第二实施例的文本播读方法，本实施例还可以解决词汇库不能完全覆盖待播读文本中的分词的问题，下面将对图6所示的具体流程及步骤进行详细阐述，所述文本播读方法包括：

步骤S4，依据用户的选择，从所述服务器获取语音数据库。服务器可以针对语种、角色、年龄的不同，存储多个不同的语音数据库，用户可以根据自身的情况选择对应的语音数据库，例如，某男性用户需要录入四川话的语音，则可以通过客户端选择四川话男声语音数据库。

需要提到的是，本实施例中，该文本播读方法可以按照步骤S4、步骤S1、步骤S2、步骤S3的顺序执行，在其他具体实施方式中步骤S4，可以在步骤S1、步骤S2、步骤S3之后或之间执行。

在步骤S4、步骤S1、步骤S2和步骤S3之后还包括：

步骤S5，分别判断每个待播读分词是否与所述词汇库内的分词对应？

对所述待播读文本进行分词处理得到多个待播读分词，对每个待播读分词均判断是否与用户所选择的词汇库内的分词对应，若该待播读分词与所述词汇库内的分词内的分词对应，则为第一待播读分词，并执行步骤 S11和步骤S12；若该待播读分词与所述词汇库内的分词内的分词不对应，则为第二待播读分词，并执行步骤S21和步骤S22。判断某个待播读分词是否与所述词汇库内的分词对应的方式可以是，判断词汇库是否有与待播读分词相同的分词。

步骤S21，提取待播读文本中的第二待播读分词。

若某个待播读分词在词汇库中没有与之相同的分词，则该待播读分词可以称为第二待播读分词。

步骤S22，从语音数据库中调取与第二待播读分词对应的预设语音段。

语音数据库是用户通过客户端在服务器获取的，语音数据库基本覆盖所有的文本的分词，并且包括一些生僻词汇，以实现将待播读文本全面转换为语音。

步骤S21可以与步骤S11同时执行，在其他具体实施方式中，也可以在步骤S11之后执行。

步骤S14，依据第一待播读分词和第二待播读分词在待播读文本中的顺序，播读用户语音段和预设语音段。

相比于第一实施例，本实施例提取的语音数据包括用户语音段和预设语音段，对用户语音段和预设语音段的播放顺序同样以待播读文本中的各分词顺序为依据，并进行播读。

请参考图7，是本实施例中所述步骤S14的子流程图。所述步骤S14 包括：

步骤S141，依据第一待播读分词和第二待播读分词在待播读文本中的顺序，对用户语音段和预设语音段进行排列，生成待播读语音数据。

该待播读语音数据包括用户语音段和预设语音段的数据，并且播放该待播读语音数据时，用户语音段和预设语音段会按照对应的待播读分词在待播读文本中的顺序进行播读。

步骤S142，将所述待播读语音数据存入播读缓存区。

步骤S143，播读引擎依据所述待播读文本的播放进度从所述播读缓存区加载所述待播读语音数据，进行播读。

播读引擎可以是控制语音播放的程序，播读引擎依据所述待播读文本的播放进度从所述播读缓存区加载所述待播读语音数据，进行播读。例如待播读文本包括A、B、C三段文字，三段文字的顺序也是由A到B再到 C，A、B、C三段文字分别对应的待播读语音数据可以是待播读语音数据 A、待播读语音数据B和待播读语音数据C，并且均可以存入播读缓存区。当待播读语音数据A播读后，播读引擎从播读引擎加载待播读语音数据B 进行播读，当B段文字播读后，播读引擎从播读引擎加载待播读语音数据C进行播读，以实现连贯有序的播读待播读文本。

通过建立用户语音库及从服务器下载语音数据库，基本可以满足需要播读的所有文本，可以满足不愿意花太多的时间录入用户语音段，而选择初阶词汇库的用户的需求，更加方便合理。

第四实施例

请参考图8，是本发明第四实施例提供的客户端的结构示意图。客户端100包括第一处理器11，第一存储器12，总线13和通信接口14，所述第一处理器11、通信接口14和第一存储器12通过总线13连接；第一处理器11用于执行第一存储器12中存储的可执行模块，例如计算机程序。

其中，第一存储器12可能包含高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非遗失存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接。

总线104可以是ISA总线、PCI总线或EISA总线等。图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，第一存储器12用于存储程序，如存储图9所示的文本播读装置10、UC浏览器等。该文本播读装置10包括至少一个可以软件或固件 (firmware)的形式存储于所述第一存储器12中或固化在所述订餐服务器10的操作系统(operating system，OS)中的软件功能模块。所述第一处理器11在接收到执行指令后，执行所述程序以实现本发明第一实施例、第二实施例以及第三实施例揭示的文本播读方法。

第一处理器11可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过第一处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第一处理器11可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明第一实施例、第二实施例、第三实施例所揭示的文本播读方法。存储介质位于第一存储器12，第一处理器11读取第一存储器12中的信息，结合其硬件完成上述方法的步骤。

请参考图9，是本发明第四实施例提供的文本播读装置10的功能模块图。所述文本播读装置10存储于第一存储器12中，并由第一处理器 11执行。文本播读装置10包括词汇库选择模块101、录入模块102、关联模块103、分词处理模块104、语音调取模块105以及播读模块106。

词汇库选择模块101，用于依据用户的选择，从服务器选择对应阶级的词汇库。

本实施例中，所述词汇库选择模块101可以执行步骤S1。

录入模块102，用于接收用户依据所述词汇库内的分词录入的多个用户语音段，并生成用户语音库。

本实施例中，所述录入模块102可以执行步骤S2。

关联模块103，用于将所述用户语音库中的所述多个用户语音段与所述词汇库内的分词进行关联，以生成相应的索引关系，并保存所述索引关系。

本实施例中，所述关联模块103可以执行步骤S3。

分词处理模块104，用于提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应。

本实施例中，所述分词处理模块104可以执行步骤S11。

语音调取模块105，用于从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段。

本实施例中，所述语音调取模块105可以执行步骤S12。

播读模块106，用于依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。

本实施例中，所述播读模块106可以执行步骤S13。

第五实施例

请参考图10，是本发明第五实施例提供的文本播读装置10的功能模块图。本实施例中，文本播读装置10包括：词汇库选择模块101、语音库选择模块107、录入模块102、关联模块103、分词处理模块104、语音调取模块105、播读模块106。

本实施例中，所述词汇库选择模块101可以执行步骤S1。

语音库选择模块107，用于依据用户的选择，从所述服务器获取语音数据库。

本实施例中，所述语音库选择模块107可以执行步骤S4。

录入模块102，用于接收用户依据所述词汇库内的分词录入的多个用户语音段，并生成用户语音库。用户语音库可以存储于第一存储器12中，第一存储器12还可以存储客户端选择的词汇库和语音数据库等。

本实施例中，所述录入模块102可以执行步骤S2。

本实施例中，所述关联模块103可以执行步骤S3。

分词处理模块104，用于提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应。本实施例中，分词处理模块104还用于从待播读文本中提取第二待播读分词，词汇库内没有与第二待播读分词相对应的分词。

本实施例中，所述分词处理模块104可以执行步骤S11和步骤S21。

语音调取模块105，用于从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段。本实施例中，语音调取模块105还用于从语音数据库中调取与第二待播读分词对应的预设语音段。

本实施例中，所述语音调取模块105可以执行步骤S12和步骤S22。

播读模块106，用于依据第一待播读分词和第二待播读分词在待播读文本中的顺序，播读用户语音段和预设语音段。本实施例中，所述播读模块106可以执行步骤S14。

本实施例中，所述播读模块106包括重组单元1061、缓存单元1062 和加载单元1063。

重组单元1061，用于依据所述第一待播读分词和所述第二待播读分词在所述待播读文本中的顺序，对所述第一待播读分词对应的用户语音段和所述第二待播读分词对应的预设语音段进行排列，生成待播读语音数据。

本实施例中，所述重组单元1061可以执行步骤S141。

缓存单元1062，用于将所述待播读语音数据存入播读缓存区。

本实施例中，所述缓存单元1062可以执行步骤S142。

加载单元1063，用于播读引擎依据所述待播读文本的播放进度从所述播读缓存区加载所述待播读语音数据，以进行播读。

本实施例中，所述加载单元1063可以执行步骤S143。

第六实施例

请参考图11，是本发明第六实施例提供的服务器的结构框图。本实施例提供一种服务器200，该服务器200可以与客户端100进行通信，可以依据客户端100的请求向其发送词汇库和语音数据库等。本实施例提供的词汇库建立装置20可应用于服务器200中，该服务器200还包括第二存储器21、存储控制器22、第二处理器23。

所述第二存储器21、存储控制器22以及第二处理器23，各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述词汇库建立装置20包括至少一个可以软件或固件(firmware)的形式存储于所述第二存储器21中或固化在服务器200的操作系统(operating system， OS)中的软件功能模块。所述第二处理器23用于执行第二存储器21中存储的可执行模块，例如，所述词汇库建立装置20包括的软件功能模块或计算机程序。

请参考图12，是本发明第六实施例提供的词汇库建立装置20的功能模块图，所述词汇库建立装置20包括提取模块201、排序模块202和建库模块203。

提取模块201，用于利用分词技术从多个文本中提取分词。

本实施例中，所述提取模块201可以执行步骤S31。

排序模块202，用于按照多个所述分词出现的频率进行排序。

本实施例中，所述排序模块202可以执行步骤S32。

建库模块203，用于建立不同阶级的词汇库，并将排序后的多个所述分词按照在多个文本中出现的比例归入对应阶级的词汇库。

本实施例中，所述建库模块203可以执行步骤S33。

建库模块203建立的不同阶级的词汇库均可以存储与第二存储器中，第二存储器还可以存储不同语种、不同角色的语音数据库。

综上所述，本发明实施例提供一种文本播读方法、装置及客户端、服务器和存储介质，服务器可以建立不同阶级的词汇库，用户可以依据自己的需求和喜好，通过客户端从服务器获取对应的词汇库，然后依据词汇库语音输入与词汇库中的分词对应用户语音段，客户端将词汇库中的分词与用户语音段进行关联，建立相应的索引关系。在用户需要使用客户端将文本转化为语音时，客户端将待播读文本进行分词处理，得到多个待播读分词，并与词汇库中的分词相比较，提取出对应的用户语音段，并按照待播读文本中词组的顺序播放提取的多个用户语音段。另一方面，如果词汇库的分词不能覆盖待播读文本中的所有分词，客户端可以预先从服务器获取语音数据库，该语音数据库内包含了基本覆盖所有文本的分词及对应的预设语音段，可以填补待播读文本中未能与词汇库的分词相匹配的待播读分词，以实现全面覆盖，可以满足不愿意录入太多的用户语音段，但需要收听分词量大的文本的用户的需求，可以满足不同用户的个性化需求，提高用户的体验感。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本播读方法，应用于客户端，其特征在于，所述方法包括：

提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应；

从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段；

依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。

2.根据权利要求1所述的文本播读方法，其特征在于，所述文本播读方法还包括：

提取所述待播读文本中的第二待播读分词；

从预设的语音数据库中调取与所述第二待播读分词对应的预设语音段；

所述依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段的步骤包括：依据所述第一待播读分词和所述第二待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段以及与所述第二待播读分词对应的预设语音段。

3.根据权利要求2所述的文本播读方法，其特征在于，所述文本播读方法还包括：

对所述待播读文本进行分词处理得到待播读分词，当所述待播读分词与所述词汇库内的分词对应时，则执行所述提取待播读文本中的第一待播读分词的步骤；当所述待播读分词与所述词汇库内的分词不对应时，则执行所述提取所述待播读文本中的第二待播读分词的步骤。

4.根据权利要求2所述的文本播读方法，其特征在于，所述方法还包括：依据所述第一待播读分词和所述第二待播读分词在所述待播读文本中的顺序，对所述第一待播读分词对应的用户语音段和所述第二待播读分词对应的预设语音段进行排列，生成待播读语音数据；

将所述待播读语音数据存入播读缓存区；

播读引擎依据所述待播读文本的播放进度从所述播读缓存区加载所述待播读语音数据，以进行播读。

5.根据权利要求1至3任一所述的文本播读方法，其特征在于，在所述提取待播读文本中的分词的步骤之前还包括：

依据用户的选择，从服务器选择对应阶级的词汇库；

接收用户依据所述词汇库内的分词录入的多个用户语音段，并生成所述用户语音库。

6.根据权利要求1至3任一所述的文本播读方法，其特征在于，所述方法还包括：

将所述用户语音库中的所述多个用户语音段与所述词汇库内的分词进行关联，以生成相应的索引关系，并保存所述索引关系；

所述从用户语音库中调取与所述第一待播读分词对应的用户语音段的步骤包括：依据所述索引关系从用户语音库中调取与所述第一待播读分词对应的用户语音段。

7.根据权利要求1至3任一所述的文本播读方法，其特征在于，所述词汇库按照分词由高到低出现的频率，分为初阶词汇库、中阶词汇库、高阶词汇库、顶阶词汇库，其中，从所述初阶词汇库、所述中阶词汇库、所述高阶词汇库到所述顶阶词汇库覆盖的分词依次增多。

8.根据权利要求2所述的文本播读方法，其特征在于，所述方法还包括：依据用户的选择，从所述服务器获取语音数据库。

9.一种文本播读装置，应用于客户端，其特征在于，所述装置包括：

分词处理模块，用于提取待播读文本中的第一待播读分词，所述第一待播读分词与从服务器选择的词汇库内的分词对应；

语音调取模块，用于从用户语音库中调取与所述第一待播读分词对应的用户语音段，所述用户语音库包括用户依据所述词汇库内的分词录入的多个用户语音段；

播读模块，用于依据所述第一待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段。

10.根据权利要求9所述的文本播读装置，其特征在于，所述分词处理模块还用于提取所述待播读文本中的第二待播读分词；

所述语音调取模块还用于从预设的语音数据库中调取与所述第二待播读分词对应的预设语音段；

所述播读模块还用于依据所述第一待播读分词和所述第二待播读分词在所述待播读文本中的顺序，播读与所述第一待播读分词对应的用户语音段以及与所述第二待播读分词对应的预设语音段。

11.根据权利要求10所述的文本播读装置，其特征在于，在对所述待播读文本进行分词处理得到待播读分词后，当所述待播读分词与所述词汇库内的分词对应时，所述分词处理模块提取所述待播读文本中的第一待播读分词；当所述待播读分词与所述词汇库内的分词不对应时，所述分词处理模块提取所述待播读文本中的第二待播读分词。

12.根据权利要求10所述的文本播读装置，其特征在于，所述播读模块还用于：

重组单元，用于依据所述第一待播读分词和所述第二待播读分词在所述待播读文本中的顺序，对所述第一待播读分词对应的用户语音段和所述第二待播读分词对应的预设语音段进行排列，生成待播读语音数据；

缓存单元，用于将所述待播读语音数据存入播读缓存区；

加载单元，用于播读引擎依据所述待播读文本的播放进度从所述播读缓存区加载所述待播读语音数据，以进行播读。

13.根据权利要求9至11任一所述的文本播读装置，其特征在于，所述装置还包括：

词汇库选择模块，用于依据用户的选择，从服务器选择对应阶级的词汇库；

录入模块，用于接收用户依据所述词汇库内的分词录入的多个用户语音段，并生成所述用户语音库。

14.根据权利要求9至11任一所述的文本播读装置，其特征在于，所述装置还包括：

关联模块，将所述用户语音库中的所述多个用户语音段与所述词汇库内的分词进行关联，以生成相应的索引关系，并保存所述索引关系；

所述语音调取模块还用于依据所述索引关系从用户语音库中调取与所述第一待播读分词对应的用户语音段。

15.根据权利要求9至11任一所述的文本播读装置，其特征在于，所述词汇库按照分词由高到低出现的频率，分为初阶词汇库、中阶词汇库、高阶词汇库、顶阶词汇库，其中，从所述初阶词汇库、所述中阶词汇库、所述高阶词汇库到所述顶阶词汇库覆盖的分词依次增多。

16.根据权利要求10所述的文本播读装置，其特征在于，所述装置还包括：语音库选择模块，用于依据用户的选择，从所述服务器获取语音数据库。

17.一种客户端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1-8中任一所述的方法。

19.一种服务器，其特征在于，包括：

存储器；

处理器；及

词汇库建立装置；

所述词汇库建立装置存储于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块，所述词汇库建立装置包括：

提取模块，用于利用分词技术从多个文本中提取分词；

排序模块，用于按照多个所述分词出现的频率进行排序；

建库模块，用于建立不同阶级的词汇库，并将排序后的多个所述分词按照在多个文本中出现的比例归入对应阶级的词汇库。