CN107274884A

CN107274884A - 一种基于文本解析和语音合成的信息获取方法

Info

Publication number: CN107274884A
Application number: CN201710432919.1A
Authority: CN
Inventors: 赵思聪
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-02-15
Filing date: 2017-06-09
Publication date: 2017-10-20
Anticipated expiration: 2037-06-09
Also published as: CN107274884B

Abstract

本发明公开了一种基于文本解析和语音合成的信息获取方法，具体步骤如下：步骤一，信息发送；步骤二，信息提取；步骤三，信息处理；步骤四，信息回传；步骤五，信息接收。本方法配合社交平台内日益增长的信息获取诉求，以基于社交平台的聊天机器人为载体，采用摘要算法、图像识别和语音合成技术，在社交平台内部进行数据加工，将交互复杂度降至最低；本方法为跨模态的信息转化和整合，将用户希望获取的任何信息转化为声音信号反馈给用户，降低用户获取信息的难度和复杂度，扩大用户获取信息的场景，并且在特定场景中提升信息的获取效率。

Description

一种基于文本解析和语音合成的信息获取方法

本案要求CN201710080988.0的优先权

技术领域

本申请涉及计算机领域，尤其涉及一种基于文本解析和语音合成的信息获取方法。

背景技术

当今社会处于信息爆炸的时代，当下微信、微博、Twitter、Facebook等社交平台已经成为人们获取信息的重要渠道，越来越多碎片化信息占据了大家的时间。用户利用碎片化时间浏览社交平台，获取信息。这样的操作方式在很多场景中影响了人们的正常生活和工作效率，例如：睡前刷社交平台，夜晚光线刺激导致视疲劳，同时可能使得用户兴奋难以入睡；重要信息怕错过，会进行实时浏览，会影响当前正在进行的任务，工作效率下降；出行的时候刷新闻，可能会影响出行效率，譬如错过车站，严重时会导致交通事故等不可控事件的发生；对于视力受损人群(中老年人老花眼，弱视、盲人群体)而言获取信息的壁垒提高，视力受损的人群尤其难以获取图像信息；视频信息需要较大的流量，并且播放视频对于手机电量的消耗比较大。当前信息传递的方式已经无法完全满足用户的阅读需求，这就为人们获取信息带来了不便。

发明内容

本申请的一个目的是提供一种基于文本解析和语音合成的信息获取方法和一种用于处理信息的方法与设备。

根据本申请的一个方面，提供了一种基于文本解析和语音合成的信息获取方法，具体步骤如下：

步骤一，信息发送：用户将需要转化为音频的信息发送给用于提供服务的机器人帐号；

步骤二，信息提取：利用社交平台官方开放接口或者利用社交平台网页版本的接口，将用户所发送的信息经过社交平台机器人的预处理后传递给服务器；

步骤三，信息处理：由服务器对用户发送的信息进行加工处理，生成对应的音频或者包含音频信息的网页；

步骤四，将生成的音频信息直接回传给用户，或者将包含音频信息的网页链接以文本形式回传给用户；

步骤五，信息接收：户点击回传的网页链接，网页链接中的参数可以解析出用户ID和请求ID，通过用户ID和请求ID继而在服务器中找到对应的音频、文本、图片资源及其顺序，按照顺序填充至模板网页，渲染到用户的客户端，网页渲染成功后，音频开始自动播放。

根据本申请的一个方面，提供了一种在用户设备端用于处理信息的方法，其中，该方法包括：

通过用户账号将待处理的第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；

接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息；

当获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

根据本申请的另一个方面，提供了一种在网络设备端用于处理信息的方法，其中，该方法包括：

获取用户账号发送至服务账号的第一信息，其中，所述用户账号与所述服务账号属于同一社交平台；

确定所述第一信息对应的音频信息在数据库中的访问标识信息；

生成对应的第二信息，其中，所述第二信息包括所述访问标识信息；

通过所述服务账号将所述第二信息返回至所述用户账号。

根据本申请的又一个方面，提供了一种在用户设备端用于处理信息的方法，其中，该方法包括：

接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息。

根据本申请的再一个方面，提供了一种在用户设备端用于处理信息的方法，其中，该方法包括：

当获取用户对第一信息的访问操作，通过用户账号将所述第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；

根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

根据本申请的又一个方面，提供了一种用于处理信息的系统，包括如上所述的用户设备以及如上所述的网络设备。

根据本申请的又一个方面，提供了一种用于处理信息的方法，其中，该方法包括：

用户设备通过用户账号将待处理的第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；

网络设备获取用户账号发送至服务账号的第一信息；

所述网络设备确定所述第一信息对应的音频信息在数据库中的访问标识信息；

所述网络设备生成对应的第二信息，其中，所述第二信息包括所述访问标识信息；

所述网络设备通过所述服务账号将所述第二信息返回至所述用户账号；

所述用户设备接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息；

所述用户设备当获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

网络设备获取用户账号发送至服务账号的第一信息；

所述用户设备接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息。

用户设备当获取用户对第一信息的访问操作，通过用户账号将所述第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；

网络设备获取用户账号发送至服务账号的第一信息；

所述用户设备根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

根据本申请的又一个方面，提供了一种包括指令的计算机可读介质，所述指令在被执行时使得系统进行如上所述方法的操作。

根据本申请的又一个方面，提供了一种用于处理信息的用户设备，其中，该用户设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上所述的方法。

根据本申请的又一个方面，提供了一种用于处理信息的网络设备，其中，该网络设备包括：

处理器；以及

与现有技术相比，本申请的用户设备通过社交平台中的用户账号将待处理的第一信息发送至服务账号；所述服务账号对应的网络设备获取所述第一信息，并将所述第一信息转换成对应的音频信息，生成该音频信息在数据库中的访问标识信息，然后，将包含所述访问标识信息的第二信息通过所述社交平台返回至所述用户账号；当用户设备获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并播放所述音频信息；本申请从信息交互的角度出发，对于信息源本身进行处理，跨模态将所述第一信息转换成可以在多任务状态下接受的音频信息，降低用户获取信息的难度和复杂度，便于用户在多种场景中获取信息，提升信息获取的效率。进一步地，所述访问标识信息还可用于从所述数据库中读取所述第一信息的内容信息，当所述用户设备获取用户对所述第二信息的访问操作，在播放所述第一信息对应的音频信息时，同步更新显示所述第一信息的内容信息，方便用户同时从听觉通道和视觉通道获取信息，加深用户对所述第一信息的印象，从而增强用户的信息获取效率。

本发明还公开了一种基于文本解析和语音合成的信息获取方法，具体步骤如下：步骤一，信息发送；步骤二，信息提取；步骤三，信息处理；步骤四，信息回传；步骤五，信息接收。

与现有技术相比，本发明的有益效果是：本方法配合社交平台内日益增长的信息获取诉求，以基于社交平台的聊天机器人为载体，采用摘要算法、图像识别和语音合成技术，在社交平台内部进行数据加工，将交互复杂度降至最低；本方法为跨模态的信息转化和整合，将用户希望获取的任何信息转化为声音信号反馈给用户，降低用户获取信息的难度和复杂度，扩大用户获取信息的场景，并且在特定场景中提升信息的获取效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个实施例的一种用于处理信息的系统拓扑图；

图2示出根据本申请另一个实施例的一种用于处理信息的方法流程图；

图3(a)～(b)示出根据本申请一个实施例的一种用户账号与服务账号通过社交平台通信的示意图；

图4示出根据本申请又一个实施例的一种用于处理信息的方法流程图；

图5示出根据本申请再一个实施例的一种用于处理信息的方法流程图；

图6示出根据本申请另一个方面的一种基于文本解析和语音合成的信息获取方法的工作流程示意图，其中：1-客户端，2-社交平台中的机器人账号，3-服务器。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

请参阅图6，一种基于文本解析和语音合成的信息获取方法，具体步骤如下：

步骤一，信息发送：用户将需要转化的信息发送给用于服务的帐号，用于服务的账号为公众帐号、服务号、机器人帐号、个人帐号等任何形式的符合社交平台规则设定的帐号；

步骤二，信息提取：利用社交平台官方开放接口或者利用社交平台网页版本的接口，将用户所发送的信息传递给服务器，客户发送的信息包括网页、视频、图片、文本、文本文件，以及涵盖以上信息的url链接或二维码。如果用户发送的是网页，则将网页的url提取出来发送给服务器，如果用户发送的是二维码，则将二维码识别后的信息发送给服务器，其他文件直接传输给服务器；文本文件的格式包括但不限于PDF、epub、txt、doc、docx、pages、tex等可解析的图文排列文件；图片的格式包括但不限于png、jpeg、tiff、psd、svg、bmp、gif等图片文件；音频的格式包括但不限于mp3、wav、midi、ogg、asf、wma、ape、rm等音频文件；视频的格式包括但不限于avi、wma、rmvb、mp4、rm、flash、mid、3gp等视频文件；

步骤三，信息处理：由服务器对用户发送的信息进行加工处理，生成对应的音频或者包含音频信息的网页，信息加工处理包括信息压缩、图像识别、音频提取和网页链接生成，信息压缩是将用户输入的信息通过摘要算法，进一步提炼文章的核心思想，将缩短的文本通过语音合成技术转换成音频文件；网页链接生成是将合成的音频文件和对应的文本、图片一起，缓存到服务器，数据库值包括用户ID和请求ID和呈现顺序，数据库值基于用户ID和请求ID生成新的链接；对于纯文本网页，利用爬虫程序提取网页标题和文本，利用语音合成技术将文本合成为语音；对于只包含音频的网页，将音频下载即可，对于只包含视频的网页，将视频文件下载，取出音频信息，对视频中的关键帧截屏；对于只包含图片的网页，将图像下载，利用图像识别技术将图像转化为描述性的文字，利用语音合成技术将文本合成为语音(图像识别有两个技术：其一是利用OCR(光学字符识别)技术，将图片中的文本提取出来。其二是利用机器学习算法理解图像，用描述性文本将图像内容表达出来。以上两个方案输入皆为图像，输出皆为文本)；对于混合型的网页，对应的内容按照以上方式处理，然后按照网页内的内容排序来拼接音频文件；如果用户输入为视频文件，将视频文件下载，取出音频信息，对视频中的关键帧截屏；如果用户输入为图片文件，将图片下载，利用图像识别技术将图像转化为描述性的文字，利用语音合成技术将文本合成为语音；如果用户输入为文本文件，利用语音合成技术将文本合成为语音；如果用户输入为文本文件(PDF、epub、txt、pages等)，利用程序提取文件中文本，利用语音合成技术将文本合成为语音；

步骤四，信息回传：将生成的音频信息或者包含音频信息的网页链接以文本形式回传给用户；

步骤五，信息接收：户点击回传的网页链接，网页链接中的参数可以解析出用户ID和请求ID，通过用户ID和请求ID继而在服务器中找到对应的音频、文本、图片资源及其顺序，按照顺序填充至模板网页，渲染到用户的客户端，客户端包括PC端和移动端，网页渲染成功后，音频开始自动播放。

本发明的工作原理是：本方法配合社交平台内日益增长的信息获取诉求，以基于社交平台的聊天机器人(账户)为载体(社交平台内部资讯、外部资讯分享至社交平台的机器人账户)，采用摘要算法、图像识别和语音合成技术，在社交平台内部进行数据加工，将交互复杂度降至最低；本方法跨模态的信息转化的整合，将用户希望获取的任何信息转化为声音信号反馈给用户，任何信息包括：网页文本、视频、图片、PDF文档、epub文档、txt文档、字符串以及涵盖以上信息的url链接或二维码。语音合成方案可以使用百度、Google或者讯飞科技等公司的解决方案，从节省流量的角度出发，音频的比特率默认转换成32bps，保证一定音质的同时降低mp3的大小。但是如果能够检测到用户在WiFi环境下，自动将比特率升高至128bps；图像识别可以使用百度、Google的图像识别接口。用户可以设定播放语速、语音音色(需要服务器重新合成音频文件，并且下载至客户端)；播放时长上限；播放摘要，还是播放全文，还是播放摘要+全文；是循环否播放服务器中缓存的历史记录。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

图1示出根据本申请一个实施例的一种用于处理信息的系统拓扑图，该系统包括用户设备1和网络设备2。

在此，所述网络设备2包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备2其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。所述用户设备1包括但不限于任何一种可与用户进行人机交互的移动电子产品，例如智能手机、平板电脑、笔记本电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统、Windows操作系统等。

为简明起见，下面以所述网络设备2及一个所述用户设备1组成的系统为例进行描述。

图2示出根据本申请另一个实施例的一种用于处理信息的方法流程图，其中，该方法包括用户设备端的步骤S101、步骤S102和步骤S103，以及网络设备端的步骤S205、步骤S206、步骤S207和步骤S208。

具体地，步骤S101中，用户设备1通过用户账号将待处理的第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S205中，网络设备2获取用户账号发送至服务账号的第一信息，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S206中，网络设备2确定所述第一信息对应的音频信息在数据库中的访问标识信息；步骤S207中，网络设备2生成对应的第二信息，其中，所述第二信息包括所述访问标识信息；步骤S208中，网络设备2通过所述服务账号将所述第二信息返回至所述用户账号；步骤S102中，用户设备1接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息；步骤S103中，用户设备1当获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

例如，所述第一信息可以包括网页、视频、图片、文本、文件等，所述第一信息可以来自社交平台内部分享或者社交平台外部资讯分享；所述用户账号包括用户在社交平台中所使用的账号；所述服务账号包括但不限于公众账号、服务号、机器人账号、个人账号等按照任何形式的社交平台规则设定的账号。利用社交平台官方开放接口，或者利用社交平台网页版本的接口，将所述用户账号发送的所述第一信息传递给所述服务账号的云端服务器(即所述服务账号对应的网络设备2)，表1示出了所述用户账号发送的所述第一信息以及对应的传递给所述服务账号的云端服务器的信息。所述社交平台包括微信、微博、推特、脸书等各种现有的或今后可能出现的社交平台；所述访问标识信息可以包括网页链接、二维码等形式；所述第二信息除了包括所述访问标识信息，还可以包括标题信息；所述访问操作可以包括用户点击所述第二信息的操作。

表1

以图3(a)为例，信息A(网页“宇宙最远古的密码(终极秘密必读版)”)即为所述第一信息，信息B(标题信息及网页链接)即为所述第二信息。所述用户账号使用所述用户设备1通过所述社交平台将信息A发送至所述服务账号(例如图3中的“ACOUSTIC”)；所述服务账号对应的网络设备2对网页“宇宙最远古的密码(终极秘密必读版)”的内容信息(例如该网页中的文字、图片、视频等)进行加工处理，生成信息A对应的音频信息，并将信息A对应的音频信息存储至所述数据库，生成用于访问所述数据库中信息A对应的音频信息的所述访问标识信息，信息B包括所述访问标识信息；所述服务账号通过所述社交平台将信息B返回至所述用户账号。当用户点击信息B中的网页链接，根据该网页链接从所述数据库中获取并播放信息A对应的音频信息。

本申请从信息交互的角度出发，对于信息源本身进行处理，跨模态将所述第一信息转换成可以在多任务状态下接受的音频信息，降低用户获取信息的难度和复杂度，便于用户在多种场景中获取信息，提升信息获取的效率。比如在睡觉的时候，用户可以将希望浏览的文章、长微博、视频通过社交平台分享到所述服务账号。所述服务账号的云端服务器便会将分享的内容转化成音频信号，进行播放。用户指定内容播放完成之后，系统可以为用户播放推荐内容。用户可以自定义播放时长。

优选地，所述第二信息还包括所述第一消息对应的标题信息。

在本实施例中，所述第二信息不仅包括所述访问标识信息，还包括所述第一消息对应的标题信息(例如图3中的“宇宙最远古的密码(终极秘密必读版)”)。

优选地，所述访问标识信息还可用于从所述数据库中读取所述第一信息的内容信息；步骤S103中，用户设备1当获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并呈现所述第一信息的内容信息，并根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

例如，所述第一信息的内容信息包括但不限于所述第一信息的文本信息、图片信息、视频信息等。以图3(a)～(b)为例，所述服务账号对应的网络设备2对信息A(即所述第一信息)进行加工处理，生成信息A对应的音频信息，并将信息A对应的音频信息及内容信息存储至所述数据库，数据库值包括用户请求ID、呈现顺序，基于用户请求ID生成对应的网页链接(即所述访问标识信息)，信息B(即所述第二信息)包括该网页链接；所述服务账号通过所述社交平台将信息B返回至所述用户账号。当用户点击信息B中的网页链接，根据该网页链接中的参数可以解析出用户请求ID，通过用户请求ID继而在所述数据库中找到对应的音频信息、内容信息及其顺序；按照顺序填充至模板网页，渲染到所述用户设备1中所述社交平台的应用，网页渲染成功后，开始播放信息A对应的音频信息，同时，显示信息A的内容信息。

优选地，所述方法还包括：用户设备1在播放所述音频信息时，同步更新显示所述第一信息的内容信息。

在本实施例中，随着所述音频信息的播放，所述用户设备1的屏幕同步显示(例如同步滚屏显示、同步翻屏显示等)相应的内容信息。

优选地，步骤S101中，用户设备1通过用户账号将待处理的第一信息发送至目标语音对象对应的服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S205中，网络设备2获取用户账号发送至目标语音对象对应的服务账号的第一信息，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S206中，网络设备2确定所述第一信息及所述目标语音对象对应的音频信息在数据库中的访问标识信息；步骤S102中，用户设备1接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息及所述目标语音对象生成的音频信息。

在本实施例中，可提供多个服务账号，每个服务账号对应一个语音对象，如郭德纲、林志玲等明星。例如，若所述目标语音对象是郭德纲，郭德纲服务账号(即所述目标语音对象对应的服务账号)基于郭德纲语音包将所述第一信息转换成由郭德纲朗读的音频信息。

优选地，步骤S206中，网络设备2获取所述第一信息的内容信息，提取所述内容信息中的文本信息，并基于所述文本信息生成对应的音频信息；将所述音频信息存储于数据库，并基于所述音频信息在所述数据库中的存储地址确定对应的访问标识信息。

例如，若所述第一信息包括网页，(1)对于纯文本网页，利用爬虫程序(如nodejs的readability模组)提取网页标题和文本，利用语音合成技术(例如可以使用百度、谷歌或者讯飞科技的解决方案。从节省流量的角度出发，音频的比特率默认转换成32bps，保证一定音质的同时降低mp3的大小。但是如果检测到用户在WiFi环境下，自动将比特率升高至128bps。)将文本合成为语音；(2)对于只包含音频的网页，将音频下载；(3)对于只包含视频的网页，将视频文件下载，取出音频信息，对视频中的关键帧截屏，利用OCR(OpticalCharacter Recognition，光学字符识别)技术识别；(4)对于只包含图片的网页，将图像下载，利用图像识别技术(例如可以使用百度、谷歌等提供的图像识别接口)将图像转化为描述性的文字，利用语音合成技术将文本合成为语音；(5)对于混合型的网页，对应的内容按照以上方式处理，然后按照网页内的内容排序来拼接音频文件。若所述第一信息包括视频，将视频文件下载，取出音频信息，对视频中的关键帧截屏，利用OCR技术识别。若所述第一信息包括图片，将图片下载，利用图像识别技术将图像转化为描述性的文字，利用语音合成技术将文本合成为语音。若所述第一信息包括文本，利用语音合成技术将文本合成为语音。若所述第一信息包括文件(PDF、epub、txt、pages等)，利用爬虫程序提取文件中文本，利用语音合成技术将文本合成为语音。

优选地，所述基于所述文本信息生成对应的音频信息包括：生成所述文本信息的摘要文本信息，并基于所述摘要文本信息生成对应的音频信息。

例如，通过摘要算法，进一步提炼所述文本信息的核心思想，得到对应的摘要文本信息，然后通过语音合成技术(例如可以使用百度、谷歌或者讯飞科技的解决方案)将所述摘要文本信息转换成对应的音频信息。

优选地，步骤S101中，用户设备1通过用户账号将待处理的第一信息及语音配置信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S205中，网络设备2获取用户账号发送至服务账号的第一信息及语音配置信息，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S206中，网络设备2确定所述第一信息及所述语音配置信息对应的音频信息在数据库中的访问标识信息；步骤S102中，用户设备1接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息及所述语音配置信息生成的音频信息。

例如，所述语音配置信息可以包括：播放语速、语音音色、播放时长上限、播放摘要/全文/摘要和全文。用户可以在发送所述第一信息之前，设定所述语音配置信息。所述服务账号对应的网络设备2根据所述第一信息及所述语音配置信息，合成所述第一信息对应的音频信息。

图4示出根据本申请又一个实施例的一种用于处理信息的方法流程图，其中，该方法包括用户设备端的步骤S109’和步骤S110’，以及网络设备端的步骤S205’、步骤S206’、步骤S207’和步骤S208’。

具体地，步骤S109’中，用户设备1通过用户账号将待处理的第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S205’中，网络设备2获取用户账号发送至服务账号的第一信息，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S206’中，网络设备2确定所述第一信息对应的音频信息在数据库中的访问标识信息；步骤S207’中，网络设备2生成对应的第二信息，其中，所述第二信息包括所述访问标识信息；步骤S208’中，网络设备2通过所述服务账号将所述第二信息返回至所述用户账号；步骤S110’中，用户设备1接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息。

例如，所述第一信息可以包括网页、视频、图片、文本、文件等，所述第一信息可以来自社交平台内部分享或者社交平台外部资讯分享；所述用户账号包括用户在社交平台中所使用的账号；所述服务账号包括但不限于公众账号、服务号、机器人账号、个人账号等按照任何形式的社交平台规则设定的账号。利用社交平台官方开放接口，或者利用社交平台网页版本的接口，将所述用户账号发送的所述第一信息传递给所述服务账号的云端服务器(即所述服务账号对应的网络设备2)，表2示出了所述用户账号发送的所述第一信息以及对应的传递给所述服务账号的云端服务器的信息。所述社交平台包括微信、微博、推特、脸书等各种现有的或今后可能出现的社交平台；所述访问标识信息可以包括网页链接、二维码等形式；所述第二信息除了包括所述访问标识信息，还可以包括标题信息。

所述用户账号发送的所述第一信息	传递给所述服务账号的云端服务器的信息
		网页(可能包括文本、音频、视频、图片)	url(统一资源定位符)链接+标题
视频	视频文件
		图片	图片文件
文本	文本
		文件(PDF、epub、txt、pages等)	文件(PDF、epub、txt、pages等)

表2

以图3(a)为例，信息A(网页“宇宙最远古的密码(终极秘密必读版)”)即为所述第一信息，信息B(标题信息及网页链接)即为所述第二信息。所述用户账号使用所述用户设备1通过所述社交平台将信息A发送至所述服务账号(例如图3中的“ACOUSTIC”)；所述服务账号对应的网络设备2对网页“宇宙最远古的密码(终极秘密必读版)”的内容信息(例如该网页中的文字、图片、视频等)进行加工处理，生成信息A对应的音频信息，并将信息A对应的音频信息存储至所述数据库，生成用于访问所述数据库中信息A对应的音频信息的所述访问标识信息，信息B包括所述访问标识信息；所述服务账号通过所述社交平台将信息B返回至所述用户账号。后续，用户可以点击信息B中的网页链接，以播放信息A对应的音频信息；或者，用户也可以通过所述社交平台将信息B分享给其他用户。

优选地，所述方法还包括：用户设备1根据用户对所述第二信息的转发操作，将所述第二信息转发至其他用户账号，以供其他用户根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

在本实施例中，所述用户可以通过转发操作将所述第二信息转发分享给其他用户账号。其中，所述其他用户账号与所述用户账号可以属于同一社交平台，也可以属于不同社交平台，例如，微信用户账号甲通过转发操作将所述第二信息转发分享给微博用户账号乙。

优选地，所述访问标识信息还可用于从所述数据库中读取所述第一信息的内容信息。例如，所述第一信息的内容信息包括但不限于所述第一信息的文本信息、图片信息、视频信息等。

优选地，所述网络设备2获取所述第一信息的内容信息，提取所述内容信息中的文本信息，并基于所述文本信息生成对应的音频信息；将所述音频信息存储于数据库，并基于所述音频信息在所述数据库中的存储地址确定对应的访问标识信息。

优选地，所述用户设备1通过用户账号将待处理的第一信息及语音配置信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；所述网络设备2获取用户账号发送至服务账号的第一信息及语音配置信息；所述网络设备2确定所述第一信息及所述语音配置信息对应的音频信息在数据库中的访问标识信息；所述用户设备1接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息及所述语音配置信息生成的音频信息。

图5示出根据本申请再一个实施例的一种用于处理信息的方法流程图，其中，该方法包括用户设备端的步骤S112”、步骤S113”和步骤S114”，以及网络设备端的步骤S205”、步骤S 206”、步骤S207”和步骤S208”。

具体地，步骤S112”中，用户设备1当获取用户对第一信息的访问操作，通过用户账号将所述第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S205”中，网络设备2获取用户账号发送至服务账号的第一信息，其中，所述用户账号与所述服务账号属于同一社交平台；步骤S206”中，网络设备2确定所述第一信息对应的音频信息在数据库中的访问标识信息；步骤S207”中，网络设备2生成对应的第二信息，其中，所述第二信息包括所述访问标识信息；步骤S208”中，网络设备2通过所述服务账号将所述第二信息返回至所述用户账号；步骤S113”中，用户设备1接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息生成的音频信息；步骤S114”中，用户设备1根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

例如，所述访问操作可以包括用户点击或长按所述第一信息的操作；所述第一信息可以包括网页、视频、图片、文本、文件等，所述第一信息可以来自社交平台内部分享或者社交平台外部资讯分享；所述用户账号包括用户在社交平台中所使用的账号；所述服务账号包括但不限于公众账号、服务号、机器人账号、个人账号等按照任何形式的社交平台规则设定的账号。利用社交平台官方开放接口，或者利用社交平台网页版本的接口，将所述用户账号发送的所述第一信息传递给所述服务账号的云端服务器(即所述服务账号对应的网络设备2)，表3示出了所述用户账号发送的所述第一信息以及对应的传递给所述服务账号的云端服务器的信息。所述社交平台包括微信、微博、推特、脸书等各种现有的或今后可能出现的社交平台；所述访问标识信息可以包括网页链接、二维码等形式；所述第二信息除了包括所述访问标识信息，还可以包括标题信息。

表3

以图3(a)为例，信息A(网页“宇宙最远古的密码(终极秘密必读版)”)即为所述第一信息，信息B(标题信息及网页链接)即为所述第二信息。当所述用户设备1获取用户对信息A的访问操作，所述用户账号通过所述社交平台将信息A发送至所述服务账号(例如图3中的“ACOUSTIC”)；所述服务账号对应的网络设备2对网页“宇宙最远古的密码(终极秘密必读版)”的内容信息(例如该网页中的文字、图片、视频等)进行加工处理，生成信息A对应的音频信息，并将信息A对应的音频信息存储至所述数据库，生成用于访问所述数据库中信息A对应的音频信息的所述访问标识信息，信息B包括所述访问标识信息；所述服务账号通过所述社交平台将信息B返回至所述用户账号。然后，所述用户设备1根据该网页链接从所述数据库中获取并自动播放信息A对应的音频信息。

优选地，步骤S112”中，用户设备1当获取用户对第一信息的访问操作，且满足预定的信息处理条件，通过用户账号将所述第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台。

在本实施例中，须满足预定的信息处理条件时，当获取用户对第一信息的访问操作，通过用户账号将所述第一信息发送至服务账号，接收所述服务账号返回的第二信息，并基于所述第二信息中的访问标识信息从所述数据库中获取并自动播放所述第一信息对应的音频信息。

优选地，所述信息处理条件包括以下至少任一项：所述用户设备处于阅读受限场景；所述用户处于阅读能力受限状态。

例如，所述阅读受限场景可以包括：睡觉助眠场景、晃动场景(如地铁、乘车、步行等)、用户处于其他任务(如工作、健身、吃饭等)中同时希望获取信息；所述阅读能力受限状态可以包括：用户视力受损(如近视、弱视、老花、失明等)、用户(长时间用眼导致)视觉疲劳等。可以通过所述用户设备1的加速度传感器、光学传感器等各类传感器检测和/或用户的自定义设置来确定所述信息处理条件。

网络设备获取用户账号发送至服务账号的第一信息；

处理器；以及

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM,DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

在权利要求书中规定了各个实施例的各个方面。在下列编号条款中规定了各个实施例的这些和其他方面：

1.一种在用户设备端用于处理信息的方法，其中，该方法包括：

2.根据条款1所述的方法，其中，所述访问标识信息还可用于从所述数据库中读取所述第一信息的内容信息；

其中，所述当获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并播放所述音频信息，包括：

当获取用户对所述第二信息的访问操作，根据所述访问标识信息从所述数据库中获取并呈现所述第一信息的内容信息，并根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

3.根据条款2所述的方法，其中，所述方法还包括：

在播放所述音频信息时，同步更新显示所述第一信息的内容信息。

4.根据条款1至3中任一项所述的方法，其中，所述通过用户账号将待处理的第一信息发送至服务账号，包括：

通过用户账号将待处理的第一信息发送至目标语音对象对应的服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；

其中，所述接收所述服务账号返回至所述用户账号的第二信息，包括：

接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息及所述目标语音对象生成的音频信息。

5.根据条款1至3中任一项所述的方法，其中，所述通过用户账号将待处理的第一信息发送至服务账号，包括：

通过用户账号将待处理的第一信息及语音配置信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台；

接收所述服务账号返回至所述用户账号的第二信息，其中，所述第二信息包括访问标识信息，其中，所述访问标识信息用于从数据库中读取基于所述第一信息及所述语音配置信息生成的音频信息。

6.一种在网络设备端用于处理信息的方法，其中，该方法包括：

通过所述服务账号将所述第二信息返回至所述用户账号。

7.根据条款6所述的方法，其中，所述获取用户账号发送至服务账号的第一信息，包括：

获取用户账号发送至目标语音对象对应的服务账号的第一信息，其中，所述用户账号与所述服务账号属于同一社交平台；

其中，所述确定所述第一信息对应的音频信息在数据库中的访问标识信息，包括：

确定所述第一信息及所述目标语音对象对应的音频信息在数据库中的访问标识信息。

8.根据条款6所述的方法，其中，所述获取用户账号发送至服务账号的第一信息，包括：

获取用户账号发送至服务账号的第一信息及语音配置信息，其中，所述用户账号与所述服务账号属于同一社交平台；

确定所述第一信息及所述语音配置信息对应的音频信息在数据库中的访问标识信息。

9.根据条款6所述的方法，其中，所述确定所述第一信息对应的音频信息在数据库中的访问标识信息，包括：

获取所述第一信息的内容信息，提取所述内容信息中的文本信息，并基于所述文本信息生成对应的音频信息；

将所述音频信息存储于数据库，并基于所述音频信息在所述数据库中的存储地址确定对应的访问标识信息。

10.根据条款9所述的方法，其中，所述基于所述文本信息生成对应的音频信息包括：

生成所述文本信息的摘要文本信息，并基于所述摘要文本信息生成对应的音频信息。

11.根据条款6至10中任一项所述的方法，其中，所述访问标识信息还可用于从所述数据库中读取所述第一信息的内容信息。

12.根据条款6至11中任一项所述的方法，其中，所述第二信息还包括所述第一消息对应的标题信息。

13.一种在用户设备端用于处理信息的方法，其中，该方法包括：

14.根据条款13所述的方法，其中，所述方法还包括：

根据用户对所述第二信息的转发操作，将所述第二信息转发至其他用户账号，以供其他用户根据所述访问标识信息从所述数据库中获取并播放所述音频信息。

15.一种在用户设备端用于处理信息的方法，其中，该方法包括：

16.根据条款15所述的方法，其中，所述当获取用户对第一信息的访问操作，通过用户账号将所述第一信息发送至服务账号，包括：

当获取用户对第一信息的访问操作，且满足预定的信息处理条件，通过用户账号将所述第一信息发送至服务账号，其中，所述用户账号与所述服务账号属于同一社交平台。

17.根据条款16所述的方法，其中，所述信息处理条件包括以下至少任一项：

所述用户设备处于阅读受限场景；

所述用户处于阅读能力受限状态。

18.一种用于处理信息的方法，其中，该方法包括：

网络设备获取用户账号发送至服务账号的第一信息；

19.一种用于处理信息的方法，其中，该方法包括：

网络设备获取用户账号发送至服务账号的第一信息；

20.一种用于处理信息的方法，其中，该方法包括：

网络设备获取用户账号发送至服务账号的第一信息；

21.一种包括指令的计算机可读介质，所述指令在被执行时使得系统进行如条款1至20中任一项所述方法的操作。

22.一种用于处理信息的用户设备，其中，该用户设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如条款1至5、13至17中任一项所述的方法。

23.一种用于处理信息的网络设备，其中，该网络设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如条款6至12中任一项所述的方法。

Claims

1.一种基于文本解析和语音合成的信息获取方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的基于文本解析和语音合成的信息获取方法，其特征在于，所述步骤一中用于服务的账号为公众帐号、服务号、机器人帐号、个人帐号等任何形式的符合社交平台规则设定的帐号。

3.根据权利要求1或2所述的基于文本解析和语音合成的信息获取方法，其特征在于，所述步骤二中客户发送的信息包括网页、视频、图片、文本、文本文件以及涵盖以上信息的url链接或二维码，文本文件的格式包括PDF、epub、txt、doc、docx、pages和tex可解析的图文排列文件，图片的格式包括png、jpeg、tiff、psd、svg、bmp和gif；音频的格式包括mp3、wav、midi、ogg、asf、wma、ape和rm；视频的格式包括avi、wma、rmvb、mp4、rm、flash、mid和3gp。

4.根据权利要求1所述的基于文本解析和语音合成的信息获取方法，其特征在于，所述步骤三中的信息加工处理包括信息压缩、图像识别、音频提取和网页链接生成，信息压缩是将用户输入的信息通过摘要算法，进一步提炼文章的核心思想，将缩短的文本通过语音合成技术转换成音频文件；图像识别有两个技术：其一是利用OCR(光学字符识别)技术，将图片中的文本提取出来，其二是利用机器学习算法理解图像，用描述性文本将图像内容表达出来，以上两个方案输入皆为图像，输出皆为文本；音频提取是将视频文件中的音频提取出来生成独立的音频文件；网页链接生成是将合成的音频文件和对应的文本、图片一起，缓存到服务器，数据库值包括用户ID和请求ID和呈现顺序，数据库值基于用户ID和请求ID生成新的链接。

5.根据权利要求1所述的基于文本解析和语音合成的信息获取方法，其特征在于，所述客户端包括PC端和移动端。

6.一种用于处理信息的方法，其中，该方法包括：

网络设备获取用户账号发送至服务账号的第一信息；

7.一种用于处理信息的方法，其中，该方法包括：

网络设备获取用户账号发送至服务账号的第一信息；

8.一种用于处理信息的方法，其中，该方法包括：

网络设备获取用户账号发送至服务账号的第一信息；

9.一种包括指令的计算机可读介质，所述指令在被执行时使得系统进行如权利要求1至8中任一项所述方法的操作。