CN106022332A - 终端设备、将纸质读物转为待听读物播放的装置及方法 - Google Patents

终端设备、将纸质读物转为待听读物播放的装置及方法 Download PDF

Info

Publication number
CN106022332A
CN106022332A CN201610238852.3A CN201610238852A CN106022332A CN 106022332 A CN106022332 A CN 106022332A CN 201610238852 A CN201610238852 A CN 201610238852A CN 106022332 A CN106022332 A CN 106022332A
Authority
CN
China
Prior art keywords
reading matter
listened
file
audio frequency
word content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610238852.3A
Other languages
English (en)
Other versions
CN106022332B (zh
Inventor
李祎哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Alibaba Literature Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Alibaba Literature Information Technology Co Ltd filed Critical Guangzhou Alibaba Literature Information Technology Co Ltd
Priority to CN201610238852.3A priority Critical patent/CN106022332B/zh
Publication of CN106022332A publication Critical patent/CN106022332A/zh
Application granted granted Critical
Publication of CN106022332B publication Critical patent/CN106022332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种终端设备、将纸质读物转为待听读物播放的装置及方法。该终端设备包括:存储器、音频播放器和处理器,存储器中存储纸质读物的至少两幅电子图像及存储处理器生成的待听读物;处理器获取存储器存储的纸质读物的电子图像,将从至少两幅电子图像中识别出的文字内容分别存储到至少两个文件,将至少两个文件组合生成待听读物存储到存储器,分别将存储器的至少两个文件中存储的文字内容转换为对应的音频,根据播放待听读物的请求向音频播放器发出播放指令;音频播放器接收所述处理器的播放指令,按预定播放顺序播放与待听读物的文件存储的文字内容对应的音频。本发明能实现将纸质读物转换为待听读物进行播放。

Description

终端设备、将纸质读物转为待听读物播放的装置及方法
技术领域
本发明涉及移动互联网技术领域,具体涉及一种终端设备、将纸质读物转为待听读物播放的装置及方法。
背景技术
目前,随着智能移动终端技术及安卓技术的不断普及与发展,用户可以在移动终端上安装各种各样的应用程序软件,包括各种阅读软件等。现有的很多阅读软件都有朗读功能,终端上存储的电子书可以通过阅读软件进行朗读播放,满足了用户的不同阅读需求,也方便了用户的使用。
但是,如果有的书籍并不能在阅读软件上面找到,而用户只有纸质书籍的时候,用户就无法实现该书籍的朗读播放。
发明内容
为解决上述技术问题,本发明提供一种终端设备、将纸质读物转为待听读物播放的装置及方法,能实现将纸质读物转换为待听读物进行播放,满足用户的朗读播放的阅读需求。
本发明提供的技术方案如下:
根据本发明的一个方面,提供一种终端设备,包括:存储器、音频播放器和处理器,
所述存储器中存储纸质读物的至少两幅电子图像及存储处理器生成的待听读物;
所述处理器获取所述存储器存储的纸质读物的至少两幅电子图像,将从所述至少两幅电子图像中识别出的文字内容分别存储到存储器上的至少两个文件,将所述至少两个文件组合生成待听读物存储到存储器,分别将所述存储器的至少两个文件中存储的文字内容转换为对应的音频的,根据播放待听读物的请求向音频播放器发出播放指令,其中,所述至少两幅电子图像分别对应于纸质读物的不同内容,在所述待听读物中,所述至少两个文件按照预定播放顺序排列;
所述音频播放器接收所述处理器的播放指令,按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
优选的,终端设备还包括:摄像头,用于拍摄所述纸质读物的电子图像,存储到所述存储器中。
优选的,所述处理器响应于用户对所述至少两幅电子图像的顺序的调整,执行相应地调整所述至少两个文件的所述预定播放顺序的操作。
优选的,所述处理器通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,和/或,所述处理器通过从文本到语音技术分别将所述存储器的至少两个文件中存储的文字内容转换为对应的音频。
根据本发明的另一个方面,提供一种将纸质读物转为待听读物播放的装置,包括:
图像获取模块,用于获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容;
内容存储模块,用于将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件;
生成模块,用于将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列;
转换模块,用于分别将所述至少两个文件中存储的文字内容转换为对应的音频;
播放响应模块,用于响应于播放待听读物的请求,指令音频播放器按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
优选的,装置还包括:调整模块,用于响应于用户对所述至少两幅电子图像的顺序的调整,相应地调整所述至少两个文件的所述预定播放顺序。
优选的,装置还包括:图标模块,用于在读物书架显示所述待听读物的图标,其中所述图标关联所述待听读物的文件的存储路径。
优选的,装置还包括:记录模块,用于在所述音频播放器播放音频的过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
优选的,装置还包括:光学字符识别模块,用于通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,及,所述转换模块通过从文本到语音技术分别将所述至少两个文件中存储的文字内容转换为对应的音频。
根据本发明的另一个方面,提供一种将纸质读物转为待听读物播放的方法,包括:
获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容;
将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件;
将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列;
分别将所述至少两个文件中存储的文字内容转换为对应的音频,
其中,响应于播放待听读物的请求,按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
优选的,所述待听读物中所述至少两个文件的预定播放顺序对应于所述至少两幅电子图像的顺序。
优选的,方法还包括:响应于用户对所述至少两幅电子图像的顺序的调整,相应地调整所述至少两个文件的所述预定播放顺序。
优选的,方法还包括:在读物书架显示所述待听读物的图标,其中所述图标关联所述待听读物的文件的存储路径。
优选的,方法还包括:响应于用户点击所述图标,提示用户选择继续获取所述图标对应的纸质读物的电子图像或播放所述图标所关联的待听读物对应的音频。
优选的,所述播放的音频包括:通过从文本到语音技术实时转换的音频或转换后存储的音频。
优选的,方法还包括:在播放音频的过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
优选的,所述内容存储模块将通过光学字符识别技术从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件,和/或,
所述转换模块通过从文本到语音技术分别将所述至少两个文件中存储的文字内容转换为对应的音频。
优选的,从所述至少两幅电子图像中识别出的文字内容是通过光学字符识别技术识别得到包括:
通过光学字符识别技术对所述至少两幅电子图像进行包括去除图像噪声的预处理;
从预处理后的所述电子图像中识别出单字;
将单字识别结果进行分词处理得到所述至少两幅电子图像中的文字内容。
可以发现,本发明实施例的技术方案,通过获取纸质读物的至少两幅电子图像,将从电子图像中识别出的文字内容分别存储到至少两个文件,将至少两个文件组合生成待听读物,再分别将所述至少两个文件中存储的文字内容转换为对应的音频;这样,当用户需要播放待听读物的内容时,就可以响应请求,按预定播放顺序播放与待听读物的文件存储的文字内容对应的音频,从而实现了将纸质读物转换为待听读物进行播放的目的,满足用户的朗读播放的阅读需求,提高了用户的阅读体验。
进一步的,本发明实施例的待听读物中的文件的预定播放顺序对应于电子图像的顺序,而且如果电子图像的顺序调整了,那么会相应地调整文件的预定播放顺序。
进一步的,本发明实施例可以通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,可以通过从文本到语音技术分别将所述至少两个文件中存储的文字内容转换为对应的音频。
进一步的,本发明实施例播放音频可以是通过从文本到语音技术实时转换音频后就播放,或者是通过从文本到语音技术转换为音频后存储,以后直接播放存储的音频。
进一步的,本发明实施例可以在播放音频的过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
进一步的,本发明实施例从电子图像中识别出文字内容时,可以先进行去除图像噪声的预处理,以提高识别效果。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是根据本发明的一个实施例的一种终端设备的示意性方框图;
图2是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的装置的示意性方框图;
图3是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的装置的另一示意性方框图;
图4是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的方法的示意性流程图;
图5是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的方法的另一示意性流程图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本发明提供一种终端设备,能实现将纸质读物转换为待听读物进行播放,满足用户的朗读播放的阅读需求。
以下结合附图详细介绍本发明实施例技术方案。
图1是根据本发明的一个实施例的一种终端设备的示意性方框图。
如图1所示,在一种终端10中,包括:存储器11、音频播放器12和处理器13。
其中,所述存储器11中存储纸质读物的至少两幅电子图像及存储处理器生成的待听读物。
其中,所述处理器13获取所述存储器11存储的纸质读物的至少两幅电子图像,将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件,将所述至少两个文件组合生成待听读物存储到存储器11,分别将所述存储器11的至少两个文件中存储的文字内容转换为对应的音频,根据播放待听读物的请求向音频播放器发出播放指令,其中,所述至少两幅电子图像分别对应于纸质读物的不同内容,在所述待听读物中,所述至少两个文件按照预定播放顺序排列。
所述音频播放器12接收所述处理器的播放指令,按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
在终端设备10中还包括:摄像头14。
摄像头14,用于拍摄所述纸质读物的电子图像,存储到所述存储器11中。
其中,所述处理器13响应于用户对所述至少两幅电子图像的顺序的调整,执行相应地调整所述至少两个文件的所述预定播放顺序的操作。
其中,所述处理器13可以通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,还可以通过从文本到语音技术分别将所述存储器11的至少两个文件中存储的文字内容转换为对应的音频。需说明的是,也可以是通过其他技术从电子图像中识别出文字内容,或通过其他技术将文字内容转换为音频。
终端设备10中的处理器13,可以作为一个独立的装置结构,该独立的装置结构可以称为一种将纸质读物转为待听读物播放的装置,该将纸质读物转为待听读物播放的装置可以包括多个子模块,下文将对该将纸质读物转为待听读物播放的装置结构进行详细说明。
图2是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的装置的示意性方框图。
如图2所示,在一种将纸质读物转为待听读物播放的装置20中,包括:图像获取模块21、内容存储模块22、生成模块23、转换模块24、播放响应模块25。
图像获取模块21,用于获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容。
内容存储模块22,用于将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件。
生成模块23,用于将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列。
转换模块24,用于分别将所述至少两个文件中存储的文字内容转换为对应的音频。
播放响应模块25,用于响应于播放待听读物的请求,指令音频播放器按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
可以发现,本发明实施例的技术方案,通过获取纸质读物的至少两幅电子图像,将从电子图像中识别出的文字内容分别存储到至少两个文件,将至少两个文件组合生成待听读物,再分别将所述至少两个文件中存储的文字内容转换为对应的音频;这样,当用户需要播放待听读物的内容时,就可以响应请求,按预定播放顺序播放与待听读物的文件存储的文字内容对应的音频,从而实现了将纸质读物转换为待听读物进行播放的目的,满足用户的朗读播放的阅读需求,提高了用户的阅读体验。
图3是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的装置的另一示意性方框图。
如图3所示,在一种将纸质读物转为待听读物播放的装置20中,包括:图像获取模块21、内容存储模块22、生成模块23、转换模块24、播放响应模块25。
图像获取模块21、内容存储模块22、生成模块23、转换模块24、播放响应模块25的功能参见图2所示,此处不再赘述。
其中,装置20还可以包括:调整模块26,用于响应于用户对所述至少两幅电子图像的顺序的调整,相应地调整所述至少两个文件的所述预定播放顺序。
其中,装置20还可以包括:图标模块27,用于在读物书架显示所述待听读物的图标,其中所述图标关联所述待听读物的文件的存储路径。图标模块27还可以响应于用户点击所述图标,提示用户选择继续获取所述图标对应的纸质读物的电子图像或播放所述图标所关联的待听读物对应的音频。
其中,装置20还可以包括:记录模块28,用于在所述音频播放器播放音频的过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
其中,装置20还可以包括:光学字符识别模块29,用于通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,包括:通过光学字符识别技术对所述至少两幅电子图像进行包括去除图像噪声的预处理;从预处理后的所述电子图像中识别出单字;将单字识别结果进行分词处理得到所述至少两幅电子图像中的文字内容。
其中,转换模块24可以通过从文本到语音技术分别将所述至少两个文件中存储的文字内容转换为对应的音频。
图4是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的方法的示意性流程图。
如图4所示,在步骤401中,获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容。
该步骤可以是,由将纸质读物转为待听读物播放的装置中的图像获取模块,获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容。
其中,所获取的纸质读物的电子图像,可以是通过摄像头拍摄或通过扫描仪扫描的电子图像,也可以是从其他设备传输或从网络下载的电子图像。
在步骤402中,将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件。
该步骤可以是,由将纸质读物转为待听读物播放的装置中的内容存储模块,将通过光学字符识别技术从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件。
其中,可以是每幅电子图像对应存储到一个文件并进行标识,例如通过编号标识对应关系等。当然,也可以是其他方式标识对应关系。
在步骤403中,将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列。
该步骤可以是,由将纸质读物转为待听读物播放的装置中的生成模块,将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列。
其中,所述待听读物中所述至少两个文件的预定播放顺序对应于所述至少两幅电子图像的顺序。本发明实施例的电子图像的初始顺序可以是获取电子图像的顺序,获取电子图像一般可以是根据纸质读物的阅读顺序依次拍摄的顺序。
需说明的是,如果用户对所述至少两幅电子图像的顺序进行了调整,那么可以相应地调整所述至少两个文件的所述预定播放顺序。
在步骤404中,分别将所述至少两个文件中存储的文字内容转换为对应的音频。
该步骤可以是,由将纸质读物转为待听读物播放的装置中的转换模块,通过从文本到语音技术,分别将所述至少两个文件中存储的文字内容转换为对应的音频。
在步骤405中,响应于播放待听读物的请求,按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
该步骤可以是,由将纸质读物转为待听读物播放的装置中的播放响应模块,响应于播放待听读物的请求,指令音频播放器按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
其中,该步骤可以响应于播放请求实时转换音频,也可以预先转换好了保存在音频文件中,直接按顺序播放。
因此,本发明实施例的技术方案,通过获取纸质读物的至少两幅电子图像,将从电子图像中识别出的文字内容分别存储到至少两个文件,将至少两个文件组合生成待听读物,再分别将所述至少两个文件中存储的文字内容转换为对应的音频;这样,当用户需要播放待听读物的内容时,就可以响应请求,按预定播放顺序播放与待听读物的文件存储的文字内容对应的音频,从而实现了将纸质读物转换为待听读物进行播放的目的,满足用户的朗读播放的阅读需求,提高了用户的阅读体验。
图5是根据本发明的一个实施例的一种将纸质读物转为待听读物播放的方法的另一示意性流程图。图5相对于图4更详细描述了本发明实施例技术方案。
本发明实施例可以根据用户使用终端摄像头所拍下的电子图像,进行文字识别并且可以进行朗读播放,从而方便用户在以往阅读软件中找不到自己需要的纸质书籍的电子版并且不方便携带纸质书籍阅读的时候进行听书。需说明的是,本实施例是以通过摄像头拍摄获取纸质书籍的电子图像为例进行说明但不局限于此,也可以是其他获取电子图像的方式,及其他纸质读物例如杂志、报纸等。
如图5所示,在步骤501中,获取用户通过摄像头对纸质书籍拍摄的电子图像。
该步骤可以是,由将纸质读物转为待听读物播放的装置获取用户通过摄像头对纸质书籍拍摄的电子图像。
用户可以对自己想阅读的纸质书籍内容用移动终端摄像头进行拍照,得到纸质书籍的电子图像。
在步骤502中,通过光学字符识别技术从电子图像中识别出纸质书籍的文字内容。
该步骤可以是,由将纸质读物转为待听读物播放的装置通过光学字符识别技术从电子图像中识别出纸质书籍的文字内容。
对于获取的纸质书籍的电子图像,可以通过OCR(OpticalCharacter Recognition,光学字符识别)技术从电子图像中识别出文字内容。如果拍摄的电子图像不够清晰导致识别不清,可以提示用户进行重拍。
该步骤中,进行识别的过程可以包括:
首先对电子图像进行预处理。预处理是指在进行文字识别之前进行一些准备工作,包括图像净化处理,去掉原始图像中的显见噪声(干扰)等。
然后进行单字识别。从电子图像中分检出文字图像,将文字图像转变成文字的标准代码,也就是所谓的识别出单字。
最后是进行后处理。后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词处理,与词库中的词组进行比较,以提高识别率和减少误识率。
在步骤503中,将从电子图像中识别的文字内容分别存储到文件中并标识。
该步骤可以是,由将纸质读物转为待听读物播放的装置将从电子图像中识别的文字内容分别存储到文件中并标识。
当用户按照阅读的先后顺序拍摄完纸质书籍所有的内容,每拍摄完成一幅电子图像都会设置编号进行标识。该步骤中将从电子图像中识别的文字内容分别存储到文件中的时候,是将存储每幅电子图像识别出的内容的文件也对应进行编号以作标识。例如拍摄的第一幅电子图像的编号是1,对应存储该电子图像识别出的文字内容的文件为file_1。所有拍摄的电子图像的顺序可以按照拍摄的前后顺序进行缩略展示,例如展示的顺序就是默认的拍摄顺序:1、2、3、4…。如果因为拍摄顺序与阅读的顺序不一致,就可以调整展示的电子图像的位置,例如对电子图像进行拖动调整位置。例如,将电子图像1、2进行调换,展示的新的阅读顺序就从1、2、3、4…变成:2、1、3、4…。相应的,阅读的文件顺序也就变成与调整后电子图像所对应,即调整为:file_2、file_1、file_3、file_4…。
在步骤504中,根据存储的文件在电子读物书架上生成电子书籍。
该步骤可以是,由将纸质读物转为待听读物播放的装置根据存储的文件在电子读物书架上生成电子书籍。
该步骤将存储识别内容的文件按顺序组合生成书籍并展示在电子读物书架上。也就是说,每拍摄完一本书并进行识别后,就会在电子书架上生成一本书籍。可以在电子书架上展示一个封面样式的封面图标,类似于其他电子书籍的一个图标,当点击这个封面图标,可以进行不同操作。例如,当点击这本书籍的封面图标,可以弹出一个对话框,对话框可以设置几个选项,例如:继续添加内容、开始听书等等。也就是说,响应于用户点击图标,可以提示用户选择继续获取所述图标对应的纸质读物的电子图像或播放所述图标所关联的待听读物对应的音频。
需说明的是,本发明实施例按上述方式生成的电子书籍与其他的电子书籍有所不同。本发明实施例按上述方式生成的“书”,是可以朗读之前保存识别出的文字内容的文件的一个入口,直接关联那些文件的存储路径。
在步骤505中,通过从文本到语音技术,将文字内容转换为对应的音频,并响应播放请求播放与文字内容对应的音频。
该步骤可以是,由将纸质读物转为待听读物播放的装置通过从文本到语音技术,将文字内容转换为对应的音频,并响应播放请求指令音频播放器播放与文字内容对应的音频。
该步骤利用从文本到语音技术将识别出的文字内容转换为音频进行播放。利用TextToSpeech(文本到语音技术),可以直接将字符串转化成音频并且朗读,也可以将转化成的音频保存成音频文件,这样当再次朗读的时候可以直接播放缓存的音频声音文件而不必再进行转换。
在安卓环境中,可以调用TextToSpeech方法,其中可以包括以下两种方法:
1、speak(String text,int queueMode,HashMap<String,String>params)
其中,相关参数含义如下:
text:需要朗读的文字。
queueMode:指定TTS的发音队列模式,该参数支持如下两个常量:1)TextToSpeech.QUEUE_FLUSH:如果指定该模式,当TTS调用speak方法时,它会清除当前语音任务,转而执行新的语音任务)。2)TextToSpeech.QUEUE_ADD:如果指定该模式,当TTS调用speak方法时,会把新的发音任务添加到当前发音任务列队之后,也就是等任务队列中的发音任务执行完成后在来执行speak()方法指定的发音任务。
Params:用于指定声音转换时的参数。
2、synthesizeToFile(String text,HashMap<String,String>params,String filename)
其中,相关参数含义如下:
text:需要朗读的文字。
Params:用于指定声音转换时的参数。
Filename:保存为音频文件的文件名。
其中,上述两个方法都用于把文字内容转换为音频,区别是第一个的speak方法是播放转换的音频,而第二个synthesizeToFile方法是把转换得到的音频保存为音频文件。
当用户点击开始听书,即发起播放请求时,就可以通过TextToSpeech播放与文字内容对应的音频。播放速度可以调节,例如可以设置快、中、慢三档,一般默认为中档。
在步骤506中,在播放过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置。
该步骤可以是,由将纸质读物转为待听读物播放的装置在播放过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
该步骤在播放过程中,根据音频播放进度记录文字内容所对应的位置,例如碰到中途停止播放或退出电子书软件时,可以记录该生成的电子书的听书位置,这样就可以使得下次可以根据记录的位置查找到音频的位置,继续从该位置播放。需说明的是,可以仅仅在碰到中途停止播放或退出电子书软件时才进行位置记录。
可以发现,当用户想阅读的书籍找不到电子版且出行又不方便携带纸质书籍的时候,就可以利用本发明实施例的方法实现实现将纸质读物转换为待听读物进行播放,满足用户的朗读播放的阅读需求。另外,当用户想要阅读纸质书籍但无法手握书籍或者眼睛无暇顾及的时候,也可以利用该方法实现将纸质读物转换为待听读物进行播放,使得可以边听边做事。需说明的是,本发明实施例方法并不限于阅读书籍,还可以应用于任何带有文字的材料的转换播放。
上文中已经参考附图详细描述了根据本发明的技术方案。
此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (18)

1.一种终端设备,其特征在于,包括:存储器、音频播放器和处理器,
所述存储器中存储纸质读物的至少两幅电子图像及存储处理器生成的待听读物;
所述处理器获取所述存储器存储的纸质读物的至少两幅电子图像,将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件,将所述至少两个文件组合生成待听读物存储到存储器,分别将所述存储器的至少两个文件中存储的文字内容转换为对应的音频,根据播放待听读物的请求向音频播放器发出播放指令,其中,所述至少两幅电子图像分别对应于纸质读物的不同内容,在所述待听读物中,所述至少两个文件按照预定播放顺序排列;
所述音频播放器接收所述处理器的播放指令,按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
2.根据权利要求1所述的终端设备,其特征在于,还包括:
摄像头,用于拍摄所述纸质读物的电子图像,存储到所述存储器中。
3.根据权利要求1或2所述的终端设备,其特征在于,所述处理器响应于用户对所述至少两幅电子图像的顺序的调整,执行相应地调整所述至少两个文件的所述预定播放顺序的操作。
4.根据权利要求1或2所述的终端设备,其特征在于,所述处理器通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,和/或,所述处理器通过从文本到语音技术分别将所述存储器的至少两个文件中存储的文字内容转换为对应的音频。
5.一种将纸质读物转为待听读物播放的装置,其特征在于,包括:
图像获取模块,用于获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容;
内容存储模块,用于将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件;
生成模块,用于将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列;
转换模块,用于分别将所述至少两个文件中存储的文字内容转换为对应的音频;
播放响应模块,用于响应于播放待听读物的请求,指令音频播放器按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
6.根据权利要求5所述的装置,其特征在于,还包括:
调整模块,用于响应于用户对所述至少两幅电子图像的顺序的调整,相应地调整所述至少两个文件的所述预定播放顺序。
7.根据权利要求5所述的装置,其特征在于,还包括:
图标模块,用于在读物书架显示所述待听读物的图标,其中所述图标关联所述待听读物的文件的存储路径。
8.根据权利要求5至7任一项所述的装置,其特征在于,还包括:
记录模块,用于在所述音频播放器播放音频的过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
9.根据权利要求5至7任一项所述的装置,其特征在于,还包括:
光学字符识别模块,用于通过光学字符识别技术从所述至少两幅电子图像中识别出文字内容,及,
所述转换模块通过从文本到语音技术分别将所述至少两个文件中存储的文字内容转换为对应的音频。
10.一种将纸质读物转为待听读物播放的方法,其特征在于,包括:
获取纸质读物的至少两幅电子图像,所述至少两幅电子图像分别对应于纸质读物的不同内容;
将从所述至少两幅电子图像中识别出的文字内容分别存储到至少两个文件;
将所述至少两个文件组合生成待听读物,在所述待听读物中,所述至少两个文件按照预定播放顺序排列;
分别将所述至少两个文件中存储的文字内容转换为对应的音频,
其中,响应于播放待听读物的请求,按所述预定播放顺序播放与所述待听读物的所述文件存储的文字内容对应的音频。
11.根据权利要求10所述的方法,其特征在于:
所述待听读物中所述至少两个文件的预定播放顺序对应于所述至少两幅电子图像的顺序。
12.根据权利要求10所述的方法,其特征在于,还包括:
响应于用户对所述至少两幅电子图像的顺序的调整,相应地调整所述至少两个文件的所述预定播放顺序。
13.根据权利要求10所述的方法,其特征在于,还包括:
在读物书架显示所述待听读物的图标,其中所述图标关联所述待听读物的文件的存储路径。
14.根据权利要求13所述的方法,其特征在于,还包括:
响应于用户点击所述图标,提示用户选择继续获取所述图标对应的纸质读物的电子图像或播放所述图标所关联的待听读物对应的音频。
15.根据权利要求10所述的方法,其特征在于,所述播放的音频包括:
通过从文本到语音技术实时转换的音频或转换后存储的音频。
16.根据权利要求10所述的方法,其特征在于,还包括:
在播放音频的过程中,根据音频播放进度记录所述待听读物的文字内容所对应的位置以使响应于再次播放待听读物的请求时,根据所述记录的待听读物的文字内容所对应的位置查找到音频的位置。
17.根据权利要求10至16任一项所述的方法,其特征在于,
从所述至少两幅电子图像中识别出的文字内容是通过光学字符识别技术识别得到;和/或,
将所述至少两个文件中存储的文字内容转换为对应的音频是通过从文本到语音技术进行转换。
18.根据权利要求17所述的方法,其特征在于,所述从所述至少两幅电子图像中识别出的文字内容是通过光学字符识别技术识别得到包括:
通过光学字符识别技术对所述至少两幅电子图像进行包括去除图像噪声的预处理;
从预处理后的所述电子图像中识别出单字;
将单字识别结果进行分词处理得到所述至少两幅电子图像中的文字内容。
CN201610238852.3A 2016-04-15 2016-04-15 终端设备、将纸质读物转为待听读物播放的装置及方法 Active CN106022332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610238852.3A CN106022332B (zh) 2016-04-15 2016-04-15 终端设备、将纸质读物转为待听读物播放的装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610238852.3A CN106022332B (zh) 2016-04-15 2016-04-15 终端设备、将纸质读物转为待听读物播放的装置及方法

Publications (2)

Publication Number Publication Date
CN106022332A true CN106022332A (zh) 2016-10-12
CN106022332B CN106022332B (zh) 2019-04-02

Family

ID=57081494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610238852.3A Active CN106022332B (zh) 2016-04-15 2016-04-15 终端设备、将纸质读物转为待听读物播放的装置及方法

Country Status (1)

Country Link
CN (1) CN106022332B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159729A1 (zh) * 2020-02-11 2021-08-19 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
CN114527908A (zh) * 2020-10-30 2022-05-24 广州市久邦数码科技有限公司 一种电子书的阅读方法及终端系统
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581131A (zh) * 2003-10-07 2005-02-16 赵舜培 一种可自动识别内容之读物
US20070213077A1 (en) * 2006-03-07 2007-09-13 Mian Mubashir A Apparatus and method for handling messaging service message adaptation
US20080300012A1 (en) * 2007-06-04 2008-12-04 An Mun Hak Mobile phone and method for executing functions thereof
CN101609612A (zh) * 2008-06-17 2009-12-23 上海市格致中学 多功能读书机
CN102509479A (zh) * 2011-10-08 2012-06-20 沈沾俊 便携式文字识别发声阅读器及读取文字的方法
CN103365988A (zh) * 2013-07-05 2013-10-23 百度在线网络技术(北京)有限公司 对移动终端的图片文字朗读的方法、装置和移动终端
CN103390159A (zh) * 2013-07-19 2013-11-13 中安消技术有限公司 将屏幕文字转化为语音的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581131A (zh) * 2003-10-07 2005-02-16 赵舜培 一种可自动识别内容之读物
US20070213077A1 (en) * 2006-03-07 2007-09-13 Mian Mubashir A Apparatus and method for handling messaging service message adaptation
US20080300012A1 (en) * 2007-06-04 2008-12-04 An Mun Hak Mobile phone and method for executing functions thereof
CN101609612A (zh) * 2008-06-17 2009-12-23 上海市格致中学 多功能读书机
CN102509479A (zh) * 2011-10-08 2012-06-20 沈沾俊 便携式文字识别发声阅读器及读取文字的方法
CN103365988A (zh) * 2013-07-05 2013-10-23 百度在线网络技术(北京)有限公司 对移动终端的图片文字朗读的方法、装置和移动终端
CN103390159A (zh) * 2013-07-19 2013-11-13 中安消技术有限公司 将屏幕文字转化为语音的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159729A1 (zh) * 2020-02-11 2021-08-19 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
KR20210102832A (ko) * 2020-02-11 2021-08-20 넥스트브이피유 (상하이) 코포레이트 리미티드 이미지 텍스트 방송 방법 및 이의 기기, 전자 회로 및 저장 매체
KR102549570B1 (ko) * 2020-02-11 2023-06-28 넥스트브이피유 (상하이) 코포레이트 리미티드 이미지 텍스트 방송 방법 및 이의 기기, 전자 회로 및 저장 매체
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting
CN114527908A (zh) * 2020-10-30 2022-05-24 广州市久邦数码科技有限公司 一种电子书的阅读方法及终端系统

Also Published As

Publication number Publication date
CN106022332B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109119063B (zh) 视频配音生成方法、装置、设备及存储介质
CN106373580B (zh) 基于人工智能的合成歌声的方法和装置
CN106662920B (zh) 交互式视频生成
US20120196260A1 (en) Electronic Comic (E-Comic) Metadata Processing
US20100042410A1 (en) Training And Applying Prosody Models
US20190332652A1 (en) Creating accessible, translatable multimedia presentations
US20190214054A1 (en) System and Method for Automated Video Editing
CN109241305A (zh) 一种基于图像识别的绘本阅读方法及装置
Liu et al. Speech emotion recognition based on transfer learning from the FaceNet framework
CN106022332A (zh) 终端设备、将纸质读物转为待听读物播放的装置及方法
CN111916054B (zh) 基于唇形的语音生成方法、装置和系统及存储介质
JP7200533B2 (ja) 情報処理装置およびプログラム
JP2013046151A (ja) プロジェクタ、投影システム及び情報検索表示方法
WO2018120821A1 (zh) 一种演示文稿的制作方法和装置
CN111813301B (zh) 内容播放方法、装置、电子设备及可读存储介质
JP2014146066A (ja) 文書データ生成装置、文書データ生成方法及びプログラム
US20120120446A1 (en) Method and system for generating document using speech data and image forming apparatus including the system
US9666211B2 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
CN114363531A (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
WO2024193434A1 (zh) 音频处理方法、装置、设备和存储介质
CN108847246A (zh) 一种动画制作方法、装置、终端及可读介质
KR20110100649A (ko) 음성을 합성하기 위한 방법 및 장치
JPH11175092A (ja) オーディオから派生したテキストのイメージとの関連付け
CN117319765A (zh) 视频处理方法、装置、计算设备及计算机存储介质
US10460178B1 (en) Automated production of chapter file for video player

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200716

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping radio square B tower 13 floor 03 unit self

Patentee before: GUANGZHOU ALIBABA LITERATURE INFORMATION TECHNOLOGY Co.,Ltd.