具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种绘本朗读点播方法的流程图,本实施例可适用于用户通过绘本朗读设备进行绘本点播的情况,该方法可以由本发明实施例提供的绘本朗读点播装置或系统来执行,该装置可采用硬件和/或软件的方式实现,例如,该装置可配置于服务器和/或绘本朗读设备中。该方法具体包括:
S101,获得绘本朗读设备采集的语音点播信息的音频特征。
其中,绘本朗读设备采集的语音点播信息包括绘本名称、绘本名称描述信息、绘本文字内容描述信息以及绘本图片内容描述信息中的至少一个。也就是说用户在进行绘本点播时,可以语音输入绘本的名称进行精确点播,当用户对要点播的绘本名称记不清楚时可以凭借记忆语音输入绘本名称的描述信息(如,绘本名称的关键词)、绘本文字内容的描述信息或者绘本中插图内容的描述信息中的至少一个。当用户面对大量的可点播绘本不知具体选择哪本时,也可以通过输入自己点播绘本的需求信息进行绘本的点播,例如:“我想听关于学习英语的绘本,里面有学习小动物的名字,还有小动物的图片”。
绘本朗读设备获取的语音点播信息是模拟信号,其时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,需要将语音点播信息的声音波形转换为声学特征。具体的,从语音点播信息中提取音频特征的方法有很多,如梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)、线性预测倒谱系数(LPCC)、多媒体内容描述接口(MPEG7)等,优选的,由于MFCC是基于倒谱的,更符合人的听觉原理,本发明实施例选择MFCC进行音频特征的提取。
可选的,获得声音绘本朗读设备采集的语音点播信息的音频特征,若该方法是由绘本朗读设备执行的,可以是绘本朗读设备进行音频特征提取后直接发送给该设备中用于进行绘本信息搜索的模块。若该方法是由服务器执行的,可以是绘本朗读设备进行音频特征提取后发送给服务器,服务器通过其中的通信模块来获取绘本朗读设备发送的音频特征。
S102,依据各可点播绘本的图片描述信息和文字描述信息对音频特征进行模糊搜索得到至少一个目标绘本信息。
其中,可点播绘本的图片描述信息和文字描述信息是预先对可点读绘本的图片和文字进行特征识别后得到的可点播绘本的文本特征,具体的,图片描述信息是指对绘本中的所有图片进行语义理解分析后,对每张图片内容生成的图片标签以及图片内容的描述信息。文字描述信息是指对绘本中图片上的所有文字或音频资源解析得到的所有文字进行文本特征识别后,生成的绘本名称、绘本名称描述信息、以及绘本内容的描述信息。目标绘本是指从众多可点读绘本中搜索到的满足语音点播信息的绘本。可选的,目标绘本信息包括绘本的名称以及绘本的置信度,其中绘本的置信度是该绘本与语音点播信息的匹配程度。
具体的,由于用户输入的语音点播信息是由绘本名称、绘本名称描述信息、绘本文字内容描述信息以及绘本图片内容描述信息中的至少一个组成的,因此根据语音点播信息进行目标绘本搜索时,可以从存有所有可点播绘本的图片描述信息和文字描述信息的数据库中进行目标绘本信息的模糊搜索。需要说明的是,S101中获取的音频特征不能直接用于目标绘本信息的模糊搜索,需要先对音频特征进行识别分析,得到音频特征的文本特征,再利用该文本特征从存有所有可点播绘本的图片描述信息和文字描述信息的数据库中进行目标绘本信息的模糊搜索。
需要说明的是,该方法既可以单独由绘本朗读设备执行,也可以单独由服务器执行,还可以由绘本朗读设备与服务器配合执行。例如,由于绘本朗读设备的运算量以及存储量有限,当可点播绘本较多时,可以对搜索工作进行分工,若语音点播信息时长较短,则说明是用户输入的绘本名称,其对应的搜索运算量较小,可直接从存储的可点播绘本的名称中进行查找,此时该方法由绘本朗读设备进行快速查找。若语音点播信息时长较长,则说明用户输入的应该是绘本名称或内容的描述信息,其对应的搜索较为复杂,对运算量以及存储的要求较高,普通的绘本朗读设备可能无法满足搜索需求,此时该方法由服务器进行模糊搜索。
本实施例提供了一种绘本朗读点播方法,基于绘本朗读设备采集的语音点播信息的音频特征,依据可点播绘本的图片描述信息和文字描述信息进行模糊搜索,确定出至少一个目标绘本信息,解决了绘本朗读点播时操作复杂,需要熟记绘本名称的问题。即使在点播绘本输入信息不明确的情况下,也能简单快速的完成目标绘本的点播,提高了用户的使用体验。
实施例二
图2本发明实施例二提供的一种绘本朗读点播方法的流程图,该方法在上述实施例的基础上进一步的优化,给出了可点播绘本的图片描述信息和文本描述信息的生成过程以及如何从中模糊搜索目标绘本信息的具体情况的介绍。如图2所示,该方法包括:
S201,扫描可点播绘本的每一页内容。
绘本朗读设备播放的绘本通常是由一幅幅图片加上少量的文字构成的。对于系统中每个可点播绘本都要扫描其每一页的内容,每一页的内容通常是由至少一幅图片组成,而图片中有时会出现少量的文字。
可选的,在扫描绘本每一页内容的同时,可以按照绘本的名称对扫描到的内容进行分类,例如,同一绘本的扫描内容划分为一类,并建立映射关系,这样在目标绘本模糊搜索时,能快速根据映射关系找到描述信息对应的绘本名称。
S202,通过对每一页内容的扫描结果进行解析,生成可点播绘本的图片描述信息和文本描述信息。
扫描可点播绘本得到的结果是一幅幅的图片,有的图片中还包括少量的文字,因此要对扫描结果进行进一步的解析,具体的解析过程可以是,利用基于卷积神经网络的光学字符识别(Optical Character Recognition,OCR)技术和图片语义解析技术分析扫描结果中每幅图片的内容,生成图片OCR文字信息、图片标签以及图片描述信息;然后再利用自然语言处理技术对提取的同一绘本的图片OCR文字信息、图片标签以及图片描述信息进行过滤和进一步的语义理解,生成可点播绘本的图片描述信息和文本描述信息。
可选的,可以将生成的可点播绘本的图片描述信息和文本描述信息按照绘本名称的分类保存在绘本信息的数据库中,以便用户在绘本点播时快速完成模糊搜索。
需要说明的是,在对数据库中的搜索数据的完善更新阶段,不但包括S201到S202对于绘本图片信息处理,还包括对绘本内容描述信息以及绘本名称描绘信息的处理,具体的处理方法可以时对绘本的音频资源进行解析提取得到绘本描述内容,以及对绘本名称进行关键词的提取,生成绘本名称的描述内容。最终的绘本文本描述信息是由S202生成的绘本文字描述信息、绘本内容描述信息以及绘本名称描绘信息共同组成。
S203,获得绘本朗读设备采集的语音点播信息的音频特征。
S204,对音频特征进行识别分析,得到音频特征的文本特征。
S203获取的音频特征不能很好的表现出来该声音对应的具体的内容信息,要想用其进行目标绘本的搜索,还需要对音频特征进行进一步的识别分析,具体对音频特征的识别分析可以包括如下两步:
(1)基于深度学习的语音识别算法对发送来的语音特征进行识别,得到识别的文字结果;
(2)对识别到的文字结果利用词向量(word2vec)技术、关键词提取技术等生成文本特征,再利用基于循环神经网络的自然语言处理技术对文本特征进行语义识别,得到音频特征的文本特征。
需要说明的是,上述两个步骤只是本发明实施例进行识别分析的一种方法,还可以使用现有技术中任意一种将音频特征识别解析成文字信息的技术方法,在此不进行限定。
需要说明的是,S204中得到的音频特征的文本特征是与S202中生成的可点播绘本的图片描述信息和文本描述信息是对应的,可通过文本特征与图片描述信息和/或文本描述信息进行相似度比较来搜索目标绘本。
S205,依据文本特征对数据库中各可点播绘本的图片描述信息和文字描述信息进行大数据比对处理;
由于数据库中存储的可点播绘本有很多,每本绘本又有大量的图片描述信息和文字描述信息,直接从数据库中的众多可点播绘本中进行搜索,工作量较大,耗时较长。因此可以根据S204中得到文本特征运用大数据比对处理技术从数据库中海量的绘本信息中完成绘本粗筛选过程。例如,可点播绘本分类故事类型、学习类型、儿歌类型等,若文本特征对应的是儿歌类型,则通过大数据比对处理技术粗筛选出所有儿歌类型的绘本,在筛选出来的儿歌类型绘本中再进行进一步的模糊搜索,提高了搜索的效率。
可选的,依据文本特征对数据库中各可点播绘本的图片描述信息和文字描述信息进行大数据比对处理,可以是计算S204中得到的文本特征与数据库中存储的可点播绘本的图片描述信息和文字描述信息的余弦距离,得到他们之间的相似度大小,余弦距离越近,说明该可点播绘本与目标绘本相似度越大。
S206,依据文本特征从大数据比对处理结果中进行目标绘本的模糊搜索,并对搜索到的目标绘本进行置信度的计算得到至少一个目标绘本信息。
S205中已经通过大数据比对处理技术将数据库中的可点读绘本进行了粗筛选,此时只需从粗筛选得到的可点读绘本中依据文本特征进行目标绘本的模糊搜索。可选的,若用户输入的是准确的绘本名称时,此时搜索到的是一个目标绘本信息,若用户输入的是绘本的描述信息时,此时根据描述信息搜索到的目标绘本可能就有多个。模糊搜索的过程也就是文本特征与数据库中的可点播绘本的图片描述信息和文字描述信息进行相似度比较的过程,将相似度高于阈值的可点播绘本作为目标绘本。因此选出的至少一个目标绘本的相似度是不一样的,计算每一个搜索出的目标绘本的相似度也就是置信度。将目标绘本的名称及其对应的置信度共同作为该绘本信息。
可选的,计算出搜索到的各目标绘本的置信度后,可以按照置信度对目标绘本从大到小进行排序,将排序后的目标绘本展示给用户,可选的,可以是将排序后的所有目标绘本都展示给用户,也可以是设置一个阈值,将置信度大于阈值的至少一个目标绘本排序后展示给用户。用户可以根据置信度的排序结果选出最符合自身需求的绘本。例如,当用户面对众多的可点播绘本不知道该如何选择时,通过语音输入自己需求的一些描述信息,系统同样可以根据该描述信息从数据库中的众多可点播绘本中搜索到符合用户需求的至少一个绘本,并按置信度进行排序,用户可以根据排序情况知道和自己需求匹配度最高的绘本是哪个,并进行点播。
本实施例提供了一种绘本朗读点播方法,通过预先对可点播绘本进行处理,将每个可点播绘本的图片描述信息和文本描述信息存储在数据库中,在获取用户输入语音点播信息的音频特征后,依据数据库中预先存储的图片描述信息和文字描述信息进行模糊搜索,确定出至少一个目标绘本信息,即使在点播绘本输入信息不明确的情况下,也能简单快速的完成目标绘本的点播,提高了用户的使用体验。
实施例三
图3为本发明实施例三提供的一种绘本朗读点播方法的流程图,本实施例以前述实施例为基础,提供了一优选实例,适用于依据音点播信息的时长选择不同执行主体进行绘本朗读点播的情况,如图3所示,该方法包括:
S301,绘本朗读设备采集语音点播信息,并进行音频特征提取。
绘本朗读设备中采集用户输入的语音点播信息的模块可以是语音采集模块,如麦克风。在采集到用户输入的语音点播信息后,需要进行音频特征提取,示例性的,可以是先对采集到的语音点播信息进行降噪处理后对处理后的语音信号利用MFCC技术进行数字化处理,提取出语音点播信息的音频特征。
S302,绘本朗读设备判断采集的语音点播信息的时长是否大于时间阈值,若是,执行S303,否则,执行S306。
用户输入的语音点播信息的时长决定了用户描述绘本相关信息的多少,对于一个普通的绘本朗读设备来说,其处理单元的配置并不是很高,当用户描述绘本相关信息较多时从数据库中进行模糊搜索复杂度较大,可能会出现运算速度跟不上或出错的情况,因此,绘本朗读设备需要根据用户点播信息时长的不同,合理安排目标绘本搜索工作的执行对象。具体的,当语音点播时长大于时间阈值时,执行S303将目标绘本的搜索工作安排给服务器进行处理;当语音点播时长小于或等于时间阈值时,执行S306直接由绘本朗读设备自身进行搜索。
可选的,当语音点播信息为书名时通常就是几个字的语音输入,时间通常比较短,例如,两到三秒即可完成;而描述信息的话通常是用户输入的一段话或者几段话,相对时间就会较长,因此,可以将时间阈值设置的短一点,如设置为三秒。
S303,绘本朗读设备将提取的音频特征发送给服务器。
S304,服务器依据各可点播绘本的图片描述信息和文字描述信息对音频特征进行模糊搜索得到至少一个目标绘本信息发送给绘本朗读设备。
服务器接收到的语音点播信息的音频特征后,先进行统一的基础处理,具体是:先基于深度学习的语音识别算法对发送来的语音特征进行识别,得到识别的文字结果;再对识别到的文字结果利用词向量(word2vec)技术、关键词提取技术等生成文本特征,然后,利用基于循环神经网络的自然语言处理技术对文本特征进行语义识别,得到音频特征的文本特征,用于进行后续的模糊搜索。
由于服务器接收到的语音点播信息的音频特征是时长大于时间阈值的,因此应该是绘本的描述信息,而语音描述信息中又包括绘本名称描述信息、绘本文字内容描述信息以及绘本图片内容描述信息。可选的,可以将这三中不同的描述信息分为两类进行处理,(1)书名模糊搜索类:包括绘本名称描述信息;(2)内容模糊搜索类:包括绘本文字内容描述信息以及绘本图片内容描述信息。
具体的,对于书名模糊搜索的方法可以是:基于基础处理得到的音频特征的文本特征从数据库中各可点播绘本的文字描述信息中的以绘本名称及绘本名称描述信息(如,绘本名称、关键词、短词等)建立的索引信息中进行模糊查找,找到匹配度高的至少一个目标绘本。
对于内容模糊搜索的方法可以是:依据文本特征对数据库中各可点播绘本的图片描述信息和文字描述信息进行大数据比对处理;依据文本特征从大数据比对处理结果中进行目标绘本的模糊搜索,找到匹配度高的至少一个目标绘本。
可选的,对于同一个语音点播信息的模糊搜索过程,以书名进行模糊搜索和以内容进行模糊搜索可以只执行其中一个,也可以两个都执行。
由于模糊搜索得到的目标绘本通常有多个,为了给让用户更好的了解查找出来的目标绘本和自己输入的语音点播信息之间的匹配关系,可以对搜索到的目标绘本进行置信度的计算,得到至少一个目标绘本信息,并发送给绘本朗读设备供用户进行要播放的当前绘本的确定。
S305,绘本朗读设备接收服务器传输的至少一个目标绘本信息,从至少一个目标绘本信息中确定当前绘本信息。
绘本朗读设备接收到服务器发送的至少一个目标绘本信息后,可以通过绘本朗读设备上的显示屏向用户展示搜索结果,可以是将搜索到的至少一个目标绘本按照置信度进行排序后依次显示,也可以是在各目标绘本后标注该绘本对应的置信度。用户根据绘本朗读设备显示屏的显示结果点选自己想要播放的绘本,当绘本朗读设备检测到用户的点选操作后,将用户点选的目标绘本作为当前绘本,并获取该绘本的相关资源标识符,如绘本的名称、编号、存储地址等构成当前绘本信息。
S306,绘本朗读设备对提取的音频特征进行当前绘本的识别,若识别成功确定当前绘本信息。
当语音点播信息的音频特征时长小于或等于时间阈值时,才由绘本朗读设备进行搜索,因此语音点播信息应该是绘本具体名称。具体的绘本朗读设备根据音频特征进行用户点播的当前绘本识别过程是运行深度学习离线命令词识别算法,输入音频特征,识别其是否为已知的绘本名称,如果识别成功,通过绘本朗读设备上的显示屏向用户展示搜索结果,并获取该绘本的相关资源标识符,如绘本的名称、编号、存储地址等构成当前绘本信息。
可选的,若绘本朗读设备没有识别成功,可以通过朗读设别的显示屏输出提示消息,提醒用户重新输入。例如,可以在显示屏上显示“搜索失败,请输入点播信息”。考虑到绘本朗读设备的使用者是儿童,可选的,在显示提示消息的同时可以将提示消息进行语音播放,提高用户的使用体验。
S307,绘本朗读设备依据当前绘本信息向服务器请求当前绘本资源进行朗读。
由于绘本朗读设别的存储空间有限,通常可点播绘本的音频消息是存储在服务器中的,因此,当朗读设别确定当前绘本信息后,会根据当前绘本信息向服务器请求该绘本信息对应的音频资源,服务器接收到请求后会将查找到的绘本音频资源发送到绘本朗读设备,绘本朗读设备此时进行当前绘本的播放。
需要说明的是,S301、S302、S306以及S307构成的方法适用于用户输入的语音点播信息是绘本名称的情况,朗读设备接收到语音点播信息后自身进行绘本的搜索;S301-S305以及S307构成的方法适用于用户输入的语音点播信息是绘本描述信息的情况,由服务器接收到语音点播信息后进行绘本的模糊搜索。可选的,用户输入的语音点播信息是绘本描述信息的情况又分为两种:(1)用户对绘本名称记忆模糊,输入绘本部分名称或错误发音的绘本名称;(2)用户只记得绘本的大概内容、插图的大概内容,例如,输入绘本内容或内部的一些关键人物,句子等信息,或者只知道自己大致的需求,没有明确的点播目标。上述两者情况
本实施例提供了一种绘本朗读点播方法,对用户输入的语音点播信息按照时长分配给服务器或绘本朗读设备进行绘本的搜索,无论用户输入的语音点播信息是否明确,都能高效完成目标绘本的点播,提高了用户的使用体验。
实施例四
图4为本发明实施例四提供的一种绘本朗读点播装置的结构框图,该装置可执行本发明任意实施例所提供的绘本朗读点播方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置包括:
特征获取模块401,用于获得绘本朗读设备采集的语音点播信息的音频特征;
绘本搜索模块402,用于依据各可点播绘本的图片描述信息和文字描述信息对所述音频特征进行模糊搜索得到至少一个目标绘本信息。
本实施例提供了一种绘本朗读点播装置,通过基于绘本朗读设备采集的语音点播信息的音频特征,依据可点播绘本的图片描述信息和文字描述信息进行模糊搜索,确定出至少一个目标绘本信息,解决了绘本朗读点播时操作复杂,需要熟记绘本名称的问题。即使在点播绘本输入信息不明确的情况下,也能简单快速的完成目标绘本的点播,提高了用户的使用体验。
进一步地,上述装置还包括:
扫描模块,用于扫描所述可点播绘本的每一页内容;
信息生成模块,用于通过对每一页内容的扫描结果进行解析,生成所述可点播绘本的图片描述信息和文本描述信息。
进一步得,上述绘本搜索模块402包括:
识别分析单元,用于对所述音频特征进行识别分析,得到所述音频特征的文本特征;
数据预处理单元,用于依据所述文本特征对数据库中各可点播绘本的图片描述信息和文字描述信息进行大数据比对处理;
搜索排序单元,用于依据所述文本特征从大数据比对处理结果中进行目标绘本的模糊搜索,并对搜索到的目标绘本进行置信度的计算得到至少一个目标绘本信息。
可选的,若语音点播信息的时长大于时间阈值,则本实施例所述装置配置于服务器中;否则,该装置配置于绘本朗读设备中。
若该装置配置于服务器中,该装置还包括通信模块,用于将搜索得到至少一个目标绘本信息发送给朗读设备。
此时绘本朗读设备接收到通信模块传输的所述至少一个目标绘本信息,从至少一个目标绘本信息中确定当前绘本信息,并向所述服务器请求当前绘本资源。
需要说明的是,该装置可以仅配置于服务器中,由服务器进行目标绘本的搜索,也可以仅配置于绘本朗读设备中,由绘本朗读设备进行目标绘本的搜索,还可以将该装置同时配置于绘本朗读设备和服务器中,由绘本朗读设备和服务器配合进行目标绘本的搜索。
值得注意的是,上述绘本朗读点播装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;例如,该装置可以仅包括采集模块和处理模块,采集模块实现音频特征的获取;处理模块实现可点播绘本信息的生成与目标绘本的查找等相关功能。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例五
图5为本发明实施例五提供的一种绘本朗读点播系统的结构框图,该系统可执行本发明任意实施例所提供的方法,达到相应的有益效果,该绘本朗读点播系统50包括:服务器501和绘本朗读设备502。
服务器501,用于获得绘本朗读设备502采集的语音点播信息的音频特征,并依据各可点播绘本的图片描述信息和文字描述信息对音频特征进行模糊搜索得到至少一个目标绘本信息;
绘本朗读设备502,用于接收服务器501传输的至少一个目标绘本信息,从至少一个目标绘本信息中确定当前绘本信息,并向服务器501请求当前绘本资源。
本实施例的绘本朗读点播系统,通过基于绘本朗读设备采集的语音点播信息的音频特征,依据可点播绘本的图片描述信息和文字描述信息进行模糊搜索,确定出至少一个目标绘本信息,解决了绘本朗读点播时操作复杂,需要熟记绘本名称的问题。即使在点播绘本输入信息不明确的情况下,也能简单快速的完成目标绘本的点播,提高了用户的使用体验。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。