CN108959163B - 有声电子书的字幕显示方法、电子设备及计算机存储介质 - Google Patents

有声电子书的字幕显示方法、电子设备及计算机存储介质 Download PDF

Info

Publication number
CN108959163B
CN108959163B CN201810687631.3A CN201810687631A CN108959163B CN 108959163 B CN108959163 B CN 108959163B CN 201810687631 A CN201810687631 A CN 201810687631A CN 108959163 B CN108959163 B CN 108959163B
Authority
CN
China
Prior art keywords
text
audio
electronic book
check set
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810687631.3A
Other languages
English (en)
Other versions
CN108959163A (zh
Inventor
黄鑫霞
文思远
姜山
殷祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201810687631.3A priority Critical patent/CN108959163B/zh
Publication of CN108959163A publication Critical patent/CN108959163A/zh
Application granted granted Critical
Publication of CN108959163B publication Critical patent/CN108959163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/025Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application
    • G06F15/0291Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators adapted to a specific application for reading, e.g. e-books
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种有声电子书的字幕显示方法、电子设备及计算机存储介质,该方法包括:对有声电子书的音频进行语音转文本处理,得到与有声电子书的音频相对应的转换文本,确定音频与转换文本之间的第一对应关系;获取与有声电子书的音频对应的标准文本;根据标准文本对转换文本进行校验;根据校验结果以及音频与转换文本之间的第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系;根据音频与有声电子书的字幕文本之间的第二对应关系,在有声电子书的播放过程中显示与播放内容相对应的字幕信息。根据本发明提供的方案,能够在有声电子书播放的过程中,为其添加与音频相对应的字幕,从而使用户在收听电子书的过程中能够查看字幕以更好地理解该电子书,提升了用户体验。

Description

有声电子书的字幕显示方法、电子设备及计算机存储介质
技术领域
本发明涉及计算机领域,具体涉及一种有声电子书的字幕显示方法、电子设备及计算机存储介质。
背景技术
随着科技的发展,越来越多的电子书被转换为有声电子书以供读者收听。通过有声电子书,用户不需要观看、直接听取便可获知书中的内容,因此更加的直观、方便、快捷,基于上述优势,有声电子书日益受到读者的喜爱。
但是,发明人在实现本发明的过程中发现,由于电子书大多篇幅较长,因此在播放的过程中往往缺少字幕,当观众听不清或者听不懂书中读的内容时,由于缺少字幕便不能很好地理解书中读的内容,这样给用户造成了很多麻烦,导致用户体验不高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的有声电子书的字幕显示方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种有声电子书的字幕显示方法,包括:对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息。
根据本发明提供的有声电子书的字幕显示方法、电子设备及计算机存储介质,通过转换得到与有声电子书相对应的转换文本,确定音频与转换文本之间的第一对应关系,并根据电子书文本对转换文本进行校验,从而根据校验结果以及上述第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系,进而根据上述第二对应关系,在有声电子书的播放过程中显示与播放内容相对应的字幕信息。根据该方法,能够在有声电子书播放的过程中,为其添加与音频相对应的字幕,从而使用户在收听电子书的过程中能够查看字幕以更好地理解该电子书,提升了用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的有声电子书的字幕显示方法的流程图;
图2示出了本发明另一个实施例提供的有声电子书的字幕显示方法的流程图;
图3示出了根据本发明另一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本发明一个实施例提供的有声电子书的字幕显示方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:对有声电子书的音频进行语音转文本处理,得到与有声电子书的音频相对应的转换文本,确定音频与转换文本之间的第一对应关系。
其中,该转换文本可以包括文字文本还可以包括拼音文本,还可以是两者的结合体。其中,为了更加精确地确定音频与转换文本之间的转换关系,上述音频与转换文本之间的第一对应关系包括:音频中的各个时间单元与转换文本中的各个文本单元之间的对应关系。其中,各个时间单元包括但不限于以下中的至少一个:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元;各个文本单元包括但不限于以下中的至少一个:以文本行、文本段、句子、词汇、和/或字为文本单位的文本单元。上述各个时间单元和文本单元可以自由组合,本领域技术人员可以根据获取与有声电子书的音频相对应的转换文本时的识别精度、转换精度以及准确度来自行选择。通过实施该步骤可以将有声电子书的音频转换为转换文本,并且确定音频与转换文本之间的映射关系,即第一对应关系。
步骤S120:获取与有声电子书的音频对应的标准文本;根据标准文本对转换文本进行校验。
其中,与有声电子书的音频对应的标准文本即为有声电子书对应的电子书文本。当转换文本为文字文本时,在根据标准文本对转换文本进行校验时,可以根据有声电子书对应的电子书的文本内容直接对转换文本的文本内容进行校验,比如根据电子书文本的各个文字对与其在转换文本中相对应的每个文字一一进行校验。在校验的过程中,若电子书文本以及转换文本的篇幅较长时,可以从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从电子书对应的电子书文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合,并将第一校验集合中的各个第一文本块分别与第二校验集合中的各个第二文本块进行比对,根据比对结果对第一校验集合中的各个第一文本块进行校验,从而使校验更加的方便易行,使校验结果更加的准确。其中,文本块可以为字、词、或短语构成的基本文本单位。当电子书文本以及转换文本的篇幅较短时,可以直接根据电子书文本对转换文本进行校验。可选地,还可以根据电子书文本对电子书文本与转换文本之间的对应关系进行校验,从而确定电子书文本与转换文本之间的对应关系,比如确定电子书文本中的每个文字和在转换文本中与之相对应的各个文字之间的映射关系。
可选地,当转换文本包括拼音文本时,可以确定电子书文本中的各个文本所对应的拼音,然后根据各个文本所对应的拼音对拼音文本进行校验。可选地,在对拼音文本进行校验之后,还可以根据电子书文本将上述拼音文本转换为文字文本,本领域技术人员可以根据实际情况灵活地选择是否将拼音文本转换为文字文本。
步骤S130:根据校验结果以及音频与转换文本之间的第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系。
其中,上述第二对应关系可以包括音频中的各个时间单元与字幕文本中的各个文本单元之间的对应关系。具体地,上述字幕文本可以根据转换文本得到,还可以根据电子书文本(即标准文本)得到。当上述字幕文本根据转换文本获取时,在执行本步骤时,可以根据校验后的转换文本以及音频与转换文本之间的第一对应关系,从而确定音频与校验后的转换本文之间的对应关系,进而确定音频与有声电子书的字幕文本之间的第二对应关系。可选地,当上述字幕文本根据电子书文本获取时,在执行本步骤时,可以根据标准文本确定有声电子书的字幕文本;然后根据校验结果确定转换文本与有声电子书的字幕文本之间的第三对应关系,从而根据音频与转换文本之间的第一对应关系以及转换文本与有声电子书的字幕文本之间的第三对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系。
步骤S140:根据音频与有声电子书的字幕文本之间的第二对应关系,在有声电子书的播放过程中显示与播放内容相对应的字幕信息。
其中,在有声电子书的播放过程中,上述字幕信息可以以小窗口的形式显示或者显示在电子书的整个播放界面上,还可以以其它的方式显示与播放内容相对应的字幕信息,此处不予以限制。
根据本实施例提供的有声电子书的字幕显示方法,通过获取与有声电子书相对应的转换文本,确定音频与转换文本之间的第一对应关系,并根据电子书文本对转换文本进行校验,从而根据校验结果以及上述第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系,进而根据上述第二对应关系,在有声电子书的播放过程中显示与播放内容相对应的字幕信息。根据该方法,能够在有声电子书播放的过程中,为其添加与音频相对应的字幕,从而使用户在收听电子书的过程中能够查看字幕以更好地理解该电子书,提升了用户体验。
图2示出了本发明另一个实施例提供的有声电子书的字幕显示方法的流程图。如图2所示,该方法包括以下步骤:
步骤S210:对有声电子书的音频进行语音转文本处理,得到与有声电子书的音频相对应的转换文本,确定音频与转换文本之间的第一对应关系。
其中,该转换文本可以包括文字文本还可以包括拼音文本,还可以是两者的结合体。若转换文本为拼音文本,将有声电子书的音频转换为相对应的转换文本时可以不用考虑多音字等问题,则音频转换为文本时的转换的速度更高。具体地,获取与有声电子书的音频相对应的转换文本时可以对有声电子书的音频进行语音识别,为了进一步提高将音频转换为文本的转换效率以及正确率,还可以结合预设的转换词汇库确定与有声电子书的音频相对应的转换文本;其中上述转换词汇库包括但不限于人名库、和/或地名库。这样,当音频中出现不常见的人名或者地名时,可以直接根据预设的转换词汇库存储的不常见名词来确定与上述不常见的人名或者地名相对应的转换文本,从而减小失误率。进一步地,为了更加有针对性地对各类有声电子书的音频中的不常见或者特定词汇进行转换,提高转换效率,还可以将上述预设的转换词汇库进一步划分为多个分别对应于不同主题的主题库,比如针对武侠类的有声电子书,可以设置武侠类主题库,该武侠类主题库中可以设置比如郭靖、黄蓉、武当山等转换词汇;又比如针对言情类的有声电子书,可以设置言情类主题库,该言情类主题库中可以设置比如琼瑶剧中的人名、地名等转换词汇。则在结合预设的转换词汇库确定与有声电子书的音频相对应的转换文本时还可以进一步根据上述有声电子书的主题,确定与有声电子书相对应的主题库;并且结合主题库确定与有声电子书的音频相对应的转换文本,从而进一步提高了将有声电子书的音频转换为转换文本的效率以及准确率。
具体地,其中,音频与转换文本之间的第一对应关系包括:音频中的各个时间单元与转换文本中的各个文本单元之间的对应关系,其中,上述时间单元包括但不限于以下中的至少一个:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元;上述文本单元包括但不限于以下中的至少一个:以文本行、文本段、句子、词汇、和/或字为文本单位的文本单元。具体地,可以根据将音频转换为转换文本时的识别精度以及转换精度,来确定音频与转换文本之间的第一对应关系。如果识别精度较高并且想要达到较高的转换精度则可以确定音频中的各个较小时间单位的时间单元与转换文本中的各个较小文本单位的文本单元之间的对应关系。比如上述第一对应关系可以为根据时间戳确定的以毫秒为时间单位的各个时间单元与转换文本中的以字为文本单位的各个文本单元之间的对应关系;相对应地,如果识别精度较低且对转换精度要求较低,则可以确定音频中根据时间戳确定的各个较大时间单位的时间单元与转换文本中的各个较大的文本单位的文本单元之间的对应关系,比如上述第一对应关系还可以为根据时间戳确定的以小时为时间单位的各个时间单元与转换文本中的以段为文本单位的各个文本单元之间的对应关系,除了上述对应关系外,还可以为其他的对应关系,具体可以根据将音频转换为转换文本的识别粒度、预先想要达到的转换精度来确定,本领域技术人员可以根据实际情况来自行选择。
步骤S220:从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合。
当转换文本的篇幅较长,则在对比以及校验的时候较为麻烦,通过执行该步骤可以将转换文本不断地进行拆分并加入到第一校验集合,并且将标准文本不断地进行拆分并加入到第二校验集合,这样减小了每次进行对比和校验的文本量,从而使校验方式更加的灵活方便,并且增大了校验的准确率。
具体地,从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合时可以每当从转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后,将转换文本中已提取的第一文本块标记为第一已提取文本,并将转换文本中与第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置,以便下一次从第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合,以更新第一校验集合的内容。其中,当转换文本是横向排列的文本时,上述第一预设顺序可以是横向排列的顺序,当转换文本是纵向排列的文本时,上述第一预设顺序可以是纵向排列的顺序,当转换文本按照其它的顺序排列时,上述第一预设顺序还可以是其它形式的排列顺序。并且,上述第一预设数量可以由本领域技术人员根据实际情况灵活地设定为任意数量,此处不予以限制。比如针对横向排列的转换文本中的片段“当这个花朵绽开时,拇指姑娘便出生了,她生活得非常幸福,可是有一天”,可以依次提取“当这个花朵绽开时”作为各个第一文本块加入第一校验集合,并且将“当这个花朵绽开时”标记为第一已提取文本,并将“时”和“,”之间的位置标记为第一待提取初始位置,以便下一次从该位置后的文本“,拇指姑娘便出生了,她生活得非常幸福,可是有一天”中继续提取第一预设数量的第一文本块加入第一校验集合,从而更新第一校验集合的内容。相对应地,从标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合时可以每当从电子书文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后,将电子书文本中已提取的第二文本块标记为第二已提取文本,并将电子书文本中与第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置,以便下一次从第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合,以更新第二校验集合的内容。其中,当标准文本是横向排列的文本时,上述第二预设顺序可以是横向排列的顺序,当标准文本是纵向排列的文本时,上述第二预设顺序可以是纵向排列的顺序,当标准文本按照其它的顺序排列时,上述第二预设顺序还可以是其它形式的排列顺序。并且,上述第二预设数量和第一预设数量是相对应的数量,上述第二预设数量也可以由本领域技术人员根据实际情况灵活地设定为任意数量,此处不予以限制。
通过上述方式来提取第一文本块加入第一校验集合,提取第二文本块加入第二校验结合,这样可以连续地对第一校验集合以及第二校验集合进行不断地更新,直至将整个转换文本加入到第一校验集合,将整个电子书文本加入到第二校验集合,以完成整本书的对比以及校验,从而可以减少将第一文本块加入第一校验集合以及将第二文本块加入到第二校验集合的失误率,避免了重复或者遗漏地将文本加入到校验集合的情况。
步骤S230:将第一校验集合中的各个第一文本块分别与第二校验集合中的各个第二文本块进行比对,根据比对结果对第一校验集合中的各个第一文本块进行校验。
具体地,分别将第一校验集合中的各个第一文本块与第二校验集合中的各个第二文本块逐一进行比对,根据比对结果确定第一校验集合中包含的至少一个第一匹配文本组以及第二校验集合中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组;根据第二校验集合中与至少一个第二匹配文本组相邻的第二非匹配文本,对第一校验集合中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验。其中,第二校验集合中与至少一个第二匹配文本组相邻的第二非匹配文本可以是与至少一个第二匹配文本左边相邻或者右边相邻的第二非匹配文本,上述第一校验集合中与至少一个第一匹配文本组相邻的第一非匹配文本可以是与至少一个第一匹配文本组左边相邻或者右边相邻的第一非匹配文本。
具体地,根据比对结果确定第一校验集合中包含的至少一个第一匹配文本组以及第二校验集合中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组时,为了更加准确地确定第一匹配文本组以及第二匹配文本组,当第一校验集合与第二校验集合中连续匹配的文本个数大于预设阈值时,根据该连续匹配的多个文本确定第一校验集合中的第一匹配文本组以及第二校验集合中的第二匹配文本组;并根据第一校验集合与第二校验集合中不匹配的文本确定第一校验集合中的第一非匹配文本以及第二校验集合中的第二非匹配文本。其中预设阈值可以为3个、5个或者其它数量的文本数,具体的数值可以由本领域技术人员根据实际场景灵活设定。由此可见,第一匹配文本组和/或第二匹配文本组是指:由连续N个相互匹配的文本块构成的一个文本组,其中,N为大于1的自然数,具体数值由本领域技术人员灵活设定。也就是说,只有在连续N个文本块的匹配结果均为成功时,才将其确定为一个匹配文本组,若只有小于N个文本块匹配,则无法作为匹配文本组,以防止偶发性匹配。相应地,第一校验集合与第二校验集合中不匹配的文本是指:除第一匹配文本组以及第二匹配文本组之外的文本,也就是非连续匹配的文本。也就是说,将第一校验集合中除第一匹配文本组之外的其他文本块确定为第一校验集合中的第一非匹配文本;将第二校验集合中除第二匹配文本组之外的其他文本块确定为第二校验集合中的第二非匹配文本。实质上,第一非匹配文本与第二非匹配文本中可能存在少部分匹配成功的文本,但是,由于匹配成功的文本不连续或连续数量小于N而将其归为非匹配文本。通过预先设置上述阈值,可以更加准确地确定第一匹配文本组以及第二匹配文本组,减少了实际不匹配却由于其他情况导致的一两个字的偶发性匹配的问题,从而提高了确定精度,并且能够更加精确地以确定的第一匹配文字组以及第二匹配文字组为基准来确定第一非匹配文字组以及第二非匹配文字组。总之,由于匹配文本组的正确性是毋庸置疑的,因此,利用匹配文本组作为基准去校验其余的非匹配文本,能够提升校验准确性。
具体地,根据第二校验集合中与至少一个第二匹配文本组相邻的第二非匹配文本,对第一校验集合中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验时可以根据第二非匹配文本对第一非匹配文本进行校验并且修正,从而使第一非匹配文本修正为第一匹配文本。可选地,还可以确定第一非匹配文本与第二非匹配文本之间的关系,从而可以根据第一非匹配文本与第二非匹配文本之间的关系,来确定有声电子书的音频与第二非匹配文本之间的关系。
除了根据上述步骤S220~S230来实现根据标准文本对转换文本进行校验外,可选地,当转换文本包括拼音文本时,则可以确定电子书文本中的各个文本对应的拼音,根据上述各个文本所对应的拼音对上述拼音文本进行校验。具体地,还可以将拼音文本转换为文字,然后进行校验,总之,本发明对具体实现细节不做限定。
步骤S240:根据校验结果以及音频与转换文本之间的第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系。
具体地,在执行本步骤时可以根据下述两种方式来实现,其中,方式一:当字幕文本为根据电子书文本(即标准文本)确定的文本,则可以根据标准文本确定有声电子书的字幕文本(例如可以直接将标准文本作为字幕文本);并根据校验结果确定转换文本与有声电子书的字幕文本之间的第三对应关系,从而根据音频与转换文本之间的第一对应关系以及转换文本与有声电子书的字幕文本之间的第三对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系。其中,上述转换文本与有声电子书的字幕文本之间的第三对应关系包括:转换文本中的各个文本单元与有声电子书的字幕文本中的各个文本单元之间的对应关系。方式二:当字幕文本为根据转换文本确定的文本,则可以根据校验结果对转换文本进行修正,根据修正后的转换文本确定有声电子书的字幕文本;并根据音频与转换文本之间的第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系。在执行该步骤时,本领域技术人员可以根据实际情况选择上述两种方式中的任一种,还可以将两种方式相互结合来使用,此处不予以限制。
步骤S250:根据音频与有声电子书的字幕文本之间的第二对应关系,在有声电子书的播放过程中显示与播放内容相对应的字幕信息。
关于本步骤的详细内容可以参考步骤S140中的内容,此处不再赘述。
根据本实施例提供的有声电子书的字幕显示方法,通过获取与有声电子书的音频相对应的转换文本,确定音频与转换文本之间的第一对应关系,并且从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合,从而将第一校验集合中的各个第一文本块分别与第二校验集合中的各个第二文本块进行比对,根据比对结果对第一校验集合中的各个第一文本块进行校验,这样当转换文本的篇幅较长时,可以减小每次进行校验时的文本量,以使校验更加的灵活,提高了校验的效率;然后根据校验结果以及音频与转换文本之间的第一对应关系,确定音频与有声电子书的字幕文本之间的第二对应关系,从而根据音频与有声电子书的字幕文本之间的第二对应关系,在有声电子书的播放过程中显示与播放内容相对应的字幕信息。根据该方法,能够在有声电子书播放的过程中,为其添加与音频相对应的字幕,从而使用户在收听电子书的过程中能够查看字幕以更好地理解该电子书,提升了用户体验。
在本发明中还可以对实施例二中的方案进行各种改变和变形,比如当转换文本的篇幅比较短时,可以不执行步骤S220来将转换文本拆分并添加至第一校验集合中,并且将标准文本拆分并添加至第二校验集合中,而是可以直接分别将转换文本中的各个文本与电子书文本中的各个文本进行比对,根据比对结果确定转换文本中包含的至少一个第一匹配文本组以及电子书文本中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组;并根据电子书文本中与至少一个第二匹配文本组相邻的第二非匹配文本,对转换文本中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验。这样当文本篇幅较短时,减少了从转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合的工作量,从而更加的灵活易行。
本申请另一实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的有声电子书的字幕显示方法。
可执行指令具体可以用于使得处理器执行以下操作:
判断对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;
获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;
根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;
根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从所述标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合;
将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对,根据比对结果对所述第一校验集合中的各个第一文本块进行校验。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后,将所述转换文本中已提取的第一文本块标记为第一已提取文本,并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置,以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合,以更新所述第一校验集合的内容;
可执行指令进一步使处理器执行以下操作:
每当从所述电子书文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后,将所述电子书文本中已提取的第二文本块标记为第二已提取文本,并将所述电子书文本中与所述第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置,以便下一次从所述第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合,以更新所述第二校验集合的内容。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对,根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组;
根据所述第二校验集合中与所述至少一个第二匹配文本组相邻的第二非匹配文本,对所述第一校验集合中与所述至少一个第一匹配文本组相邻的第一非匹配文本进行校验。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时,根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组;
并根据所述第一校验集合与所述第二校验集合中不匹配的文本确定所述第一校验集合中的第一非匹配文本以及所述第二校验集合中的第二非匹配文本。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:确定所述电子书文本中的各个文本所对应的拼音,根据所述各个文本所对应的拼音对所述拼音文本进行校验。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
对所述有声电子书的音频进行语音识别,并结合预设的转换词汇库确定与所述有声电子书的音频相对应的转换文本;
其中,所述转换词汇库包括:人名库、和/或地名库。
在一种可选方式中,其中,所述预设的转换词汇库进一步包括:多个分别对应于不同主题的主题库;
则可执行指令进一步使处理器执行以下操作:根据所述有声电子书的主题,确定与所述有声电子书相对应的主题库;
结合所述主题库确定与所述有声电子书的音频相对应的转换文本。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
根据所述标准文本确定所述有声电子书的字幕文本;
根据所述校验结果确定所述转换文本与所述有声电子书的字幕文本之间的第三对应关系;
根据所述音频与所述转换文本之间的第一对应关系以及所述转换文本与所述有声电子书的字幕文本之间的第三对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:根据校验结果对所述转换文本进行修正,根据修正后的转换文本确定所述有声电子书的字幕文本;
根据所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系。
在一种可选方式中,其中,所述音频与所述转换文本之间的第一对应关系包括:所述音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系;
且所述音频与所述有声电子书的字幕文本之间的第二对应关系包括:所述音频中的各个时间单元与所述字幕文本中的各个文本单元之间的对应关系;
其中,所述时间单元包括:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元;所述文本单元包括:以文本行、文本段、句子、词汇、和/或字为文本单位的文本单元。
图3示出了根据本发明另一个实施例提供的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述有声电子书的字幕显示方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;
获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;
根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;
根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从所述标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合;
将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对,根据比对结果对所述第一校验集合中的各个第一文本块进行校验。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后,将所述转换文本中已提取的第一文本块标记为第一已提取文本,并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置,以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合,以更新所述第一校验集合的内容;
每当从所述电子书文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后,将所述电子书文本中已提取的第二文本块标记为第二已提取文本,并将所述电子书文本中与所述第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置,以便下一次从所述第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合,以更新所述第二校验集合的内容。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对,根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组;
根据所述第二校验集合中与所述至少一个第二匹配文本组相邻的第二非匹配文本,对所述第一校验集合中与所述至少一个第一匹配文本组相邻的第一非匹配文本进行校验。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时,根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组;
并根据所述第一校验集合与所述第二校验集合中不匹配的文本确定所述第一校验集合中的第一非匹配文本以及所述第二校验集合中的第二非匹配文本。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:确定所述电子书文本中的各个文本所对应的拼音,根据所述各个文本所对应的拼音对所述拼音文本进行校验。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:
对所述有声电子书的音频进行语音识别,并结合预设的转换词汇库确定与所述有声电子书的音频相对应的转换文本;
其中,所述转换词汇库包括:人名库、和/或地名库。
在一种可选方式中,其中,所述预设的转换词汇库进一步包括:多个分别对应于不同主题的主题库;
则程序310进一步使得处理器302执行以下操作:根据所述有声电子书的主题,确定与所述有声电子书相对应的主题库;
结合所述主题库确定与所述有声电子书的音频相对应的转换文本。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:根据所述标准文本确定所述有声电子书的字幕文本;
根据所述校验结果确定所述转换文本与所述有声电子书的字幕文本之间的第三对应关系;
根据所述音频与所述转换文本之间的第一对应关系以及所述转换文本与所述有声电子书的字幕文本之间的第三对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系。
在一种可选的方式中,程序310进一步使得处理器302执行以下操作:根据校验结果对所述转换文本进行修正,根据修正后的转换文本确定所述有声电子书的字幕文本;
根据所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系。
在一种可选方式中,其中,所述音频与所述转换文本之间的第一对应关系包括:所述音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系;
且所述音频与所述有声电子书的字幕文本之间的第二对应关系包括:所述音频中的各个时间单元与所述字幕文本中的各个文本单元之间的对应关系;
其中,所述时间单元包括:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元;所述文本单元包括:以文本行、文本段、句子、词汇、和/或字为文本单位的文本单元。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (27)

1.一种有声电子书的字幕显示方法,包括:
对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;
获取与所述有声电子书的音频对应的标准文本;
根据所述标准文本对所述转换文本进行校验;其中,分别将转换文本中的各个文本与标准文本中的各个文本进行比对,根据比对结果确定转换文本中包含的至少一个第一匹配文本组以及标准文本中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组;并根据标准文本中与至少一个第二匹配文本组相邻的第二非匹配文本,对转换文本中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验;其中,第一匹配文本组和第二匹配文本组是由连续N个相互匹配的文本块构成的一个文本组,其中,N为大于1的自然数;
根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;其中,根据校验结果对所述转换文本进行修正,根据修正后的转换文本确定所述有声电子书的字幕文本;根据所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;
根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息;其中,根据校验结果对所述转换文本进行修正,且所述字幕文本根据修正后的转换文本确定;
其中,所述音频与所述转换文本之间的第一对应关系包括:所述音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系;且所述音频与所述有声电子书的字幕文本之间的第二对应关系包括:所述音频中的各个时间单元与所述字幕文本中的各个文本单元之间的对应关系;且所述文本单元包括:以词汇、和/或字为文本单位的文本单元。
2.根据权利要求1所述的方法,其中,所述获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验的步骤具体包括:
从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从所述标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合;
将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对,根据比对结果对所述第一校验集合中的各个第一文本块进行校验。
3.根据权利要求2所述的方法,其中,所述从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合的步骤具体包括:
每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后,将所述转换文本中已提取的第一文本块标记为第一已提取文本,并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置,以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合,以更新所述第一校验集合的内容;
所述从所述标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合的步骤具体包括:
每当从所述标准文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后,将所述标准文本中已提取的第二文本块标记为第二已提取文本,并将所述标准文本中与所述第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置,以便下一次从所述第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合,以更新所述第二校验集合的内容。
4.根据权利要求2或3所述的方法,其中,所述将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对,根据比对结果对所述第一校验集合进行校验的步骤具体包括:
分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对,根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组;
根据所述第二校验集合中与所述至少一个第二匹配文本组相邻的第二非匹配文本,对所述第一校验集合中与所述至少一个第一匹配文本组相邻的第一非匹配文本进行校验。
5.根据权利要求4所述的方法,其中,所述根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组的步骤具体包括:
当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时,根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组;
并根据所述第一校验集合与所述第二校验集合中不匹配的文本确定所述第一校验集合中的第一非匹配文本以及所述第二校验集合中的第二非匹配文本。
6.根据权利要求1-3任一所述的方法,其中,所述转换文本包括拼音文本,则所述获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验的步骤具体包括:
确定所述标准文本中的各个文本所对应的拼音,根据所述各个文本所对应的拼音对所述拼音文本进行校验。
7.根据权利要求1-3任一所述的方法,其中,所述对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本的步骤具体包括:
对所述有声电子书的音频进行语音识别,并结合预设的转换词汇库确定与所述有声电子书的音频相对应的转换文本;
其中,所述转换词汇库包括:人名库、和/或地名库。
8.根据权利要求7所述的方法,其中,所述预设的转换词汇库进一步包括:多个分别对应于不同主题的主题库;
则所述结合预设的转换词汇库确定与所述有声电子书的音频相对应的转换文本的步骤具体包括:
根据所述有声电子书的主题,确定与所述有声电子书相对应的主题库;
结合所述主题库确定与所述有声电子书的音频相对应的转换文本。
9.根据权利要求1-3任一所述的方法,其中,所述时间单元包括:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元。
10.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;
获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;其中,分别将转换文本中的各个文本与标准文本中的各个文本进行比对,根据比对结果确定转换文本中包含的至少一个第一匹配文本组以及标准文本中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组;并根据标准文本中与至少一个第二匹配文本组相邻的第二非匹配文本,对转换文本中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验;其中,第一匹配文本组和第二匹配文本组是由连续N个相互匹配的文本块构成的一个文本组,其中,N为大于1的自然数;
根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;其中,根据校验结果对所述转换文本进行修正,根据修正后的转换文本确定所述有声电子书的字幕文本;根据所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;
根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息;其中,根据校验结果对所述转换文本进行修正,且所述字幕文本根据修正后的转换文本确定;
其中,所述音频与所述转换文本之间的第一对应关系包括:所述音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系;且所述音频与所述有声电子书的字幕文本之间的第二对应关系包括:所述音频中的各个时间单元与所述字幕文本中的各个文本单元之间的对应关系;且所述文本单元包括:以词汇、和/或字为文本单位的文本单元。
11.根据权利要求10所述的电子设备,其中,所述可执行指令还使所述处理器执行以下操作:
从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从所述标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合;
将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对,根据比对结果对所述第一校验集合中的各个第一文本块进行校验。
12.根据权利要求11所述的电子设备,其中,所述可执行指令还使所述处理器执行以下操作:
每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后,将所述转换文本中已提取的第一文本块标记为第一已提取文本,并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置,以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合,以更新所述第一校验集合的内容;
所述可执行指令还使所述处理器执行以下操作:
每当从所述标准文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后,将所述标准文本中已提取的第二文本块标记为第二已提取文本,并将所述标准文本中与所述第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置,以便下一次从所述第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合,以更新所述第二校验集合的内容。
13.根据权利要求11或12所述的电子设备,其中,所述可执行指令还使所述处理器执行以下操作:
分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对,根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组;
根据所述第二校验集合中与所述至少一个第二匹配文本组相邻的第二非匹配文本,对所述第一校验集合中与所述至少一个第一匹配文本组相邻的第一非匹配文本进行校验。
14.根据权利要求13所述的电子设备,其中,所述可执行指令还使所述处理器执行以下操作:
当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时,根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组;
并根据所述第一校验集合与所述第二校验集合中不匹配的文本确定所述第一校验集合中的第一非匹配文本以及所述第二校验集合中的第二非匹配文本。
15.根据权利要求10-12任一所述的电子设备,其中,所述转换文本包括拼音文本,所述可执行指令还使所述处理器执行以下操作:
确定所述标准文本中的各个文本所对应的拼音,根据所述各个文本所对应的拼音对所述拼音文本进行校验。
16.根据权利要求10-12任一所述的电子设备,其中,所述可执行指令还使所述处理器执行以下操作:
对所述有声电子书的音频进行语音识别,并结合预设的转换词汇库确定与所述有声电子书的音频相对应的转换文本;
其中,所述转换词汇库包括:人名库、和/或地名库。
17.根据权利要求16所述的电子设备,其中,所述预设的转换词汇库进一步包括:多个分别对应于不同主题的主题库;
则所述可执行指令还使所述处理器执行以下操作:
根据所述有声电子书的主题,确定与所述有声电子书相对应的主题库;
结合所述主题库确定与所述有声电子书的音频相对应的转换文本。
18.根据权利要求10-12任一所述的电子设备,其中,所述时间单元包括:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元。
19.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:对有声电子书的音频进行语音转文本处理,得到与所述有声电子书的音频相对应的转换文本,确定所述音频与所述转换文本之间的第一对应关系;
获取与所述有声电子书的音频对应的标准文本;根据所述标准文本对所述转换文本进行校验;其中,分别将转换文本中的各个文本与标准文本中的各个文本进行比对,根据比对结果确定转换文本中包含的至少一个第一匹配文本组以及标准文本中包含的与至少一个第一匹配文本组相对应的至少一个第二匹配文本组;并根据标准文本中与至少一个第二匹配文本组相邻的第二非匹配文本,对转换文本中与至少一个第一匹配文本组相邻的第一非匹配文本进行校验;其中,第一匹配文本组和第二匹配文本组是由连续N个相互匹配的文本块构成的一个文本组,其中,N为大于1的自然数;
根据校验结果以及所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;其中,根据校验结果对所述转换文本进行修正,根据修正后的转换文本确定所述有声电子书的字幕文本;根据所述音频与所述转换文本之间的第一对应关系,确定所述音频与所述有声电子书的字幕文本之间的第二对应关系;
根据所述音频与所述有声电子书的字幕文本之间的第二对应关系,在所述有声电子书的播放过程中显示与播放内容相对应的字幕信息;其中,根据校验结果对所述转换文本进行修正,且所述字幕文本根据修正后的转换文本确定;
其中,所述音频与所述转换文本之间的第一对应关系包括:所述音频中的各个时间单元与所述转换文本中的各个文本单元之间的对应关系;且所述音频与所述有声电子书的字幕文本之间的第二对应关系包括:所述音频中的各个时间单元与所述字幕文本中的各个文本单元之间的对应关系;且所述文本单元包括:以词汇、和/或字为文本单位的文本单元。
20.根据权利要求19所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
从所述转换文本中按第一预设顺序依次提取第一预设数量的第一文本块加入第一校验集合,并从所述标准文本中按第二预设顺序依次提取第二预设数量的第二文本块加入第二校验集合;
将所述第一校验集合中的各个第一文本块分别与所述第二校验集合中的各个第二文本块进行比对,根据比对结果对所述第一校验集合中的各个第一文本块进行校验。
21.根据权利要求20所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
每当从所述转换文本中按第一预设顺序提取第一预设数量的第一文本块加入第一校验集合后,将所述转换文本中已提取的第一文本块标记为第一已提取文本,并将所述转换文本中与所述第一已提取文本相对应的下一个文本所处的位置标记为第一待提取初始位置,以便下一次从所述第一待提取初始位置提取第一预设数量的第一文本块加入第一校验集合,以更新所述第一校验集合的内容;
所述可执行指令还使所述处理器执行以下操作:每当从所述标准文本中按第二预设顺序提取第二预设数量的第二文本块加入第二校验集合后,将所述标准文本中已提取的第二文本块标记为第二已提取文本,并将所述标准文本中与所述第二已提取文本相对应的下一个文本所处的位置标记为第二待提取初始位置,以便下一次从所述第二待提取初始位置提取第二预设数量的第二文本块加入第二校验集合,以更新所述第二校验集合的内容。
22.根据权利要求20或21所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
分别将所述第一校验集合中的各个第一文本块与所述第二校验集合中的各个第二文本块进行比对,根据比对结果确定所述第一校验集合中包含的至少一个第一匹配文本组以及所述第二校验集合中包含的与所述至少一个第一匹配文本组相对应的至少一个第二匹配文本组;
根据所述第二校验集合中与所述至少一个第二匹配文本组相邻的第二非匹配文本,对所述第一校验集合中与所述至少一个第一匹配文本组相邻的第一非匹配文本进行校验。
23.根据权利要求22所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
当所述第一校验集合与所述第二校验集合中连续匹配的文本个数大于预设阈值时,根据该连续匹配的多个文本确定所述第一校验集合中的第一匹配文本组以及所述第二校验集合中的第二匹配文本组;
并根据所述第一校验集合与所述第二校验集合中不匹配的文本确定所述第一校验集合中的第一非匹配文本以及所述第二校验集合中的第二非匹配文本。
24.根据权利要求19-21任一所述的计算机存储介质,其中,所述转换文本包括拼音文本,所述可执行指令还使所述处理器执行以下操作:
确定所述标准文本中的各个文本所对应的拼音,根据所述各个文本所对应的拼音对所述拼音文本进行校验。
25.根据权利要求19-21任一所述的计算机存储介质,其中,所述可执行指令还使所述处理器执行以下操作:
对所述有声电子书的音频进行语音识别,并结合预设的转换词汇库确定与所述有声电子书的音频相对应的转换文本;
其中,所述转换词汇库包括:人名库、和/或地名库。
26.根据权利要求25所述的计算机存储介质,其中,所述预设的转换词汇库进一步包括:多个分别对应于不同主题的主题库;
则所述可执行指令还使所述处理器执行以下操作:
根据所述有声电子书的主题,确定与所述有声电子书相对应的主题库;
结合所述主题库确定与所述有声电子书的音频相对应的转换文本。
27.根据权利要求19-21任一所述的计算机存储介质,其中,所述时间单元包括:根据时间戳确定的以毫秒、秒、分钟、和/或小时为时间单位的时间单元。
CN201810687631.3A 2018-06-28 2018-06-28 有声电子书的字幕显示方法、电子设备及计算机存储介质 Active CN108959163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810687631.3A CN108959163B (zh) 2018-06-28 2018-06-28 有声电子书的字幕显示方法、电子设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810687631.3A CN108959163B (zh) 2018-06-28 2018-06-28 有声电子书的字幕显示方法、电子设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN108959163A CN108959163A (zh) 2018-12-07
CN108959163B true CN108959163B (zh) 2020-01-21

Family

ID=64487502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810687631.3A Active CN108959163B (zh) 2018-06-28 2018-06-28 有声电子书的字幕显示方法、电子设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN108959163B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333918A (zh) * 2020-09-27 2022-04-12 广州市久邦数码科技有限公司 一种有声读物字幕匹配方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395352A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 基于声纹的身份识别方法及装置
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN108170669A (zh) * 2017-12-02 2018-06-15 深圳供电局有限公司 一种电力调度网络发令方法、系统及其语音识别校验单元模块
CN108184135A (zh) * 2017-12-28 2018-06-19 泰康保险集团股份有限公司 字幕生成方法及装置、存储介质及电子终端

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747434B2 (en) * 2000-10-24 2010-06-29 Speech Conversion Technologies, Inc. Integrated speech recognition, closed captioning, and translation system and method
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
CN101808202B (zh) * 2009-02-18 2013-09-04 联想(北京)有限公司 实现影音文件中声音与字幕同步的方法、设备和计算机
US8843368B2 (en) * 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
CN202601001U (zh) * 2012-06-27 2012-12-12 杨大华 儿童自学有声电子书
CN102801925A (zh) * 2012-08-08 2012-11-28 无锡天脉聚源传媒科技有限公司 一种字幕加配的方法及装置
CN104599693B (zh) * 2015-01-29 2018-07-13 语联网(武汉)信息技术有限公司 台词同步字幕的制作方法
CN105245917B (zh) * 2015-09-28 2018-05-04 徐信 一种多媒体语音字幕生成的系统和方法
CN105302908B (zh) * 2015-11-02 2020-06-26 北京奇虎科技有限公司 电子书相关有声音频资源推荐方法和装置
CN105931641B (zh) * 2016-05-25 2020-11-10 腾讯科技(深圳)有限公司 字幕数据生成方法和装置
CN106816151B (zh) * 2016-12-19 2020-07-28 广东小天才科技有限公司 一种字幕对准方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107395352A (zh) * 2016-05-16 2017-11-24 腾讯科技(深圳)有限公司 基于声纹的身份识别方法及装置
CN108170669A (zh) * 2017-12-02 2018-06-15 深圳供电局有限公司 一种电力调度网络发令方法、系统及其语音识别校验单元模块
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN108184135A (zh) * 2017-12-28 2018-06-19 泰康保险集团股份有限公司 字幕生成方法及装置、存储介质及电子终端

Also Published As

Publication number Publication date
CN108959163A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN107622054B (zh) 文本数据的纠错方法及装置
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
US7676373B2 (en) Displaying text of speech in synchronization with the speech
CN103714048B (zh) 用于校正文本的方法和系统
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN110085261A (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
US20150120282A1 (en) Preserving emotion of user input
CN110136747A (zh) 一种评价语音音素正确性的方法、装置、设备及存储介质
CN108877764B (zh) 有声电子书的音频合成方法、电子设备及计算机存储介质
CN111613212A (zh) 语音识别方法、系统、电子设备和存储介质
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN108877782A (zh) 语音识别方法和装置
CN109102824B (zh) 基于人机交互的语音纠错方法和装置
CN110750996B (zh) 多媒体信息的生成方法、装置及可读存储介质
CN112818089B (zh) 文本注音方法、电子设备及存储介质
CN114390220B (zh) 一种动画视频生成方法及相关装置
CN109166569B (zh) 音素误标注的检测方法和装置
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
CN108959163B (zh) 有声电子书的字幕显示方法、电子设备及计算机存储介质
CN111710328A (zh) 语音识别模型的训练样本选取方法、装置及介质
CN110097874A (zh) 一种发音纠正方法、装置、设备以及存储介质
CN112133309B (zh) 音频和文本的同步方法、计算设备及存储介质
CN112309429A (zh) 一种失爆检测方法、装置、设备及计算机可读存储介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant