CN115101057A - 图像的语音标注及使用方法与装置、电子装置及存储介质 - Google Patents

图像的语音标注及使用方法与装置、电子装置及存储介质 Download PDF

Info

Publication number
CN115101057A
CN115101057A CN202110235765.3A CN202110235765A CN115101057A CN 115101057 A CN115101057 A CN 115101057A CN 202110235765 A CN202110235765 A CN 202110235765A CN 115101057 A CN115101057 A CN 115101057A
Authority
CN
China
Prior art keywords
voice
image
label
voice information
annotated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110235765.3A
Other languages
English (en)
Inventor
彭映
刘昱玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110235765.3A priority Critical patent/CN115101057A/zh
Priority to PCT/CN2021/140547 priority patent/WO2022183814A1/zh
Publication of CN115101057A publication Critical patent/CN115101057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施方式提供一种图像的语音标注及使用方法、图像的语音标注及使用装置、电子装置及非易失性计算机可读存储介质。本申请实施方式的图像的语音标注及使用方法包括:获取待标注图像;根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;关联所述语音标注标签及所述语音信息;及保存所述已标注图像及所述语音信息。本申请的图像的语音标注及使用方法中,通过输入语音信息实现对待标注图像的语音标注,提升图像标注的效率。

Description

图像的语音标注及使用方法与装置、电子装置及存储介质
技术领域
本申请涉及图像处理技术领域,更具体而言,涉及一种图像的语音标注及使用方法、图像的语音标注及使用装置、电子装置及非易失性计算机可读存储介质。
背景技术
随着技术的发展,手机、平板电脑、电脑等电子装置成为人们获取外界信息的工具,当需要将一些重要的信息保留下来时,往往会通过图像的方式保存下来,并对图像进行信息标注,以方便再次查看图像时快速获取图像的重要信息。但当前的图像标注方式仅能通过文字、画笔等进行,标注效率较低。
发明内容
本申请实施方式提供一种图像的语音标注及使用方法、图像的语音标注及使用装置、电子装置及非易失性计算机可读存储介质。
本申请实施方式的图像的语音标注及使用方法包括:获取待标注图像;根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;关联所述语音标注标签及所述语音信息;及保存所述已标注图像及所述语音信息。
本申请实施方式的图像的语音标注及使用装置包括:获取模块、生成模块、关联模块及存储模块。获取模块用于获取待标注图像;生成模块用于根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;关联模块用于关联所述语音标注标签及所述语音信息;及存储模块用于保存所述已标注图像及所述语音信息。
本申请实施方式的电子装置包括:一个或多个处理器及存储器。一个或多个所述处理器用于获取待标注图像;根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;及关联所述语音标注标签及所述语音信息。所述存储器用于保存所述已标注图像及所述语音信息。
本申请实施方式的非易失性计算机可读存储介质包含有计算机程序。当计算机程序被一个或多个处理器执行时,使得处理器实现如下图像的语音标注及使用方法:获取待标注图像;根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;关联所述语音标注标签及所述语音信息;及保存所述已标注图像及所述语音信息。
本申请实施方式的图像的语音标注及使用方法、图像的语音标注及使用装置、电子装置及非易失性计算机可读存储介质中,通过输入语音信息实现对待标注图像的语音标注,相较于文字、画笔等标注方式,提升了图像标注的效率。
本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的图像的语音标注及使用方法的流程示意图;
图2是本申请某些实施方式的图像的语音标注及使用方法的待标注图像执行语音标注的示意图;
图3是本申请某些实施方式的图像的语音标注及使用方法的已标注图像的示意图;
图4是本申请某些实施方式的图像的语音标注及使用装置的结构示意图;
图5是本申请某些实施方式的电子装置的结构示意图;
图6至图14是本申请某些实施方式的图像的语音标注及使用方法的流程示意图;
图15是本申请某些实施方式的图像的语音标注及使用方法对超出显示区的已标注图像的语音标注使用的示意图;
图16是本申请某些实施方式的非易失性计算机可读存储介质与处理器的连接示意图。
具体实施方式
下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
请参阅图1至图3,本申请实施方式提供一种图像的语音标注及使用方法,该图像的语音标注及使用方法包括:
01:获取待标注图像P1;
02:根据输入的语音信息及待标注图像P1生成已标注图像P2,已标注图像P2包括语音标注标签V,语音标注标签V显示于待标注图像P1中;
03:关联语音标注标签V及语音信息;及
04:保存已标注图像P2及语音信息。
请结合图4,本申请实施方式提供一种图像的语音标注及使用装置10。图像的语音标注及使用装置10包括获取模块11、生成模块12、关联模块13及存储模块14。本申请实施方式的图像的语音标注及使用方法可应用于图像的语音标注及使用装置10中,其中,获取模块11、生成模块12、关联模块13及存储模块14分别用于执行01、02、03及04中的方法。即,获取模块11用于获取待标注图像P1;生成模块12用于根据输入的语音信息及待标注图像P1生成已标注图像P2,已标注图像P2包括语音标注标签V,语音标注标签V显示于待标注图像P1中;关联模块13用于关联语音标注标签V及语音信息;及存储模块14用于保存已标注图像P2及语音信息。
请结合图5,本申请实施方式提供一种电子装置100。电子装置100包括一个或多个处理器30及存储器50。本实施申请方式的图像的语音标注及使用方法可应用于电子装置100中,其中,一个或多个处理器30用于执行01、02和03中的方法,存储器50用于执行04中的方法。即,一个或多个处理器30用于:获取待标注图像P1;根据输入的语音信息及待标注图像P1生成已标注图像P2,已标注图像P2包括语音标注标签V,语音标注标签V显示于待标注图像P1中;关联语音标注标签V及语音信息。存储器50用于保存已标注图像P2及语音信息。
随着手机、平板电脑、电脑等电子装置的发展,这些装置逐渐成为人们获取外界信息的重要工具,当需要将一些重要的信息保留下来时,往往会通过图像的方式保存下来,并对保存下来的图像进行信息标注,例如对图像中的文字符号信息进行相关说明或理解、对图像拍摄日期进行标注、对图像进行信息更正等,以方便再次查看图像时能够快速获取图像中重要信息。但当前的图像标注方式仅能通过文字、画笔等进行,标注效率较低。本申请的图像的语音标注及使用方法,通过输入语音信息实现对待标注图像P1的语音标注,相较于传统的文字、画笔等标注方式,提升了图像标注的效率。
请参阅图4及图5,具体地,电子装置100可以是手机、笔记本电脑、智能手表、电脑等终端设备,图像的语音标注及使用装置10可以是安装在电子装置100中的应用程序,例如,截图、相册等应用程序;还可以是某些应用程序中的某一功能模块,例如图像编辑功能;本申请仅以电子装置100是手机为例进行说明,电子装置100是其他类型的终端时的情形与手机类似,不详细展开说明。
在一个实施例中,获取模块11或一个或多个处理器30获取待标注图像P1可通过拍摄的方式获取一张图像作为待标注图像P1。在另一个实施例中,获取模块11或一个或多个处理器30获取待标注图像P1可从电子装置100中的相册中获取一张图像作为待标注图像P1。在再一个实施例中,获取模块11或一个或多个处理器30获取待标注图像P1可通过电子装置100截图的方式获取一张图像作为待标注图像P1。当然,获取模块11或一个或多个处理器30获取待标注图像P1还可以是其他方式,在此不做限制。
请结合图2,在进入待标注图像P1的语音标注界面后,长按录音标签L进行录音以输入语音信息,松手后录音结束,完成语音信息的输入。生成模块12或一个或多个处理器30根据输入的语音信息及获取的待标注图像P1生成已标注图像P2,已标注图像P2中包括语音标注标签V,语音标注标签V显示于待标注图像P1中,具体地,语音标注标签V的初始显示位置可以为待标注图像P1的底部位置。关联模块13或一个或多个处理器30将输入的语音信息关联语音标注标签V,其中,用户可通过录音标签L一次或多次输入语音信息,每一次输入语音信息便关联一个语音标注标签V,如此,已标注图像P2中可包括多个语音标注标签V,以实现对待标注图像P1多语音标注功能。待完成语音标注后,存储模块14或存储器50保存已标注图像P2和标注的语音信息,以便于再次查看已标注图像P2时,可收听已标注图像P2中的语音信息。本申请的图像的语音标注及使用方法中,通过录入语音信息实现对待标注图像P1的信息标注,相较于通过文字、画笔等标注方式,提升图像标注的效率。
在本申请的实施例中,图像的语音标注及使用装置10还可实现对待标注图像P1进行文字、画笔标注。例如,在执行文字标注功能时,用户可通过录音的方式输入语音信息,生成模块12或一个或多个处理器30根据输入的语音信息转换成文字信息显示在待标注图像P1中,以生成已标注图像P2。或者,用户直接输入文字信息实现对待标注图像P1的文字标注。再例如,在执行画笔标注功能时,用户可通过录音的方式输入语音信息,生成模块12或一个或多个处理器30根据输入的语音信息转换成图画信息显示在待标注图像P1中,以生成已标注图像P2。或者,用户直接输入图画信息(在待标注图像P1中画画)实现对待标注图像P1的画笔标注。即,本申请实施方式的图像的语音标注及使用装置10既能够实现对待标注图像P1的语音标注功能,还能实现对待标注图像P1的文字、画笔标注功能,应用场景更加多样,为用户提供了更多标注的选择。
请参阅图2及图6,在某些实施方式中,02:根据输入的语音信息及待标注图像P1生成已标注图像P2,包括:
021:根据语音信息生成语音标注标签;及
023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2。
请结合图4,生成模块12还用于执行021及023中的方法,即,生成模块12还用于根据语音信息生成语音标注标签;及控制在待标注图像P1中显示语音标注标签V,以生成已标注图像P2。
请结合图5,一个或多个处理器30还用于执行021及023中的方法,即,一个或多个处理器30还用于根据语音信息生成语音标注标签;及控制在待标注图像P1中显示语音标注标签V,以生成已标注图像P2。
在一个实施例中,获取得到待标注图像P1后,用户通过录音的方式实现语音信息的录入,具体地,用户通过生成模块12或一个或多个处理器30根据输入的语音信息生成对应的语音标注标签V,相应的,用户每录入一个语音信息,生成模块12或一个或多个处理器30生成与输入的语音信息对应的语音标注标签,同时,生成模块12或一个或多个处理器30控制相应的语音标注标签V在待标注图像P1中显示,以生成已标注图像P2,保证用户再次查看已标注图像P2时,能够快速了解到已标注图像P2中标注的语音信息。如果已标注图像P2中没有显示与输入的语音信息关联的语音标注标签V,用户在输入语音信息完成之后,无法确定待标注图像P1中是否成功录入相关的语音信息;或者当用户再次查看已标注图像P2时,如果已标注图像P2中没有显示与输入的语音信息关联的语音标注标签V,用户无法确定已标注图像P2中是否存在标注的语音信息,从而导致出现用户需要对待标注图像P1进行二次语音标注的现象,图像标注的效率较低。本申请的图像的语音标注及使用方法中,生成模块12或一个或多个处理器30根据输入的语音信息生成对应的语音标注标签V,并控制语音标注标签V显示在待标注图像P1中,从而生成已标注图像P2,方便用户确认语音信息是否成功录入,且方便用户再次查看已标注图像P2时快速了解到已标注图像P2中标注的语音信息,提升图像标注的效率。
请参阅图2及图7,在某些实施方式中,023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2,包括:
0231:在待标注图像P1中显示语音标注标签V;及
0233:对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个。
请结合图4,生成模块12还用于执行0231及0233中的方法,即,生成模块12还用于:控制在待标注图像P1中显示语音标注标签V;及对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个。
请结合图5,一个或多个处理器30还用于执行021及023中的方法,即,一个或多个处理器30还用于:控制在待标注图像P1中显示语音标注标签V;及对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个。
进一步地,用户通过长按录音标签L进行录音,松手后录音结束并完成语音信息的输入,生成模块12或一个或多个处理器30根据输入的语音信息控制在待标注图像P1中显示相应的语音标注标签V,此时,用户可对录音结束的语音标注标签V进行播放、删除、拖拽中的至少一个。例如,用户对录音结束的语音标注标签V进行播放,此时,语音标注标签V显示图标的动画以播放关联的语音信息,方便用户试听录入的语音信息,判断录入的语音信息是否准确、声音是否清晰等;再例如,用户对录音结束的语音标注标签V进行删除,通过单击选中预删除的语音标注标签V,此时,语音标注标签V出现删除的图标,点击删除图像即可删除该语音标签;又例如,用户对录音结束的语音标注标签V进行拖拽以将该语音标注标签V放置在待标注图像P1中的适应的位置显示,具体地,用户可通过长按语音标注标签V进行拖拽。如,待标注图像P1中有文字信息,当需要对待标注图像P1中的某一行文字或词语进行标注时,在对该行文字或词语进行语音信息输入后,可将关联该语音信息的语音标注标签V拖拽到该行文字或词语附近,以生成已标注图像P2,当用户再次查看已标注图像P2时,可快速了解该语音标注标签关联的语音信息标注的相关信息。还例如,用户对录音结束的语音标注标签V进行播放、拖拽处理,或者对录音结束的语音标注标签V进行播放、删除处理,或者对录音结束的语音标注标签V进行拖拽、删除处理,或者对录音结束的语音标注标签V进行播放、拖拽、删除处理,具体的处理根据实际情况执行,在此不作限制。
请参阅图2及图8,在某些实施方式中,02:根据输入的语音信息及待标注图像P1生成已标注图像P2,还可包括:
021:根据语音信息生成语音标注标签;
023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2;及
025:对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个。
请结合图4,生成模块12还用于执行021、023及025中的方法,即,生成模块12还用于根据语音信息生成语音标注标签;控制在待标注图像P1中显示语音标注标签V;及对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个。
请结合图5,一个或多个处理器30还用于执行021、023及025中的方法,即,一个或多个处理器30还用于根据语音信息生成语音标注标签;控制在待标注图像P1中显示语音标注标签V;及对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个。
在另一个实施例中,用户通过长按录音标签L进行录音,松手后录音结束并完成语音信息的输入,生成模块12或一个或多个处理器30根据输入的语音信息生成语音标注标签V,并控制在待标注图像P1中显示相应的语音标注标签V,以生成已标注图像P2。此时,用户可根据实际情况对语音标注标签V进行播放、删除、拖拽处理中的至少一个,具体实施方式如同上述,在此不再赘述。在用户对语音标注标签V的处理工作完成后,生成模块12或一个或多个处理器30实时更新已标注图像P2,以保证已标注图像P2中的语音标注标签V与经过处理后的语音标注标签V对应。
请参阅图3及图9,在某些实施方式中,04:保存已标注图像P2及语音信息,包括:
041:将已标注图像P2及语音信息保存为一个视频文件。
请结合图4,存储模块14还用于执行041中的方法,即,存储模块14还用于将已标注图像P2及语音信息保存为一个视频文件。
请结合图5,存储器50还用于执行041中的方法,即,存储器50还用于将已标注图像P2及语音信息保存为一个视频文件。
在一个实施例中,存储模块14或存储器50将关联后的语音信息及已标注图像P2(包括关联语音信息的语音标注标签V)经过后期处理以视频文件的格式(如MPEG格式、AVI格式、nAVI格式、ASF格式、MOV格式、WMV格式等)合并保存到电子装置100中,以一个文件的格式将已标注图像P2和语音信息保存到电子装置100中,可节省电子装置100的存储空间,同时,再次调用已标注图像P2及语音信息时操作简单。例如,存储模块15或存储器50将语音信息及已标注图像P2通过视频封装的格式保存为MPEG格式(Moving Picture ExpertsGroup,运动图像专家组格式),当用户查看已标注图像P2和相关的语音信息时仅需通过一个视频文件便可查看已标注图像P2中的语音信息。
请参阅图3及图10,在某些实施方式中,图像的语音标注及使用方法还可包括:
05:播放已标注图像P2及语音信息。
请结合图4,本申请实施方式的图像的语音标注及使用装置10还可包括播放模块15,播放模块15还用于执行05中的方法,即,播放模块15还用于播放已标注图像P2及语音信息。
请结合图5,本申请实施方式的电子装置100还可包括显示器70及扬声器90,其中,显示器70和扬声器90用于执行05中的方法。即,显示器70用于显示已标注图像P2,扬声器90用于播放语音信息。
本申请的实施例中,存储模块14或存储器50将语音信息及已标注图像P2保存为一个视频文件的格式,用户再次查看该语音信息及已标注图像P2时,可通过播放模块15或显示器70、扬声器90查看已标注图像P2及语音信息。具体地,播放模块15播放视频时,播放已标注图像P2中的语音信息,实现图像标注的有声记录及播放;或者,显示器70显示视频中的已标注图像P2(包括语音标注标签V),扬声器90播放视频中(已标注图像P2)中的语音信息。
请参阅图3及图11,在某些实施方式中,语音标注标签V包括多个,多个语音标注标签V具有预定的播放顺序,方法05:播放已标注图像P2及语音信息,包括:
051:按照播放顺序播放与语音标注标签V关联的语音信息。
请结合图4,播放模块15还用于执行051中的方法,即,播放模块15还用于按照播放顺序播放与语音标注标签V关联的语音信息。
请结合图5,扬声器90还用于执行051中的方法。即,扬声器90还用于按照播放顺序播放与语音标注标签V关联的语音信息。
具体地,一个或多个处理器30控制生成的多个语音标注标签V具有预定的播放顺序,当播放模块15或扬声器90播放语音标注标签V关联的语音信息时,按照预定的播放顺序播放与语音标注标签V关联的语音信息,保证已标注图像P2中的语音信息有序播放。
在一个实施例中,一个或多个处理器30可设定语音标注标签V的播放顺序与语音标注标签V的位置关联,例如,多个语音标注标签V如图3所示的位置显示,当用户播放已标注图像P2及语音信息合并保存得到的视频时,语音标注标签V的播放顺序可以是从上到下依次播放,即,视频播放时,依次播放语音时长为34s、65s、25s的语音信息;又例如,当用户播放已标注图像P2及语音信息合并保存得到的视频时,语音标注标签V的播放顺序可以是从下到上依次播放,即,视频播放时,依次播放语音时长为25s、65s、34s的语音信息;再例如,当用户播放已标注图像P2及语音信息合并保存得到的视频时,语音标注标签V的播放顺序可以是从左到右依次播放,即,视频播放时,依次播放语音时长为65s、34s、25s的语音信息;还例如,当用户播放已标注图像P2及语音信息合并保存得到的视频时,语音标注标签V的播放顺序可以是从左到右依次播放,即,视频播放时,依次播放语音时长为25s、34s、65s的语音信息。
在另一个实施例中,一个或多个处理器30可设定语音标注标签V的播放顺序与语音标注标签V生成时间关联,即,在用户对待标注图像P1每输入一次语音信息标注图像时,一个或多个处理器30记录相应的语音信息的录入时间,按照录入的时间按时间先后顺序排序,例如,图3所示的语音标注标签V中,三个语音标注标签V按时间先后顺序排序得到的序列是25s、65s、34s的语音信息序列。当用户播放已标注图像P2及语音信息合并保存得到的视频时,语音标注标签V的播放顺序为依次播放25s、65s、34s的语音信息;或者语音标注标签V的播放顺序为亿次播放34s、64s、25s的语音信息。
在又一个实施例中,一个或多个处理器30可设定语音标注标签V的播放顺序与视频的时间轴关联,在将已标注图像(包括语音标注标签V)及语音信息合成视频时,不同时长的语音信息会合成到视频的不同时段,当用户播放已标注图像P2及语音信息合并保存得到的视频时,一个或多个处理器30检测播放中的视频是否存在语音信息,当处于播放时刻的时段存在语音信息时,一个或多个处理器30控制播放模块15或扬声器90播放对应时段的语音信息,直至视频播放结束。此方式播放视频的同时即可自动播放视频中的语音信息,实现方式简单。
上述的视频保存格式实现将已标注图像P2及语音信息通过一个文件存储到电子装置100中,实现已标注图像P2及语音信息的播放方式简单。
请参阅图3及图12,在某些实施方式中,方法04:保存已标注图像P2及语音信息,还可包括:
043:将已标注图像P2保存为第一格式文件;
045:将语音信息保存为第二格式文件;及
047:将第一格式文件与第二格式文件分别保存。
请结合图4,存储模块14还用于执行043、045及047中的方法,即,存储模块14还用于:将已标注图像P2保存为第一格式文件;将语音信息保存为第二格式文件;及将第一格式文件与第二格式文件分别保存。
请结合图5,存储器50还用于执行041中的方法,即,存储器50还用于:将已标注图像P2保存为第一格式文件;将语音信息保存为第二格式文件;及将第一格式文件与第二格式文件分别保存。
在本申请的实施例中,已标注图像P2及语音信息的保存方式还可以是将已标注图像P2及语音信息分开保存,即,存储模块14或存储器50将已标注图像P2以图像格式(如JPEG格式、RAW格式、PNG格式、GIF格式、PDF格式等)保存,将语音信息以音频格式(如MPEG格式、MPEG-4格式、MP3格式、WMA格式、FLAC格式等)保存,一个或多个处理器30将保存后的两个文件进行关联,保证播放已标注图像P2及语音信息时,播放的语音信息为对该图像所标注的语音信息。此保存方式无需对已标注图像P2及语音信息进行后续处理,存储方式简单。
请参阅图3及图13,在某些实施方式中,图像的语音标注及使用方法还可包括:
06:触发语音标注标签V以播放与语音标注标签V关联的语音信息。
请结合图4,播放模块15还用于执行06中的方法,即,播放模块15还用于根据触发的语音标注标签V播放与语音标注标签V关联的语音信息。
请结合图5,扬声器90还用于执行06中的方法,即,扬声器90还用于根据触发的语音标注标签V播放与语音标注标签V关联的语音信息。
进一步的,当已标注图像P2及语音信息以分开保存的方式保存时,通过设计实现触发语音标注标签V时播放与该语音标注标签V关联的语音信息。具体地,如图3所示的已标注图像P2及语音标注标签V,用户可点击已标注图像P2中的任一个语音标注标签V,播放模块15或扬声器90播放与该语音标注标签V关联的语音信息,保证用户可选择性地收听已标注图像P2中的语音信息。
请参阅图14及图15,在某些实施方式中,在已标注图像P2超出显示区40时,图像的语音标注及使用方法还可包括:
07:播放与显示区40内的语音标注标签V关联的语音信息;
08:在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及
09:播放与进入显示区40内的语音标注标签V关联的语音信息。
请结合图4,播放模块15还用于执行07、08及09中的方法,即,播放模块15还用于:播放与显示区40内的语音标注标签V关联的语音信息;在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及播放与进入显示区40内的语音标注标签V关联的语音信息。
请结合图5,扬声器90还用于执行06中的方法,即,扬声器90还用于:在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及播放与进入显示区40内的语音标注标签V关联的语音信息。
实际情况中,获取模块11或一个或多个处理器30获取得到的待标注图像P1为长图,如拍照中全景模式得到的长图、通过滚动截图得到长图,显示区40正常显示为长图的待标注图像P1时,无法显示图像中的全部信息。如图15所示,当用户播放已标注图像P2及语音信息时,已标注图像P2超出显示区40,播放已标注图像P2中的语音信息时,先播放在显示区40内的语音标注标签V关联的语音信息,在播放完显示区40内的语音标注标签V关联的语音信息后,一个或多个处理器30控制已标注图像P2自动从上到下滚动显示未显示的图像信息,未显示的图像进入显示区40后,一个或多个处理器30检测进入显示区的图像中是否存在语音标注标签V,若存在语音标注标签V,则控制播放模块15或扬声器90播放与进入显示区40内的语音标注标签V关联的语音信息。其中,播放方式适用上述的视频播放和触发播放,在此不再赘述。
请参阅图16,本申请实施方式还提供一种包含计算机程序201的非易失性计算机可读存储介质200。当计算机程序201被一个或多个处理器30执行时,使得处理器30执行01、02、021、023、0231、0233、025、03、04、041、043、045、047、05、051、06、07、08、09中的方法。
请结合图1及图2,例如,当计算机程序201被一个或多个处理器30执行时,使得处理器30执行以下方法:
01:获取待标注图像P1;
02:根据输入的语音信息及待标注图像P1生成已标注图像P2,已标注图像P2包括语音标注标签V,语音标注标签V显示于待标注图像P1中;
03:关联语音标注标签V及语音信息;及
04:保存已标注图像P2及语音信息。
又例如,当计算机程序201被一个或多个处理器30执行时,使得处理器30执行以下方法:
01:获取待标注图像P1;
021:根据语音信息生成语音标注标签;
023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2;
025:对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个;
03:关联语音标注标签V及语音信息;
041:将已标注图像P2及语音信息保存为一个视频文件;
051:按照播放顺序播放与语音标注标签V关联的语音信息;
07:播放与显示区40内的语音标注标签V关联的语音信息;
08:在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及
09:播放与进入显示区40内的语音标注标签V关联的语音信息。
再例如,当计算机程序201被一个或多个处理器30执行时,使得处理器30执行以下方法:
01:获取待标注图像P1;
021:根据语音信息生成语音标注标签;
023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2;
03:关联语音标注标签V及语音信息;
043:将已标注图像P2保存为第一格式文件;
045:将语音信息保存为第二格式文件;
047:将第一格式文件与第二格式文件分别保存;
051:按照播放顺序播放与语音标注标签V关联的语音信息;
07:播放与显示区40内的语音标注标签V关联的语音信息;
08:在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及
09:播放与进入显示区40内的语音标注标签V关联的语音信息。
还例如,当计算机程序201被一个或多个处理器30执行时,使得处理器30执行以下方法:
01:获取待标注图像P1;
021:根据语音信息生成语音标注标签;
023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2;
025:对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个;
03:关联语音标注标签V及语音信息;
041:将已标注图像P2及语音信息保存为一个视频文件;
06:触发语音标注标签V以播放与语音标注标签V关联的语音信息。
07:播放与显示区40内的语音标注标签V关联的语音信息;
08:在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及
09:播放与进入显示区40内的语音标注标签V关联的语音信息。
还例如,当计算机程序201被一个或多个处理器30执行时,使得处理器30执行以下方法:
01:获取待标注图像P1;
021:根据语音信息生成语音标注标签;
023:在待标注图像P1中显示语音标注标签V,以生成已标注图像P2;
025:对语音标注标签V进行处理,以生成已标注图像P2,处理包括播放、删除、拖拽中的至少一个;
03:关联语音标注标签V及语音信息;
043:将已标注图像P2保存为第一格式文件;
045:将语音信息保存为第二格式文件;
047:将第一格式文件与第二格式文件分别保存;
06:触发语音标注标签V以播放与语音标注标签V关联的语音信息。
07:播放与显示区40内的语音标注标签V关联的语音信息;
08:在播放完与显示区40内的语音标注标签V关联的语音信息后,滚动显示已标注图像P2以使未播放的语音标注标签V进入显示区40;及
09:播放与进入显示区40内的语音标注标签V关联的语音信息。
在本说明书的描述中,参考术语“某些实施方式”、“一个例子中”、“示例地”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (18)

1.一种图像的语音标注及使用方法,其特征在于,包括:
获取待标注图像;
根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;
关联所述语音标注标签及所述语音信息;及
保存所述已标注图像及所述语音信息。
2.根据权利要求1所述的图像的语音标注及使用方法,其特征在于,所述根据输入的语音信息及所述待标注图像生成已标注图像,包括:
根据所述语音信息生成语音标注标签;及
在所述待标注图像中显示所述语音标注标签,以生成所述已标注图像。
3.根据权利要求1所述的图像的语音标注及使用方法,其特征在于,所述根据输入的语音信息及所述待标注图像生成已标注图像,包括:
根据所述语音信息生成语音标注标签;
在所述待标注图像中显示所述语音标注标签;及
对所述语音标注标签进行处理,以生成所述已标注图像,所述处理包括播放、删除、拖拽中的至少一个。
4.根据权利要求1所述的图像的语音标注及使用方法,其特征在于,所述保存所述已标注图像及所述语音信息,包括:
将所述已标注图像及所述语音信息保存为一个视频文件。
5.根据权利要求4所述的图像的语音标注及使用方法,其特征在于,还包括:
播放所述已标注图像及所述语音信息。
6.根据权利要求5所述的图像的语音标注及使用方法,其特征在于,所述语音标注标签为多个,多个所述语音标注标签具有预定的播放顺序,所述播放所述已标注图像及所述语音信息包括:
按照所述播放顺序播放与所述语音标注标签关联的所述语音信息。
7.根据权利要求1所述的图像的语音标注及使用方法,其特征在于,所述保存所述已标注图像及所述语音信息,包括:
将所述已标注图像保存为第一格式文件;
将所述语音信息保存为第二格式文件;及
将所述第一格式文件与所述第二格式文件分别保存。
8.根据权利要求7所述的图像的语音标注及使用方法,其特征在于,还包括:
触发所述语音标注标签以播放与所述语音标注标签关联的所述语音信息。
9.一种图像的语音标注及使用装置,其特征在于,包括:
获取模块,用于获取待标注图像;
生成模块,用于根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;
关联模块,用于关联所述语音标注标签及所述语音信息;及
存储模块,用于保存所述已标注图像及所述语音信息。
10.一种电子装置,其特征在于,包括:
一个或多个处理器,一个或多个所述处理器用于获取待标注图像;根据输入的语音信息及所述待标注图像生成已标注图像,所述已标注图像包括语音标注标签,所述语音标注标签显示于所述待标注图像中;及关联所述语音标注标签及所述语音信息;及
存储器,所述存储器用于保存所述已标注图像及所述语音信息。
11.根据权利要求10所述的电子装置,其特征在于,一个或多个所述处理器还用于:
根据所述语音信息生成语音标注标签;
控制在所述待标注图像中显示所述语音标注标签,以生成所述已标注图像。
12.根据权利要求10所述的电子装置,其特征在于,一个或多个所述处理器还用于:
根据所述语音信息生成语音标注标签;
控制在所述待标注图像中显示所述语音标注标签;及
对所述语音标注标签进行处理,以生成所述已标注图像,所述处理包括播放、删除、拖拽中的至少一个。
13.根据权利要求10所述的电子装置,其特征在于,所述存储器还用于将所述已标注图像及所述语音信息保存为一个视频文件。
14.根据权利要求10所述的电子装置,其特征在于,还包括显示器和扬声器,所述显示器用于显示所述已标注图像,所述扬声器用于播放所述语音信息。
15.根据权利要求14所述的电子装置,其特征在于,所述语音标注标签为多个,多个所述语音标注标签具有预定的播放顺序,所述扬声器还用于按照所述播放顺序播放与所述语音标注标签关联的所述语音信息。
16.根据权利要求10所述的电子装置,其特征在于,所述存储器还用于:
将所述已标注图像保存为第一格式文件;
将所述语音信息保存为第二格式文件;及
将所述第一格式文件与所述第二格式文件分别保存。
17.根据权利要求16所述的电子装置,其特征在于,所述扬声器还用于根据触发的所述语音标注标签播放与所述语音标注标签关联的所述语音信息。
18.一种存储有计算机程序的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现权利要求1至8任意一项所述的图像的语音标注及使用方法。
CN202110235765.3A 2021-03-03 2021-03-03 图像的语音标注及使用方法与装置、电子装置及存储介质 Pending CN115101057A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110235765.3A CN115101057A (zh) 2021-03-03 2021-03-03 图像的语音标注及使用方法与装置、电子装置及存储介质
PCT/CN2021/140547 WO2022183814A1 (zh) 2021-03-03 2021-12-22 图像的语音标注及使用方法与装置、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110235765.3A CN115101057A (zh) 2021-03-03 2021-03-03 图像的语音标注及使用方法与装置、电子装置及存储介质

Publications (1)

Publication Number Publication Date
CN115101057A true CN115101057A (zh) 2022-09-23

Family

ID=83155001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110235765.3A Pending CN115101057A (zh) 2021-03-03 2021-03-03 图像的语音标注及使用方法与装置、电子装置及存储介质

Country Status (2)

Country Link
CN (1) CN115101057A (zh)
WO (1) WO2022183814A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0129787D0 (en) * 2001-12-13 2002-01-30 Hewlett Packard Co Method and system for collecting user-interest information regarding a picture
JP6893606B2 (ja) * 2017-03-20 2021-06-23 達闥机器人有限公司 画像のタグ付け方法、装置及び電子機器
CN108320318B (zh) * 2018-01-15 2023-07-28 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111629156A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 图像特效的触发方法、装置和硬件装置
CN110046271B (zh) * 2019-03-22 2021-06-22 中国科学院西安光学精密机械研究所 一种基于声音指导的遥感图像描述方法
CN111355912A (zh) * 2020-02-17 2020-06-30 江苏济楚信息技术有限公司 一种执法记录方法及系统
CN112383734B (zh) * 2020-10-29 2023-06-23 岭东核电有限公司 视频处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2022183814A1 (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
US11023666B2 (en) Narrative-based media organizing system for transforming and merging graphical representations of digital media within a work area
CN106776514B (zh) 一种批注方法及装置
US8139919B2 (en) Light table editor for video snippets
CN106575361B (zh) 提供视觉声像的方法和实现该方法的电子设备
CN107748615B (zh) 屏幕的控制方法、装置、存储介质及电子设备
US11178356B2 (en) Media message creation with automatic titling
US7103842B2 (en) System, method and program for handling temporally related presentation data
US9449646B2 (en) Methods and systems for media file management
CN113727140A (zh) 音视频处理方法、装置和电子设备
JP4517310B2 (ja) 撮像装置、文字情報関連付け方法及び文字情報関連付けプログラム
EP2711853B1 (en) Methods and systems for media file management
KR101776674B1 (ko) 휴대용 영상 편집 장치 및 그 동작 방법
US20150111189A1 (en) System and method for browsing multimedia file
WO2021098263A1 (zh) 应用程序的分享方法及装置、电子设备、可读介质
WO2023184745A1 (zh) 数据标注方法及装置、电子设备和存储介质
CN115101057A (zh) 图像的语音标注及使用方法与装置、电子装置及存储介质
CN116069211A (zh) 一种录屏处理方法和终端设备
US20140250055A1 (en) Systems and Methods for Associating Metadata With Media Using Metadata Placeholders
JP6142551B2 (ja) 画像編集装置及び画像編集プログラム
WO2022001437A1 (zh) 多媒体文件播放控制方法、装置、终端设备和存储介质
JP6399145B2 (ja) 画像編集装置及び動画像の表示方法
WO2020050055A1 (ja) 文書作成支援装置、文書作成支援システム、及びプログラム
CN118055199A (zh) 视频剪辑方法及装置
CN116909414A (zh) 手写重点识别方法及装置、终端、手写套件和存储介质
TWI510940B (zh) 以語音訊號建立備註資料之影像瀏覽裝置及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination