CN111143595A - 基于语音识别的图片管理方法、系统、介质及设备 - Google Patents

基于语音识别的图片管理方法、系统、介质及设备 Download PDF

Info

Publication number
CN111143595A
CN111143595A CN201911372179.2A CN201911372179A CN111143595A CN 111143595 A CN111143595 A CN 111143595A CN 201911372179 A CN201911372179 A CN 201911372179A CN 111143595 A CN111143595 A CN 111143595A
Authority
CN
China
Prior art keywords
picture
user
voice
receiving
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911372179.2A
Other languages
English (en)
Inventor
时红仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qinggan Intelligent Technology Co Ltd
Original Assignee
Shanghai Qinggan Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qinggan Intelligent Technology Co Ltd filed Critical Shanghai Qinggan Intelligent Technology Co Ltd
Priority to CN201911372179.2A priority Critical patent/CN111143595A/zh
Publication of CN111143595A publication Critical patent/CN111143595A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种基于语音识别的图片管理方法、系统、介质及设备,所述基于语音识别的图片管理方法包括:接收用户的语音指令;识别所述语音指令中的特征词,并将所述特征词作为图片标签;将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性,将所述图片标签的内容以文字形式浮于所述图片上方。本发明可以在不同的应用场景下实现图片的打标签功能,通过多种灵活的方式对图片进行标注,使得图片具有自身属性与识别特征,方便用户后期图片浏览过程中的检索。

Description

基于语音识别的图片管理方法、系统、介质及设备
技术领域
本发明属于图片标注领域,涉及一种对图片进行语音打标签的方法,特别是涉及一种基于语音识别的图片管理方法、系统、介质及设备。
背景技术
随着人工智能技术的发展,用户对多媒体信息的编辑与管理的要求越高,因此,为适应用户在图片美观、图片个性化、图片交互以及图片应用等方面的要求,衍生出很多新的人工智能技术,例如滤镜技术、光线调节技术、拼图技术以及添加表情包和美化图标技术,但尚未与语音智能控制进行关联。其中,语音识别以及语音交互成为一种比较常见的智能控制方式,语音识别多数用于智能控制领域,例如智能家居中各种电器的通断。语音识别及语音控制丰富了人们的生活,从另一方面也给人们提供了更多的情感生活的体验,使得交互的智能性更加贴近人们的精神文化需求。
但是,现有技术中并不存在通过语音识别进行图片标注的智能技术。电子设备给用户带来方便的同时也产生了新的烦恼,例如,用户通过移动设备可随时拍照记录精彩瞬间,但大量的图片存于设备中使得用户浏览特别是寻找特定图片时耗费大量的时间,有时因浏览过量的图片导致用眼疲劳。
因此,如何提供一种基于语音识别的图片管理方法、系统、介质及设备,以解决现有技术无法通过语音识别对图片进行标注以方便后期图片检索等缺陷,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于语音识别的图片管理方法、系统、介质及设备,用于解决现有技术无法通过语音识别对图片进行标注以方便后期图片检索的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种基于语音识别的图片管理方法,包括:接收用户的语音指令;识别所述语音指令中的特征词,并将所述特征词作为图片标签;将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性。
于本发明的一实施例中,所述接收用户的语音指令的步骤包括:通过语音接收装置接收用户的指示语音;所述指示语音是指用户发出的需对图片打标签的命令信息;和/或接收用户的谈话内容;所述谈话内容是指用户与他人交谈的语句信息。
于本发明的一实施例中,所述接收用户的指示语音的步骤包括:在用户拍照之前,接收用户的第一指示语音;和/或在用户拍照的同时,接收用户的第二指示语音;和/或在用户拍照完毕后,接收用户的第三指示语音。
于本发明的一实施例中,所述识别所述语音指令中的特征词,并将所述特征词作为图片标签的步骤包括:将所述语音指令转换为文本内容;通过语义识别算法对所述文本内容进行拆解,以确定所述文本内容的语法解构;从拆解的所述文本内容中提取特征词作为图片标签;所述特征词包括主语、谓语、宾语、定语、状语和/或补语。
于本发明的一实施例中,在所述语音指令转换为文本内容之前,通过对所述语音指令进行声音频率分析来判断用户的语气类型;所述语气类型包括疑问语气和惊叹语气;根据所述语气类型将相应的标点符号加入所述图片标签的文字内容后面。
于本发明的一实施例中,所述将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的分类属性的步骤包括:将所述图片标签的内容以文字形式浮于所述图片上方;判断所述图片标签的显示时间是否超过预设时间,以判断用户是否修改所述图片标签;若是,则确定用户无需修改所述图片标签,将所述图片标签进行隐藏;若否,则确定用户需要修改所述图片标签,接收用户针对所述图片标签的触控指令并显示文字编辑界面。
于本发明的一实施例中,还包括:根据所述图片标签确定所述图片的属性,按照所述属性将所述图片进行分类存储。
本发明另一方面提供一种基于语音识别的图片管理系统,包括:指令接收模块,用于接收用户的语音指令;识别模块,用于识别所述语音指令中的特征词,并将所述特征词作为图片标签;打标签模块,用于将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性。
本发明又一方面提供一种介质,其上存储有计算机程序,该程序被处理器执行时实现所述基于语音识别的图片管理方法。
本发明最后一方面提供一种设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行所述基于语音识别的图片管理方法。
如上所述,本发明所述的基于语音识别的图片管理方法、系统、介质及设备,具有以下有益效果:
可以在用户拍照前、拍照的同时和拍照完毕后不同的应用场景下实现图片的打标签功能,通过多种灵活的方式对图片进行标注,使得图片具有自身属性与识别特征,方便用户后期图片浏览过程中的检索;通过用户语气类型的识别,在不需要用户手动打字的情况下,智能化地给图片添加语气符号,以形成特征鲜明的图片标签。
附图说明
图1显示为本发明的基于语音识别的图片管理方法于一实施例中的应用场景架构图。
图2显示为本发明的基于语音识别的图片管理方法于一实施例中的原理流程图。
图3显示为本发明的基于语音识别的图片管理方法于一实施例中的指令接收流程图。
图4显示为本发明的基于语音识别的图片管理方法于一实施例中的指示语音接收流程图。
图5显示为本发明的基于语音识别的图片管理方法于一实施例中的识别流程图。
图6显示为本发明的基于语音识别的图片管理方法于一实施例中的标签显示流程图。
图7显示为本发明的基于语音识别的图片管理方法于一实施例中的海景图片应用示意图。
图8显示为本发明的基于语音识别的图片管理方法于一实施例中的海景图片标注流程图。
图9显示为本发明的基于语音识别的图片管理系统于一实施例中的结构示意图。
元件标号说明
9 基于语音识别的图片管理系统
91 指令接收模块
92 识别模块
93 打标签模块
S21~S23 步骤
S211~S212 步骤
S211A~S211C 步骤
S221~S223 步骤
S231~S233 步骤
S81~S88 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述基于语音识别的图片管理方法、系统、介质及设备可以在不同的应用场景下实现图片的打标签功能,通过多种灵活的方式对图片进行标注,使得图片具有自身属性与识别特征,方便用户后期图片浏览过程中的检索。
以下将结合图示对本实施例所提供的基于语音识别的图片管理方法、系统、介质及设备进行详细描述。
如图1所示,于一实施例中,所述基于语音识别的图片管理方法应用于移动终端或车机端。当用户通过移动终端拍照前、拍照的同时和浏览图片时均可应用所述基于语音识别的图片管理方法对图片进行语音转文字的标注;当用户通过车机端浏览图片时也可应用所述基于语音识别的图片管理方法对图片进行语音转文字的打标签操作。需要说明的是,所述移动终端包括并不限于智能手机、平板电脑和PDA(Personal Digital Assistant,个人数字助理)。
在具体的应用场景中,用户点击自己喜欢的照片,选择分享到地图应用或者车机应用,系统自动生成基于一段时间比如本周周末,或者某个旅行地点的照片集;用户上车之后,可以在车上看到自己喜欢的照片集和视频,其他人也可以快速的收集这个照片集到自己的移动终端或车机端,以方便下次旅行和生活使用;用户在浏览时候,对照片进行识别,对照片中的人和物进行动态文字标注,用户可以对标注内容通过语音来输入。
如图2所示,于一实施例中,当所述基于语音识别的图片管理方法应用于车机端时,照片应用支持一个公共的分享接口,把照片发送到我的车这个应用;把照片同步到云端,用户上车后自动下载到车机端;云端服务器根据照片携带的地址信息进行分类,根据照片的识别,根据照片内容自动分类,比如风景,食物,人物,物品,建筑等;可以作为一个相册浏览,或者地址进行导航、分享推荐等各种应用;在用户浏览时候,可以方便的通过语音进行文字标注,用户点击这个物品区域,即可实现文字的标注;比如点击之后,用户自定义说“我最爱的球场”、“我最喜欢美食”等;对待标注的图片增加用户的一些文字提示,更加方便用户的输入与特定图片的检索。具体包括以下几个步骤:
S21,接收用户的语音指令。
具体地,在接收用户的语音指令之后或所述语音指令转换为文本内容之前,通过对所述语音指令进行声音频率分析来判断用户的语气类型;所述语气类型包括疑问语气和惊叹语气;根据所述语气类型将相应的标点符号加入所述图片标签的文字内容后面。在具体进行语气类型的识别时,利用语句末音节为不同声调,结合该语句声音特征中的基频、能量及时长的组合进行语气的判断。例如,识别的语气类型为疑问语气时,通过对所述语音指令进行声音频率分析来判断用户的话音延迟,话音延迟表示用户对图片中呈现的内容表示不解或无法用言语表达。
如图3所示,于一实施例中,S21包括:
S211,通过语音接收装置接收用户的指示语音;所述指示语音是指用户发出的需对图片打标签的命令信息。
具体地,当用户具有明确的打标意向时,向所述车机端发出具体的指示语音,例如“开启打标签模式”、“进行图片标签”。于另一实例中,所述车机端进入图片浏览模式后默认接收语音指令,此时的指示语音可以是具体地标签内容,例如“我最爱的球场”、“我最喜欢美食”等。
如图4所示,于一实施例中,S211包括:
S211A,在用户拍照之前,接收用户的第一指示语音。
具体地,在用户拍照之前,用户已经想好对将拍摄的照片进行标注的内容,通过移动设备预设的语音检测及识别功能识别用户拍照之前发出的第一指示语音,例如,“第一次到颐和园”、“两周年聚会”。待照片拍摄完毕之后将预先接收的第一指示语音加入所拍摄的图片中供用户预览。
S211B,在用户拍照的同时,接收用户的第二指示语音。
具体地,在用户拍照的同时,用户有感而发,通过移动设备预设的语音检测及识别功能识别用户拍照同时发出的第二指示语音,例如,“回归母校”、“圣诞的气息”。
S211C,在用户拍照完毕后,接收用户的第三指示语音。
具体地,在用户拍完某张图片进行预览时,需要对该图片进行标注以方便后期快速查找,通过移动设备预设的语音检测及识别功能识别用户拍照同时发出的第三指示语音,例如,“刚做的美甲”、“七夕礼物”。
S212,接收用户的谈话内容;所述谈话内容是指用户与他人交谈的语句信息。
具体地,通过移动终端或车机端在用户与他人谈话时开启图片标注功能,实现针对某图片的无感标注。例如,用户在向同事展示周末带儿子去做陶艺的照片,谈话内容为“周末带儿子去商场做陶艺,虽然小手脏脏的,但他玩得很开心”。若用户谈话内容持续了较长时间,则通过对谈话内容进行语义识别,根据语义识别的内容对该谈话内容进行话题概括,筛选出与当前显示图片匹配的话题内容,以便进行下一步的特征词识别;或预设一谈话时长阈值以设置接收谈话内容的时长限制、一句话说完停顿一定时间后自动停止等。
需要说明的是,步骤S211与S212所接收的内容与技术手段为完全不同的两种技术方案,所述指示语音实现了用户与移动终端或车机端的交互,且用户为打标签的命令发起方;所述谈话内容为用户与他人进行正常谈话时的语音内容,并未与移动终端或车机端交互,且是由移动终端或车机端自行启动语音识别及打标签功能,实现了针对用户谈话所涉及图片的智能、无感标注,在用户并无察觉的情况下,人性化地执行打标签动作。进一步地,开启移动设备预设的语音检测及识别功能后,在用户拍照之前,通过移动设备自动接收用户的第一谈话内容。在用户拍照的同时,通过移动设备自动接收用户的第二谈话内容。在用户拍照完毕后,通过移动设备自动接收用户的第三谈话内容。
更进一步地,在用户拍照之前、拍照的同时以及拍照完毕后三种应用场景也可同理应用于车机端,例如车机端的行车记录仪实时对驾驶路况进行拍照录像,开启车机端预设的语音检测及识别功能后,自动接收用户的谈话内容,实现针对图片与视频的、无感的智能语音标注功能。
S22,识别所述语音指令中的特征词,并将所述特征词作为图片标签。
具体地,所述图片标签用于后期用户的检索时,可以是短语或短句,以突出该图片的特征或属性。所述图片标签除用于后期用户的检索之外,还可以根据图片标签对图片之前的分类形式进行调整。
如图5所示,于一实施例中,S22包括:
S221,将所述语音指令转换为文本内容。
具体地,当接收到“周末带儿子去商场做陶艺,虽然小手脏脏的,但他玩得很开心”谈话内容时,将其相应转换为文字内容。
S222,通过语义识别算法对所述文本内容进行拆解,以确定所述文本内容的语法解构。
具体地,时间状语为“周末”,主语省略,默认为谈话者本人,谓语为“带”,宾语为“儿子”,目的状语为“去商场做陶艺”,让步状语从句为“虽然小手脏脏的,但他玩得很开心”。
S223,从拆解的所述文本内容中提取特征词作为图片标签;所述特征词包括主语、谓语、宾语、定语、状语和/或补语。
具体地,为简化图片标签的内容可筛选出明显携带事件属性的特征词作为图片标签,例如宾语“儿子”和目的状语“去商场做陶艺”。
S23,将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性。
具体地,所述图片标签为“儿子去商场做陶艺”,将“儿子去商场做陶艺”的内容关联至陶艺图片中。
如图6所示,于一实施例中,S23包括:
S231,将所述图片标签的内容以文字形式浮于所述图片上方。
具体地,将“儿子去商场做陶艺”的内容以文字形式浮于所述图片上方。在所述图片标签浮于所述图片上方时,该图片标签通过点击可变为编辑状态,修改内容。
S232,判断所述图片标签的显示时间是否超过预设时间,以判断用户是否修改所述图片标签。
具体地,所述预设时间设为10秒,所述图片标签显示10秒,默认用户已经针对该图片标签预览10秒,以10秒为一阈值,判断用户对此图片标签的修改意向。
S233,若是,则确定用户无需修改所述图片标签,将所述图片标签进行隐藏;若否,则确定用户需要修改所述图片标签,接收用户针对所述图片标签的触控指令并显示文字编辑界面。
具体地,若所述图片标签显示时间达到10秒即将超过10秒,则判断用户无需修改图片标签,将所述图片标签进行隐藏并将图片标签的信息在云端后台进行存储。若所述图片标签显示时间达到10秒之前接收到用户的触控动作,表明用户想通过触控动作生成的触控指令进行图片标签的修改。
于一实施例中,在所述图片标签标注完成后,根据所述图片标签确定所述图片的属性,按照所述属性将所述图片进行重新分类存储。
如图7所示,于一实施例中,所述基于语音识别的图片管理方法将海景图片作为一具体实施例。在该海景图片中,有大海、两张躺椅、一个海边观赏台、楼梯与扶手,在楼梯与大海最接近的台阶处安置有一张床。用户对于该海景图片中的床表示不能理解,在此处作了一个图片标签,内容为“这个床…?”。
如图8所示,于一实施例中,图6中海景图片的标注步骤包括:
S81,当用户在车机端浏览海景图片时,接收用户“我特别想知道这个床?”的谈话内容。
S82,通过对该谈话内容进行声音频率分析判断用户话音延迟且为疑问语气。
S83,将“我特别想知道这个床?”的谈话内容转换为文本内容。
S84,通过语义识别算法将该文本内容拆解为“我特别想知道”、“这个”和“床”。
S85,提取特征词“这个”和特征词“床”,并将两个特征词合并后作为图片标签。
S86,根据判断的话音延迟和疑问语气在所述图片标签后面添加省略号和问号。
S87,将图片标签“这个床...?”以文字形式浮于所述海景图片的上方。
S88,当图片标签“这个床...?”在车机端的车载显示屏上显示时间超过10秒时,判定为用户无需修改,并将当图片标签“这个床...?”进行隐藏。
需要说明的是,本发明所述的基于语音识别的图片管理方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
如图9所示,于一实施例中,所述基于语音识别的图片管理系统9应用于移动终端或车机端,具体包括指令接收模块91、识别模块92和打标签模块93。
所述指令接收模块91用于接收用户的语音指令。
于实际应用中,所述指令接收模块91具体用于通过语音接收装置接收用户的指示语音;所述指示语音是指用户发出的需对图片打标签的命令信息;和/或接收用户的谈话内容;所述谈话内容是指用户与他人交谈的语句信息。
所述识别模块92用于识别所述语音指令中的特征词,并将所述特征词作为图片标签。
于实际应用中,所述识别模块92具体用于将所述语音指令转换为文本内容;通过语义识别算法对所述文本内容进行拆解,以确定所述文本内容的语法解构;从拆解的所述文本内容中提取特征词作为图片标签;所述特征词包括主语、谓语、宾语、定语、状语和/或补语。
所述打标签模块93用于将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性。
于实际应用中,所述打标签模块93具体用于将所述图片标签的内容以文字形式浮于所述图片上方;判断所述图片标签的显示时间是否超过预设时间,以判断用户是否修改所述图片标签;若是,则确定用户无需修改所述图片标签,将所述图片标签进行隐藏;若否,则确定用户需要修改所述图片标签,接收用户针对所述图片标签的触控指令并显示文字编辑界面。
需要说明的是,应理解所述基于语音识别的图片管理系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:某一模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现。此外,某一模块也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以下某一模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
以下这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个数字信号处理器(Digital Singnal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
需要说明的是,本发明所述基于语音识别的图片管理系统可以实现本发明所述基于语音识别的图片管理方法,但本发明所述的基于语音识别的图片管理方法的实现装置包括但不限于本实施例列举的所述基于语音识别的图片管理系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。需要说明的是,所述基于语音识别的图片管理方法和所述基于语音识别的图片管理系统也适用于视频、歌曲、朋友圈消息等其他视听多媒体形式内容的浏览应用中,并包含在本发明的保护范围内。
于一实施例中,本发明的计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现所述基于语音识别的图片管理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
于一实施例中,本发明的设备包括:处理器、存储器、收发器、通信接口或/和系统总线。存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使所述设备执行所述基于语音识别的图片管理方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(扫描应用程序licationSpecific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明所述基于语音识别的图片管理方法、系统、介质及设备可以在用户拍照前、拍照的同时和拍照完毕后不同的应用场景下实现图片的打标签功能,通过多种灵活的方式对图片进行标注,使得图片具有自身属性与识别特征,方便用户后期图片浏览过程中的检索;通过用户语气类型的识别,在不需要用户手动打字的情况下,智能化地给图片添加语气符号,以形成特征鲜明的图片标签。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于语音识别的图片管理方法,其特征在于,包括:
接收用户的语音指令;
识别所述语音指令中的特征词,并将所述特征词作为图片标签;
将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性。
2.根据权利要求1所述的基于语音识别的图片管理方法,其特征在于,所述接收用户的语音指令的步骤包括:
通过语音接收装置接收用户的指示语音;所述指示语音是指用户发出的需对图片打标签的命令信息;和/或
接收用户的谈话内容;所述谈话内容是指用户与他人交谈的语句信息。
3.根据权利要求2所述的基于语音识别的图片管理方法,其特征在于,所述接收用户的指示语音的步骤包括:
在用户拍照之前,接收用户的第一指示语音;和/或
在用户拍照的同时,接收用户的第二指示语音;和/或
在用户拍照完毕后,接收用户的第三指示语音。
4.根据权利要求1所述的基于语音识别的图片管理方法,其特征在于,所述识别所述语音指令中的特征词,并将所述特征词作为图片标签的步骤包括:
将所述语音指令转换为文本内容;
通过语义识别算法对所述文本内容进行拆解,以确定所述文本内容的语法解构;
从拆解的所述文本内容中提取特征词作为图片标签;所述特征词包括主语、谓语、宾语、定语、状语和/或补语。
5.根据权利要求4所述的基于语音识别的图片管理方法,其特征在于,
在所述语音指令转换为文本内容之前,通过对所述语音指令进行声音频率分析来判断用户的语气类型;所述语气类型包括疑问语气和惊叹语气;
根据所述语气类型将相应的标点符号加入所述图片标签的文字内容后面。
6.根据权利要求1所述的基于语音识别的图片管理方法,其特征在于,所述将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的分类属性的步骤包括:
将所述图片标签的内容以文字形式浮于所述图片上方;
判断所述图片标签的显示时间是否超过预设时间,以判断用户是否修改所述图片标签;
若是,则确定用户无需修改所述图片标签,将所述图片标签进行隐藏;若否,则确定用户需要修改所述图片标签,接收用户针对所述图片标签的触控指令并显示文字编辑界面。
7.根据权利要求1所述的基于语音识别的图片管理方法,其特征在于,还包括:
根据所述图片标签确定所述图片的属性,按照所述属性将所述图片进行分类存储。
8.一种基于语音识别的图片管理系统,其特征在于,包括:
指令接收模块,用于接收用户的语音指令;
识别模块,用于识别所述语音指令中的特征词,并将所述特征词作为图片标签;
打标签模块,用于将所述图片标签关联至相应的图片中,以通过所述图片标签表征所述图片的属性。
9.一种介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述基于语音识别的图片管理方法。
10.一种设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1至7中任一项所述基于语音识别的图片管理方法。
CN201911372179.2A 2019-12-27 2019-12-27 基于语音识别的图片管理方法、系统、介质及设备 Pending CN111143595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911372179.2A CN111143595A (zh) 2019-12-27 2019-12-27 基于语音识别的图片管理方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911372179.2A CN111143595A (zh) 2019-12-27 2019-12-27 基于语音识别的图片管理方法、系统、介质及设备

Publications (1)

Publication Number Publication Date
CN111143595A true CN111143595A (zh) 2020-05-12

Family

ID=70520703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911372179.2A Pending CN111143595A (zh) 2019-12-27 2019-12-27 基于语音识别的图片管理方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN111143595A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579868A (zh) * 2020-12-23 2021-03-30 北京百度网讯科技有限公司 多模态识图搜索方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102708185A (zh) * 2012-05-11 2012-10-03 广东欧珀移动通信有限公司 一种图片语音搜索方法
CN105654532A (zh) * 2015-12-24 2016-06-08 Tcl集团股份有限公司 一种照片拍摄及处理方法及系统
CN106897290A (zh) * 2015-12-17 2017-06-27 中国移动通信集团上海有限公司 一种建立关键词模型的方法及装置
CN109710796A (zh) * 2019-01-14 2019-05-03 Oppo广东移动通信有限公司 基于语音的图片搜索方法、装置、存储介质及终端
CN110189751A (zh) * 2019-04-24 2019-08-30 中国联合网络通信集团有限公司 语音处理方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN102708185A (zh) * 2012-05-11 2012-10-03 广东欧珀移动通信有限公司 一种图片语音搜索方法
CN106897290A (zh) * 2015-12-17 2017-06-27 中国移动通信集团上海有限公司 一种建立关键词模型的方法及装置
CN105654532A (zh) * 2015-12-24 2016-06-08 Tcl集团股份有限公司 一种照片拍摄及处理方法及系统
CN109710796A (zh) * 2019-01-14 2019-05-03 Oppo广东移动通信有限公司 基于语音的图片搜索方法、装置、存储介质及终端
CN110189751A (zh) * 2019-04-24 2019-08-30 中国联合网络通信集团有限公司 语音处理方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579868A (zh) * 2020-12-23 2021-03-30 北京百度网讯科技有限公司 多模态识图搜索方法、装置、设备以及存储介质
CN112579868B (zh) * 2020-12-23 2024-06-04 北京百度网讯科技有限公司 多模态识图搜索方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN109522424B (zh) 数据的处理方法、装置、电子设备及存储介质
US11836183B2 (en) Digital image classification and annotation
US20140161356A1 (en) Multimedia message from text based images including emoticons and acronyms
US20140164506A1 (en) Multimedia message having portions of networked media content
US20140163980A1 (en) Multimedia message having portions of media content with audio overlay
US20140164507A1 (en) Media content portions recommended
US9465892B2 (en) Associating metadata with media objects using time
US20140163957A1 (en) Multimedia message having portions of media content based on interpretive meaning
JP2020521226A (ja) 取得画像に関連したメタデータの記憶
KR20200006107A (ko) 다수의 코퍼스들로부터 응답 정보 획득
JP2013521567A (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
US20140164371A1 (en) Extraction of media portions in association with correlated input
US11361759B2 (en) Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media
KR20210005733A (ko) 검색/생성된 디지털 미디어 파일을 기반으로 잠재적 관련성에 대한 주제 예측
CN103988202A (zh) 基于索引和搜索的图像吸引力
CN107948730B (zh) 基于图片生成视频的方法、装置、设备及存储介质
WO2022052817A1 (zh) 搜索处理方法、装置、终端及存储介质
CN111465918A (zh) 在预览界面中显示业务信息的方法及电子设备
CN113806588A (zh) 搜索视频的方法和装置
US20160012078A1 (en) Intelligent media management system
RU2698405C2 (ru) Способ поиска в базе данных
US20140163956A1 (en) Message composition of media portions in association with correlated text
CN113849723A (zh) 搜索方法及搜索装置
CN111813236B (zh) 输入方法、装置、电子设备及可读存储介质
CN113850083A (zh) 确定播报风格的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200512