CN103064936A - 一种基于语音输入的图像信息提取分析方法及装置 - Google Patents

一种基于语音输入的图像信息提取分析方法及装置 Download PDF

Info

Publication number
CN103064936A
CN103064936A CN2012105687355A CN201210568735A CN103064936A CN 103064936 A CN103064936 A CN 103064936A CN 2012105687355 A CN2012105687355 A CN 2012105687355A CN 201210568735 A CN201210568735 A CN 201210568735A CN 103064936 A CN103064936 A CN 103064936A
Authority
CN
China
Prior art keywords
scene
image information
user
information extraction
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105687355A
Other languages
English (en)
Other versions
CN103064936B (zh
Inventor
韩钧宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210568735.5A priority Critical patent/CN103064936B/zh
Publication of CN103064936A publication Critical patent/CN103064936A/zh
Application granted granted Critical
Publication of CN103064936B publication Critical patent/CN103064936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于语音输入的图像信息提取分析方法及装置,其中,方法包括:预先建立像信息提取场景库;S1、根据用户输入的语音,获取用户的信息提取意图;S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。本发明能够综合各种不同类别的图像信息提取软件所具有的功能,同时,能够根据用户输入的语音,智能地提取目标图像中的对应信息并进行分析处理,显著减少了用户的交互负担。

Description

一种基于语音输入的图像信息提取分析方法及装置
【技术领域】
本发明涉及图像信息提取技术,尤其涉及一种基于语音输入的图像信息提取分析方法及装置。
【背景技术】
随着图像识别技术以及移动互联网的广泛应用,大量的图像信息提取软件应运而生,能够让用户随时随地查询指定图像中的相关信息。现有的图像信息提取软件通常都是针对不同类别的用户需求而设计的,例如,文字信息提取类的应用软件可以提取并识别图像中的文字,特定商品元素提取类的应用软件可以提取并识别图像中商品的二维码或者商品的Logo,脸部识别类的应用软件可以识别图像中人脸。然而,诸如此类的应用软件只能实现某一类别的图像信息提取,同时需要基于用户的明确操作指令,随着应用种类的增多,用户的交互负担也越来越大,为多种图像信息提取应用提供便捷的一站式交互服务是一个亟待有效解决的问题。
【发明内容】
有鉴于此,本发明提供了一种基于语音输入的图像信息提取分析方法及装置,能够基于用户输入的语音,自动提取目标图像中的对应信息并处理。
具体技术方案如下:
一种基于语音输入的图像信息提取分析方法,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该方法包括:
S1、根据用户输入的语音,获取用户的信息提取意图;
S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;
S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。
根据本发明一优选实施例,所述获取用户的信息提取意图具体包括:将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。
根据本发明一优选实施例,所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括:
依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景;或者,
依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。
根据本发明一优选实施例,在所述步骤S2中进一步包括:将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户;
如果获取到用户的确认信息,则继续执行所述步骤S3;如果获取到用户的舍弃信息,则不继续执行所述步骤S3,等待用户重新输入语音后执行步骤S1;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择继续执行所述步骤S3。
根据本发明一优选实施例,所述步骤S3进一步包括:抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。
一种基于语音输入的图像信息提取分析装置,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该装置包括:
预处理单元,用于根据用户输入的语音,获取用户的信息提取意图;
匹配单元,用于根据所述预处理单元获取的用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;
分析单元,用于根据所述匹配单元获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。
根据本发明一优选实施例,所述预处理单元获取用户的信息提取意图时,具体执行:将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。
根据本发明一优选实施例,所述匹配单元获取匹配得到的文字描述标签对应的图像信息提取场景时,具体执行:
依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景;或者,
依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。
根据本发明一优选实施例,所述匹配单元进一步执行:将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户;
如果获取到用户的确认信息,则触发所述分析单元;如果获取到用户的舍弃信息,则不触发所述分析单元,等待用户重新输入语音后触发所述预处理单元;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择触发所述分析单元。
根据本发明一优选实施例,所述分析单元进一步执行:抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。
由以上技术方案可以看出,本发明通过预先建立图像信息提取场景库,根据用户输入的语音,获取匹配的图像信息提取场景,并利用所获取的图像信息提取场景提取目标图像中的对应信息并进行对应的分析处理。本发明能够综合各种不同类别的图像信息提取软件所具有的功能,同时,能够根据用户输入的语音,智能地提取目标图像中的对应信息并进行分析处理,显著减少了用户的交互负担。
【附图说明】
图1为本发明实施例一所提供的基于语音输入的图像信息提取分析方法流程图;
图2为本发明实施例一所提供的根据文字描述标签和场景特征分类模块匹配图像信息提取场景的方法示意图;
图3为本发明实施例二所提供的基于语音输入的图像信息提取分析装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明能够识别用户输入的语音,并进一步分析出用户的意图,从而在目标图像中提取对应的信息并处理。为了实现这一目的,需要先建立图像信息提取场景库来保存图像信息提取场景,不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析处理,例如,对应于星座识别的图像信息提取场景能够提取目标图像中含有的星座图像并识别出是哪一个星座。同时,可以设定不同的文字描述标签来对应不同的图像信息提取场景,文字描述标签用于表征其对应的图像信息提取场景所执行的操作及能够实现的功能,例如,某一图像信息提取场景可以识别目标图像中商品的Logo,则其文字描述标签可以设定为“商标,Logo,识别”。为了能够根据用户输入的语音,通过文字描述标签获取匹配度最高的图像信息提取场景,可以根据实际需求以及用户的输入习惯来设定每个图像信息提取场景的文字描述标签。需要说明的是,对于Logo识别、人脸识别等图像信息提取场景,还需要预先建立对应Logo数据库、人脸数据库等来实现相应的识别功能,这一部分为现有技术,在此不再赘述。
更进一步地,还可以为每一个图像信息提取场景设定一个场景特征分类模块来与其对应,场景特征分类模块用于提取目标图像的特征,同时基于所获取的目标图像的特征和经过训练的预设分类器获得目标图像与当前图像信息提取场景匹配的可能性,可以将该可能性以数值化的形式表示后,作为目标图像与图像信息提取场景的匹配度,匹配度越高,表示目标图像越有可能与当前图像信息提取场景匹配。场景特征分类模块可以使用SIFT算法、HOG算法等现有特征提取算法来提取目标图像的特征,可以使用SVM算法、Adaboost算法等现有分类算法作为预设的分类器来进行分类。这些分类算法的目标函数易于转化为描述目标图像与图像信息提取场景的匹配度的数值化形式,此处不进行详细阐述。
匹配度描述场景特征分类模块可以用下述方法来进行预设分类器训练:预先利用与图像信息提取场景匹配的图像作为正样本、与图像信息提取场景不匹配的图像作为负样本进行训练,例如,对于人脸识别的图像信息提取场景,可以利用大量人脸的图像作为正样本、不含人脸的图像作为负样本来训练其对应的场景特征分类模块,对于文字提取和识别的图像信息提取场景,可以利用大量文字的图像作为正样本、不含文字的图像作为负样本来训练其对应的场景特征分类模块。对于不同图像信息提取场景的场景特征分类模块,可以根据其特点,使用不同的特征提取算法和分类算法。
通过上述方法设定的场景特征分类模块可以直接根据目标图像分析用户潜在的信息提取意图,例如,目标图像中有大量的文字,经过文字识别场景特征分类模块提取特征并分类后,得到目标图像与对应于文字识别的图像信息提取场景的匹配度较高,即认为用户的信息提取意图可能为提取并识别目标图像中的文字。需要说明的是,一个目标图像可能存在多个匹配度较高的图像信息提取场景。
可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
实施例一
图1为本发明实施例一所提供的基于语音输入的图像信息提取分析方法流程图,如图1所示,该方法包括:
S101、根据用户输入的语音,获取用户的信息提取意图。
利用声学传感器,获取用户输入的语音,之后,通过语音识别技术将所获取的用户输入的语音转换为对应的文字信息,并将所得到的文字信息作为用户的信息提取意图。
更进一步地,为了能够更为准确地获取匹配的图像信息提取场景,可以对语音识别之后得到的文字信息进行进一步处理,具体可以包括:对语音识别后得到的文字信息进行分词处理,之后进行语义分析,提取其中的关键词组,如“商品”、“谁”、“什么”等,而过滤其中的介词、助词等对语义信息影响较小的词,如“很”、“非常”、“了”等,最后,将分词和语义分析后所得到关键词组作为用户的信息提取意图。分词和语义分析均为现有技术,在此不再赘述。
S102、根据所述用户的信息提取意图查询图像信息提取场景库,获取与用户的信息提取意图匹配的图像信息提取场景。
根据所获取的用户的信息提取意图查询图像信息提取场景库,并从图像信息提取场景库中获取一个或多个对应的图像信息提取场景。具体的查询方法可以是:查询图像信息提取场景库中文字描述标签与所获取的用户的信息提取意图匹配的图像信息提取场景,在查询过程中为每一个图像信息提取场景设定场景权重值,图像信息提取场景的文字描述标签与所获取的用户的信息提取意图的匹配程度越高,那么该图像信息提取场景的场景权重值也就越高,之后,将场景权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。
更进一步地,本步骤还可以结合图像信息提取场景的场景特征分类模块来完成,如图2所示,具体可以通过下述方法实现:
用各个场景特征分类模块对目标图像进行特征提取,并进行分类,得到目标图像与各个图像信息提取场景的匹配度,根据该匹配度为图像信息提取场景设定特征权重,匹配度越高的图像信息提取场景特征权重值也就越高。最后,综合通过文字描述标签匹配与通过场景特征分类模块匹配的结果,选取一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景,具体综合上述两者匹配结果的方法可以为:将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值相加,得到图像信息提取场景的综合权重值;或者,将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值分别乘以预先设定的系数后再相加,得到图像信息提取场景的综合权重值,选取综合权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。
结合特征分类模块能够更为准确地获取与用户的信息提取意图匹配的图像信息提取场景,同时,特征分类模块也可以在用户输入的语音无效的情况下单独工作,获取与目标图像匹配的图像信息提取场景。
更进一步地,可以将所匹配得到的一个或多个图像信息提取场景以文字或者语音的形式反馈给用户,由用户进行确认或舍弃,若得到用户的确认,则选取该一个或多个图像信息提取场景进入后续的信息提取分析步骤;若用户选择舍弃,则忽略本次所匹配得到的一个或多个图像信息提取场景,等待用户重新输入语音,并进行再次匹配。或者,当匹配得到多个图像信息提取场景时,可以以文字或者语音的形式反馈给用户,由用户选择其中的一个或多个图像信息提取场景进入后续信息提取分析步骤。需要说明的是,用户反馈的步骤并不是本发明的必须步骤,具体实施时可以直接基于匹配得到的图像信息提取场景进入后续信息提取分析步骤。
S103、根据所述与用户的信息提取意图匹配的图像信息提取场景提取目标图像中的对应信息并进行分析识别,将分析识别结果返回给用户。
根据步骤S102中所获取的与用户的信息提取意图匹配的图像信息提取场景,提取目标图像中的对应信息并进行相应分析。不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析识别,例如,对应于文字翻译的图像信息提取场景可以提取目标图像中的文字信息并进行分析,翻译为对应的语言,对应于Logo识别的图像信息提取场景可以提取目标图像中的Logo并进行识别,识别是什么Logo,对应于明星识别的图像信息提取场景可以提取目标图像中的人物并进行识别,识别是哪一个明星。最后,将分析结果返回给用户。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
当在步骤S102中获取到多个与用户的信息提取意图匹配的图像信息提取场景时,可以根据该多个图像信息提取场景提取目标图像中的对应信息并进行相应的分析识别,之后将分析识别结果分别返回给用户。
更进一步地,在得到分析结果后,可以扩展所得分析结果的相关信息并返回给用户,例如,对应于Logo识别的图像信息提取场景在识别出目标图像中的Logo后,可以进一步在互联网抓取该Logo的介绍资讯等相关信息返回给用户,对应于明星识别的图像信息提取场景在识别出目标图像中的人物是哪一个明星后,可以进一步在互联网抓取该明星的简介等相关信息返回给用户。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
通过上述对本发明所提供的方法的描述可以看出,本发明通过预先建立图像信息提取场景库,能够根据用户输入的语音,获取匹配的图像信息提取场景,来提取目标图像中的对应信息并进行对应的分析处理。通过本发明所提供的方法,可以综合目前已有的不同类别的图像信息提取软件的功能,同时,在需要扩展功能时,也只需要在图像信息提取场景库中增加图像信息提取场景即可,大大增强了可扩展性。
实施例二
图3为本发明实施例二所提供的基于语音输入的图像信息提取分析装置示意图,如图3所示,该装置包括:预处理单元10、匹配单元20、分析单元30。
预处理单元10,用于根据用户输入的语音,获取用户的信息提取意图。
预处理单元10利用声学传感器,获取用户输入的语音,之后,通过语音识别技术将所获取的用户输入的语音转换为对应的文字信息,并将所得到的文字信息作为用户的信息提取意图。
更进一步地,为了能够更为准确地获取匹配的图像信息提取场景,预处理单元10可以对语音识别之后得到的文字信息进行进一步处理,具体可以包括:对语音识别后得到的文字信息进行分词处理,之后进行语义分析,提取其中的关键词组,如“商品”、“谁”、“什么”等,而过滤其中的介词、助词等对语义信息影响较小的词,如“很”、“非常”、“了”等,最后,将分词和语义分析后所得到关键词组作为用户的信息提取意图。分词和语义分析均为现有技术,在此不再赘述。
匹配单元20,用于根据所述预处理单元获取的用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景。
匹配单元20根据所获取的用户的信息提取意图查询图像信息提取场景库,并从图像信息提取场景库中获取一个或多个对应的图像信息提取场景。具体的查询可以执行下述操作:查询图像信息提取场景库中文字描述标签与所获取的用户的信息提取意图匹配的图像信息提取场景,在查询过程中为每一个图像信息提取场景设定场景权重值,图像信息提取场景的文字描述标签与所获取的用户的信息提取意图的匹配程度越高,那么该图像信息提取场景的场景权重值也就越高,之后,将权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。
更进一步地,匹配单元20还可以结合图像信息提取场景的场景特征分类模块来执行本操作,具体可以执行:用各个场景特征分类模块对目标图像进行特征提取,并进行分类,得到目标图像与各个图像信息提取场景的匹配度,根据该匹配度为图像信息提取场景设定特征权重,匹配度越高的图像信息提取场景的特征权重值也就越高。最后,综合通过文字描述标签匹配与通过场景特征分类模块匹配的结果,选取一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景,具体综合上述两者匹配结果的方法可以为:将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值相加,得到图像信息提取场景的综合权重值;或者,将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值分别乘以预先设定的系数后再相加,得到图像信息提取场景的综合权重值,选取综合权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。
结合特征分类模块能够更为准确地获取与用户的信息提取意图匹配的图像信息提取场景,同时,特征分类模块也可以在用户输入的语音无效的情况下单独工作,获取与目标图像匹配的图像信息提取场景。
更进一步地,匹配单元20可以将所匹配得到的一个或多个图像信息提取场景以文字或者语音的形式反馈给用户,由用户进行确认或舍弃,若得到用户的确认,则选取该一个或多个图像信息提取场景进入后续的信息提取分析步骤;若用户选择舍弃,则忽略本次所匹配得到的一个或多个图像信息提取场景,等待用户重新输入语音,并进行再次匹配。或者,当匹配得到多个图像信息提取场景时,可以以文字或者语音的形式反馈给用户,由用户选择其中的一个或多个图像信息提取场景进入后续信息提取分析步骤。
分析单元30,用于根据所述匹配单元获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。
分析单元30根据匹配单元20所获取的与用户的信息提取意图匹配的图像信息提取场景,提取目标图像中的对应信息并进行相应分析。不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析识别,例如,对应于文字翻译的图像信息提取场景可以提取目标图像中的文字信息并进行分析,翻译为对应的语言,对应于Logo识别的图像信息提取场景可以提取目标图像中的Logo并进行识别,识别是什么Logo,对应于明星识别的图像信息提取场景可以提取目标图像中的人物并进行识别,识别是哪一个明星。最后,将分析结果返回给用户。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
更进一步地,在得到分析结果后,可以扩展所得分析结果的相关信息并返回给用户,例如,对应于Logo识别的图像信息提取场景在识别出目标图像中的Logo后,可以进一步在互联网抓取该Logo的介绍资讯等相关信息返回给用户,对应于明星识别的图像信息提取场景在识别出目标图像中的人物是哪一个明星后,可以进一步在互联网抓取该明星的简介等相关信息返回给用户。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
当分析单元30获取到多个与用户的信息提取意图匹配的图像信息提取场景时,可以根据该多个图像信息提取场景提取目标图像中的对应信息并进行相应的分析识别,之后将分析识别结果分别返回给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种基于语音输入的图像信息提取分析方法,其特征在于,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该方法包括:
S1、根据用户输入的语音,获取用户的信息提取意图;
S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;
S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。
2.根据权利要求1所述的方法,其特征在于,所述获取用户的信息提取意图具体包括:将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括:
依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景;或者,
依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。
4.根据权利要求1或3所述的方法,其特征在于,在所述步骤S2中进一步包括:将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户;
如果获取到用户的确认信息,则继续执行所述步骤S3;如果获取到用户的舍弃信息,则不继续执行所述步骤S3,等待用户重新输入语音后执行步骤S1;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择继续执行所述步骤S3。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括:抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。
6.一种基于语音输入的图像信息提取分析装置,其特征在于,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该装置包括:
预处理单元,用于根据用户输入的语音,获取用户的信息提取意图;
匹配单元,用于根据所述预处理单元获取的用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;
分析单元,用于根据所述匹配单元获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。
7.根据权利要求6所述的装置,其特征在于,所述预处理单元获取用户的信息提取意图时,具体执行:将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。
8.根据权利要求6所述的装置,其特征在于,所述匹配单元获取匹配得到的文字描述标签对应的图像信息提取场景时,具体执行:
依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景;或者,
依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。
9.根据权利要求6或8所述的装置,其特征在于,所述匹配单元进一步执行:将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户;
如果获取到用户的确认信息,则触发所述分析单元;如果获取到用户的舍弃信息,则不触发所述分析单元,等待用户重新输入语音后触发所述预处理单元;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择触发所述分析单元。
10.根据权利要求6所述的装置,其特征在于,所述分析单元进一步执行:抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。
CN201210568735.5A 2012-12-24 2012-12-24 一种基于语音输入的图像信息提取分析方法及装置 Active CN103064936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210568735.5A CN103064936B (zh) 2012-12-24 2012-12-24 一种基于语音输入的图像信息提取分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210568735.5A CN103064936B (zh) 2012-12-24 2012-12-24 一种基于语音输入的图像信息提取分析方法及装置

Publications (2)

Publication Number Publication Date
CN103064936A true CN103064936A (zh) 2013-04-24
CN103064936B CN103064936B (zh) 2018-03-30

Family

ID=48107566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210568735.5A Active CN103064936B (zh) 2012-12-24 2012-12-24 一种基于语音输入的图像信息提取分析方法及装置

Country Status (1)

Country Link
CN (1) CN103064936B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617432A (zh) * 2013-11-12 2014-03-05 华为技术有限公司 一种场景识别方法及装置
CN104506906A (zh) * 2014-11-12 2015-04-08 科大讯飞股份有限公司 基于电视场景元素及语音助手的语音交互辅助方法及系统
CN105094760A (zh) * 2014-04-28 2015-11-25 小米科技有限责任公司 一种图片标记方法及装置
CN105934760A (zh) * 2014-01-24 2016-09-07 微软技术许可有限责任公司 利用计算机视觉辅助的适应性图像搜索
WO2016184051A1 (zh) * 2015-05-18 2016-11-24 百度在线网络技术(北京)有限公司 图片搜索方法、装置、设备及非易失性计算机存储介质
CN106897372A (zh) * 2017-01-17 2017-06-27 腾讯科技(上海)有限公司 语音查询方法和装置
CN107016402A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN107039040A (zh) * 2016-01-06 2017-08-11 谷歌公司 语音识别系统
CN107291900A (zh) * 2017-06-22 2017-10-24 美味不用等(上海)信息科技股份有限公司 信息反馈与跟踪系统
CN107436926A (zh) * 2017-07-07 2017-12-05 深圳Tcl新技术有限公司 搜索交互方法、装置及计算机可读存储介质
CN107689082A (zh) * 2016-08-03 2018-02-13 腾讯科技(深圳)有限公司 一种数据投影方法以及装置
CN108170859A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN108924589A (zh) * 2018-08-02 2018-11-30 佛山龙眼传媒科技有限公司 字幕自动配置方法及装置
CN109063583A (zh) * 2018-07-10 2018-12-21 广东小天才科技有限公司 一种基于点读操作的学习方法及电子设备
CN109086332A (zh) * 2018-07-04 2018-12-25 深圳供电局有限公司 一种电力调度日志查询方法及系统
CN109582690A (zh) * 2018-10-23 2019-04-05 上海航空工业(集团)有限公司 一种基于人工智能语音交互的质量审核信息查询方法
CN109800301A (zh) * 2019-01-23 2019-05-24 广东小天才科技有限公司 一种薄弱知识点的挖掘方法及学习设备
CN109977254A (zh) * 2019-04-03 2019-07-05 百度在线网络技术(北京)有限公司 用于获取图像的方法及装置
CN110147445A (zh) * 2019-04-09 2019-08-20 平安科技(深圳)有限公司 基于文本分类的意图识别方法、装置、设备及存储介质
CN110581772A (zh) * 2019-09-06 2019-12-17 腾讯科技(深圳)有限公司 即时通讯消息的交互方法、装置以及计算机可读存储介质
CN110704658A (zh) * 2019-10-15 2020-01-17 精硕科技(北京)股份有限公司 一种搜索图像的方法、装置、计算机存储介质及终端
CN112020711A (zh) * 2019-03-29 2020-12-01 艾思益信息应用技术股份公司 信息提供系统
CN112214620A (zh) * 2020-09-25 2021-01-12 北京百度网讯科技有限公司 信息查询方法、装置、图表处理方法以及电子设备
WO2021057741A1 (zh) * 2019-09-23 2021-04-01 杭州海康威视数字技术股份有限公司 图像搜索方法、装置、服务器和存储介质
CN115476366A (zh) * 2021-06-15 2022-12-16 北京小米移动软件有限公司 足式机器人的控制方法、装置、控制设备及存储介质
CN116828099A (zh) * 2023-08-29 2023-09-29 荣耀终端有限公司 一种拍摄方法、介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952935A (zh) * 2006-09-22 2007-04-25 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
US20080025736A1 (en) * 2006-07-28 2008-01-31 Fuji Xerox Co., Ltd. Image processing device, image processing and forming system, computer readable medium, computer data signal, and image processing method
CN101853295A (zh) * 2010-05-28 2010-10-06 天津大学 一种图像检索方法
CN201654783U (zh) * 2010-05-13 2010-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种多层语义图像检索系统
CN102662961A (zh) * 2012-03-08 2012-09-12 北京百舜华年文化传播有限公司 一种语义与图像匹配处理方法、装置及终端设备
CN102831200A (zh) * 2012-08-07 2012-12-19 北京百度网讯科技有限公司 一种基于图像文字识别的商品推送方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080025736A1 (en) * 2006-07-28 2008-01-31 Fuji Xerox Co., Ltd. Image processing device, image processing and forming system, computer readable medium, computer data signal, and image processing method
CN1952935A (zh) * 2006-09-22 2007-04-25 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN201654783U (zh) * 2010-05-13 2010-11-24 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种多层语义图像检索系统
CN101853295A (zh) * 2010-05-28 2010-10-06 天津大学 一种图像检索方法
CN102662961A (zh) * 2012-03-08 2012-09-12 北京百舜华年文化传播有限公司 一种语义与图像匹配处理方法、装置及终端设备
CN102831200A (zh) * 2012-08-07 2012-12-19 北京百度网讯科技有限公司 一种基于图像文字识别的商品推送方法和装置

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617432A (zh) * 2013-11-12 2014-03-05 华为技术有限公司 一种场景识别方法及装置
CN105934760A (zh) * 2014-01-24 2016-09-07 微软技术许可有限责任公司 利用计算机视觉辅助的适应性图像搜索
CN105934760B (zh) * 2014-01-24 2019-09-03 微软技术许可有限责任公司 利用计算机视觉辅助的适应性图像搜索
CN105094760A (zh) * 2014-04-28 2015-11-25 小米科技有限责任公司 一种图片标记方法及装置
CN105094760B (zh) * 2014-04-28 2019-10-29 小米科技有限责任公司 一种图片标记方法及装置
CN104506906B (zh) * 2014-11-12 2019-01-18 科大讯飞股份有限公司 基于电视场景元素及语音助手的语音交互辅助方法及系统
CN104506906A (zh) * 2014-11-12 2015-04-08 科大讯飞股份有限公司 基于电视场景元素及语音助手的语音交互辅助方法及系统
WO2016184051A1 (zh) * 2015-05-18 2016-11-24 百度在线网络技术(北京)有限公司 图片搜索方法、装置、设备及非易失性计算机存储介质
CN107039040A (zh) * 2016-01-06 2017-08-11 谷歌公司 语音识别系统
CN107689082B (zh) * 2016-08-03 2021-03-02 腾讯科技(深圳)有限公司 一种数据投影方法以及装置
CN107689082A (zh) * 2016-08-03 2018-02-13 腾讯科技(深圳)有限公司 一种数据投影方法以及装置
CN106897372B (zh) * 2017-01-17 2022-11-08 腾讯科技(上海)有限公司 语音查询方法和装置
CN106897372A (zh) * 2017-01-17 2017-06-27 腾讯科技(上海)有限公司 语音查询方法和装置
CN107016402A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN107291900B (zh) * 2017-06-22 2020-06-05 美味不用等(上海)信息科技股份有限公司 信息反馈与跟踪系统
CN107291900A (zh) * 2017-06-22 2017-10-24 美味不用等(上海)信息科技股份有限公司 信息反馈与跟踪系统
CN107436926A (zh) * 2017-07-07 2017-12-05 深圳Tcl新技术有限公司 搜索交互方法、装置及计算机可读存储介质
CN108170859B (zh) * 2018-01-22 2020-07-28 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN108170859A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN109086332A (zh) * 2018-07-04 2018-12-25 深圳供电局有限公司 一种电力调度日志查询方法及系统
CN109063583A (zh) * 2018-07-10 2018-12-21 广东小天才科技有限公司 一种基于点读操作的学习方法及电子设备
CN108924589A (zh) * 2018-08-02 2018-11-30 佛山龙眼传媒科技有限公司 字幕自动配置方法及装置
CN109582690A (zh) * 2018-10-23 2019-04-05 上海航空工业(集团)有限公司 一种基于人工智能语音交互的质量审核信息查询方法
CN109800301A (zh) * 2019-01-23 2019-05-24 广东小天才科技有限公司 一种薄弱知识点的挖掘方法及学习设备
CN112020711A (zh) * 2019-03-29 2020-12-01 艾思益信息应用技术股份公司 信息提供系统
CN109977254A (zh) * 2019-04-03 2019-07-05 百度在线网络技术(北京)有限公司 用于获取图像的方法及装置
CN110147445A (zh) * 2019-04-09 2019-08-20 平安科技(深圳)有限公司 基于文本分类的意图识别方法、装置、设备及存储介质
CN110581772A (zh) * 2019-09-06 2019-12-17 腾讯科技(深圳)有限公司 即时通讯消息的交互方法、装置以及计算机可读存储介质
WO2021057741A1 (zh) * 2019-09-23 2021-04-01 杭州海康威视数字技术股份有限公司 图像搜索方法、装置、服务器和存储介质
CN110704658A (zh) * 2019-10-15 2020-01-17 精硕科技(北京)股份有限公司 一种搜索图像的方法、装置、计算机存储介质及终端
CN112214620A (zh) * 2020-09-25 2021-01-12 北京百度网讯科技有限公司 信息查询方法、装置、图表处理方法以及电子设备
CN115476366A (zh) * 2021-06-15 2022-12-16 北京小米移动软件有限公司 足式机器人的控制方法、装置、控制设备及存储介质
CN115476366B (zh) * 2021-06-15 2024-01-09 北京小米移动软件有限公司 足式机器人的控制方法、装置、控制设备及存储介质
CN116828099A (zh) * 2023-08-29 2023-09-29 荣耀终端有限公司 一种拍摄方法、介质和电子设备
CN116828099B (zh) * 2023-08-29 2023-12-19 荣耀终端有限公司 一种拍摄方法、介质和电子设备

Also Published As

Publication number Publication date
CN103064936B (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN103064936A (zh) 一种基于语音输入的图像信息提取分析方法及装置
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN106875941B (zh) 一种服务机器人的语音语义识别方法
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
JP6440732B2 (ja) 機械学習に基づく自動タスク分類
US9104700B1 (en) Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
CN109685056B (zh) 获取文档信息的方法及装置
CN107491435B (zh) 基于计算机自动识别用户情感的方法及装置
CN104809142A (zh) 商标查询系统和方法
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
US20210304749A1 (en) Method and system for extraction of key-terms and synonyms for the key-terms
US10417338B2 (en) External resource identification
CN104915420B (zh) 知识库数据处理方法及系统
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110659346B (zh) 表格提取方法、装置、终端及计算机可读存储介质
CN105793867A (zh) 图像搜索方法及设备
Choudhury et al. Movement epenthesis detection for continuous sign language recognition
CN113806588A (zh) 搜索视频的方法和装置
Lahiani et al. Hand pose estimation system based on Viola-Jones algorithm for android devices
CN112148874A (zh) 可自动新增用户潜在意图的意图识别方法及系统
Tayyab et al. Recognition of visual arabic scripting news ticker from broadcast stream
Gupta Sign language recognition using diverse deep learning models
CN104598289A (zh) 一种识别方法及一种电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant