CN103064936A

CN103064936A - 一种基于语音输入的图像信息提取分析方法及装置

Info

Publication number: CN103064936A
Application number: CN2012105687355A
Authority: CN
Inventors: 韩钧宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2013-04-24
Anticipated expiration: 2032-12-24
Also published as: CN103064936B

Abstract

本发明提供了一种基于语音输入的图像信息提取分析方法及装置，其中，方法包括：预先建立像信息提取场景库；S1、根据用户输入的语音，获取用户的信息提取意图；S2、根据所述用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景；S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。本发明能够综合各种不同类别的图像信息提取软件所具有的功能，同时，能够根据用户输入的语音，智能地提取目标图像中的对应信息并进行分析处理，显著减少了用户的交互负担。

Description

一种基于语音输入的图像信息提取分析方法及装置

【技术领域】

本发明涉及图像信息提取技术，尤其涉及一种基于语音输入的图像信息提取分析方法及装置。

【背景技术】

随着图像识别技术以及移动互联网的广泛应用，大量的图像信息提取软件应运而生，能够让用户随时随地查询指定图像中的相关信息。现有的图像信息提取软件通常都是针对不同类别的用户需求而设计的，例如，文字信息提取类的应用软件可以提取并识别图像中的文字，特定商品元素提取类的应用软件可以提取并识别图像中商品的二维码或者商品的Logo，脸部识别类的应用软件可以识别图像中人脸。然而，诸如此类的应用软件只能实现某一类别的图像信息提取，同时需要基于用户的明确操作指令，随着应用种类的增多，用户的交互负担也越来越大，为多种图像信息提取应用提供便捷的一站式交互服务是一个亟待有效解决的问题。

【发明内容】

有鉴于此，本发明提供了一种基于语音输入的图像信息提取分析方法及装置，能够基于用户输入的语音，自动提取目标图像中的对应信息并处理。

具体技术方案如下：

一种基于语音输入的图像信息提取分析方法，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该方法包括：

S1、根据用户输入的语音，获取用户的信息提取意图；

S2、根据所述用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景；

S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。

根据本发明一优选实施例，所述获取用户的信息提取意图具体包括：将所述用户输入的语音通过语音识别转换为文字信息，并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。

根据本发明一优选实施例，所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括：

依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值，获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景；或者，

依据场景特征分类模块对目标图像进行特征提取以及分类后，得到的目标图像与各图像信息提取场景的匹配度，确定各图像信息提取场景的特征权重值，利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值，获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。

根据本发明一优选实施例，在所述步骤S2中进一步包括：将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户；

如果获取到用户的确认信息，则继续执行所述步骤S3；如果获取到用户的舍弃信息，则不继续执行所述步骤S3，等待用户重新输入语音后执行步骤S1；如果获取到用户选择其中的一个或多个图像信息提取场景，则根据用户的选择继续执行所述步骤S3。

根据本发明一优选实施例，所述步骤S3进一步包括：抓取所述识别结果对应的扩展知识信息，并将所述扩展知识信息返回给用户。

一种基于语音输入的图像信息提取分析装置，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该装置包括：

预处理单元，用于根据用户输入的语音，获取用户的信息提取意图；

匹配单元，用于根据所述预处理单元获取的用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景；

分析单元，用于根据所述匹配单元获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。

根据本发明一优选实施例，所述预处理单元获取用户的信息提取意图时，具体执行：将所述用户输入的语音通过语音识别转换为文字信息，并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。

根据本发明一优选实施例，所述匹配单元获取匹配得到的文字描述标签对应的图像信息提取场景时，具体执行：

根据本发明一优选实施例，所述匹配单元进一步执行：将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户；

如果获取到用户的确认信息，则触发所述分析单元；如果获取到用户的舍弃信息，则不触发所述分析单元，等待用户重新输入语音后触发所述预处理单元；如果获取到用户选择其中的一个或多个图像信息提取场景，则根据用户的选择触发所述分析单元。

根据本发明一优选实施例，所述分析单元进一步执行：抓取所述识别结果对应的扩展知识信息，并将所述扩展知识信息返回给用户。

由以上技术方案可以看出，本发明通过预先建立图像信息提取场景库，根据用户输入的语音，获取匹配的图像信息提取场景，并利用所获取的图像信息提取场景提取目标图像中的对应信息并进行对应的分析处理。本发明能够综合各种不同类别的图像信息提取软件所具有的功能，同时，能够根据用户输入的语音，智能地提取目标图像中的对应信息并进行分析处理，显著减少了用户的交互负担。

【附图说明】

图1为本发明实施例一所提供的基于语音输入的图像信息提取分析方法流程图；

图2为本发明实施例一所提供的根据文字描述标签和场景特征分类模块匹配图像信息提取场景的方法示意图；

图3为本发明实施例二所提供的基于语音输入的图像信息提取分析装置示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明能够识别用户输入的语音，并进一步分析出用户的意图，从而在目标图像中提取对应的信息并处理。为了实现这一目的，需要先建立图像信息提取场景库来保存图像信息提取场景，不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析处理，例如，对应于星座识别的图像信息提取场景能够提取目标图像中含有的星座图像并识别出是哪一个星座。同时，可以设定不同的文字描述标签来对应不同的图像信息提取场景，文字描述标签用于表征其对应的图像信息提取场景所执行的操作及能够实现的功能，例如，某一图像信息提取场景可以识别目标图像中商品的Logo，则其文字描述标签可以设定为“商标，Logo，识别”。为了能够根据用户输入的语音，通过文字描述标签获取匹配度最高的图像信息提取场景，可以根据实际需求以及用户的输入习惯来设定每个图像信息提取场景的文字描述标签。需要说明的是，对于Logo识别、人脸识别等图像信息提取场景，还需要预先建立对应Logo数据库、人脸数据库等来实现相应的识别功能，这一部分为现有技术，在此不再赘述。

更进一步地，还可以为每一个图像信息提取场景设定一个场景特征分类模块来与其对应，场景特征分类模块用于提取目标图像的特征，同时基于所获取的目标图像的特征和经过训练的预设分类器获得目标图像与当前图像信息提取场景匹配的可能性，可以将该可能性以数值化的形式表示后，作为目标图像与图像信息提取场景的匹配度，匹配度越高，表示目标图像越有可能与当前图像信息提取场景匹配。场景特征分类模块可以使用SIFT算法、HOG算法等现有特征提取算法来提取目标图像的特征，可以使用SVM算法、Adaboost算法等现有分类算法作为预设的分类器来进行分类。这些分类算法的目标函数易于转化为描述目标图像与图像信息提取场景的匹配度的数值化形式，此处不进行详细阐述。

匹配度描述场景特征分类模块可以用下述方法来进行预设分类器训练：预先利用与图像信息提取场景匹配的图像作为正样本、与图像信息提取场景不匹配的图像作为负样本进行训练，例如，对于人脸识别的图像信息提取场景，可以利用大量人脸的图像作为正样本、不含人脸的图像作为负样本来训练其对应的场景特征分类模块，对于文字提取和识别的图像信息提取场景，可以利用大量文字的图像作为正样本、不含文字的图像作为负样本来训练其对应的场景特征分类模块。对于不同图像信息提取场景的场景特征分类模块，可以根据其特点，使用不同的特征提取算法和分类算法。

通过上述方法设定的场景特征分类模块可以直接根据目标图像分析用户潜在的信息提取意图，例如，目标图像中有大量的文字，经过文字识别场景特征分类模块提取特征并分类后，得到目标图像与对应于文字识别的图像信息提取场景的匹配度较高，即认为用户的信息提取意图可能为提取并识别目标图像中的文字。需要说明的是，一个目标图像可能存在多个匹配度较高的图像信息提取场景。

可以理解的是，上述举例仅出于示例的目的，本发明的实施例不限于此。

实施例一

图1为本发明实施例一所提供的基于语音输入的图像信息提取分析方法流程图，如图1所示，该方法包括：

S101、根据用户输入的语音，获取用户的信息提取意图。

利用声学传感器，获取用户输入的语音，之后，通过语音识别技术将所获取的用户输入的语音转换为对应的文字信息，并将所得到的文字信息作为用户的信息提取意图。

更进一步地，为了能够更为准确地获取匹配的图像信息提取场景，可以对语音识别之后得到的文字信息进行进一步处理，具体可以包括：对语音识别后得到的文字信息进行分词处理，之后进行语义分析，提取其中的关键词组，如“商品”、“谁”、“什么”等，而过滤其中的介词、助词等对语义信息影响较小的词，如“很”、“非常”、“了”等，最后，将分词和语义分析后所得到关键词组作为用户的信息提取意图。分词和语义分析均为现有技术，在此不再赘述。

S102、根据所述用户的信息提取意图查询图像信息提取场景库，获取与用户的信息提取意图匹配的图像信息提取场景。

根据所获取的用户的信息提取意图查询图像信息提取场景库，并从图像信息提取场景库中获取一个或多个对应的图像信息提取场景。具体的查询方法可以是：查询图像信息提取场景库中文字描述标签与所获取的用户的信息提取意图匹配的图像信息提取场景，在查询过程中为每一个图像信息提取场景设定场景权重值，图像信息提取场景的文字描述标签与所获取的用户的信息提取意图的匹配程度越高，那么该图像信息提取场景的场景权重值也就越高，之后，将场景权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。

更进一步地，本步骤还可以结合图像信息提取场景的场景特征分类模块来完成，如图2所示，具体可以通过下述方法实现：

用各个场景特征分类模块对目标图像进行特征提取，并进行分类，得到目标图像与各个图像信息提取场景的匹配度，根据该匹配度为图像信息提取场景设定特征权重，匹配度越高的图像信息提取场景特征权重值也就越高。最后，综合通过文字描述标签匹配与通过场景特征分类模块匹配的结果，选取一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景，具体综合上述两者匹配结果的方法可以为：将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值相加，得到图像信息提取场景的综合权重值；或者，将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值分别乘以预先设定的系数后再相加，得到图像信息提取场景的综合权重值，选取综合权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。

结合特征分类模块能够更为准确地获取与用户的信息提取意图匹配的图像信息提取场景，同时，特征分类模块也可以在用户输入的语音无效的情况下单独工作，获取与目标图像匹配的图像信息提取场景。

更进一步地，可以将所匹配得到的一个或多个图像信息提取场景以文字或者语音的形式反馈给用户，由用户进行确认或舍弃，若得到用户的确认，则选取该一个或多个图像信息提取场景进入后续的信息提取分析步骤；若用户选择舍弃，则忽略本次所匹配得到的一个或多个图像信息提取场景，等待用户重新输入语音，并进行再次匹配。或者，当匹配得到多个图像信息提取场景时，可以以文字或者语音的形式反馈给用户，由用户选择其中的一个或多个图像信息提取场景进入后续信息提取分析步骤。需要说明的是，用户反馈的步骤并不是本发明的必须步骤，具体实施时可以直接基于匹配得到的图像信息提取场景进入后续信息提取分析步骤。

S103、根据所述与用户的信息提取意图匹配的图像信息提取场景提取目标图像中的对应信息并进行分析识别，将分析识别结果返回给用户。

根据步骤S102中所获取的与用户的信息提取意图匹配的图像信息提取场景，提取目标图像中的对应信息并进行相应分析。不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析识别，例如，对应于文字翻译的图像信息提取场景可以提取目标图像中的文字信息并进行分析，翻译为对应的语言，对应于Logo识别的图像信息提取场景可以提取目标图像中的Logo并进行识别，识别是什么Logo，对应于明星识别的图像信息提取场景可以提取目标图像中的人物并进行识别，识别是哪一个明星。最后，将分析结果返回给用户。可以理解的是，上述举例仅出于示例的目的，本发明的实施例不限于此。

当在步骤S102中获取到多个与用户的信息提取意图匹配的图像信息提取场景时，可以根据该多个图像信息提取场景提取目标图像中的对应信息并进行相应的分析识别，之后将分析识别结果分别返回给用户。

更进一步地，在得到分析结果后，可以扩展所得分析结果的相关信息并返回给用户，例如，对应于Logo识别的图像信息提取场景在识别出目标图像中的Logo后，可以进一步在互联网抓取该Logo的介绍资讯等相关信息返回给用户，对应于明星识别的图像信息提取场景在识别出目标图像中的人物是哪一个明星后，可以进一步在互联网抓取该明星的简介等相关信息返回给用户。可以理解的是，上述举例仅出于示例的目的，本发明的实施例不限于此。

通过上述对本发明所提供的方法的描述可以看出，本发明通过预先建立图像信息提取场景库，能够根据用户输入的语音，获取匹配的图像信息提取场景，来提取目标图像中的对应信息并进行对应的分析处理。通过本发明所提供的方法，可以综合目前已有的不同类别的图像信息提取软件的功能，同时，在需要扩展功能时，也只需要在图像信息提取场景库中增加图像信息提取场景即可，大大增强了可扩展性。

实施例二

图3为本发明实施例二所提供的基于语音输入的图像信息提取分析装置示意图，如图3所示，该装置包括：预处理单元10、匹配单元20、分析单元30。

预处理单元10，用于根据用户输入的语音，获取用户的信息提取意图。

预处理单元10利用声学传感器，获取用户输入的语音，之后，通过语音识别技术将所获取的用户输入的语音转换为对应的文字信息，并将所得到的文字信息作为用户的信息提取意图。

更进一步地，为了能够更为准确地获取匹配的图像信息提取场景，预处理单元10可以对语音识别之后得到的文字信息进行进一步处理，具体可以包括：对语音识别后得到的文字信息进行分词处理，之后进行语义分析，提取其中的关键词组，如“商品”、“谁”、“什么”等，而过滤其中的介词、助词等对语义信息影响较小的词，如“很”、“非常”、“了”等，最后，将分词和语义分析后所得到关键词组作为用户的信息提取意图。分词和语义分析均为现有技术，在此不再赘述。

匹配单元20，用于根据所述预处理单元获取的用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景。

匹配单元20根据所获取的用户的信息提取意图查询图像信息提取场景库，并从图像信息提取场景库中获取一个或多个对应的图像信息提取场景。具体的查询可以执行下述操作：查询图像信息提取场景库中文字描述标签与所获取的用户的信息提取意图匹配的图像信息提取场景，在查询过程中为每一个图像信息提取场景设定场景权重值，图像信息提取场景的文字描述标签与所获取的用户的信息提取意图的匹配程度越高，那么该图像信息提取场景的场景权重值也就越高，之后，将权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。

更进一步地，匹配单元20还可以结合图像信息提取场景的场景特征分类模块来执行本操作，具体可以执行：用各个场景特征分类模块对目标图像进行特征提取，并进行分类，得到目标图像与各个图像信息提取场景的匹配度，根据该匹配度为图像信息提取场景设定特征权重，匹配度越高的图像信息提取场景的特征权重值也就越高。最后，综合通过文字描述标签匹配与通过场景特征分类模块匹配的结果，选取一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景，具体综合上述两者匹配结果的方法可以为：将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值相加，得到图像信息提取场景的综合权重值；或者，将通过文字描述标签匹配得到的图像信息提取场景的场景权重值与通过场景特征分类模块匹配得到的图像信息提取场景的特征权重值分别乘以预先设定的系数后再相加，得到图像信息提取场景的综合权重值，选取综合权重值高于某一预先设定数值的一个或多个图像信息提取场景作为与用户的信息提取意图匹配的图像信息提取场景。

更进一步地，匹配单元20可以将所匹配得到的一个或多个图像信息提取场景以文字或者语音的形式反馈给用户，由用户进行确认或舍弃，若得到用户的确认，则选取该一个或多个图像信息提取场景进入后续的信息提取分析步骤；若用户选择舍弃，则忽略本次所匹配得到的一个或多个图像信息提取场景，等待用户重新输入语音，并进行再次匹配。或者，当匹配得到多个图像信息提取场景时，可以以文字或者语音的形式反馈给用户，由用户选择其中的一个或多个图像信息提取场景进入后续信息提取分析步骤。

分析单元30，用于根据所述匹配单元获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。

分析单元30根据匹配单元20所获取的与用户的信息提取意图匹配的图像信息提取场景，提取目标图像中的对应信息并进行相应分析。不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析识别，例如，对应于文字翻译的图像信息提取场景可以提取目标图像中的文字信息并进行分析，翻译为对应的语言，对应于Logo识别的图像信息提取场景可以提取目标图像中的Logo并进行识别，识别是什么Logo，对应于明星识别的图像信息提取场景可以提取目标图像中的人物并进行识别，识别是哪一个明星。最后，将分析结果返回给用户。可以理解的是，上述举例仅出于示例的目的，本发明的实施例不限于此。

当分析单元30获取到多个与用户的信息提取意图匹配的图像信息提取场景时，可以根据该多个图像信息提取场景提取目标图像中的对应信息并进行相应的分析识别，之后将分析识别结果分别返回给用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于语音输入的图像信息提取分析方法，其特征在于，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该方法包括：

S1、根据用户输入的语音，获取用户的信息提取意图；

2.根据权利要求1所述的方法，其特征在于，所述获取用户的信息提取意图具体包括：将所述用户输入的语音通过语音识别转换为文字信息，并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括：

4.根据权利要求1或3所述的方法，其特征在于，在所述步骤S2中进一步包括：将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户；

5.根据权利要求1所述的方法，其特征在于，所述步骤S3进一步包括：抓取所述识别结果对应的扩展知识信息，并将所述扩展知识信息返回给用户。

6.一种基于语音输入的图像信息提取分析装置，其特征在于，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该装置包括：

7.根据权利要求6所述的装置，其特征在于，所述预处理单元获取用户的信息提取意图时，具体执行：将所述用户输入的语音通过语音识别转换为文字信息，并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。

8.根据权利要求6所述的装置，其特征在于，所述匹配单元获取匹配得到的文字描述标签对应的图像信息提取场景时，具体执行：

9.根据权利要求6或8所述的装置，其特征在于，所述匹配单元进一步执行：将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户；

10.根据权利要求6所述的装置，其特征在于，所述分析单元进一步执行：抓取所述识别结果对应的扩展知识信息，并将所述扩展知识信息返回给用户。