CN112926300A

CN112926300A - 图像搜索方法、图像搜索装置及终端设备

Info

Publication number: CN112926300A
Application number: CN202110345613.9A
Authority: CN
Inventors: 刘祺
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-08

Abstract

本发明实施例公开了一种图像搜索方法、图像搜索装置及终端设备，图像搜索方法包括，接收并识别用户语音，得到所述用户语音对应的文本；采用语音分析模型对所述文本进行语义分析，得到语音关键词；采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词；在索引数据库中查找与所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。本发明实施例提供的图像搜索方法使得机器人实现了基于语音的图片搜索及显示。

Description

图像搜索方法、图像搜索装置及终端设备

技术领域

本发明涉及搜索技术领域，尤其涉及一种图像搜索方法、图像搜索装置及终端设备。

背景技术

近年来，随着智能手机拍照技术的普及，用户产生的数据从传统的文本逐渐过渡到文本和图像并存，但是海量的图像造成对图像搜索的需求，要求图像搜索的速度、准确度和存储容量提出更高的要求。

传统的搜索引擎多数是基于文本的搜索，而且应用场景多数基于用户在电脑界面或者手机界面的文字输入。而在与机器人对话的场景下，用户的输入是语音，当用户需要从语音问答中，让机器人在机器显示屏幕显示自己想要的图片的时候，传统的搜索引擎架构并不能解决这样的搜索场景问题。

可见，现有机器人无法实现基于语音的图片搜索及显示。

发明内容

有鉴于此，本申请实施例的目的是提供一种图像搜索方法、图像搜索装置及终端设备，能够解决现有机器人无法实现基于语音的图片搜索及显示的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种图像搜索方法，包括：

接收并识别用户语音，得到所述用户语音对应的文本；

采用语音分析模型对所述文本进行语义分析，得到语音关键词；

采用文本相似度算法，得到与所述搜索关键词及所述语音关键词相似度较大的预设数量的搜索关键词；

在索引数据库中查找与所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。

根据本申请公开的一种具体实施方式，所述采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词，包括：

将所述语音关键词输入至预先训练好的word2vec模型，得到多个与所述语音关键词相似的相似关键词；

计算所述语音关键词与每个所述相似关键词的语义距离；

将所述语义距离按照由大到小的顺序排列，并将所述语义距离较大的预设数量的相似关键词作为搜索关键词。

根据本申请公开的一种具体实施方式，所述索引数据库的建立步骤，包括：

获取所述机器人拍摄的待分类图像；

将所述待分类图像输入至图像分类模型，得到所述待分类图像的类别标签，其中，所述类别标签包括类别名称、类别名称得分、物体坐标；

基于所述待分类图像的类别标签，构建所述待分类图像的倒排索引；

将所述待分类图像和所述倒排索引存储至HDFS，以建立所述索引数据库。

根据本申请公开的一种具体实施方式，所述获取所述机器人拍摄的待分类图像，包括：

获取所述机器人拍摄的图像；

判断所述图像的图片是否能被识别；

将能被识别的所述图像作为待分类图像。

根据本申请公开的一种具体实施方式，所述图像分类模型的建立步骤，包括：

获取多张带有类别标签的训练图像，并将具有相同类别名称的训练图像归类；

对所述训练图像进行清洗，并剔除无法被识别的所述训练图像，得到预处理图像；

对所述预处理图像进行数据增强，得到多张增强图像，将所述预处理图像与所述多张增强图像作为训练集；

将所述训练集输入至VGG16网络模型，学习训练得到图像分类模型。

第二方面，本申请实施例提供了一种图像搜索装置，包括：

识别模块，用于接收并识别用户语音，得到所述用户语音对应的文本；

语义分析模块，用于采用语音分析模型对所述文本进行语义分析，得到语音关键词；

搜索关键词获取模块，用于采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词；

查找模块，用于在索引数据库中查找与所述搜索关键词及所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。

根据本申请公开的一种具体实施方式，所述搜索关键词获取模块包括：

相似关键词获取子模块，用于将所述语音关键词输入至预先训练好的word2vec模型，得到多个与所述语音关键词相似的相似关键词；

计算子模块，用于计算所述语音关键词与每个所述相似关键词的语义距离；

搜索关键词获取子模块，用于将所述语义距离按照由大到小的顺序排列，并将所述语义距离较小的预设数量的相似关键词作为搜索关键词。

根据本申请公开的一种具体实施方式，所述图像搜索装置还包括索引数据库建立模块，所述索引数据库建立模块包括：

待分类图像获取子模块，用于获取所述机器人拍摄的待分类图像；

类别标签获取子模块，用于将所述待分类图像输入至图像分类模型，得到所述待分类图像的类别标签，其中，所述类别标签包括类别名称、类别名称得分、物体坐标；

构建子模块，用于基于所述待分类图像的类别标签，构建所述待分类图像的倒排索引；

存储子模块，用于将所述待分类图像和所述倒排索引存储至HDFS，以建立所述索引数据库。

第三方面，本申请实施例提供了一种终端设备，包括处理器和存储器，所述存储器上存储有程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

本申请的上述实施例提供的图像搜索方法、图像搜索装置及终端设备，接收并识别用户语音，得到所述用户语音对应的文本；采用语音分析模型对所述文本进行语义分析，得到语音关键词；采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词；在索引数据库中查找与所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。这样，使得机器人实现了基于语音的图片搜索及显示。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的一种图像搜索方法的流程图；

图2示出了本申请实施例提供的一种索引数据库的建立步骤的流程图；

图3示出了本申请实施例提供的一种图像搜索装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

请参阅图1，图1为本申请实施例提供的图像搜索方法的流程图，如图1所示，该方法包括以下步骤：

步骤101、接收并识别用户语音，得到所述用户语音对应的文本。

本发明实施例中提供的图像搜索方法主要应用于用户与机器人进行语音对话的场景中，解决现有技术中用户无法通过语音让机器人搜索并显示图片的技术问题，并提高搜索的准确性。

具体的，机器人通常设置有麦克风等具有语音采集功能的语音输入模块，用户可以通过语音输入模块输入语音。在接收到用户语音之后，可以通过语音识别技术识别用户语音，进而得到用户语音对应的文本。

步骤102、采用语音分析模型对所述文本进行语义分析，得到语音关键词。

具体的，在本实施例中使用HanLP对所述文本进行语义分析，进而得到语音关键词。HanLP，即Han Language Processing，是一种自然语言处理工具，具有多种处理方式，可以实现中文分词、词性标注、实体识别等功能。通常情况下，用户语音对应的文本里包括了一系列的词汇，使用HanLP可以提取出关键的部分。例如，用户说：“你好，请帮我查找樱桃。”使用HanLP对经步骤101识别后得到的文本进行语义分析，剔除其他用语，得到语音关键词“樱桃”。

步骤103、采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词。

具体的，考虑到现有的搜索都是文本搜索，而且文本搜索很多只能基于文字的精确分词，因此为了增加搜索关键词的数量，提高搜索到的图像的准确性，在一种可选的实施方式中，上述步骤103，包括：

计算所述语音关键词与每个所述相似关键词的语义距离；

具体的，word2vec模型的训练过程，一般是先获取大型网站(例如维基百科)的数据，将数据导出、转为简体后存成文件或其他静态形式后输入至word2vec模型进行学习训练，这样量级别的语料才可以适应运行环境的要求。

进一步的，本实施例中的语义距离是通过余弦相似度来体现的。余弦相似性是通过测量两个向量的夹角的余弦值来度量它们之间的相似性，从而通过两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。例如，输入“山东”和“江苏”，得到两个词汇的语义距离为0.818；而输入“山东”和“上班”，得到两个词汇的语义距离为0.250。因此，选取语义距离较大的预设数量的相似关键词作为搜索关键词。

承接步骤103中得到的樱桃，在步骤104中还可以得到车厘子作为搜索关键词，使得查找时既可以查找到樱桃的图像，还可以查找到车厘子的图像。本实施例中通过采用文本相似度算法，得到了与所述语音关键词相似度较大的预设数量的搜索关键词，增加了搜索关键词的数量，提高了搜索到的图像的准确性。可以理解的是，搜索关键词的数量可以根据具体需求设定，本实施例对此不作限定。

步骤104、在索引数据库中查找与所述搜索关键词及所述预设数量的搜索关键词对应的匹配图像，以使所述机器人显示所述匹配图像。

具体的，索引数据库可以通过机器人自行拍摄图像建立。由于索引数据库中的图像来自机器人，都是机器人在运行过程中拍摄的，与机器人运行环境息息相关，因此可以提高索引数据库的准确性。在一种可选的实施方式中，请参阅图2，图2示出了本申请实施例提供的一种索引数据库的建立步骤的流程图，如图2所示，索引数据库的建立步骤，包括：

步骤1041、获取所述机器人拍摄的待分类图像。

机器人通常设置有摄像头等具有图像采集功能的图像采集模块，机器人可以通过图像采集模块采集待分类图像。

为了保证待分类图像的准确性，在一种可选的实施方式中，上述步骤1041，包括：

获取所述机器人拍摄的图像；

判断所述图像的图片是否能被识别；

将能被识别的所述图像作为待分类图像。

具体的，机器人拍摄的图像中可能会存在无法被识别的图像，因此可以先将无法被识别的图像剔除。判断所述图像的图片是否能被识别，是通过判断图像是否可以被OpenCV读取实现的，遍历所有图像，并将图像读入，将无法被识别的图像剔除，将能被识别的所述图像作为待分类图像，保证数据集的正确性，降低图像处理的数据量。

步骤1042、将所述待分类图像输入至图像分类模型，得到所述待分类图像的类别标签，其中，所述类别标签包括类别名称、类别名称得分、物体坐标。

具体的，在本实施例中，采用了分布式定时任务来完成索引数据库的建立。即定时启动图片的分类过程，并通过集群的方式进行管理调度，从而降低了开发和维护成本；同时分布式部署，保证了系统的高可用性，提高了容错率。

所述类别标签可以为“apple，0.824，[40,22,152,143]”，其中，apple表示类别名称，0.824表示类别名称得分，[40,22,152,143]表示物体坐标，即类别名称表示的物体apple在图像中的坐标。一张图像中可以包括多个物体，因此可以包括多个类别标签，在此不再穷举。

在一种可选的实施方式中，图像分类模型的建立步骤，包括：

具体的，训练图像的获取主要通过爬取网站图片的方式获取，并将具有相同类别名称的训练图像放在同一文件夹中实现归类；对训练图像进行清洗并剔除无法被OpenCV读取的训练图像，都是为了提高训练图像的准确性；由于数据集的数量太少时，得出的模型可能存在模型泛化能力不强的情况，因此利用数据增强，对图片集进行随即旋转、平移变换、缩放变换、剪切变换、水平翻转等操作，使得每张训练图像得到多张增强处理后的增强图像，并将预处理图像与多张增强图像作为训练集保存，使得训练图像的数量得到扩大，本实施例中增强图像的数量设置为50；将训练集输入至VGG16网络模型学习训练，将每次基于不同的batch、epoch、size的测试loss、accuracy写入txt文本，得到折线图，并不断调整参数得出最佳模型。

步骤1043、基于所述待分类图像的类别标签，构建所述待分类图像的倒排索引。

具体的，倒排索引指的是由分词快速寻找包含这个分词的结果的过程。因此，基于所述待分类图像的类别标签，构建所述待分类图像的倒排索引后，可以迅速的通过搜索关键词，得到搜索关键词对应的图像。

步骤1044、将所述待分类图像和所述倒排索引存储至HDFS，以建立所述索引数据库。

具体的，HDFS即Hadoop Distributed File System，是指被设计成适合运行在通用硬件上的分布式文件系统。本实施例将待分类图像和倒排索引存储至HDFS，满足能够存储海量数据和动态扩容的要求。

本申请实施例中提供的图像搜索方法，接收并识别用户语音，得到所述用户语音对应的文本；采用语音分析模型对所述文本进行语义分析，得到语音关键词；采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词；在索引数据库中查找与所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。这样，使得机器人实现了基于语音的图片搜索及显示。

与上述方法实施例相对应，请参见图3，图3为本申请实施例提供的图像搜索装置的结构示意图，如图3所示，图像搜索装置1000包括：

识别模块1001，用于接收并识别用户语音，得到所述用户语音对应的文本；

语义分析模块1002，用于采用语音分析模型对所述文本进行语义分析，得到语音关键词；

搜索关键词获取模块1003，用于采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词；

查找模块1004，用于在索引数据库中查找与所述搜索关键词及所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。

可选的，搜索关键词获取模块1003包括：

可选的，图像搜索装置1000还包括索引数据库建立模块，所述索引数据库建立模块包括：

本申请实施例提供的图像搜索装置能够实现图1的方法实施例中图像搜索方法的各个过程，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种终端设备，包括处理器，存储器，所述存储器上存储有程序或指令，该程序或指令被处理器执行时实现上述图像搜索方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像搜索方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的终端设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种图像搜索方法，其特征在于，包括：

接收并识别用户语音，得到所述用户语音对应的文本；

采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词；

在索引数据库中查找与所述搜索关键词及所述预设数量的搜索关键词对应的匹配图像，以使机器人显示所述匹配图像。

2.根据权利要求1所述的方法，其特征在于，所述采用文本相似度算法，得到与所述语音关键词相似度较大的预设数量的搜索关键词，包括：

计算所述语音关键词与每个所述相似关键词的语义距离；

3.根据权利要求1所述的方法，其特征在于，所述索引数据库的建立步骤，包括：

获取所述机器人拍摄的待分类图像；

4.根据权利要求3所述的方法，其特征在于，所述获取所述机器人拍摄的待分类图像，包括：

获取所述机器人拍摄的图像；

判断所述图像的图片是否能被识别；

将能被识别的所述图像作为待分类图像。

5.根据权利要求3所述的方法，其特征在于，所述图像分类模型的建立步骤，包括：

6.一种图像搜索装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述搜索关键词获取模块包括：

8.根据权利要求6所述的装置，其特征在于，还包括索引数据库建立模块，所述索引数据库建立模块包括：

9.一种终端设备，其特征在于，包括处理器和存储器，所述存储器上存储有程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5中任一项所述的图像搜索方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5中任一项所述的图像搜索方法的步骤。