CN104866275A

CN104866275A - 一种用于获取图像信息的方法和装置

Info

Publication number: CN104866275A
Application number: CN201510134798.3A
Authority: CN
Inventors: 翟莉莉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2015-08-26
Anticipated expiration: 2035-03-25
Also published as: CN104866275B

Abstract

本发明的目的是提供一种用于获取图像信息的方法和装置。根据本发明的方法包括以下步骤：获取声音信息；根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现。本发明还提供了一种用于获取图像信息的图像获取装置，其中，所述图像获取装置包括：用于获取声音信息的装置；用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置。

Description

一种用于获取图像信息的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于获取图像信息的方法和装置。

背景技术

随着语音输入等方式日益得到普遍应用，当前逐步出现了可通过语音识别技术将用户输入的语音信息转换为对应的文字信息来进行呈现的方式，然而，该种输出形式较为单一，并且对于用户来说并不直观。

发明内容

本发明的目的是提供一种用于获取图像信息的方法和装置。

根据本发明的一个方面，提供了一种获取图像信息的方法，其中，所述方法包括以下步骤：

-获取声音信息；

-根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现。

根据本发明的一个方面，还提供了一种获取图像信息的图像获取装置，其中，所述图像获取装置包括：

用于获取声音信息的装置；

用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置。

与现有技术相比，本发明具有以下优点：根据本发明的方案能够基于用户输入的声音信息得到与该声音信息相匹配的图片或颜文字等图像信息并进行呈现，丰富了声音信息的输出形式，提升了语音输入过程的趣味性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示意出了根据本发明的一种获取图像信息的方法流程图；

图2示意出了根据本发明的一种用于获取图像信息的图像获取装置的结构示意图；

图3示意出了根据本发明的一个示例性的语音输入界面的示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示意出了根据本发明的一种用于获取图像信息的方法流程图。根据本发明的方法包括步骤S1和步骤S2。

其中，根据本发明的方法通过包含于计算机设备中的图像获取装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备与移动终端。

优选地，所述图像获取装置包含于移动终端中。

其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

其中，所述移动终端包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品，例如，手提电脑、平板电脑、智能手机、PDA或掌上游戏机等。

其中，所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述移动终端、网络设备以及网络仅为举例，其他现有的或今后可能出现的移动终端、网络设备以及网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

参照图1，在步骤S1中，图像获取装置获取声音信息。

其中，所述声音信息包括但不限于以下至少任一种信息：

1)语音信息，所述语音信息包括各类可对应至各类语言文字的声音信息。

2)非语音信息，各类不对应语言文字的声音信息，例如，背景音乐，又例如诸如鸟鸣、流水、汽笛等各类效果音，又例如人声的哼唱声等等。

在步骤S2中，图像获取装置根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现。

其中，所述图像信息包括但不限于以下任一种：

1)颜文字信息；

2)图片信息。

具体地，图像获取装置根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息的方式包括但不限于以下任一种：

1)当所述声音信息中包括语音信息时，图像获取装置对所述声音信息进行语音识别，以确定与所述声音信息对应的文字信息；接着，图像获取装置获取与所述文字信息对应的一个或多个图像信息，以进行呈现。

例如，图像获取装置识别声音信息中包含的语音信息对应文字信息“谢谢”，并在图片和颜文字数据库中搜索与该文字信息，获得与该文字信息对应的颜文字“O(∩_∩)O”，并将该颜文字作为与该声音信息对应的图像信息。

其中，所述图像获取装置获取与所述文字信息对应的一个或多个图像信息，以进行呈现的步骤进一步包括步骤S201(图未示)和步骤S202(图未示)。

在步骤S201中，图像获取装置获取与所述文字信息对应的一个或多个图像信息。

具体地，图像获取装置通过在预定的文字信息和图形信息的对应关系中进行匹配查询，来获取相匹配的一个或多个图像信息。

接着，在步骤S202中，图像获取装置将所述文字信息与所述一个或多个图像信息相结合地进行呈现。

例如，将通过语音识别得到的文字信息和与其相匹配一个或多个图像信息一并进行呈现，又例如，将得到的一个或多个图像信息替代相应的文字信息进行呈现。

根据本发明的第一示例，图像获取装置包含于一智能手机中，图像获取装置在步骤S1中获取用户在该智能手机的语音提醒应用中输入的一段语音信息作为声音信息sound_1，并在步骤S2中对声音信息sound_1进行语音识别，得到对应的文字信息text_1“周六下午十点和德芙小鱼一起去家乐福买些好吃的吧”。接着，图像获取装置基于识别出的文字信息text_1在预定的文字信息和图形信息的对应关系中进行匹配查询，得到与该文字信息text_1中的“好吃的”相匹配的图像信息image_1，并将文字信息text_1和图像信息image_1一并进行呈现，如图3所示。

2)图像获取装置根据所述声音信息中的部分或全部声音信息执行匹配查询，以获取与声音信息对应的一个或多个预存音频；接着，根据与所述一个或多个预存音频分别对应的图像信息来确定与所述声音信息对应的一个或多个图像信息。

根据本发明的第二示例，包含于平板电脑的图像获取装置在步骤S1中获取用户在社交应用中输入的语音信息作为声音信息sound_2。接着，图像获取装置根据声音信息sound_2的全部声音信息在存储预存音频的数据库中，基于该声音信息sound_2的音轨信息执行匹配查询，并获取到与其音轨匹配度达到预定阈值的两个预存音频audio_1和audio_2，并将预定的分别对应于audio_1和audio_2的图片pic_1和pic_2作为与声音信息sound_2对应的图像信息。

3)图像获取装置识别与所述声音信息对应的一个或多个主题信息，并根据所识别出的各个主题信息来确定与该声音信息对应的一个或多个图像信息。

其中，所述主题信息包括通过对声音信息识别所确定的、与该声音信息内容相关的各类信息。

例如，图像获取装置根据从一声音信息中识别出的鸟鸣声，确定该声音信息与“鸟类”这一主题信息相关，并获取与鸟类相关图片和/或颜文字作为与该声音信息对应的图像信息。

又例如，图像获取装置根据从一声音信息中识别出的鞭炮声与歌曲曲调，确定该声音信息的主题信息为“春节”，并获取与春节相关的一个或多个图片和/或颜文字作为与该声音信息对应的图像信息。

优选地，图像获取装置还可将所述声音信息发送至相应的网络设备，以接收该网络设备基于所声音信息反馈的与其对应的一个或多个图像信息。

根据本发明的一个优选实施方案，根据本发明的方法还包括步骤S3(图未示)和步骤S4(图未示)。

在步骤S3中，图像获取装置获取对所述一个或多个图像信息的选择操作。

其中，所述选择操作包括各种可用于选择一个或多个图像信息来进行呈现的操作，例如，触屏设备中的点击、双击、长按等操作。

在步骤S4中，图像获取装置基于所述选择操作，来呈现与所述声音信息对应的、所述一个或多个图像信息中的至少一个图像信息。

继续对前述第二示例进行说明，图像获取装置在图像选择界面中显示与声音信息sound_2对应的图片pic_1和pic_2，以供该用户选择其想要呈现的图像，并且，在步骤S3中获取到该用户的选择操作“点击pic_1”，接着基于该选择操作，呈现所选择的、与声音信息sound_2对应的图片pic_1。

根据本发明的方法，能够基于用户输入的声音信息得到与该声音信息相匹配的图片或颜文字等图像信息并进行呈现，丰富了声音信息的输出形式，提升了语音输入过程的趣味性。

图2示意出了根据本发明的一种用于获取图像信息的图像获取装置的结构示意图。根据本发明的图像获取装置包括：用于获取声音信息的装置(以下简称“获取装置1”)；用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置(以下简称“确定装置2”)。

参照图2，获取装置1获取声音信息。

其中，所述声音信息包括但不限于以下至少任一种信息：

确定装置2根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现。

其中，所述图像信息包括但不限于以下任一种：

1)颜文字信息；

2)图片信息。

具体地，确定装置2根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息的方式包括但不限于以下任一种：

1)当所述声音信息中包括语音信息时，所述确定装置2包括：用于对所述声音信息进行语音识别，以确定与所述声音信息对应的文字信息的装置(图未示，以下简称“语音识别装置”)，以及获取与所述文字信息对应的一个或多个图像信息，以进行呈现的装置(图未示，以下简称“图像获取装置”)。

语音识别装置对所述声音信息进行语音识别，以确定与所述声音信息对应的文字信息；接着，图像获取装置获取与所述文字信息对应的一个或多个图像信息，以进行呈现。

例如，语音识别装置识别声音信息中包含的语音信息对应文字信息“谢谢”，图像获取装置在图片和颜文字数据库中搜索与该文字信息，获得与该文字信息对应的颜文字“O(∩_∩)O”，并将该颜文字作为与该声音信息对应的图像信息。

其中，所述图像获取装置进一步包括用于获取与所述文字信息对应的一个或多个图像信息的装置(图未示，以下简称“子获取装置”)，以及用于将所述文字信息与所述一个或多个图像信息相结合地进行呈现的装置(图未示，以下简称“呈现装置”)。

子获取装置获取与所述文字信息对应的一个或多个图像信息。

具体地，子获取装置通过在预定的文字信息和图形信息的对应关系中进行匹配查询，来获取相匹配的一个或多个图像信息。

接着，呈现装置将所述文字信息与所述一个或多个图像信息相结合地进行呈现。

根据本发明的第一示例，图像获取装置包含于一智能手机中，获取装置1获取用户在该智能手机的语音提醒应用中输入的一段语音信息作为声音信息sound_1，语音识别装置对声音信息sound_1进行语音识别，得到对应的文字信息text_1“周六下午十点和德芙小鱼一起去家乐福买些好吃的吧”。接着，子获取装幌子基于识别出的文字信息text_1在预定的文字信息和图形信息的对应关系中进行匹配查询，得到与该文字信息text_1中的“好吃的”相匹配的图像信息image_1，呈现装置将文字信息text_1和图像信息image_1一并进行呈现，如图3所示。

2)所述确定装置2还包括：用于根据所述声音信息中的部分或全部声音信息执行匹配查询，以获取与声音信息对应的一个或多个预存音频的装置(图未示，以下简称“声音匹配装置”)；用于根据与所述一个或多个预存音频分别对应的图像信息来确定与所述声音信息对应的一个或多个图像信息的装置(图未示，以下简称“第一确定装置”)。

声音匹配装置根据所述声音信息中的部分或全部声音信息执行匹配查询，以获取与声音信息对应的一个或多个预存音频；接着，第一确定装置根据与所述一个或多个预存音频分别对应的图像信息来确定与所述声音信息对应的一个或多个图像信息。

根据本发明的第二示例，包含于平板电脑的获取装置1获取用户在社交应用中输入的语音信息作为声音信息sound_2。接着，声音匹配装置根据声音信息sound_2的全部声音信息在存储预存音频的数据库中，基于该声音信息sound_2的音轨信息执行匹配查询，并获取到与其音轨匹配度达到预定阈值的两个预存音频audio_1和audio_2，第一确定装置将预定的分别对应于audio_1和audio_2的图片pic_1和pic_2作为与声音信息sound_2对应的图像信息。

3)所述确定装置2还包括用于识别与所述声音信息对应的一个或多个主题信息，并根据所识别出的各个主题信息来确定与该声音信息对应的一个或多个图像信息的装置(图未示，以下简称“第二确定装置”)。

第二确定装置识别与所述声音信息对应的一个或多个主题信息，并根据所识别出的各个主题信息来确定与该声音信息对应的一个或多个图像信息。

例如，第二确定装置置根据从一声音信息中识别出的鸟鸣声，确定该声音信息与“鸟类”这一主题信息相关，并获取与鸟类相关图片和/或颜文字作为与该声音信息对应的图像信息。

又例如，第二确定装置根据从一声音信息中识别出的鞭炮声与歌曲曲调，确定该声音信息的主题信息为“春节”，并获取与春节相关的一个或多个图片和/或颜文字作为与该声音信息对应的图像信息。

优选地，确定装置2还可将所述声音信息发送至相应的网络设备，以接收该网络设备基于所声音信息反馈的与其对应的一个或多个图像信息。

根据本发明的一个优选实施方案，根据本发明的图像获取装置还包括：用于获取对所述一个或多个图像信息的选择操作的装置(图未示，以下简称“选择获取装置”)和用于基于所述选择操作，来呈现与所述声音信息对应的、所述一个或多个图像信息中的至少一个图像信息的装置(图未示，以下简称“选择呈现装置”)。

选择获取装置获取对所述一个或多个图像信息的选择操作。

选择呈现装置基于所述选择操作，来呈现与所述声音信息对应的、所述一个或多个图像信息中的至少一个图像信息。

继续对前述第二示例进行说明，图像获取装置在图像选择界面中显示与声音信息sound_2对应的图片pic_1和pic_2，以供该用户选择其想要呈现的图像，并且，选择获取装置获取到该用户的选择操作“点击pic_1”，接着选择呈现装置基于该选择操作，呈现所选择的、与声音信息sound_2对应的图片pic_1。

根据本发明的方案，能够基于用户输入的声音信息得到与该声音信息相匹配的图片或颜文字等图像信息并进行呈现，丰富了声音信息的输出形式，提升了语音输入过程的趣味性。

本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个功能或步骤的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例，但是本领域技术人员将会理解的是，在不背离权利要求书的精神和范围的情况下，在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。在下列编号条款中规定了各个实施例的这些和其他方面：

1.一种用于获取图像信息的方法，其中，所述方法包括以下步骤：

-获取声音信息；

2.根据条款1所述的方法，其中，所述根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的步骤还包括以下步骤：

-对所述声音信息进行语音识别，以确定与所述声音信息对应的文字信息；

-获取与所述文字信息对应的一个或多个图像信息，以进行呈现。

3.根据条款2所述的方法，其中，所述获取与所述文字信息对应的一个或多个图像信息，以进行呈现的步骤进一步包括以下步骤：

-获取与所述文字信息对应的一个或多个图像信息；

-将所述文字信息与所述一个或多个图像信息相结合地进行呈现。

4.根据条款1所述的方法，其中，所述根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的步骤还包括以下步骤：

-根据所述声音信息中的部分或全部声音信息执行匹配查询，以获取与声音信息对应的一个或多个预存音频；

-根据与所述一个或多个预存音频分别对应的图像信息来确定与所述声音信息对应的一个或多个图像信息。

5.根据条款1所述的方法，其中，所述根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的步骤还包括以下步骤：

-识别与所述声音信息对应的一个或多个主题信息，并根据所识别出的各个主题信息来确定与该声音信息对应的一个或多个图像信息。

6.根据条款1至4中任一项所述的方法，其中，所述方法还包括以下步骤：

-获取对所述一个或多个图像信息的选择操作；

-基于所述选择操作，来呈现与所述声音信息对应的、所述一个或多个图像信息中的至少一个图像信息。

7.根据条款1至5中任一项所述的方法，其中，所述图像信息包括以下任一种：

-颜文字信息；

-图片信息。

8.一种用于获取图像信息的图像获取装置，其中，所述图像获取装置包括：

用于获取声音信息的装置；

9.根据条款8所述的图像获取装置，其中，所述用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置还包括：

用于对所述声音信息进行语音识别，以确定与所述声音信息对应的文字信息的装置；

用于获取与所述文字信息对应的一个或多个图像信息，以进行呈现的装置。

10.根据条款9所述的图像获取装置，其中，所述用于获取与所述文字信息对应的一个或多个图像信息，以进行呈现的装置进一步包括：

用于获取与所述文字信息对应的一个或多个图像信息的装置；

用于将所述文字信息与所述一个或多个图像信息相结合地进行呈现的装置。

11.根据条款8所述的图像获取装置，其中，所述用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置还包括：

用于根据所述声音信息中的部分或全部声音信息执行匹配查询，以获取与声音信息对应的一个或多个预存音频的装置；

用于根据与所述一个或多个预存音频分别对应的图像信息来确定与所述声音信息对应的一个或多个图像信息的装置。

12.根据条款8所述的方法，其中，所述用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置还包括：

用于识别与所述声音信息对应的一个或多个主题信息，并根据所识别出的各个主题信息来确定与该声音信息对应的一个或多个图像信息的装置。

13.根据条款8至12中任一项所述的图像获取装置，其中，所述图像获取装置还包括：

用于获取对所述一个或多个图像信息的选择操作的装置；

用于基于所述选择操作，来呈现与所述声音信息对应的、所述一个或多个图像信息中的至少一个图像信息的装置。

14.根据条款8至13中任一项所述的图像信息，其中，所述图像信息包括以下任一种：

-颜文字信息；

-图片信息。

Claims

-获取声音信息；

2.根据权利要求1所述的方法，其中，所述根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的步骤还包括以下步骤：

3.根据权利要求2所述的方法，其中，所述获取与所述文字信息对应的一个或多个图像信息，以进行呈现的步骤进一步包括以下步骤：

-获取与所述文字信息对应的一个或多个图像信息；

4.根据权利要求1所述的方法，其中，所述根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的步骤还包括以下步骤：

5.根据权利要求1所述的方法，其中，所述根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的步骤还包括以下步骤：

6.根据权利要求1至4中任一项所述的方法，其中，所述方法还包括以下步骤：

-获取对所述一个或多个图像信息的选择操作；

7.根据权利要求1至5中任一项所述的方法，其中，所述图像信息包括以下任一种：

-颜文字信息；

-图片信息。

用于获取声音信息的装置；

9.根据权利要求8所述的图像获取装置，其中，所述用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置还包括：

10.根据权利要求9所述的图像获取装置，其中，所述用于获取与所述文字信息对应的一个或多个图像信息，以进行呈现的装置进一步包括：

11.根据权利要求8所述的图像获取装置，其中，所述用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置还包括：

12.根据权利要求8所述的方法，其中，所述用于根据所述声音信息，来确定与所述声音信息对应的一个或多个图像信息，以进行呈现的装置还包括：

13.根据权利要求8至12中任一项所述的图像获取装置，其中，所述图像获取装置还包括：

用于获取对所述一个或多个图像信息的选择操作；

14.根据权利要求8至13中任一项所述的图像信息，其中，所述图像信息包括以下任一种：

-颜文字信息；

-图片信息。