CN100454388C

CN100454388C - 信息处理设备和信息处理方法

Info

Publication number: CN100454388C
Application number: CNB2005100742337A
Authority: CN
Inventors: 山田耕平; 山本宽树
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-06-01
Filing date: 2005-05-31
Publication date: 2009-01-21
Anticipated expiration: 2025-05-31
Also published as: EP1603028A2; EP1603028A3; JP2005346259A; KR20060066597A; JP4429081B2; US20050267749A1; ATE553430T1; EP1603028B1; KR100733095B1; CN1705367A

Abstract

一种信息处理设备包括：接收单元，用于接收与数据相关的声音信息；设置单元，用于设置是否将由接收单元接收的声音信息设置为预定处理的对象；和存储单元，用于在存储媒体上与声音信息和表示设置单元的设置结果的信息相关地存储所述数据。

Description

信息处理设备和信息处理方法

技术领域

本发明涉及一种能够使用与数据相关的声音信息来处理数据的信息处理设备。

背景技术

当前，许多数字照相机都具有允许和所拍摄的图像一起输入语音信息的功能。存在多种建议，用于使用附加于图像的语音信息来提供有效的图像组织功能和搜索所期望图像的搜索功能。例如，在日本专利公开文本JP 9-135417中公开了一种使用添加给使用数字照相机拍摄的图像的语音信息在数字照相机上搜索和组织图像的方法。在日本专利公开文本JP 2003-111009中公开了一种在编辑设备中通过识别和使用添加给图像的语音信息来搜索、组织和处理图像的方法。

尽管在上述常规技术中，当搜索、组织和处理图像时对添加给所拍摄图像的所有声音信息执行语音识别，但是声音信息并不仅限于语音，也可以是并不需要语音识别的其它声音，例如用于所拍摄图像的声音效果和环境声音(例如水流的声音、风的声音、等等)等。除语音之外的声音的识别是非常困难的，并可能导致增加的不正确的声音识别。在对除了语音之外的声音执行语音识别处理的情况下，很难将语音识别结果用于搜索和组织图像。

也就是说，在使用声音信息来处理数据的情况下，因为在声音信息中包含多种声音类型，很难适当地执行数据处理。

发明内容

本发明涉及一种能够使用与数据相关的声音信息执行高速和准确的数据处理(例如数据搜索、语音识别、声音分类、等等)的信息处理设备。

在本发明的一个方面，一种信息处理设备包括：图像数据获得单元，被配置为通过捕获图像而获得图像数据；声音信息获得单元，被配置为通过记录声音而获得与图像数据相关的声音信息；设置单元，被配置为设置由所述声音信息获得单元获得的声音信息是否要经受语音识别；和存储单元，被配置为当设置单元设置所述声音信息要经受语音识别时，以相互关联的方式存储所述图像数据、所述声音信息以及指示所述声音信息要经受语音识别的设置信息。

在本发明的另一个方面，一种信息处理设备包括：接收单元，用来接收数据以及与该数据相关的声音信息；设置单元，用来设置是否将由接收单元接收的声音信息设置为数据搜索对象；和存储单元，在设置单元将声音信息设置为数据搜索对象的情况下，与声音信息的语音识别结果相关地存储数据，和在设置单元未将声音信息设置为数据搜索对象的情况下，与未执行语音识别的声音信息相关地存储数据。

在本发明的又一方面，一种信息处理设备包括：接收单元，用来接收数据、与数据相关的声音信息和表示是否将该声音信息用于数据搜索的设置信息；和搜索单元，用来根据声音信息搜索与设置用于数据搜索的设置信息对应的声音信息相关的数据。

在本发明的又一方面，一种信息处理设备包括：接收单元，用来接收数据、与该数据相关的声音信息和表示是否将声音信息设置为语音识别对象的设置信息；语音识别单元，在设置信息设置为语音识别对象的情况下对声音信息执行语音识别；和存储单元，在存储媒体上与该数据相关地存储表示语音识别单元的语音识别结果的信息。

在本发明的另外一个方面，一种信息处理设备包括：接收单元，用来接收数据、与该数据相关的声音信息和表示是否将声音信息设置为声音分类对象的设置信息；分类单元，在设置信息设置为声音分类对象的情况下，将声音信息分类成声音属性；和存储单元，在存储媒体上与数据相关地存储分类单元分类的声音属性。

根据对示范性实施例的下述描述(参考附图)，本发明的其它特征和优点将变得显而易见。

附图说明

图1是根据本发明一种实施例的图像搜索设备的方框图。

图2是图示实现该实施例的图像搜索处理的控制程序模块的方框图。

图3是图示该实施例的图像搜索处理的流程图。

图4A和图4B是包含本发明的数字照相机的透视图。

图5是图示图像搜索处理的控制程序模块的方框图，所述控制程序模块具有用于将与图像相关的声音存储为语音识别对象的功能和用于在存储媒体上与图像相关地存储除了语音识别对象之外的声音属性的功能。

图6是图示图像搜索处理的流程图，所述图像搜索处理包括将与图像相关的声音存储为语音识别对象，和在存储媒体上与图像相关地存储除了语音识别对象之外的声音属性。

图7是实现图像搜索处理的控制程序模块的方框图，所述控制程序模块具有自动地鉴别与图像相关的声音是否是语音的功能。

图8是图示图像搜索过程的流程图，所述图像搜索过程包括自动地鉴别与图像相关的声音是否是语音的处理。

图9是实现图像搜索处理的控制程序模块的方框图，所述控制程序具有自动地鉴别与该图像相关的声音是否是语音的功能和用于在存储媒体上与该图像相关地存储除了语音识别对象之外的声音属性的功能。

图10是图示图像搜索处理过程的流程图，所述图像搜索处理包括自动地鉴别与该图像相关的声音是否是语音，和在存储媒体上与该图像相关地存储除了语音识别对象之外的声音属性。

图11是图示使用环境声音识别实现声音分类的处理的流程图。

具体实施方式

在下文中，将使用附图解释本发明的实施例。在下文中，将本发明的信息处理设备描述为图像搜索设备，它使用与图像数据相关的声音信息搜索图像数据。

图1是根据本发明一种实施例的图像搜索设备的方框图。

声音输入单元101允许使用麦克风等输入声音。操作单元102允许使用按钮、键盘等输入信息。控制单元103使用CPU和存储器(RAM、ROM)等控制设备的各个单元。

图像输入单元104允许使用包含透镜、CMOS传感器等的光设备或扫描仪输入图像。信息显示单元105使用液晶显示器等显示信息。外部存储单元106使用CF卡、SD存储器或硬盘等存储信息。总线107将上述单元连接在一起。

【第一实施例】

图2是实现本发明第一实施例的图像搜索处理的控制程序模块的方框图。

图像输入模块201通过图像输入单元104执行图像的输入处理，将所输入的图像转换成数据，并将数据输出给控制单元103。类似地，声音输入模块202通过声音输入单元101执行声音的输入处理，将所输入的声音转换成数据，并将数据输出给控制单元103。控制单元103接收声音信息。附加信息输入模块203将附加信息转换成数据，并将数据输出给控制单元103。附加信息包括用户通过操作单元102输入的设置信息和由图像输入单元104输出的图像的相关信息。而且，在图像数据生成模块204中，由每个模块输出的数据相互关联，并通过称作图像数据的框架存储在外部存储单元106内。

控制单元103控制语音识别模块205。语音识别模块205读取由图像数据生成模块204生成的图像数据。而且，语音识别模块205根据附加信息获取设定信息，该设定信息表示与图像相关的声音是否是语音识别对象。此外，语音识别模块205对作为语音识别对象的声音执行语音识别。将识别结果存储在外部存储单元106内，并与该图像相关。图像搜索模块206执行语音识别结果与用户通过操作单元102输入的关键词的匹配，并在信息显示单元上105显示搜索结果，从而通知用户。

图3是图示该实施例的图像搜索处理的流程图。

首先，在步骤S301中，通过执行图像输入模块201输入图像，并获取图像数据。

接着，在步骤S302中，确定是否记录声音。在为所获取的图像记录声音的情况下，通过执行声音输入模块202启动声音的记录。在不记录声音的情况下，该流程前进到步骤S306。可以在步骤S301的图像获取之前执行是否记录声音的设定。

随后，在步骤S303中，将所记录的声音转换成数据。在步骤S304中，确定所记录的声音是否是语音识别对象。在将所记录的声音设置为语音识别对象的情况下，该流程前进到步骤S305。反之，在并未将所记录的声音设置为语音识别对象的情况下，它前进到步骤S306。在步骤S305，作为附加信息生成设置信息，它表示是否使声音作为语音识别对象。由用户使用操作单元102输入该设置信息。

在步骤S306，执行附加信息输入模块203。获取由用户设置的附加信息和在设备中生成的用于该图像的附加信息。

在步骤S307，执行图像数据生成模块204。相互关联所输入的图像、声音和附加信息。输出所关联的数据作为图像数据。此外，将该图像数据存储在外部存储单元106内。尽管在上述实施例中将图像、声音和附加信息作为一组连续地记录，但也可以将它们分别记录在存储媒体上的独立区域内。在这种情况下，给每个数据提供链接数据。

在步骤S308，读取在步骤S307获得的图像数据，并确定与该图像相关的声音是否是语音识别对象。在与该图像相关的声音是语音识别对象的情况下，该流程前进到步骤S309。在它不是语音识别对象的情况下，因为图像数据不是图像搜索对象，该处理结束。

在步骤S309，通过执行语音识别模块205对与该图像相关的声音执行语音识别。而且，在外部存储单元106内与图像数据相关地存储识别结果。

最后，在步骤S310，通过执行图像搜索模块206，使用在步骤S309获得的语音识别结果执行图像搜索，并使用信息显示单元105显示搜索结果。随后，该处理结束。

作为图像搜索的方法，提取与通过语音输入或操作单元102的键盘输入的搜索信息基本一致的语音识别结果，并从外部存储单元106读取与所提取的语音识别结果相关的图像。

具有数字照相机或扫描仪功能等的图像输入设备能够执行该处理的各个步骤，诸如个人计算机等的另一个信息处理设备可以执行步骤S308或随后的步骤。

图4A和图4B图示数字照相机外壳401的后视图。参考标号402表示麦克风；参考标号403表示液晶显示器；和参考标号404表示快门按钮。参考标号405和406表示按钮。在该实施例中，将按钮205分配作为“语音注释按钮”，并将按钮406分配作为“记录按钮”。通过按下按钮405，可以记录用于语音识别的声音，通过按下按钮406，可以记录并不执行语音识别的声音。

作为另一个例子，通过分配如图4B所示的单个按钮407作为“语音识别按钮”，通过按下按钮407，可以使图像成为语音识别对象。可以将半按压单个按钮407分配给能够记录并非语音识别对象的声音的功能。如果按钮具有按压的范围，则半按压按钮涉及将按钮按下到低于完全按压范围的状态，并将按钮按压维持在此状态上。

因而，根据该实施例，当声音与图像相关时，用户能够确定该声音是否用作语音识别对象。也就是，在图3所示的系统中，能够任意地确定由用户记录的声音是否用作通过语音识别的搜索对象。如此，在使用语音识别的图像搜索设备中，预先排除了不需要语音识别的声音，从而提高了图像搜索的速度。

【修改例】

图11是图示使用环境声音识别进行声音分类的处理的流程图。该修改例的模块的配置将图2的语音识别模块205替换为环境声音识别模块。

首先，在步骤S301-1中，通过执行图像输入模块201输入图像，并获取图像数据。

接着，在步骤S302-1中，确定是否为所获得图像记录声音。在为所获得的图像记录声音的情况下，通过执行声音输入模块202启动声音的记录。在并不记录声音的情况下，该处理前进到步骤S306-1。可以在获取图像之前执行是否记录声音的设定。

随后，在步骤S303-1中，根据所记录的声音生成声音数据。在步骤S304-1中，确定所记录的声音是否是分类对象。在所记录的声音是分类对象的情况下，该处理前进到步骤S305-1。反之，在所记录的声音不是分类对象的情况下，该处理前进到步骤S306-1。在步骤S305-1中，作为附加信息生成表示是否使声音作为分类对象的设置信息。由用户使用操作单元102输入该设置信息。

在步骤S306-1，执行附加信息输入模块203。获得由用户设置的附加信息和在设备中生成的用于该图像的附加信息。

在步骤S307-1，执行图像数据生成模块204。相互关联所输入的图像、声音和附加信息。输出所关联的数据作为图像数据，将其存储在外部存储单元106内。尽管在上述实施例中将图像、声音和附加信息作为一组连续地记录，但是也可以将它们分别记录在存储媒体上的独立区域内。在上述情况下，给每个数据提供链接数据。

在步骤S308-1，读取在步骤S307-1获得的图像数据，随后确定与该图像相关的声音是否是分类对象。在与该图像相关的声音是分类对象的情况下，该处理前进到步骤S309-1。在它不是分类对象的情况下，因为图像数据不是图像搜索的对象，所以该处理结束。

在步骤S309-1中，通过执行环境声音识别模块，分析和分类作为分类对象的与该图像相关的声音。将分类结果作为声音属性与图像数据相关地存储在外部存储单元106内。

获取声音属性的方法为每个环境声音提供声学模型，环境声音例如水流的声音和风的声音。与语音识别类似地，执行声音的特征量与声学模型之间的匹配处理，并将具有最佳匹配的声学模型的环境声音的分类名称表示为该声音的声音属性。

最后，在步骤S310-1中，通过执行图像搜索模块206，使用在步骤S309-1获得的环境声音识别结果来执行图像搜索，并使用信息显示单元105显示搜索结果。该处理结束。

作为图像搜索的方法，提取与通过语音输入或操作单元102的键盘输入的搜索信息基本一致的声音属性，并从外部存储单元106读取与所提取的声音属性相关的图像。

因而，根据该实施例，当声音与图像相关时，用户能够确定是否将该声音用作环境声音识别的对象。也就是，在图11所示的处理中，可以任意地确定是否将用户记录的声音用作通过环境声音识别的搜索对象。通过如此执行，在使用环境声音识别的图像搜索设备中，能够预先排除其中不需要环境声音识别的与声音相关的图像，并能够获得在图像搜索速度上的改善。

【第二实施例】

在第一实施例中，并不处理在与图像相关的声音中并非语音识别对象的声音。在第二实施例中，通过分类与图像相关的声音，分析并非语音识别对象的声音，生成声音属性，将描述通过使用声音属性执行图像搜索的方法。

图5是图示用于图像搜索处理的控制程序模块的方框图，该控制程序具有用于将与图像相关的声音存储为语音识别识别对象的功能和用于在存储媒体上与图像相关地存储除了语音识别对象之外的声音属性的功能。第二实施例的模块配置是在图2的模块配置上增加了环境声音识别模块501的配置，因此，在图5中将使用相同的参考标号。

环境声音识别模块501分析不是语音识别对象的声音，生成该声音的声音属性，例如水流的声音和风的声音。模块501是将声音属性与图像相关的模块。

图6是图示控制程序的图像搜索处理的流程图，该控制程序具有用于将与图像相关的声音存储为语音识别对象的功能和用于在存储媒体上与图像相关地存储除了语音识别对象之外的声音属性的功能。

首先，在步骤S601，通过执行图像输入模块201输入图像，并获得图像数据。

接着，在步骤S602，确定是否为所获得的图像记录声音。在为所获得图像记录声音的情况下，通过执行声音输入模块202启动声音的记录。在并不记录声音的情况下，该处理前进到步骤S606。可以在获取图像之前执行是否记录声音的设定。

随后，在步骤S603，根据所记录的声音生成数据。在步骤S604，确定所记录的声音是否是语音识别对象。在所记录的声音是语音识别对象的情况下，该处理前进到步骤S605。反之，在所记录的声音并非语音识别对象的情况下，该处理前进到步骤S606。在步骤S605，作为附加信息生成表示是否能够使声音作为语音识别对象的设置信息。用户使用操作单元102输入该设置信息。

在步骤S606，执行附加信息输入模块203。获得由用户设置的附加信息和在设备内生成的用于该图像的附加信息。

在步骤S607，执行图像数据生成模块204。相互关联所输入的图像、声音和附加信息。输出相关联的数据作为图像数据，并将图像数据存储在外部存储单元106内。尽管在上述实施例中作为一组连续地记录图像、声音和附加信息，但是也可以将它们分别记录在存储媒体上的独立区域内。在上述情况下，给每个数据提供链接数据。

在步骤S608，读取在步骤S607获得的图像数据，并确定是否存在与该图像相关的声音。如果与该图像相关的声音并不存在，则该处理结束。如果声音与该图像相关，则该处理前进到步骤S609。

在步骤S609，读取与该图像相关的附加信息，并确定与该图像相关的声音是否是语音识别对象。如果与该图像相关的声音是语音识别对象，则该处理前进到步骤S610，如果它不是语音识别对象，则该处理前进到步骤S611。

在步骤S610，通过执行语音识别模块205对与该图像相关的声音执行语音识别，并将识别结果与图像数据相关地存储在外部存储单元106内。

在步骤S611，通过执行环境声音识别模块501分析和分类并非语音识别对象的与图像相关的声音。随后，将分类结果作为声音属性与该图像数据相关地存储在外部存储单元106内。

获取声音属性的方法为诸如水流的声音和风的声音等每种环境声音建立声学模型。而且，与语音识别类似地，执行声音特征量和声学模型之间的匹配处理。将表示最佳匹配的声学模型的环境声音的分类名称表示为该声音的声音属性。

最后，在步骤S612，通过执行图像搜索模块206，使用在步骤S610中获得的语音识别结果或在步骤S611中获得的环境声音识别结果，执行图像搜索。使用信息显示单元105显示搜索结果。随后，该处理结束。

作为图像搜索方法，提取与通过语音输入或操作单元102的键盘输入的搜索信息基本上一致的语音识别结果或声音属性，并从外部存储单元106中读取与所提取的语音识别结果或声音属性相关的图像。

安装有数字照相机、扫描仪等的图像输入设备能够执行所有的上述步骤，诸如个人计算机的另一个信息处理设备可以执行步骤S608及随后的步骤。

因而，根据该实施例，当声音与图像相关时，用户可以设置是否将该声音用作语音识别对象。而且，在该实施例中，在声音不是语音识别对象的情况下，通过给该声音提供属性，可以将该声音设置为搜索对象。因此，与该声音相关的所有图像变成搜索对象。此外，因为用于搜索的不必要的语音识别是可以省略的，所以能够改善使用语音识别的图像搜索设备的方便性，并能够实现搜索速度上的提高。

【第三实施例】

在第一和第二实施例中，通过用户按钮的操作等任意地使与图像相关的声音成为语音识别对象。在第三实施例中，鉴别语音与声音。自动地鉴别语音识别对象的声音，并描述使用鉴别结果搜索图像的方法。

图7是实现具有自动地鉴别与图像相关的声音是否是语音的功能的图像搜索处理的控制程序模块的方框图。

第三实施例将声音鉴别模块701添加给图2的模块，因此，在图7中将使用与图2相同的参考标号。

声音鉴别模块701是自动地鉴别与图像相关的声音信息是否是语音，并输出与该图像相关的表示鉴别结果的附加信息的模块。

图8是图示具有自动地鉴别与该图像相关的声音是否是语音的功能的控制程序的图像搜索处理的流程图。

首先，在步骤S801，通过执行图像输入模块201输入图像，并获得图像数据。

接着，在步骤S802，确定是否为所获得的图像记录声音。在为所获得的图像记录声音的情况下，通过执行声音输入模块202启动声音的记录。在不记录声音的情况下，该处理前进到步骤S804。可以在获取图像之前执行是否记录声音的设定。

随后，在步骤S803，根据所记录的声音生成数据。在步骤S804，执行附加信息输入模块203。获取由用户设置的附加信息和在设备中生成的用于该图像的附加信息。

在步骤S805，执行图像数据生成模块204。相互关联所输入的图像、声音和附加信息。输出相关的数据作为图像数据，并将该图像数据存储在外部存储单元106内。尽管在上述实施例中作为一组连续地记录图像、声音和附加信息，但是也可以将它们分别记录在存储媒体上的独立区域内。在上述情况下，给每个数据提供链接数据。

在步骤S806，读取在步骤S805获得的图像数据，并确定是否存在与该图像相关的声音。如果并不存在与该图像相关的声音，则该处理结束。如果声音与该图像相关，则该处理前进到步骤S807。

在步骤S807，通过执行声音鉴别模块701，鉴别与该图像相关的声音是否是语音。

在下文中解释自动地鉴别语音的方法的例子。例如，使用利用各种语音建立的语音声学模型和利用环境声音建立的环境声音的声学模型，对与该图像相关的声音执行语音识别。在语音声学模型的匹配高于环境声音的声学模型的情况下，将该声音确定为语音。

作为另外一个例子，能够鉴别与包含人物的图像相关的声音。下面是确定在图像内是否包含人物的方法：

1)根据照相模式(例如，红眼校正模式、人物照相模式)确定在图像内是否包含人物；

2)图像识别。

在步骤S808，根据步骤S807的鉴别结果自动地确定声音是否是语音识别对象。从搜索对象中排除与非语音的声音相关的图像数据。在语音与图像数据相关的情况下，该处理前进到步骤S809。

在步骤S809，通过执行语音识别模块205对与该图像相关的声音执行语音识别，并将识别结果与图像数据相关地存储在外部存储单元106内。

最后，在步骤S810，通过执行图像搜索模块206，使用在步骤S809获得的语音识别结果执行图像搜索，并使用信息显示单元105显示搜索结果。随后，该处理结束。

作为图像搜索的方法，提取与通过语音输入或操作单元102的键盘输入的搜索信息基本上一致的语音识别结果，并从外部存储单元106读取与所提取的语音识别结果相关的图像。

安装有数字照相机、扫描仪等的图像输入设备可以执行所有上述步骤，诸如个人计算机等的另一个信息处理设备可以执行步骤S806及随后的步骤。

因而，根据该实施例，因为该实施例的图像搜索设备能够自动地确定是否将与图像相关的声音用作语音识别对象，所以能够自动地选出搜索对象的图像。因此，例如，减少了用于语音识别的用户输入处理。因为自动地排除了并不必需执行语音的图像，所以能够明显地提高使用语音识别的图像搜索设备的方便性。

【第四实施例】

在第三实施例中，通过鉴别与图像相关的声音，自动地区别语音识别对象的声音。在第四实施例中，通过分类与该图像相关的声音，分析并非语音识别对象的声音，生成声音属性，并描述使用声音属性执行图像搜索的方法。

图9是实现图像搜索处理的控制程序模块的方框图，该控制程序模块具有自动地鉴别与图像相关的声音是否是语音的功能和在存储媒体上与图像相关地存储除了语音识别对象之外的声音的属性的功能。第四实施例的模块将图5的环境声音识别模块501添加给图7的模块。因此，将使用相同的参考标号。

图10是图示控制程序的图像搜索处理的流程图，该控制程序具有自动地鉴别与图像相关的声音是否是语音的功能和用于在存储媒体上与图像相关地存储除了语音识别对象之外的声音的属性的功能。

首先，在步骤S1001，通过执行图像输入模块201输入图像，并获取图像数据。

接着，在步骤S1002，确定是否为所获得图像记录声音。在为所获得的图像记录声音的情况下，通过执行声音输入模块202启动声音的记录。在并不记录声音的情况下，该处理前进到步骤S1004。可以在获取图像之前执行是否记录声音的设定。

随后，在步骤S1003，根据所记录的声音生成数据。在步骤S1004，执行附加信息输入模块203。获得由用户设置的附加信息和在设备内生成的用于该图像的附加信息。

在步骤S1005，执行图像数据生成模块204。相互关联所输入的图像、声音和附加信息。输出相关联的数据作为图像数据，并将图像数据存储在外部存储单元106内。尽管在上述实施例中作为一组连续地记录图像、声音和附加信息，但是也可以将它们分别记录在存储媒体上的独立区域内。在上述情况下，给每个数据提供链接数据。

在步骤S1006中，读取在步骤S1005获得的图像数据，并确定是否存在与该图像相关的声音。如果与该图像相关的声音并不存在，则该处理结束。如果声音与该图像相关，则该处理前进到步骤S1007。

在步骤S1007，通过执行声音鉴别模块701，鉴别与该图像相关的声音是否是语音。

在下文中解释自动鉴别语音的方法的例子。例如，使用利用各种语音建立的语音声学模型和利用环境声音建立的环境声音的声学模型，对与该图像相关的声音执行语音识别。在语音声学模型的匹配高于环境声音的声学模型的情况下，将该声音确定为语音。

2)图像识别。

在步骤S1008，根据步骤S1007的鉴别结果自动地确定声音是否是语音识别对象。在声音是除了语音之外的声音的情况下，该处理前进到步骤S1010。在声音是语音的情况下，该处理前进到步骤S1009。

在步骤S1009，通过执行语音识别模块205对与图像相关的声音执行语音识别，并将识别结果与图像数据相关地存储在外部存储单元106内。

在步骤S1010，通过执行环境声音识别模块501，分析和分类不是语音识别对象的与该图像相关的声音。将分类结果作为声音属性与该图像数据相关地存储在外部存储单元106内。

获取声音属性的方法为诸如水流的声音和风的声音等每一种环境声音建立声学模型。与语音识别类似地，执行声音的特征量和声学模型的匹配，并将表示最佳匹配的声学模型的环境声音的分类名称设置为该声音的声音属性。

最后，在步骤S1011，通过执行图像搜索模块206，使用在步骤S1009获得的语音识别结果或在步骤S1010获得的环境声音识别结果执行图像搜索，并使用信息显示单元105显示搜索结果。随后，该处理结束。

作为图像搜索的方法，提取与通过语音输入或操作单元102的键盘输入的搜索信息基本上一致的语音识别结果或声音属性，并从外部存储单元106读取与所提取的语音识别结果或声音属性相关的图像。

安装有数字照相机、扫描仪等的图像输入设备可以执行所有的上述步骤，诸如个人计算机等的另一个信息处理设备可以执行步骤S1006及随后的步骤。

因而，根据该实施例，因为该实施例的图像搜索设备能够自动地确定是否将与图像相关的声音用作语音识别对象，所以能够自动地选出搜索对象的图像。通过将声音属性添加给除了语音识别对象之外的声音，能够形成搜索对象。因此，例如，减少了用于语音识别的用户的输入处理。因为自动地排除了并不必需执行语音识别的图像，所有与声音相关的图像变成搜索对象，所以能够明显地提高使用语音识别的图像搜索设备的方便性。

【第五实施例】

在第四实施例中，尽管将声音鉴别模块701和环境声音识别模块501图示为独立模块(参见图9)，但是并不必需分别提供这些模块。也可以提供单个模块，它对与图像相关的声音执行环境声音识别，并鉴别该声音是否是语音。例如，图10的步骤S1010可以包括在步骤S1007中，通过使用语音的声音模型和多个环境声音模型执行语音识别，能够同时执行声音鉴别和环境声音识别。

【第六实施例】

尽管第一至第五实施例通过例子将图像解释为与声音相关的数据，但是本发明并不仅仅限于图像。本发明也可以应用于所有的数字内容，例如文档和视频。

应当指出本发明可以应用于包括单个设备的装置或者应用于由多个设备组成的系统。

此外，本发明可以通过将软件程序直接或间接地提供给系统或设备来实现，所述软件程序执行上述实施例的功能，所述系统或设备使用该系统或设备的计算机读取所提供的程序代码，随后执行该程序代码。在这种情况下，只要该系统或设备具有该程序的功能，则实现方式不需要取决于程序。

因此，在执行本发明的功能的计算机和在该计算机内安装的程序代码也实现了本发明。换句话说，本发明的权利要求书还涵盖了用于实现本发明的功能的计算机程序。

在这种情况下，只要系统或设备具有该程序的功能，则该程序可以以任何形式执行，例如目标代码、由解释器执行的程序或提供给操作系统的脚本数据。

可以用于提供程序的存储媒体的例子是软盘、硬盘、光盘、磁光盘、CD-ROM(压缩盘-只读存储器)、CD-R(CD-可记录)、CD-RW(CD-可重写)、磁带、非易失性存储卡、ROM和数字通用盘(例如DVD(DVD-ROM、DVD-R))。

至于提供该程序的方法，客户计算机可以使用客户计算机的浏览器连接到因特网上的网站，并可以将本发明的计算机程序或该程序的可自动安装的压缩文件下载到诸如硬盘的记录媒体上。此外，可以通过将构成该程序的程序代码划分成多个文件，并从不同的网站下载这些文件来提供本发明的程序。换句话说，本发明的权利要求书还涵盖了通过计算机将实现本发明功能的程序文件下载给多个用户的WWW(万维网)服务器。

还可以在诸如CD-ROM等存储媒体上加密和存储本发明的程序，将该存储媒体分发给用户，允许符合某些要求的用户通过因特网从网站下载解密密钥信息，并允许这些用户使用该密钥信息解密所加密的程序，从而将该程序安装在用户的计算机内。

除了由计算机执行所读取的程序来实现根据这些实施例的上述功能的情况之外，在计算机上运行的操作系统等也可以执行全部或部分的实际处理，从而通过此处理能够实现上述实施例的功能。

此外，在将从存储媒体读取的程序写入插入计算机内的功能扩展板或者写入在连接到计算机的功能扩展单元内提供的存储器之后，CPU或安装在功能扩展板或功能扩展单元上的类似设备执行全部或部分的实际处理，从而通过该处理能够实现上述实施例的功能。

因为在不脱离本发明的精神和范围的情况下，能够实现本发明的许多明显不同的实施例，应当理解本发明并不限制于它的具体实施例，除非如权利要求书所定义的。

本发明并不限制于上述实施例，可以在本发明的精神和范围内进行多种改变和修改。因此，为了向公众确定本发明的保护范围，提供了权利要求书。

Claims

1.一种信息处理设备，包括：

图像数据获得单元，被配置为通过捕获图像而获得图像数据；

声音信息获得单元，被配置为通过记录声音而获得与所述图像数据相关的声音信息；

设置单元，被配置为设置由所述声音信息获得单元获得的声音信息是否要经受语音识别；和

存储单元，被配置为当所述设置单元设置所述声音信息要经受语音识别时，以相互关联的方式存储所述图像数据、所述声音信息以及指示所述声音信息要经受语音识别的设置信息。

2.一种信息处理方法，包括下述步骤：

图像数据获得步骤，通过捕获图像而获得图像数据；

声音信息获得步骤，通过记录声音而获得与所述图像数据相关的声音信息；

设置步骤，设置在所述声音信息获得步骤获得的声音信息是否要经受语音识别；和

存储步骤，当在所述设置步骤设置所述声音信息要经受语音识别时，以相互关联的方式存储所述图像数据、所述声音信息以及指示所述声音信息要经受语音识别的设置信息。