CN100487691C

CN100487691C - 信息处理装置和信息处理方法

Info

Publication number: CN100487691C
Application number: CNB2005100743221A
Authority: CN
Inventors: 中川贤一郎; 广田诚; 池田裕美; 八木沢津义; 山本宽树; 深田俊明; 小森康弘
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-06-01
Filing date: 2005-06-01
Publication date: 2009-05-13
Anticipated expiration: 2025-06-01
Also published as: KR20060046317A; US7451090B2; JP2005345616A; EP1603061A2; US20050267747A1; KR100701132B1; EP1603061A3; CN1704926A

Abstract

在通过对添加到图像的声音信息进行语音识别进行图像检索的系统中，通过不是明示的语音识别指示事件的诸如图像上载事件的事件触发语音识别。该系统得到添加到图像的声音信息，检测事件，并且，即使检测的事件不是明示的语音识别指示事件，该系统也响应特定的事件对得到的声音信息进行语音识别。

Description

信息处理装置和信息处理方法

技术领域

本发明涉及用于管理通过网络与图像拾取装置连接的计算机上的图像数据的装置和方法。

背景技术

现在，数字照相机已得到广泛应用。用户一般在个人计算机或服务器上管理由诸如数字照相机的便携式图像拾取装置捕获的数字图像。例如，可以在个人计算机或服务器上的文件夹中组织捕获的图像，并可以打印特定的图像或将其插入贺卡中。并且，如果在服务器上管理一些图像，那么其它用户可以访问这些图像。

在这些情况下，用户需要搜索所需的图像。如果要搜索的图像很少，那么可以将所有的图像显示为缩略图，这样可使用户很容易地浏览并找到所需的图像。但是，如果要搜索几百张图像，或者，如果在不同的文件夹中划分和存储目标图像组，那么用户仅通过浏览不容易找到所需的图像。

一个方法是为图像拾取装置上的图像添加在检索中使用的声音注释。例如，如果捕获到山的图像，就将诸如“箱根的山”(意思是位于箱根(地名)的山)的声音注释添加到该图像。将该声音数据与捕获的图像的数据配对并将其存储于图像拾取装置中。然后，在图像拾取装置中或上载了图像的个人计算机上对声音数据进行语音识别，并将其转换为文本数据。将注释数据转换为文本数据后，就可以通过一般的文本搜索方法用诸如“山”(意思是山)和“箱根”的关键词找到该图像。

在日本专利公开No.2003-219327、日本专利公开No.2002-325225和日本专利公开No.9-135417中公开了一些使用这种声音注释的技术。在这些技术中，用户在图像捕获的过程中或图像捕获后将声音注释添加到图像。然后，通过使用公知的语音识别技术，用户在图像检索中使用声音数据。

由于进行语音识别导致极重的处理负荷，因此在当前可用的便携式图像拾取装置中进行语音识别是不现实的。因此，需要将图像和添加到该图像上的声音数据从图像拾取装置上载到可以进行语音识别的个人计算机或服务器上。

如上所述，提出和实施了这样一些技术，即，在这些技术中，图像拾取装置只采集声音注释，并且只在上载了图像数据和声音数据的个人电脑或服务器上进行语音识别。但是，对于对添加到捕获的图像的声音识别数据进行的语音识别的定时，没有清楚的说明，或者，在上载图像数据和声音数据后响应用户的要求进行语音识别。

因此，对于用户来说，进行“图像的上载”和给出“语音识别指示”是很繁琐的。

发明内容

为了解决上述问题，本发明一种信息处理装置，该信息处理装置包括以下部件：接收装置，用于从其它装置接收图像和声音信息；语音识别装置，用于在接收装置接收声音信息的情况下对声音信息进行语音识别；和存储装置，用于关联并存储通过语音识别装置得到的语音识别结果和图像。

并且，本发明提供一种信息处理装置，该信息处理装置包括：获取装置，用于获取与图像有关的声音信息；保持装置，用于保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表，其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件；检测装置，用于检测所述多个不同事件中的一个或其组合；确定装置，用于基于所保持的表确定所述检测装置检测的事件是否要进行语音识别；语音识别装置，用于当所述确定装置确定所检测的事件要进行语音识别时，对所述获取装置获取的声音信息进行语音识别；以及存储装置，用于关联并存储通过所述语音识别装置得到的语音识别结果的文本信息和图像。

根据本发明提供了一种在信息处理装置中执行的信息处理方法，该方法包括以下步骤：获取步骤，获取与图像有关的声音信息；保持步骤，保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表，其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件；检测步骤，检测所述多个不同事件中的一个或其组合；确定步骤，基于所保持的表确定在所述检测步骤中检测的事件是否要进行语音识别；语音识别步骤，当在所述确定步骤中确定所检测的事件要进行语音识别时，对在所述获取步骤中获取的声音信息进行语音识别；以及关联并存储在语音识别步骤中得到的语音识别结果的文本信息和图像。

通过参照附图说明以下示例性实施例，本发明的其它特征和优点将变得更加明显。

附图说明

图1表示本发明的实施例的图像管理装置的功能结构。

图2是本发明的实施例的图像管理装置的流程图。

图3表示本发明的图像管理装置的事件解释数据表的例子。

图4表示第一实施例的便携式图像拾取装置的例子。

图5表示第一实施例的图像上载时的操作用户界面(UI)画面的例子。

图6表示第一实施例的存储语音识别的文件的例子。

图7表示第一实施例的使用图像管理装置中的图像/语音识别结果数据库的图像检索的过程中的UI画面的例子。

图8表示第一实施例的使用图像管理装置中的图像/语音识别结果数据库的图像检索的流程图。

图9表示第三实施例的图像管理装置的事件解释数据表的例子。

具体实施方式

现在参照附图说明本发明的实施例。

(第一实施例)

以下将说明图像管理装置，作为本发明的信息处理装置的示例。

图1表示根据本发明的图像管理装置的功能结构。图像管理装置101与事件发布单元102和便携式图像拾取装置103连接。事件发布单元102包含于外部装置或应用中并发布(issue)各种事件。通过在特定的存储区域内设置特定的值，实现这些事件。

在基本的动作中，图像管理装置101接收输入的事件，并且，如果确定接收的事件是适当的，则开始动作。该动作涉及对从便携式图像拾取装置103获取的声音注释数据进行语音识别，以及在图像管理装置101中的图像/语音识别结果数据库中存储声音数据和图像。

图像管理装置101中的事件检测单元104从图像管理装置101外的事件发布单元102接收事件。然后，将接收的事件发送到控制单元105，在该控制单元中，响应事件确定继续进行语音识别是否适当。基于图像管理装置101中的事件解释数据表108进行上述确定。将确定结果保持为例如标记(flag)。可以在图像管理装置101内设置事件发布单元102。

图3表示事件解释数据表的例子。表301包含与表示是否开始语音识别的值配对的事件名称。当检测到用于开始语音识别(值是“是”)的事件时，确定语音识别开始。

当确定语音识别开始时，声音注释数据加载单元106将声音注释数据从便携式图像拾取装置103加载到图像管理装置101中。

将加载的声音注释数据发送到声音注释数据识别单元110，在该声音注释数据识别单元中，通过使用现有的语音识别技术，对加载的声音注释数据进行语音识别。将语音识别的结果发送到语音识别结果存储单元107。声音注释数据识别单元110使用诸如语音识别语法和声学模型的语音识别数据109用于语音识别。

语音识别结果存储单元107将基于文本的语音识别结果与相应的图像配对，并将它们存储在图像/语音识别结果数据库111中。例如，语音识别的结果可以被存储在图像数据文件内的注解区(commentarea)内，或者，可以被存储在名称与图像数据文件相同但扩展名与图像数据文件不同的文件内。作为替代方案，可以响应语音识别的结果改变图像数据的文件名。

图2是图像管理装置101的主要流程。当图像管理装置101开始时，该流程开始。首先，确定是否检测到程序终止事件(S201)。如果检测到终止事件，则终止本处理。

如果没有检测到终止事件，则基于图3中所示的事件解释数据表确定是否检测到开始语音识别的事件(S202)。如果没有检测到开始语音识别的事件，则本处理不执行下面的处理而返回流程的顶端。如果检测到开始语音识别的事件，则从图像拾取装置加载声音注释数据(S203)。

对加载的声音注释数据进行语音识别(S204)。因此，不需要来自用户的特定指示就能自动执行语音识别过程。由于语音识别的过程是公知的技术，因此这里不进行详述。与来自图像拾取装置的图像一起，在图像管理装置101内的数据库中存储基于文本的语音识别结果(S205)。

一旦完成上述处理，则处理返回顶端，并重新开始事件的检测。

因此，当在与图像拾取装置连接的个人计算机上执行在便携式图像拾取装置内输入的声音注释数据的语音识别时，可以通过诸如图像上载指示的不是明示的语音识别指示的事件，触发语音识别。

(第二实施例)

现在说明包括图像管理装置的图像检索系统的例子。图4表示在本实施例中使用的便携式图像拾取装置的例子。

用户使用诸如数字照相机或可拍照手机的便携式图像拾取装置401捕获图像。该便携式图像拾取装置401具有图像确认屏403。操作模式开关405允许在图像拾取模式和可在图像确认屏403上确认以前捕获的图像的图像确认模式之间进行切换。

在图像确认模式中，用户可以将声音注释添加到特定的图像。例如，使用在图像确认屏403上显示的所需的图像，用户可以通过按声音注释添加按钮402，将声音注释添加到该图像。具体地说，通过按该按钮，开始用麦克风404捕获一定时间的语音。然后，将声音数据与该图像相关联，并将其存储在图像拾取装置内的存储器中。

例如，假定添加诸如“箱根的山”的声音注释。在种情况下，图像拾取装置将该声音数据与相应的图像相关联，并将其存储在图像拾取装置内的存储器中。

图5表示图像上载的过程中的操作用户界面(UI)画面的例子。当将便携式图像拾取装置与个人计算机连接时，启动具有图像确认对话框501的应用。在图像确认对话框501内以缩略图的方式显示与个人计算机连接的图像拾取装置内的图像。

在缩略图的列表中，可以以不同的方式显示上载的图像502和待上载的图像503。例如，在图5中，对上载的图像的缩略图加阴影，以使用户辨别已上载了哪些图像。并且，可以用特定的符号标记添加声音注释的图像的缩略图。在图5中，例如，用音符标记这种缩略图。

用户选择待上载的图像，并选择上载指示按钮504。选择该按钮允许将图像拾取装置401中的所选的图像上载到个人计算机中的图像数据库中。

同时，将图像上载指示事件发布到图像管理装置101。使用图3中的数据表301，将图像上载指示事件解释为语音识别的开始。然后，从便携式图像拾取装置401加载添加到对应图像的声音注释数据，并对其进行语音识别。将语音识别的结果放在文件中并存储在图像管理装置101中的数据库中。

图6表示这种文件的例子。语音识别结果文件601存储对声音注释数据进行的语音识别的结果。从一个声音注释数据产生一个语音识别结果文件。

语音识别引擎可以为一个语音(声音注释数据)输出多个候选的识别结果。在语音识别结果文件601中，每行存储一个候选的结果。图6中的例子表示输出五个侯选的识别结果。

各侯选的识别结果包含三个字段。从“字符串＝”开始的语音识别音素字符串602的字段包含语音识别结果的音素字符串。从“类型＝”开始的语音识别语法类型603的字段包含用于结果的输出的语言控制信息(语音识别语法的类型)。在本例子中，将诸如音素类型书写器(typewriter)(类型＝类型书写器)的语法和用于识别一般单词的语法的两个语法用于识别。最后的从“分数＝”开始的分数604的字段包含侯选的识别结果的分数。从声学上的可能性和语言学上的可能性计算该分数。较高的分数表示较高的识别结果可靠性。

在图像管理装置101中的图像/语音识别结果数据库中存储这种语音识别结果文件601。具体而言，在与图像数据相同的文件夹中，存储文件名与对应的图像数据相同但扩展名变为“va”的语音识别结果文件601。

图7表示使用图像管理装置101中的图像/语音识别结果数据库111的图像检索的过程。

用户在图像检索对话框701中的搜索字符串输入区702中输入搜索字符串并选择搜索开始按钮703。进行搜索，以寻找与搜索查询匹配的图像。检索的图像显示为缩略图704的列表。

该搜索过程的流程如图8所示。对图7中的搜索开始按钮703的选择启动该流程。

首先，从搜索字符串输入区702中读取日文音素字符和日文汉字(中国字)字符的混合的搜索字符串(S801)。然后，使用现有的语言处理方法，将该搜索字符串转换为音素字符串(S802)并将其存储在变量A中。

然后，从图像管理装置101中的图像/语音识别结果数据库111中得到一个语音识别结果文件601。这里，将得到的文件命名为语音识别结果文件α(S803)。

然后将变量C_max清零(S804)。然后，从语音识别结果文件α得到语音识别侯选项。如图6所示，该侯选项是与语音识别结果文件601中的各行对应的信息。将得到的侯选项的“字符串＝”后面的语音识别音素字符串(S805)存储在变量B中。

然后，计算变量A和B中存储的音素字符串的相似性(S806)。可以通过使用现有的动态计划(programming)法完成该步骤。将计算的相似性值存储在变量C中。

将存储的变量C与C_max相比较(S807)。如果C比C_max大，则用C更新C_max(S808)。

对语音识别结果文件α中的所有语音识别的候选顶执行上述过程。在对于所有的识别侯选项执行该过程(S809)后，将C_max确定为语音识别结果文件α的分数(S810)。

对于图像/语音识别结果数据库111中的所有语音识别结果文件601执行上述过程。对于所有的语音识别结果文件完成该过程后(S811)，通过为各文件计算的分数将这些文件分类。向用户呈现分数最高的N个图像(S812)，并且本流程在这里结束。

因此，可以通过使用文本数据，检索图像管理装置中的图像。

(第三实施例)

在上述各实施例中，以图像上载指示事件作为用于开始语音识别的事件。也可以用其它事件开始语音识别。这些例子包括当在图像管理装置101和便携式图像拾取401装置之间建立连接时发布的“连接事件”。在这种情况下，由于在不发布图像上载指示事件的情况下开始语音识别，因此可以用更少的过程实现所要的操作。

这些例子还包括当启动特定的应用时发布的“启动事件”和当打开图像搜索窗口时发布的“搜索窗口打开事件”。可以由此在实际需要时得到语音识别的结果。

其它例子包括当用鼠标选择如图5所示的缩略图时发布的“鼠标点击事件”；“鼠标结束事件”；和在用图像编辑工具编辑特定的图像后发布的“图像编辑事件”。这些例子允许仅对添加到用户实际感兴趣的图像的声音数据进行语音识别。其优点在于，可靠地处理必要的数据，而可以不处理不必要的数据。

也可以使用以一定的时间间隔发布的“定时器事件”。这样可以为用户提供进度安排能力。

(第四实施例)

在上述各实施例中，仅通过接收的特定事件确定语音识别的开始。但是，也可以基于与图像管理装置101中的其它信息的组合进行确定。例如，可以基于在如图9所示的事件解释数据表901中说明的条件表达式进行该确定。

在图9所示的例子中，将关于是否在图像/语音识别结果数据库111中存储语音识别结果文件601的信息加入基于定时器事件的确定中。在这种情况下，当发布一定的定时器事件(例如，每十分钟)时，搜索图像/语音识别结果数据库111，以仅对从其还没有产生语音识别结果文件601的声音数据进行语音识别。

并且，可以存储各种类型的语音识别数据，使得可以根据事件的类型改变在语音识别中使用的这种数据的类型。例如，在需要相对较快的处理的“鼠标点击事件”和“图像编辑事件”的情况下，即使牺牲精度，也要使用允许高速语音识别的语音识别数据。另一方面，对于图像上载指示事件和定时器事件，即使牺牲速度，也要使用允许精确语音识别的语音识别数据。

在本发明中，可以为系统或装置提供记录执行上述实施例的功能的软件程序代码的存储介质，使得计算机(或中心处理单元(CPU)或微处理单元(MPU))即该系统或装置读出并执行在存储介质中存储的程序代码。

在这种情况下，从存储介质读出的程序代码执行上述实施例的功能，使得存储程序代码的存储介质构成本发明。

用于供给程序代码的存储介质可以为例如软盘、硬盘、光盘、磁光(MO)盘、CD-ROM、可记录CcD(CD-R)、磁带、非易失性存储卡和ROM。

不但可以通过读取并执行程序代码的计算机，而且可以通过在计算机上运行并根据程序代码执行整个或部分实际处理的操作系统(OS)，执行上述各实施例的功能。

也可以在将从存储介质读出的程序代码写入与计算机连接的扩展单元中或写入计算机中的功能扩展板的存储器中后，通过在功能扩展板或扩展单元中包括的CPU等根据程序代码的指令执行实际处理的全部或一部分，实现上述各实施例的功能。

参照示例性实施例说明了本发明，但应理解本发明不限于公开的实施例。相反，本发明意在覆盖在所附的权利要求书的精神和范围内包含的各种修改和等同配置。应按照最宽的范围解释以下权利要求书，以使其包含所有的这种修改、等同结构和功能。

Claims

1.一种信息处理装置，该信息处理装置包括：

获取装置，用于获取与图像有关的声音信息；

保持装置，用于保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表，其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件；

检测装置，用于检测所述多个不同事件中的一个或其组合；

确定装置，用于基于所保持的表确定所述检测装置检测的事件是否要进行语音识别；

语音识别装置，用于当所述确定装置确定所检测的事件要进行语音识别时，对所述获取装置获取的声音信息进行语音识别；以及

存储装置，用于关联并存储通过所述语音识别装置得到的语音识别结果的文本信息和图像。

2.一种在信息处理装置中执行的信息处理方法，该方法包括以下步骤：

获取步骤，获取与图像有关的声音信息；

保持步骤，保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表，其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件；

检测步骤，检测所述多个不同事件中的一个或其组合；

确定步骤，基于所保持的表确定在所述检测步骤中检测的事件是否要进行语音识别；

语音识别步骤，当在所述确定步骤中确定所检测的事件要进行语音识别时，对在所述获取步骤中获取的声音信息进行语音识别；以及

关联并存储在语音识别步骤中得到的语音识别结果的文本信息和图像。