CN100487691C - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN100487691C
CN100487691C CNB2005100743221A CN200510074322A CN100487691C CN 100487691 C CN100487691 C CN 100487691C CN B2005100743221 A CNB2005100743221 A CN B2005100743221A CN 200510074322 A CN200510074322 A CN 200510074322A CN 100487691 C CN100487691 C CN 100487691C
Authority
CN
China
Prior art keywords
image
incident
speech recognition
voice
different event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100743221A
Other languages
English (en)
Other versions
CN1704926A (zh
Inventor
中川贤一郎
广田诚
池田裕美
八木沢津义
山本宽树
深田俊明
小森康弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1704926A publication Critical patent/CN1704926A/zh
Application granted granted Critical
Publication of CN100487691C publication Critical patent/CN100487691C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

在通过对添加到图像的声音信息进行语音识别进行图像检索的系统中,通过不是明示的语音识别指示事件的诸如图像上载事件的事件触发语音识别。该系统得到添加到图像的声音信息,检测事件,并且,即使检测的事件不是明示的语音识别指示事件,该系统也响应特定的事件对得到的声音信息进行语音识别。

Description

信息处理装置和信息处理方法
技术领域
本发明涉及用于管理通过网络与图像拾取装置连接的计算机上的图像数据的装置和方法。
背景技术
现在,数字照相机已得到广泛应用。用户一般在个人计算机或服务器上管理由诸如数字照相机的便携式图像拾取装置捕获的数字图像。例如,可以在个人计算机或服务器上的文件夹中组织捕获的图像,并可以打印特定的图像或将其插入贺卡中。并且,如果在服务器上管理一些图像,那么其它用户可以访问这些图像。
在这些情况下,用户需要搜索所需的图像。如果要搜索的图像很少,那么可以将所有的图像显示为缩略图,这样可使用户很容易地浏览并找到所需的图像。但是,如果要搜索几百张图像,或者,如果在不同的文件夹中划分和存储目标图像组,那么用户仅通过浏览不容易找到所需的图像。
一个方法是为图像拾取装置上的图像添加在检索中使用的声音注释。例如,如果捕获到山的图像,就将诸如“箱根的山”(意思是位于箱根(地名)的山)的声音注释添加到该图像。将该声音数据与捕获的图像的数据配对并将其存储于图像拾取装置中。然后,在图像拾取装置中或上载了图像的个人计算机上对声音数据进行语音识别,并将其转换为文本数据。将注释数据转换为文本数据后,就可以通过一般的文本搜索方法用诸如“山”(意思是山)和“箱根”的关键词找到该图像。
在日本专利公开No.2003-219327、日本专利公开No.2002-325225和日本专利公开No.9-135417中公开了一些使用这种声音注释的技术。在这些技术中,用户在图像捕获的过程中或图像捕获后将声音注释添加到图像。然后,通过使用公知的语音识别技术,用户在图像检索中使用声音数据。
由于进行语音识别导致极重的处理负荷,因此在当前可用的便携式图像拾取装置中进行语音识别是不现实的。因此,需要将图像和添加到该图像上的声音数据从图像拾取装置上载到可以进行语音识别的个人计算机或服务器上。
如上所述,提出和实施了这样一些技术,即,在这些技术中,图像拾取装置只采集声音注释,并且只在上载了图像数据和声音数据的个人电脑或服务器上进行语音识别。但是,对于对添加到捕获的图像的声音识别数据进行的语音识别的定时,没有清楚的说明,或者,在上载图像数据和声音数据后响应用户的要求进行语音识别。
因此,对于用户来说,进行“图像的上载”和给出“语音识别指示”是很繁琐的。
发明内容
为了解决上述问题,本发明一种信息处理装置,该信息处理装置包括以下部件:接收装置,用于从其它装置接收图像和声音信息;语音识别装置,用于在接收装置接收声音信息的情况下对声音信息进行语音识别;和存储装置,用于关联并存储通过语音识别装置得到的语音识别结果和图像。
并且,本发明提供一种信息处理装置,该信息处理装置包括:获取装置,用于获取与图像有关的声音信息;保持装置,用于保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表,其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件;检测装置,用于检测所述多个不同事件中的一个或其组合;确定装置,用于基于所保持的表确定所述检测装置检测的事件是否要进行语音识别;语音识别装置,用于当所述确定装置确定所检测的事件要进行语音识别时,对所述获取装置获取的声音信息进行语音识别;以及存储装置,用于关联并存储通过所述语音识别装置得到的语音识别结果的文本信息和图像。
根据本发明提供了一种在信息处理装置中执行的信息处理方法,该方法包括以下步骤:获取步骤,获取与图像有关的声音信息;保持步骤,保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表,其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件;检测步骤,检测所述多个不同事件中的一个或其组合;确定步骤,基于所保持的表确定在所述检测步骤中检测的事件是否要进行语音识别;语音识别步骤,当在所述确定步骤中确定所检测的事件要进行语音识别时,对在所述获取步骤中获取的声音信息进行语音识别;以及关联并存储在语音识别步骤中得到的语音识别结果的文本信息和图像。
通过参照附图说明以下示例性实施例,本发明的其它特征和优点将变得更加明显。
附图说明
图1表示本发明的实施例的图像管理装置的功能结构。
图2是本发明的实施例的图像管理装置的流程图。
图3表示本发明的图像管理装置的事件解释数据表的例子。
图4表示第一实施例的便携式图像拾取装置的例子。
图5表示第一实施例的图像上载时的操作用户界面(UI)画面的例子。
图6表示第一实施例的存储语音识别的文件的例子。
图7表示第一实施例的使用图像管理装置中的图像/语音识别结果数据库的图像检索的过程中的UI画面的例子。
图8表示第一实施例的使用图像管理装置中的图像/语音识别结果数据库的图像检索的流程图。
图9表示第三实施例的图像管理装置的事件解释数据表的例子。
具体实施方式
现在参照附图说明本发明的实施例。
(第一实施例)
以下将说明图像管理装置,作为本发明的信息处理装置的示例。
图1表示根据本发明的图像管理装置的功能结构。图像管理装置101与事件发布单元102和便携式图像拾取装置103连接。事件发布单元102包含于外部装置或应用中并发布(issue)各种事件。通过在特定的存储区域内设置特定的值,实现这些事件。
在基本的动作中,图像管理装置101接收输入的事件,并且,如果确定接收的事件是适当的,则开始动作。该动作涉及对从便携式图像拾取装置103获取的声音注释数据进行语音识别,以及在图像管理装置101中的图像/语音识别结果数据库中存储声音数据和图像。
图像管理装置101中的事件检测单元104从图像管理装置101外的事件发布单元102接收事件。然后,将接收的事件发送到控制单元105,在该控制单元中,响应事件确定继续进行语音识别是否适当。基于图像管理装置101中的事件解释数据表108进行上述确定。将确定结果保持为例如标记(flag)。可以在图像管理装置101内设置事件发布单元102。
图3表示事件解释数据表的例子。表301包含与表示是否开始语音识别的值配对的事件名称。当检测到用于开始语音识别(值是“是”)的事件时,确定语音识别开始。
当确定语音识别开始时,声音注释数据加载单元106将声音注释数据从便携式图像拾取装置103加载到图像管理装置101中。
将加载的声音注释数据发送到声音注释数据识别单元110,在该声音注释数据识别单元中,通过使用现有的语音识别技术,对加载的声音注释数据进行语音识别。将语音识别的结果发送到语音识别结果存储单元107。声音注释数据识别单元110使用诸如语音识别语法和声学模型的语音识别数据109用于语音识别。
语音识别结果存储单元107将基于文本的语音识别结果与相应的图像配对,并将它们存储在图像/语音识别结果数据库111中。例如,语音识别的结果可以被存储在图像数据文件内的注解区(commentarea)内,或者,可以被存储在名称与图像数据文件相同但扩展名与图像数据文件不同的文件内。作为替代方案,可以响应语音识别的结果改变图像数据的文件名。
图2是图像管理装置101的主要流程。当图像管理装置101开始时,该流程开始。首先,确定是否检测到程序终止事件(S201)。如果检测到终止事件,则终止本处理。
如果没有检测到终止事件,则基于图3中所示的事件解释数据表确定是否检测到开始语音识别的事件(S202)。如果没有检测到开始语音识别的事件,则本处理不执行下面的处理而返回流程的顶端。如果检测到开始语音识别的事件,则从图像拾取装置加载声音注释数据(S203)。
对加载的声音注释数据进行语音识别(S204)。因此,不需要来自用户的特定指示就能自动执行语音识别过程。由于语音识别的过程是公知的技术,因此这里不进行详述。与来自图像拾取装置的图像一起,在图像管理装置101内的数据库中存储基于文本的语音识别结果(S205)。
一旦完成上述处理,则处理返回顶端,并重新开始事件的检测。
因此,当在与图像拾取装置连接的个人计算机上执行在便携式图像拾取装置内输入的声音注释数据的语音识别时,可以通过诸如图像上载指示的不是明示的语音识别指示的事件,触发语音识别。
(第二实施例)
现在说明包括图像管理装置的图像检索系统的例子。图4表示在本实施例中使用的便携式图像拾取装置的例子。
用户使用诸如数字照相机或可拍照手机的便携式图像拾取装置401捕获图像。该便携式图像拾取装置401具有图像确认屏403。操作模式开关405允许在图像拾取模式和可在图像确认屏403上确认以前捕获的图像的图像确认模式之间进行切换。
在图像确认模式中,用户可以将声音注释添加到特定的图像。例如,使用在图像确认屏403上显示的所需的图像,用户可以通过按声音注释添加按钮402,将声音注释添加到该图像。具体地说,通过按该按钮,开始用麦克风404捕获一定时间的语音。然后,将声音数据与该图像相关联,并将其存储在图像拾取装置内的存储器中。
例如,假定添加诸如“箱根的山”的声音注释。在种情况下,图像拾取装置将该声音数据与相应的图像相关联,并将其存储在图像拾取装置内的存储器中。
图5表示图像上载的过程中的操作用户界面(UI)画面的例子。当将便携式图像拾取装置与个人计算机连接时,启动具有图像确认对话框501的应用。在图像确认对话框501内以缩略图的方式显示与个人计算机连接的图像拾取装置内的图像。
在缩略图的列表中,可以以不同的方式显示上载的图像502和待上载的图像503。例如,在图5中,对上载的图像的缩略图加阴影,以使用户辨别已上载了哪些图像。并且,可以用特定的符号标记添加声音注释的图像的缩略图。在图5中,例如,用音符标记这种缩略图。
用户选择待上载的图像,并选择上载指示按钮504。选择该按钮允许将图像拾取装置401中的所选的图像上载到个人计算机中的图像数据库中。
同时,将图像上载指示事件发布到图像管理装置101。使用图3中的数据表301,将图像上载指示事件解释为语音识别的开始。然后,从便携式图像拾取装置401加载添加到对应图像的声音注释数据,并对其进行语音识别。将语音识别的结果放在文件中并存储在图像管理装置101中的数据库中。
图6表示这种文件的例子。语音识别结果文件601存储对声音注释数据进行的语音识别的结果。从一个声音注释数据产生一个语音识别结果文件。
语音识别引擎可以为一个语音(声音注释数据)输出多个候选的识别结果。在语音识别结果文件601中,每行存储一个候选的结果。图6中的例子表示输出五个侯选的识别结果。
各侯选的识别结果包含三个字段。从“字符串=”开始的语音识别音素字符串602的字段包含语音识别结果的音素字符串。从“类型=”开始的语音识别语法类型603的字段包含用于结果的输出的语言控制信息(语音识别语法的类型)。在本例子中,将诸如音素类型书写器(typewriter)(类型=类型书写器)的语法和用于识别一般单词的语法的两个语法用于识别。最后的从“分数=”开始的分数604的字段包含侯选的识别结果的分数。从声学上的可能性和语言学上的可能性计算该分数。较高的分数表示较高的识别结果可靠性。
在图像管理装置101中的图像/语音识别结果数据库中存储这种语音识别结果文件601。具体而言,在与图像数据相同的文件夹中,存储文件名与对应的图像数据相同但扩展名变为“va”的语音识别结果文件601。
图7表示使用图像管理装置101中的图像/语音识别结果数据库111的图像检索的过程。
用户在图像检索对话框701中的搜索字符串输入区702中输入搜索字符串并选择搜索开始按钮703。进行搜索,以寻找与搜索查询匹配的图像。检索的图像显示为缩略图704的列表。
该搜索过程的流程如图8所示。对图7中的搜索开始按钮703的选择启动该流程。
首先,从搜索字符串输入区702中读取日文音素字符和日文汉字(中国字)字符的混合的搜索字符串(S801)。然后,使用现有的语言处理方法,将该搜索字符串转换为音素字符串(S802)并将其存储在变量A中。
然后,从图像管理装置101中的图像/语音识别结果数据库111中得到一个语音识别结果文件601。这里,将得到的文件命名为语音识别结果文件α(S803)。
然后将变量C_max清零(S804)。然后,从语音识别结果文件α得到语音识别侯选项。如图6所示,该侯选项是与语音识别结果文件601中的各行对应的信息。将得到的侯选项的“字符串=”后面的语音识别音素字符串(S805)存储在变量B中。
然后,计算变量A和B中存储的音素字符串的相似性(S806)。可以通过使用现有的动态计划(programming)法完成该步骤。将计算的相似性值存储在变量C中。
将存储的变量C与C_max相比较(S807)。如果C比C_max大,则用C更新C_max(S808)。
对语音识别结果文件α中的所有语音识别的候选顶执行上述过程。在对于所有的识别侯选项执行该过程(S809)后,将C_max确定为语音识别结果文件α的分数(S810)。
对于图像/语音识别结果数据库111中的所有语音识别结果文件601执行上述过程。对于所有的语音识别结果文件完成该过程后(S811),通过为各文件计算的分数将这些文件分类。向用户呈现分数最高的N个图像(S812),并且本流程在这里结束。
因此,可以通过使用文本数据,检索图像管理装置中的图像。
(第三实施例)
在上述各实施例中,以图像上载指示事件作为用于开始语音识别的事件。也可以用其它事件开始语音识别。这些例子包括当在图像管理装置101和便携式图像拾取401装置之间建立连接时发布的“连接事件”。在这种情况下,由于在不发布图像上载指示事件的情况下开始语音识别,因此可以用更少的过程实现所要的操作。
这些例子还包括当启动特定的应用时发布的“启动事件”和当打开图像搜索窗口时发布的“搜索窗口打开事件”。可以由此在实际需要时得到语音识别的结果。
其它例子包括当用鼠标选择如图5所示的缩略图时发布的“鼠标点击事件”;“鼠标结束事件”;和在用图像编辑工具编辑特定的图像后发布的“图像编辑事件”。这些例子允许仅对添加到用户实际感兴趣的图像的声音数据进行语音识别。其优点在于,可靠地处理必要的数据,而可以不处理不必要的数据。
也可以使用以一定的时间间隔发布的“定时器事件”。这样可以为用户提供进度安排能力。
(第四实施例)
在上述各实施例中,仅通过接收的特定事件确定语音识别的开始。但是,也可以基于与图像管理装置101中的其它信息的组合进行确定。例如,可以基于在如图9所示的事件解释数据表901中说明的条件表达式进行该确定。
在图9所示的例子中,将关于是否在图像/语音识别结果数据库111中存储语音识别结果文件601的信息加入基于定时器事件的确定中。在这种情况下,当发布一定的定时器事件(例如,每十分钟)时,搜索图像/语音识别结果数据库111,以仅对从其还没有产生语音识别结果文件601的声音数据进行语音识别。
并且,可以存储各种类型的语音识别数据,使得可以根据事件的类型改变在语音识别中使用的这种数据的类型。例如,在需要相对较快的处理的“鼠标点击事件”和“图像编辑事件”的情况下,即使牺牲精度,也要使用允许高速语音识别的语音识别数据。另一方面,对于图像上载指示事件和定时器事件,即使牺牲速度,也要使用允许精确语音识别的语音识别数据。
在本发明中,可以为系统或装置提供记录执行上述实施例的功能的软件程序代码的存储介质,使得计算机(或中心处理单元(CPU)或微处理单元(MPU))即该系统或装置读出并执行在存储介质中存储的程序代码。
在这种情况下,从存储介质读出的程序代码执行上述实施例的功能,使得存储程序代码的存储介质构成本发明。
用于供给程序代码的存储介质可以为例如软盘、硬盘、光盘、磁光(MO)盘、CD-ROM、可记录CcD(CD-R)、磁带、非易失性存储卡和ROM。
不但可以通过读取并执行程序代码的计算机,而且可以通过在计算机上运行并根据程序代码执行整个或部分实际处理的操作系统(OS),执行上述各实施例的功能。
也可以在将从存储介质读出的程序代码写入与计算机连接的扩展单元中或写入计算机中的功能扩展板的存储器中后,通过在功能扩展板或扩展单元中包括的CPU等根据程序代码的指令执行实际处理的全部或一部分,实现上述各实施例的功能。
参照示例性实施例说明了本发明,但应理解本发明不限于公开的实施例。相反,本发明意在覆盖在所附的权利要求书的精神和范围内包含的各种修改和等同配置。应按照最宽的范围解释以下权利要求书,以使其包含所有的这种修改、等同结构和功能。

Claims (2)

1.一种信息处理装置,该信息处理装置包括:
获取装置,用于获取与图像有关的声音信息;
保持装置,用于保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表,其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件;
检测装置,用于检测所述多个不同事件中的一个或其组合;
确定装置,用于基于所保持的表确定所述检测装置检测的事件是否要进行语音识别;
语音识别装置,用于当所述确定装置确定所检测的事件要进行语音识别时,对所述获取装置获取的声音信息进行语音识别;以及
存储装置,用于关联并存储通过所述语音识别装置得到的语音识别结果的文本信息和图像。
2.一种在信息处理装置中执行的信息处理方法,该方法包括以下步骤:
获取步骤,获取与图像有关的声音信息;
保持步骤,保持存储有多个不同事件和关于所述多个不同事件的每一个是否要进行语音识别的信息的表,其中所述多个不同事件的每一个是上载图像时发布的事件、在所述信息处理装置和图像拾取装置之间建立连接时发布的事件、以一定的时间间隔发布的事件、启动程序时发布的事件、启动特定的对话框时发布的事件、选择特定的缩略图时发布的事件或在对图像进行编辑后发布的事件;
检测步骤,检测所述多个不同事件中的一个或其组合;
确定步骤,基于所保持的表确定在所述检测步骤中检测的事件是否要进行语音识别;
语音识别步骤,当在所述确定步骤中确定所检测的事件要进行语音识别时,对在所述获取步骤中获取的声音信息进行语音识别;以及
关联并存储在语音识别步骤中得到的语音识别结果的文本信息和图像。
CNB2005100743221A 2004-06-01 2005-06-01 信息处理装置和信息处理方法 Expired - Fee Related CN100487691C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004163363 2004-06-01
JP2004163363A JP2005345616A (ja) 2004-06-01 2004-06-01 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
CN1704926A CN1704926A (zh) 2005-12-07
CN100487691C true CN100487691C (zh) 2009-05-13

Family

ID=34981221

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100743221A Expired - Fee Related CN100487691C (zh) 2004-06-01 2005-06-01 信息处理装置和信息处理方法

Country Status (5)

Country Link
US (1) US7451090B2 (zh)
EP (1) EP1603061A3 (zh)
JP (1) JP2005345616A (zh)
KR (1) KR100701132B1 (zh)
CN (1) CN100487691C (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007076529A2 (en) * 2005-12-28 2007-07-05 The Trustees Of Columbia University In The City Of New York A system and method for accessing images with a novel user interface and natural language processing
JP5464786B2 (ja) * 2006-12-21 2014-04-09 キヤノン株式会社 情報処理装置、制御方法、及び制御プログラム
JP2008203439A (ja) * 2007-02-19 2008-09-04 Ricoh Co Ltd 画像処理装置、プレビュー画像表示方法およびプレビュー画像表示プログラム
JP2009031951A (ja) * 2007-07-25 2009-02-12 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20100218122A1 (en) * 2009-02-20 2010-08-26 Microsoft Corporation Asynchronously uploading and resizing content in web-based applications
CN104346387B (zh) * 2013-07-31 2018-06-05 株式会社理光 云端服务器以及图像存储检索系统
CN103914803B (zh) * 2014-04-25 2017-03-15 广东小天才科技有限公司 一种图像处理方法及装置
US20170060525A1 (en) * 2015-09-01 2017-03-02 Atagio Inc. Tagging multimedia files by merging
CN106202360B (zh) * 2016-07-06 2020-06-05 广东小天才科技有限公司 试题搜索方法及装置
US10558701B2 (en) * 2017-02-08 2020-02-11 International Business Machines Corporation Method and system to recommend images in a social application
WO2021039057A1 (ja) * 2019-08-29 2021-03-04 ソニー株式会社 情報処理装置、情報処理方法、プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09135417A (ja) 1995-11-10 1997-05-20 Ricoh Co Ltd デジタルスチルビデオカメラ
EP0850673B1 (en) * 1996-07-11 2003-10-01 Sega Enterprises, Ltd. Game input device and game input method with voice recognition
US6529802B1 (en) * 1998-06-23 2003-03-04 Sony Corporation Robot and information processing system
US6625335B1 (en) * 2000-05-11 2003-09-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for assigning keywords to documents
US6970185B2 (en) * 2001-01-31 2005-11-29 International Business Machines Corporation Method and apparatus for enhancing digital images with textual explanations
US6876759B2 (en) 2001-02-01 2005-04-05 Fuji Photo Film Co., Ltd. Image transmitting system, image transmitting method and storage medium
KR20020079114A (ko) * 2001-04-13 2002-10-19 주식회사 에펙스디지탈 방송/음성신호에 의해 움직이는 완구의 동작제어장치
US6810146B2 (en) 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
US20020184196A1 (en) * 2001-06-04 2002-12-05 Lehmeier Michelle R. System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition

Also Published As

Publication number Publication date
CN1704926A (zh) 2005-12-07
EP1603061A2 (en) 2005-12-07
EP1603061A3 (en) 2006-11-15
US7451090B2 (en) 2008-11-11
US20050267747A1 (en) 2005-12-01
JP2005345616A (ja) 2005-12-15
KR20060046317A (ko) 2006-05-17
KR100701132B1 (ko) 2007-03-29

Similar Documents

Publication Publication Date Title
CN100487691C (zh) 信息处理装置和信息处理方法
Larson et al. Spoken content retrieval: A survey of techniques and technologies
US8558919B2 (en) Filing digital images using voice input
US7921116B2 (en) Highly meaningful multimedia metadata creation and associations
JP2007507746A (ja) 選択自由な後処理を備えた携帯可能な装置のための音声タギング,音声アノテーション,および音声認識
US20070250526A1 (en) Using speech to text functionality to create specific user generated content metadata for digital content files (eg images) during capture, review, and/or playback process
US10402407B2 (en) Contextual smart tags for content retrieval
US8301995B2 (en) Labeling and sorting items of digital data by use of attached annotations
JP2006163877A (ja) メタデータ生成装置
US20060047647A1 (en) Method and apparatus for retrieving data
CN101326571B (zh) 声音识别装置
US20130094697A1 (en) Capturing, annotating, and sharing multimedia tips
US20050216913A1 (en) Annotating / rating / organizing / relating content rendered on computer device during idle mode thereof
US8706484B2 (en) Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
US8024311B2 (en) Identifying media assets from contextual information
Bouamrane et al. Meeting browsing: State-of-the-art review
CN101506890A (zh) 视频文件的操作系统外壳管理
US20140372455A1 (en) Smart tags for content retrieval
CA2726391C (en) Filing digital images using voice input
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
KR102066750B1 (ko) 녹음 파일 제어 단말 장치 및 방법
US6928405B2 (en) Method of adding audio data to an information title of a document
Vitasovic et al. Automatic Video Editor for Reportages Assisted by Unsupervised Machine Learning
TW201516716A (zh) 瀏覽多媒體文件之系統及方法
JP2008040891A (ja) 表示システム、その制御方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090513

Termination date: 20160601