CN102918586A - 用于图像数据记录和再现的设备及其方法 - Google Patents
用于图像数据记录和再现的设备及其方法 Download PDFInfo
- Publication number
- CN102918586A CN102918586A CN2010800671218A CN201080067121A CN102918586A CN 102918586 A CN102918586 A CN 102918586A CN 2010800671218 A CN2010800671218 A CN 2010800671218A CN 201080067121 A CN201080067121 A CN 201080067121A CN 102918586 A CN102918586 A CN 102918586A
- Authority
- CN
- China
- Prior art keywords
- equipment
- word
- recognition unit
- signal processor
- image file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000003384 imaging method Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000003860 storage Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- BYJQAPYDPPKJGH-UHFFFAOYSA-N 3-(2-carboxyethyl)-1h-indole-2-carboxylic acid Chemical compound C1=CC=C2C(CCC(=O)O)=C(C(O)=O)NC2=C1 BYJQAPYDPPKJGH-UHFFFAOYSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B31/00—Associated working of cameras or projectors with sound-recording or sound-reproducing means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Studio Devices (AREA)
- Television Signal Processing For Recording (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及用于图像数据记录和再现的设备(1),包括:用于捕获图像的成像系统(10);耦接到成像系统(10)的信号处理器(20),用于将所捕获的图像处理为数字图像文件;耦接到信号处理器(20)的音频系统(30),用于获取适于与数字图像文件相关联的至少一个语音注释;用于识别至少一个语音注释并将语音注释转换成文本数据的语音识别单元(40),语音识别单元(40)关联到信号处理器(20),以使用文本数据生成元数据并将生成的元数据添加到数字图像文件。本发明的特征在于:语音识别单元(40)包括词的多个子集(41),每个子集(41)具有有限数目的词,以识别从相应的多种语言获取的语音注释并将其转换成文本。
Description
本发明涉及一种根据权利要求1的前序部分的、用于图像数据记录和再现的设备。
本发明还涉及一种用于图像数据记录和再现的方法,特别是用于自动创建数字图像文件的元数据的方法。
在最先进的现有技术中,用于图像数据记录和再现的设备和方法是众所周知的;特别地,所述设备包括适于捕获图像并将它们存储在数字介质上的数字照相机。应该注意的是:在本文中,可以使用词语“设备”和/或“照相机”来指数字静态照相机、数字视频摄像机、具有集成数字照相机的移动电话等。
使用最先进的现有技术已知的设备,在捕获图像的时间与打印或者以其它方式显示图像的时间之间,用户(通常也是摄影师)可能忘记或者无法获取与该图像有关的信息,诸如该图像被捕获的时间和/或该图像被捕获的地点和/或图像中所描绘的人。
一些数字照相机允许文本(诸如表示图像被捕获的日期和时间的文本)与照片相关联;该文本通常由照相机创建并以预定的格式在预定位置处叠加到图像上。
所述文本仅包含少量信息,并且其向数字照相机的用户传递很少或不传递将会帮助用户区分图像的有用信息。
同样的问题出现在数字照相机中使用的用于识别和追踪数字图像文件的默认文件命名方案中;实际上,所述默认文件命名方案仅采用:
-用于指示数字图像文件的类型的字母的组合(例如:“DSC”、“IMG”、“PICT”、“DSCN”等),
-附加到上述指示符以识别不同数字图像的序号(例如:“001”、“002”等),以及
-附加到序号之后以识别文件的类型的文件类型扩展名(例如:“.GIF”、“.JPG”等)。
因此,使用默认文件命名方案,用户同样具有很少或不具有关于特定图像文件的内容的有用信息。实际上,用户必需打开并查看每个图像文件以确定所述图像文件是否包含期望的人物图像、地点图像等。最终,用户可以借助于计算机来编辑命名方案,但是在记录图像之后的某个时间进行这种编辑的情况下,这种可能性是几乎没用的。
文献No.EP1876596涉及一种用于图像数据记录和再现的设备,所述设备包括:
-信号处理器,其用于捕获图像、处理所捕获的图像以生成图像数据以及生成包括所述图像数据的图像文件;
-语音识别单元,其用于识别语音并且将语音转换成文本数据;以及
-控制器,其用于使用所述文本数据生成元数据并且将生成的元数据添加到所述图像文件。
根据文献No.EP1876596中所述的,通过使用由语音识别单元转换的文本数据生成将要被包括在图像文件中的元数据,使得能够在紧接在图像捕获之后和/或在检查图像文件时将可靠的元数据(举例来说,例如:拍摄场所或图像中显示的人物)添加到图像文件。
另外,基于通过使用语音识别所转换的文本数据来生成其内存储图像文件的文件夹的名称,使得能够在捕获图像时对图像文件分类。
然而,已观察到:即使是文献No.EP1876596中描述的设备也存在一些缺点,这是因为该设备仅适于识别和转换一种预定语言。
实际上,用于识别语音并将语音转换成文本数据的程序和软件是昂贵且规模庞大的,通常对于每种需要被识别并转换成文本的语言大约需要许多兆字节(或千兆字节);因此,在每个设备不止选择一种预定语言的情况下,在图像文件记录和再现设备中无法使用所述程序和软件。
这意味着根据文献No.EP1876596的示教所实现的每个设备需要包括适于识别仅一种语言并将该语言转换成文本的程序。
这必然意味着该设备不能是通用且兼容的,这是因为用户必须具有包括用于识别他自己的语言的特定程序的设备,以将所述语言转换成文本。
这也意味着设备的生产商不能够生产可以在用户讲不同语言的不同国家销售的单种产品。其结果是:同一产品的型号的数量增加,以及生产成本增加。
在此框架下,本发明的主要目的是通过提供一种用于图像数据记录和再现的设备和方法来克服上述缺点,该设备和方法允许识别多种语言并将其转换成文本。
本发明的另一目的是提供一种以通用且兼容的方式构思的、用于图像数据记录和再现的设备和方法。
本发明的又一目的是提供一种用于图像数据记录和再现的单个设备和方法,其能够识别多种不同语言并将其转换成文本。
本发明通过结合意在作为本说明书的组成部分的所附权利要求中所阐述的特征的、用于图像数据记录和再现的设备和方法来实现这些目的。
根据作为非限制性示例提供的以下详细描述和附图,本发明的其它目的、特征和优点将变得明显,其中:
-图1是根据本发明的用于图像数据记录和再现的设备(具体为数字照相机)的框图;
-图2是示出了根据本发明的用于图像数据记录和再现的方法的第一实施方式的框图;以及
-图3是示出了根据本发明的用于图像数据记录和再现的方法的第二实施方式的框图。
在图1中,附图标记1表示根据本发明的用于图像数据记录和再现的设备的整体。
根据本发明的示例性实施方式的用于图像数据记录和再现的设备1可以是数字静态照相机、数字视频摄像机、具有集成或关联的数字照相机的移动电话等。
所述设备1包括:
-成像系统10,用于捕获图像;
-耦接到所述成像系统10的信号处理器20,信号处理器20用于将所捕获的图像处理为数字图像文件;
-耦接到所述信号处理器20的音频系统30,音频系统30用于获取适于与所述数字图像文件相关联的至少一个语音注释;
-语音识别单元40,用于识别所述至少一个语音注释并将所述语音注释转换成文本数据,所述语音识别单元40关联到所述信号处理器20,以使用所述文本数据生成元数据并且将所生成的元数据添加到所述数字图像文件。
所述成像系统10可以包括镜头/快门组件11,该镜头/快门组件11将光导向并聚焦到用于捕获被摄体的图像的传感器12上;特别地,所述传感器12可以包括一个或更多个CCD(电荷耦合器件)或者一个或更多个CMOS(互补金属氧化物半导体)。
因此,所述信号处理器20控制镜头/快门组件11的操作并且处理从传感器12接收到的图像信息,以生成数字格式的包含所捕获的图像的图像文件。
当图像文件包括静态图像数据时,数字图像文件可以为联合图像专家组(JPEG)的格式或者标签图像文件格式(TIFF)的格式;当图像文件包括运动图像数据时,数字图像文件可以为运动图像专家组(MPEG)的格式或最接近的现有技术已知的其它视频格式。
另外,如最先进的现有技术已知的,每个图像文件包括用于存储图像数据的区域和用于存储关于图像的信息的区域。这根据国际标准执行。实际上,存在一些定义如何将元数据添加到图像文件的实体,如:
-国际报业电信委员会(IPTC)信息交换模型(IIM)(国际新闻电讯委员会),
-用于XMP的IPTC核心模式,·XMP–可扩展元数据平台(Adobe标准),
-EXIF–可交换图像文件格式,其由CIPA(照相机与影像产品协会)维护并由JEITA(日本电子信息技术产业协会)公布,
-都柏林核心(都柏林核心元数据倡议-DCMI),
-PLUS(图片许可通用系统)。
从图1中可以看出,音频系统30优选地包括麦克风31,麦克风31用于允许用户录制短的音频或语音注释、录制用于数字视频记录的声音、输入语音命令等。所述音频系统30也可以包括扬声器32。
根据本发明,所述语音识别单元40包括词的多个子集41,每个子集41具有有限数目的词,以识别从相应的多种语言获取的语音注释并将其转换成文本。
特别地,词的每个子集41不包括特定语言的词的完整词典,而是词的每个子集41包括有限数目的词仅在确定的语言中的相关翻译,它们是在制造商位置处仅在较频繁地被用于关联到确定的图像的词之间选择并存储的。
具体地,所述多个词可以包括:
-表示庆典和/或定期事件和/或节日的术语(举例来说,例如:“派对”、“假日”、“洗礼”、“婚礼”、“生日”、“圣诞节”、“复活节”等);
-表示地理位置的术语(举例来说,例如:“海洋”、“沙漠”、“丘陵”、“山脉”、“湖泊”等);
-表示全世界的国家的术语(例如:“德国”、“法国”、“意大利”、“美利坚合众国”、“日本”、“中国”、“韩国”等)、表示这些国家中的主要城市的术语(例如:“法兰克福”、“慕尼黑”、“巴黎”、“罗马”、“洛杉矶”、“拉斯维加斯”、“东京”、“上海”、“香港”、“澳门”、“首尔”)以及表示这些城市中的著名建筑物和精美艺术作品(例如:“长城”、“卡西诺”、“竞技场”、“埃菲尔铁塔”等)的术语;
-表示季节的术语(例如:“春”、“夏”、“秋”、“冬”)和/或表示月份和/或星期几的术语;
-表示数字特别是能够组成每个数字的从零到九的数字的术语;
-表示与人的关系的术语(举例来说,例如:“兄弟”、“姐妹”、“父亲”、“母亲”、“祖父”、“祖母”、“叔叔”、“姑妈”、“堂兄弟姐妹”、“朋友”、“丈夫”、“妻子”);
-表示人的名字的术语(举例来说,例如:“卡尔”、“保罗”、“彼得”、“约翰”、“弗兰克”、“罗伯特”、“阿比”、“简”、“玛丽”、“贝丝”);
-表示动物的术语(举例来说,例如:“狗”、“猫”、“马”、“鸟”)和/或表示物的术语(举例来说,例如:“房子”、“办公室”、“花园”、“教堂”、“大教堂”、“汽车”、“自行车”)。
该规定允许获得即使在限制于词的子集的情况下也能够识别多种语言并将其转换成文本的、用于图像数据记录和再现的设备和方法。
显然,如果设备存储的和能够识别的词的有限子集没有提供用户想要关联到某个图像的词,则可以通过使用最先进的现有技术中已知的用于写入文字的若干工具(键盘、触摸屏系统等)之一来手动编辑该特定的词。
特别地,根据本发明的设备1和方法允许识别语音并将语音转换成文本数据,而无需对于每种需要识别和转换成文本的语言使用昂贵且规模庞大的、通常大约需要许多兆字节(或千兆字节)的语音识别单元40。因此,可以在消费产品如数字静态照相机、数字视频摄像机、具有集成数字照相机的移动电话等中实施该方案,而无需向这些产品支付市场所不能接受的费用。
因此,显然,所述语音识别单元40可以在设备1中实现,而无需在制造商的位置处选择要使用的预定语言,并且所述语音识别单元40允许指示以通用且兼容的方式构思的单个设备1和方法。
优选地,所述语音识别单元40关联到激活装置42相关联,激活装置42允许用户激活语音识别单元40以将语音注释转换成文本数据。
特别地,用户可以在捕获和/或显示图像之前启动所述激活装置42;另外,用户可以在捕获图像之后特别是在显示所述图像时启动所述激活装置42。例如,所述激活装置42可以包括按钮(未在附图中示出),该按钮优选地位于设备1的外表面上。
设备1还包括耦接到信号处理器20的存储器50,存储器50用于存储数字图像文件和/或语音注释和/或转换成文本数据的语音注释。所述存储器50可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)等。
另外,设备1还包括与信号处理器20相关联的显示器60。已知所述显示器60可以用于多种用途,具体地:
-用于显示用户将要捕获的图像;在这种情况下,显示器60允许用户以该图像为中心并聚焦该图像、使图像中出现的人摆好姿势等;
-用于显示作为数字图像文件存储于存储器50中的捕获图像;
-用于显示适于向用户传递信息的菜单;
-用于选择设备1的特征;
-用于控制设备1的操作等。
在本发明的优选实施方式中,所述显示器60包括屏幕显示(OSD)系统,该屏幕显示系统适于在用于显示设备1的操作的多种语言之间选择语言以及从词的所述子集41中选择一个子集。
如上所述,显然,设备1可以包括用于依照国际标准以传统方式生成元数据的输入装置(未在图1中示出),即,产生用于生成要添加到数字图像文件中的元数据的文本数据;例如,所述输入装置可以包括键盘或触摸屏。
图2和图3分别涉及根据本发明的用于图像数据记录和再现的方法的第一表现和第二表现。
特别地,所述方法包括以下步骤:
-在制造商位置处将有限数目的词的多个子集41存储(步骤150)在用于识别从相应的多种语言获取的语音注释并将语音注释转换成文本的所述语音识别单元40中;
-借助于包括成像系统10的设备1捕获图像(步骤100);
-通过耦接到所述成像系统10的信号处理器20将所捕获的图像处理为数字图像文件(步骤110);
-借助于耦接到所述信号处理器20的音频系统30来录制至少一个语音注释,特别是录制在存储器50中,所述至少一个语音注释适于与所述数字图像文件相关联(步骤120);
-借助于与信号处理器20关联的语音识别单元40来识别所述至少一个语音注释并将该语音注释转换成文本数据(步骤130);
-使用该文本数据生成元数据并将生成的元数据添加到数字图像文件中(步骤140)。
根据本发明,通过使用存储在所述用于识别从相应的多种语言获取的语音注释并将语音注释转换成文本的语音识别单元40中的词的多个子集中的一个,来执行所述识别语音注释并将语音注释转换成文本数据的步骤130。
在图2和图3中,线L表示如下事实:所述将有限数目的词的多个子集存储在所述语音识别单元40中的步骤150在制造商的位置处来完成。
特别地,通过用于启动语音识别单元40的激活装置42的步骤160来执行根据本发明的方法,所述激活装置42允许用户激活语音识别单元40以将语音注释转换成文本数据。
特别地,从图2可以看出,可以在处理所捕获的图像的步骤110之后,即当所述图像已经被记录在设备1的存储器50中时,执行启动所述激活装置42的步骤160。在这种情况下,生成具有传统文件名的图像文件的步骤161可以先于所述步骤160。另外,在用户决定不启动所述激活装置42的情况下,设备1可以执行生成具有传统文件名的图像文件的步骤161。
替代地,从图3特别地可以理解,可以在所述捕获图像的步骤100之前执行启动所述激活装置42的步骤160。
另外,根据本发明的方法包括另外的步骤180,步骤180借助于包括在所述显示器60中的屏幕显示(OSD)系统在用于显示设备1的操作的多种语言之间选择语言以及从词的所述子集41中选择一个子集。
优选地,参照图2的方法,在用于捕获图像的步骤100之前执行所述选择语言和词的子集的步骤180;参照图3的方法,在启动所述激活装置42的步骤160之后执行所述选择语言和词的子集的步骤180。
另外,必须注意:本发明也可以被实施为计算机可读存储介质/数据上的计算机可读元数据。计算机可读存储介质/数据是可以存储数据的任何数据存储设备,该数据之后能够被计算机系统读取。计算机可读记录介质的示例包括电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、只读光盘存储器(CD-ROM)、磁带、软盘、光学数据存储设备等。
根据以上的描述,根据本发明的用于图像数据记录和再现的设备和方法所提供的优点是明显的。
特别地,这些优点归因于如下事实:提供包括词的多个子集41的语音识别单元40允许识别多种语言并将其转换成文本;特别地,这可以在无需使用昂贵且规模庞大的、通常对于每种需要识别并将其转换成文本的语言大约需要许多兆字节(或千兆字节)的语音识别单元40的情况下完成。
因此,显然,可以在设备1中使用所述语音识别单元40而无需选择需要被识别并转换成文本的预定语言,因此,根据本发明的语音识别单元40的具体实现允许指示以通用且兼容的方式构思的设备1和方法。
本文通过示例描述的设备和方法可以在不背离本发明构思的新颖性精神的情况下进行多种可能的变化;同样,显然,在本发明的实际实现中,所示出的细节可以具有不同的设备或被其它技术上等同的元件所替代,也可以提供不同的步骤顺序。
例如,对于图2和图3中所示的实施方式,用户手动或由设备1自动地启动激活装置的步骤160可以紧接着选择语言的步骤180,以作为已经选择了用于显示设备1的操作的语言以及词的所述子集41中的一个子集的结果。
因此可以容易理解:本发明不限于上述设备和方法,而是可以在不背离所附权利要求中明确规定的本发明构思的情况下进行多种修改、改进或等同部件和元件的替换。
Claims (17)
1.一种用于图像数据记录和再现的设备(1),所述设备(1)包括:
-成像系统(10),用于捕获图像;
-耦接到所述成像系统(10)的信号处理器(20),所述信号处理器(20)用于将所捕获的图像处理为数字图像文件;
-耦接到所述信号处理器(20)的音频系统(30),所述音频系统(30)用于获取适于与所述数字图像文件相关联的至少一个语音注释;
-语音识别单元(40),用于识别所述至少一个语音注释并且将所述语音注释转换成文本数据,所述语音识别单元(40)被关联到所述信号处理器(20),以使用所述文本数据生成元数据并将所生成的元数据添加到所述数字图像文件,
其特征在于,
所述语音识别单元(40)包括词的多个子集(41),以识别从相应的多种语言获取的语音注释并将所述语音注释转换成文本,其中,每个子集(41)具有有限数目的词。
2.根据权利要求1所述的设备(1),其特征在于,词的每个子集(41)包括有限数目的词仅在确定的语言中的相关翻译,所述有限数目的词是在制造商的位置处仅在较频繁地被用于关联到确定图像的词之间选择并存储的。
3.根据前述权利要求中的一项或更多项所述的设备(1),其特征在于,所述语音识别单元(40)被关联到激活装置(42),所述激活装置(42)使得用户能够激活所述语音识别单元(40)以将所述语音注释转换成文本数据。
4.根据权利要求1所述的设备(1),其特征在于,所述设备(1)包括耦接到所述信号处理器(20)的存储器(50),所述存储器(50)用于存储所述数字图像文件和/或所述语音注释和/或转换成文本数据的语音注释。
5.根据权利要求1所述的设备(1),其特征在于,所述设备(1)包括关联到所述信号处理器(20)的显示器(60)。
6.根据权利要求5所述的设备(1),其特征在于,所述显示器(60)包括屏幕显示(OSD)系统,所述屏幕显示(OSD)系统适于在用于显示所述设备(1)的操作的多种语言之间选择语言以及从有限数目的词的所述子集(41)中选择一个子集。
7.根据权利要求1所述的设备(1),其特征在于,所述设备(1)包括用于使用所述文本数据生成元数据并根据确定的国际标准对它们进行编码的输入装置。
8.一种用于图像数据记录和再现的方法,包括以下步骤:
-借助于包括成像系统(10)的设备(1)捕获图像(步骤100);
-通过耦接到所述成像系统(10)的信号处理器(20)将所捕获的图像处理为数字图像文件(步骤110);
-借助于耦接到所述信号处理器(20)的音频系统(30)来录制至少一个语音注释,特别是录制在存储器(50)中,所述语音注释适于与所述数字图像文件相关联(步骤120);
-借助于关联到所述信号处理器(20)的语音识别单元(40)识别所述语音注释并将至少一个语音注释转换成文本数据(步骤130);
-使用所述文本数据生成元数据并将所生成的元数据添加到所述数字图像文件(步骤140),
所述方法的特征在于如下事实,
借助于在制造商的位置处将有限数目的词的多个子集(41)存储在所述语音识别单元(40)中的步骤(150),并且使用所述多个子集(41)来识别从相应的多种语言获取的语音注释并将所述语音注释转换成文本,来执行所述识别所述至少一个语音注释并将其转换成文本数据的步骤(130)。
9.根据权利要求8所述的方法,其特征在于包括:启动所述语音识别单元(40)的激活装置(42)的步骤(160),所述激活装置(42)使得用户能够激活所述语音识别单元(40)以将所述语音注释转换成文本数据。
10.根据权利要求9所述的方法,其特征在于,所述启动所述激活装置(42)的步骤(160)在处理所捕获的图像的步骤(110)之后执行。
11.根据权利要求9所述的方法,其特征在于,所述启动所述激活装置(42)的步骤(160)在所述捕获图像的步骤(100)之前执行。
12.根据权利要求11所述的方法,其特征在于,在所述启动所述激活装置(42)的步骤(160)之前包括生成具有传统文件名的图像文件的步骤(161)。
13.根据权利要求8所述的方法,其特征在于包括步骤(180),步骤(180)借助于包括在所述显示器(60)中的屏幕显示(OSD)系统,在用于显示所述设备(1)的操作的多种语言之间选择语言以及从所述有限数目的词的子集(41)中选择一个子集。
14.根据权利要求13所述的方法,其特征在于,所述选择语言和有限数目的词的子集的步骤(180)在所述捕获图像的步骤(100)之前执行。
15.根据权利要求13所述的方法,其特征在于,所述选择语言和词的子集的步骤(180)在所述启动所述激活装置(42)的步骤(160)之后执行。
16.一种适于执行根据权利要求8至15中的任一项所述的方法的计算机程序产品。
17.一种与根据权利要求16所述的计算机程序产品相关联地使用的计算机可读存储介质/数据载体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2010/057747 WO2011150969A1 (en) | 2010-06-02 | 2010-06-02 | Apparatus for image data recording and reproducing, and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102918586A true CN102918586A (zh) | 2013-02-06 |
CN102918586B CN102918586B (zh) | 2015-08-12 |
Family
ID=43016538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080067121.8A Active CN102918586B (zh) | 2010-06-02 | 2010-06-02 | 用于图像数据记录和再现的设备及其方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20130155277A1 (zh) |
EP (1) | EP2577654A1 (zh) |
JP (1) | JP2013534741A (zh) |
KR (1) | KR20130095659A (zh) |
CN (1) | CN102918586B (zh) |
WO (1) | WO2011150969A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679724A (zh) * | 2013-12-03 | 2015-06-03 | 腾讯科技(深圳)有限公司 | 页面注释方法及装置 |
CN107870713A (zh) * | 2016-09-27 | 2018-04-03 | 洪晓勤 | 具有兼容性的图文一体化的图片处理方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130120594A1 (en) * | 2011-11-15 | 2013-05-16 | David A. Krula | Enhancement of digital image files |
US8768693B2 (en) * | 2012-05-31 | 2014-07-01 | Yahoo! Inc. | Automatic tag extraction from audio annotated photos |
JP7042167B2 (ja) * | 2018-06-13 | 2022-03-25 | 本田技研工業株式会社 | 車両制御装置、車両制御方法、およびプログラム |
EP4013041A4 (en) * | 2019-08-29 | 2022-09-28 | Sony Group Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5546145A (en) * | 1994-08-30 | 1996-08-13 | Eastman Kodak Company | Camera on-board voice recognition |
US5758023A (en) * | 1993-07-13 | 1998-05-26 | Bordeaux; Theodore Austin | Multi-language speech recognition system |
US5991719A (en) * | 1998-04-27 | 1999-11-23 | Fujistu Limited | Semantic recognition system |
US6879958B1 (en) * | 1999-09-03 | 2005-04-12 | Sony Corporation | Communication apparatus, communication method and program storage medium |
CN101542477A (zh) * | 2006-04-07 | 2009-09-23 | 西门子通讯公司 | 使用语音-文本转换自动生成数字图像文件的文件名 |
US20090298529A1 (en) * | 2008-06-03 | 2009-12-03 | Symbol Technologies, Inc. | Audio HTML (aHTML): Audio Access to Web/Data |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6462778B1 (en) * | 1999-02-26 | 2002-10-08 | Sony Corporation | Methods and apparatus for associating descriptive data with digital image files |
US6970185B2 (en) * | 2001-01-31 | 2005-11-29 | International Business Machines Corporation | Method and apparatus for enhancing digital images with textual explanations |
JP2003178067A (ja) * | 2001-12-10 | 2003-06-27 | Mitsubishi Electric Corp | 携帯端末型画像処理システム、携帯端末およびサーバ |
JP4295540B2 (ja) * | 2003-03-28 | 2009-07-15 | 富士フイルム株式会社 | 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置 |
US20050118990A1 (en) * | 2003-12-02 | 2005-06-02 | Sony Ericsson Mobile Communications Ab | Method for audible control of a camera |
GB2409365B (en) * | 2003-12-19 | 2009-07-08 | Nokia Corp | Image handling |
JP2006030874A (ja) * | 2004-07-21 | 2006-02-02 | Fuji Photo Film Co Ltd | 画像記録装置 |
JP2006133433A (ja) * | 2004-11-05 | 2006-05-25 | Fuji Photo Film Co Ltd | 音声/文字変換システムならびに携帯型端末装置および変換サーバならびにそれらの制御方法 |
JP2006163877A (ja) * | 2004-12-08 | 2006-06-22 | Seiko Epson Corp | メタデータ生成装置 |
JP2007052626A (ja) * | 2005-08-18 | 2007-03-01 | Matsushita Electric Ind Co Ltd | メタデータ入力装置およびコンテンツ処理装置 |
US8502876B2 (en) * | 2006-09-12 | 2013-08-06 | Storz Endoskop Producktions GmbH | Audio, visual and device data capturing system with real-time speech recognition command and control system |
JP4962783B2 (ja) * | 2007-08-31 | 2012-06-27 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
JP4896838B2 (ja) * | 2007-08-31 | 2012-03-14 | カシオ計算機株式会社 | 撮像装置、画像検出装置及びプログラム |
JP5283947B2 (ja) * | 2008-03-28 | 2013-09-04 | Kddi株式会社 | 携帯端末の音声認識装置、音声認識方法、音声認識プログラム |
US20100238323A1 (en) * | 2009-03-23 | 2010-09-23 | Sony Ericsson Mobile Communications Ab | Voice-controlled image editing |
US8558919B2 (en) * | 2009-12-30 | 2013-10-15 | Blackberry Limited | Filing digital images using voice input |
US20130120594A1 (en) * | 2011-11-15 | 2013-05-16 | David A. Krula | Enhancement of digital image files |
-
2010
- 2010-06-02 KR KR1020127034321A patent/KR20130095659A/ko not_active Application Discontinuation
- 2010-06-02 CN CN201080067121.8A patent/CN102918586B/zh active Active
- 2010-06-02 JP JP2013512769A patent/JP2013534741A/ja active Pending
- 2010-06-02 US US13/700,922 patent/US20130155277A1/en not_active Abandoned
- 2010-06-02 WO PCT/EP2010/057747 patent/WO2011150969A1/en active Application Filing
- 2010-06-02 EP EP10726032.5A patent/EP2577654A1/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5758023A (en) * | 1993-07-13 | 1998-05-26 | Bordeaux; Theodore Austin | Multi-language speech recognition system |
US5546145A (en) * | 1994-08-30 | 1996-08-13 | Eastman Kodak Company | Camera on-board voice recognition |
US5991719A (en) * | 1998-04-27 | 1999-11-23 | Fujistu Limited | Semantic recognition system |
US6879958B1 (en) * | 1999-09-03 | 2005-04-12 | Sony Corporation | Communication apparatus, communication method and program storage medium |
CN101542477A (zh) * | 2006-04-07 | 2009-09-23 | 西门子通讯公司 | 使用语音-文本转换自动生成数字图像文件的文件名 |
US20090298529A1 (en) * | 2008-06-03 | 2009-12-03 | Symbol Technologies, Inc. | Audio HTML (aHTML): Audio Access to Web/Data |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679724A (zh) * | 2013-12-03 | 2015-06-03 | 腾讯科技(深圳)有限公司 | 页面注释方法及装置 |
CN107870713A (zh) * | 2016-09-27 | 2018-04-03 | 洪晓勤 | 具有兼容性的图文一体化的图片处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2013534741A (ja) | 2013-09-05 |
CN102918586B (zh) | 2015-08-12 |
EP2577654A1 (en) | 2013-04-10 |
WO2011150969A1 (en) | 2011-12-08 |
US20130155277A1 (en) | 2013-06-20 |
KR20130095659A (ko) | 2013-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101101779B (zh) | 数据记录和再现设备以及产生元数据的方法 | |
US9317531B2 (en) | Autocaptioning of images | |
US10944902B2 (en) | Digital image generation using capture support data | |
US8462231B2 (en) | Digital camera with real-time picture identification functionality | |
US20160132534A1 (en) | Information processing system, information processing device, inofrmation processing method, and computer readable recording medium | |
CN102918586B (zh) | 用于图像数据记录和再现的设备及其方法 | |
CN100571363C (zh) | 图像处理设备、系统和方法 | |
KR101475939B1 (ko) | 이미지 처리 장치의 제어 방법과 이미지 처리 장치, 이미지파일 | |
CN101542477A (zh) | 使用语音-文本转换自动生成数字图像文件的文件名 | |
CN104580888A (zh) | 一种图像处理方法及终端 | |
US9973649B2 (en) | Photographing apparatus, photographing system, photographing method, and recording medium recording photographing control program | |
JP2013090267A (ja) | 撮像装置 | |
JP4803147B2 (ja) | 撮像装置、画像生成方法、およびプログラム | |
CN106161935A (zh) | 一种照片备注显示系统 | |
CN104978389A (zh) | 方法、系统、服务器和客户端 | |
JP5173666B2 (ja) | カメラ | |
JP2007288409A (ja) | 画像データ分類機能を備えた撮像装置およびプログラム | |
KR20220121667A (ko) | 스마트폰에서 사진 자동 레이블링 및 녹음 장치 및 방법 | |
TWI510940B (zh) | 以語音訊號建立備註資料之影像瀏覽裝置及其方法 | |
JP2007065897A (ja) | 撮像装置及びその制御方法 | |
JP2016170654A (ja) | 情報処理端末、情報処理方法、プログラム、及び、情報処理装置 | |
JP5613223B2 (ja) | 撮影システムの表示方法 | |
JP5657753B2 (ja) | 画像送信機能付きカメラ、表示制御方法、および画像送信方法 | |
JP2013229900A (ja) | 撮像装置、画像生成方法、およびプログラム | |
JP2011259478A (ja) | 撮像装置、画像生成方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |