CN101542477A - 使用语音-文本转换自动生成数字图像文件的文件名 - Google Patents

使用语音-文本转换自动生成数字图像文件的文件名 Download PDF

Info

Publication number
CN101542477A
CN101542477A CNA2007800117475A CN200780011747A CN101542477A CN 101542477 A CN101542477 A CN 101542477A CN A2007800117475 A CNA2007800117475 A CN A2007800117475A CN 200780011747 A CN200780011747 A CN 200780011747A CN 101542477 A CN101542477 A CN 101542477A
Authority
CN
China
Prior art keywords
digital image
image file
audio
text
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800117475A
Other languages
English (en)
Inventor
J·武昂
S·科拉
J·R·凯勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Siemens Communications Inc
Original Assignee
Siemens Information and Communication Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Information and Communication Networks Inc filed Critical Siemens Information and Communication Networks Inc
Publication of CN101542477A publication Critical patent/CN101542477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Abstract

一种用于自动生成数字图像文件(122)的注释文件名(132)的系统(120)和方法(200),允许用户为由数字照相机(100)捕捉的数字图像文件(122)生成富有含义的文件名。所述数字照相机(100)捕捉到图像后,包含音频信息的音频注释(124)被关联到所述数字图像文件(122)。音频注释(124)中的音频信息通过语音-文本转换被转换为文本字符串(130)。然后该文本字符串(130)与所述数字图像文件(122)相关联,作为数字图像文件(122)的注释文件名(132)。

Description

使用语音-文本转换自动生成数字图像文件的文件名
发明背景
本发明通常涉及数字相机,包括数字照相机、数字摄像机、装备有数字相机的移动电话,和类似物品,并且,更特别的涉及使用语音-文本转换来为数字图像文件自动生成有含义的文件名。
数字相机电子地捕捉图像并用数字格式在存储器中储存这些图像作为数字图像文件,像数码照片、视频或类似文件。如果需要,这些数字图像文件可以被传输或下载到图像处理设备,像计算机、照片打印机,等以用于编辑和/或打印。许多数字照相机进一步允许使用者记录简短音频或声音注释,典型的为持续几秒钟,然后可能要与给定的数字图像文件关联。这种音频注释可能被用户用于多种目的,例如为图像提供上下文背景或记录在编辑或打印期间使用的信息。
目前,数字照相机使用默认文件命名机制,用于鉴别和追踪存储于存储器中或传输到像计算机或数字图像打印机的数字图像处理设备中的数字图像文件。典型的默认文件命名机制使用字母和数字的组合,从而这些字母和数字的组合被有序地分配给存储于数字相机存储器中的文件。例如,一些通用命名机制使用由字母序列(例如,“DSC”、“IMG”、“IMG_”、“PICT”、“DSCF”、“DSCN”等)组成的标识符,这些组合用于表示数字图像文件类型,例如,照片,视频或类似类型,或者用于标识数字相机存储器中文件或文件夹分区的数字序列(“101”、“101_”等)。序列号(例如,“0001”、“0002”、“0003”等)添加到此标识符,用于将存储于存储器中的特定的数字图像文件与其它数字图像文件区分出来。最后,文件类型扩展名(例如,“JPG”、“TIF”、“BIT”、“MPG”等)可以附加于序列号尾部用于识别数字图像文件的文件类型。按此方法,可以创建一个默认的文件名,具有格式“DSC0001.JPG”、“IMG_0001.JPG”、“101_0002”或类似格式,此后这些格式被用于标识数字图像文件。
这种默认文件命名机制存在一个问题,即它们向数字相机的使用者传达极少或没有传达有用的信息,而这些信息能帮助使用者将一个文件区别于其它文件。替代这个的是,用户必须打开并浏览每个文件才能判定该数字图像文件包含的图像是否是需要的。更进一步,许多数字相机都配置了存储器,这使其能存储极其大量的数字图像文件,对用户来说进行该处理过程效率低下并会感到挫败。为了致力解决这一缺陷,很多数字相机都具有缩略显示,它由很多数字图像文件存储的图像的小版式组成。通过该方法,用户可以选择需要的图像文件而不必打开存储器中的文件。尽管如此,由缩略显示提供的图像版式通常都非常小,使用户很难将包含相似主题内容的图像文件区分开来。
因此,我们需要提供一种系统和方法用于快速而高效地创建数字图像文件的注释文件名,它向用户传达有意义的信息,从而允许用户搜索存储于存储器中的数字图像文件并在这些数字图像文件中选择,和/或者无需非必要地打开浏览文件就能分类和组织那些文件。
发明概述
本发明涉及一种用于自动生成由数字照相机捕捉的数字图像文件的注释文件名的系统和方法,该注释文件名向用户传达有意义的信息。通过该方法,用户可以生成文件名,该文件名可能被用于更有效的在存储器所存储的图像文件中进行选择,减少了用户不必要地打开和浏览文件的需求。
在一个具体实施例中,本发明提供了一种数字相机,能够自动生成数字图像文件的注释文件名。该数字相机包括用于捕捉图像的成像系统,耦合于成像系统的处理系统,用于将捕捉的图像处理为数字图像文件,和音频系统,用于记录包含与该数字图像相关的音频信息的音频注释。在图像被捕捉后,数字照相机的处理器执行指令程序,用于将该音频信息转换为文本字符串,并将该文本字符串与数字图像文件关联作为该数字图像文件的注释文件名。
在第二个实施例中,本发明提供了一种用于自动生成数字图像文件的注释文件名的系统和方法,该数字图像文件是由数字相机捕捉的。依照该系统和方法,包含音频信息的音频注释与该数字图像文件关联。使用语音-文本转换将该音频注释中的音频信息转换为文本字符串。然后,将该文本字符串与该数字图像文件相关联,作为该数字图像文件的注释文件名。
可以理解的是,前述概述和接下来的详细说明都是用于例证和说明的,并且都不是限制本发明。附图被引入到说明书中,并且作为说明书的一部分,论述本发明的实施例,并与本发明的一般描述一起用于解释本发明的原理。
附图的简要描述
参考附图,本领域技术人员可以更好的理解本发明的多项优点:
图1显示依照本发明示例实施例的数字照相机的方框图;
图2显示生成图1所示的数字照相机中数字图像文件的注释文件名的方框图;
图3A,3B和3C是如图1所示的数字照相机在为存储于其存储器中的数字图像文件生成注释文件名过程中的显示器简图;
图4显示依照本发明示例实施例,生成数字图像文件的注释文件名的方法的流程图;
图5显示依照本发明第二示例实施例的数字照相机的方框图;
图6显示如图5所示数字照相机中数字图像文件的注释文件名的的生成的方框图;
图7A和7B显示图5所示的数字照相机在为存储于其存储器中的数字图像文件命名过程中的显示器简图;
图8显示依照本发明第二示例实施例,生成数字图像文件的注释文件名的方法的流程图;以及
图9显示依照本发明的与图像处理设备相耦合的数字照相机的方框图,其中,由该数字照相机捕捉的数字图像文件的注释文件名的生成是由该图像处理设备提供的。
具体实施例的详细描述
现在,将对本发明优选实施例作出详细解释,这些例子都在附图中加以说明。
图1到12举例说明了依照本发明示例实施例自动生成由数字照相机捕捉的数字图像文件的注释文件名的系统和方法,该注释文件名可向用户传达有含义的信息。
图1描绘了实施本发明系统和方法的示例数字照相机100。如图所示,该数字照相机包括成像系统102,成像系统102包括镜头/快门组合装置104,用来指引并聚焦光线到图像生成器106中,图像生成器106包括一个或多个CCD(电荷耦合装置)或CMOS(互补金属氧化物半导体)传感器用于捕捉对象的图像。该镜头/快门组合装置104和图像生成器106都耦合于处理系统108,处理系统108控制快门/镜头组合装置中镜头和快门的操作,并处理从图像生成器106中接收到的图像信息,用于生成数字图像文件,该文件包含数字格式的捕捉图像。在一示例实施例中,处理系统108可包含数字照相机100操作所需要的处理器,存储器,例如随机存取存储器(RAM),只读存储器(ROM),电可擦除可编程只读存储器(EEPROM),或者类似存储器,总线系统,等等。该处理系统108耦合于用于存储数字图像文件的存储器110。在示例实施例中,存储器110可包含闪存,如Compact Flash、
Figure A20078001174700081
PC卡、和类似装置;硬盘驱动器;可移动硬盘驱动器;或者类似装置。该数字照相机100可进一步包括耦合于处理系统108的显示装置112,用于显示用户捕捉到的图像,由此允许用户将图像居中摆放,聚焦数字照相机100,使图像中出现的人物摆弄姿势,和类似操作。显示装置112可进一步用于显示从图像文件接收到的捕捉图像,用于向用户传达信息的菜单,该菜单用于选择数字照相机100的特性,这些特性用于控制数字照相机100的操作,等等。数字照相机进一步包括音频系统114,音频系统114包括麦克风116,并可选的包括扬声器118,用于允许使用者记录简短的音频或声音注释,记录用于数字视频记录的声音,输入声音命令,等等。
如图2所示,图1中所示的数字照相机100依照本发明示例实施例使用系统120来自动生成数字图像文件的注释文件名。一个或多个图像被数字照相机100的成像系统102捕捉,并被存储于存储器110中作为数字图像文件122。在本发明实施例中,数字图像文件122可包含数字静止图像,该数字静止图像包括单个的照片图像或一组照片图像,数字视频,等等,它们使用通用格式,例如联合图像专家组(JPEG),或运动图像专家组(MPEG)指定的格式,或类似格式。
通过使用数字照相机100的音频系统112来记录音频或声音信息,用户可进一步生成与数字图像文件122相关的音频注释124。该特征允许用户为捕捉到的图像提供上下文背景,或者允许用户记录在随后的图像编辑或打印期间使用的信息。当信息被记录后,该音频注释被关联到数字图像文件122,并与数字图像文件122一同存储于存储器110中。例如,在一个实施例中,捕捉到照片图像之后,数字照相机100可提示用户(例如,通过显示器112来显示提示)记录音频注释124。然后,用户可使用音频系统114的麦克风116讲话来记录音频注释124,通常讲话持续几秒钟。
当数字图像文件122和任何相关的音频注释124都存储于存储器110时,处理系统108执行指令程序,该指令程序为数字图像文件122分配初始默认文件名126。默认文件命名机制可能会被像如图1和2中显示的数字照相机100这样的数字照相机使用,该默认文件命名机制通常使用字母和数字的组合,这些组合顺序地被分配给存储在数字照相机100的存储器110中的文件。例如,默认文件命名机制使用由字母序列(例如,“DSC”、“IMG”、“IMG_”、“PICT”、“DSCF”、“DSCN”等)组成的标识符,这些字母序列用于表示数字图像文件的类型,例如,照片,数字视频,或者类似类型;或者,默认文件命名机制使用由数字序列(“101”、“101_”等)组成的标识符,这些数字序列用于确定数字照相机100存储器中的文件或文件夹分区。序列号(例如,“0001”、“0002”、“0003”等)附加于该标识符,用于将存储于存储器中的特定数字图像文件与其他数字图像文件区分开来。最后,文件类型扩展名(例如,“.JPG”、“.GIF”、“.BIT”、“.MPG”等)可附加于上述序列号末尾,来标识数字图像文件的文件类型。如图2显示的实施例中,已分配的默认文件名126包括字符串“DSC0111”,它使用标识符“DSC”和序列号“0111”。尽管如此,应该意识到,处理系统108也可分配具有其他格式而没有偏离本发明范围和目的的文件名。
依照本发明,用户可选择通过使用与数字图像文件122相关联的音频注释124,为存储于数字照相机的存储器110中的数字图像文件122生成注释文件名。在这种情况中,语音-文本转换驱动器128使用语音-文本转换程序,自动为每个具有相关注释信息124的数字图像文件122将包含于该音频注释124的音频信息转换成文本字符串130。然后该语音-文本转换驱动器128使用文本字符串130替换数字图像文件122的默认文件名126,并且将数字图像文件122存储于存储器110中,由此,文本字符串130与数字图像文件122相关联作为数字图像文件122的注释文件名132。
例如,在图3A至3C所示的实施例中,用户可以打开由数字照相机100(图1)的显示器112显示的菜单134(“MENU”),并选择菜单选项136,以启动注释文件命名(例如,如图3B和3C所示,通过选择菜单选项136下一步的选项框138“启动声音注释文件命名”),从而启动语音-文本转换驱动器128。该语音-文本转换驱动器128在数字照相机100的存储器110所存储的数字图像文件122中,搜寻或扫描那些具有音频注释124的数字图像文件122,并使用语音-文本转换程序为每个具有与音频注释124相关的数字图像文件122来自动地将包含于音频注释124中的音频信息转换为文本字符串130。然后,语音-文本转换驱动器128以文本字符串130替换数字图像文件122的默认文件名126,并将数字图像文件122存储于存储器110中,因此,文本字符串130与数字图像文件122相关联作为数字图像文件122的注释文件名132。
在图3A至图3C中,数字图像文件122由具有初始默认文件名126“DSC0111”、“DSC0112”、“DSC0113”、“DSC0114”、“DSC0115”和“DSC0116”的缩略图140来表示。那些具有相关音频注释124的数字图像文件122均使用诸如扬声器图标、便签图标或类似的图标142来表示。因此,在图3A至图3B中,具有文件名“DSC0111”、“DSC0113”和“DSC0115”的数字图像122都包含相关的包含了音频信息的音频注释124,它们被语音-文本转换驱动器128分别转换为文本字符串“文本字符串”、“文本字符串2”、“文本字符串3”。此时,语音-文本转换驱动器128将分别使用注释文件名“文本字符串”、“文本字符串2”、“文本字符串3”来分别替换包含音频注释124的数字图像文件122的初始默认文件名“DSC0111”、“DSC0113”和“DSC0115”,并将文件122存储于存储器110。例如,用户在野营旅行中,可使用数字照相机100照数字照片,并将这些照片存储为数字图像文件122。在一个同伴扎营并站在湖边时,为他照了数字照片,之后用户可以记录包含诸如“Jane在湖边”和“扎营”的音频信息的音频注释124,这与数字图像文件122相关联,并分别以初始默认文件名126“DSC0111”和“DSC0113”存储于存储器110中。当用户选择“启动声音注释文件命名”菜单选项136,则语音-文本转换驱动器128将音频信息“Jane在湖边”和“扎营”转换为合适的文本字符串130,例如“Janebythelake”和“Settingupcamp”,并使用文本字符串130“Janebythelake”和“Settingupcamp”替换初始默认文件名126“DSC0111”和“DSC0113”,因此,数字图像文件122被分别以注释文件名132“Janebythelake”和“Settingupcamp”重新命名。值得重视的是,当数字图像文件被下载到图像处理设备中(参见图9),例如通过添加文件扩展名如“.JPG”、“.GIF”或者类似扩展名,注释文件名可能被进一步修改。
在本发明实施例中,如果两个或更多数字图像文件122具有包含非常相似的音频信息的音频注释124,以至语音-文本转换驱动器128将该音频信息转换为相同的文本字符串130,则语音-文本转换驱动器128可在文本字符串130与数字图像文件122关联作为数字图像文件122的注释文件名132之前,为文本字符串130分配顺序指示符。因此,在用户使用数字照相机100为站在湖边的同伴拍摄了数字照片的例子中,用户可能照了两张或多张同伴扎营的照片,并都记录了音频注释124,每张照片都包含音频信息“Jane在湖边”,因此,语音-文本转换驱动器128将音频信息“Jane在湖边”转换成同样的文本字符串130“Janebythelake”。在判断两个文本字符串相同时,语音-文本转换驱动器128或其它相关软件可能会在一个或多个这样的文本字符串130中加入顺序指示符。例如,语音-文本转换驱动器可添加序列号“1”和“2”来生成文本字符串130“Janebythelake1”和“Janebythelake2”,以分别提供注释文件名132“Janebythelake1”和“Janebythelake2”。
图4总结了依照本发明的示例实施例用于为数字图像文件生成注释文件名的方法200,该方法被图1和图2中所示的照相机100使用。在步骤202,一个或多个图像被数字照相机100中的成像系统102捕捉;在步骤204,创建数字图像文件122。接下来在步骤206,记录与图像相关的音频信息,并且,在步骤208,该音频信息被用于生成与数字图像文件122相关的音频信息124。例如,如图3A到3C详细描述的那样,在捕捉完照片图像之后,数字照相机100可能提示用户记录音频注释126。然后在步骤210,使用合适的默认文件命名机制,数字图像文件122和相关的音频注释124被分配初始默认文件名,并通过初始默认文件名索引地存储在存储器110中。在步骤212,用户可能在数字图像文件122和音频注释124存储到110之后的任何时间,使用与数字图像文件122相关的音频注释124,选择为存储于数字照相机100的存储器110中的数字图像文件122生成注释文件名。例如,如图3A至图3C详细描述的那样,用户可打开由数字照相机100(图1)的显示器112显示的菜单(“MENU”)134,并选择菜单选项136来启动音频注释文件命名。如果用户选择不启动该音频注释文件命名,则通过重复执行步骤202至210来捕捉附加的数字图像122以及可选的音频注释124。但是,在步骤212,如果用户通过选择如图3A至3C描述的“启动声音注释文件命名”菜单选项136,选择启动音频注释文件命名,则在步骤214,存储于存储器110中的音频注释124的音频信息被转换为文本字符串130,并在步骤216,该文本字符串与数字图像文件122相关联,作为数字图像文件122的注释文件名132。然后在步骤218中,重命名的数字图像文件122可存储于存储器110中或者可替换地传输给数字图像处理设备,例如计算机,照片打印机或类似设备。这里,如果两个或多个数字图像文件122具有包含非常相似的音频信息的音频注释124,以至语音-文本转换驱动器128将该音频信息转换为相同的文本字符串130,则可能在文本字符串130与数字文件122关联以作为数字图像文件122的注释文件名132之前,顺序指示符被分配给该一个或多个文本字符串130。
值得重视的是,一旦音频注释文件命名已经被启动,并且存储于存储器110中的具有相关音频注释124的任意数字图像文件122被重命名为注释文件名132,则附加的图像可被数字照相机100捕捉并存储为数字图像文件122。在这些情况中,如图1至图4所示实施例描述的那样,可向这些数字图像文件122提供初始默认文件名126,此后,以注释文件名132重命名。可替换的,可以向这些数字图像文件122(即在音频注释文件命名启动之后生成的数字图像文件122)提供注释文件名132,而不象图5至图8所示实施例描述的那样一开始分配初始默认文件名126。在这些实施例中,如果一旦音频注释文件命名被启动,则一个或多个图像被捕捉并且生成数字图像文件122,但没有音频注释124被记录(例如,用户并没有在被提示后记录声音注释),处理系统108可向已生成的数字图像文件122分配默认的文件名126(例如“DSC0116”或类似名称)。根据用户设置或类似配置,当随后的数字图像文件122被生成以提供音频注释文件命名,处理系统108可继续提示用户记录音频注释124,或者可替换的,通过分配初始默认文件名126,可以默认传统文件命名机制。
现在参考图5至图8,该数字照相机100可进一步允许生成数字图像文件122的注释文件名132,而不首先分配初始默认文件名126。如图5所示,图1中所示的数字照相机100可进一步包含临时缓冲存储器144,其耦合到数字照相机100的处理系统108,用于临时存储由数字照相机通过音频系统114记录的音频注释124。在一个示例的实施例中,临时缓冲存储器144可包括数字照相机100的处理系统108的随机存取存储器(RAM),单独的RAM存储器,闪存,或者类似存储器。可选择的,该临时缓冲存储器144可包括存储器110的分区片段。
图6显示了系统120,其被如图5所示的数字照相机100所使用,依照本发明的一个示例实施例用于自动生成数字图像文件的注释文件名。在这个实施例中,一个或多个图像(例如,照片,数字视频或类似图像)被数字照相机100的成像系统102捕捉,作为数字图像文件122存储于存储器110中。可通过使用数字照相机100的音频系统114记录音频或声音信息,来生成与数字照相文件122相关的音频注释124。例如,在图7A所示的实施例中,捕捉到照片图像之后,数字照相机100可提示用户(例如,如图7A所示的显示器112所示,可通过如“文件名?”之类的提示146)记录音频注释124。
此时,用户可向音频系统114的麦克风116讲话,以记录音频注释124,通常这个过程持续几秒钟。当记录完成后,该音频注释被临时存储于临时缓冲存储器144。该语音-文本转换驱动器128使用语音-文本转换程序,自动将包含于存储在临时缓冲存储器144中的音频注释124的音频信息,转换为文本字符串130。然后,该语音-文本转换驱动器128将数字图像文件122存储于存储器110,因此文本字符串130与该数字图像文件122相关联作为数字图像文件122的注释文件名132(例如“文本字符串”)。如果需要,音频注释124也可保存于存储器110中,并与数字图像文件122相关联。该临时缓冲存储器144可被清除或擦除。可替换的,临时缓冲存储器144可保持该音频注释124直到第二个音频注释124被记录,并覆盖临时缓冲存储器144中的第一个音频注释124。例如,在一次露营旅行中,用户可使用数字照相机100拍数字照片,并存储为数字图像文件122。拍摄到同伴扎营的数字照片之后,用户可以记录包含如“扎营”的音频信息的音频注释124,该音频注释被存储于临时缓冲存储器144中。语音-文本转换驱动器128将音频信息“扎营”转换为合适的与数字图像文件122相关的文本字符串130例如“Settingupcamp”,作为注释文件名132“Settingupcamp”。值得重视的是,当数字图像文件被下载到图像处理设备(参见图9),注释文件名可被进一步修改,例如,通过添加文件扩展名例如“.JPG”、“.GIF,”或类似扩展名。
可替换的,在记录音频注释124之前,语音-文本转换驱动器128可使用已定义的文件命名的声音语法,接收并识别通过显示器或音频系统114输入的命令。在这个实施例中,用户可通过向音频系统114的麦克风116讲出预定义的关键字或短语(为了图解目的,由显示器112来重复为短语148),来输入一个命令,这些关键字或短语由音频注释124的音频信息所跟随。因此,如图7B所示,在捕捉到图像并生成数字图像文件122之后,用户可说出一个或多个跟随着合适的音频注释124的关键字短语例如“文件名相同”或“分类相同”,然后这些短语存储于临时缓冲存储器144中,并被转换为文本字符串130,并用于生成与数字图像文件122相关的注释文件名132,该注释文件名可能包括存储该数字图像文件122的分类文件夹,等等。可替换的,用户可以在图像被捕捉和生成数字图像文件122之前说出关键字短语。
再一点,本发明实施例中,如果两个或多个数字图像文件122具有包含非常相似的音频信息的音频注释124,以致于语音-文本转换驱动器128将该音频信息转换为相同的文本字符串130,则在将文本字符串与数字图像文件122关联作为数字图像文件122的注释文件名132之前,该语音-文本转换驱动器128或者相关软件就会给文本字符串130分配顺序指示符。因此,在给出的用户可以在野营旅行中使用数字照相机100拍摄数字照片的例子中,用户可以拍摄两张或多张同伴扎营的数字照片,并记录音频注释124,每个照片都包含音频信息“Jane在湖边”,因此,语音-文本转换驱动器128将音频信息“Jane在湖边”转换为相同的文本字符串130“Janebythelake”。在确定第二个文本字符串与存储于存储器110的数字图像文件122的注释文件名相同时,在生成第二个数字图像文件122的注释文件名之前,语音-文本转换驱动器128或者相关软件可添加顺序指示符到文本字符串130中。例如,语音-文本转换驱动器可添加序列号“1”和“2”来生成文本字符串130“Janebythelake1”和“Janebythelake2”,由此分别提供注释文件名132“Janebythelake1”和“Janebythelake2”。
图8总结了依照本发明的示例实施例用于生成数字图像文件的注释文件名的方法300,,该方法可用于如图5和6所示的数字照相机100中。首先,在步骤302,判断数字照相机100是否已经启动音频注释文件命名。在步骤304,如果音频注释文件命名已经被启动,则生成常用默认文件名,并关联到包含由数字照相机100捕捉的图像的数字图像文件122。但是,一旦在步骤302启动音频注释文件命名,就为数字照相机100生成的数字图像文件122生成注释文件名。在步骤306,由数字照相机100中的成像系统102捕捉一个或多个图像,并在步骤308生成数字图像文件122。随后在步骤310,与图像相关的音频信息被记录,并在步骤312,该音频信息用于生成存储于临时缓冲存储器144中的音频注释124。例如,如图7A至7B描述的,在捕捉到照片图像之后,数字照相机100可提示用户记录音频注释124,或,可替换的,如图7C所描述的,用户可以在音频信息124跟随之下,输入声音关键字或短语命令。然后,在步骤314,该音频注释124的音频信息被转换为文本字符串130,并在步骤316,关联到数字图像文件122作为数字图像文件122的注释文件名132。在步骤318,数字图像文件122可被存储到存储器110或者可替换的,传输到数字图像处理设备,例如计算机,照片打印机,或者类似设备。如果第二数字图像文件122具有包含非常相似的音频信息的音频注释124,以至语音-文本转换驱动器128将音频信息转换成相同的文本字符串130,则在文本字符串130与数字图像文件122关联作为数字图像文件122的注释文件名132之前,顺序指示符可被分配给文本字符串130。
在图5至图8的实施例中所示,如果一个或多个图像被捕捉,以至生成数字图像文件122,但没有记录音频注释124(例如,用户并没有在提示后记录声音注释),处理系统108可为生成的数字图像文件122分配默认文件名126(例如,“DSC0116,”或类似表示)。根据用户设置,或者类似操作,当生成随后的数字图像文件122以提供音频注释文件名时,处理系统108可继续提示用户记录音频注释124,或者,可替换的,用户可以通过分配初始默认文件名126来默认传统的文件命名机制。
如图1至图8的实施例所示,本发明使用语音-文本转换驱动器128,它实施为由数字照相机100的处理系统108执行的一组指令(例如,软件程序,固件,或者类似)。尽管如此,值得重视的是,本发明并不限于这些实施。例如,在图9的实施例说明中,该语音-文本转换驱动器128被实施为一组指令,这组指令由例如个人计算机,数字图像打印机或类似的图像处理设备150的处理系统来执行。在该实施例中,具有相关的音频注释124的数字图像文件122被给定初始默认文件名126,并且存储于数字照相机100的存储器110中。然后,数字图像文件122和相关音频注释124可被传输到图像处理设备150(例如,通过诸如通用串行总线(USB)连接,FireWire(IEEE 1394)连接,或者类似连接,来传送数字图像文件1 22和音频注释124,或者通过移除数字照相机100的存储器110,并将它传输给图像处理设备150)。传输完成后,位于图像处理设备150中的语音-文本转换驱动器128使用语音-文本转换程序,自动将包含于音频注释124中的音频信息转换成文本字符串130。然后,语音-文本转换驱动器128使用文本字符串130,替换数字图像文件122的默认文件名126,并存储该数字图像文件122,以至文本字符串130与数字图像文件122相关联作为数字图像文件122的注释文件名132。
可理解的是,前述公开的方法中的步骤的特定次序或层次都是示例方法的例子。基于设计偏好考虑,可理解,该方法中的步骤的特定次序或层次可以被重新排列而不偏离本发明保护范围。相关的方法要求保护本发明的以简单次序表述的各个步骤要素,并且该方法并不旨在限于现有的特定次序或层次。
我们认为,前述描述使得本发明与其附属的优点都是可理解的。我们还认为,不偏离本发明保护范围和精神的,或者还保留本发明所有实质优点的,对本发明的形式,结构和组件的排列所作的各种改变都是显而易见的。之前实施例的说明仅仅是形式上的,包括或包含这种改变的下述权利要求才是我们的目的所在。

Claims (18)

1、一种数字照相机(100),包括:
图像系统(102),用于捕捉图像;
耦合于所述图像系统(102)和音频系统(114)的处理系统(108),用于将所述捕捉的图像处理为数字图像文件(122);
耦合于所述处理系统(108)的音频系统(114),用于获得音频注释(124),所述音频注释(124)包含与所述数字图像文件(122)相关的音频信息,
其中所述处理系统(108)执行程序指令,用于将该音频信息转换为文本字符串(130),并将所述文本字符串(130)与所述数字图像文件(122)关联,作为所述数字图像文件(122)的注释文件名(132)。
2、如权利要求1所述的数字照相机(100),其中由所述处理系统(108)执行的所述程序指令给所述数字图像文件(122)分配初始默认文件名(126),并使用所述注释文件名(132)代替初始默认文件名(126)。
3、如权利要求1所述的数字照相机(100),其中由所述处理系统(108)所执行的所述程序指令在记录所述音频注释(124)之前接收通过所述音频系统(114)输入的命令,所述命令指示所述音频信息被转换为与所述数字图像文件(122)相关地作为所述注释文件名(132)的所述文本字符串(130)。
4、如权利要求3所述的数字照相机(100),其中所述命令包括音频命令。
5、如权利要求1、2、3或4所述的数字照相机(100),其所述程序指令在将所述文本字符串(130)与所述数字图像文件(122)相关联作为所述数字图像文件(122)的所述注释文件名(132)之前,进一步向所述文本字符串(130)中添加顺序指示符。
6、如权利要求1、2、3、4或5所述的数字照相机(100),其进一步包括耦合于所述处理系统的存储器(110),用于存储所述数字图像文件(122)和所述音频注释(124)。
7、如权利要求1、3、4、5或6所述的数字照相机(100),其进一步包括临时缓冲存储器(144)用于存储所述音频注释(124)。
8、如权利要求7所述的数字照相机(100),其中所述程序指令在所述文本字符串(130)与所述数字图像文件(122)相关联后,促使所述临时缓冲存储器(144)被清空。
9、一种用于生成数字图像文件(122)的注释文件名(132)的方法(200),包括:
获取音频注释(124),所述音频注释(124)包含与所述数字图像文件(122)相关的音频信息;
使用语音-文本转换程序(128)将所述音频信息转换为文本字符串(130);和
将所述文本字符串(130)与所述数字图像文件(122)相关联,作为所述数字图像文件(122)的所述注释文件名(132)。
10、如权利要求9所述的方法(200),进一步包括捕捉所述数字图像文件(122)并将所述数字图像文件(122)存储于存储器(110)中。
11、如权利要求9所述的方法(200),其中所述数字图像文件(122)具有初始默认文件名(126),所述初始默认文件名(126)被所述注释文件名(132)所替代。
12、如权利要求9所述的方法(200),进一步包括在记录所述音频注释(124)之前接收命令,所述命令指示所述音频信息被转换为与所述数字图像相关联的所述文本字符串(130),来作为所述注释文件名(132)。
13、如权利要求12所述的方法(200),其中所述命令包含音频命令。
14、如权利要求9、10、11、12或13所述的方法(200),其中获取音频注释(124)包括记录音频注释(124)。
15、如权利要求14所述的方法(200),进一步包括:
捕捉第二数字图像文件(122);
在存储器(110)中存储所述第二数字图像文件(122);
记录第二音频注释(124),所述音频注释(124)包含与所述第二数字图像文件(122)相关的音频信息,其中与所述第二数字图像文件(122)相关的所述音频信息和与第一数字图像文件(122)相关的所述音频信息基本上相似;
使用语音-文本转换程序(128),将与第二数字图像文件(122)相关的所述音频信息转换为第二文本字符串(130);
向所述第二文本字符串(130)添加顺序指示符;和
将所述第二文本字符串(130)与所述第二数字图像文件(122)相关联,作为所述第二数字图像文件(122)的注释文件名(132)。
16、如权利要求14所述的方法(200),其中记录所述音频注释(124)包括将所述音频注释(124)存储于存储器(110)中。
17、如权利要求14所述的方法(200),其中记录所述音频注释(124)包括将所述音频注释(124)存储于临时缓冲存储器(144)中。
18、如权利要求17所述的方法(200),进一步包括在所述文本字符串(130)与所述数字图像文件(122)相关联之后,清除所述临时缓冲存储器(144)。
CNA2007800117475A 2006-04-07 2007-01-16 使用语音-文本转换自动生成数字图像文件的文件名 Pending CN101542477A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/399,931 2006-04-07
US11/399,931 US20070236583A1 (en) 2006-04-07 2006-04-07 Automated creation of filenames for digital image files using speech-to-text conversion

Publications (1)

Publication Number Publication Date
CN101542477A true CN101542477A (zh) 2009-09-23

Family

ID=38065859

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800117475A Pending CN101542477A (zh) 2006-04-07 2007-01-16 使用语音-文本转换自动生成数字图像文件的文件名

Country Status (4)

Country Link
US (1) US20070236583A1 (zh)
EP (1) EP2005336A1 (zh)
CN (1) CN101542477A (zh)
WO (1) WO2007117342A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102918587A (zh) * 2010-03-30 2013-02-06 Nvoq股份有限公司 能够将听写代号短语转录成标准词组的分层快速注解
CN102918586A (zh) * 2010-06-02 2013-02-06 拿索斯财务有限公司 用于图像数据记录和再现的设备及其方法
WO2013097376A1 (zh) * 2011-12-31 2013-07-04 中兴通讯股份有限公司 一种为备份数据添加备注的方法及具有备份功能的终端
CN103377234A (zh) * 2012-04-26 2013-10-30 宇龙计算机通信科技(深圳)有限公司 一种多媒体数据中添加水印的方法及系统
WO2015000385A1 (zh) * 2013-07-05 2015-01-08 华为技术有限公司 一种生成多媒体文件的方法和装置
CN105096950A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 一种文件命名方法、装置及终端

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US8065313B2 (en) * 2006-07-24 2011-11-22 Google Inc. Method and apparatus for automatically annotating images
JP4919993B2 (ja) * 2008-03-12 2012-04-18 株式会社日立製作所 情報記録装置
ES2313860B1 (es) * 2008-08-08 2010-03-16 Nilo Garcia Manchado Camara digital y procedimiento asociado.
US8595689B2 (en) * 2008-12-24 2013-11-26 Flir Systems Ab Executable code in digital image files
GB2468524A (en) * 2009-03-12 2010-09-15 Speaks4Me Ltd Image-to-Speech System
JP5460164B2 (ja) * 2009-07-24 2014-04-02 キヤノン株式会社 情報処理装置、制御方法及びプログラム
CN101997969A (zh) * 2009-08-13 2011-03-30 索尼爱立信移动通讯有限公司 图片声音注释添加方法和装置以及包括该装置的移动终端
US8558919B2 (en) * 2009-12-30 2013-10-15 Blackberry Limited Filing digital images using voice input
EP2360905A1 (en) 2009-12-30 2011-08-24 Research In Motion Limited Naming digital images using voice input
JP2013110569A (ja) 2011-11-21 2013-06-06 Sony Corp 画像処理装置、位置情報付加方法およびプログラム
US8838432B2 (en) * 2012-02-06 2014-09-16 Microsoft Corporation Image annotations on web pages
KR101977072B1 (ko) * 2012-05-07 2019-05-10 엘지전자 주식회사 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기
EP2704039A3 (en) * 2012-08-31 2014-08-27 LG Electronics, Inc. Mobile terminal
KR102078136B1 (ko) * 2013-01-07 2020-02-17 삼성전자주식회사 오디오 데이터를 가지는 이미지를 촬영하기 위한 장치 및 방법
CN104683683A (zh) * 2013-11-29 2015-06-03 英业达科技有限公司 拍摄影像的系统及其方法
US11218639B1 (en) * 2018-10-12 2022-01-04 Staples, Inc. Mobile interface for marking and organizing images
JP2020119444A (ja) * 2019-01-28 2020-08-06 東京瓦斯株式会社 文字入力支援システム、文字入力支援制御装置、文字入力支援制御方法、文字入力支援プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition
US6249316B1 (en) * 1996-08-23 2001-06-19 Flashpoint Technology, Inc. Method and system for creating a temporary group of images on a digital camera
JPH10228483A (ja) * 1997-02-17 1998-08-25 Nikon Corp 情報処理装置
CA2247795A1 (en) * 1997-09-26 1999-03-26 Adobe Systems Incorporated Associating text derived from audio with an image
US6499016B1 (en) * 2000-02-28 2002-12-24 Flashpoint Technology, Inc. Automatically storing and presenting digital images using a speech-based command language
US6804652B1 (en) * 2000-10-02 2004-10-12 International Business Machines Corporation Method and apparatus for adding captions to photographs
US20030189642A1 (en) * 2002-04-04 2003-10-09 Bean Heather N. User-designated image file identification for a digital camera
US20040041921A1 (en) * 2002-08-29 2004-03-04 Texas Instruments Incorporated Voice recognition for file naming in digital camera equipment
GB2409365B (en) * 2003-12-19 2009-07-08 Nokia Corp Image handling
US20050134703A1 (en) * 2003-12-19 2005-06-23 Nokia Corporation Method, electronic device, system and computer program product for naming a file comprising digital information
US20060092291A1 (en) * 2004-10-28 2006-05-04 Bodie Jeffrey C Digital imaging system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102918587A (zh) * 2010-03-30 2013-02-06 Nvoq股份有限公司 能够将听写代号短语转录成标准词组的分层快速注解
CN102918587B (zh) * 2010-03-30 2014-11-05 Nvoq股份有限公司 能够将听写代号短语转录成标准词组的分层快速注解
CN102918586A (zh) * 2010-06-02 2013-02-06 拿索斯财务有限公司 用于图像数据记录和再现的设备及其方法
CN102918586B (zh) * 2010-06-02 2015-08-12 拿索斯财务有限公司 用于图像数据记录和再现的设备及其方法
WO2013097376A1 (zh) * 2011-12-31 2013-07-04 中兴通讯股份有限公司 一种为备份数据添加备注的方法及具有备份功能的终端
CN103377234A (zh) * 2012-04-26 2013-10-30 宇龙计算机通信科技(深圳)有限公司 一种多媒体数据中添加水印的方法及系统
WO2015000385A1 (zh) * 2013-07-05 2015-01-08 华为技术有限公司 一种生成多媒体文件的方法和装置
CN105096950A (zh) * 2014-05-22 2015-11-25 中兴通讯股份有限公司 一种文件命名方法、装置及终端

Also Published As

Publication number Publication date
WO2007117342A1 (en) 2007-10-18
US20070236583A1 (en) 2007-10-11
EP2005336A1 (en) 2008-12-24

Similar Documents

Publication Publication Date Title
CN101542477A (zh) 使用语音-文本转换自动生成数字图像文件的文件名
CN101101779B (zh) 数据记录和再现设备以及产生元数据的方法
US9013600B2 (en) Filing digital images using voice input
US20070250526A1 (en) Using speech to text functionality to create specific user generated content metadata for digital content files (eg images) during capture, review, and/or playback process
US7451090B2 (en) Information processing device and information processing method
US8462231B2 (en) Digital camera with real-time picture identification functionality
US8301995B2 (en) Labeling and sorting items of digital data by use of attached annotations
US20130094697A1 (en) Capturing, annotating, and sharing multimedia tips
JP2009117973A (ja) 再生装置および再生方法
CN102918586B (zh) 用于图像数据记录和再现的设备及其方法
KR101523971B1 (ko) 녹음 기능을 수행하는 단말기 및 그 단말기의 이미지 처리 방법
US20070263266A1 (en) Method and System for Annotating Photographs During a Slide Show
KR100533680B1 (ko) 휴대용 디지털 기기에서의 멀티미디어 컨텐츠 관리 장치및 방법
CA2726391C (en) Filing digital images using voice input
JP4826500B2 (ja) 情報処理端末装置、そのデータ保存方法及びプログラム
JP4069390B2 (ja) フイルムデジタイズ装置及び画像管理プログラム
JP2000358205A (ja) 音声認識による画像分類装置、方法及び記憶媒体
JP2003204506A (ja) 画像入力装置
JP2007049245A (ja) 音声入力機能付撮影装置
US9128937B2 (en) Apparatus and method for creating, addressing and modifying related data
TWI510940B (zh) 以語音訊號建立備註資料之影像瀏覽裝置及其方法
JP2005203994A (ja) 画像保存システム
KR100652656B1 (ko) 정지영상의 처리방법
JP2008140075A (ja) 文書蓄積検索装置および画像形成装置
JP2005267242A (ja) 情報機器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090923