CN1663249A

CN1663249A - 元数据生成装置、其生成方法以及检索装置

Info

Publication number: CN1663249A
Application number: CN038149028A
Authority: CN
Inventors: 小林正明; 酒井启行; 松井谦二; 桑野裕康; 下田代雅文; 安方满; 远藤充
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-06-24
Filing date: 2003-06-23
Publication date: 2005-08-31
Also published as: WO2004002144A1; EP1536638A4; EP1536638A1; WO2004002144B1; MXPA04012865A; US20050228665A1

Abstract

本发明涉及一种元数据生成装置，具有再现内容并输出的内容再现部(1)、用于监视内容再现部再现的内容的监视器(3)、声音输入部(4)、识别声音输入部输入的声音信号的声音识别部(5)、将声音识别部识别的信息转换成元数据的元数据生成部(6)，以及识别信息附加部(7)，该识别信息附加部(7)从内容再现部供给的再现后的内容获取用于识别所述内容中的各部分的识别信息，并赋予所述元数据；该元数据生成装置使生成的所述元数据与所述内容内的各部分建立关联。

Description

元数据生成装置、其生成方法以及检索装置

技术领域

本发明涉及用于生成与制作好的图像、声音等内容相关联的元数据(metadata)的元数据生成装置及元数据生成方法。而且涉及利用生成的元数据检索内容的检索装置。

背景技术

近年来，人们向制作好的图像、声音内容附加与这些内容相关联的元数据。

但是，现有的元数据附加操作一般采用的方法是，以制作好的图像、声音内容的脚本或解说原稿为基础，使制作好的图像、声音内容再现并确认应作为元数据的信息，然后手工进行计算机输入来生成。因此，在元数据生成过程中需要付出相当多的劳动。

特开平09-130736号公报中记载了一种在照相机摄影时利用声音识别附加标记的系统。但该系统在摄影的同时使用，无法适用于向已经制作好的内容附加元数据。

发明内容

本发明解决上述问题，其目的在于，提供一种可以通过声音输入容易地针对制作好的内容生成元数据的元数据生成装置和元数据生成方法。

本发明的另一目的在于，提供一种利用上述生成的元数据可容易检索内容的检索装置。

本发明的元数据生成装置，具有再现内容并输出的内容再现部、声音输入部、识别所述声音输入部输入的声音信号的声音识别部、将所述声音识别部识别的信息转换成元数据的元数据生成部，以及识别信息附加部，该识别信息附加部从所述内容再现部供给的再现后的内容，获取用于识别所述内容中的各部分的识别信息，并将其附加到所述元数据上；该元数据生成装置使生成的所述元数据与所述内容内的各部分相关联。

本发明的元数据生成方法是，对与内容相关的信息进行声音输入，由声音识别装置对输入的声音信号进行声音识别，将所述声音识别后的信息转换成元数据，将用于识别所述内容内的各部分的、附加在所述内容上的识别信息附加到所述元数据上，使生成的所述元数据与所述内容内的各部分相关联。

本发明的元数据检索装置，包括：再现内容并输出的内容数据库；声音输入部，按照与再现的所述内容的同步信号同步的时钟，将所输入的关键词的声音信号转化为数据；声音识别部，根据由所述声音输入部转化为数据的声音信号数据识别关键词；文件处理部，将所述声音识别部输出的关键词与表示所述内容中包含的图像信号的时间位置的时间代码相结合，来生成元数据文件；内容信息文件处理部，生成控制文件，所述控制文件用于对内容文件的记录位置和所述元数据文件之间的关系进行管理；记录部，记录所述内容文件、所述元数据文件和所述控制文件；检索部，确定包含所输入的检索关键词的所述元数据文件，并参照所述控制文件提取与所述内容文件的所述关键词对应的记录位置；所述内容文件的记录位置是所述记录部中的记录位置。

附图说明

图1所示为本发明实施例1的元数据生成装置的结构框图。

图2所示为本发明实施例1的附有时间代码的元数据的一个例子。

图3所示为本发明实施例2的元数据生成装置的结构框图。

图4所示为相同装置中静态图像内容·元数据显示部的一个例子。

图5所示为本发明实施例2的元数据生成装置的其它结构框图。

图6所示为本发明实施例3的元数据生成装置的结构框图。

图7所示为同一实施例的装置中词典DB的一个例子的结构图。

图8所示为作为同一实施例的装置中使用的内容脚本的一个例子的食谱。

图9所示为表示同一实施例的装置生成的元数据文件的一个例子的TEXT形式的数据图。

图10所示为本发明实施例4的元数据生成装置的结构框图。

图11所示为同一实施例的装置生成的信息文件的一个例子的结构图。

图12所示为本发明实施例5的元数据检索装置的结构框图。

图13所示为本发明实施例6的元数据生成装置的结构框图。

具体实施方式

根据本发明的元数据生成装置，在进行与内容相关的元数据的生成或添加标记时，利用声音识别并通过声音输入，生成元数据或标记，同时使元数据或标记与内容的时间或场景等建立关联。从而，可以通过声音输入，自动生成以往通过键盘输入来生成的元数据。所谓元数据是指标记的集合体，本发明中称为元数据的场合还包括指标记自身的场合。另外，所谓内容，是指制作好的图像、声音内容，静态图像内容，数据库化的图像、声音内容等一般被称为内容的所有对象。

本发明的元数据生成装置最好还具有与内容相关的词典，在通过所述声音识别部识别由所述声音输入部输入的声音信号时，与所述词典关联起来进行识别。根据该结构，将事先从制作好的内容的脚本等当中提取的关键词作为声音信号输入，并根据脚本设定词典领域和赋予关键词优先次序，从而可以高效、准确地利用声音识别单元生成元数据。

所述声音识别部也可以以单词为单位与所述词典相关联地识别所述声音信号。而且，该元数据生成装置最好还具有包含键盘的信息处理部，可以利用从所述键盘输入，通过所述信息处理部对所述元数据进行修正。可以使用附在所述内容上的时间代码信息，作为所述识别信息。或者也可以使用附在所述内容上的内容的地址、编号或帧号码，作为所述识别信息。另外，所述内容可以为静态图像内容，使用所述静态图像内容的各个地址作为识别信息。

作为本发明的一个应用例，可以构成如下的元数据生成装置。即，所述内容再现部由内容数据库构成。所述声音输入部按照与所述内容数据库供给的同步信号同步的时钟，将所输入的关键词的声音信号转化为数据并供给所述声音识别部。所述声音识别部根据在所述声音输入部转化为数据的声音信号数据，识别所述关键词。所述元数据生成部构成文件处理部，该文件处理部将表示所述内容中包含的图像信号的时间位置的时间代码用作所述识别信息，并将所述声音识别部输出的关键词与所述时间代码相结合，来生成元数据文件。

根据该结构，在数秒单位的间隔内也可以高效地附加元数据。从而可以在依靠以往的键输入很困难的短时间间隔内生成元数据。

该结构最好还具有记录部，将所述内容数据库供给的内容与所述元数据文件一道作为内容文件进行记录。而且，最好还具有生成控制文件的内容信息文件处理部，所述控制文件用于管理应记录所述内容文件的记录位置和所述元数据文件之间的关系，在所述记录部中，与所述内容文件和所述元数据文件一道记录所述控制文件。另外，最好还具有词典数据库，所述声音识别部可以从多种类型的词典中选择适合于所述内容的种类的词典。最好还可以将与内容相关的关键词供给所述声音识别部，所述声音识别部优先识别所述关键词。

本发明的元数据生成方法最好是，再现所述内容并在监视器上显示，同时对与内容相关的信息进行声音输入。而且，最好利用与所述内容相关的词典，并由所述声音识别装置与所述词典相关联地识别所述输入的声音信号。另外，最好使用附在所述内容上的时间代码信息作为所述识别信息。另外，可以使用静态图像内容作为所述内容，并使用所述静态图像内容的各个地址作为所述识别信息。

根据本发明的元数据检索装置，通过使用表示内容记录位置的控制文件和表示元数据以及时间代码等的元数据文件，可以根据元数据快速检索内容的期望部分。

本发明的元数据检索装置中，最好所述内容信息文件处理部输出的控制文件是记载与所述内容的记录时间对应的、所述记录部中的所述内容的记录位置的表，可以根据所述时间代码检索所述内容的记录位置。

而且，最好还具有词典数据库和向所述声音识别部供给与内容相关的关键词的关键词供给部，所述声音识别部可以从多种类型的词典中选择适合于所述内容的种类词典，并且优先识别所述关键词。

另外，最好还具有词典数据库，所述声音识别部可以从多种类型的词典中选择适合于所述内容的种类的词典，所述检索部利用从所述声音识别部使用的通用词典中选定的关键词进行检索。

以下参照附图具体说明本发明的实施例。

(实施例1)

图1所示为本发明实施例1的元数据生成装置的结构框图。内容再现部1是用于在元数据生成时确认所制作内容的部件。内容再现部1的输出供给图像监视器2、声音监视器3和时间代码附加部7。设置麦克风4，作为用于生成元数据的声音输入部。从麦克风4输入的声音被输入到声音识别部5。声音识别部5上连接有声音识别用词典8，并且可以参照其中的数据。声音识别部5的识别输出供给元数据生成部6，生成的元数据供给时间代码附加部7，然后可以从时间代码附加部7输出到外部。

可以使用例如VTR、硬盘装置、光盘装置等图像·声音信号再现装置，以半导体存储器等存储单元为记录介质的图像·声音信号再现装置，或者对通过传输、广播供给的图像·声音信号进行再现的图像·声音再现装置等，作为内容再现部1。

再现的图像信号从内容再现部1的图像信号输出端子1a供给图像监视器2。再现的声音信号从声音信号输出端子1b供给声音监视器3。再现的时间代码从时间代码输出端子1c供给时间代码附加部7。再有，图像监视器2和声音监视器3作为元数据生成装置的部件不是必须的，可以根据需要连接并使用。

生成元数据时，操作人员确认图像监视器2和声音监视器3当中的一个或两者，同时根据情况参照脚本或解说原稿等，读出应输入的元数据，并通过麦克风4输入。从麦克风4输出的声音信号供给声音识别部5。另外，声音识别部5根据需要参照声音识别用词典8的数据。由声音识别部5识别出的声音数据被供给元数据生成部6，并转换成元数据。

如上生成的元数据上，为了附加使内容各部分的时间或场景的关系相对应的信息，由时间代码附加部7附加从再现的内容中取得的、由内容再现部1供给的时间代码信息。

为了更加具体地说明以上动作，假设内容为料理说明的情况下的一个场面为例。这种情况下，操作者确认图像监视器2的显示画面，同时通过麦克风4发出“盐1勺”的声音，声音识别部5参照词典8识别为“盐”、“1勺”，然后元数据生成部6分别将其转换为“盐”、“1勺”的标记。再有，声音识别部5的结构没有特别限定，可以利用平常使用的各种声音识别单元来进行声音识别，只要识别为“盐”、“1勺”等数据即可。一般情况下，元数据是指这些标记的集合体。声音识别的结果如图2所示，从元数据生成部6输出元数据9a，然后供给时间代码附加部7。

时间代码附加部7根据内容再现部1供给的时间代码信号9b，生成由附加了时间代码的、附有时间代码的元数据10构成的信息包数据。生成的元数据可以直接输出，也可以存储在硬盘等记录介质中。

本例中表示的是生成信息包形式的元数据的情况，但不限于此。

(实施例2)

图3所示为本发明实施例2的元数据生成装置的结构框图。本实施例以静态图像内容为元数据生成对象。为了识别静态图像内容，利用相当于动态图像场合下的时间代码的内容地址，使生成的元数据与静态图像内容相关联。

在图3中，照相机11是用于制作静态图像内容的元件。由静态图像内容记录部12对照相机11的输出附加地址信息并进行记录。为了生成元数据，此处记录的静态图像内容和地址信息被供给静态图像内容·元数据记录部13。地址信息还被供给元数据地址附加部19。

麦克风16用于对静态图像的相关信息进行声音输入，其输出被输入到声音识别部17。声音识别部17与声音识别用词典20相连，并且可以参照其数据。声音识别部17的识别输出供给元数据生成部18，生成的元数据供给元数据地址附加部19。

静态图像内容·元数据记录部13中记录的静态图像内容和元数据，由静态图像内容·元数据再现部14进行再现，然后在静态图像内容·元数据显示部15上显示。

以下详细说明上述结构的元数据生成装置的动作。

由照相机11拍摄的静态图像内容，由静态图像内容记录部12被记录到记录介质(未图示)上，并被附加地址信息而地址信息也记录到记录介质上。记录介质一般由半导体存储器构成，但不限于半导体存储器，也可以使用例如磁存储器、光记录介质、光磁记录介质等各种记录介质。所记录的静态图像内容通过输出端子12a和输入端子13a，地址信息同样通过地址输出端子12b和输入端子13b被供给静态图像内容·元数据记录部13。地址信息还通过输出端子12b和输入端子19b，被供给元数据地址附加部19。

另一方面，由照相机11拍摄的静态图像的相关信息，通过麦克风16输入到声音识别部17。与静态图像相关的信息包括标题、拍摄时间、拍摄者、拍摄场所(哪里)、被拍摄者(谁)以及被拍摄物(什么)等。另外，还可以根据需要向声音识别部17供给声音识别用词典20的数据。

由声音识别部17识别的声音数据被供给元数据生成部18，并被转换成元数据或标记。一般情况下，元数据是指作为与内容相关的信息的标题、拍摄时间、拍摄者、拍摄场所(哪里)、被拍摄者(谁)、被拍摄物(什么)等标记的集合体。为了附加与静态图像内容的内容或场景的关系相对应的信息，上述生成的元数据或标记被供给元数据地址附加部19。元数据地址附加部19将静态图像内容记录部12供给的地址信息附加到元数据上。如上附加了地址信息的附地址元数据，通过输出端子19c和输入端子13c被供给静态图像内容·元数据记录部13。在静态图像内容·元数据记录部13，将同一地址的静态图像内容和同一地址的元数据关联起来进行记录。

为了更具体地说明附有地址的元数据，图4中示出了由静态图像内容·元数据再现部14再现静态图像内容·元数据记录部13记录的静态图像内容和元数据、并由静态图像内容·元数据显示部15显示结果的一例。

图4中的静态图像内容·元数据显示部15的画面是一个例子，由静态图像内容显示部21、地址显示部22和元数据显示区域23构成。元数据显示区域23由例如1)标题记述部23a、2)日期时间记叙部23b、3)拍摄者记叙部23c、4)拍摄场所记叙部23d等构成。这些元数据由上述声音识别部17识别的声音数据生成。

在上述动作中，在静态图像内容拍摄前、几乎与拍摄同时或拍摄之后等不必确认所拍摄的静态图像内容的情况下，生成元数据。

以下参照图5说明在静态图像内容制作好后进行元数据生成的情况下，再现静态图像内容并针对所监视的静态图像内容生成元数据的情况。与图3相同的部件使用相同的标记，并省略对其功能等的说明。这种情况下，静态图像内容记录部12与静态图像内容·元数据记录部13之间设有静态图像内容·地址再现部24。并且，设有供给静态图像内容·地址再现部24的输出的监视器25。

由照相机11拍摄并供给静态图像内容记录部12的静态图像内容，被记录在记录介质(未图示)上并被附加了地址，地址也记录在记录介质中。这样的记录介质被供给静态图像内容·地址再现部24。这样，在用于再现制作完毕的静态图像内容并针对所监视的静态图像内容生成元数据的元数据生成装置中，照相机11和静态图像内容记录部12不是必须部件。

由静态图像内容·地址再现部24再现的静态图像内容供给监视器25。同样，再现的地址信息通过输出端子24b和输入端子19b供给元数据地址附加部19。元数据生成的负责人员在确认监视器25上显示的静态图像内容的基础上，通过麦克风16声音输入对生成元数据所必须的词汇。这样，与照相机11拍摄的静态图像相关的信息通过麦克风16被输入到声音识别部17。静态图像的相关信息包括标题、拍摄时间、拍摄者、拍摄场所(哪里)、被拍摄者(谁)以及被拍摄物(什么)等。此后的动作与对图3所示结构的说明相同。

(实施例3)

图6所示为本发明实施例3的元数据生成装置的结构框图。本实施例是以一般的数字数据内容为元数据生成对象的例子。为了识别数字数据内容，利用内容的地址或编号，使数字数据内容与所生成的元数据建立关联。

在图6中，31为内容数据库(以下称为内容DB)，由内容DB31再现的输出被供给声音输入部32、文件处理部35和记录部37。声音输入部32的输出被供给声音识别部33。另外还可以将词典数据库(以下称为词典DB)34的数据供给声音识别部33。元数据由声音识别部33输出，并输入到文件处理部35。文件处理部35利用内容DB31供给的时间代码值，在声音识别部33输出的元数据上附注规定数据来对其进行文件化处理。文件处理部35输出的元数据文件供给记录部37，与内容DB31输出的内容一道进行记录。声音输入部32和词典DB34上分别设有声音输入端子39和词典领域选择输入端子40。内容DB31的再现输出和记录部37的再现输出可以通过图像监视器41进行显示。

内容DB31具有这样的功能：针对例如VTR、硬盘装置、光盘装置等图像·声音信号再现装置，以半导体存储器等存储单元为记录介质的图像·声音信号再现装置，或者对通过传输、广播供给的图像·声音信号进行一次性记录并再现的图像·声音再现装置等的制作好的内容，产生对应于内容的时间代码，并进行再现。

以下说明上述元数据生成装置的动作。内容DB31再现的附有时间代码的图像信号被供给图像监视器41并放映。操作者利用麦克风根据图像监视器41上放映的内容输入解说的声音信号后，声音信号通过声音输入端子39输入到声音输入部32。

此时，操作者最好确认图像监视器41上放映出的内容或时间代码，读出在脚本、解说原稿或内容等的基础上提取的内容管理用关键词。通过使用预先由脚本等限定的关键词作为如上输入的声音信号，可以改善其后的声音识别部33的识别率。

声音输入部32利用与内容DB1输出的垂直同步信号同步的时钟，使声音输入端子39输入的声音信号转化为数据。由声音输入部32转化为数据后的声音信号数据输入到声音识别部33，同时，由词典DB34供给声音识别所必要的词典。词典DB34中使用的声音识别用词典可以由词典领域选择输入端子40设定。

例如图7所示，假定词典DB34按各领域构成，则所使用的领域由词典领域选择输入端子40(例如可以进行键输入的键盘端子)设定。例如在料理节目的场合下，可以由端子40将词典DB34的领域设定成料理—日本料理—烹饪法—蔬菜炒法。通过如此设定词典DB34，可以限制所使用的单词和可以声音识别的单词，从而改善声音识别部33的识别率。

另外，可以通过图6中的词典领域选择端子40，输入从脚本、脚本原稿或内容的内容当中提取的关键词。例如，在内容为料理节目的场合下，通过端子40输入图8所示的食谱。考虑到内容，食谱中记载的单词作为声音信号输入的可能性高，因而词典DB34中明示出从端子40输入的食谱单词的识别优先度，并优先进行声音识别。例如，“西红柿”和“貝之牡蛎”在词典中，而从端子40输入的食谱单词仅有“贝之牡蛎”时，赋予“貝の牡蛎”优先次序1。声音识别部33在识别到“牡蛎”这样的声音时，识别为词典DB34中设定的单词的优先次序记载为1的“贝之牡蛎”。

这样，词典DB34中按从端子40输入的领域限定单词，并且在从端子40输入脚本后明示单词的优先度，从而可以改善声音识别部33的识别率。

图6中的声音识别部33根据词典DB34供给的词典，识别从声音输入部32输入的声音信号数据并生成元数据。声音识别部33输出的元数据输入到文件处理部35。如前所述，声音输入部32与内容DB31再现的垂直同步信号同步地将声音信号转化为数据。这样，文件处理部35利用来自声音输入部32的同步信息和内容DB31供给的时间代码值，在例如前述的料理节目的场合下，生成图9所示的TEXT形式的元数据文件。即，文件处理部35在声音识别部33输出的元数据上，附加作为开始归档(file)之后的每1秒的基准时间的TM_ENT(秒)、表示从基准时间开始的偏移帧数的TM_OFFSET和时间代码，以这样的形式进行归档(file)处理。

记录部37记录文件处理部35输出的元数据文件和内容DB31输出的内容。记录部37由HDD、存储器、光盘等构成，内容DB31输出的内容也以文件形式记录。

(实施例4)

图10所示为本发明实施例4的元数据生成装置的结构框图。本实施例的装置与实施例3的结构相比，增加了内容信息文件处理部36。内容信息文件处理部36生成表示记录部37中记录的内容的记录位置关系的控制文件，并记录在记录部37中。

即，内容信息文件处理部36以内容DB31输出的内容和记录部37输出的内容的记录位置信息为基础，生成该内容所具有的时间轴信息和表示记录部37中记录的内容的地址关系的信息，并转化为数据后作为控制文件输出。

例如，如图11所示，针对表示内容记录位置的记录介质地址，使表示内容的时间轴基准的TM_ENT#j指向等时间轴间隔。例如，将TM_ENT#j每隔1秒(NTSC信号的情况下为30帧)指向记录介质地址。通过这样的映射，即使内容以1秒为单位进行分散记录，也可以根据TM_ENT#j唯一地求出记录部37的记录地址。

而且，如图9所示，元数据文件中以TEXT的形式记录有作为文件开始之后的每1秒的基准时间的TM_ENT(秒)、表示从基准时间开始的偏移帧数的TM_OFFSET、时间代码和元数据。因此，只要在元数据文件中指定元数据1，就可以知道时间代码、基准时间和帧偏移值，从而可以立刻从图11所示的控制文件得知记录部37中的记录位置。

TM_ENT#j的等时间轴间隔不限于上述每隔1秒进行指向，也可以依照MPEG2压缩等中使用的GOP单位等进行描述。

电视图像信号的NTSC中垂直同步信号为60/1.001Hz，因此，可以使用2种类型，即，使用依照丢帧(drop-frame)模式的时间代码，以便与绝对时间一致；以及，使用依照垂直同步信号(60/1.001Hz)的非遗漏时间代码(nondrop-timecode)。这种情况下，例如以TM_ENT#j表示非遗漏时间代码，以TC_ENT#j表示丢帧对应时间代码。

而且，控制文件的数据化也可以利用SMIL2等现有语言进行数据化，如果利用SMIL2功能，则可以与相关内容和元数据文件的文件名对应地进行数据化后，存储在控制文件中。

图11所示为直接表示记录部的记录地址的结构，但是也可以表示从内容文件的开头到时间代码的数据容量，来代替记录地址，根据数据容量和文件系统的记录地址计算并检测出记录部中时间代码的记录地址。

另外，如上所述，也可以不采取将TM_ENT#j和时间代码的对应表存储在元数据文件中的形式，而是将TM_ENT#j和时间代码的对应表存储在控制文件中，也可以取得同样的效果。

(实施例5)

图12所示为本发明实施例5的元数据检索装置的结构框图。本实施例的装置与实施例4的结构相比，附加了检索部38。检索部38从进行声音识别而检测出元数据时使用的同一词典DB34中，选择想要检索的场景的关键词并进行设定。

然后，检索部38检索元数据文件的元数据项目，并显示与关键词一致的标题名称和内容场景的位置(时间代码)一览。一览显示中设定有一个特定场景时，根据元数据文件的基准时间TM_ENT(秒)和偏移帧数TM_OFFSET，自动地检测出控制文件中的记录介质地址并设定在记录部37中，由记录部37再现该记录介质地址中记录的内容场景并显示在监视器41上。通过上述结构可以在检测出元数据后立即检测出想要看到的场景。

若备有与内容链接的缩略图(thumbnail)文件，则可以在显示与前述关键词一致的内容名一览时，再现并显示内容的代表性缩略图。

(实施例6)

前述实施例3～5描述的是向预先记录的内容附加元数据的装置，本实施例涉及将本发明扩展到照相机等在拍摄时附加元数据的系统，特别涉及将本发明扩展到在内容被预先限定的风景拍摄时附加拍摄位置作为元数据的装置的例子。图13所示为本发明实施例6的元数据生成装置的结构框图。

照相机51的摄像输出作为图像内容记录在内容DB54中。同时，GPS52检测出照相机所拍摄的场所，其位置信息(经纬度数值)被声音合成部53转化为声音信号，然后作为位置信息记录在内容DB54的声音频道中。照相机51、GPS52、声音合成部53和内容DB54可以一体构成为带有记录部的照相机50。内容DB54将声音频道中记录的声音信号的位置信息，输入到声音识别部56。词典DB55将词典数据供给声音识别部56。词典DB55可以通过从端子59的键盘输入等，选择并限制地域名和地标等，然后输出到声音识别部56。

声音识别部56利用所识别的经纬数据和词典DB55的数据，检测出地域名和地标并输出到文件处理部57。文件处理部57将从内容DB54输出的时间代码和声音识别部56输出的地域名、地标文本(TEXT)化为元数据，然后生成元数据文件。元数据文件被供给记录部58，记录部58记录该元数据文件和从内容DB54输出的内容数据。

通过上述结构可以自动地向所拍摄的每个场景附加地域名、地标等元数据。

上述实施例描述的是将声音识别部识别的关键词与时间代码一起文件化为元数据文件的结构，也可以在声音识别部所识别的关键词的基础上追加相关关键词后进行文件化。例如，通过声音识别为“淀川”(注：日本的河流名称)的情况下，另外附加地形、河流等一般属性的关键词后进行文件化。这样在检索时，也可以使用附加的地形、河流等关键词，从而可以提高检索性能。

本发明的声音识别部采用以单词为单位进行声音识别的单词识别方式，并通过限制声音输入的单词数和所使用的识别词典的单词数，可以改善声音识别率。

一般情况下，声音识别中可能产生任何误识别。上述各实施例中具有包含键盘的计算机等信息处理部，在产生误识别的情况下，可以通过键盘操作来修正所生成的元数据或标记。

产业上的可利用性

根据本发明的元数据生成装置，为了进行与内容相关的元数据的生成或标记的附加，利用声音识别，通过声音输入来生成元数据，并建立元数据和内容的规定部分的关联，因而与现有的键盘输入相比，可以有效生成元数据或实施附加标记。

权利要求书

(按照条约第19条的修改)

1、(修改后)一种元数据生成装置，其特征在于，具有：再现内容并输出的内容再现部；声音输入部；识别从所述声音输入部输入的声音信号的声音识别部；将所述声音识别部识别的信息转换成元数据的元数据生成部；识别信息附加部，从所述内容获取用于识别所述内容中的各部分的识别信息，并附加到所述元数据上；以及根据所述内容限定的词典，

该元数据生成装置使生成的所述元数据与所述内容内的各部分相关联；所述声音识别部在识别由所述声音输入部输入的声音信号时，与所述词典相关联地进行识别。

2、(删除)

3、(修改后)如权利要求1所述的元数据生成装置，其特征在于，所述声音识别部以单词为单位，与所述词典相关联地识别所述声音信号。

4、如权利要求1或3所述的元数据生成装置，其特征在于，还具有包含键盘的信息处理部，可以通过从所述键盘输入，由所述信息处理部修正元数据。

5、(修改后)如权利要求1以及2～5中任一项所述的元数据生成装置，其特征在于，使用附在所述内容上的时间代码信息作为所述识别信息。

6、(修改后)如权利要求1以及2～6中任一项所述的元数据生成装置，其特征在于，使用附在所述内容上的内容的地址、编号或帧号码，作为所述识别信息。

7、如权利要求1所述的元数据生成装置，其特征在于，所述内容为静态图像内容，使用所述静态图像内容的各个地址，作为所述识别信息。

8、如权利要求1所述的元数据生成装置，其特征在于，

所述内容再现部由内容数据库构成；

所述声音输入部按照与所述内容数据库供给的同步信号同步的时钟，将所输入的关键词的声音信号转化为数据并供给所述声音识别部；

所述声音识别部根据在所述声音输入部转化为数据的声音信号数据，识别所述关键词；

所述元数据生成部构成文件处理部，该文件处理部将表示所述内容中包含的图像信号的时间位置的时间代码用作所述识别信息，并将所述声音识别部输出的关键词与所述时间代码相结合，来生成元数据文件。

9、如权利要求8所述的元数据生成装置，其特征在于，还具有记录部，将所述内容数据库供给的内容与所述元数据文件一道作为内容文件进行记录。

10、如权利要求9所述的元数据生成装置，其特征在于，还具有生成控制文件的内容信息文件处理部，所述控制文件用于管理应记录所述内容文件的记录位置和所述元数据文件之间的关系，

在所述记录部中，与所述内容文件和所述元数据文件一道记录所述控制文件。

11、如权利要求8所述的元数据生成装置，其特征在于，还具有词典数据库，所述声音识别部可以从多种类型词典中选择适合于所述内容的种类词典。

12、如权利要求11所述的元数据生成装置，其特征在于，可以将与内容相关的关键词供给所述声音识别部，所述声音识别部优先识别所述关键词。

13、(修改后)一种元数据生成方法，其特征在于，在监视器上显示内容的同时对与内容相关的信息进行声音输入，由声音识别装置利用根据所述内容限定的词典，对所输入的声音信号进行声音识别，并将所述声音识别后的信息转换成元数据，将用于识别所述内容内各部分的、附在所述内容上的识别信息附加到所述元数据上，使生成的所述元数据与所述内容内的各部分相关联。

14、(删除)

15、(删除)

16、如权利要求13所述的元数据生成方法，其特征在于，使用附在所述内容上的时间代码信息，作为所述识别信息。

17、如权利要求13所述的元数据生成方法，其特征在于，使用静态图像内容作为所述内容，并使用所述静态图像内容的各个地址作为所述识别信息。

18、一种元数据检索装置，其特征在于，包括：

再现内容并输出的内容数据库；

声音输入部，按照与再现的所述内容的同步信号同步的时钟，将所输入的关键词的声音信号转化为数据；

声音识别部，根据由所述声音输入部转化为数据的声音信号数据识别关键词；

文件处理部，将所述声音识别部输出的关键词与表示所述内容中包含的图像信号的时间位置的时间代码相结合，来生成元数据文件；

内容信息文件处理部，生成控制文件，所述控制文件用于对内容文件的记录位置和所述元数据文件之间的关系进行管理；

记录部，记录所述内容文件、所述元数据文件和所述控制文件；

检索部，确定包含所输入的检索关键词的所述元数据文件，并参照所述控制文件提取与所述内容文件的所述关键词对应的记录位置；

所述内容文件的记录位置是所述记录部中的记录位置。

19、如权利要求18所述的元数据检索装置，其特征在于，所述内容信息文件处理部输出的控制文件是记载与所述内容的记录时间对应的、所述记录部中所述内容的记录位置的表，可以根据所述时间代码检索所述内容的记录位置。

20、如权利要求18所述的元数据检索装置，其特征在于，还具有词典数据库和向所述声音识别部供给与内容相关的关键词的关键词供给部，所述声音识别部可以从多种类型的词典中选择适合于所述内容的种类的词典，并且优先识别所述关键词。

21、如权利要求18所述的元数据检索装置，其特征在于，还具有词典数据库，所述声音识别部可以从多种类型的词典中选择适合于所述内容的种类的词典，所述检索部利用从所述声音识别部使用的通用词典中选定的关键词进行检索。

Claims

1.一种元数据生成装置，其特征在于，具有再现内容并输出的内容再现部、声音输入部、识别所述声音输入部输入的声音信号的声音识别部、将所述声音识别部识别的信息转换成元数据的元数据生成部，以及识别信息附加部，该识别信息附加部从所述内容再现部供给的再现后的内容，获取用于识别所述内容中的各部分的识别信息，并将其附加到所述元数据上；该元数据生成装置使生成的所述元数据与所述内容内的各部分相关联。

2.如权利要求1所述的元数据生成装置，其特征在于，还具有与所述内容相关的词典，在通过所述声音识别部识别由所述声音输入部输入的声音信号时，与所述词典相关联地进行识别。

3.如权利要求2所述的元数据生成装置，其特征在于，所述声音识别部以单词为单位，与所述词典相关联地识别所述声音信号。

4.如权利要求1或3所述的元数据生成装置，其特征在于，还具有包含键盘的信息处理部，可以通过从所述键盘输入，由所述信息处理部修正元数据。

5.如权利要求1～5中任一项所述的元数据生成装置，其特征在于，使用附在所述内容上的时间代码信息，作为所述识别信息。

6.如权利要求1～6任一项所述的元数据生成装置，其特征在于，使用附在所述内容上的内容的地址、编号或帧号码，作为所述识别信息。

7.如权利要求1所述的元数据生成装置，其特征在于，所述内容为静态图像内容，使用所述静态图像内容的各个地址，作为所述识别信息。

8.如权利要求1所述的元数据生成装置，其特征在于，

所述内容再现部由内容数据库构成；

13、一种元数据生成方法，其特征在于，对与内容相关的信息进行声音输入，由声音识别装置对输入的声音信号进行声音识别，将所述声音识别后的信息转换成元数据，将用于识别所述内容内的各部分的、附加在所述内容上的识别信息附加到所述元数据上，使生成的所述元数据与所述内容内的各部分相关联。

14、如权利要求13所述的元数据生成方法，其特征在于，再现所述内容并在监视器上显示，同时对与内容相关的信息进行声音输入。

15、如权利要求13所述的元数据生成方法，其特征在于，利用与所述内容相关的词典，并由所述声音识别装置与所述词典相关联地识别所述输入的声音信号。

18、一种元数据检索装置，其特征在于，包括：

再现内容并输出的内容数据库；

所述内容文件的记录位置是所述记录部中的记录位置。

20、如权利要求18所述的元数据检索装置，其特征在于，还具有词典数据库和向所述声音识别部供给与内容相关的关键词的关键词供给部，所述声音识别部可以从多种类型的词典中选择适合于所述内容的种类词典，并且优先识别所述关键词。