CN101615389A

CN101615389A - 电子设备、视频内容编辑方法和程序

Info

Publication number: CN101615389A
Application number: CN200910149972A
Authority: CN
Inventors: 村林升
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-06-24
Filing date: 2009-06-24
Publication date: 2009-12-30
Anticipated expiration: 2029-06-24
Also published as: KR101590186B1; US8494338B2; JP2010010780A; JP4488091B2; CN101615389B; US20100008641A1; KR20100002090A

Abstract

本发明的电子设备包括：第一输入装置，用于输入构成第一视频内容的图像信号和第一音频信号；第二输入装置，用于输入不同于第一音频信号的第二音频信号；第一计算装置，用于从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值；第二计算装置，用于从输入的第一音频信号中检测个人的语音，并计算用于评估语音的音量的语音评估值；设置装置，用于设置每个图像信号的第一加权因子和第二加权因子；以及产生装置，用于产生第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

Description

电子设备、视频内容编辑方法和程序

技术领域

本发明涉及能够编辑视频内容的电子设备、在该电子设备中的视频内容编辑方法、以及其程序。

背景技术

过去，已进行了给用摄像机等所拍摄的视频内容添加BGM(背景音乐)、声音效果等的编辑操作。例如，日本专利申请特开No.2001-202082(第0024和0031段、图2等)(以下称其为专利文献1)揭示了视频信号编辑设备，在此设备中，提取作为编辑目标的视频的特征(记录时段和图像数量)，并根据预定用户给出的指令，自动产生用于编辑目标视频的最佳音乐，并将其添加到编辑目标视频。

发明内容

然而，在专利文献1所揭示的技术中，当向编辑目标视频中加入音乐时，擦除了被记录在原始编辑目标视频上的原始音频信号。因此，取决于场景(scene)，在某些情况下留下原始信号而不添加音乐能够使编辑目标视频给人更为深刻的印象。但是，利用专利文献1中揭示的技术，难于实现这一点，这就会让用户感到不方便。此外，通常，用户可以手动选择在编辑目标视频中要加入音乐的部分，和其中有要保留原始音频信号以便对其进行编辑的部分。然而，这些任务是极为复杂和麻烦的。

鉴于上述的情况，希望提供一种电子设备、视频内容编辑方法和程序，它们能够有效地保留在原始视频内容中的音频信号，并根据场景来添加另外的音频信号。

根据本发明的具体实施例，提出了一种电子设备。该电子设备包括：第一输入装置、第二输入装置、第一计算装置、第二计算装置、设置装置和产生装置。第一输入装置输入构成第一视频内容的图像信号和第一音频信号。第二输入装置输入不同于第一音频信号的第二音频信号。第一计算装置从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值。第二计算装置从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值。设置装置根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重。产生装置根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

在此，这种电子设备的例子包括PC(个人计算机)，使用诸如HDD(硬盘驱动器)/DVD/BD(蓝光盘)之类的记录介质的记录/再现装置、数字视频摄像机、移动AV(音频/视频)设备、移动电话和游戏机等。第一视频内容是指由诸如摄像机之类的设备记录的视频内容、通过网络接收的视频内容等。第二音频信号是指BGM的音频信号、声音效果等。

通过这个结构，该电子设备能够根据在第一视频内容中包括的面部图像和语音来改变第一和第二音频信号的权重，并从第一视频内容来产生第二视频内容。这样，就能根据场景按原样保留人的语音或者插入另外的声音，其结果是，与只将另一个声音插入到第一视频内容中的情况相比，能够提高编辑效果并能产生给人印象更为深刻的第二视频内容。

当面部评估值等于或大于第一阈值并且语音评估值等于或大于第二阈值时，设置装置可以将第一加权因子设置为大于第二加权因子的第一值。

在面部评估值和语音评估值都大的情况下，极可能在第一视频内容中出现的那个人在说话。在此情况下，尽可能地将第一加权因子设置得大于第二加权因子，以便强调这个人的语音，其结果是，能够使得对此人的印象更为深刻。在此，可以将第一值设置为1。

当面部评估值小于第一阈值并且语音评估值小于第二阈值时，设置装置可以将第一加权因子设置为小于第二加权因子的第二值。

在面部评估值和语音评估值都小的情况下，极可能这个人没出现在第一视频内容中。在此情况下，尽可能地将第一加权因子设置得小于第二加权因子，以便强调第二音频信号，因此，可能进行编辑以使得在第一视频内容中的不起眼的场景变得更加吸引人。在此，可以将第二值设置为0。

当面部评估值等于或大于第一阈值并且语音评估值小于第二阈值时，设置装置可以根据面部评估值和语音评估值将第一加权因子设置得大于第二加权因子。

在面部评估值大而语音评估值小的情况下，人的面部出现在第一视频内容中，因此，这个人可能是用小的语音说某些事情。在此情况下，将第一音频信号的权重设置得大，并同时添加第二音频信号，其结果是，在强调第一音频信号的同时，能够添加第二音频信号的效果。

当面部评估值小于第一阈值并且语音评估值等于或大于第二阈值时，设置装置可以根据面部评估值和语音评估值将第一加权因子设置得小于第二加权因子。

在面部评估值小而语音评估值大的情况下，这个人几乎不出现在第一视频内容中，因此，即使在包含人的某些语音的情况下，语音可能几乎与图像无关。在此情况下，在保留第一音频信号的同时，将第二音频信号的权重设置得大，其结果是，在保留第一音频信号的同时，能够添加第二音频信号的效果。

根据本发明的电子设备可以还包括用于存储指示特定人的面部的特征的面部特征数据的存储装置。

在此情况下，第一计算装置能够根据所存储的面部特征数据来检测其中含了特定人的面部的面部图像区。

通过此结构，即使在视频内容中出现了多个人的面部，也可能区别特定人面部和其它人的面部并检测该面部。因此，能够根据所聚焦的特定人来有效地进行第一和第二音频信号的加权因子的设置处理。

该电子设备可以还包括存储装置，用以存储指示特定人的语音的特征的语音特征数据。

在此情况下，第二计算装置能够根据所存储的语音特征数据来检测特定人的语音。

通过此结构，即使在视频内容中包含多个人的语音的情况下，也可能区别特定人的语音和其它人的语音。因此，能够根据所聚焦的特定人来有效地进行第一和第二音频信号的加权因子的设置处理。

根据本发明的另一个实施例，提供了编辑视频内容的方法。该方法包括输入构成第一视频内容的图像信号和第一音频信号，并输入不同于第一音频信号的第二音频信号。

该方法还包括从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值。

该方法还包括从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值。

此方法还包括根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重。

这个方法还包括根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

通过此结构，能根据场景照原样保留人的语音或者插入另外的声音，其结果是，与只将另一个声音插入到第一视频内容中的情况相比，增加了编辑效果并能产生更加印象深刻的第二视频内容。

根据本发明的另一个实施例，提出了一种程序，以便使得该电子设备执行第一输入步骤、第二输入步骤、第一计算步骤、第二计算步骤、设置步骤和产生步骤。

在第一输入步骤中，输入构成第一视频内容的图像信号和第一音频信号。

在第二输入步骤中，输入不同于第一音频信号的第二音频信号。

在第一计算步骤中，从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值。

在第二计算步骤中，从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值。

在设置步骤中，根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重。

在产生步骤中，根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

根据本发明的另一个实施例，提出了一种电子设备。该电子设备包括第一输入单元、第二输入单元、第一计算单元、第二计算单元、设置单元和产生单元。第一输入单元输入构成第一视频内容的图像信号和第一音频信号。第二输入单元输入不同于第一音频信号的第二音频信号。第一计算单元从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值。第二计算单元从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值。设置单元根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重。产生单元根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

如上所述，根据本发明，在有效地保留在原始视频内容中的音频信号的同时，还可以根据场景添加另外的音频信号。

如附图所示，根据下面对本发明的最佳模式实施例的详细陈述，本发明的上述和其他目的、特征和优点将会变得更加清楚。

附图说明

图1是示出了根据本发明的实施例的记录/再现装置的结构的方块图；

图2概念性地说明了在本发明的实施例中的、用于面部图像的检测的学习处理的图；

图3是示出了根据本发明的实施例的用记录/再现装置对视频内容进行BGM插入处理的流程的流程图；

图4是概念性地示出了在本发明的实施例中的面部图像区的检测处理的图；

图5是概念性地示出了在本发明的实施例中的语音检测处理的图；

图6是示出了在本发明的实施例中的加权因子k和m的设置处理的表格；

图7是示出了在本发明的实施例中、在帧图像与每个面部评估值、语音评估值、加权因子k和m以及视频内容之间的关系的图；以及

图8是概念性地示出了在本发明的另一个实施例中、使用边缘强度图像的面部识别处理的图。

具体实施方式

以下，将参照附图来详细说明本发明的实施例。

图1是示出了根据本发明的实施例的记录/再现装置的结构的方块图。

如图1所示，根据此实施例的记录/再现装置100包括图像信号输入单元1和3、，音频信号输入单元2和4、输入图像处理单元5、输入音频处理单元6、图像特征检测单元7、音频特征检测单元8、记录单元9、和记录介质10。记录/再现装置100还包括再现单元11、输出图像处理单元12、输出音频处理单元13、用户接口单元14、CPU(中央处理单元)15、以及RAM(随机存取存储器)16。

图像信号输入单元1和3是各种有线通信端子或无线通信单元。有线通信端子的例子包括S端子、RCA端子、DVI(数字视频接口)端子、HDMI(高分辨率多媒体接口)端子、以太(注册商标)端子。此外，还可以使用USB(通用串行总线)端子、IEEE 1394端子等。无线通信单元的例子包括无线LAN、蓝牙(注册商标)、无线USB、和无线HDMI。有线通信端子和无线通信通信端子并非仅限于此。从每个图像信号输入单元1和3上向记录/再现装置100输入视频内容的图像信号，并通过各种电缆或无线网络将其提供给输入图像处理单元5。在此，视频内容是指例如用摄像机等拍摄的内容或者是互联网上的内容。

音频信号输入单元2和4也是各种有线通信端子或无线通信单元，除了S端子和DVI端子之外，这些端子的例子几乎与上述的端子和单元相同。从每一个音频信号输入单元2和4，向记录/再现装置100输入图像内容的音频信号，并通过各种电缆或无线网络将其提供给输入音频处理单元6。

此外，图像信号输入单元1和3以及音频信号输入单元2和4中的每一个都可以是例如，调谐器和用于通过天线(未示出)将被包括在数字广播信号中的图像信号和音频信号输入到记录/再现装置100中的天线输入端子。

输入图像处理单元5对输入的图像信号进行各种信号处理，例如，数字转换处理和编码处理，然后，将该信号输出到图像特征检测单元7和记录单元9作为数字图像信号。

输入音频处理单元6对输入的音频信号进行各种信号处理，例如，数字转换处理和编码处理，然后，将该信号输出到音频特征检测单元8和记录单元9作为数字音频信号。

图像特征检测单元7根据从输入图像处理单元5提供的图像信号来检测指示人的面部的面部图像(面部图像区)，并计算用于评估面部图像区的确定性(certainty)的面部评估值。

音频特征检测单元8根据从输入音频处理单元6提供的音频信号来检测人的语音，并计算用于评估所检测的语音的音量的语音评估值。

记录单元9多路复用从输入图像处理单元5提供的图像信号以及从输入音频处理单元6提供的音频信号，并将此多路复用的信号记录在记录介质10上。

作为记录介质10，可以使用诸如HDD和闪存之类的内置记录介质以及诸如光盘和存储卡之类的便携式记录介质。作为光盘，可以使用BD、DVD、CD等。记录介质10存储各种视频内容、各种程序和数据等等。在记录介质10是内置的记录介质的情况下，记录介质10存储OS以及用于进行以下处理的各种程序和数据：面部图像的检测处理、语音的检测处理、这些检测处理的学习(learning)处理、视频内容的音频编辑处理等。在记录介质10是便携式的记录介质的情况下，为记录/再现装置100另外提供了内置的记录介质(未示出)，用于记录上述的各种程序和数据。

再现单元11读取在记录介质10上记录的多路复用的图像信号和音频信号，以便分离它们，解码分离了的图像信号和音频信号，并将图像信号提供给输出图像处理单元12，将音频信号提供给输出音频处理单元13。作为图像信号和音频信号的压缩格式，可以使用例如，MPEG(运动图像专家组)-2和MPEG-4。

输出图像处理单元12进行各种信号处理，例如，模拟转换处理和OSD(屏上显示)处理，并将图像信号输出到诸如与记录/再现装置100相连的液晶显示器或在记录/再现装置100中并入的液晶显示器的外部装置。

输出音频处理单元13进行诸如模拟转换处理之类的各种信号处理，并将音频信号输出到外部装置或内置的液晶显示器。

用户接口单元14的例子包括操作按钮、开关、鼠标、键盘和遥控器的红外线信号接收单元。将由用户操作的各种指令输入到用户接口单元14，并从这里输出到CPU 15。

CPU 15适当地存取RAM 16等，并对记录/再现装置100的块进行全面的控制。将RAM 16用作为CPU 15的工作区等，并暂时存储OS(操作系统)、程序、处理数据等。

外部音频源17是诸如PC和各种AV器件的外部装置，并存储要插入到视频内容中的BGM(或声音效果)的音频信号(以下称其为BGM声音)，并通过各种接口将音频信号输入到CPU 15。或者，外部音频源17可以是被并入或被安装在记录/再现装置100中的记录介质，例如，记录介质10。

下面，将说明上述构造的记录/再现装置100的操作。

在此实施例中，记录/再现装置100能够编辑视频内容以在视频内容中插入被存储在外部音频源17中的BGM声音。如上所述，在插入BGM声音时，记录/再现装置100从视频内容的图像信号检测面部图像，并从音频信号检测语音。据此，记录/再现装置100判断BGM声音的插入是否是合适的。具体地，对于面部图像的检测而言，记录/再现装置100进行作为预处理的学习处理。下面将要说明该学习处理。

图2概念性地说明了在本发明的实施例中的、用于面部图像的检测的学习处理。

如图2所示，在记录/再现装置100的记录介质10中，表示各个人的面部图像的采样的面部图像采样数据和指示非面部图像的采样的非面部图像采样数据被编译作为数据库，并被存储作为供学习用的数据。

记录/再现装置100的图像特征检测单元7利用特征过滤器(featurefilter)来过滤在面部图像采样数据库和非面部图像采样数据库中存储的采样图像数据，并提取各个面部特征，以及检测特征向量(特征数据)。

如图2所示，特征过滤器检测在图像中的的矩形的某些部分并盖住其它部分。利用特征过滤器，并从作为面部特征的面部图像采样数据来检测在眼睛、眉毛、鼻子、面颊和其它部分之间的位置关系，并且，从作为非面部特征的非面部图像采样数据中检测除了该面部以外的对象的形状、对象的组成部分之间的位置关系等。特征过滤器并非只限于矩形特征过滤器，还可以使用用于检测圆形特征的分离度过滤器、用于根据在特定方向上的边缘来检测面部的各个部分之间的位置关系的Gabor过滤器等。对于面部特征的检测，除了特征过滤器而外，例如，还可以使用亮度分布信息和肤色信息。

在此，图像特征检测单元7难于基于采样图像数据来识别面部区的尺寸和位置。因此，在改变特征过滤器的帧尺寸并进行特征过滤的情况下，图像特征检测单元7在获取最可能的检测值的时候，识别特征过滤器尺寸作为面部区尺寸，并提取面部特征。此外，在用特征过滤器来扫描采样图像数据的整个区域的情况下，图像特征检测单元7在获取最可能的检测值的时候，识别特征过滤器的位置作为面部区的位置，并提取面部特征。

图像特征检测单元7根据从面部图像采样数据和非面部图像采样数据中提取的特征来产生多维特征向量。然后，图像特征检测单元7用多维向量空间来表示特征向量，并通过统计机学习(statistical machine learning)来产生辨别函数。所产生的辨别函数被存储在记录介质10等中，并当从作为编辑目标的视频内容中检测面部图像时被使用。

此外，除了使用辨别函数的辨别分析处理外，可以进行使用诸如支持向量机(SVM)、Ado-boost和神经网络的机器学习方法的辨别分析处理。在此情况下，除了辨别函数外，在记录/再现装置100中并入用于进行辨别处理的处理模块。在以下说明中，涉及辨别函数的处理也同样是成立的。

下面，将要说明使用在此实施例中的记录/再现装置100来编辑视频内容和在视频内容中插入BGM数据的处理。

图3是示出了根据本发明的实施例的用记录/再现装置100向视频内容的BGM插入处理的流程的流程图。

如图3所示，首先，从记录介质10读取或从图像信号输入单元1或3和音频信号输入单元2或4输入编辑目标视频内容。随后，CPU 15从视频内容上提取预定部分(预定数量的连续帧)的图像信号和音频信号(步骤31)。将所提取的预定部分的图像信号提供给图像特征检测单元7，并将所提取的预定部分的音频信号提供给音频特征检测单元8。

随后，图像特征检测单元7通过使用辨别函数来从预定部分的图像信号检测面部图像区(步骤32)。图4是概念性地示出了面部图像区的检测处理的图。如图4所示，图像特征检测单元7使用特征过滤器来过滤预定部分的图像信号，检测面部特征，以及产生多维特征向量。然后，图像特征检测单元7将特征向量的每维的值放入到辨别函数的每维的变量中，并根据辨别函数的输出是正的还是负的来判断图像信号是否包括面部图像区。

然后，图像特征检测单元7根据辨别函数的输出值来计算面部评估值Tf，以便评估面部图像检测的确定性(步骤32)。面部评估值是指当根据预定的、确定的面部图像数据来产生特征向量并将所产生的特征向量输入到辨别函数中时、用百分比表达的辨别函数的输出值，。

随后，音频特征检测单元8从预定部分的音频信号检测含有人的语音的部分(步骤34)。图5是概念性地示出了语音检测处理的图。在图5中，指示了预定部分的音频信号的功率。图5所示的波形A指示人的语音，图5所示的波形B指示除了人的语音之外的声音。

如图5所示，首先，音频特征检测单元8设置与音频功率相关的阈值Ath，以便消除噪声影响。随后，当预定部分中的平均功率大于Ath时，音频特征检测单元8判断该部分是音频部分。当平均功率小于Ath时，音频特征检测单元8判断该部分是非音频部分。这就是说，在图5中，确定除了波形A和B以外的音频信号为非音频部分的信号。

在音频部分中，个人的语音包括辅音、元音、吸气等，因此，其具有的特征在于，预定功率或更大功率的连续部分短于除了在音乐等中语音以外的声音的连续部分。通过使用这个特征，音频特征检测单元8设置与时间段相关的阈值Tth。在平均连续时间段(在此时间段中获取预定的功率或更大的功率)小于Tth的情况下，音频特征检测单元8判断这个部分是语音部分，而在平均连续时间段(在此时间段中获取预定的功率或更大的功率)大于Tth的情况下，音频特征检测单元8判断这个部分是非语音部分。

随后，音频特征检测单元8根据所检测的语音的音量(功率级别或振幅)来计算语音评估值Tv(步骤35)。语音评估值是指表示在能被检测的语音的最大功率级别是1的情况下按百分比表述的语音功率级别的值。

随后，CPU 15判断面部评估值Tf是否等于或大于预定的阈值Tfs(步骤36)。当面部评估值Tf等于或大于预定的阈值Tfs(是)时，CPU 15就判断语音评估值Tv是否等于或大于预定的阈值Tvs(步骤37)。

当语音评估值Tv等于或大于Tvs(是)时，CPU 15就将BGM声音的加权因子k设置为小于0.5的预定权重k1，并将视频内容的音频信号的加权因子m设置为1-k1。例如，将k1设置为0。即使当不是0时，也将k1设置成尽可能接近于0的值。

在步骤37中，当语音评估值Tv小于阈值Tvs(否)时，那么，CPU 15就根据面部评估值Tf和语音评估值Tv来设置加权因子k和m(步骤39)。这就是说，虽然加权因子k和m两者都不是0或1，也将加权因子k设置得小于加权因子m。

在步骤36中，当面部评估值Tf小于阈值Tfs(否)时，CPU 15就判断语音评估值Tv是否等于或大于预定的阈值Tvs(步骤40)。如果语音评估值Tv等于或大于阈值Tvs(是)，那么，CPU 15就根据面部评估值Tf和语音评估值Tv来设置加权因子k和m(步骤41)。这就是说，虽然加权因子k和m两者都不是0或1，也将加权因子k设置得大于加权因子m。

在步骤40中，如果语音评估值Tv小于阈值Tvs(否)，那么，CPU 15就将加权因子k设置为大于0.5的预定权重k2，并将加权因子m设置为1-k2。例如，将k2设置为1。即使不为1，也要把k2设置成尽可能接近于1的值。

CPU 15根据上述设置的加权因子k和m来为视频内容的每个预定部分(每个帧)编辑视频内容，并插入从外部音频源17输入的BGM声音(步骤43)。

CPU 15对视频内容的全部预定部分进行上述的处理，或者进行上述的处理直到用户等给出停止处理的指令为止(步骤44和45)。最后，CPU 15多路复用已用原始图像信号编辑了的视频内容，并在记录介质10中存储多路复用的内容作为新的视频内容。

图6是示出了上述的加权因子k和m的设置处理的表格。如图6所示，取决于面部评估值是否等于或大于阈值Tfs以及语音评估值是否等于或大于阈值Tvs来设置四个模式的加权因子。

图7是示出了在帧图像与面部评估值、语音评估值、加权因子k和m，以及视频内容的每个之间的关系的图。作为例子，图7所示的帧f1到f6指示包含用摄像机等拍摄的学校体育运动会的场景在内的视频内容的帧的部分。

如图7所示，在视频内容的帧f1和f2中，面部是如此之小以至于由图像特征检测单元7检测不到面部图像区。因此，面部评估值较小(小于阈值Tfs)。此外，在帧f1和f2的部分中，远距离拍摄场景，因此，几乎采集不到个人的语音。因此，语音评估值较小(小于阈值Tvs)。所以，在那些部分中，将BGM声音的加权因子k设置为高，并将内容的音频信号的加权因子m设置为低。结果，进行编辑处理以使得不起眼的场景可以变得更吸引人。

在帧f3和f4中，由于在稍许近些的距离上拍摄人物，采集到的语音就稍许响亮一些。因此，在那些部分中，根据面部评估值和语音评估值来分别设置加权因子k和m。因此，保留下了人的语音，与此同时，能够得到BGM插入的效果。换句话说，如果面部评估值是等于或大于阈值Tfs而语音评估值小于阈值Tvs，图像特征检测单元7把BGM声音的权重设置得较低，其结果是，能强化出现在图像中的人的语音。进而，如果面部评估值小于阈值Tfs而语音评估值等于或大于阈值Tvs，图像特征检测单元7把BGM声音的权重设置得较高，其结果是，能够提高BGM的效果，而不是增强与图像无关的人的语音。

在帧f5和f6中，是在如此近的距离上拍摄人的，以至能够清晰地检测他们的面部。因此，面部评估值大(等于或大于阈值Tfs)。此外，所检测的语音的功率级也大，因此，语音评估值也大(等于或大于阈值Tvs)。这样，在那些部分中，将加权因子k设置为低，将加权因子m设置为高。因此，强化了个人的语音，其结果是，该人的印象能被加深。

如上所述，根据此实施例，根据面部评估值和语音评估值将BGM声音插入到视频内容中。因此，在有效地保留原始视频内容中的音频信号的同时，能够取决于场景插入BGM声音。其结果是，与只是单一地插入BGM声音的情况相比，能够得到更加感人、更令人难忘的视频内容。

本发明并不只限于上面的实施例，只要不偏离本发明的要旨，就能进行各种修改。

在上述的实施例中，图像特征检测单元7除了可用于检测人的面部图像而外，还可以用于检测动物的面部图像。此外，音频特征检测单元8除了可用于检测人的语音而外，还可以用于检测动物的语音。

在上述的实施例中，图像特征检测单元7不仅可以检测面部图像，而且也能识别特定人的面部图像。在用辨别函数进行的面部检测处理之后，进行面部识别处理。对于面部识别处理，能够使用边缘强度图像、频率强度图像、高阶(high order)自相关、彩色转换图像等。

图8是概念性地示出了使用边缘强度图像的面部识别处理的图。

如图8所示，在记录介质10等的记录介质中，存储灰度图像和边缘强度图像作为要识别其面部的人的特征数据(字典图样)。图像特征检测单元7从所检测的面部图像中提取灰度图像和边缘强度图像作为特征数据。然后，图像特征检测单元7进行在所提取的灰度图像和边缘强度图像与所存储的人的灰度图像和边缘强度图像之间的比较处理，在此，所述的这个人其面部是用图样匹配进行识别的，其结果是，能够识别特定人的面部图像。在此情况下，图像特征检测单元7按百分比来表达面部图像的识别率(匹配率)，并将此识别率当作为面部评估值。在获取关于面部特征点(如眼睛、鼻子)的信息的情况下，图像特征检测单元7也能使用除了边缘强度图像等等以外的信息。

通过上述的处理，可能根据特定人的面部的识别率来将BGM插入到视频内容中，例如，诸如在图7的例子中那样，在多个小孩之中，只根据用户的小孩的面部的识别率来进行插入。结果，能够使已经编辑了的视频内容更加印象深刻。

在上面的实施例中，音频特征检测单元8不仅可以检测语音，而且还能识别特定人的语音。按如下程序进行语音识别处理。例如，音频特征检测单元8对要识别的人的语音信号进行频率分析，并检测其频谱特征，并将该其存储在记录介质10等中，并与所检测的语音频谱特征进行比较处理(图样比较)。作为频谱特征，使用了辅音部分和元音部分的每个的频谱峰值频率、频谱间隔等。此外，吸气的间隔等在各个人之间是不同的。因此，除了频谱特征之外，音频特征检测单元8还可以使用关于吸气间隔的信息。在此情况下，音频特征检测单元8按百分比来表达语音识别率(匹配率)，并将此语音识别率当作为语音评估值。

通过该处理，能够根据特定人的语音识别率，将BGM插入到视频内容中，其结果是，能使已经编辑了的视频内容给人更加深刻印象。

在上面的实施例中，在面部评估值小于阈值Tfs和语音评估值等于或大于阈值Tvs的情况下，图像特征检测单元7将BGM声音的权重设置为高。然而，在此情况下，图像特征检测单元7也可以相反地将BGM声音的权重设置为低。利用此设置，能够保留作为拍摄目标的人的语音以及拍摄该目标的人的语音。此外，在能够识别多个语音的情况下，如果进行拍摄的人的语音的语音评估值等于或大于阈值Tvs，即使当识别了进行拍摄的人的语音、但面部评估值小于阈值Tfs时，也可将BGM声音的权重设置为低。利用此设置，能够更可靠和更有效地保留进行拍摄的人的语音。

在上面的实施例中，记录/再现装置100并不对语音检测处理进行学习处理，但是，它当然是可以进行学习处理的。

在上面的实施例中，将本发明用于作为例子的记录/再现装置，但是，当然也可用在其它的电子设备中，这诸如PC、数码相机、可移动的AV设备、移动电话和游戏机等。

本申请书包括与在日本的优先级专利申请书JP 2008-164652中揭示的内容相关的主题内容，该专利申请书是在2008年6月24日在日本专利局中提供的，其全部内容归并于此，以供参考。

Claims

1.一种电子设备，包括：

第一输入装置，用于输入构成第一视频内容的图像信号和第一音频信号；

第二输入装置，用于输入不同于第一音频信号的第二音频信号；

第一计算装置，用于从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值；

第二计算装置，用于从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值；

设置装置，用于根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重；以及

产生装置，用于根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

2.根据权利要求1的电子设备，

其中，当面部评估值等于或大于第一阈值并且语音评估值等于或大于第二阈值时，所述设置装置将第一加权因子设置为大于第二加权因子的第一值。

3.根据权利要求2的电子设备，

其中，当面部评估值小于第一阈值并且语音评估值小于第二阈值时，所述设置装置将第一加权因子设置为小于第二加权因子的第二值。

4.根据权利要求3的电子设备，

其中，当面部评估值等于或大于第一阈值并且语音评估值小于第二阈值时，所述设置装置根据面部评估值和语音评估值将第一加权因子设置为大于第二加权因子。

5.根据权利要求3的电子设备，

其中，当面部评估值小于第一阈值并且语音评估值等于或大于第二阈值时，所述设置装置根据面部评估值和语音评估值将第一加权因子设置为小于第二加权因子。

6.根据权利要求3的电子设备，还包括：

存储装置，用于存储指示特定人的面部的特征的面部特征数据，

其中，所述第一计算装置能够根据所存储的面部特征数据来检测其中包含了特定人的面部的面部图像区。

7.根据权利要求3的电子设备，还包括：

存储装置，用于存储指示特定人的语音的特征的语音特征数据，

其中，所述第二计算装置能够根据所存储的语音特征数据来检测特定人的语音。

8.一种编辑视频内容的方法，包括：

输入构成第一视频内容的图像信号和第一音频信号；

输入不同于第一音频信号的第二音频信号；

从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值；

从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值；

根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重；以及

根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。

9.一种使电子设备执行如下步骤的程序：

输入构成第一视频内容的图像信号和第一音频信号；

输入不同于第一音频信号的第二音频信号；

10.一种电子设备，包括：

第一输入单元，用于输入构成第一视频内容的图像信号和第一音频信号；

第二输入单元，用于输入不同于第一音频信号的第二音频信号；

第一计算单元，用于从输入的图像信号中检测其中包含了个人面部的面部图像区，并计算用于评估所检测的面部图像区的确定性的面部评估值；

第二计算单元，用于从输入的第一音频信号中检测个人的语音，并计算用于评估所检测的语音的音量的语音评估值；

设置单元，用于根据所计算的面部评估值和语音评估值来设置每个图像信号的第一加权因子和第二加权因子，第一加权因子指示第一音频信号的权重，第二加权因子指示第二音频信号的权重；以及

产生单元，用于根据所设置的第一加权因子和第二加权因子来产生其中混合了第一音频信号和第二音频信号的第三音频信号，并产生由第三音频信号和图像信号构成的第二视频信号内容。