CN100585698C

CN100585698C - 音频/视频内容提供系统和音频/视频内容提供方法

Info

Publication number: CN100585698C
Application number: CN200510129111A
Authority: CN
Inventors: 酒井祐市; 佐佐木彻; 佐古曜一郎; 寺内俊郎; 山下功诚; 宮岛靖; 高井基行
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-09-28
Filing date: 2005-09-28
Publication date: 2010-01-27
Anticipated expiration: 2025-09-28
Also published as: EP1641157A2; CN1790484A; US7660825B2; JP2006099195A; JP4311322B2; KR20060051754A; EP1641157A3; US20060080357A1

Abstract

本发明公开了一种音频/视频(AV)内容提供系统。该音频视频内容提供系统给处于封闭空间中的观众提供音频视频内容。该音频视频内容提供系统具有：音频信息获得单元，音频视频内容数据库，属性索引，选择单元。观众信息获得单元获得表示处于封闭空间中的观众的信息和表示观众关系的信息。音频视频内容数据库包含一个或者多个音频视频内容。属性索引与包含于音频视频内容数据库中的音频视频内容相关并描述了音频视频内容属性。选择单元比较表示观众的信息和表示观众关系的信息，以及属性索引，并且根据比较结果从音频视频内容数据库中选择提供给观众的音频视频内容。

Description

音频/视频内容提供系统和音频/视频内容提供方法

相关申请的交叉参考

本发明包含的主题涉及2004年9月28日在日本专利局申请的日本专利申请JP2004-281467，其全部内容在此作参考引入。

技术领域

本发明涉及一种音频/视频内容提供系统和一种音频/视频内容提供方法，其允许适合观众的音频/视频内容被自动地选择和提供给他们。

背景技术

很长一段时间以来，已经知道美丽的风景和音乐能够平静人们的心灵并且鼓励他们。为了利用这些特征，背景音乐(BGM)系统已被安装到工作场所和商店以提高工作效率和消费兴趣。在宾馆、饭店等场所，已经提供了利用音频/视频(AV)设备创造适合它们气氛的服务。

在过去，用户需要选择例如由音频视频设备等重放的音频视频内容的音乐流派或歌曲名称。音乐内容的数量越多，选择操作就变得越麻烦。作为解决该问题的一种方法，专利文献1描述了一种限定多种属性，将用户的喜好与他或她的视/听历史相比较，并且给他或她提供他们所喜欢的音频视频内容的技术。

【专利文献1】已公开的日本专利公开号2003-259318

另外，专利文献2描述一种确定例如其中很多人在同一个空间的会议的参加者的数量、根据其声级评估会议状态并控制背景音乐的声级的技术。

【专利文献2】已公开的日本专利公开号HEI 4-268603

发明内容

然而，专利文献1中所描述的音频视频内容选择方法只针对一个用户。于是，当很多人在同一空间时，如果一条音频视频内容被一个人选择，那么在同一空间的其他人也许讨厌所选的这条音频视频内容。当快节奏高节拍的音乐由一个人根据他或她的喜好或视/听历史所选择并且提供给他或她，可以认为在同一空间的另一个人也许不喜欢这个音乐并且觉得它听着象噪音。当一对恋人或一个家庭进行驱动时，由于他们的人事关系是不同的，那么就会应用不同的音频视频内容选择标准。

另外，专利文献2中描述的技术允许同一会议室中参加者的数量可被评估，而不是其人事关系可被评估。

根据前面所述情况，希望提供一种音频/视频内容提供系统和音频/视频内容提供方法，从而允许音频视频内容使同一空间的人们可根据他们的关系而和谐一致。

根据本发明的一个实施例，提供了一种音频/视频(AV)内容提供系统，它给密闭空间中的观众提供音频视频内容。音频视频内容提供系统具有音频信息获得单元，音频视频内容数据库，属性索引，选择单元。视频信息获得单元获得表示密闭空间中的观众的信息以及表示观众关系的信息。音频视频内容数据库包含一个或多个音频视频内容。属性索引与包含在音频视频内容数据库中的音频视频内容相关联并描述音频视频内容的属性。选择单元对表示观众的信息和表示观众关系的信息以及属性索引进行比较，同时根据比较结果，从音频视频内容数据库中选择一个音频视频内容提供给观众。

根据本发明的一个实施例，提供了一种音频/视频(AV)内容提供方法，它给密闭空间中的观众提供音频视频内容。表示密闭空间中的观众的信息以及表示观众关系的信息可以获得。表示观众的信息、表示观众关系的信息和属性索引可进行比较。属性索引与包含在包括一个或多个音频视频内容的音频视频内容数据库中的音频视频内容相关并描述音频视频内容的属性。提供给观众的音频视频内容，是根据比较结果从音频视频内容数据库中进行选择的。

如上所述，根据本发明的一个实施例，表示密闭空间中的观众的信息以及表示观众关系的信息可以获得。表示观众的信息和表示观众关系的信息可以与描述包含在包括一个或多个音频视频内容的音频视频内容数据库中的音频视频内容属性的属性索引进行比较。根据比较结果，音频视频内容从音频视频内容数据库中进行选择。于是，能够提供适合密闭空间中观众的音频视频内容。结果是，密闭空间中的所有观众能够度过舒适的时光。

根据本发明的一个实施例，观众的年龄、性别、关系可以通过温度分布信息和语音信息来评估。另外，由于考虑了根据适合于地点、时间区等进行选择的音频视频内容，所以，能够提供适合听众和空间的音频视频内容。

另外，根据本发明的一个实施例，由于适合空间的音频视频内容是根据观众的年龄、性别和关系的评估结果进行选择的，所以，该空间中的所有观众能够度过舒适的时光。

另外，根据本发明的一个实施例，除了观众的年龄、性别和关系之外，观众的情感变化也能被评估。于是，根据观众的情感变化，音频视频内容可被改变。于是，即便观众的情绪改变，他们也不会觉得音频视频内容不舒适。

另外，由于音频视频内容可从很多音频视频内容中被自动选择，因此，适合空间的音频视频内容能够被提供，并且观众不需要记忆歌曲名称。

根据以下本发明最佳模式实施例的详细描述，如附图所示，本发明的这些以及其它目的、特征和效果将变得更加清楚。

附图说明

结合附图，通过以下详细描述，本发明将被更加充分地理解，其中同样的参考标号表示相同的元件，其中：

图1是男人们和一个女人的语音声谱分析特性示意图；

图2是一个男人和一个女人的语音声谱分析特性示意图；

图3是一个男人和一个女人的语音声谱分析特性示意图；

图4是语音特性示意图；

图5是演讲中获得的关键词的示例的示意图；

图6是在音频视频内容为音乐的情况下第一属性的条目示例示意图；

图7A、7B和7C是表示适合观众的第二属性的条目示例示意图；

图8是根据本发明第一实施例的音频视频内容提供系统的功能方框图；

图9A、9B、9C和9D是评估观众位置、数目、年龄、性别和关系的一种方法的示例的示意图；

图10是描述根据本发明第一实施例的音频视频内容提供方法的流程图；

图11是根据本发明第二实施例的音频视频内容提供系统的功能方框图；和

图12是存储在IC标签中的信息示例的示意图。

具体实施方式

接下来，将描述本发明的第一实施例。首先，将描述根据本发明第一实施例的音频视频内容提供系统的概念。音频视频内容提供系统评估存在于一个特定空间的观众的年龄、性别、关系等等，并且根据评估信息将从多个音频视频内容中选出的最佳的音频视频内容提供给观众。

其次，将简要地描述一种评估同一空间中观众的年龄、性别和关系的方法。观众的年龄和性别可以根据观众的身体温度、语音品质等等来评估。另外，观众的关系可以根据观众的谈话内容、年龄、性别等等来评估。

例如，可获得某一空间中的观众位置和数目。通过获得由观众的位置和数目信息识别的观众的身体温度和语音，观众的年龄和性别可被评估。另外，通过获得在该空间中的语音信息，是谁在谈话可以根据观众的位置和数目来识别。根据谈话的内容评估观众的关系。

另一方面，音频视频内容的属性与表示适合观众的年龄、性别和关系的属性相关联。在该空间中的观众的年龄、性别和关系与和音频视频内容相关的属性进行比较。因此，提供给一定空间观众的音频视频内容可被提供和选择。

首先，将描述评估一定空间中观众的位置和数目的方法。在空间中，观众的位置和数目可以根据温度分布信息和语音信息来评估。当一定空间中温度分布的测量结果和表示人们体温以及体温分布区域的温度分布模式图作比较，并且确定该空间中的温度分布是否与温度分布模式图相匹配时，就可评估一定空间中观众的数目和位置。

通过分析语音信息的频率和时间序列，观众的位置和数目可以被评估。另一方面，由于没有谈话的观众的信息没有被检测到，通过利用温度分布信息的评估结果和语音信息的评估结果，该空间中的观众位置和数目可以比利用它们其中之一被更加精确地评估。

其次，将描述评估同一空间中观众的年龄、性别和关系的方法。同一空间中观众的年龄、性别和关系可以根据温度分布信息和语音信息来评估。已知人体温度分布模式图依赖例如他们的年龄和性别。当把成年男子的体温、成年女子的体温和婴幼儿的体温作比较时，成年男子的体温是最低的，婴幼儿的体温是最高的，成年女子的体温介于成年男子的和婴幼儿的体温之间。因此，当测量了一定空间中的温度分布，获得了该空间中观众的数目和位置，并检查了观众所在位置的温度时，就可以评估观众的年龄和性别。

在分析语音信号和语音的声谱时，就可以评估观众的年龄、性别和关系。

评估观众年龄和性别的第一分析是对语音信号的声谱分析。已知语音的声谱分析依赖于观众的年龄和性别。根据语音信号的统计特性，了解男性和女性的语音所具有的特征。图1表明男性在100Hz左右的低频带中声压级别是高于女性的。图2和图3分别表示男性和女性的基频在125Hz和250Hz左右，所述基频即具有高发速率的频率。因此，显然女性的基频大约为男性的两倍。定义语音声学特性的物理因素包括发音区的共鸣特性和来自鼻腔的声波的发散特性。语音的声谱包含多个按照发音区的共鸣的顶峰，也就是共振峰。例如，如图4所示，元音的共振峰区域和辅音的共振峰的区域差不多能得到。

根据语音的这些特性，当有两个人A和B在一个特定空间时，两个人的声谱分布的低区是不同的，可以评估男人的声谱在低范围的声压级别高于女性。

第二分析是谈话分析。例如语音信号可被转换为文本数据。用这些文本数据，可分析谈话内容。作为一个实际示例，作为模拟信号所获得的语音信号可被转换为数字信号。通过比较数字数据和预定模式，数字数据就被转换为文本数据。通过比较文本数据和预先注册的关键词，可分析观众的谈话。当观众的谈话包含如表示观众个人、性别和关系的关键词的词语时，根据关键词，可以评估观众的性别和关系。应该注意的是，谈话的分析方法不仅局限于本示例。相反，通过直接比较语音信号模式和预先注册的关键词的语音模式，也可以分析观众的谈话。

作为分析带有语音信号的观众谈话的软件，国际商用机器(IBM)公司的日语声音识别软件Via Voice已经投放市场。

接下来，将描述谈话的关键词分析的特定示例。当两个人A和B存在于一个特定空间时，如果人A说“爸爸，我们饿了，不是吗？”并且人B说：“亲爱的○○，我们很快会到达一个饭店，让我们在那吃些东西。”，这些谈话被检测，由于人A的谈话包含“爸爸”并且人B的谈话包含“亲爱的○○”，可以评估A和B的关系为孩子和父亲。当从第一分析中得到的如年龄和性别的分析结果与第二分析的分析结果相加时，可以更加精确地评估观众关系。

在第二分析中，不必要精确地检测谈话中的所有词语。而是检测预定关键词已经足够。使用包含可以评估个人和人事关系的词语和可以评估内容的词语的关键词。图5示出了关键词的种类和示例。在本例中，关键词被分为三种：个人识别关键词、关系识别关键词和内容评估关键词。

个人识别关键词是允许个人年龄和性别被评估的关键词。个人识别关键词例如为“boku”(英语意为“我”，日语中年轻男性使用)，“ore”(英语意为“我”，日语中年轻男性使用)，“watashi”(英语意为“我”，日语中成年男性以及年轻和成年女性使用)，“atashi”(英语意为“我”，日语中女性使用)，“washi”(英语意为“我”，日语中成年男性使用)，“o-tou-san”(英语意为“父亲”，日语中所有人使用)，“o-kaa-san”(英语意为“母亲”，日语中所有人使用)，“papa”(英语意为“父亲”，日语中男孩和女孩使用)，“mama”(英语意为“母亲”，日语中男孩和女孩使用)，“○○chan”(日语中与名字一起使用表示亲密)。借助这些关键词，个人的年龄和性别可以被评估。例如“boku”、“ore”、“watashi”、“atashi”、“washi”等等，是可以评估谈话者年龄和性别的关键词；“o-tou-san”、“o-kaa-san”、“papa”、“mama”、“○○chan”等等，是可以评估倾听者年龄和性别的关键词。

关系识别关键词是可以评估与倾听者关系的关键词。关系识别关键词例如为“XX san”(英语意为“先生、太太、小姐等”)，“ΔΔchan”(英语意为“亲爱的、...”)，“hajime-mashite”(英语意为“初次见面”)，“ogenki-deshita-ka”(英语意为“你好”)，“sukida-yo”(英语意为“我喜欢你”)，“aishite-ru”(英语意为“我爱你”)，等等。例如，“XX san”、“ΔΔchan”等关键词用于称呼倾听者；“hajime-mashite”、“ogenki-deshita-ka”等是问候关键词；“sukida-yo”、“aishite-ru””是讲话者向倾听者表达他/她的感情的关键词。借助这些关键词，可以评估讲话者和倾听者的关系。

内容评估关键词是用来评估提供的音频视频内容的关键词。内容评估关键词例如为“natsukashii-ne”(英语意为“怀旧的”)，“iikyokuda-ne”(英语意为“好歌”)，“mimigaitakunaru-yo”(英语意为“噪音”)，还有“wazurawashii-ne”(英语意为“麻烦”)。“natsukashii-ne”、“iikyokuda-ne”等是正面评估提供的音频视频内容的关键词；“mimigaitakunaru-yo”、“wazurawashii-ne”等是负面评估提供的音频视频内容的关键词。

另外，一个关键词可以被分为很多种类。例如，“sukida-yo”(英语意思为“我喜欢你”或“我喜欢它”)是一个属于关系识别关键词和内容识别关键词的关键词。

接下来，将描述音频视频内容的特征。表示音频视频内容的属性和表示适合观众的音频视频内容的属性与音频视频内容相关联，借助这些属性，音频视频内容可以根据评估结果进行选择。根据本发明的实施例，属性被分为表示表示音频视频内容的信息的第一属性和表示适合观众的第二属性。

第一属性是表示音频视频内容的信息。在第一属性中，心理上影响观众的条目与音频视频内容相关联。当音频视频内容为音乐时，心理上影响观众的条目被认为是持续时间、流派、节拍、节奏和心理评估条目。图6表示音乐音频视频内容的第一属性条目示例。持续时间表示歌曲的长度。流派表示包括古典、爵士、儿童歌曲、歌谣、蓝调音乐等的歌曲流派。节拍表示包括快、特快、特慢、慢、中等等的歌曲速度。节奏表示包括华尔兹、进行曲等等的音乐节奏。心理评估表示倾听该音频视频内容的倾听者的心情。心情包括放松、积极、情绪高等等。第一属性的条目不局限于这些示例。而是，音频视频内容也可以和艺术家的名字、词作者、曲作者等相关联。

第二属性条目是音频视频内容对于观众的适合性。表示对于观众适合性的第二属性条目，包括表示在例如年龄和性别方面的适合性的评估的第一特征，表示在例如空间和时间方面的适合性的评估的第二特征，和表示在例如年龄差异和关系方面的适合性的评估的第三特征。第二属性的第一至第三特征具有评估级别。图7A至图7C给出了表示观众适合性的第二属性的示例。在图7A至图7C中，级别A至级别D代表了适合性的评估级别。在图7A至图7C中，级别A代表最适合，级别B代表第二最适合，级别C代表第三最适合，和级别D代表最不适合。

图7中所示的第一特征代表观众在年龄和性别方面的适合性。观众被认为喜爱的不同的内容取决于他们的年龄和性别。在本例中，年龄被分类成为年龄组，相同年龄组的观众被认为具有相同喜好的音频视频内容。年龄组比方说是幼儿(6岁或以下)，7岁到10岁年龄组，11岁到59岁年龄组，及60岁或以上年龄组。性别被分类为男性和女性。根据这些条目，音频视频内容用级别来评价。例如，在图7A中，该音频视频内容对于7岁到10岁年龄组的女性观众和11岁到59岁年龄组的男性观众的适合性被分配为A级，代表最适合。相反，该音频视频内容对于男性幼儿的适合性被分配为D级，即最低的适合性。

这些年龄组只是例子。年龄优选被分组以便它们能依照例如温度分布模式来决定。由于幼儿喜爱的音频视频内容不会根据性别不同而不同，幼儿在性别方面的分类可以被忽略。另外，年龄可以在性别方面被分类。

图7B中所示的第二特征代表观众在时间区域和地点方面的适合性。适合于上午的音频视频内容被认为与适合于晚上的不同。另外，适合于在卧室观看的观众的音频视频内容被认为与适合于在起居室观看的观众的音频视频内容不同，因为这些房间的目的是不同的。在本例中，时间区域被分类为上午，下午和晚上。地点取决于这些房间的作用可分类为餐厅，起居室和会议室。音频视频内容在这些条目方面的适合性用级别来评估。例如，在图7B中，观众上午或下午在会议室观看的音频视频内容的适合性被分配为A级，也就是最适合的。观众晚上在餐馆观看的该音频视频内容的适合性被分配为D级，也就是最不适合的。第二特征的分类不仅限于此。相反，时间区域可以进行细微地分类，象13到15的时间区域，15到17的时间区域等等。地点可以按照除了这些示例的其他示例来分类。

图7C中所示的第三特征是多个观众在其关系方面的适合性。认为适合于相互之间熟悉的观众的音频视频内容与适合于相互之间不熟悉的观众的音频视频内容不同。当观众之间的关系是父母与子女时，认为他们之间的亲密度是高的。当很多人参加会议时，认为他们的亲密度是低的。在这种情形下，认为适合于参加会议的观众的音频视频内容是不同的。即使观众的亲密度是高的，认为当他们是父母与子女，情侣，或已婚夫妇时，适合于观众的音频视频内容是不同的。当男女观众同时存在时，认为适合于他们的音频视频内容是取决他们的年龄差异而不同的。在这个示例中，观众的关系被分类为父母与子女，已婚夫妇，情侣，熟人和会议参加者。另外，男女观众的年龄差异根据男性比女性年长男性与女性年龄相似，还是男性比女性年轻进行分类。

在观众关系和男女观众年龄差异方面的音频视频内容适合性用级别来评估。在图7C中，对于父亲与子女，相同年龄的已婚夫妇或者相同年龄的情侣的该音频视频内容适合性被分配为A级，即最高的适合性。对于一个男人和一个比该男人年轻的女人的两个熟人及会议参加者的该音频视频内容适合性被分配为D级，即最低的适合性。在本例中，对于一男一女两观众一个是父母一个是子女且他们的年龄相同的该音频视频内容适合性不作定义。

应该注意，第三特征的分类不仅限于这些示例。相反，第三特征的分类可以根据如友谊，合作，平静、面对等等进行细分。

接下来，将描述根据第一属性和第二属性来选择音频视频内容的方法。当音频视频内容依照分配给第二属性的第一至第三特征的适合性级别进行过滤时，音频视频内容可以从多个音频视频内容中进行缩减。

在本例中，由于观众关系被加权，音频视频内容按照第二属性中第三特征、第二特征和第一特征的顺序进行过滤。在本例中，音频视频内容根据作为分配的阈值的评估等级来选择。阈值的分配要使其第一特征、第二特征和第三特征分别被评估为等级A或更高、等级C或更高和等级B或更高的音频视频内容被选择。

首先，选择其第三特征被评估为等级B或更高的音频视频内容。然后，从已经根据第三特征过滤出的音频视频内容中，选择其第二特征被评估为等级C或更高的音频视频内容。最后，从已经根据第二和第三特征中过滤出的音频视频内容中，选择其第一特征被评估为等级A或更高的音频视频内容。在这种方式下，音频视频内容根据第一至第三特征进行过滤。由于音频视频内容已经被过滤，就可以选择适合于地点的音频视频内容。

音频视频内容的过滤顺序不仅限于此示例。相反，根据加权的特征，音频视频内容的过滤顺序可以被改变。例如，当加权观众的年龄和性别时，音频视频内容根据第一特征来过滤。

当对于多个观众的音频视频内容适合性需要进行考虑时，占据他们中多数的组可以被用来作为选择标准。例如，依照占据多数观众的年龄组，可以选择音频视频内容。当仅有一个观众时，音频视频内容仅仅根据第一和第二特征而不是第三特征来过滤。结果，适合于该观众的音频视频内容根据第一和第二特征进行选择。

选择音频视频内容的方法不仅限于本例。相反，通过加权音频视频内容的特征而不是第一至第三特征的评估等级，可以获得一个评估函数。使用获得的评估函数，可以选择效果最大的音频视频内容。

下一步，参考图8，将描述根据本发明的第一具体实施方式的音频视频内容提供系统。为了根据温度分布信息和语音信息来评估目标空间1中观众的位置和数量，一个温度分布测量单元和一个语音信息获得单元设置在该空间中。

在目标空间1中，放置一个热像仪2作为温度分布测量单元。热像仪2的输出提供给温度分布分析单元4。由于热像仪2接收红外线，将红外线转换为视频信号，并输出该视频信号。温度分布分析单元4分析由热像仪2输出的视频信号。结果，温度分布分析单元4可以测量该空间的温度分布。至少一个热像仪2被安放在整个空间的温度分布可以进行测量的地方。优选是安放多个热像仪2以便该空间的温度分布可以被精确地测量。

温度分布分析单元4根据热像议2提供的视频信号来分析该空间的温度分布，并获得温度分布模式信息30。可以认为经过红外线强烈暴露的部分的温度是高的，经过红外线很弱暴露的部分的温度是低的。经过分析的温度分布模式信息30提供给观众位置评估单元6和观众评估单元7。

一个麦克风3从目标空间1获得语音并将语言转换为语音信号。至少安放2个麦克风3以便获得立体声。从麦克风3输出的语音信号提供给语音分析单元5。语间分析单元5将声源定位，根据被定位的声源分析声谱、谈话等，并获得语音分析数据31。获得的语音分析数据31提供给观众位置评估单元6，观众评估单元7，和关系评估单元8。

观众位置评估单元6根据由温度分布分析单元4提供的温度分布模式信息30和由语音分析单元5提供的语音分析数据31来评估观众的位置和数量。例如，处于目标空间1的观众的位置可以根据温度分布模式信息30的温度分布模式和语音定位信息来评估。另外，根据语音声谱分布，处于目标空间1中的观众数量可以被评估。评估观众数量和位置的方法不仅限于这些示例。通过观众位置评估单元6获得的观众位置/数量信息32提供给观众评估单元7。

关键词数据库12包含个人识别关键词，关系识别关键词，内容评估关键词等，如图5所示。通过将包含于关键词数据库12中的关键词与观众的谈话进行比较，可以评估观众的年龄，性别，关系，并评估所提供的音频视频内容。

观众评估单元7根据温度分布分析单元4提供的温度分布模式信息30，语音分析单元5提供的语音分析数据31，观众位置评估单元6提供的观众位置/数量信息32来评估处于目标空间1的观众的年龄和性别。如上所述，观众的年龄和性别可以根据温度分布模式信息30来评估。另外，观众的性别可以根据声谱分布来评估。此外，通过比较依照语音分析数据31的观众谈话和包含于关键词数据库12的个人识别关键词，可以评估观众的年龄和性别。通过观众评估单元7获得的年龄/性别信息33提供给关系评估单元8和内容选择单元9。

关系评估单元8根据语音分析单元5提供的语音分析数据31和观众评估单元7提供的年龄/性别信息33来评估观众的关系。例如，通过比较依照语音分析数据31的观众谈话和包含于关键词数据库12的关系识别关键词，观众的关系可以被评估。通过关系评估单元8获得的关系信息34提供给内容选择单元9。

接下来，参考图9，将描述评估观众位置，数量，年龄，性别和关系的方法的示例。假设人A、人B和人C在一个特殊的空间中相互交谈比方说“爸爸，我饿了(人A)”，“我们将在下一个自助食品商店停下。稍等片刻(人B)”，和“亲爱的，别着急。请安全驾驶(人C)”。图9A中所示谈话的下划线部分代表包含于对话中的关键词。

根据热像仪2捕获的作为视频信号的温度分布模式信息30，可以识别处于目标空间1的观众的位置和数量。通过分析观众的温度分布模式，观众的年龄和性别可以被评估。在本例中，根据温度分布模式，如图9B所示，可以分析处于空间中的三个观众，人A、人B和人C。人A、人B和人C的位置可以分别分析为(X₁，Y₁，Z₁)，(X₂，Y₂，Z₂)和(X₃，Y₃，Z₃)。另外，根据观众的温度分布模式，可分析观众的体温，并且分析结果表明人A的体温最高，人C的体温最低，人B的体温位于人A和人C的体温之间。因此，可以评估出人A是一个幼儿，人B是一个成年男性，人C是一个成年女性。

根据由麦克风3输出的语音信号得到的语音分析数据31，可以定位处于目标空间1的声源。根据定位的声源，通过分析声源的声谱分布，声级等，作为声源的人的年龄和性别可以被评估出来。此外，通过分析人的对话，可以评估人的关系。在本例中，如图9C所示，根据语音分析数据31，可以分析出处于空间中的三个人，即人A、人B、人C，并分析出其各自的坐标为(X₁，Y₁，Z₁)，(X₂，Y₂，Z₂)和(X₃，Y₃，Z₃)。在年龄和性别方面，根据声谱分布，可以评估出人A是一个幼儿或女性，人B是一个成年男性，人C是一个成年女性。人A的谈话中包含关键词“爸爸”。这个关键词代表人A是一个父亲。同样地，人C的谈话中包含关键词“亲爱的”。这个关键词代表已婚夫妇存在在目标空间1中，并且人C是这对夫妇中的妻子。

基于温度分布模式信息30的评估结果与基于语音分析数据31的评估结果进行比较。因此，如图9D所示，人A、人B和人C的位置被识别成各自的坐标(X₁，Y₁，Z₁)，(X₂，Y₂，Z₂)和(X₃，Y₃，Z₃)。在人的年龄，性别和关系方面，可以评估出人A是一个幼儿，人B是人A的父亲，人B和人C是夫妇，人C是人B的妻子。评估结果同样表明人C可能是人A的母亲。

在图9所示的示例中，根据从人C谈话中检测到的关键词“别着急”，可以评估出人C想要让人B平静。在这种情形下，优选是提供一个使人B平静的音频视频内容。

回到图8，音频视频内容数据库11由记录媒体比如硬盘构成。音频视频内容数据库11包括多组属性索引10和音频视频内容。一个属性索引10至少包含第一属性和第二属性。属性索引10根据预定识别信息与音频视频内容成1到1关系地相关，并包含于音频视频内容数据库11中。

内容选择单元9根据观众评估单元7提供的年龄/性别信息33和关系评估单元8提供的关系信息34过滤包含于音频视频内容数据库11中的音频视频内容，并且根据属性索引10从音频视频内容中选择出适合于目标空间1的音频视频内容。被选音频视频内容的列表被创建为一个音频视频内容列表。根据音频视频内容列表，音频视频内容从音频视频内容数据库11中进行选择。音频视频内容可以从音频视频内容列表中进行随机地选择。相反，音频视频内容也可以音频视频内容列表的预定顺序进行选择。

选择出的音频视频内容提供给音质/音级控制单元13。音质/音级控制单元13控制每个音频视频内容的音质和音级，并且将被控制的音频视频内容提供给输出设备14。当音频视频内容是音乐时，输出设备14是一个扬声器。输出设备14输出由音质/音级控制单元13提供的作为声音的音频视频内容。

在音频视频内容被提供后，优选是温度分布信息和语音信息可以从观众那里持续地获得，可评估音频视频内容，并且评估观众的变化。在音频视频内容被提供的同时，当一个观众讲话，并且一个关于音频视频内容的内容评估关键词从谈话中被检测到时，一个音频视频内容可以根据评估关键词而进行选择。换句话说，当内容评估关键词是从谈话中进行检测时，音频视频内容经过过滤，并根据属性索引10中的第一属性的评估关键词重新选择。

当被检测到的内容评估关键词的评估级别较高时，就确定所提供的音频视频内容适合该空间。与被提供的音频视频内容相似的音频视频内容就根据比如属性索引10中的第一属性进行选择。相反，被检测到的内容评估关键词的评估级别较低时，就确定所提供的音频视频内容不适合该空间。根据第一属性选择音频视频内容。结果，就提供另一个适合该位置的音频视频内容。

在音频视频内容被提供的同时，观众的状态改变时，观众就根据他们的关系进行重新评估，并且音频视频内容被再次选择。例如，当轿车中的幼儿停止讲话或者他或她的体温下降时，可以评估该幼儿正在睡眠。在这种情形下，音频视频内容仅为醒着的观众来选择。

在前述的音频视频内容提供方法中，创建一个音频视频内容列表，并且音频视频内容根据该音频视频内容列表来提供。然而，该音频视频内容提供方法不仅限于本例。相反，音频视频内容可以根据第二属性来过滤。在这种情形下，仅有一个音频视频内容被选择和提供。此后，下一个音频视频内容根据温度分布信息和持续获得的语音信息来选择。通过重复该操作，可一直提供最佳的音频视频内容。

因为没有正确地获得目标空间1中的温度分布信息和语音信息，处于目标空间1中的观众的年龄，性别，和关系可能不会被正确地确定。在这种情形下，音频视频内容可能仅仅根据获得的信息来选择。在必需的信息获得之后，可以选择音频视频内容。由于音频视频内容仅仅根据已知的信息来选择，所以音频视频内容可以在不中止的情况下被持续地提供。

下一步，参考如图10所示的流程图，将描述依照本发明第一具体实施方式的音频视频内容提供方法。在本例中，假设温度分布信息和语音信息是持续获得的。另外，假设如图10所示的流程图中的过程是重复循环的。例如，如图10所示的流程图中的过程以一个预定时间周期的间隔，比如每几秒一次被重复执行。

在步骤S10中，目标空间1通过热像仪2和麦克风3来测量。根据测量结果，温度分布分析单元4和语音分析单元5分别获得温度分布模式信息30和语音分析数据31。在步骤S11中，观众位置评估单元6根据在步骤S10中获得的温度分布模式信息30和语音分析数据31来评估观众的位置和数量。在步骤S12中，观众评估单元7根据在步骤S10中获得的温度分布模式信息30和语音分析数据31和在步骤S11中获得的观众位置/数量信息32来评估观众的年龄和性别。在步骤S13中，关系评估单元8根据在步骤S10中获得的语音分析数据31和在步骤S12中获得的年龄/性别信息33来评估观众的关系。

在步骤S14中，将在当前过程循环中由步骤S10到步骤S13中获得的信息与预定时间周期以前，也就是该过程上一个循环中获得的信息进行比较，从而确定处于目标空间1中的观众状态是否已经改变。能够确定比如处于目标空间1中的观众的数量，年龄范围和关系是否已经改变。对于时间信息，也可以确定时间是否已经改变。当确定结果表明观众的关系已经改变时，流程进入到步骤S15。当没有预定时间周期以前的信息时，假设观众状态在本过程的第一循环已经改变。此后，流程进入到步骤S15。

在步骤S15中，根据在本过程的循环中的步骤S10到步骤S13中获得的观众性别和关系的评估结果以及属性索引10，内容选择单元9过滤音频视频内容。在步骤S16中，根据过滤结果，一个音频视频内容列表参考音频视频内容数据库11进行创建。

在步骤S17中，音频视频内容随机地或者根据创建于步骤S16中的音频视频内容列表的预定顺序来选择。被选择的音频视频内容从音频视频内容数据库11输出，并通过音质/音级控制单元13提供给目标空间1。在提供音频视频内容后，流程回到步骤S10。

当步骤S14中所确定的结果表明观众的关系没有改变时，流程进入步骤S17。根据创建于本过程上一循环的音频视频内容列表，选择音频视频内容。

下一步，将描述本发明第一具体实施方式的修改。如图8中的虚线所示，一个情感评估单元15依照本发明第一具体实施方式设置在音频视频内容提供系统中。在一个音频视频内容被提供后，情感评估单元15评估观众情感的改变。根据所评估的信息，确定所提供的音频视频内容是否是最佳的。在下面，将省略与本发明第一具体实施方式一样的描述。

观众情感的改变可以根据提供的音频视频内容的温度分布模式信息30和语音分析数据31来评估。已知的是：当一个人饥饿或者困乏，并且他或她的情感改变时，他们身体的温度分布信息会改变，当他或她的心理不舒服或者有压力时，体温会下降。日本专利公开号2002-267241描述了当头部和耳朵的温度均较高时，他或她被认为是生气或者被激怒了。因此，通过比较一个观众在音频视频内容提供之前和之后的温度分布模式，并且分析他或她的体温分布改变，可以评估他或她的情感已经改变。

在语音方面，已知的是：当一个观众的情感变化时，其声谱分布也有微小变化。因此，通过比较一个观众在音频视频内容提供之前和之后的声谱分布并且分析声谱分布改变，可以评估他或她的情感已变化。当分析声谱分布时，如果检测到高频谱成分增加，可以评估观众的声音是高音，从而他或她是兴奋的。当检测到低频谱成分增加时，由于音调的降低，可以评估观众的情感是平静的。相反，通过检测观众谈话中音级的改变，可以评估他或她的情感改变了。

情感变化评估方法不仅限于该示例。相反，观众情感的变化可以根据观众的谈话来评估。当情感关键词比如“有意思”，“感到紧张”，“疲劳”，“失望”，等包含于关键词数据库12中，并且一个情感关键词从观众的谈话中被检测到时，就可以评估情感的变化。

从温度分布分析单元4输出的温度分布模式信息30以及从语音分析单元5输出的语音分析数据31提供给情感评估单元15。情感评估单元15根据温度分布模式信息30和语音分析数据31来评估观众情感中的改变。

情感评估单元15通过下面的方式来评估观众情感中的改变。情感评估单元15存储温度分布模式信息30和语音分析数据31一个预定的时间周期，将存储的温度分布模式信息30与温度分布分析单元4提供的温度分布模式信息30进行比较，并且将存储的语音分析数据31与语音分析单元5提供的语音分析数据31进行比较。根据比较结果，可以确定情感是否变化。当比较结果表明情感已经改变或者推想已经改变，可以评估改变了的情感。情感评估单元15的评估结果作为情感信息35提供给内容选择单元9。

内容选择单元9根据情感信息35和属性索引10中第一属性的心理评估条目来选择音频视频内容。换句话说，音频视频内容同时根据第一属性中的心理评估条目和第二属性来过滤和选择。例如，当确定结果表明观众比在依照比方说情感信息35检测到前一个情感变化之前更兴奋时，其属性索引10的第一属性的心理评估条目是放松的音频视频内容将被选择和提供。相反，其第一属性中的节拍条目是慢节拍从而能使兴奋的观众平静的音频视频内容可被选择。

下一步，参考图11，将描述本发明的第二具体实施方式。根据第二具体实施方式，表示观众的信息通过预定的输入单元来输入。根据输入信息，选择适合于该位置的音频视频内容。在本例中，使用一个集成电路(IC)标签20，作为表示观众的信息的输入单元。IC标签20是一个具有非易失性存储器的无线IC芯片，它使用无线电波传输和接收信息，并且将传输来的信息写入非易失性存储器并从非易失性存储器读取接收来的信息。在图11中，与图8中所示相同的单元使用相同的参考标号来标示，同时对它们的描述将被省略。

在以下的描述中，操作“由IC标签建立通信和信息被写入IC标签的非易失性存储器”被描述为“信息被写入IC标签”。操作“由IC标签建立通信和从IC标签的非易失性存储器读取信息”被描述为“从IC标签读取信息”。

根据本发明的第二实施方式，利用预存了个人信息的IC标签20，观众的年龄和性别可以根据存储在IC标签20中的个人信息来识别。另外，观众的关系可以被评估。在本例中，假设IC标签20被置于蜂窝移动电话终端21内。

如图12所示，个人信息比如观众的名字，生日，和性别被预存入IC标签20中。个人信息可能包含其它类型的信息。例如，表示观众喜爱的音频视频内容的信息就可能被预存入IC标签20中。

如图11所示，与IC标签20通信的IC标签读取器22被置于目标空间1中。当IC标签20接近IC标签读取器22一个预定的距离时，它能自动与IC标签20进行通信，从IC标签20读信息，并且向IC标签20写入信息。当观众将IC标签20接近置于目标空间1中的IC标签读取器22时，IC标签读取器22从IC标签20中读取个人信息。读入IC标签读取器22的个人信息提供给观众评估单元7’和关系评估单元8’。

观众评估单元7’根据提供的个人信息来识别观众的年龄和性别。识别出的年龄/性别信息33提供给内容选择单元9。关系评估单元8’根据提供的个人信息来评估观众的关系。观众的关系可被评估的方式要使当观众具有相同的姓和他们的年龄差异很大时，他们的关系可能是父母与子女。此外，观众的构成也可以被用来评估观众的关系。当一个男性和一个女性处于目标空间1中，并且他们的年龄差异很小时，可以将他们评估为一对已婚夫妻或情侣。当很多男性和女性处于目标空间1中，并且他们的年龄差异很小时，可以评估出他们之间彼此熟识。当很多男性和女性处于目标空间1中，并且他们的年龄差异很大时，可以评估他们是一个家庭。由关系评估单元8’评估出的关系信息34提供给内容选择单元9。

内容选择单元9根据将观众年龄、性别和关系表示为属性索引10的信息来过滤音频视频内容，参考音频视频内容数据库11选择音频视频内容，并且提供最适合该空间的音频视频内容。

在前面的示例中，IC标签20被用来作为个人信息输入单元。然而，个人信息输入单元不仅限于该示例。相反，个人信息输入单元可能是蜂窝移动电话终端21。与蜂窝电话终端21进行通信的通信单元可设置在音频视频内容提供系统中。音频视频内容提供系统可以从蜂窝移动电话终端21中获得个人信息，并且向观众评估单元7’和关系评估单元8’提供个人信息。在前面的示例中，使用了具有IC标签20的蜂窝电话终端21。相反，可以使用IC标签或具有IC标签20的类似物。

根据第一实施方式，第一实施方式，和第二实施方式的修改，音频视频内容提供系统提供的音频视频内容是音乐。相反，该音频视频内容可以是图片。

当一个音频视频内容是图片时，可以认为属性索引10中第一属性中的条目例如可以是持续时间，图片类型，流派，心理评估等等。持续时间表示图片的长度。图片类型表示图片的种类比如电影，戏剧，短片的音乐片段集比方说音乐宣传视频，计算机图形，图象图片等等。流派表示图片类型的细分类型。当图片类型是电影时，它可被细分为恐怖片，喜剧片，动作片等等。心理评估表示被认为是比如放松，精力充沛，高度易感动等等的情绪。第一属性中的条目不仅限于这些示例。相反，表演者等条目也可以被添加。当一个音频视频内容是图片时，输出设备14可以是监视器等。

如上所述，音频视频内容和属性索引10包含于相同的音频视频内容数据库11中。相反，属性索引10可以被记录在一个记录媒体比如压缩光盘-只读存储器(CD-ROM)或者数字多功能盘-只读存储器中，该记录媒体与其上存储音频视频内容数据库11的记录媒体不同。在这一点上，依照预定的识别信息，包含于音频视频内容数据库11的音频视频内容与存储在CD-ROM或DVD-ROM上的属性索引10相关。音频视频内容依照记录在CD-ROM或DVD-ROM上的属性索引10来选择。所选择的音频视频内容提供给观众。对于与属性索引10不相关的音频视频内容，观众可以直接创建属性索引10。

如上所述，音频视频内容数据库11提供在观众方。相反，内容选择单元9和音频视频内容数据库11可以通过网络在系统的外部进行提供。在这种情形下，音频视频内容提供系统通过网络来向外部内容选择单元9传输年龄/性别信息33和关系信息34。外部内容选择单元9根据接收到的信息和属性索引10来过滤音频视频内容，并且从音频视频内容数据库11中选择合适的音频视频内容。所选择的音频视频内容通过网络提供给观众。

存储于外部音频视频内容数据库11中的属性索引10可以通过网络下载。内容选择单元9根据下载的属性索引10创建音频视频内容列表，并且通过网络向外部音频视频内容数据库11传输音频视频内容列表。外部音频视频内容数据库11根据接收到的列表选择音频视频内容，并且通过网络向观众提供音频视频内容。或者，观众方可以具有音频视频内容。属性索引10可以通过网络来下载。

本领域技术人员应该明白：根据设计需要和其它因素可以作出各种修改，组合，子组合和替换，只要它们落在所附权利要求保护范围或其等效范围内。

Claims

1.一种给处于封闭空间的观众提供音频视频内容的音频/视频(AV)内容提供系统，包括：

用于获得表示处于该封闭空间的观众的信息和表示观众之间关系的信息的观众信息获得装置；

包含一个或多个音频视频内容的音频视频内容数据库；

与音频视频内容数据库中包含的音频视频内容相关联、并描述了音频视频内容的属性的属性索引；和

选择装置，用来比较表示观众的信息，表示观众之间关系的信息，和属性索引，并且根据比较结果从音频视频内容数据库中选择出提供给观众的音频视频内容。

2.如权利要求1所述的音频视频内容提供系统，

其中观众信息获得装置包括：

从封闭空间获得语音信息的话音信息获得装置；和

第一观众信息获得装置，该装置用于根据语音信息获得装置获得的语音信息来获得表示处于封闭空间的观众的数量的观众数量信息及表示观众位置的观众位置信息。

3.如权利要求2所述的音频视频内容提供系统，

其中观众信息获得装置还包括：

第二观众信息获得装置，用于根据第一观众信息获得装置获得的观众数量信息和观众位置信息、及语音信息获得装置获得的语音信息，来分析处于封闭空间的观众的谈话，获得所分析的谈话的谈话信息，根据该谈话信息评估观众的年龄和性别，和获得表示观众年龄的年龄信息及表示观众性别的性别信息。

4.如权利要求2所述的音频视频内容提供系统，

其中观众信息获得装置还包括：

观众关系评估装置，用于根据通过第一观众信息获得装置获得的观众数量信息和观众位置信息以及通过语音信息获得装置获得的语音信息来分析处于封闭空间的观众的谈话，获得所分析的谈话的谈话信息，根据谈话信息来评估观众的关系，并且获得表示观众之间关系的关系信息。

5.如权利要求1所述的音频视频内容提供系统，

其中观众信息获得装置还包括：

温度分布信息获得装置，用于获得封闭空间的温度分布信息；和

第一观众信息获得装置，用于根据温度分布信息获得装置获得的温度分布信息来获得表示处于封闭空间的观众数量的观众的数量信息及表示观众位置的观众位置信息。

6.如权利要求5所述的音频视频内容提供系统，

其中观众信息获得装置还包括：

第二观众信息获得装置，用于根据第一观众信息获得装置获得的观众数量信息和观众位置信息及温度分布信息获得装置获得的温度分布信息来评估观众的年龄和性别，并且获得表示观众年龄的年龄信息和表示观众性别的性别信息。

7.如权利要求1所述的音频视频内容提供系统，

其中观众信息获得装置包括：

语音信息获得装置，用于从封闭空间获得语音信息；

温度分布信息获得装置，用于从封闭空间获得温度分布信息；和

第一观众信息获得装置，用于根据语音信息获得装置获得的语音信息及温度分布信息获得装置获得的温度分布信息来获得表示处于封闭空间的观众的数量的观众的数量信息及表示观众位置的观众位置信息。

8.如权利要求7所述的音频视频内容提供系统，

其中观众信息获得装置还包括：

第二观众信息获得装置，用于根据第一观众信息获得装置获得的观众数量信息和观众位置信息，及语音信息获得装置获得的语音信息来分析处于封闭空间的观众的谈话，获得所分析的谈话的谈话信息，根据该谈话信息评估观众的年龄和性别，和获得表示观众年龄的年龄信息及表示观众性别的性别信息；和

观众关系评估装置，用于根据第一观众信息获得装置获得的观众数量信息和观众位置信息以及语音信息获得装置获得的语音信息来分析处于封闭空间的观众的谈话，获得所分析的谈话的谈话信息，根据谈话信息来评估观众的关系，并且获得表示观众关系的关系信息。

9.如权利要求1所述的音频视频内容提供系统，

其中观众信息获得装置包括：

输入装置，用于至少输入表示观众的信息；和

观众关系评估装置，用于根据输入装置输入的表示观众的信息来评估表示观众关系的关系信息。

10.如权利要求9所述的音频视频内容提供系统，

其中输入装置接收从系统外部传入的表示观众的信息，并且将表示观众的信息输入给系统。

11.如权利要求10所述的音频视频内容提供系统，

其中输入装置接收表示观众的信息，该信息从IC标签传入。

12.如权利要求10所述的音频视频内容提供系统，

其中输入装置接收表示观众的信息，该信息从便携式终端传入。

13.如权利要求1所述的音频视频内容提供系统，

其中属性索引包括：

由音频视频内容属性构成的第一属性；和

由音频视频内容对于观众的适合性构成的第二属性。

14.如权利要求13所述的音频视频内容提供系统，

其中第一属性包括音频视频内容的心理评估。

15.如权利要求13所述的音频视频内容提供系统，

其中第二属性包括音频视频内容对于观众年龄的适合性。

16.如权利要求13所述的音频视频内容提供系统，

其中第二属性包括音频视频内容对于观众性别的适合性。

17.如权利要求13所述的音频视频内容提供系统，

其中第二属性包括音频视频内容对于封闭空间类型的适合性。

18.如权利要求13所述的音频视频内容提供系统，

其中第二属性包括音频视频内容对于时间区域的适合性。

19.如权利要求13所述的音频视频内容提供系统，

其中第二属性包括音频视频内容对于观众关系的适合性。

20.如权利要求13所述的音频视频内容提供系统，

其中第二属性包括音频视频内容对于观众年龄差异的适合性。

21.如权利要求1所述的音频视频内容提供系统，

其中音频视频内容数据库设置在通过通信装置可进行通信的外部单元中，音频视频内容通过该通信装置来提供。

22.如权利要求1所述的音频视频内容提供系统，

其中属性索引设置在通过通信装置可进行通信的外部单元中，属性索引通过该通信装置来提供。

23.如权利要求1所述的音频视频内容提供系统，

其中属性索引通过可拆卸的记录媒体来提供。

24.如权利要求1所述的音频视频内容提供系统，

其中音频视频内容数据库、属性索引、和选择装置设置在通过通信装置可进行通信的外部单元中，表示观众年龄和性别的信息及表示观众关系的信息通过观众信息获得装置来获得，并通过通信装置传输给选择装置，选择装置根据表示观众年龄和性别的信息及表示观众关系的信息选择的音频视频内容通过通信装置来提供。

25.一种给处于封闭空间的观众提供音频视频内容的音频/视频(AV)内容提供方法，包括以下步骤：

获得表示处于封闭空间的观众的信息和表示观众关系的信息；和

比较表示观众的信息，表示观众关系的信息，和与包含在包括一个或多个音频视频内容的音频视频内容数据库中的音频视频内容相关并描述音频视频内容属性的属性索引，并根据比较结果从音频视频内容数据库中选择提供给观众的音频视频内容。