CN1848106B

CN1848106B - 信息提供方法及信息提供装置

Info

Publication number: CN1848106B
Application number: CN2006100024251A
Authority: CN
Inventors: 大渊康成; 佐藤信夫; 伊达哲
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-04-05
Filing date: 2006-01-27
Publication date: 2011-03-23
Anticipated expiration: 2026-01-27
Also published as: JP4736511B2; US20060224438A1; JP2006285115A; CN1848106A

Abstract

本发明提供一种信息提供装置和信息提供方法。在主要面向一般公众或个人、利用图像提供信息时，希望检测位于可看见该图像的场所的用户是否注视该图像。另外，通过了解用户的兴趣或属性，希望进行高效率的信息提供。比较由声音输入部取得的声音数据、当前提供的图像数据以及附加在图像数据上的信息，根据其相似程度来推断对象的注视程度。另外，通过语言识别装置来推断对象所使用的语言，并使用该语言来进行信息提供。

Description

信息提供方法及信息提供装置

技术领域

本发明涉及一种在公共及个人空间中，主要利用画像来提供与用户的爱好相符的信息的方法及装置，及提供广告等一般性信息的方法及装置。

背景技术

在车站、机场、百货公司、博物馆或游乐园等公共空间中，在进行利用图像信息的信息提供时，一般的方法是与用户的意图无关地单方连续地播送信息，或用户通过按钮操作等明示的方式选择自己希望的信息。但是，也存在自动地取得用户的关心或属性等，并尝试与之对应地改变所提供的信息的方法。例如，在专利文献1(特开2004-280673号公报)中，示出了利用摄像机来拍摄用户，通过检测其视线来推断兴趣的程度。

专利文献1：特开2004-280673号公报

非专利文献1：Bregman，“Auditory Scene Analysis：PerceptualOrganization of Sound”(MIT Press，1994，ISBNO-262-52195-4)

非专利文献2：上田等，“IMPACT：An InteractiveNatural-Motion-Picture Dedicated Mutimedia AuthoringSystem”(CHI91，ACM，PP.343-350，1991)

非专利文献3：小林等，“基于多个麦克风自由配置的多个说话人位置推断”(电子信息通信学会论文杂志A，Vol.J82-A，No.2，pp.193-200.1999)

非专利文献4：Zissman，“Comparison of four approaches toautomatic language identification of telephone speech”(IEEETransactions on Speech and Audio Processing，Vol.4，No.1，pp.31-44，1996)

发明内容

在利用图像主要面向一般公众或个人提供信息时，如果能够检测出位于可看见该图像的场所的用户是否注视该图像，则通过提供与此时所显示的项目相关的更详细的信息，可提高用户的便利性。另外，通过了解用户的爱好，也可在信息提供者的产品经营过程中有所反映。现在使用的是通过在信息提供装置上安装按钮等选择装置以接受用户的主动选择的方法，但是，这对没有特意去按按钮这样的强烈意向的用户并不起作用。另外，未注意到通过按按钮就可操作的用户也很多。因此，如果可自动检测用户是否注视图像，并对应于该结果来自动改变显示的图像，则可应对更广泛的用户爱好。

比较由声音输入部取得的声音数据、和当前提供的图像数据及附加在图像数据上的信息，根据其相似程度来推断对象的注视程度。通过检测声音数据和图像数据各自的情景的断缝一致、声音的频率图案相似、在声音中检测表示包含在图像中的内容的关键字等现象，可推断注视程度。另外，通过利用语言识别装置推断出对象使用的语言，并使用该语言进行信息提供等，提供与根据声音数据得到的信息最适应的图像信息，来进行易传递给用户的信息提供。

根据本发明，可向更多的用户提供他们所关心的信息。另外，由于可更详细地了解用户的爱好，所以可收集到销售计划等更接近于用户爱好的信息。

附图说明

图1是表示用于执行本发明的各种方法的系统的一实例图。

图2是表示声音输入部的实现方式的一实例的模式图。

图3是表示分析声音与图像的相关的方法的一实例图。

图4是表示基于查找关键字(ワ-ドスポツト)的相关分析的一实例图。

图5是表示基于情景分割的相关分析的一实例图。

图6是表示基于频率分析的相位分析的一实例图。

图7是表示相关判定的方法之一实例的流程图。

图8是表示相关判定的方法的另一实例的流程图。

图9是表示分析对象的属性的方法的一实例图。

图10是表示本发明的信息提供方式的一实例的模式图。

图11是表示声音、图像相关分析错误时的对应一实例的流程图。

图12是表示对象属性分析错误时的对应一实例的流程图。

具体实施方式

实施例1

下面，用附图详细地说明本发明实施方式的一实例。

图1表示本发明的信息提供装置的结构。本装置是为了在街头等众多公众聚集的场所，主要利用图像提供索引或广告等信息而设置的。声音输入部102由麦克风和附属在其上的模数转换器等构成，来集在麦克风附近的人(下面称为用户)的声音，并将其变换为计算机等可处理的格式的数据。画像输入部104虽然在本发明的实施中不是必需的部件，但由摄像机及附属在其上的数据处理装置构成，摄取用户的样子作为静止图像或动态图像等的画像信息。将这样得到的数据发送到对象属性分析部106及声音·图像相关性分析部108。

在对象属性分析部中，推断用户的使用语言·性别·空间位置等属性。另一方面，在声音·图像相关性分析部中，将从声音输入部发送来的声音数据与从后述的图像输出部发送来的图像数据相比较，求出两者间的相关性。在具有从图像输入部发送来的信息时，按后述的方法，通过利用该信息来提高相关性推断的精度。在声音·图像相关性分析部作出两者间的相关性高的判断时，可推断为用户进行与输出图像内容相关联的谈话的可能性高，所以可视为用户关心当前的图像。相反，在相关性低时，未看见图像、或即使看见也不关心、进行无关谈话的可能性高。

将对象属性分析部及声音·图像相关性分析部中的分析结果发送到输出图像选择部114中。这里，根据前段的分析结果，确定下次应输出的图像。例如，在声音·图像相关性分析部中，在判定为图像与声音的相关性高时，认为用户对当前图像的内容有兴趣，所以提供更详细的关于该内容的信息。相反，在相关性低时，进行连续播送概要信息、或改变主题等操作。另外，在从对象属性分析部发送来的使用语言信息与在当前图像的字幕等中所使用的语言不同时，将字幕中使用的语言改变成用户的使用语言。根据这样得到的选择结果，在图像输出部116中生成下一图像并将其显示在显示器上。另外，将与所显示的数据相同的输出图像数据118发送到声音·图像相关性分析部中，以在下一动作中使用。

将对象属性分析部及声音·图像相关性分析部中的分析结果也同时发送到注视信息整理部110。这里，整理与看见了所放映的图像的用户的属性及注视程度有关的统计信息。将所得到的统计信息通过通信部112提供给图像的配送源，以用于将来的图像配送计划制定中。

通过由运算装置分别执行规定程序来实现对象属性分析、声音·图像相关性分析、注视信息整理、输出图像选择等处理。

图2是模式地描绘声音输入部102的实现方式的图。在存在大小比人还大的显示器的情况下，即便人站在该显示器的前面时，也要考虑各种站立位置。因此，通过在显示器的不同位置安装麦克风，能够调查出哪个麦克风的输入声音最强，从而可推断出站立位置。另外，在大显示器的情况下，由于还有从位于某种程度的距离以外的地方进行观看的用户，所以在远离的位置也设置麦克风，并将在此得到的信号发送到控制装置。在任一情况下，都可推断用户位于得到最强信号的麦克风附近，但在想知道更详细的位置时，使用从多个麦克风得到的信号，根据其相位差可推断出声源的方向，所以可使用3个或3个以上的麦克风，利用三角测量的原理来推断声源位置。

图3是说明声音·图像相关性分析部108的动作的原理图。将所输入的画像数据302发送到视线方向推断模块314中，用于判定用户是否位于面向显示器的方向。另外，还将所输入的画像数据302发送到情景分割模块318中。将所输入的声音数据304发送到查找关键字模块316、情景分割模块318及频率分析模块320中。

在查找关键字模块316中，核对附带在输出图像数据118中发送来的关键字信息308和声音数据，判定在声音数据中是否包含关键字。

在情景分割模块318中，根据振幅或波谱等信息对声音数据进行情景分割。作为最简单的方法，如果振幅为规定值或规定值以下的时间至少持续了规定时间，则判定为一个情景结束。为进行更高级的情景分割，可活用被称为听觉情景分析(Auditory Scene Analysis)的领域的研究成果。关于基于听觉情景分析的情景分割，在Bregman“Auditory Scene Analysis：Perceptual Organization of Sound”(MITPress，1994，ISBNO-262-52195-4)(非专利文献1)等中有所详述。

另一方面，对从图像输出部116发送来的输出图像数据118同样地进行情景分割。通常，由于预先花费了很大工夫来制作从图像输出部输出的图像，所以可同时附加各情景的断缝信息。这时，情景分割只要仅读出该信息就行。另外，在因某种理由事先没有进行情景分割时，还可自动地进行情景分割。作为自动进行情景分割视频等图像的方法，可使用在上田等的“IMPACT：An InteractiveNatural-Motion-Picture Dedicated Mutimedia AuthoringSystem”(CHI91，ACM，PP.343-350，1991)(非专利文献2)等文献中公开的方法。另外，在能够利用画像数据302时，可通过对该数据也适用同样的方法，来进行情景分割。

以这样得到的画像数据、声音数据、输出图像数据各自的情景分割结果为基础，由情景核对模块322来检查它们的核对关系。检查核对关系的方法的细节将在后面详细描述。将声音数据304发送到频率分析模块320中，在这里抽取出作为声音的各种参数。这里所谓的参数，例如是整个声音的功率、仅限定在特定频率频域的功率、基本频率等。另一方面，在输出图像数据中也预先附加了与之对应的数据时，在频率核对模块324中比较两者，推断相关性。将视线方向推断模块314、查找关键字模块316、情景核对模块322、频率核对模块324得到的结果发送到相关性判定模块326中，在这里综合各个结果而得出最终的判断。

图4是说明基于查找关键字模块316的相关性推断的细节图。为了实现该方法，对图像预先附加关键字。如图例中所示，在最先部分附加「冰箱」、下一部分附加「洗衣机」、最后部分附加「个人电脑」等关键字。关键字可如这样在每个细小的部分不同，也可对整个图像都相同。另外，关键字也不一定必须是一个。在执行时，使用该关键字，对对应区间的声音查找关键字。在图中用圆圈和×(バツ)标记表示其结果。对在声音中检测出关键字的部分用圆圈表示，在未检测出关键字时对整个区间用标记“×”表示。在本实例中，由于在最后部分检测出关键字「个人电脑」，所以这里判断为用户边看图像边说话的可能性高。

图5示出了在情景模块322中检查相关性的方法。比较画像数据和输出图像数据、或声音数据和输出图像数据的情景分割，只要在两者中找出对应的情景交界，检查在两者的时间轴上的位置错位多少即可，但这时，产生哪一方都未检测情景交界本身的状况。为了应对这样的状况，通过动态编程找出最适当的对应关系。在图中，用双层圆表示对应的情景交界的位置几乎相等的情况，用一层圆表示近的情况，用三角表示远的情况，用标记“×”表示没有对应的情景交界的情况。对这些情况分别提供适当的评价权重，通过针对全部的情景交界来相加运算这些值，可最终求出声音数据和图像数据的相关性的值。

图6示出了在频率核对模块324中检查相关性的方法。将通过频率分析得到的全功率、特定频域功率、基本频率等参数与预先附加在输出图像数据中的全功率期望值、特定频域功率期望值、基本频率期望值等数据相比较，求出相似程度。预先对全频域及各个频域设定权重基准，通过使用该权重基准来对各个相似程度相加运算，可最终求得声音数据和图像数据的相似程度。另外，为了对输出图像数据附加这些数据，只要通过某个部分仅收集可知边看输出图像数据边说话的声音数据，对其进行频率分析，平均该结果即可。另外，在本发明中实际设置显示器系统来收集声音数据，其中，通过仅收集判定为注视输出图像数据的可能性极高的数据进行同样的分析，就可得到期望值。

图7是表示相关性判定模块326的动作的一实例的流程图。首先，进行视线方向推断，在判定为用户面向画面的方向时，输出「有相关性」后结束。否则，接着查找关键字，在检测出关键字时，输出「有相关性」后结束。这里，即使在未判定为有相关性时，也接着进行情景核对，在其中的相关性值比预先设定的阈值高时，输出「有相关性」后结束。这里，即使在成为无相关性时，也进行频率核对，这里在得到的相关性值比阈值高时，输出「有相关性」后结束。在这些判定全部为「NO」时，输出「无相关性」后结束。

图8是表示相关性判定模块的另一实例的流程图。在本实施中，与图7的实例不同，分别与彼此的结果无关地执行视线方向推断、查找关键字、情景核对、频率核对这4种处理。由于这4种处理独立地进行，所以也可以不按图的顺序，也可以并列执行这4种处理。在各自的功能中，替代用二进制来判定相关性的有无，也可以例如以从0到100的得分来表示。接着，对这4个得分附加预先设定的权重，求取其和，为整体的1个得分。如果这个得分比事先设定的阈值大，则判定为有相关性，如果比事先设定的阈值小，则判定为无相关性后结束。

图9是用于说明对象属性分析部106的细节的图。以输入的声音数据904(304)为基础，沿空间的属性分析906和属人的属性分析908两个流程来进行分析。

在空间的属性分析中，对来自多个麦克风的输入，通过振幅检测910和相位差检测912等2个模块来进行处理，以两者的结果为基础，位置判定914的模块推断用户的位置。这时，参照设备配置信息DB916，所述设备配置信息表示麦克风等设备实际上以哪种位置关系被配置。作为位置判定的最简单的动作方法，包括如下方法，即忽视相位差检测的结果，根据振幅检测的结果，选择表示最大振幅的麦克风，按设备配置信息DB来确认该麦克风的位置。作为更精密的方法，也可以利用声音的能量与和声源的距离的平方成反比的性质，根据振幅检测的结果来推断各麦克风与声源的距离。另外，由于可用平面波来近似声音的传达，所以也可以通过相位差检测检测出到达2个麦克风之间的声音的相位差，通过与该声音的波长相比较，推断出声源的方向。利用这些方法得到的值虽然因噪声的影响等不是一定正确的值，但通过组合多个推断结果，可增加可信度。此外，就使用多个麦克风的声源位置推断算法而言，例如在小林等著，“基于多个麦克风自由配置的多个说话人位置推断”(电子信息通信学会论文杂志A，Vol.J82-A，No.2，pp.193-200.1999)(非专利文献3)等文献中详述。另外，在可使用画像数据302时，也可以并用直接使用该数据的用户位置判断。

另一方面，在所属人的属性分析中，通过分析声音的性质，取得属于用户个人的信息。作为属于用户个人的信息的实例，举出使用语言、性别、年龄等。可通过如下方法来实现，即在语言识别918、性别识别920、年龄识别922的各个模块中，将预先形成的语言类别模块924、性别模块926、年代类别模块928等与输入声音相比较，并在计算了相对于各模块的相似程度的基础上，选择相似程度最高的类别。在比较时，通过同时推断包含在声音中的音韵图案，可提高精度。即是如下方法：在利用通常常用的隐蔽马尔科夫模块进行声音辨别时，在日语音响模块和英语音响模块、男性音响模块和女性音响模块、十多岁音响模块和二十多岁音响模块、三十多岁音响模块等情况下平行使用多个音响模块，针对辨别结果选择与提供了更高可信度得分的模块相当的语言、性别和年代的类别。其中，要在语言辨别中得到高精度，必需方法精密，但关于语言辨别的详细算法，在Zissman，”Comparison of four approaches to automatic languageidentification of telephone speech”(IEEE Transactions on Speech andAudio Processing，Vol.4，No.1，pp.31-44，1996)(非专利文献4)等文献中详述。

下面，详细说明输出图像选择部116的动作。这里，根据由对象属性分析部及声音·图像相关性分析部得到的结果，选择最有效地向用户提供信息的图像提示方法。首先，作为第一实例，在知道用户的使用语言的情况下，将图像中包含的语言信息改变成该语言。另外，在将声音附加于图像中输出时，在输出声音的语言与用户的使用语言不同的情况下，也可追加用用户使用语言的字幕。接着，在判断为用户的声音与图像的相关性高时，认为用户对当前的图像有兴趣，因此根据显示的情况，提供更详细的信息。相反，在用户对当前图像不关心时，或只连续提供概要的信息，或提供与任何其它项目有关的图像。这里，在选择其它项目时，在能够在某种程度上推断用户的性别、年龄等的情况下，还可以向由此表示的特定用户层提供感兴趣的可能性高的信息。

这样，不仅选择利用整个画面显示的单一图像，还可将大显示器进行分割后有效地使用。图10示出了这样的信息提供方式的实例。在本实例中，在比人明显大的显示器中，放映个人计算机的图像广告。与之相反，左侧及中央附近的用户未表现出关心，但右侧附近的用户有兴趣，在判断为这种情况时，在其每个画面上生成小的子窗口，在那里显示商品的详细情况。由此，可对有兴趣的用户提供详细信息，对除此之外的用户提供全部的图像信息。

由于根据用户的注视程度来控制显示图像，所以作为追加显示(或变成默认图像显示)的信息·图像数据，只要利用与默认的输出图像预先对应地存储到可从输出图像选择部114访问的存储装置中的图像即可。另外，由于对应用户的属性来控制显示装置，所以只要将追加显示(或变成默认图像显示)的信息·图像数据对应于各属性存储在存储装置中就行。

在声音·图像相关性分析部或对象属性分析部中，由于常常预想在一定比例下得到错误的结果，所以这种情况下也希望具有不对用户提供坏印象的功能。图11是示出用于实现这种功能的一实例的流程图。在判断为用户未注视输出图像的情况下，如果在此之前判断为注视，则输出与此前不同的图像。然而，在该判定是错误的情况下，突然切断用户注视的信息，会令用户产生不愉快。因此，在这种情况下，在具备基于触摸面板的输入功能的显示器画面中显示「返回」按钮，在用户触摸该按钮时，通过触摸面板检测到该情况，将该情况通知到输出图像选择部114，在输出图像选择部中进行还原输出图像的处理。由此，可减少用户的不快感。另外，在经一定时间未触摸该按钮时，由于认为没有产生如上述那样的误判定，所以取消该按钮。另外，用户输入装置除显示画面上的触摸面板之外，还可为显示画面之外的输入装置。

图12是作为相似的实例，表示在对象属性分析部中误识别语言时采取的对策方法的流程图。通常，在对应于多种语言的信息提供系统中，如「日语」、「英语」、「汉语」等，多准备用各个语言示出的语言选择按钮。另外，也将这样的按钮作为具有触摸面板功能的画面上的按钮来实现。因此，这种情况下，如果通过语言识别检测出与当前的设定语言不同的语言，则在改变显示语言的同时，放大显示语言选择按钮。由此，一旦自动地改变语言，如果该改变没有按照用户意图，则用户就可容易地知道通过按钮可再次改变，如果对自动改变的语言不满意，则可迅速再改变成期望的语言。另外，与图11的实例的情况相同，在经一定时间未触摸该按钮时，认为未产生误判定而还原。

下面，详细说明注视信息整理部110及通信部112的作用。通过实施本发明，可得到哪种用户对显示的图像的哪个部分关心的信息。这些信息通过核对对象属性分析部和声音·图像相关性分析部两者的输出来得到。这样的信息对提供图像的人非常有益。例如，在以商品销售为目的播送广告图像时，了解用户是否关心，可反映在今后的商品开发上。另外，由于可详细地数值化作为广告媒体的显示器的价值，所以也可反映在广告使用的费用上。为了用于这样的目的，通过注视信息整理部，取得多少用户对图像的哪个部分表示关心的信息，在除掉没用的信息、进行整理后，将这样得到的信息通过通信部发送到管理部中。

产业上的可利用性

本发明可用于在公共空间等中更有效地提供通知信息的装置。另外，也可用于基于图像的广告信息的提供效率化。

Claims

1.一种利用显示在图像显示装置上的图像来提供信息的信息提供方法，包括：

第1步骤，输入位于图像显示装置周围的人的声音；和

第2步骤，通过检查所提供的图像与所输入的声音在时间上变化的相关性来判断位于所述周围的人的注视程度，

所述第2步骤包括以下三个步骤中的一个：

关键字判定步骤(316)，核对所输入的声音数据和附带在显示在所述图像显示装置上的图像数据中发送来的关键字信息，判定在声音数据中是否包含关键字；

情景核对步骤(322)，对所输入的声音进行情景分割，判定情景分割后的声音数据和附带在所述图像中发送来的情景信息在时间上的相关性；以及

频率核对步骤(324)，对所输入的声音数据进行频率分析得到全功率、特定频域功率、基本频率的参数，并将这些参数与预先附加在所述图像数据中发送的全功率期望值、特定频域功率期望值、基本频率期望值的数据相比较，求出相似程度。

2.根据权利要求1所述的信息提供方法，其特征在于，还包括：

第3步骤，根据所述注视程度来控制下次输出的图像。

3.根据权利要求2所述的信息提供方法，其特征在于：

在所述第3步骤之前还包括：第4步骤，基于在所述第1步骤中通过设置在不同位置上的多个声音输入装置而收集的声音信号来推断位于所述周围的人的位置；

在所述第3步骤中，在所述图像显示装置的显示画面上的、对应于所述推断出的位置的位置上，因根据所述注视程度来控制显示图像而利用与默认的输出图像预先对应存储的图像作为追加显示或变成默认图像显示的信息·图像数据。

4.根据权利要求2所述的信息提供方法，其特征在于，还包括：

第5步骤，根据所述注视程度，从输入装置接受针对已输出的图像的操作输入；和

第6步骤，根据该操作输入来控制所述下次输出的图像。

5.根据权利要求1所述的信息提供方法，其特征在于，具有视线方向推断步骤、关键字判定步骤、情景核对步骤以及频率核对步骤，顺序执行这些步骤或是对各步骤的结果得分进行加权来判定最终的相关性。

6.一种信息提供装置，包括：

图像显示部，利用图像来提供信息；

声音输入部，输入位于该图像显示部周围的人的声音；和

声音.图像相关性分析部，通过检查所提供的图像与所输入的声音在时间上变化的相关性来判断位于所述周围的人的注视程度，

其中，所述声音.图像相关性分析部包括以下三个部件中的一个：

关键字判定部(316)，核对所输入的声音数据和附带在显示在所述图像显示装置上的图像数据中发送来的关键字信息，判定在声音数据中是否包含关键字；

情景核对部(322)，对所输入的声音进行情景分割，判定情景分割后的声音数据和附带在所述图像中发送来的情景信息在时间上的相关性；以及

频率核对部(324)，对所输入的声音数据进行频率分析得到全功率、特定频域功率、基本频率的参数，并将这些参数与预先附加在所述图像数据中发送的全功率期望值、特定频域功率期望值、基本频率期望值的数据相比较，求出相似程度。

7.根据权利要求6所述的信息提供装置，其特征在于：

所述运算部根据所述注视程度来控制下次输出的图像。

8.根据权利要求7所述的信息提供装置，其特征在于：

所述声音输入部包含设置在不同位置的多个麦克风；以及

所述运算部根据来自所述设置在不同位置上的多个声音输入装置的输入来推断位于所述周围的人的位置，并控制成在所述图像显示部的显示画面上的、对应于所述推断出的位置的位置上，因根据所述注视程度来控制显示图像而利用与默认的输出图像预先对应存储的图像作为追加显示或变成默认图像显示的信息·图像数据。

9.根据权利要求7所述的信息提供装置，其特征在于：

还包括：用户输入部，根据所述注视程度来接受对所输出的图像的操作输入；

所述运算部根据该操作输入，控制所述下次输出的图像。

10.根据权利要求6所述的信息提供装置，其特征在于，具有视线方向推断部、关键字判定部、情景核对部以及频率核对部，

还具有相关性判定部(326)，用以以上述视线方向推断部、关键字判定部、情景核对部以及频率核对部的输出为输入，基于各输入的得分来判定最终的相关性。