KR20210022579A - 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 - Google Patents

정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 Download PDF

Info

Publication number
KR20210022579A
KR20210022579A KR1020207036754A KR20207036754A KR20210022579A KR 20210022579 A KR20210022579 A KR 20210022579A KR 1020207036754 A KR1020207036754 A KR 1020207036754A KR 20207036754 A KR20207036754 A KR 20207036754A KR 20210022579 A KR20210022579 A KR 20210022579A
Authority
KR
South Korea
Prior art keywords
agent
information
voice
audio
agent device
Prior art date
Application number
KR1020207036754A
Other languages
English (en)
Other versions
KR102638946B1 (ko
Inventor
다츠야 이가라시
아키라 요시다
유키 미츠후지
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20210022579A publication Critical patent/KR20210022579A/ko
Application granted granted Critical
Publication of KR102638946B1 publication Critical patent/KR102638946B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/278Content descriptor database or directory service for end-user access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

음성 에이전트의 대화를 처리하는 정보 처리 장치를 제공한다. 정보 처리 장치는, 유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득부와, 상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어부를 구비한다. 상기 제어부는, 복수의 스피커로부터의 출력 음성을 파면 합성하여, 상기 에이전트 기기의 음장을 제어하여, 상기 음성 정보와는 상이한 다른 콘텐츠와의 섞임을 회피한다.

Description

정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
본 명세서에서 개시하는 기술은, 음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템에 관한 것이다.
최근, 음성 등을 사용하여 유저와 대화를 행하면서, 용도나 상황에 따라 여러 가지 정보를 유저에게 제시하는 에이전트가 보급되기 시작하고 있다. 예를 들어, 조명이나 에어컨 등의 가전 기기의 온/오프나 조정 조작을 대행하는 것 외에, 일기 예보나 주식ㆍ환 정보, 뉴스에 대하여 들리면 음성으로 회답하거나, 상품의 주문을 접수하거나, 구입한 서적의 내용을 읽어 주거나 하는 에이전트가 알려져 있다.
에이전트 기능은, 일반적으로 가정 내 등에서 유저의 주위에 설치되는 에이전트 디바이스와, 클라우드 상에 구축되는 에이전트 서비스의 연계에 의해 제공된다(예를 들어, 특허문헌 1을 참조). 예를 들어, 에이전트 디바이스는, 유저가 발화하는 음성을 접수하는 음성 입력, 그리고 유저로부터의 문의에 대하여 음성으로 회답하는 음성 출력과 같은 유저 인터페이스를 주로 제공한다. 한쪽의 에이전트 서비스측에서는, 에이전트 디바이스에서 입력된 음성의 인식이나 의미 해석, 유저의 문의에 따른 정보 검색 등의 처리, 처리 결과에 기초하는 음성 합성 등 부하가 높은 처리를 실행한다.
또한, 유저와 직접 대화를 행하는 에이전트 디바이스는 전용 장치 외에, 옥내에 설치된 텔레비전 수상기, 에어컨, 녹화기, 세탁기 등의 각종 CE 기기나 IoT(Internet of Thing) 디바이스, 스마트폰이나 태블릿 등의 휴대가 가능한 정보 단말기, 대화형 로봇, 차내에 설치된 카 네비게이션 등, 에이전트용 애플리케이션이 내장되어 있는 각종 정보 기기여도 된다(예를 들어, 특허문헌 2를 참조).
일본 특허 공표 제2017-527844호 공보 WO2014/203495 일본 특허 공개 제2007-143010호 공보 일본 특허 공개 제2016-100613호 공보
본 명세서에서 개시하는 기술의 목적은, 음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템을 제공하는 데 있다.
본 명세서에서 개시하는 기술의 제1 측면은,
유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득부와,
상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어부
를 구비하는 정보 처리 장치이다.
상기 취득부는, 상기 에이전트 기기 상에서 재생 중인 콘텐츠에 연계된 애플리케이션과의 인터랙션을 통하여, 상기 재생 중인 콘텐츠에 관련된 상기 정보를 취득한다.
또한, 상기 제어부는, 복수의 스피커로부터의 출력 음성을 파면 합성하여, 상기 에이전트 기기의 음장을 제어하여, 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보의 섞임을 회피하여, 적절한 장소에 음상을 정위한다.
또한, 본 명세서에서 개시하는 기술의 제2 측면은,
유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득 스텝과,
상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어 스텝
을 갖는 정보 처리 방법이다.
또한, 본 명세서에서 개시하는 기술의 제3 측면은,
유저와의 인터랙션을 통하여 음성 정보를 재생하는 에이전트 기기와,
상기 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하여, 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어 장치
를 구비하는 정보 처리 시스템이다.
단, 여기서 말하는 「시스템」이란, 복수의 장치(또는 특정 기능을 실현하는 기능 모듈)가 논리적으로 집합한 것을 의미하며, 각 장치나 기능 모듈이 단일의 하우징 내에 있는지 여부는 특별히 불문한다.
본 명세서에서 개시하는 기술에 따르면, 음성을 베이스로 하는 에이전트의 대화를 처리하는 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템을 제공할 수 있다.
또한, 본 명세서에 기재된 효과는 어디까지나 예시이며, 본 발명의 효과는 이것에 한정되는 것은 아니다. 또한, 본 발명이 상기 효과 이외에, 추가로 부가적인 효과를 발휘하는 경우도 있다.
본 명세서에서 개시하는 기술의 또 다른 목적, 특징이나 이점은, 후술하는 실시 형태나 첨부하는 도면에 기초하는, 보다 상세한 설명에 의해 명확해질 것이다.
도 1은, 본 명세서에서 개시하는 기술의 적용 환경의 일례를 도시한 도면이다.
도 2는, 에이전트 디바이스로서 동작하는 것이 가능한 정보 기기(100)의 구성예를 모식적으로 도시한 도면이다.
도 3은, 클라우드를 이용한 에이전트 클라우드 플랫폼의 구성예를 모식적으로 도시한 도면이다.
도 4는, 방 내에 텔레비전 수상기와 연계되는 복수대의 스피커를 분산하여 배치하고 있는 예를 도시한 도면이다.
도 5는, TV 에이전트의 동작예를 설명하기 위한 도면이다.
도 6은, TV 에이전트(310)의 음성 UI가 음상 정위된 일례를 도시한 도면이다.
도 7은, TV 에이전트(310)의 동작 수순의 일례를 도시한 흐름도이다.
도 8은, 음장 제어 시스템(800)의 구성예를 모식적으로 도시한 도면이다.
도 9는, 패널 스피커 기술의 적용예를 도시한 도면이다.
도 10은, 영상 콘텐츠에 대하여 음상을 화상에 일치시키는 처리를 행하는 기능적 구성을 도시한 도면이다.
도 11은, 비주얼 커뮤니케이션에 있어서 음상을 화상에 일치시키는 처리를 행하는 기능적 구성을 도시한 도면이다.
도 12는, 음성 에이전트의 음상을 화상에 일치시키는 처리를 행하는 기능적 구성을 도시한 도면이다.
도 13은, 텔레비전 화면(1300)의 구성을 도시한 도면이다.
이하, 도면을 참조하면서 본 명세서에서 개시하는 기술의 실시 형태에 대하여 상세하게 설명한다.
도 1에는 본 명세서에서 개시하는 기술의 적용 환경의 일례로서 거실(1)을 나타내고 있다. 사이드보드(13) 상에는 텔레비전 수상기(11)와 에이전트 디바이스(12)가 설치되어 있다. 후술하는 바와 같이, 텔레비전 수상기(11)는 에이전트용 애플리케이션이 내장되어 있으며, 에이전트 디바이스로서도 동작할 수 있다. 에이전트 디바이스가 실행하는 음성 인식 및 음성에 의한 응답 처리 등은 에이전트 기능이라고 칭해지는 경우가 있다. 또한 상세는 후술하지만, 이 에이전트 기능은 그 일부 또는 전부가 서버 상에서 처리되는 것이어도 된다. 본 명세서에서는 에이전트 기능으로서 음성을 사용하는 것을 「음성 에이전트」라고 칭하는 경우도 있다.
또한, 거실(1) 내에는 텔레비전 수상기(11)와 대면하도록 소파(14)가 설치되고, 소파(14)의 전방에는 소파 테이블(15)이 구비되어 있다.
도 1에 도시하는 예에서는 부모 자식 3명이 소파(14)에 앉아 있다. 3명은 텔레비전 수상기(11)에 표시되어 있는 텔레비전 프로그램의 시청자임과 함께, 텔레비전 수상기(11)에 내장되어 있는 에이전트(에이전트 기능) 혹은 에이전트 디바이스(12)의 유저이며, 에이전트에 대하여 문의하고 회답을 기다린다. 또한, 각 유저는 리모컨(도시 생략)을 사용하여 텔레비전 수상기(11)의 선국, 음량 조정, 입출력 기기의 전환 등 여러 가지 리모컨 조작을 행할 수 있는 것으로 한다. 혹은, 각 유저는 텔레비전 수상기(11)에 내장되어 있는 에이전트에 대하여, 텔레비전 수상기(11)의 선국, 음량 조정, 입출력 기기의 전환 등 여러 가지 조작을 음성에 의해 지시할 수도 있다.
텔레비전 수상기(11)는 튜너를 내장하거나 혹은 외장형 튜너를 통하여 방송 신호를 선국 수신 가능하다. 또한, 텔레비전 수상기(11)는 네트워크 인터페이스 카드를 장비하며, 프로바이더가 제공하는 OTT(Over the Top) 서비스나 텔레비전 회의 등의 비주얼 커뮤니케이션에 관련된 데이터 송수신을 행하는 것이 가능하다. 또한, 텔레비전 수상기(11) 상에서는 음성 에이전트 또는 어시스턴트를 비롯하여 미리 인스톨된 애플리케이션을 실행하는 것이 가능하다.
따라서, 텔레비전 수상기(11)의 화면 상에는, 온에어 중 또는 녹화한 방송 콘텐츠나, OTT 서비스에 의해 배신되는 스트리밍 콘텐츠, 텔레비전 회의(혹은 Web 회의) 등의 비주얼 커뮤니케이션, 음성 에이전트 또는 어시스턴트의 캐릭터와 같은 복수의 콘텐츠 중 적어도 하나가 표시된다. 또한, PIP(Picture in Picture)나 PAP(Picture and Picture)와 같은 기술을 이용하여, 대화면 상에 2 이상의 콘텐츠를 동시에 병렬하여 표시하는 것도 가능하다. 도 13에는 텔레비전 수신기(11)의 화면의 표시예(1300)를 도시하고 있다. 도 13에 도시하는 예에서는 텔레비전의 대화면(1300) 상에, 온에어 중인 방송 콘텐츠(1301)와, 비주얼 커뮤니케이션(1302)과, 음성 에이전트의 캐릭터(1303)가 병렬하여 동시 표시되어 있다. 또한, 도 13에서는 생략되어 있지만, 대화면 상에는 텔레비전 수신기(11) 내부에서 생성하는 OSD(On Screen Display) 등의 그래픽 정보를 표시할 수도 있다.
그리고, 텔레비전 수상기(11)로부터 발해지는 음성의 음파는, 소파(14)에 앉아 있는 3명에게 직접파로서 전해지는 것 외에, 벽면이나 천장, 바닥면으로부터의 반사파로서도 전해진다. 텔레비전 수상기(11)로부터 발해지는 음성에는, 선국 수신 중인 텔레비전 프로그램의 음성과, 에이전트로부터 회신된 합성 음성이 포함된다. 에이전트 디바이스(12)로부터 발해지는 음성도 마찬가지로, 소파(14)에 앉아 있는 3명에게 직접파로서 전해지는 것 외에, 벽면이나 천장, 바닥면으로부터의 반사파로서도 전해진다.
또한, 본 명세서에서 개시하는 기술의 적용 환경은, 도 1에 도시한 바와 같은 일반 가정 내에서 가족이 공유하는 거실에 한정되지는 않는다. 서재 등의 특정 유저 독실이나 침실 등, 에이전트 기능을 제공하는 텔레비전 수상기가 설치되는 다양한 방에도 본 명세서에서 개시하는 기술을 적용 가능하다. 또한, 가정 내뿐만 아니라, 기업의 오피스에도 본 명세서에서 개시하는 기술을 적용할 수 있다.
도 2에는 에이전트 디바이스로서 동작하는 것이 가능한 정보 기기(100)의 구성예를 모식적으로 도시하고 있다. 여기서는 정보 기기(100)로서, 도 1 중의 텔레비전 수상기(11)를 상정하고 있다. 정보 기기(100)는, 처리부(101)와, 튜너(102)와, 통신부(103)와, 표시부(104)와, 음성 입력부(105)와, 음성 출력부(106)와, 촬상부(107)와, 센서부(108)와, 리모컨 수신부(109)와, 기록부(110)를 구비하고 있다.
튜너(102)는, 지상파 방송 그리고 위성 방송의 방송 신호를 선국 수신한다. 또한, 통신부(103)는, 이더넷(등록 상표) 등의 유선 통신 또는 Wi-Fi(등록 상표) 등의 무선 통신을 이용하여, 인터넷 등의 외부 네트워크에 접속되어 있다. 예를 들어, 통신부(103)는, 프로바이더가 제공하는 OTT 서비스에 의해 배신되는 스트리밍 콘텐츠를 수신한다. 또한, 통신부(103)는, 텔레비전 회의 등의 비주얼 커뮤니케이션에 관련된 데이터 송수신을 행한다. 또한, 통신부(103)는, HDMI(등록 상표)(High Definition Multimedia Interface) 등의 영상 및 음성의 디지털 신호를 전송하는 통신 인터페이스를 구비하며, 블루레이 또는 하드 디스크 등의 녹화 재생기나 게임기 등을 정보 기기(100)에 외장 접속하는 데 이용할 수 있다. 또한, 통신부(103)는, 예를 들어 DLNA(등록 상표)(Digital Living Network Alliance) 등의 규격에 준하여, 홈 네트워크를 통하여 가정 내의 각 CE 기기와 상호 접속되어 있어도 되고, IoT 디바이스와의 인터페이스 기능을 더 구비하고 있어도 된다.
표시부(104)는, 예를 들어 액정이나 유기 EL(Electroluminescence) 소자 등으로 구성되며, 16:9의 종횡비로 이루어지는 화면을 구비하고, 튜너(102)에서 선국 수신한 방송 콘텐츠 그리고 통신부(103)를 통하여 수신하는 스트리밍 콘텐츠의 영상이나 EPG(Electronic Program Guide), 데이터 방송 콘텐츠를 표시하거나, OTT 서비스에 의해 배신되는 스트리밍 콘텐츠를 표시하거나, 텔레비전 회의 등의 비주얼 커뮤니케이션의 영상을 표시하거나 하는 데 사용된다. 또한, 표시부(104)는, 음성 에이전트 등 정보 기기(100)(텔레비전 수상기(11))에 미리 인스톨된 애플리케이션의 화상이나 OSD 등의 그래픽을 표시하거나 하는 데 사용된다. 또한, 표시부(104)의 화면의 일부 또는 전부의 영역에 터치 센서가 중첩되어 있어도 된다.
음성 입력부(105)는, 마이크 등의 수음 소자로 구성되며, 정보 기기(100)가 설치된 실내에서 발생하는 음성의 입력에 사용된다. 실내에서 발생하는 음성으로서, 텔레비전 프로그램의 시청자 혹은 음성 에이전트를 이용하는 유저에 의한 발화를 들 수 있다. 음성 입력부(105)는, 복수의 마이크를 조합한 마이크로폰 어레이를 구비하고 있어도 된다. 일부 또는 전부의 마이크로폰이 정보 기기(100)에 외장 접속되어 있어도 된다. 혹은, 텔레비전 수상기(11)용 리모컨에 탑재된 마이크를 포함하고 있어도 되고, 스마트폰이나 웨어러블 기기 등 텔레비전 수상기(11)의 외부 기기에 탑재된 마이크를 포함하고 있어도 된다. 음성 입력부(105)가 복수의 마이크로폰을 구비하는 경우, 빔 폼 처리에 의해, 원하는 음원 위치로부터의 음성, 예를 들어 음성 에이전트에 말을 거는 유저의 음성의 수음 감도를 높이거나, 반대로 불필요한 음원 위치로부터의 음성, 예를 들어 그 밖의 유저의 음성이나, 실내의 다른 AV 기기로부터 출력되는 음향 등의 수음 감도를 저감시키거나 할 수 있다.
음성 출력부(106)는, 튜너(102)에서 선국 수신한 프로그램 콘텐츠나 데이터 방송 콘텐츠의 음성 출력, 그리고 음성 에이전트 기능의 합성 음성의 출력 등에 사용된다. 음성 출력부(106)는 스피커 등의 음향 발생 소자로 구성된다. 본 실시 형태에서는 음성 출력부(106)는 복수의 스피커를 조합한 스피커 어레이(다채널 스피커 혹은 초다채널 스피커)를 구비하고 있는 것을 상정하고 있다(일부 또는 전부의 스피커가 정보 기기(100)(텔레비전 수상기(11))에 외장 접속되어 있어도 됨). 따라서, 음성 출력부(106)는, 각 스피커의 출력 제어에 기초하여 음장을 생성하여, 원하는 위치에 음상을 정위시키거나, 원하는 위치 이외의 장소로부터는 음성이 들리기 어렵게 하거나 할 수 있다.
콘형 스피커 외에, 플랫 패널형 스피커(예를 들어, 특허문헌 3을 참조)를 음성 출력부(106)에 사용할 수 있다. 물론, 다른 타입의 스피커를 조합한 스피커 어레이를 음성 출력부(106)로서 사용할 수도 있다. 또한, 스피커 어레이는, 진동을 생성하는 1개 이상의 가진기(액추에이터)에 의해 표시부(104)를 진동시킴으로써 음성 출력을 행하는 것을 포함해도 된다. 가진기(액추에이터)는 표시부(104)에 나중에 장착되는 형태여도 된다. 도 9에는 디스플레이에 대한 패널 스피커 기술의 적용예를 도시하고 있다. 디스플레이(900)는 배면의 스탠드(902)로 지지되어 있다. 또한, 디스플레이(900)의 이면에는 스피커 유닛(901)이 설치되어 있다. 스피커 유닛(901)의 좌측단에는 가진기(액추에이터)(901-1)가 배치되고, 또한 우측단에는 가진기(액추에이터)(901-2)가 배치되어 있으며, 스피커 어레이를 구성하고 있다. 각 가진기(액추에이터)(901-1 및 901-2)가 각각 좌우의 음성 신호에 기초하여 디스플레이(901)를 진동시켜 음향 출력할 수 있다. 또한, 스탠드(902)가 저음역의 음향을 출력하는 서브 우퍼를 내장해도 된다. 또한, 디스플레이(900)는 유기 EL 소자를 사용한 표시부(104)에 상당한다.
음성 출력부(106)가 복수의 스피커를 구비하는 경우, 원하는 위치에 음상을 정위시키거나(예를 들어, 음성 에이전트의 음성의 음상을, 문의한 유저에 대하여 소정의 상대 위치로 되는 장소에 정위시키거나, 혹은 텔레비전 프로그램의 음성과는 섞이지 않는 장소에 정위시킴), 원하는 위치 이외의 장소로부터는 음성이 들리기 어렵게 하거나 할 수 있다. 또한, 음장에 있어서의 음성의 파면을 복수의 마이크로폰으로 수음하고, 얻어진 수음 신호에 기초하여 음장을 재현하는 「파면 합성」(예를 들어, 특허문헌 4를 참조) 등의 음장 재현 방법을 이용할 수도 있다.
촬상부(107)는, 예를 들어 CMOS(Complementary Metal Oxide Semiconductor)나 CCD(Charge Coupled Device) 등의 이미지 센서로 이루어지는 카메라로 구성되며, 주로 정보 기기(100)의 정면 방향, 예를 들어 표시부(104)의 화면 전방에 있는 유저를 촬상한다. 촬상부(107)는, 예를 들어 2대의 카메라를 사용한 스테레오 카메라나, 3대 이상의 카메라를 사용한 다안 카메라여도 된다. 또한, 일부 또는 전부의 카메라가 정보 기기(100)에 외장 접속되어 있어도 된다.
센서부(108)는, 주로, 정보 기기(100)가 설치되어 있는 실내의 환경 정보를 센싱한다. 센서부(108)의 구성, 즉 어떠한 센서 소자를 포함하는지는 임의이다. 예를 들어, 센서부(108)는 물체 검출 센서나 심도 센서를 포함하고 있어도 된다. 물체 검출 센서나 심도 센서의 검출 결과에 기초하여(필요에 따라, 촬상부(107)에서 촬영한 화상에 화상 인식 결과와 아울러), 실내에 설치된 가구나 방의 레이아웃을 검출할 수 있다. 또한, 센서부(108)는 조도 센서나 온도 센서, 습도 센서 등의 환경 정보를 검출하는 환경 센서를 구비하고 있어도 된다. 또한, 센서부(108)는 적외선 센서나 인체 감지 센서를 구비하고 있어도 된다. 또한, 센서부(108)는 유저의 맥박이나 발한, 뇌파, 근전위, 호기 등을 검출하는 생체 센서를 구비하고 있어도 된다. 센서부(108)를 구성하는 센서부의 일부 또는 전부가 정보 기기(100)에 외장 접속되거나, 또는 무선 접속되어 있어도 된다.
리모컨 수신부(109)는, 리모컨(도시 생략)으로부터 적외선 통신이나 근거리 무선 통신 등을 이용하여 송신되는 리모컨 커맨드를 수신 처리한다. 리모컨의 조작자는, 예를 들어 도 1에 도시한 거실에 있는 텔레비전 수상기(11)의 시청 유저 등이다.
기록부(110)는, 예를 들어 HDD(Hard Disc Drive) 등의 대용량 기록 장치로 구성되며, 주로 튜너(102)에서 수신한 프로그램 콘텐츠의 녹화에 사용된다. 기록부(110)는, 정보 기기(100) 내에 배치되는 것 외에, HDMI(등록 상표)(High Definition Multimedia Interface)나 USB(Universal Serial Bus) 등의 인터페이스를 통하여 정보 기기(100)에 외장 접속되는 경우도 있다.
처리부(101)는 프로세서 및 메모리를 포함하며, 메모리에 로드한 프로그램을 실행하여 각종 처리를 실시하여, 정보 기기(100) 내의 동작을 통괄적으로 컨트롤한다. 처리부(101) 내에서는, 기본적으로는 오퍼레이팅 시스템(OS)이 제공하는 실행 환경 하에서, 다양한 애플리케이션이 실행된다. 예를 들어 멀티프로세서가 이용 가능한 경우, 혹은 OS에 의해 멀티스레드 실행이 가능한 경우에 있어서는, 병렬 실행 가능한 처리 단위는 모두 메모리에 판독되어 병렬 실행시킬 수 있다.
처리부(101)에 있어서 실행되는 처리로서, 리모컨 수신부(109)에서 수신한 리모컨 커맨드에 따른 선국, 음량 조정, 녹화, 그리고 화질 조정 등의 기기(100) 내의 조작이나, 튜너(102)에서 선국 수신된 프로그램 콘텐츠의 영상 및 음성 출력 처리, 기록부(110)에 녹화한 프로그램 콘텐츠의 재생 출력 처리, OTT 서비스에 의해 배신되는 스트리밍 콘텐츠의 재생 출력 처리, 애플리케이션의 실행, OSD의 표시 제어 등을 들 수 있다. 처리부(101)가 실행하는 애플리케이션 중에는, 튜너(102) 또는 통신부(103)를 통하여 수신한 데이터 방송 애플리케이션이나 OTT 서비스의 애플리케이션, 음성 에이전트, 비주얼 커뮤니케이션 등 처리부(101) 내에 미리 인스톨된 애플리케이션을 들 수 있다. 또한, 처리부(101)가 복수의 에이전트용 애플리케이션을 병렬 실행함으로써, 정보 기기(100)가 복수의 에이전트 디바이스로서 기능하는 것도 가능하다.
정보 기기(100)는, 선국 수신한 방송 콘텐츠의 영상 및 음성 출력, OTT 서비스에 의해 배신되는 스트리밍 콘텐츠의 재생 출력, 텔레비전 회의 등의 비주얼 커뮤니케이션의 재생 출력, 음성 에이전트 등의 그래픽의 표시 등, 다종류의 영상을 표시하는 기능을 구비하고 있다. 또한, 정보 기기(100)는 PIP나 PAP 기능에 의해, 2 이상의 영상을 병행하여 표시할 수도 있다.
또한, 본 실시 형태에서는, 정보 기기(100)는 음상을 화상에 일치시키는 음상 정위를 행하도록 되어 있다. 왜냐하면, 영상에 대응하는 음성이 영상의 표시 위치와는 다른 위치에 정위되면, 화면을 시청하는 유저는 위화감을 느끼기 때문이다. 정보 기기(100)는, 영상 내에 출현하는 음원을 검출하고, 그 음원의 화면 상의 표시 위치를 계산하여, 그 음원으로부터 발해지는 음성을 음원의 표시 위치에 정위시키는 음성 신호 처리를 실시함으로써, 음상을 화상에 일치시키도록 하고 있다.
여기서, 정보 기기(100)에 있어서, 영상 콘텐츠(방송 및 OTT 서비스를 포함함), 비주얼 커뮤니케이션, 그래픽의 각각을 표시할 때 음상을 화상에 일치시키기 위한 처리에 대하여, 각각 설명해 둔다.
(1) 영상 콘텐츠의 경우
영상이 방송 콘텐츠나 OTT 서비스의 스트리밍 콘텐츠인 경우, 영상 내에 출현하는 음원이란, 그 텔레비전 프로그램의 출연자(혹은 화면에 표시되어 있는 화자)이다. 예를 들어 영상 해석에 의해 화상 내의 출연자의 얼굴 위치를 검출함으로써, 음원을 검출할 수 있다. 복수의 출연자가 동시에 비치고 있을 때는, 각 출연자의 얼굴 위치를 각각 음원으로서 검출한다. 혹은, 방송 콘텐츠의 메타 정보로서, 각 출연자의 얼굴 위치의 데이터가 보내지도록 해도 된다. 텔레비전 프로그램을 전체 화면 표시하고 있을 때는, 검출된 얼굴 위치가 음원의 표시 위치로 된다. 또한, 멀티 윈도우가 적용되고 있는 경우에는, 텔레비전 프로그램을 표시하는 윈도우 내에서의 얼굴 위치를 음원의 표시 위치로서 계산한다. 그리고, 각 출연자가 발화할 때마다, 그 음성의 음상을 화면 상에서 그 출연자의 얼굴이 표시되는 위치에 정위하도록 음성 신호 처리를 실시하여, 음성 출력부(106)로부터 출력하도록 한다.
도 10에는 영상 콘텐츠에 대하여 음상을 화상에 일치시키는 처리를 행하는 기능적 구성을 모식적으로 도시하고 있다. 단, 도 10에 도시하는 각 기능 모듈은, 기본적으로는 처리부(101) 내에서 실장되는 것으로 한다. 또한, 튜너(102)에서 선국 수신한 방송 콘텐츠나 통신부(103)에서 수신한 OTT 서비스의 스트리밍 콘텐츠는, 영상과 음성으로 디멀티플렉스되고, 또한 영상 신호와 음성 신호의 각각에 대하여 디코드 처리된 후에, 처리부(101)에 입력되는 것으로 한다.
영상 처리부(1001)는, 디코드 후의 영상 신호를 입력하면, 영상 프레임에 포함되는 음원의 위치를 검출한다. 음원은 프로그램의 출연자 등의 화자이다. 악기 등 음향을 출력하는 물체가 프레임에 포함되는 경우에는, 이것들도 음원으로서 위치 검출을 행하도록 한다. 영상 처리부(1001)는, 예를 들어 영상 신호의 화질 조정 처리의 과정에서, 영상 해석 등에 의해 화상 내의 화자의 얼굴 위치를 검출함으로써, 음원을 검출하도록 한다. 혹은, 스트림에 부수되어 보내져 오는 메타 정보에 음원 위치의 정보가 포함되는 경우에는, 메타 정보의 복호 처리에 의해 음원 위치를 검출하도록 해도 된다. 영상 내에 복수의 화자가 동시에 포함되어 있는 경우에는, 영상 처리부(1001)는 화자마다 음원으로서 검출하여 음원 위치의 검출을 행한다. 영상 처리부(1001)에 의한 처리 후의 영상 신호는, 비디오 메모리(도 3에는 도시하지 않음) 내의 영상용 플레인에 일단 기입된 후, 다른 플레인의 화상 정보와 중첩되어 표시부(104)의 화면에 표시 출력된다.
음성 처리부(1002)는, 디코드 후의 음성 신호를 입력하면, 음성 출력부(106)에 포함되는 복수의 스피커를 사용하여 음성을 출력한다. 영상 처리부(1001)로부터 음원의 위치 정보가 부여되는 경우에는, 음성 처리부(1002)는, 그 음원의 위치에 음상을 정위시켜, 음성 출력부(106)로부터 음성을 출력한다.
영상 프레임이 표시부(104)에서 전체 화면 표시되는 경우에는, 음성 처리부(1002)는, 영상 처리부(1001)가 검출한 음원 위치를 화면 상의 표시 위치의 정보로 변환하여 음상 정위를 행한다. 한편, 표시부(104)의 화면에 멀티 윈도우가 적용되어 있는 경우에는, 음성 처리부(1002)는, 영상의 표시에 할당된 윈도우의 표시 위치 및 사이즈의 정보를 윈도우 제어부(1003)로부터 취득하면, 영상 처리부(1001)가 검출한 프레임 내에서의 음원 위치를 당해 윈도우 내의 위치로 환산하고, 이것에 윈도우의 표시 위치(오프셋)를 가산함으로써, 화면 상에 있어서의 음원의 위치의 정보를 구하여 음상 정위를 행한다.
복수의 음원을 포함하는 영상의 경우(예를 들어, 영상 내에 복수의 화자가 동시에 출현하는 경우), 영상 처리부(1001)는 화자마다 음원 위치를 검출함과 함께, 음성 처리부(1002)는, 입력된 음성 신호를 음원별(예를 들어 화자별) 음성으로 분리하여, 각 음원을 각각에 대응하는 음원 위치에 정위시켜, 음성 출력부(106)로부터 음성을 출력한다.
(2) 비주얼 커뮤니케이션의 경우
영상이 텔레비전 회의 등의 비주얼 커뮤니케이션인 경우, 영상 내에 출현하는 음원은, 그 텔레비전 회의의 참가자이다. 예를 들어, 영상 해석에 의해 화상 내의 회의 출석자의 얼굴 위치를 검출함으로써, 음원을 검출할 수 있다. 회의 참가자가 복수 있는 경우에는, 각 회의 참가자의 얼굴 위치를 각각 음원으로서 검출한다. 계속해서, 비주얼 커뮤니케이션의 윈도우 내에서, 회의 참가자의 얼굴 위치를 음원의 표시 위치로서 계산한다. 그리고, 회의 참가자가 발언할 때마다, 그 음성의 음상을 해당하는 회의 참가자의 얼굴 위치에 정위하도록 음성 신호 처리를 실시하여, 음성 출력부(106)로부터 출력하도록 한다.
도 11에는 비주얼 커뮤니케이션에 있어서 음상을 화상에 일치시키는 처리를 행하는 기능적 구성을 모식적으로 도시하고 있다. 단, 도 11에 도시하는 각 기능 모듈은, 기본적으로는 처리부(101) 내에서 실장되는 것으로 한다. 또한, 통신부(103)에서 수신한 비주얼 커뮤니케이션용 통신 신호가 영상과 음성으로 디멀티플렉스되고, 또한 영상 신호와 음성 신호의 각각에 대하여 디코드 처리된 후에, 처리부(101)에 입력되는 것으로 한다.
비주얼 커뮤니케이션(VC) 처리부(1101)는, 디코드 후의 영상 신호를 입력하면, 텔레비전 회의의 영상의 표시 처리를 실시한다. 여기서, 다지점 통신에 의해 비주얼 커뮤니케이션이 행해지고 있는 경우에는, 비주얼 커뮤니케이션 처리부(1101)는, 표시부(104)의 화면(혹은 비주얼 커뮤니케이션에 할당된 윈도우 영역)을 복수의 영역으로 분할하여, 각 분할 영역에 다른 지점에서 촬영하고 있는 텔레비전 회의 영상을 표시 출력하기(즉, 각 지점에 분할 영역을 할당하기) 위한 처리를 실행한다. 또한, 분할 영역의 총수가 접속 중의 지점수보다 적을 때는, 비주얼 커뮤니케이션 처리부(1101)는, 각 분할 영역의 화면 전환을 행한다. 예를 들어, 발언 순서가 돌아온 지점이나 새롭게 이니시어티브를 쥔 지점의 영상이 가려져 있는 경우에는, 현재 표시되어 있는 다른 지점의 영상과 전환을 행한다. 비주얼 커뮤니케이션 처리부(1101)에 의한 처리 후의 영상 신호는, 비디오 메모리(도 11에는 도시하지 않음) 내의 비주얼 커뮤니케이션용 플레인에 일단 기입된 후, 다른 플레인의 화상 정보와 중첩되어 표시부(104)의 화면에 표시 출력된다.
비주얼 커뮤니케이션 처리부(1101)는, 영상 프레임에 포함되는 음원의 위치를 검출한다. 음원은, 영상에 비치고 있는 텔레비전 회의의 참가자 등의 화자이다. 비주얼 커뮤니케이션 처리부(1101)는, 예를 들어 얼굴 검출 처리에 의해, 영상 프레임 내의 회의 참가자의 얼굴 위치를 검출함으로써, 음원을 검출하도록 한다. 또한, 상기와 같이 다지점 통신에 의해 비주얼 커뮤니케이션이 행해지고 있는 경우에는, 비주얼 커뮤니케이션 처리부(1101)는, 현재 발언 중인 지점의 영상을 표시하고 있는 분할 영역을 음원의 위치로서 검출한다.
음성 처리부(1102)는, 디코드 후의 음성 신호를 입력하면, 음성 출력부(106)에 포함되는 복수의 스피커를 사용하여 음성을 출력한다. 비주얼 커뮤니케이션 처리부(1101)로부터 음원의 위치 정보가 부여되는 경우에는, 그 음원의 위치에 음상을 정위시켜, 음성 출력부(106)로부터 음성을 출력한다. 다지점 통신(전술)에 의해 비주얼 커뮤니케이션이 행해지고 있는 경우에는, 음성 처리부(1102)는, 현재 발언 중인 지점의 영상을 표시하고 있는 분할 영역에 음상을 정위시킨다.
비주얼 커뮤니케이션의 영상이 표시부(1104)에서 전체 화면 표시되는 경우에는, 음성 처리부(1102)는, 비주얼 커뮤니케이션 처리부(1101)가 검출한 음원 위치를 화면 상의 표시 위치의 정보로 변환하여 음상 정위를 행한다. 다지점 통신에 의해 비주얼 커뮤니케이션이 행해지고 있는 경우에는, 현재 발언하고 있는 지점의 영상을 흘리고 있는 분할 영역에 음상이 정위된다.
표시부(104)의 화면에 멀티 윈도우가 적용되고 있는 경우에는, 음성 처리부(1102)는, 비주얼 커뮤니케이션에 할당된 윈도우의 표시 위치 및 사이즈의 정보를 윈도우 제어부(1103)로부터 취득하면, 비주얼 커뮤니케이션 처리부(1101)가 검출한 음원 위치를 당해 윈도우 내의 위치로 환산하고, 이것에 윈도우의 표시 위치(오프셋)를 가산함으로써, 음원의 화면 상의 표시 위치의 정보를 구하여 음상 정위를 행한다. 다지점 통신에 의해 비주얼 커뮤니케이션이 행해지고 있는 경우에는, 당해 윈도우 내에서, 현재 발언하고 있는 지점의 영상을 흘리고 있는 분할 영역에 음상이 정위된다.
(3) 그래픽의 경우
음성 에이전트의 음원은 음성 에이전트의 영상 그 자체이다. 따라서, 음성 에이전트의 영상을 생성하는 그래픽 처리부로부터 음성 에이전트의 표시 위치를 취득함으로써, 음원의 위치를 검출할 수 있다. 또한, 유저가 방 내를 이동하면, 음성 에이전트도 추종하여 대화면 내에서 이동하는 경우에는, 그 유저의 위치 정보에 기초하여 음원의 위치를 검출하도록 한다. 그리고, 음성 에이전트가 발화할 때마다, 그 음성 에이전트의 합성 음성의 음상을 음성 에이전트의 표시 위치에 정위하도록 음성 신호 처리를 실시하여, 음성 출력부(106)로부터 출력하도록 한다.
도 12에는 음성 에이전트의 음상을 화상에 일치시키는 처리를 행하는 기능적 구성을 모식적으로 도시하고 있다. 단, 도 12에 도시하는 각 기능 모듈은, 기본적으로는 처리부(101) 내에서 실장되는 것으로 한다.
본 실시 형태에서는 음성 에이전트용 애플리케이션이 미리 정보 기기(100)에 인스톨되어 있는 것을 상정하고 있다. 처리부(101) 내에서는, 이러한 애플리케이션을 실행하여, 음성 에이전트의 그래픽(애니메이션 캐릭터 등)을 표시부(104)의 화면에 표시하거나, 음성 에이전트로부터의 음성 메시지를 음성 출력부(106)로부터 음성 출력하거나 한다. 단, 정보 기기(100) 내에서 음성 에이전트용 애플리케이션을 실행하는 것이 아니라, 정보 기기(100)가 외부의 에이전트 서비스를 이용하는 것도 상정된다. 이 경우, 정보 기기(100)는, 통신부(103)를 사용하여 외부의 에이전트 서비스에 의한 대화 처리를 이용하고, 정보 기기(100) 상에서는 음성의 입출력과 음성 에이전트의 그래픽 표시만을 오로지 행한다.
그래픽 처리부(1201)는, 처리부(101) 내의 프로세서가 실행한 대화 처리 결과에 기초하여(혹은 통신부(103)를 통하여 외부의 에이전트 서비스로부터 수취한 대화 처리 결과에 기초하여), 음성 에이전트의 캐릭터의 그래픽을 생성한다. 그리고, 컴포저(1202)는 생성된 캐릭터의 애니메이션을 컴포즈한다. 컴포즈된 캐릭터 애니메이션의 화상은, 비디오 메모리(도 12에는 도시하지 않음) 내의 그래픽용 플레인에 일단 기입된 후, 다른 플레인의 화상 정보와 중첩되어 표시부(104)의 화면에 표시 출력된다.
또한, 그래픽 처리부(1201)는, 표시부(104)의 화면 상에서 음성 에이전트의 그래픽을 표시시키는 위치에 관한 정보를 음성 처리부(1203)에 출력한다.
음성 처리부(1203)는, 처리부(101) 내의 프로세서(혹은 외부의 에이전트 서비스)에 의해 생성된 음성 에이전트의 메시지(텍스트)를 음성 합성하여, 음성 출력부(106)에 포함되는 복수의 스피커를 사용하여 음성을 출력한다. 상술한 바와 같이, 그래픽 처리부(1201)로부터 음성 에이전트의 표시 위치의 정보가 부여되는 경우에는, 음성 처리부(1203)는 그 표시 위치에 음상을 정위시켜, 음성 출력부(106)로부터 음성 에이전트의 음성을 출력한다.
다음에, 정보 기기(100)가 에이전트 디바이스로서 기능하는 경우에 대하여 설명한다.
에이전트 기능은, 일반적으로 유저의 주위에 설치되는 에이전트 디바이스와, 클라우드 상에 구축되는 에이전트 서비스의 연계에 의해 제공된다. 도 3에는 클라우드를 이용한 에이전트 클라우드 플랫폼(300)의 구성예를 모식적으로 도시하고 있다. 에이전트 클라우드 플랫폼(300)은 로컬측과 클라우드측으로 구분된다.
에이전트 클라우드 플랫폼(300)의 로컬측은, 도 1에 도시한 거실(1) 등에 상당하며, TV 에이전트(310)와 외부 에이전트 디바이스(320)를 포함하고 있다.
TV 에이전트(310)는, 정보 기기(100)(도 1 중의 텔레비전 수상기(11)에 대응)에 내장되어 있는 에이전트이며, 정보 기기(100)가 장비하는 음성 입력부(105), 음성 출력부(106), 촬상부(107) 및 센서부(108) 등의 각 기능 모듈을 활용할 수 있다.
외부 에이전트 디바이스(320)는, 도 1 중의 에이전트 디바이스(12)에 대응한다. 외부 에이전트 디바이스(320)는, 음성 에이전트 전용의 디바이스이며, 유저와 대화하기 위한 음성 입력부(321) 및 음성 출력부(322)를 구비하고 있다. 단, 외부 에이전트 디바이스(320)는 「스마트 스피커」, 「AI 스피커」, 「AI 어시스턴트」 등으로 불리는 음성 에이전트 전용의 디바이스에 한정되지 않고, 텔레비전 수상기(11) 이외의 CE 기기나, IoT 디바이스, 정보 단말기 등에 내장되어 있는 음성 에이전트여도 된다.
TV 에이전트(310)도 외부 에이전트 디바이스(320)도, 유저에게 있어서는 음성 베이스에서 대화를 행하는 에이전트로서 틀림없다. 단, 본 실시 형태에서는 전자는 텔레비전 수상기(11)를 통하여 유저와 대화하는(혹은 TV와 친화성이 높은 에이전트 서비스를 제공하는) 점에서 「TV 에이전트」라고 칭하고, 후자는 텔레비전 수상기(11)의 외부에서 유저와 대화하는(혹은 TV 방송 서비스와는 결부가 적은 에이전트 서비스를 제공하는) 점에서 「외부 에이전트 디바이스」라고 칭하여, 편의상 양자를 구별한다.
한편, 에이전트 클라우드 플랫폼(300)의 클라우드측은, 에이전트 시스템(330)과, 복수의 외부 에이전트 서비스(340A, 340B, 340C, …)를 포함하고 있다. 에이전트 시스템(330) 그리고 외부 에이전트 서비스(340A, 340B, 340C, …)는 모두 로컬측의 유저로부터의 문의에 회답하는 에이전트 서비스를 제공한다고 하는 관점에서는, 유저의 입장으로부터는 상이하지 않다. 단, 전자는 TV 에이전트(310)와 직접 연계하여 에이전트 서비스를 제공하는 점에서 「에이전트 시스템」이라고 칭하고, 후자는 TV 에이전트(310)와는 직접은 연계하지 않고, 텔레비전 수상기(11)의 외부로부터 에이전트 서비스를 제공하는 점에서 「외부 에이전트 서비스」라고 칭하여, 편의상 양자를 구별한다. 에이전트 시스템(330)은, 예를 들어 텔레비전 수상기(11)의 제품 제조원 또는 판매원이 운영하는 서버 장치 상에 구축되는 경우도 있지만, 특정 운영 형태에 한정되지는 않는다. 또한, 외부 에이전트 서비스(340A, 340B, 340C, …)의 적어도 일부(도 3에 도시하는 예에서는 외부 에이전트 서비스(340C))는, 로컬측에 설치된 외부 에이전트 디바이스(320)와 직접 연계되어 있다.
에이전트 시스템(330)은, 음성 인식부(331)와, 의미 해석부(332)와, 음성 합성부(333)와, 제어부(334)를 구비하고 있다.
음성 인식부(331)는, TV 에이전트(310)측의 음성 입력부(105)에서 수음된 유저의 발화를 음성 인식하여, 텍스트 정보로 변환한다. 의미 해석부(332)는, 음성 인식된 텍스트 정보에 기초하여, 유저의 발화 데이터의 의미 해석을 행한다. 또한, 음성 합성부(333)는, 유저에 대한 회답이 되는 텍스트 정보를 음성 데이터로 변환한다. 음성 데이터는 TV 에이전트(310)로 보내지고, 음성 출력부(106)로부터 문의원인 유저에 대하여 음성 출력된다. 또한, TV 에이전트(310)는, 음성 출력 이외에, 표시부(104)의 화면의 영상 출력을 함께 사용하여, 유저로부터의 문의에 대한 회답을 출력하도록 해도 된다. 또한, TV 에이전트(310)는, 텔레비전 수상기(11)와 홈 네트워크 경유로 접속되는 다른 CE 기기나 IoT 디바이스의 출력 기능 등을 함께 사용하여, 유저로부터의 문의에 대한 회답을 출력하도록 해도 된다.
제어부(334)는, TV 에이전트(310)의 유저로부터의 문의에 회답하기 위한 처리를 실행한다. 예를 들어, 제어부(334)는, 유저가 문의한 정보를 검색하거나, 유저가 요구한 콘텐츠를 취득하거나, 상품의 주문을 행하거나 하는, 유저로부터의 문의에 회답하기 위해, 제어부(334)는 학습 기능이나 AI(Artificial Intelligence) 기능을 탑재하고 있어도 된다.
또한, 제어부(334)는, 유저로부터의 문의에 회답하기 위해, 추가로 외부 에이전트 서비스(340A, 340B, 340C, …)를 호출할 수 있다. 제어부(334)는, 리퀘스트하는 것이 가능한 모든 외부 에이전트 서비스(340A, 340B, 340C, …)를 호출해도 되고, 어느 일부의 외부 에이전트 디바이스를 선택하여 호출하도록 해도 된다. 예를 들어, 각 외부 에이전트 서비스(340A, 340B, 340C, …)가 각각 고유의 전문 분야를 갖는 경우에는, 제어부(334)는, 유저로부터의 문의 내용이나 문의한 유저의 프로파일 정보 등에 따라, 리퀘스트처의 외부 에이전트 서비스를 취사 선택하도록 해도 된다. 또한, 유저로부터 특정 외부 에이전트 서비스를 지정하는 「기동 워드」가 음성 입력되었을 때는, 제어부(334)는, 입력된 기동 워드에 대응하는 외부 에이전트 서비스에 그대로 리퀘스트해도 되고, 기동 워드를 고려하면서, 리퀘스트처의 외부 에이전트 서비스를 취사 선택하도록 해도 된다.
또한, 에이전트 시스템(330)으로부터 외부 에이전트 서비스(340A, 340B, 340C, …)를 호출하는 방법은 몇몇이 고려된다. 예를 들어, 유저로부터의 문의를 의미 해석부(332)에서 의미 해석하여 얻은 텍스트 정보를 외부 에이전트 서비스(340B)에 송신해도 되고, 그 텍스트 정보를 음성 합성부(333)에서 음성 합성한 음성 데이터를 외부 에이전트 서비스(340A)에 송신하여, 유저로부터의 음성 입력과 같은 형태로 문의해도 된다. 혹은, 에이전트 시스템(330)이 외부 에이전트 서비스(340C)에 리퀘스트하는 경우에는, 음성 합성부(333)에서 음성 합성한 음성 데이터를 TV 에이전트(310)에 송신하여, TV 에이전트(310)의 음성 출력부(106)로부터, 마치 실내의 유저가 문의하는 것 같은 음성을 출력하여, 외부 에이전트 디바이스(320)를 통하여 문의하도록 할 수도 있다.
또한, 리퀘스트처의 외부 에이전트 서비스(340A, 340B, 340C, …)로부터 에이전트 시스템(100)에 대하여 회답하는 방법도 몇몇이 고려된다. 예를 들어, 외부 에이전트 서비스(340B)와 같이, 텍스트 정보 등으로 이루어지는(혹은 음성 합성 전의) 처리 결과가 에이전트 서비스(330)로 보내져 오는 경우가 있다. 또한, 외부 에이전트 서비스(340A, 340C)와 같이, 처리 결과를 음성 합성한 음성 데이터가 에이전트 서비스(330)로 보내져 오는 경우도 있다. 에이전트 서비스(330)는, 외부 에이전트 서비스(340A, 340C) 등으로부터 보내져 온 음성 데이터를 음성 인식하기 위한 음성 인식부(331)와, 그 음성 인식 결과를 의미 해석하는 의미 해석부(332)를 더 구비하고 있다.
그리고, 제어부(334)는, 각 외부 에이전트 서비스(340A, 340B, 340C)로부터의 회답을 의미 해석 결과의 레벨로 집계하여, 유저로부터의 문의에 대한 회답문을 생성한다. 복수의 회답을 집계하는 방법은 임의이다. 에이전트 시스템(330) 자체가 얻은 회답과 대조하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 다수결 등 소정의 선택 기준에 기초하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 복수의 외부 에이전트 서비스로부터의 회답을 합성하여 하나의 회답문을 생성하도록 해도 된다. 어떻든, 음성 합성부(333)는, 제어부(334)에서 생성한 회답문을 음성 데이터로 변환하여 TV 에이전트(310)로 보내진다. 그리고, TV 에이전트(310)에서는, 문의원인 유저에 대한 회답의 음성이, 음성 출력부(106)로부터 유저에 대하여 음성 출력된다.
또한, 에이전트 시스템(330)이 장비하는 음성 인식부(331)와, 의미 해석부(332)와, 음성 합성부(333)와, 제어부(334) 중 일부 또는 전부의 기능 모듈이 TV 에이전트(310)에 도입되어 있어도 된다. 혹은, 이들 기능 모듈(331 내지 334)이 1대의 서버 장치 상에 구축되어 있어도 되고, 복수대의 서버 장치에 분산하여 배치되어도 된다.
각 외부 에이전트 서비스(340A, 340B, 340C, …)의 기능적 구성은 거의 마찬가지이다. 이하에서는, 대표적으로 외부 에이전트 서비스(340C)의 기능적 구성에 대하여 설명한다.
외부 에이전트 서비스(340C)는, 음성 인식부(341C)와, 의미 해석부(342C)와, 처리부(343C)와, 음성 합성부(344C)를 구비하고 있다.
음성 인식부(341C)는, 외부 에이전트 디바이스(320)의 음성 입력부(321)에서 수음된 발화를 음성 인식하여, 텍스트 정보로 변환한다. 또한, 음성 입력부(321)에서 수음하는 음성은, 유저의 발화 외에, TV 에이전트(310)의 음성 출력부(106)로부터 출력하는 음성인 경우도 상정된다.
의미 해석부(342C)는, 음성 인식된 텍스트 정보에 기초하여, 유저의 발화 데이터의 의미 해석을 행한다. 처리부(343C)는, 유저로부터의 문의에 회답하기 위한 처리를 실행한다. 예를 들어, 외부 에이전트 서비스(340C)를 지정하는 「기동 워드」가 유저로부터 음성 입력되었음을 의미 해석 결과에 의해 알 수 있다면, 처리부(343C)는 처리 실행을 개시한다.
음성 합성부(344C)는, 유저에 대한 회답으로 될 텍스트 정보를 음성 데이터로 변환한다. 음성 데이터는, 외부 에이전트 디바이스(320)로 보내져, 음성 출력부(322)로부터 문의원인 유저에 대하여 음성 출력된다. 또한, 음성 합성부(344C)에서 생성된 음성 데이터는, 외부 에이전트 디바이스(320)에 송신하여 음성 출력되는 것 외에, 에이전트 시스템(330)에 송신되어, 음성 인식부(331)에 입력되는 경우도 상정된다.
또한, 도 3에서는, 도면의 간소화를 위해, 클라우드측의 1개의 에이전트 시스템(330)이 1대의 TV 에이전트(310)에 대하여 에이전트 서비스를 제공하도록 도시되어 있지만, 1개의 에이전트 시스템(330)이 복수대의 텔레비전 수상기 상에 내장되어 있는 복수의 TV 에이전트에 대하여 동시에 에이전트 서비스를 제공하는 것이 상정된다. 즉, 현실에는 1개의 에이전트 시스템(330)이 각 가정에 설치된 다수의 텔레비전 수상기 TV 에이전트에 대하여, 동시에 에이전트 서비스를 제공한다.
또한, 도 3에서는 3개의 외부 에이전트 서비스(340A, 340B, 340C)를 도시하고 있지만, 에이전트 시스템(330)과 연계되는 외부 에이전트 서비스의 수는 3개에 한정되지 않고, 2 이하 또는 4 이상의 외부 에이전트 서비스와 연계되는 것이 상정된다.
또한, 도 3에서는 1대의 외부 에이전트 디바이스(320)를 도시하고 있지만, 본 명세서에서 개시하는 기술을 실장하는 데 있어서, 외부 에이전트 디바이스는 반드시 필수적인 구성 요소인 것은 아니다. 혹은, 로컬측에 2대 이상의 외부 에이전트 디바이스가 병존하고 있어도, 마찬가지로 본 명세서에서 개시하는 기술을 실현 가능한 점을 이해하기 바란다.
도 3 중에 도시한 복수의 에이전트 서비스 중, 외부 에이전트 서비스(340A, 340B, 340C)는, 예를 들어 「AI 에이전트」라고도 불리며, 본원의 출원 시점에 있어서 이미 널리 이용되고 있는 서비스이다. 이러한 종류의 외부 에이전트 서비스는, 인터넷 등의 광역 네트워크 경유로 접속 가능한 무수의 외부 에이전트 디바이스(도 3 중의 외부 에이전트 디바이스(320)에 상당)를 관리 하에 두는 것이 상정되어 있다. 각 유저는, 자신이 소유하는 외부 에이전트 디바이스를 통하여 외부 에이전트 서비스에 로그인할 수 있다. 각 외부 에이전트 서비스는, 로그인해 온 유저마다 어카운트를 설정하고, 각 유저의 프로파일 정보나 이력 정보를 어카운트에 대응지어 관리한다(이하, 「어카운트 전환」 기능이라고도 칭함). 그리고, 외부 에이전트 서비스는, 예를 들어 유저로부터 문의를 받을 때마다 프로파일 정보나 이력 정보를 축차적으로 갱신하거나 또는 학습 기능을 채용해 넣음으로써, 개개의 유저에 커스터마이즈 또는 퍼스널라이즈된 입도가 섬세한 서비스를 제공할 수 있다.
또한, 도 3 중에 도시한 복수의 에이전트 서비스 중, 에이전트 시스템(330)은, 예를 들어 텔레비전 수상기(11)의 제품 제조원 또는 판매원이 운영하는 것이 상정되며, TV 에이전트(310)와 직접 연계하여 에이전트 서비스를 제공한다. 에이전트 시스템(330)도 AI 에이전트임에 틀림은 없지만, TV 에이전트(310)의 유저는, 기본적으로는 텔레비전 수상기(11)를 시청하는 유저에 한정되는 것으로 한다. 에이전트 시스템(330)은, 텔레비전 수상기(11)(즉, 로컬측)의 촬상부(107)나 음성 입력부(105)에서 포착한 화상이나 음성을 인식하여 사람 식별한 결과에 기초하여 유저를 특정하여, 유저별 어카운트를 관리한다. 그리고, 에이전트 시스템(330)은, 유저로부터 문의를 받을 때마다, 혹은 센서부(108)(촬상부(107)나 음성 입력부(105)를 포함해도 됨)에 의한 검출 결과에 기초하여, 각 유저의 프로파일 정보나 이력 정보를 갱신하거나 또는 학습 기능을 채용해 넣음으로써, 개개의 유저에 커스터마이즈 또는 퍼스널라이즈된 입도가 섬세한 서비스를 제공할 수 있다.
또한, 도 3에 도시한 에이전트 클라우드 플랫폼(300)에서는, 에이전트 시스템(330)이 텔레비전 수상기(11)에 내장되어 있는 TV 에이전트와 직접 연계되는 구성으로 되어 있지만, 에이전트 시스템(330)이 직접 연계되는 것이 가능한 기기의 종별은 텔레비전 수상기에 한정되지는 않는다. 예를 들어, 스마트폰이나 태블릿 등의 유저가 휴대 가능한 정보 단말기, 유저가 착용하는 웨어러블 기기, 혹은 에어컨, 녹화기, 세탁기 등의 각종 CE 기기나 IoT 디바이스, 대화형 로봇, 차내에 설치된 카 네비게이션 등 각종 정보 기기에 내장되어 있는 에이전트가 에이전트 시스템(330)과 직접 연계되는 것과 같은 변형예도 상정된다. 또한, 에이전트 시스템(330)이 텔레비전 수상기 이외의 기기와 연계되는 경우에는, 외부 에이전트 디바이스(320)는 텔레비전 수상기에 내장되어 있는 음성 에이전트여도 된다.
여기서, TV 에이전트(310)에 있어서 상정되는 유스 케이스에 대하여 정리해 둔다.
우선, TV 에이전트(310)는, 도 1에 도시한 바와 같은, 텔레비전 수상기(11)가 설치된 거실(1)에서, 복수인의 가족이 함께 텔레비전을 보고 있는 상황에서 동작하는 것이 상정된다. 도 1에 도시한 예에서는 부모 자식 3명이지만, 4명 이상의 가족이 거실(1)에 있어도 된다. 또한, 각자가 자유롭게 실내외로 이동하는 것도 상정된다.
여기서, TV 에이전트(310)가 동작하는 방(거실(1))은 정사각형과 같은 단순한 형상에 한정되지 않으며, 또한 테이블이나 소파 등의 가구나, 관엽 식물 등 여러 가지 물체가 설치됨으로써, 방의 형상은 더 복잡화된다. TV 에이전트(310)의 음장을 제어할 때는, 방의 형상은 물론, 가구의 배치나 가구의 재질, 실내 온도, 환경음, 실내의 사람의 상황도 영향을 미친다.
또한, 거실(1) 등, TV 에이전트(310)가 동작하는 환경에는, 텔레비전 수상기(11)에 연계되는 스피커가 복수 존재하는 것으로 한다. "「연계」된다"란, 텔레비전 수상기(11)의 콘텐츠의 음성 출력에 이용할 수 있을 뿐만 아니라, TV 에이전트(310)의 음성 출력에도 이용할 수 있음을 의미한다. 2 이상의 스피커를 이용함으로써, TV 에이전트(310)의 음장을 생성할 수 있다. 음장 생성에는 파면 합성 기술을 이용해도 된다. 파면 합성은, 복수의 스피커로부터 각각 출력하는 위상, 진폭 등을 적절하게 제어하여 각 파면을 공간 합성하는 기술이며, 음상 정위를 제어하거나, 방 내에서 들리는 장소와 들리지 않는 장소를 에어리어 제어하거나 할 수 있다. 스피커의 대수를 증가시킴으로써, 음상 정위나 에어리어 제어의 해상도를 높일 수 있다.
예를 들어, 텔레비전 수상기(11)에 플랫 패널형 스피커(전술)를 탑재함으로써, 연계되는 스피커의 대수를 증가시킬 수 있다(도 9를 참조). 플랫 패널형 스피커와 같은 텔레비전 수상기(11)에 내장된 스피커 외에(혹은 내장형 스피커 대신에), 텔레비전 수상기(11)에 외장 접속된 1 이상의 스피커를 이용해도 된다. 또한, 실내에서 조밀하지 않게 균일하게 음상 정위할 수 있도록 하기 위해서는, 복수의 스피커를 분산하여 배치하는 것이 바람직하다. 도 4에는 방 내에 텔레비전 수상기(11)와 연계되는 복수대의 스피커(401 내지 406)를 분산하여 배치하고 있는 예를 도시하고 있다. 또한, 도시를 생략하지만, 일부의 스피커를 천장이나 천장 부근의 상방 위치에도 설치하거나 하여, 3차원 공간에 분산하여 스피커를 배치할 수 있다면 더욱 바람직하다.
또한, 거실(1) 등, TV 에이전트(310)가 동작하는 환경에는 다양한 센서가 배치되어 있다. 예를 들어, 텔레비전 수상기(11)로서의 정보 기기(100)가 장비하는 센서부(108)나, 텔레비전 수상기(11)에 외장 접속 또는 무선 접속되어 있는 센서류이다. 센서부(108)의 상세에 대해서는, 상술을 참조하기 바란다. 또한, 방의 벽이나 천장, 바닥, 소파나 테이블 등의 가구에 내장된 센서 디바이스가, 텔레비전 수상기(11)와 통신하여, 방 내로부터 수집되는 센서 정보를 TV 에이전트(310)가 이용할 수 있도록 해도 된다. 센서 디바이스는 속성 정보를 기억한 메모리를 구비하며, 예를 들어 가구의 재질이나 크기, 무게 등의 속성 정보 구비의 센서 정보를 송신한다.
또한, 도 1에서는, 도면의 간소화를 위해, 1개의 TV 에이전트밖에 도시되어 있지 않지만, 1대의 텔레비전 수상기(11)에 복수의 음성 에이전트가 탑재되어 있는 것도 상정된다. 복수의 TV 에이전트 중에는 외부 에이전트 서비스와 연계되는 에이전트 애플리케이션도 포함된다. TV 에이전트(310)는, 다른 음성 에이전트와 공존하는 기능을 갖는 것으로 한다.
텔레비전 수상기(11)는, 선국 수신한 방송 콘텐츠나, OTT 서비스에 의해 스트리밍 배신되는 콘텐츠를 재생 출력한다. 그리고, 텔레비전 수상기(11)는, 콘텐츠의 음성을 대음량으로 재생 출력하는 것으로 한다. 또한, 화면에는 프로그램의 출연자 등의 연예인이나, 상품과 같은 다양한 오브젝트가 표시된다. 유저는, 표시 오브젝트에 관한 정보를 TV 에이전트(310)에 문의하는 것이 상정된다.
또한, TV 에이전트(310)는, 텔레비전 수상기(11)로서의 정보 기기(100)가 장비하는 센서부(108)나, 텔레비전 수상기(11)에 외장 접속 또는 무선 접속되어 있는 센서류(상술)의 검출 신호를 이용할 수 있다. 따라서, TV 에이전트(310)는, 텔레비전 수상기(11) 내의 센서부(108)나, 방 내의 센서로부터의 센서 정보를 수집함으로써, 유저의 거처나 이동하였다는 사실, 유저가 행한 제스처, 각 가구의 설치 위치를 비롯한 실내 환경에 관한 정보를 인식할 수 있다.
실시예 1
TV 에이전트(310)는, 일기 예보나 주식ㆍ환 정보, 뉴스 등의 유저로부터의 음성에 의한 질문에 대한 회답, 상품의 주문 접수, 구입한 서적 내용의 읽어 주기, 조명이나 에어컨 등의 가전 기기의 온/오프나 조정 조작 등, 외부 에이전트 디바이스(330)와 마찬가지의 음성 서비스를 유저에게 제공할 수 있다.
또한, TV 에이전트(310)는, 텔레비전 수상기(11)에 있어서의 선국, 음량 조정, 녹화, 그리고 화질 조정 등의 기기(100) 내의 조작이나, 콘텐츠의 재생에 관한 조작 등, 텔레비전 수상기(11)에 대한 조작 전반에 관한 유저 인터페이스(UI)를 제공할 수 있다. 콘텐츠의 재생에 관해서는, 텔레비전 수상기(11)에서 녹화한 콘텐츠 외에, OTT 서비스로부터 제공되는 스트리밍 콘텐츠의 재생에 관한 조작도 포함하는 것으로 한다.
또한, 본 실시 형태에서는 TV 에이전트(310)는 재생 중인 콘텐츠에 연계된 애플리케이션과의 인터랙션을 실현한다. 여기서 말하는 애플리케이션에는, 온에어 중인 방송 프로그램에 연계된 방송 애플리케이션이나, OTT 애플리케이션 등도 포함된다.
이 인터랙션의 기능에 따르면, TV 에이전트(310)는 재생 중인 콘텐츠(온에어 중 또는 스트리밍 중인 프로그램 콘텐츠)의 내용에 관한 유저로부터의 문의에 회답할 수 있다. 따라서, 유저는 출연자나 BGM과 같은 프로그램의 내용에 관한 정보를, 콘텐츠 재생을 중단하지 않고 또한 실시간으로, TV 에이전트(310)에 리퀘스트할 수 있다.
종래의(혹은 일반적인 구성으로 이루어지는) TV 리모컨의 유저 인터페이스에서는, 콘텐츠의 재생이나 음량 조정과 같은 텔레비전 수상기(11)에 대한 조작을 행할 수는 있어도, 재생 중인 콘텐츠에 연계된 애플리케이션을 조작하기는 어렵다. 이에 비해, 본 실시 형태에서는 TV 에이전트(310)가 콘텐츠에 연계된 애플리케이션과의 인터랙션 기능을 장비함으로써, 유저는 온에어 중 또는 재생 중인 콘텐츠에 관련된 정보를, 콘텐츠 재생을 중단하지 않고 또한 실시간으로, TV 에이전트(310) 경유로 취득하는 것이 가능하게 된다.
TV 에이전트(310)와, 재생 중인 콘텐츠에 연계된 애플리케이션의 인터랙션은, 콘텐츠 재생에 연계되는 애플리케이션을 서버 방송 애플리케이션 서버측의 서버 방송 애플리케이션과 연계시킴으로써 실현한다. 재생 중인 콘텐츠에 연계된 애플리케이션은, 방송 애플리케이션 서버와 직접 통신할 수 있다. 또한, 재생 중인 콘텐츠에 연계된 애플리케이션은, 텔레비전 수상기(11)의 API(Application Program Interface) 경유로, TV 에이전트(310)의 서버로서의 에이전트 시스템(330)과 통신할 수 있다.
TV 에이전트(310)에서, 재생 중인 콘텐츠에 연계된 애플리케이션과의 인터랙션에 관한 UI를 실현하는 구조에 대하여, 도 5를 참조하면서 설명한다.
전제로서, 방송국(501)으로부터는, 방송 프로그램의 콘텐츠와, 방송 애플리케이션에 관한 제어 정보(이하, 「애플리케이션 제어 정보」라고도 함)가 배신된다. 텔레비전 수상기(11)는, 방송파를 선국하여 방송 프로그램 콘텐츠 및 애플리케이션 제어 정보를 수신할 수 있다. 또한, 텔레비전 수상기(11) 상에서는, 수신한 콘텐츠가 재생됨과 함께, 재생 중인 콘텐츠에 연계되는 애플리케이션(503)이 실행된다.
(수순 1) 우선, TV 에이전트(310)가, 온에어 중인 방송 콘텐츠에 연계되는 애플리케이션의 방송 애플리케이션 서버(502)를 사전에 등록한다.
(수순 2) 유저는, 텔레비전 수상기(11) 상에서, 방송 중인 콘텐츠에 연계되는 애플리케이션을 조작한다. 이때, 방송 중인 콘텐츠에 연계되는 애플리케이션(503)은, 서버(502)측의 방송 애플리케이션으로부터 PIN(Personal Identification Number)와 같은 식별 정보를 취득하여 TV 에이전트(310)의 유저에 대하여 제시한다. 방송 중인 콘텐츠에 연계되는 애플리케이션은, 예를 들어 방송 프로그램의 화면 상에 PIN을 중첩하여 제시해도 되고, PIN을 통지하는 음성 메시지를 방송 프로그램의 음성 신호에 중첩하여 제시해도 된다. 그때, 방송 프로그램의 출연자나 음성과 겹치지 않도록 하여 PIN을 제시하는 것이 바람직하다.
(수순 3) 유저는, TV 에이전트(310)에 대하여, 방송 중인 콘텐츠에 PIN을 유효화하도록, 예를 들어 음성에 의해 리퀘스트한다.
(수순 4) TV 에이전트(310)로부터의 음성 문의에 따라, 방송 중인 콘텐츠에 연계되는 애플리케이션(503)과 서버(502)측의 방송 애플리케이션의 연계가 행해진다.
방송 중인 콘텐츠에 연계되는 애플리케이션과 서버(502)측의 방송 애플리케이션의 연계가 행해진 이후에는, TV 에이전트(310)는 재생 중인 콘텐츠에 연계된 애플리케이션과 인터랙션을 행할 수 있다. 인터랙션 때마다, 상기 수순 1 내지 3을 축차적으로 반복할 필요는 없다.
예를 들어, 유저가 TV 에이전트(310)에 대하여, 출연자나 BGM과 같은 프로그램의 내용에 관한 정보를 음성에 의해 리퀘스트한 것으로 한다.
TV 에이전트(310)는, 수음한 음성 데이터를 에이전트 시스템(330)에 송신한다. 그리고, 에이전트 시스템(330)은, TV 에이전트(310)로부터 수신한 유저의 음성 데이터를 음성 인식 및 의미 해석하여, 유저로부터 리퀘스트된 정보를 방송 애플리케이션 서버(502)에 요구한다.
방송 애플리케이션 서버(502)는, 텔레비전 수상기(11) 상에서 실행되고 있는, 방송 중인 콘텐츠에 연계되는 애플리케이션(503)과 이미 연계되어 있는 상태에 있다. 방송 애플리케이션 서버(502)는, 방송 중인 콘텐츠에 연계되는 애플리케이션에 대하여, 에이전트 시스템(330)으로부터 리퀘스트된 정보를 요구한다.
방송 콘텐츠에 부수되는 데이터 방송에서 리퀘스트된 정보가 전송되고 있는 경우에는, 방송 중인 콘텐츠에 연계되는 애플리케이션(503)은, 이러한 종류의 데이터 방송을 복호하여 리퀘스트된 정보를 취득할 수 있다. 혹은, 방송 중인 콘텐츠에 연계되는 애플리케이션은, 방송 콘텐츠의 영상 또는 음성을 데이터 해석하여, 유저로부터 리퀘스트되고 있는 정보를 취득하도록 해도 된다.
그리고, 방송 중인 콘텐츠에 연계되는 애플리케이션(503)은, 방송 중인 프로그램의 출연자나 BGM과 같은 리퀘스트된 정보를 회신한다. 이때, 방송 중인 콘텐츠에 연계되는 애플리케이션(503)은, 방송 애플리케이션 서버(502) 경유로 에이전트 시스템(330)에 정보를 회신하도록 해도 되고, 텔레비전 수상기(11)의 API 경유로 에이전트 시스템(330)에 정보를 회신하도록 해도 된다.
에이전트 시스템(330)은, 방송 중인 콘텐츠에 연계되는 애플리케이션으로부터 회신된 정보에 기초하여, 유저에 대한 회답을 생성하고, 이것을 음성 합성하여 TV 에이전트(310)에 송신한다. 그리고, TV 에이전트(310)는, 방송 중인 프로그램의 출연자나 BGM과 같은, 유저로부터의 문의에 대한 응답 메시지를 음성 출력한다. TV 에이전트(310)의 영상(아바타 등)을 텔레비전 화면에 표시하는 에이전트 서비스의 경우, 그러한 영상의 표시 위치에 TV 에이전트(310)의 음성을 음상 정위시킴으로써, 유저에게 위화감을 주지 않도록 한다. 또한, TV 에이전트(310)의 음장 생성에는, 복수의 스피커로부터 각각 출력하는 위상, 진폭 등을 적절하게 제어하여 각 파면을 공간 합성하는 파면 합성 기술을 이용해도 된다. 파면 합성을 실현하기 위해, 음성 출력부(106)로서, 표시부(104)의 화면에 내장되어 있는 플랫 패널형 스피커(도 9를 참조)를 음성 출력부(106)로 사용해도 된다.
또한, TV 에이전트(310)는, 유저로부터의 문의에 따라 인터랙션을 행할 뿐만 아니라, 주체적으로 인터랙션을 행하는 것도 상정된다. TV 에이전트(310)는, 예를 들어 AI 기능 등을 이용하여, 재생할 콘텐츠별로, 혹은 재생 중인 콘텐츠의 챕터별로 또는 씬별로 콘텐츠에 대한 흥미 정도를 변화시킨다. 그리고, TV 에이전트(310)는, 콘텐츠에 대한 흥미 정도가 높아지면, 상술한 기능을 이용하여 재생 중인 콘텐츠에 관한 정보를 수집하여 유저와의 회화를 자율적으로 행한다. 한편, TV 에이전트(310)는, 콘텐츠에 대한 흥미 정도가 낮아지면, 유저와 회화를 행하는 빈도를 저하시키거나, 과묵해지거나 한다.
도 5에서는 TV 에이전트(310)가 재생 중인 콘텐츠에 연계된 애플리케이션(503)과 인터랙션하는 실시예를 도시하였다. 물론, 외부 에이전트 디바이스(320)의 애플리케이션도, 상기와 마찬가지의 구조에 의해, 외부 에이전트 서비스(340)를 통하여, 텔레비전 수상기(11)에서 재생 중인 콘텐츠에 연계된 애플리케이션과의 인터랙션을 실현할 수 있다.
또한, 도 5에서는 TV 에이전트(310)가 방송 콘텐츠의 연계된 애플리케이션과 인터랙션을 행하는 구조를 도시하였지만, TV 에이전트(310)는, OTT 서비스의 애플리케이션을 포함시켜, 방송 애플리케이션 이외의 여러 가지 애플리케이션과 마찬가지로 인터랙션을 행할 수 있다. 물론, TV 에이전트(310)에 한하지 않고, 외부 에이전트 디바이스(320)의 애플리케이션도, OTT 서비스의 애플리케이션을 포함시켜, 방송 애플리케이션 이외의 여러 가지 애플리케이션과 마찬가지로 인터랙션을 행할 수 있다.
실시예 2
텔레비전 수상기(11)에 내장되어 있는 TV 에이전트(310)가 음성 서비스를 실시하는 경우, 텔레비전 방송의 음성과 TV 에이전트(310)의 음성 UI의 음성이 섞여, 유저가 알아 듣기 어려워진다고 하는 문제가 있다. 또한, 동일 문제는, 음악 플레이어 등의 음향 출력 기기에 음성 에이전트가 내장되어 있는 경우에도 발생할 수 있다. 부언하면, TV 에이전트(310)의 영상(아바타 등)을 텔레비전 화면에 표시하는 에이전트 서비스의 경우, 그러한 영상의 표시 위치와는 다른 장소로부터 음성이 들려오면, 유저에게 위화감을 주게 될 것이 우려된다.
또한, 거실(1)에 텔레비전 수상기(11)가 설치되어 있는 상황에서는(도 1을 참조), 복수인의 가족과 같이, TV 에이전트(310)가 복수의 유저를 상대로 하는 것이 상정된다. TV 에이전트(310)는, 유저 전원이 아니라, 일부의 유저하고만 인터랙션을 행하는 경우가 있다. 예를 들어, TV 에이전트(310)가 1명의 유저로부터 받은 리퀘스트에 대하여 회답하는 경우나, TV 에이전트(310)가 일부의 유저에 한정하여 주체적인 인터랙션을 행하는 경우 등이다. 리퀘스트하지 않은 그 밖의 유저나, 인터랙션의 대상에서 빠진 유저에게 있어서는, TV 에이전트(310)의 음성 서비스는 방해가 되어, 텔레비전 방송의 음성을 알아 듣기 어렵게 한다고 하는 문제가 있다.
또한, 1대의 텔레비전 수상기(11)에 TV 에이전트(310) 이외의 음성 에이전트도 탑재되어 있는 경우에는, 유저는 음성 서비스가 어느 에이전트에 의한 것인지를 식별하기 어렵게 된다고 하는 문제가 있다. 복수의 음성 에이전트가 각각 다른 에이전트 서비스와 연계되어 있는 경우에는, 서로의 음성 서비스가 중첩되어 알아 듣기 어렵게 되는 케이스도 상정된다. 텔레비전 수상기 이외의 정보 기기에 복수의 음성 에이전트가 탑재되는 경우에도, 마찬가지의 문제가 발생할 수 있다.
본 실시 형태에서는 파면 합성으로 대표되는 음장 생성 기술을 도입함으로써, 상술한 바와 같은 음성의 섞임(혹은 음성끼리의 간섭)을 회피하여, TV 에이전트(310)의 음성 식별성을 확보하도록 하고 있다. 파면 합성은, 복수의 스피커로부터 각각 출력하는 위상, 진폭 등을 적절하게 제어하여 각 파면을 공간 합성하는 기술이며, 음상 정위를 제어하거나, 방 내에서 들리는 장소와 들리지 않는 장소를 에어리어 제어하거나 할 수 있다. 예를 들어, 도 4에 도시한 TV 에이전트(310)의 동작 환경에는 파면 합성 기술을 도입하는 것이 가능하다.
예를 들어, TV 에이전트(310)의 음상을, 텔레비전 화면의 옆이나 위, 혹은 방의 천장 등 텔레비전 수상기(11)로부터 이격된 장소에 정위시킴으로써, 유저는 텔레비전 방송의 음성과 TV 에이전트(310)의 음성 UI의 음성을 식별하기 쉬워진다. 또한, 인터랙션의 상대가 되는 유저의 어깨나 귓전, 헤드 위 등에 TV 에이전트(310)의 음성을 음상 정위시키면, 유저는 보고 있는 프로그램과는 다른 것으로부터 말을 걸고 있는 인상을 받아, 텔레비전 방송의 음성과 TV 에이전트(310)의 음성 UI의 음성의 섞임을 방지할 수 있다.
TV 에이전트(310)의 영상(아바타 등)을 텔레비전 화면에 표시하는 에이전트 서비스의 경우, 그러한 영상의 표시 위치에 TV 에이전트(310)의 음성을 음상 정위시킴으로써, 유저에게 위화감을 주지 않도록 한다. TV 에이전트(310)의 음장 생성에는 복수의 스피커로부터 각각 출력하는 위상, 진폭 등을 적절하게 제어하여 각 파면을 공간 합성하는 파면 합성 기술을 이용해도 된다. 파면 합성을 실현하기 위해, 음성 출력부(106)로서, 표시부(104)의 화면에 내장되어 있는 플랫 패널형 스피커(도 9를 참조)를 음성 출력부(106)로 사용해도 된다.
부언하면, 출연자의 얼굴과 같은 방송 콘텐츠의 화면의 주목 영역을 피하여, TV 에이전트(310)의 영상을 표시하거나, 주목 영역 이외의 위치에 TV 에이전트(310)의 음상을 정위시키거나 하는 것이 바람직하다. 도 6에는 텔레비전 수상기(11)의 화면 상에서, 주목 영역(출연자 등)을 피하여 표시된 TV 에이전트(310)의 영상(아바타 등)(601)에, TV 에이전트(310)의 음성 UI가 음상 정위된 모습을 도시하고 있다. 당연히, 텔레비전 화면에 아바타 등을 표시시키지 않는 경우에 있어서도, 상기 주목 영역을 피한 음상 정위 처리를 행하는 것이 가능하다. 실내에 있는 유저 위치나 속성에 대해서는 이미 설명한 바와 같이 각종 센서에 의한 센싱 결과를 사용하는 것으로 한다. 이에 의해 음성 에이전트를 이용하는 유저에게 있어서, 방송 콘텐츠와 에이전트 음성을 듣고 구별하기 쉬워지는 효과가 있다.
또한, 복수의 유저 중, 인터랙션의 상대가 되는 유저에게만 TV 에이전트(310)의 음성을 음상 정위시키도록 하여, 그 이외의 유저의 텔레비전 프로그램의 시청을 방해하지 않도록 한다. 파면 합성 기술에 따르면, 1개의 음원을 복수의 장소에 음상 정위시킬 수 있으므로, 인터랙션의 상대가 2명 이상 있는 경우에는, 그 유저마다 음상 정위하면 된다. 인터랙션의 상대가 되는 유저와, 그 이외의 유저가 각각 나누어져 존재하는 경우에는, 파면 합성에 의해 TV 에이전트(310)의 음성이 들리는 에어리어와 들리지 않는 에어리어를 생성하도록 에어리어 제어해도 된다. 예를 들어, 소파에 앉아 있는 유저와는 인터랙션하지만, 식탁에 있는 유저와는 인터랙션하지 않는 경우에는, TV 에이전트(310)의 음성이 소파 부근에서는 들리지만, 식탁 부근에서는 들리지 않도록 TV 에이전트(310)의 음상을 에어리어 제어한다.
또한, 1대의 텔레비전 수상기(11)에 복수의 TV 에이전트가 탑재되어 있는 경우에는, 텔레비전 수상기(11)의 전방, 우측, 좌측, 천장(혹은 상공), 바닥 등, TV 에이전트마다 음성을 음상 정위하는 장소를 바꾸도록 하여 식별성을 확보하도록 한다. 물론, TV 에이전트마다 음성 UI의 음색을 바꾸도록 해도 된다.
부언하면, 음장 생성 기술에 추가하여(혹은 음장 생성 기술 대신에), 각 TV 에이전트에 음성의 충돌 회피 기술을 도입하여 TV 에이전트간에서 음성이 서로 섞이지 않도록 해도 된다. 예를 들어, 각 TV 에이전트는 랜덤 백오프 시간만 대기하고 나서 발화를 개시하도록 하여, 다른 TV 에이전트의 음성을 간섭하지 않도록 한다. 혹은, 각 TV 에이전트에 발화의 우선 순위를 할당하여, 우선도가 낮은 TV 에이전트가 우선도가 높은 TV 에이전트의 음성에 인터럽트하지 않도록 한다.
또한, TV 에이전트(310)에 음장 생성 기술을 도입하는 경우에는, 이론대로의 음장을 생성할 수 있도록 최적의 환경을 형성하는 것이 바람직하다. 그런데, 음장은, 텔레비전 수상기(11)가 설치된 방의 형상이나, 가구의 배치나 가구의 재질, 실내 온도, 환경음, 실내의 사람의 상황의 영향을 받는다.
그래서, 예를 들어 텔레비전 수상기(11)로서의 정보 기기(100)가 장비하는 센서부(108)나, 텔레비전 수상기(11)에 외장 접속 또는 무선 접속되어 있는 센서류, 나아가 방의 벽이나 천장, 바닥, 소파나 테이블 등의 가구에 내장된 센서 디바이스 등을 사용하여 센싱된 환경 데이터에 기초하여, TV 에이전트(310)의 음성 UI의 음장을 제어하는 것이 바람직하다.
또한, 경우에 따라서는, TV 에이전트(310)가 최적의 음성 서비스를 제공하기 위해서는, 인터랙션의 상대가 되는 유저에 대하여, 실내에서의 거처의 변경이나, 가구 등의 방의 레이아웃의 변경을 촉구하도록 해도 된다.
또한, 애써 유저가 TV 에이전트(310)로부터의 권고에 따라 스스로 이동하거나, 방의 레이아웃을 변경하거나 하여 환경을 정돈하였다고 해도, 이론대로 음장이 개선되지는 않고, 센싱된 환경 데이터로부터는 음장 제어에 최적인 실내 환경을 계산할 수 없는 것도 상정된다. 이러한 경우에는 TV 에이전트(310)는 자신의 음성 UI의 들리는 상태 등을 질문하는 것과 같은 유저와의 대화를 통하여, 센싱된 환경 데이터로는 부족한 정보를 취득하도록 해도 된다. 그리고, 대화를 통하여 새롭게 얻어진 정보를 포함시켜 실내의 최적 환경을 재계산하여, 유저에게 다시 방의 레이아웃의 변경을 촉구하도록 해도 된다.
도 7에는 TV 에이전트(310)의 동작 수순의 일례를 흐름도의 형식으로 도시하고 있다.
TV 에이전트(310)는, 예를 들어 초기화 처리의 일부로서, 센서부(108)나 실내의 각처에 배치된 센서 디바이스로부터 센서 정보를 수집한다(스텝 S701).
그리고, TV 에이전트(310)는, 수집한 센서 정보에 기초하여, 방의 구조나, 방 내에 설치된 가구 등의 물체의 위치나 재질을 추정하여, TV 에이전트(310)의 음성 UI의 음장 제어에 최적으로 되는, 유저나 가구의 위치를 계산하여(스텝 S702), 그 결과를 유저에게 제시한다(스텝 S703).
TV 에이전트(310)는, 실내의 최적 배치에 관한 정보를, 예를 들어 텔레비전 수상기(11)로부터 음성 가이던스에 의해 제시해도 되고, 화면에 표시하도록 해도 된다. 어떻든, 유저의 시청을 방해하지 않도록 하여 제시 처리를 행하는 것이 바람직하다.
유저는, TV 에이전트(310)로부터 제시된 대로, 방의 레이아웃이나 자신의 위치를 충실하게 변경하는 경우도 있는가 하면, 일부만 변경하는 경우나, 전혀 변경하지 않는 경우도 상정된다.
그 후, TV 에이전트(310)는 유저와의 인터랙션을 개시한다(스텝 S704). 유저와의 인터랙션은, 유저로부터의 문의에 따라 개시되는 경우(예를 들어, 유저가 TV 에이전트(310)의 기동 워드를 발화한 경우)가 있는가 하면, TV 에이전트(310)가 주체가 되어 인터랙션을 개시하는 경우도 있다. 어떻든, TV 에이전트(310)는, 인터랙션 중에 자기의 음성 UI의 들리는 상태 등을 질문하는 대화를 포함시키도록 하여, 스텝 S701에서 수집한 환경 데이터로는 부족한 정보를 취득하도록 노력한다. 물론, TV 에이전트(310)는 유저와의 통상의 인터랙션과는 분리하여, 부족한 정보를 취득하는 것을 목적으로 한 유저와의 대화를 실시하도록 해도 된다.
그리고, TV 에이전트(310)는, 유저와의 인터랙션을 통하여 새롭게 취득한 정보에 기초하여, 현재의 방 내 환경이 음장의 제어에 최적 혹은 허용 범위 내인지 여부를 체크한다(스텝 S705). 현재의 방 내 환경이 음장의 제어에 최적 혹은 허용 범위 내이면(스텝 S705의 "예"), TV 에이전트(310)는 그대로 유저와의 인터랙션을 계속한다. 한편, 현재의 방 내 환경이 음장의 제어에 최적이지 않거나 혹은 허용 범위 내가 아니면(스텝 S705의 "예"), 스텝 S702로 되돌아가, TV 에이전트(310)는 방 내의 최적 배치의 계산과 유저에 대한 제시를 반복하여 실시한다.
도 8에는, 파면 합성 등의 음장 생성 기술을 적용하여, 음성 에이전트의 음성이 다른 콘텐츠의 음성 등 다른 음성과 서로 섞이지 않도록 하는 음장 제어 시스템(800)의 구성예를 모식적으로 도시하고 있다. 도시된 음장 제어 시스템(800)은 취득부(801)와 제어부(802)를 구비하고 있다. 취득부(801) 그리고 제어부(802)는, 예를 들어 텔레비전 수상기(11)로서의 정보 기기(100)의 처리부(101)에서 실현되는 기능 모듈을 상정하고 있다.
취득부(801)는, 유저와의 인터랙션을 통하여 재생되는 TV 에이전트(310)의 음성 정보와, TV 에이전트(310)의 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득한다. TV 에이전트(310)의 음성 정보는, 예를 들어 에이전트 시스템(330) 내의 제어부(334)에서 생성된 텍스트 정보를, 음성 합성부(333)에서 음성 신호로 변환한 것이다. 또한, TV 에이전트(310)의 음성 정보와는 상이한 다른 콘텐츠의 음성 정보는, 텔레비전 수상기(11)가 설치되고, TV 에이전트(310)가 동작하는 환경 내에서 발생하는, TV 에이전트(310) 이외의 음성 정보이다. TV 에이전트(310)의 음성 정보와는 상이한 다른 콘텐츠의 음성 정보는, 주로 텔레비전 프로그램의 방송 콘텐츠의 음성이다. 또한, 외부 에이전트 디바이스(320)가 (TV 에이전트와는 무관하게) 출력하는 음성 정보나, TV 에이전트(310)가 동작하는 환경 내에 설치된 오디오 기기 등으로부터 출력되는 악곡 등의 음성 정보도, TV 에이전트(310)의 음성 정보와는 상이한 다른 콘텐츠의 음성 정보에 포함시킬 수 있다.
취득부(801)는, TV 에이전트(310)의 음성 정보를 에이전트 시스템(330)의 음성 합성부(333)로부터 취득한다. 또한, 취득부(801)는, 텔레비전 프로그램의 방송 콘텐츠의 음성 정보를 튜너(102) 경유로 취득한다. 또한, 취득부(801)는, 방송 콘텐츠의 음성 정보에 관련된 데이터 방송 애플리케이션으로부터, 텔레비전 수상기(11)가 구비하는 API 경유로 취득한다. 또한, 취득부(801)는, 방송 콘텐츠 이외의 음성 정보를 센서부(108)로부터 취득한다. 또한, 정보 기기(100)와는 홈 네트워크 경유로 접속되는 오디오 기기에서 재생되는 콘텐츠의 음성 정보에 관해서는, 통신부(103)를 통하여 취득하도록 해도 된다.
제어부(802)는, 예를 들어 TV 에이전트(310)의 동작 환경 내에 분산하여 배치되고, 텔레비전 수상기(11)와 연계되는 복수대의 스피커(401 내지 406)의 구동을 제어하여, 원하는 음장을 생성한다. 제어부(802)는, 상기 취득부(801)에 의해 취득된 TV 에이전트(310)의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행한다. 구체적으로는, 제어부(802)는, TV 에이전트의 음성 정보에 기초하는 음성 출력이, 다른 콘텐츠의 음성 정보에 기초하는 음성 출력과 다른 음상 정위 위치로 되도록 음장 제어 처리를 행한다.
TV 에이전트(310)의 영상(아바타 등)을 텔레비전 화면에 표시하는 에이전트 서비스의 경우, 제어부(802)는, TV 에이전트(310)의 영상의 표시 위치에 TV 에이전트(310)의 음성을 음상 정위시킨다. 또한, 제어부(802)는, 출연자의 얼굴과 같은 방송 콘텐츠의 화면의 주목 영역을 피하여, TV 에이전트(310)의 영상을 표시하거나, 주목 영역 이외의 위치에 TV 에이전트(310)의 음상을 정위시키거나 한다. 또한, TV 에이전트(310)가 동작하는 환경 내에 복수의 유저가 존재하는 경우에는, 제어부(802)는, TV 에이전트(310)의 인터랙션의 상대가 되는 유저에게만 TV 에이전트(310)의 음성을 음상 정위시키도록 한다. 또한, 제어부(802)는, 도 7에 도시한 처리 수순에 따라 TV 에이전트(310)의 음성 정보의 음장을 피드백 제어할 수도 있다.
또한, 본 실시 형태에 있어서는 IoT 디바이스와의 연계를 위해, 파면 합성 기술 외에 두부 전달 함수(Head Related Transfer Function)를 이용한 음장 생성 기술과 조합해도 된다. 예를 들어 음성 에이전트를 이용하여 IoT 디바이스를 조작한 경우, 조작 대상으로 된 IoT 디바이스의 방향으로부터 응답 반응 음성을 발생시키도록 하는 것 등이 고려된다. IoT 디바이스에 대해서는 이미 설명한 바와 같이 에이전트 디바이스측에서 IoT 기기의 속성 정보로서 위치 정보를 갖고 있다는 점에서, 위치 정보에 따른 두부 전달 함수를 음성 신호에 컨벌루션함으로써, 상기 효과를 얻을 수 있다.
또한, 거실 내의 환경 정보를 센싱한 결과에 기초하여, 음성 에이전트가 발하는 음성을 변화시키는 것도 가능하다. 예를 들어, 음성 에이전트를 조작하고 있는 것이 어린이인 경우, 에이전트 기기가 발하는 음성 속도를 저감시키거나, 고령자가 음성 에이전트를 이용하고 있는 경우에는 출력하는 음성 신호의 음압이나 주파수를 변화시키거나 하는 것이 고려된다.
이상, 특정 실시 형태를 참조하면서, 본 명세서에서 개시하는 기술에 대하여 상세하게 설명하였다. 그러나, 본 명세서에서 개시하는 기술의 요지를 일탈하지 않는 범위에서 당업자가 해당 실시 형태의 수정이나 대용을 이룰 수 있는 것은 자명하다.
본 명세서에서는, 본 명세서에서 개시하는 기술을 텔레비전 수상기에 내장되어 있는 TV 에이전트에 적용한 실시 형태를 중심으로 설명하였지만, 본 명세서에서 개시하는 기술의 요지는 이것에 한정되는 것은 아니다. 에어컨, 녹화기, 세탁기 등의 각종 CE 기기나 IoT 디바이스, 스마트폰이나 태블릿 등의 유저가 휴대 가능한 정보 단말기, 유저가 착용하는 웨어러블 기기, 대화형 로봇, 차내에 설치된 카 네비게이션 등 각종 정보 기기에 내장되어 있는 에이전트를 이용한 다양한 에이전트 시스템에 대해서도, 마찬가지로 본 명세서에서 개시하는 기술을 적용하고, 필요에 따라 외부 에이전트 서비스를 이용할 수 있도록 할 수 있다.
요컨대, 예시라고 하는 형태에 의해 본 명세서에서 개시하는 기술에 대하여 설명해 온 것이며, 본 명세서의 기재 내용을 한정적으로 해석해서는 안된다. 본 명세서에서 개시하는 기술의 요지를 판단하기 위해서는 특허청구범위를 참작해야 한다.
또한, 본 명세서의 개시 기술은, 이하와 같은 구성을 취하는 것도 가능하다.
(1) 유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득부와,
상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어부
를 구비하는 정보 처리 장치.
(2) 상기 제어부는, 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력이, 상기 다른 콘텐츠의 음성 정보에 기초하는 음성 출력과 다른 음상 정위 위치로 되도록 음장 제어 처리를 행하는,
상기 (1)에 기재된 정보 처리 장치.
(3) 상기 에이전트 기기는 텔레비전 수상기인,
상기 (1)에 기재된 정보 처리 장치.
(4) 상기 취득부는, 상기 에이전트 기기 상에서 재생 중인 콘텐츠에 연계된 애플리케이션과의 인터랙션을 통하여, 상기 재생 중인 콘텐츠에 관련된 상기 정보를 취득하는,
상기 (1) 내지 (3) 중 어느 것에 기재된 정보 처리 장치.
(5) 상기 취득부는, 상기 에이전트 기기 상에서 재생 중인 콘텐츠에 연계된 애플리케이션과 애플리케이션 서버의 연계를 통하여, 상기 재생 중인 콘텐츠에 관련된 상기 정보를 취득하는,
상기 (4)에 기재된 정보 처리 장치.
(6) 상기 취득부는, 상기 에이전트 기기가 구비하는 API 경유로, 상기 재생 중인 콘텐츠에 연계된 애플리케이션으로부터 상기 정보를 취득하는,
상기 (4)에 기재된 정보 처리 장치.
(7) 상기 에이전트 기기는 상기 애플리케이션 서버에 사전 등록하는,
상기 (4) 내지 (6) 중 어느 것에 기재된 정보 처리 장치.
(8) 상기 취득부는, 방송 콘텐츠에 연계된 애플리케이션과 방송 애플리케이션 서버의 연계를 통하여 상기 정보를 취득하는,
상기 (4) 내지 (7) 중 어느 것에 기재된 정보 처리 장치.
(9) 상기 취득부는, 스트리밍 중인 콘텐츠에 연계된 애플리케이션과 스트리밍용 애플리케이션 서버의 연계를 통하여 상기 정보를 취득하는,
상기 (4) 내지 (8) 중 어느 것에 기재된 정보 처리 장치.
(10) 상기 제어부는, 복수의 스피커로부터의 출력 음성을 파면 합성하여, 상기 에이전트 기기의 음장을 제어하는,
상기 (1) 내지 (9) 중 어느 것에 기재된 정보 처리 장치.
(11) 상기 제어부는, 상기 에이전트 기기 이외의 장소에 상기 에이전트 기기의 음상을 정위시키는,
상기 (1) 내지 (10) 중 어느 것에 기재된 정보 처리 장치.
(12) 상기 제어부는, 상기 에이전트 기기의 화면에 표시된 소정 화상의 위치에 상기 에이전트 기기의 음성 정보의 음상을 정위시키는,
상기 (1) 내지 (10) 중 어느 것에 기재된 정보 처리 장치.
(13) 상기 제어부는, 상기 에이전트 기기의 화면 상에서, 재생 중인 콘텐츠의 주목 영역 이외의 위치에 상기 에이전트 기기의 음상을 정위시키는,
상기 (12)에 기재된 정보 처리 장치.
(14) 상기 제어부는, 특정 유저가 있는 장소에 상기 에이전트 기기의 음상을 정위시키는,
상기 (1) 내지 (11) 중 어느 것에 기재된 정보 처리 장치.
(15) 상기 제어부는, 상기 에이전트 기기의 음성이 들리는 에어리어를 제어하는,
상기 (1) 내지 (11) 중 어느 것에 기재된 정보 처리 장치.
(16) 상기 에이전트 기기로부터 출력하는 복수의 음성 정보의 각 음상을 각각 다른 장소에 정위시키는,
상기 (1) 내지 (15) 중 어느 것에 기재된 정보 처리 장치.
(17) 상기 제어부는, 상기 음장의 제어에 적합한 환경을 계산하고, 계산 결과를 제시하는,
상기 (1) 내지 (16) 중 어느 것에 기재된 정보 처리 장치.
(18) 상기 제어부는, 상기 에이전트 기기에 의한 유저와의 인터랙션을 통하여, 상기 환경의 적부를 판정하는,
상기 (19)에 기재된 정보 처리 장치.
(19) 유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득 스텝과,
상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어 스텝
을 갖는 정보 처리 방법.
(20) 유저와의 인터랙션을 통하여 음성 정보를 재생하는 에이전트 기기와,
상기 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하여, 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어 장치
를 구비하는 정보 처리 시스템.
100: 정보 기기(텔레비전 수상기)
101: 처리부
102: 튜너
103: 통신부
104: 표시부
105: 음성 입력부
106: 음성 출력부
107: 촬상부
108: 센서부
109: 리모컨 수신부
110: 기록부
300: 에이전트 클라우드 플랫폼
310: TV 에이전트
320: 외부 에이전트 디바이스
321: 음성 입력부
322: 음성 출력부
330: 에이전트 시스템
331: 음성 인식부
332: 의미 해석부
333: 음성 합성부
334: 제어부
401 내지 406: 스피커
501: 방송국
502: 방송 애플리케이션 서버
800: 음장 제어 시스템
801: 취득부
802: 제어부
900: 디스플레이
901: 스피커 유닛
901-1 및 901-2: 가진기(액추에이터)
902: 스탠드
1001: 영상 처리부
1002: 음성 처리부
1003: 윈도우 제어부
1101: 비주얼 커뮤니케이션 처리부
1102: 음성 처리부
1103: 윈도우 제어부
1201: 그래픽 처리부
1202: 컴포저
1203: 음성 처리부
1204: 윈도우 제어부
1201: 영상 처리부
1202: 컴포저
1203: 음성 처리부
1204: 윈도우 제어부

Claims (20)

  1. 유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득부와,
    상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어부
    를 구비하는, 정보 처리 장치.
  2. 제1항에 있어서, 상기 제어부는, 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력이, 상기 다른 콘텐츠의 음성 정보에 기초하는 음성 출력과 다른 음상 정위 위치로 되도록 음장 제어 처리를 행하는, 정보 처리 장치.
  3. 제1항에 있어서, 상기 에이전트 기기는 텔레비전 수상기인, 정보 처리 장치.
  4. 제1항에 있어서, 상기 취득부는, 상기 에이전트 기기 상에서 재생 중인 콘텐츠에 연계된 애플리케이션과의 인터랙션을 통하여, 상기 재생 중인 콘텐츠에 관련된 상기 정보를 취득하는, 정보 처리 장치.
  5. 제4항에 있어서, 상기 취득부는, 상기 에이전트 기기 상에서 재생 중인 콘텐츠에 연계된 애플리케이션과 애플리케이션 서버의 연계를 통하여, 상기 재생 중인 콘텐츠에 관련된 상기 정보를 취득하는, 정보 처리 장치.
  6. 제4항에 있어서, 상기 취득부는, 상기 에이전트 기기가 구비하는 API 경유로, 상기 재생 중인 콘텐츠에 연계된 애플리케이션으로부터 상기 정보를 취득하는, 정보 처리 장치.
  7. 제4항에 있어서, 상기 에이전트 기기는 상기 애플리케이션 서버에 사전 등록하는, 정보 처리 장치.
  8. 제4항에 있어서, 상기 취득부는, 방송 콘텐츠에 연계된 애플리케이션과 방송 애플리케이션 서버의 연계를 통하여 상기 정보를 취득하는, 정보 처리 장치.
  9. 제4항에 있어서, 상기 취득부는, 스트리밍 중인 콘텐츠에 연계된 애플리케이션과 스트리밍용 애플리케이션 서버의 연계를 통하여 상기 정보를 취득하는, 정보 처리 장치.
  10. 제1항에 있어서, 상기 제어부는, 복수의 스피커로부터의 출력 음성을 파면 합성하여, 상기 에이전트 기기의 음장을 제어하는, 정보 처리 장치.
  11. 제1항에 있어서, 상기 제어부는, 상기 에이전트 기기 이외의 장소에 상기 에이전트 기기의 음상을 정위시키는, 정보 처리 장치.
  12. 제1항에 있어서, 상기 제어부는, 상기 에이전트 기기의 화면에 표시된 소정 화상의 위치에 상기 에이전트 기기의 음성 정보의 음상을 정위시키는, 정보 처리 장치.
  13. 제12항에 있어서, 상기 제어부는, 상기 에이전트 기기의 화면 상에서, 재생 중인 콘텐츠의 주목 영역 이외의 위치에 상기 에이전트 기기의 음상을 정위시키는, 정보 처리 장치.
  14. 제1항에 있어서, 상기 제어부는, 특정 유저가 있는 장소에 상기 에이전트 기기의 음상을 정위시키는, 정보 처리 장치.
  15. 제1항에 있어서, 상기 제어부는, 상기 에이전트 기기의 음성이 들리는 에어리어를 제어하는, 정보 처리 장치.
  16. 제1항에 있어서, 상기 에이전트 기기로부터 출력하는 복수의 음성 정보의 각 음상을 각각 다른 장소에 정위시키는, 정보 처리 장치.
  17. 제1항에 있어서, 상기 제어부는, 상기 음장의 제어에 적합한 환경을 계산하고, 계산 결과를 제시하는, 정보 처리 장치.
  18. 제17항에 있어서, 상기 제어부는, 상기 에이전트 기기에 의한 유저와의 인터랙션을 통하여 상기 환경의 적부를 판정하는, 정보 처리 장치.
  19. 유저와의 인터랙션을 통하여 재생되는 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하는 취득 스텝과,
    상기 취득부에 의해 취득된 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어 스텝
    을 갖는, 정보 처리 방법.
  20. 유저와의 인터랙션을 통하여 음성 정보를 재생하는 에이전트 기기와,
    상기 에이전트 기기의 음성 정보와, 상기 음성 정보와는 상이한 다른 콘텐츠의 음성 정보를 취득하여, 상기 에이전트 기기의 음성 정보에 기초하는 음성 출력 신호에 대하여 음장 제어 처리를 행하는 제어 장치
    를 구비하는, 정보 처리 시스템.
KR1020207036754A 2018-06-25 2019-04-25 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 KR102638946B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2018-120152 2018-06-25
JP2018120152 2018-06-25
PCT/JP2019/017801 WO2020003730A1 (ja) 2018-06-25 2019-04-25 情報処理装置及び情報処理方法、並びに情報処理システム

Publications (2)

Publication Number Publication Date
KR20210022579A true KR20210022579A (ko) 2021-03-03
KR102638946B1 KR102638946B1 (ko) 2024-02-22

Family

ID=68984784

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207036754A KR102638946B1 (ko) 2018-06-25 2019-04-25 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템

Country Status (6)

Country Link
US (1) US11234094B2 (ko)
JP (1) JP7294337B2 (ko)
KR (1) KR102638946B1 (ko)
CN (1) CN112313971B (ko)
DE (1) DE112019003189T5 (ko)
WO (1) WO2020003730A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116457874A (zh) * 2020-10-07 2023-07-18 三星电子株式会社 用于理解自然语言的电子装置和参数获取方法
EP4319182A1 (en) 2021-03-31 2024-02-07 Sony Group Corporation Information processing terminal, information processing method, and program
US20230031145A1 (en) * 2021-07-29 2023-02-02 Comcast Cable Communications, Llc Accidental voice trigger avoidance using thermal data

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007143010A (ja) 2005-11-22 2007-06-07 Sony Corp テレビジョン装置
WO2014203495A1 (ja) 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
JP2016100613A (ja) 2014-11-18 2016-05-30 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2016139972A (ja) * 2015-01-28 2016-08-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、音声出力方法及びコンピュータプログラム
CN205847475U (zh) * 2016-06-21 2016-12-28 甘肃省广播电视网络股份有限公司 基于语音交互的网络机顶盒应用系统
CN107105340A (zh) * 2017-03-21 2017-08-29 百度在线网络技术(北京)有限公司 基于人工智能的视频中显示人物信息方法、装置和系统
JP2017527844A (ja) 2014-08-11 2017-09-21 アマゾン テクノロジーズ インコーポレイテッド 音声アプリケーション・アーキテクチャ

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4837512B2 (ja) * 2006-09-29 2011-12-14 独立行政法人科学技術振興機構 音源選択装置
JP5007590B2 (ja) * 2007-03-30 2012-08-22 富士通株式会社 テレビ電話システムおよびエージェント装置
CN103886861B (zh) * 2012-12-20 2017-03-01 联想(北京)有限公司 一种控制电子设备的方法及电子设备
CN105635778A (zh) * 2015-12-29 2016-06-01 康佳集团股份有限公司 一种智能电视的语音交互方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007143010A (ja) 2005-11-22 2007-06-07 Sony Corp テレビジョン装置
WO2014203495A1 (ja) 2013-06-19 2014-12-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声対話方法、及び機器
JP2017527844A (ja) 2014-08-11 2017-09-21 アマゾン テクノロジーズ インコーポレイテッド 音声アプリケーション・アーキテクチャ
JP2016100613A (ja) 2014-11-18 2016-05-30 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム
JP2016139972A (ja) * 2015-01-28 2016-08-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報処理装置、音声出力方法及びコンピュータプログラム
CN205847475U (zh) * 2016-06-21 2016-12-28 甘肃省广播电视网络股份有限公司 基于语音交互的网络机顶盒应用系统
CN107105340A (zh) * 2017-03-21 2017-08-29 百度在线网络技术(北京)有限公司 基于人工智能的视频中显示人物信息方法、装置和系统

Also Published As

Publication number Publication date
KR102638946B1 (ko) 2024-02-22
US11234094B2 (en) 2022-01-25
CN112313971A (zh) 2021-02-02
JPWO2020003730A1 (ja) 2021-07-08
US20210266692A1 (en) 2021-08-26
DE112019003189T5 (de) 2021-04-08
JP7294337B2 (ja) 2023-06-20
CN112313971B (zh) 2023-06-02
WO2020003730A1 (ja) 2020-01-02

Similar Documents

Publication Publication Date Title
US11640275B2 (en) Devices with enhanced audio
JP4655190B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP7342862B2 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
KR102638946B1 (ko) 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
Begault Auditory and non-auditory factors that potentially influence virtual acoustic imagery
Woszczyk et al. Shake, rattle, and roll: Gettiing immersed in multisensory, interactiive music via broadband networks
WO2020031453A1 (ja) 情報処理装置及び情報処理方法、並びに映像音声出力システム
Cohen et al. Spatial soundscape superposition and multimodal interaction
WO2021131326A1 (ja) 情報処理装置及び情報処理方法、並びにコンピュータプログラム
JPWO2018198790A1 (ja) コミュニケーション装置、コミュニケーション方法、プログラム、およびテレプレゼンスシステム
KR20210133962A (ko) 정보 처리 장치 및 정보 처리 시스템
US11985380B2 (en) Video output method and video output apparatus
US20220303707A1 (en) Terminal and method for outputting multi-channel audio by using plurality of audio devices
US20230297218A1 (en) Terminal and method
JP2016213667A (ja) 感覚提示装置
JP2022173870A (ja) 鑑賞システム、鑑賞装置及びプログラム
KR20210000224A (ko) 수신부가 구비된 빔 프로젝터
JP2008136079A (ja) 記憶再生装置及び記憶再生プログラム
JP2011004080A (ja) 情報処理装置、生成方法及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right