WO2020013061A1 - Information processing device and information processing method - Google Patents

Information processing device and information processing method Download PDF

Info

Publication number
WO2020013061A1
WO2020013061A1 PCT/JP2019/026542 JP2019026542W WO2020013061A1 WO 2020013061 A1 WO2020013061 A1 WO 2020013061A1 JP 2019026542 W JP2019026542 W JP 2019026542W WO 2020013061 A1 WO2020013061 A1 WO 2020013061A1
Authority
WO
WIPO (PCT)
Prior art keywords
call
cause
output
voice
information processing
Prior art date
Application number
PCT/JP2019/026542
Other languages
French (fr)
Japanese (ja)
Inventor
泰成 橋本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020013061A1 publication Critical patent/WO2020013061A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present technology relates to an information processing device and an information processing method, and more particularly, to an information processing device and an information processing method for facilitating communication between humans.
  • Patent Literature 1 proposes a technique of presenting a message from another user when the owner of the tablet terminal approaches, when a message from another user is registered.
  • Patent Document 1 presents a message from another user, but does not attempt to facilitate direct communication between humans.
  • a cause estimating unit for estimating a cause when it is determined that the callee is unaware of the call An information processing apparatus comprising: an output control unit configured to control an output for making the called party aware of the call based on a result of the cause estimation.
  • the cause estimating unit when the cause estimating unit determines that the callee has not noticed the call, the cause is estimated.
  • the cause estimating unit may be configured to estimate one of predetermined types of causes as a cause that the callee does not notice the call.
  • the predetermined type of cause may include all or a part of conversation, absence, hearing loss, concentration, sleep, and intentionally no response.
  • the cause estimating unit may perform the cause estimation based on a multimodal input.
  • the output control unit is controlled to change the output for reminding the called party of the call based on the result of the cause estimation.
  • the output control unit may change the output by the multi-modal output.
  • control is performed to change the output for notifying the callee to the callee based on the result of the cause estimation. Is what you do. Therefore, the callee can be effectively made aware of the call, and communication between humans can be facilitated.
  • the output control unit may perform control so that direction information indicating the direction in which the call is made is included in the output.
  • direction information indicating the direction in which the call is made is included in the output.
  • the output control unit may be configured to control so as not to output when the call is not based on live voice. This makes it possible to avoid, for example, erroneously responding to a call from a television receiver.
  • the output control unit may output after the callee returns, to notify that the call was made. May be controlled.
  • the callee who has been absent can know that the call has been made after returning.
  • the output control unit may include time information indicating when the call was made in the output for notifying that the call was made. As a result, the callee can easily recognize when the call has been made, and can appropriately respond to the call.
  • FIG. 14 is a diagram schematically illustrating an example of a situation when the cause is “(e) concentration”. It is a figure showing roughly an example of a situation about a case where a cause is “(f) sleep”.
  • FIG. 4 is a diagram illustrating an example of a Web API used by a voice agent.
  • FIG. 3 is a block diagram illustrating a configuration example of computer hardware.
  • FIG. 1 shows a state in which a voice agent 10 according to the first embodiment is arranged in a room, for example, a living room 20.
  • the voice agent 10 constitutes an information processing device.
  • the voice agent 10 has a function of a conventionally known voice agent.
  • the voice agent 10 outputs to the callee to make the caller aware of the call.
  • the voice agent 10 estimates the cause and changes the output based on the result of the cause estimation.
  • the voice agent 10 can estimate the sound source direction, and include information indicating from which direction the call is coming from in the output.
  • the flowchart in FIG. 2 shows an example of a processing procedure when the voice agent 10 outputs to the called party to make the calling party aware of the calling.
  • the voice agent 10 starts processing in step ST1.
  • the voice agent 10 estimates the cause.
  • step ST3 the voice agent 10 outputs to the called party to make the calling party aware of the calling based on the estimation result of the cause. Then, the voice agent 10 ends a series of processing in step ST4.
  • the voice agent 10 performs cause estimation based on multimodal input.
  • the multi-modal input includes, for example, a camera, a microphone (microphone), and various sensors such as an infrared sensor and a human sensor.
  • the voice agent 10 estimates, for example, one of predetermined types set as a cause that the callee does not notice the call.
  • the voice agent 10 performs cause estimation using, for example, a machine-learned classifier.
  • the voice agent 10 can appropriately refer to not only multimodal input but also profile information such as age, gender, and illness of the registrant.
  • FIG. 3 shows an example of an image of the cause of (a) to (g).
  • the voice agent 10 outputs, for example, a multi-modal output to make the called party aware of the calling.
  • Multimodal outputs include speakers, monitors, projectors, LEDs, lighting, wearable devices, robots, and the like.
  • the voice agent 10 can include the direction information in the output.
  • the voice agent 10 can include the information of the caller in the output.
  • the voice agent 10 executes, for example, all or a part of the following (1) to (6).
  • Send notification to wearable device (6) Ask robot to be notified of notification
  • FIG. 4 schematically shows an example of a situation where the cause is “(a) During conversation”.
  • This example shows a case where the caller Dad calls "A-kun” while the child A and the mother are having a conversation, but A does not notice the call.
  • the voice agent 10 tells A that his father is calling, "A-kun, Dad is calling" by voice from a speaker and images from a projector or monitor. Notify.
  • direction information indicating from which direction the father is calling is not included. For example, when the father is calling from the entrance direction, and when including the direction information, for example, "A-kun, the father is calling from the entrance" is notified.
  • FIG. 5 schematically shows another example of the situation when the cause is “(a) Conversation”.
  • the voice agent 10 informs A that someone is calling, "A-kun, someone is calling.” By voice from a speaker and an image from a projector or monitor. are doing.
  • the voice agent 10 executes, for example, all or part of the following (1) and (2).
  • (1) Notify the wearable
  • (2) Record information such as the call time, the caller, the callee, etc.
  • (3) Notify the caller of the absence of the callee
  • the voice agent 10 executes all or part of the following (1) to (5).
  • the above-described recording information is appropriately referred to.
  • FIG. 6 schematically shows an example of a situation where the cause is “(b) absent”. This example shows a case where the caller, Dad, calls "A-kun” while A is not present. In this example, the voice agent 10 notifies the caller Dad that "A-kun is not present.”
  • FIG. 7 schematically shows another example of the situation when the cause is “(b) absent”.
  • This example shows a case where the caller, Dad, calls "A-kun” in a state where the mother is present but A is absent. Also in this example, the voice agent 10 notifies the caller Dad that "A-kun is not present.”
  • FIG. 8 schematically shows an example of a situation where the cause is “(b) absent” and the called party A returns.
  • the voice agent 10 indicates to A that there was a call from Dad by voice from the speaker and an image from the projector or monitor, "A-kun, Dad called 10 minutes ago.” It was out. " It is also conceivable that the part 10 minutes ago is notified by the time of the call itself (XX hours X minutes).
  • the voice agent 10 executes, for example, all or a part of the following (1) to (7).
  • (1) Blink the lighting in the room (2) Display on the projector / monitor (3)
  • Blink the LED (4) Send a notification to the wearable (5)
  • FIG. 9 schematically shows an example of a situation where the cause is “(c) hearing loss”.
  • This example shows a case in which there is a grandfather with hearing loss (distant ears), and the caller A calls “grandfather”, but the grandfather does not notice the call.
  • the voice agent 10 indicates to the grandfather that Mr. A is calling, based on the sound from the speaker and the image from the projector or the monitor, "Grandfather, Mr. A is calling.” Notify. Note that, in this case, the sound is transmitted by a sound having a frequency that is easy to hear or a sound having a large volume.
  • the voice agent 10 executes, for example, all or a part of the following (1) to (6).
  • FIG. 10 schematically shows an example of a situation where the cause is “(d) noise”.
  • This example shows a case where the caller Dad calls "A-kun” in a state where there is a child A in the presence of noise, but A does not notice the call.
  • the voice agent 10 tells A that his father is calling, "A-kun, Dad is calling" by voice from a speaker and images from a projector or monitor. Notify.
  • the voice agent 10 executes, for example, all or a part of the following (1) to (6).
  • FIG. 11 schematically illustrates an example of a situation where the cause is “(e) concentration”.
  • This example shows a case where the caller Dad calls "A-kun” while the child A is concentrating on studying, but A does not notice the call.
  • the voice agent 10 tells A that his father is calling, "A-kun, Dad is calling” by voice from a speaker and images from a projector or monitor. Notify.
  • the voice agent 10 executes, for example, all or a part of the following (1) to (7).
  • (1) Blink the lighting in the room (2) Display on the projector / monitor (3)
  • Blink the LED (4) Send a notification to the wearable (5)
  • "B (caller) is absent” tells A (caller) by voice (7)
  • FIG. 12 schematically illustrates an example of a situation where the cause is “(f) sleep”.
  • This example shows a case where the caller, Dad, calls "A-kun” while the child, A, is in a nap, but he does not notice the call.
  • the voice agent 10 notifies the caller, Dad, that A is taking a nap by voice from the speaker, "Dad, A-kun is absent.” .
  • the voice agent 10 executes, for example, the following (1).
  • the certain time is, for example, 10 minutes. This fixed time can be arbitrarily set by the user (administrator) of the voice agent 10.
  • this function means a function for notifying the called party that the calling has been made. (1) Stop this function for a certain period of time
  • FIG. 13 schematically shows an example of a situation where the cause is “(g) intentionally no reaction”.
  • This example shows a case where the caller, Dad, called "A-kun", but A did not knowingly react to it.
  • the voice agent 10 does not execute notification of the call to Mr. A, nor does the voice agent 10 notify the caller Dad.
  • the voice agent 10 does not notify the callee that the call has been made when the call is not based on live voice. This can avoid, for example, erroneously responding to a call from a television receiver. In this case, it is conceivable that the voice agent 10 discriminates between the live voice and the voice from the television receiver by using the frequency characteristics, but the identification method is not limited to this.
  • FIG. 14 shows a case in which Mr. A is accidentally calling for “A-kun” from the television receiver in a state where he is absorbed in creating a car using blocks.
  • the voice agent 10 identifies that the voice related to the call is not a live voice, and does not execute a notification to Mr. A that the call has been made.
  • the TV receiver does not respond to the call of "A-kun".
  • the TV receiver may be used as a terminal for a videophone. In that case, for example, if the callee is not aware of the call from the other party, the voice agent 10 has the benefit of executing the notification that the callee has been called.
  • the voice agent 10 determines whether or not to notify the called party of the calling based on, for example, the calling direction and the calling party. For example, in the case of a call from the direction of the television receiver, basically, the callee will not be notified that the call has been made, except in the case where the caller is a registrant. Is notified that the caller has been called.
  • FIG. 15 shows a configuration example of the voice agent 10.
  • the voice agent 10 has a camera 101 and a microphone 102 as input interfaces.
  • the microphone 102 has, for example, an array configuration so that the sound source direction can be estimated.
  • the voice agent 10 has a speaker 103, a projector 104, a monitor 105, and an LED 106 as output interfaces.
  • the voice agent 10 has a processing main unit 107.
  • the processing main unit 107 includes a face detection unit 111, a face identification unit 112, a voice recognition unit 113, a natural language processing unit 114, a notice determination unit 115, a cause estimation unit 116, a sound source direction estimation unit 117 , A speaker estimation unit 118, a live voice discrimination unit 119, an output control unit 120, a speech synthesis unit 121, and a network interface 122.
  • the face detection unit 111 performs a face recognition process on the image signal from the camera 101 to detect a face present in the image that is the visual field of the voice agent 10.
  • the face identification unit 112 identifies each of the detected faces based on the face detected by the face detection unit 111 by comparing with the face of the registrant registered in advance.
  • the voice recognition unit 113 performs voice recognition processing on the voice signal from the microphone 102, and converts the voice signal into text.
  • the natural language processing unit 114 analyzes the text obtained by the speech recognition unit 113 to obtain information such as words, parts of speech, and dependencies.
  • the sound source direction estimating unit 117 estimates the sound source direction based on a plurality of audio signals from the microphone (microphone array) 102, for example, by detecting a time difference between the audio signals.
  • the speaker estimating unit 118 estimates a speaker based on a voice signal from the microphone 102 by comparing with a voice characteristic of a registrant registered in advance.
  • the live voice determination unit 119 determines whether the voice is a live voice or a voice from a television receiver based on, for example, frequency characteristics.
  • the notice determination unit 115 is configured to call the called party based on the image signal from the camera 101, the identification result by the face identification unit 112, the processing result of the natural language processing unit 114, the estimation result of the sound source direction estimation unit 117, and the like. Determine if you are aware.
  • the awareness determination unit 115 determines whether the direction of the face of the callee matches the direction of the sound source. In addition, for example, the awareness determination unit 115 inputs the reaction (return, face-up, etc.) performed by the normally called person as training data and inputs the image of the called person to the awareness discriminator that has been trained by the teacher. Is determined.
  • the cause estimating unit 116 receives the image signal from the camera 101, the audio signal from the microphone 102, the identification result by the face identification unit 112, the processing result of the natural language processing unit 114, and the registrant's profile information. Estimate the cause that the caller does not notice the call.
  • the output control unit 120 determines the determination result of the awareness determination unit 115, the estimation result of the cause estimation unit 116, the processing result of the natural language processing unit 114, the estimation result of the sound source direction estimation unit 117, the estimation result of the speaker estimation unit 118, Based on the result of the discrimination by the voice discriminating unit 119, the output for controlling the callee to notice the call is controlled.
  • the output control unit 120 specifically generates text data for audio output, generates image data for image display, and generates control signals for controlling each output interface.
  • the speech synthesis unit 121 converts text data indicating a character string into speech data (speech signal).
  • the network interface 122 is an interface for connecting the output control unit 120 to the illumination 131, the wearable device 132, and the robot 133 as output interfaces via a LAN.
  • the flowchart in FIG. 16 shows an example of the processing procedure of the processing main unit 107 of the voice agent 10 when a call is made.
  • the processing main unit 107 starts processing in step ST11.
  • step ST12 the processing main unit 107 performs voice recognition and analysis (natural language processing).
  • step ST13 the processing main unit 107 determines whether the name of the registrant has been called based on the analysis result.
  • step ST14 the processing main unit 107 estimates the sound source direction, that is, the direction in which the call was made. For example, when the voice agent 10 is arranged in the living room, the direction is the entrance direction, the kitchen direction, the second floor direction, the window direction, and the like.
  • step ST15 the processing main unit 107 determines whether the voice calling the registrant's name, that is, the calling voice is a live voice.
  • step ST16 the processing main unit 107 estimates a speaker, that is, a caller.
  • the caller if the caller is a registrant, the caller can be specifically identified.
  • step ST17 face detection / identification is performed to determine whether or not there is a person in the field of view of the voice agent 10, and when there is a person, the person is recognized.
  • step ST18 the processing main unit 107 determines whether or not the called person, that is, the called person has noticed the calling. When the call is not noticed, the processing main unit 107 estimates the cause of not being noticed in step ST19. Next, in step ST20, the processing main unit 107 determines what action should be taken to make the user aware, in accordance with the cause of the notice.
  • step ST21 the processing main unit 107 controls output for reminding the called party of the call based on the determined action.
  • the processing main unit 107 ends a series of processing in step ST22.
  • the processing main unit 107 immediately ends the series of processing in step ST22.
  • FIG. 17 shows an example of the processing procedure of the processing main unit 107 of the voice agent 10 when the called party who was absent when the calling was made returns.
  • the processing main unit 107 starts processing in step ST31.
  • step ST32 the processing main unit 107 performs face detection and identification to determine whether or not there is a person in the field of view of the voice agent 10, and to recognize who the person is when there is a person.
  • step ST33 the processing main unit 107 determines whether or not there is a person who has been absent, that is, a person who has been called when the cause of unaware of the above-mentioned call is absent.
  • step ST34 the processing main unit 107 controls output for notifying that the called party has been called based on the absence record.
  • the processing main unit 107 ends a series of processing in step ST35.
  • FIG. 18 shows another configuration example of the voice agent 10.
  • the processing main unit 107 of the voice agent 10 illustrated in FIG. 18 includes only a cause estimating unit 116, an output control unit 120, and network interfaces 122 and 123.
  • the network interface 123 is an interface for connecting to a Web API existing on the cloud 150 via a WAN.
  • the processing main unit 107 of the voice agent 10 illustrated in FIG. 18 executes many processes in the processing main unit 107 of the voice agent 10 illustrated in FIG. 15 using a Web API existing on the cloud 150.
  • FIG. 19 shows an example of a Web API used by the voice agent 10 shown in FIG.
  • the Web API of “face detection / recognition” receives a moving image file and authentication information as parameters, and uses a registrant ID, speaker coordinates (x, y), and accuracy as return values.
  • This return value is in, for example, a JSON format.
  • return values of the following other Web APIs are, for example, JSON format.
  • the moving image file is a moving image file recorded by the camera 101 of the voice agent 10.
  • the authentication information is authentication information for using the Web API.
  • the registrant ID is an ID unique to the registrant, for example, an ID indicating each family member.
  • the speaker coordinates (x, y) are in-screen coordinates of a position where the face of the speaker is shown.
  • the accuracy indicates the probability that the recognized face is the registrant ID, for example, the degree of conviction that the recognized face is Mr. A when recognized as Mr. A.
  • FIG. 20 shows an example of the return value of the Web API of “face detection / recognition”.
  • the return value when three faces are identified in the image is shown.
  • Id_detected is the ID (number indicating the order) assigned to the detected face.
  • Id_recognized is a registrant ID.
  • the Web API for "notice determination” receives a registrant ID, a moving image file, and authentication information as parameters, and returns a boolean value indicating whether the user is in the room and a boolean value indicating whether the user has noticed.
  • the registrant ID is a registration ID of a person who wants to check whether or not he / she has noticed.
  • the moving image file is a moving image file recorded by the camera 101 of the voice agent.
  • the authentication information is authentication information for using the Web API.
  • the true / false value of whether or not the user is in the room indicates whether or not the person specified by the registrant ID is in the moving image, and is “True” if the person is in the moving image and “False” if not.
  • the true / false value of whether or not noticed indicates whether or not the person designated by the registrant ID has noticed, and is “True” if noticed, and “False” if not noticed.
  • the "voice recognition" Web API receives a voice file, a language type, and authentication information as parameters, and returns a text as a return value.
  • the voice file is a voice file recorded by the microphone 102 of the voice agent 10.
  • the language type is the language type of the recorded voice.
  • the authentication information is authentication information for using the Web API.
  • the text is text transcribed from the audio file.
  • the Web API of "natural language processing” receives text, language type, and authentication information as parameters, and returns words, parts of speech, and dependencies as return values.
  • the Web API of “sound source direction estimation” receives a sound file and authentication information as parameters, and returns the sound source direction ⁇ and the sound source distance r as return values.
  • the Web API of “speaker estimation” receives a voice file and authentication information as parameters, and uses a registrant ID as a return value.
  • the Web API of the “live voice discriminating unit” receives a voice file and authentication information as parameters, and returns a boolean value indicating whether or not the voice is live as a return value.
  • the Web API of “speech synthesis” receives a character string, a language type, and authentication information as parameters, and returns a speech file as a return value.
  • the speech agent 10 when it is determined that the callee has not noticed the call, the speech agent 10 is made to notice the call to the callee based on the result of the cause estimation. Can be controlled to change the output. Therefore, the callee can be effectively made aware of the call, and communication between humans can be facilitated.
  • the voice agent 10 shown in FIG. 1 it is possible to control so that the output for reminding the caller of the call includes direction information indicating the direction of the call. Therefore, the callee can easily recognize from which direction the call was made, and can appropriately respond to the call.
  • the voice agent 10 shown in FIG. 1 can be controlled so as not to output when the call is not based on live voice. Therefore, it is possible to avoid, for example, erroneously responding to a call from a television receiver.
  • the voice agent 10 shown in FIG. 1 when the result of the cause estimation is that the called party is absent, after the called party returns, control is performed so that an output for notifying that the calling party has been called is output. it can. Therefore, the callee who has been absent can know that the call has been made after returning. Also, in this case, the output for notifying that the call has been made can include time information indicating when the call was made. As a result, the callee can easily recognize when the call has been made, and can appropriately respond to the call.
  • FIG. 21 shows a configuration example of a videophone system 50 according to the second embodiment.
  • the videophone system 50 includes a videophone device 200A arranged in a house where a father, a mother and two children live, and a videophone device 200B arranged in a house where a grandfather and a grandmother live. Are connected via a.
  • the videophone device 200B includes a voice agent having the same function as the voice agent 10 described above.
  • the voice agent of the videophone device 200B receives a call from the videophone device 200A and determines that the callee has not noticed the call, like the voice agent 10 described above, Outputs to the callee to make the call aware.
  • the illustrated example shows a case where the boy calls the grandfather from the videophone device 200A and the grandfather on the television receiver 200B does not notice it.
  • LED emission 202 is performed.
  • FIG. 22 shows a configuration example of the voice agent 210 of the videophone device 200B.
  • portions corresponding to those in FIG. 15 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • a voice signal sent from the videophone device 200A via the Internet is given to the voice recognition unit 113 and the speaker estimation unit 118 of the processing main unit 107.
  • those functional units are omitted from the processing main unit 107 in FIG.
  • FIG. 23 shows another configuration example of the voice agent 210 of the videophone device 200B. 23, portions corresponding to those in FIGS. 18 and 22 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • the processing main unit 107 of the voice agent 210 illustrated in FIG. 23 executes many processes in the processing main unit 107 of the voice agent 210 illustrated in FIG. 22 using a Web API existing on the cloud 150. In this case, the audio signal transmitted from the videophone device 200A via the Internet is provided to the cloud 150 via the network interface 123 and processed.
  • FIG. 24 shows a configuration example of a videophone system 60 according to the third embodiment.
  • This videophone system 60 has a configuration in which a videophone device 300A composed of a mobile device handled by a girl and a videophone device 300B arranged in a house where grandfather and grandmother live are connected via an agent cloud service 310. Has become.
  • the agent cloud service 310 has the same function as the voice agent 10 described above.
  • the agent cloud service 310 receives a call from the videophone device 300A and determines that the callee has not noticed the call, the agent cloud service 310 determines whether the videophone device 300B does not In response, control is performed so as to output to the called person to notice the calling.
  • the illustrated example shows a case where the girl calls the grandfather from the videophone device 300A and the grandfather on the television receiver 300B does not notice it. LED emission 302 is performed.
  • FIG. 25 shows a configuration example of the agent cloud service 310. 25, portions corresponding to those in FIG. 23 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • the agent cloud service 310 is connected to each device on the videophone device 300B side by the network interface 312, and is connected to the videophone device 300A side by the network interface 313.
  • FIG. 26 is a block diagram illustrating a configuration example of hardware of a computer that executes the above-described processing of the voice agent by a program.
  • the information main body 107 (see FIGS. 15, 18, 22, and 23) can be configured by a computer.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the bus 504 is further connected to an input / output interface 505.
  • An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the storage unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program stored in the storage unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on a removable medium 511 as a package medium or the like, for example. Further, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 508 via the input / output interface 505 by attaching the removable medium 511 to the drive 510.
  • the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the storage unit 508.
  • the program can be installed in the ROM 502 or the storage unit 508 in advance.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or may be performed in parallel or at a necessary timing such as when a call is made. It may be a program that performs processing.
  • the present technology may have the following configurations.
  • An information processing apparatus comprising: an output control unit configured to control an output for notifying the callee of the call based on a result of the cause estimation.
  • the cause estimating unit estimates one of predetermined types of causes set in advance as causes by which the callee does not notice the call.
  • the predetermined type of cause includes all or a part of conversation, absence, hearing loss, concentration, sleep, and intentional unresponsiveness.
  • the information processing apparatus according to any one of (1) to (7).
  • the information processing device according to (8), wherein the output control unit includes, in an output for notifying that the call has been made, time information indicating when the call was made.
  • the output control unit includes, in an output for notifying that the call has been made, time information indicating when the call was made.
  • An information processing method comprising a step of performing control to change an output for making the called party aware of the call based on a result of the cause estimation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The present invention facilitates communication between people. A cause estimation unit performs cause estimation when it is determined that a person being called is unaware of being called. For example, the cause estimation unit estimates one from among prescribed types of pre-set causes as the cause of the person being called being unaware of being called. In such case, the prescribed types of causes include all or some of being in a conversation, being absent, having a hearing disability, concentrating, sleeping, and intentionally not responding, for example. An output control unit performs control, on the basis of the result of the cause estimation, such that an output is changed in order to make the person being called aware of being called. The person being called to can thereby be effectively made aware of being called.

Description

情報処理装置および情報処理方法Information processing apparatus and information processing method
 本技術は、情報処理装置および情報処理方法に関し、詳しくは、人間同士のコミュニケーションを円滑にする情報処理装置および情報処理方法に関する。 The present technology relates to an information processing device and an information processing method, and more particularly, to an information processing device and an information processing method for facilitating communication between humans.
 例えば、特許文献1には、タブレット端末の所有者が近づいてきたとき、他ユーザからの伝言が登録されている場合にはその伝言を提示する技術が提案されている。 For example, Patent Literature 1 proposes a technique of presenting a message from another user when the owner of the tablet terminal approaches, when a message from another user is registered.
特開2014-186610号公報JP 2014-186610 A
 特許文献1に記載される技術では、他ユーザからの伝言を提示するものであるが、人間同士の直接的なコミュニケーションの円滑化を図るものではない。 The technology described in Patent Document 1 presents a message from another user, but does not attempt to facilitate direct communication between humans.
 本技術の目的は、人間同士のコミュニケーションの円滑化を図ることにある。 技術 The purpose of this technology is to facilitate communication between humans.
 本技術の概念は、
 被呼びかけ者が呼びかけに気付いていないと判断された場合に原因推定をする原因推定部と、
 上記原因推定の結果に基づいて上記被呼びかけ者に対して上記呼びかけに気付かせるための出力を変化させるように制御する出力制御部を備える
 情報処理装置にある。
The concept of this technology is
A cause estimating unit for estimating a cause when it is determined that the callee is unaware of the call;
An information processing apparatus comprising: an output control unit configured to control an output for making the called party aware of the call based on a result of the cause estimation.
 本技術において、原因推定部により、被呼びかけ者が呼びかけに気付いていないと判断された場合に原因推定がなされる。例えば、原因推定部は、被呼びかけ者が呼びかけに気付かない原因として、予め設定された所定種類の原因の中から1つを推定する、ようにされてもよい。この場合、例えば、所定種類の原因に、会話中、不在、難聴、集中、睡眠および意図的に無反応の全部または一部を含む、ようにされてもよい。また、例えば、原因推定部は、原因推定をマルチモーダル入力に基づいて行う、ようにされてもよい。 In the present technology, when the cause estimating unit determines that the callee has not noticed the call, the cause is estimated. For example, the cause estimating unit may be configured to estimate one of predetermined types of causes as a cause that the callee does not notice the call. In this case, for example, the predetermined type of cause may include all or a part of conversation, absence, hearing loss, concentration, sleep, and intentionally no response. Further, for example, the cause estimating unit may perform the cause estimation based on a multimodal input.
 出力制御部により、原因推定の結果に基づいて被呼びかけ者に対して呼びかけに気付かせるための出力を変化させるように制御される。例えば、出力制御部は、マルチモーダル出力による出力を変化させる、ようにされてもよい。 (4) The output control unit is controlled to change the output for reminding the called party of the call based on the result of the cause estimation. For example, the output control unit may change the output by the multi-modal output.
 このように本技術においては、被呼びかけ者が呼びかけに気付いていないと判断された場合にその原因推定の結果に基づいて被呼びかけ者に対して呼びかけに気付かせるための出力を変化させるように制御するものである。そのため、被呼びかけ者に対して効果的に呼びかけに気付かせることができ、人間同士のコミュニケーションの円滑化を図ることが可能となる。 As described above, in the present technology, when it is determined that the callee has not noticed the call, control is performed to change the output for notifying the callee to the callee based on the result of the cause estimation. Is what you do. Therefore, the callee can be effectively made aware of the call, and communication between humans can be facilitated.
 なお、本技術において、例えば、出力制御部は、呼びかけがされた方向を示す方向情報が出力に含まれるように制御する、ようにされてもよい。これにより、被呼びかけ者はどの方向から呼びかけがあったかを容易に認識でき、呼びかけに適切に対応することが可能となる。 In the present technology, for example, the output control unit may perform control so that direction information indicating the direction in which the call is made is included in the output. Thus, the callee can easily recognize from which direction the call has been made, and can appropriately respond to the call.
 また、本技術において、例えば、出力制御部は、呼びかけが生声によらないときには、出力をしないように制御する、ようにされてもよい。これにより、例えばテレビ受信機からの呼びかけに誤って反応することを回避することが可能となる。 Also, in the present technology, for example, the output control unit may be configured to control so as not to output when the call is not based on live voice. This makes it possible to avoid, for example, erroneously responding to a call from a television receiver.
 また、本技術において、例えば、出力制御部は、原因推定の結果が被呼びかけ者の不在である場合に、被呼びかけ者が戻った後に、呼びかけがあったことを知らせるための出力をするように制御する、ようにされてもよい。これにより、不在であった被呼びかけ者は、戻った後に、呼びかけがあったことを知ることが可能となる。この場合、例えば、出力制御部は、呼びかけがあったことを知らせるための出力に、呼びかけがいつ頃あったかを示す時間情報を含める、ようにされてもよい。これにより、被呼びかけ者は呼びかけがいつ頃あったかを容易に認識でき、呼びかけに適切に対応することが可能となる。 Further, in the present technology, for example, when the result of the cause estimation is the absence of the callee, the output control unit may output after the callee returns, to notify that the call was made. May be controlled. As a result, the callee who has been absent can know that the call has been made after returning. In this case, for example, the output control unit may include time information indicating when the call was made in the output for notifying that the call was made. As a result, the callee can easily recognize when the call has been made, and can appropriately respond to the call.
 本技術によれば、人間同士のコミュニケーションの円滑化を図ることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。 According to the present technology, communication between humans can be facilitated. Note that the effects described here are not necessarily limited, and may be any of the effects described in the present disclosure.
第1の実施の形態としての音声エージェントがリビングに配置された状態を示す図である。It is a figure showing the state where the voice agent as a 1st embodiment was arranged in the living room. 音声エージェントが被呼びかけ者に対して呼びかけに気付かせるための出力をする際の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure at the time of an audio | voice agent making an output to make a callee aware of a call. 被呼びかけ者が呼びかけに気付かない原因の一例をイメージで示す図である。It is a figure which shows an example of the cause which a callee does not notice a call with an image. 原因が「(a)会話中」であった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure which shows roughly an example of the situation about the case where a cause is "(a) Conversation". 原因が「(a)会話中」であった場合についてのシチュエーションの他の一例を概略的に示す図である。It is a figure which shows roughly another example of the situation about the case where a cause is "(a) talking". 原因が「(b)不在」であった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure showing roughly an example of a situation about a case where a cause is "(b) absence". 原因が「(b)不在」であった場合についてのシチュエーションの他の一例を概略的に示す図である。It is a figure which shows roughly another example of the situation about the case where a cause is "(b) absence". 原因が「(b)不在」であった場合であって、被呼びかけ者が戻ってきた場合についてのシチュエーションの一例を概略的に示す図である。It is a figure which shows roughly an example of the situation when the cause is "(b) absence" and the called party returns. 原因が「(c)難聴」であった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure showing roughly an example of a situation about a case where a cause is "(c) hearing loss". 原因が「(d)騒音」であった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure showing roughly an example of a situation about a case where a cause is “(d) noise”. 原因が「(e)集中」であった場合についてのシチュエーションの一例を概略的に示す図である。FIG. 14 is a diagram schematically illustrating an example of a situation when the cause is “(e) concentration”. 原因が「(f)睡眠」であった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure showing roughly an example of a situation about a case where a cause is “(f) sleep”. 原因が「(g)意図的に無反応」であった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure which shows roughly an example of the situation about the case where a cause was "(g) intentionally no reaction". テレビ受信機からの呼びかけがあった場合についてのシチュエーションの一例を概略的に示す図である。It is a figure which shows roughly an example of the situation about the case where there is a call from a television receiver. 音声エージェントの構成例を示すブロック図である。It is a block diagram which shows the example of a structure of a voice agent. 呼びかけが行われる場合における音声エージェントの処理本体部の処理手順の一例を示すフローチャートである。It is a flow chart which shows an example of a processing procedure of a processing main part of a voice agent at the time of calling. 呼びかけが行われたときに不在であった被呼びかけ者が戻ってきた場合における音声エージェントの処理本体部の処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of the processing procedure of the processing main part of a voice agent when the called person who was absent at the time of calling is returned. 音声エージェントの他の構成例を示すブロック図である。It is a block diagram showing other examples of composition of a voice agent. 音声エージェントで使用されるWeb APIの例を示す図である。FIG. 4 is a diagram illustrating an example of a Web API used by a voice agent. 「顔検出・認識」のWeb APIの戻り値の一例を示す図である。It is a figure showing an example of a return value of Web API of “face detection / recognition”. 第2の実施の形態としてのテレビ電話システムの構成例を示す図である。It is a figure showing an example of composition of a video telephone system as a 2nd embodiment. テレビ電話装置の音声エージェントの構成例を示すブロック図である。It is a block diagram which shows the example of a structure of the voice agent of a video telephone apparatus. テレビ電話装置の音声エージェントの他の構成例を示すブロック図である。It is a block diagram which shows the other example of a structure of the voice agent of a video telephone device. 第3の実施の形態としてのテレビ電話システムの構成例を示す図である。It is a figure showing the example of composition of the video telephone system as a 3rd embodiment. エージェントクラウドサービスの構成例を示すブロック図である。It is a block diagram which shows the example of a structure of an agent cloud service. コンピュータのハードウエアの構成例を示すブロック図である。FIG. 3 is a block diagram illustrating a configuration example of computer hardware.
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.第1の実施の形態
 2.第2の実施の形態
 3.第3の実施の形態
 4.変形例
Hereinafter, embodiments for carrying out the invention (hereinafter, referred to as “embodiments”) will be described. The description will be made in the following order.
1. 1. First embodiment Second embodiment3. Third embodiment4. Modified example
 <1.第1の実施の形態>
 [音声エージェント]
 図1は、第1の実施の形態としての音声エージェント10が、部屋、例えばリビング20に配置された状態を示している。この音声エージェント10は情報処理装置を構成している。この音声エージェント10は、詳細説明は省略するが、従来周知の音声エージェントの機能を有する。また、この音声エージェント10は、被呼びかけ者が呼びかけに気付いていないと判断された場合に、被呼びかけ者に対して呼びかけに気付かせるための出力をする。その場合、音声エージェント10は、原因推定をし、その原因推定の結果に基づいて出力を変化させる。この場合、音声エージェント10は、音源方向を推定し、出力にどの方向からの呼びかけかを示す情報を含めることもできる。
<1. First Embodiment>
[Voice Agent]
FIG. 1 shows a state in which a voice agent 10 according to the first embodiment is arranged in a room, for example, a living room 20. The voice agent 10 constitutes an information processing device. Although not described in detail, the voice agent 10 has a function of a conventionally known voice agent. Further, when it is determined that the callee has not noticed the call, the voice agent 10 outputs to the callee to make the caller aware of the call. In that case, the voice agent 10 estimates the cause and changes the output based on the result of the cause estimation. In this case, the voice agent 10 can estimate the sound source direction, and include information indicating from which direction the call is coming from in the output.
 図2のフローチャートは、音声エージェント10が被呼びかけ者に対して呼びかけに気付かせるための出力をする際の処理手順の一例を示している。音声エージェント10は、ステップST1において、処理を開始する。次に、音声エージェント10は、ステップST2において、被呼びかけ者が呼びかけに気付いていないと判断された場合に、その原因を推定する。 (2) The flowchart in FIG. 2 shows an example of a processing procedure when the voice agent 10 outputs to the called party to make the calling party aware of the calling. The voice agent 10 starts processing in step ST1. Next, when it is determined in step ST2 that the callee has not noticed the call, the voice agent 10 estimates the cause.
 次に、音声エージェント10は、ステップST3において、原因の推定結果に基づいて、被呼びかけ者に対して呼びかけに気付かせるための出力をする。その後、音声エージェント10は、ステップST4において、一連の処理を終了する。 Next, in step ST3, the voice agent 10 outputs to the called party to make the calling party aware of the calling based on the estimation result of the cause. Then, the voice agent 10 ends a series of processing in step ST4.
 音声エージェント10は、原因推定を、マルチモーダル入力に基づいて行う。マルチモーダル入力には、例えば、カメラ、マイクロフォン(マイク)、さらには赤外線センサ、人感センサなどの各種センサが含まれる。音声エージェント10は、原因推定をする際に、例えば、被呼びかけ者が呼びかけに気付かない原因として予め設定された所定種類の中から1つを推定する。音声エージェント10は、原因推定を、例えば、機械学習した判別器により行う。なお、音声エージェント10は、原因推定の際に、マルチモーダル入力だけでなく、例えば登録者についての年齢、性別、病気等のプロファイル情報も適宜参照し得る。 The voice agent 10 performs cause estimation based on multimodal input. The multi-modal input includes, for example, a camera, a microphone (microphone), and various sensors such as an infrared sensor and a human sensor. When estimating the cause, the voice agent 10 estimates, for example, one of predetermined types set as a cause that the callee does not notice the call. The voice agent 10 performs cause estimation using, for example, a machine-learned classifier. When estimating the cause, the voice agent 10 can appropriately refer to not only multimodal input but also profile information such as age, gender, and illness of the registrant.
 この実施の形態において、所定種類の原因に、例えば、「(a)会話中」、「(b)不在」、「(c)難聴」、「(d)集中」、「(e)睡眠(昼寝)」、「(f)集中」および「(g)意図的に無反応」、が含まれる。なお、予め設定された所定種類の原因にこれらの全てではなく、その一部のみが含まれてもよく、また、これ以外の原因が含まれてもよい。図3は、(a)~(g)の原因のイメージの一例を示している。 In this embodiment, for example, “(a) talking”, “(b) absent”, “(c) hearing loss”, “(d) concentration”, “(e) sleep (nap) )), "(F) concentration" and "(g) intentionally unresponsive". It should be noted that the predetermined types of causes that are set in advance may include only some of them instead of all of them, or may include other causes. FIG. 3 shows an example of an image of the cause of (a) to (g).
 音声エージェント10は、被呼びかけ者に対して呼びかけに気付かせるための出力を、例えばマルチモーダル出力で行う。マルチモーダル出力には、スピーカ、モニタ、プロジェクタ、LED、照明、ウェラブルデバイス、ロボットなどが含まれる。この場合、音声エージェント10は、呼びかけ者がどの方向から呼びかけているかわかるときには、その方向情報を出力に含めることができる。また、この場合、音声エージェント10は、呼びかけ者が誰かを予めの登録情報からわかる場合には、呼びかけ者の情報を出力に含めることができる。 (4) The voice agent 10 outputs, for example, a multi-modal output to make the called party aware of the calling. Multimodal outputs include speakers, monitors, projectors, LEDs, lighting, wearable devices, robots, and the like. In this case, when the voice agent 10 knows from which direction the caller is calling, the voice agent 10 can include the direction information in the output. In this case, if the voice agent 10 knows who is the caller from the pre-registered information, the voice agent 10 can include the information of the caller in the output.
 音声エージェント10は、原因が「(a)会話中」である場合、例えば、以下の(1)~(6)の全部または一部を実行する。
 (1)部屋の照明を点滅させる
 (2)音声によって通知する(直ちにあるいは会話が途切れたタイミングで通知する)
 (3)プロジェクタ/モニタに表示する
 (4)LEDを点滅させる
 (5)ウェラブルデバイスに通知を送る
 (6)ロボットに通知があったことを伝えてもらう
When the cause is “(a) talking”, the voice agent 10 executes, for example, all or a part of the following (1) to (6).
(1) Blink the lights in the room (2) Notify by voice (notify immediately or when the conversation is interrupted)
(3) Display on projector / monitor (4) Blink LED (5) Send notification to wearable device (6) Ask robot to be notified of notification
 図4は、原因が「(a)会話中」であった場合についてのシチュエーションの一例を概略的に示している。この例は、子供のA君とお母さんが会話をしている状態で、呼びかけ者であるお父さんが「Aくーん」と呼びかけたが、A君がその呼びかけに気付かなかった場合について示している。この例では、音声エージェント10は、A君に対して、お父さんが呼んでいることを、スピーカからの音声と、プロジェクタやモニタからの画像により、「Aくん、お父さんが呼んでいるよ。」と通知している。 FIG. 4 schematically shows an example of a situation where the cause is “(a) During conversation”. This example shows a case where the caller Dad calls "A-kun" while the child A and the mother are having a conversation, but A does not notice the call. . In this example, the voice agent 10 tells A that his father is calling, "A-kun, Dad is calling" by voice from a speaker and images from a projector or monitor. Notify.
 なお、図示の例においては、お父さんがどの方向から呼びかけているかを示す方向情報については、含まれていない。例えば、お父さんが玄関方向から呼びかけている場合、方向情報を含める場合には、例えば、「Aくん、玄関からお父さんが呼んでいるよ。」と通知することになる。 In the illustrated example, direction information indicating from which direction the father is calling is not included. For example, when the father is calling from the entrance direction, and when including the direction information, for example, "A-kun, the father is calling from the entrance" is notified.
 図5は、原因が「(a)会話中」であった場合についてのシチュエーションの他の一例を概略的に示している。この例は、子供のA君とお母さんが会話をしている状態で、呼びかけ者である誰か(非登録者)が「Aくーん」と呼びかけたが、A君がその呼びかけに気付かなかった場合について示している。この例では、音声エージェント10は、A君に対して、誰か呼んでいることを、スピーカからの音声と、プロジェクタやモニタからの画像により、「Aくん、誰かが呼んでいるよ。」と通知している。 FIG. 5 schematically shows another example of the situation when the cause is “(a) Conversation”. In this example, while the child A and the mother are having a conversation, someone who is the caller (unregistered person) calls "A-kun", but he does not notice the call The case is shown. In this example, the voice agent 10 informs A that someone is calling, "A-kun, someone is calling." By voice from a speaker and an image from a projector or monitor. are doing.
 また、音声エージェント10は、原因が「(b)不在である場合、例えば、以下の(1)~(2)の全部または一部を実行する。
 (1)ウェラブルに通知する
 (2)呼びかけ時刻、呼びかけ者、被呼びかけ者等の情報を記録する
 (3)呼びかけ者に被呼びかけ者の不在を通知する
When the cause is “(b) absent, the voice agent 10 executes, for example, all or part of the following (1) and (2).
(1) Notify the wearable (2) Record information such as the call time, the caller, the callee, etc. (3) Notify the caller of the absence of the callee
 そして、音声エージェント10は、被呼びかけ者が戻った後に、以下の(1)~(5)の全部または一部を実行する。この場合、上述の記録情報を適宜参照することになる。
 (1)部屋の照明を点滅させる
 (2)音声で通知する
 (3)プロジェクタ/モニタに表示する
 (4)LEDを点滅させる
 (5)ロボットに通知があったことを伝えてもらう
Then, after the called party returns, the voice agent 10 executes all or part of the following (1) to (5). In this case, the above-described recording information is appropriately referred to.
(1) Blink the lights in the room (2) Notify by voice (3) Display on the projector / monitor (4) Blink the LED (5) Ask the robot to inform you that there was a notification
 なお、上述の「(2)呼びかけ時刻、呼びかけ者、被呼びかけ者等の情報を記録する」の実行により記録された呼びかけイベント情報の保持期間として一定時間(例えば30分)が設定されていてもよい。この場合、一定時間が経過した場合には、そのイベント情報が消去されることから、被呼びかけ者が戻ってきたとしても、以下の(1)~(5)の全部または一部の実行はされない。 Note that even if a fixed period of time (for example, 30 minutes) is set as the holding period of the calling event information recorded by executing the above-mentioned “(2) Recording information of calling time, calling person, called person, etc.” Good. In this case, if a certain period of time has elapsed, the event information is deleted, so that even if the called party returns, all or some of the following (1) to (5) are not executed. .
 図6は、原因が「(b)不在」であった場合についてのシチュエーションの一例を概略的に示している。この例は、A君が不在である状態で、呼びかけ者であるお父さんが「Aくーん」と呼びかけた場合について示している。この例では、音声エージェント10は、呼びかけ者であるお父さんに対して、A君が不在である旨を、スピーカからの音声により、「お父さん、Aくんはいませんよ。」と通知している。 FIG. 6 schematically shows an example of a situation where the cause is “(b) absent”. This example shows a case where the caller, Dad, calls "A-kun" while A is not present. In this example, the voice agent 10 notifies the caller Dad that "A-kun is not present."
 図7は、原因が「(b)不在」であった場合についてのシチュエーションの他の一例を概略的に示している。この例は、お母さんはいるがA君が不在である状態で、呼びかけ者であるお父さんが「Aくーん」と呼びかけた場合について示している。この例でも、音声エージェント10は、呼びかけ者であるお父さんに対して、A君が不在である旨を、スピーカからの音声により、「お父さん、Aくんはいませんよ。」と通知している。 FIG. 7 schematically shows another example of the situation when the cause is “(b) absent”. This example shows a case where the caller, Dad, calls "A-kun" in a state where the mother is present but A is absent. Also in this example, the voice agent 10 notifies the caller Dad that "A-kun is not present."
 図8は、原因が「(b)不在」であった場合であって、被呼びかけ者であるA君が戻ってきた場合についてのシチュエーションの一例を概略的に示している。この例では、音声エージェント10は、A君に対して、お父さんからの呼びかけがあったことを、スピーカからの音声と、プロジェクタやモニタからの画像により、「Aくん、お父さんが10分前に呼んでいたよ。」と通知している。なお、10分前の部分を、呼びかけがあった時刻(○○時○○分)そのもので通知することも考えられる。 FIG. 8 schematically shows an example of a situation where the cause is “(b) absent” and the called party A returns. In this example, the voice agent 10 indicates to A that there was a call from Dad by voice from the speaker and an image from the projector or monitor, "A-kun, Dad called 10 minutes ago." It was out. " It is also conceivable that the part 10 minutes ago is notified by the time of the call itself (XX hours X minutes).
 また、音声エージェント10は、原因が「(c)難聴」である場合、例えば、以下の(1)~(7)の全部または一部を実行する。
 (1)部屋の照明を点滅させる
 (2)プロジェクタ/モニタに表示する
 (3)LEDを点滅させる
 (4)ウェラブルに通知を送る
 (5)通知があったことをロボットに伝えてもらう
 (6)聞こえやすい周波数の音声で伝える
 (7)大きな音量の音声で伝える
When the cause is “(c) hearing loss”, the voice agent 10 executes, for example, all or a part of the following (1) to (7).
(1) Blink the lighting in the room (2) Display on the projector / monitor (3) Blink the LED (4) Send a notification to the wearable (5) Ask the robot to notify that there was a notification (6) Communicate with sound at frequencies that are easy to hear (7) Communicate with loud sound
 図9は、原因が「(c)難聴」であった場合についてのシチュエーションの一例を概略的に示している。この例は、難聴(耳が遠い)のおじいさんがいる状態で、呼びかけ者であるA君が「おじいさん」と呼びかけたが、おじいさんがその呼びかけに気付かなかった場合について示している。この例では、音声エージェント10は、おじいさんに対して、A君が呼んでいることを、スピーカからの音声と、プロジェクタやモニタからの画像により、「おじいさん、A君が呼んでいるよ。」と通知している。なお、この場合、聞こえやすい周波数の音声や大きな音量の音声で伝えられる。 FIG. 9 schematically shows an example of a situation where the cause is “(c) hearing loss”. This example shows a case in which there is a grandfather with hearing loss (distant ears), and the caller A calls "grandfather", but the grandfather does not notice the call. In this example, the voice agent 10 indicates to the grandfather that Mr. A is calling, based on the sound from the speaker and the image from the projector or the monitor, "Grandfather, Mr. A is calling." Notify. Note that, in this case, the sound is transmitted by a sound having a frequency that is easy to hear or a sound having a large volume.
 また、音声エージェント10は、原因が「(d)騒音」である場合、例えば、以下の(1)~(6)の全部または一部を実行する。
 (1)部屋の照明を点滅させる
 (2)プロジェクタ/モニタに表示する
 (3)音声で通知する(直ちにあるいは騒音が途切れたタイミングで通知する)
 (4)LEDを点滅させる
 (5)ウェラブルに通知を送る
 (6)ロボットに通知があったことを伝えてもらう
When the cause is “(d) noise”, the voice agent 10 executes, for example, all or a part of the following (1) to (6).
(1) Blink the lights in the room (2) Display on the projector / monitor (3) Notify by voice (Notify immediately or at the timing when noise is cut off)
(4) Blink LED (5) Send notification to wearable (6) Ask the robot to notify that there was notification
 図10は、原因が「(d)騒音」であった場合についてのシチュエーションの一例を概略的に示している。この例は、騒音がある中に子供のA君がいる状態で、呼びかけ者であるお父さんが「Aくーん」と呼びかけたが、A君がその呼びかけに気付かなかった場合について示している。この例では、音声エージェント10は、A君に対して、お父さんが呼んでいることを、スピーカからの音声と、プロジェクタやモニタからの画像により、「Aくん、お父さんが呼んでいるよ。」と通知している。 FIG. 10 schematically shows an example of a situation where the cause is “(d) noise”. This example shows a case where the caller Dad calls "A-kun" in a state where there is a child A in the presence of noise, but A does not notice the call. In this example, the voice agent 10 tells A that his father is calling, "A-kun, Dad is calling" by voice from a speaker and images from a projector or monitor. Notify.
 また、音声エージェント10は、原因が「(e)集中」である場合、例えば、以下の(1)~(6)の全部または一部を実行する。
 (1)部屋の照明を点滅させる
 (2)プロジェクタ/モニタに表示する
 (3)音声で通知する(直ちにあるいは集中が途切れたタイミングで通知する)
 (4)LEDを点滅させる
 (5)ウェラブルに通知を送る
 (6)ロボットに通知があったことを伝えてもらう
When the cause is “(e) concentration”, the voice agent 10 executes, for example, all or a part of the following (1) to (6).
(1) Blink the lights in the room (2) Display on the projector / monitor (3) Notify by voice (Notify immediately or at the timing when concentration stops)
(4) Blink LED (5) Send notification to wearable (6) Ask the robot to notify that there was notification
 図11は、原因が「(e)集中」であった場合についてのシチュエーションの一例を概略的に示している。この例は、子供のA君が勉強に集中している状態で、呼びかけ者であるお父さんが「Aくーん」と呼びかけたが、A君がその呼びかけに気付かなかった場合について示している。この例では、音声エージェント10は、A君に対して、お父さんが呼んでいることを、スピーカからの音声と、プロジェクタやモニタからの画像により、「Aくん、お父さんが呼んでいるよ。」と通知している。 FIG. 11 schematically illustrates an example of a situation where the cause is “(e) concentration”. This example shows a case where the caller Dad calls "A-kun" while the child A is concentrating on studying, but A does not notice the call. In this example, the voice agent 10 tells A that his father is calling, "A-kun, Dad is calling" by voice from a speaker and images from a projector or monitor. Notify.
 また、音声エージェント10は、原因が「(f)睡眠(昼寝)」である場合、例えば、以下の(1)~(7)の全部または一部を実行する。
 (1)部屋の照明を点滅させる
 (2)プロジェクタ/モニタに表示する
 (3)LEDを点滅させる
 (4)ウェラブルに通知を送る
 (5)ロボットに通知があったことを伝えてもらう
 (6)「Bさん(被呼びかけ者)はお休み中です」とAさん(呼びかけ者)に音声で伝える
 (7)「Bさん(被呼びかけ者)はお休み中です」とAさん(呼びかけ者)のウェラブルに通知を送る
When the cause is “(f) sleep (nap)”, the voice agent 10 executes, for example, all or a part of the following (1) to (7).
(1) Blink the lighting in the room (2) Display on the projector / monitor (3) Blink the LED (4) Send a notification to the wearable (5) Ask the robot to be notified that there was a notification (6) "B (caller) is absent" tells A (caller) by voice (7) "B (caller) is absent" and A (caller) wearable Send notification
 図12は、原因が「(f)睡眠」であった場合についてのシチュエーションの一例を概略的に示している。この例は、子供のA君が昼寝している状態で、呼びかけ者であるお父さんが「Aくーん」と呼びかけたが、A君がその呼びかけに気付かなかった場合について示している。この例では、音声エージェント10は、呼びかけ者であるお父さんに対して、A君が昼寝している旨を、スピーカからの音声により、「お父さん、Aくんはお休み中です。」と通知している。 FIG. 12 schematically illustrates an example of a situation where the cause is “(f) sleep”. This example shows a case where the caller, Dad, calls "A-kun" while the child, A, is in a nap, but he does not notice the call. In this example, the voice agent 10 notifies the caller, Dad, that A is taking a nap by voice from the speaker, "Dad, A-kun is absent." .
 また、音声エージェント10は、原因が「(g)意図的に無反応」である場合、例えば、以下の(1)を実行する。一定時間は、例えば、10分などである。この一定時間は、音声エージェント10のユーザ(管理者)が任意に設定し得る。なお、「この機能」とは、被呼びかけ者に呼びかけがあったことを知らせる機能を意味する。
 (1)一定時間この機能を停止する
When the cause is “(g) intentionally no response”, the voice agent 10 executes, for example, the following (1). The certain time is, for example, 10 minutes. This fixed time can be arbitrarily set by the user (administrator) of the voice agent 10. In addition, "this function" means a function for notifying the called party that the calling has been made.
(1) Stop this function for a certain period of time
 図13は、原因が「(g)意図的に無反応」であった場合についてのシチュエーションの一例を概略的に示している。この例は、呼びかけ者であるお父さんが「Aくーん」と呼びかけたが、A君は気付いているのに意図的に反応しなかった場合について示している。この例では、音声エージェント10は、A君に対して呼びかけがあったことの通知は実行しないし、また、呼びかけ者であるお父さんに通知することも行わない。 FIG. 13 schematically shows an example of a situation where the cause is “(g) intentionally no reaction”. This example shows a case where the caller, Dad, called "A-kun", but A did not knowingly react to it. In this example, the voice agent 10 does not execute notification of the call to Mr. A, nor does the voice agent 10 notify the caller Dad.
 音声エージェント10は、呼びかけが生声によらないときは、被呼びかけ者に呼びかけがあったことを知らせることは行わない。これにより、例えばテレビ受信機からの呼びかけに誤って反応することを回避できる。この場合、音声エージェント10は、生声とテレビ受信機からの音声とを周波数特性を利用することで識別することが考えられるが、識別方法はこれに限定されない。 The voice agent 10 does not notify the callee that the call has been made when the call is not based on live voice. This can avoid, for example, erroneously responding to a call from a television receiver. In this case, it is conceivable that the voice agent 10 discriminates between the live voice and the voice from the television receiver by using the frequency characteristics, but the identification method is not limited to this.
 図14は、A君がブロックを用いて車の作成に夢中になっている状態で、テレビ受信機から「Aくーん」との呼びかけが偶然にあった場合について示している。この例では、音声エージェント10は、呼びかけに係る音声が生声でないと識別し、A君に対して呼びかけがあったことの通知は実行しない。 FIG. 14 shows a case in which Mr. A is accidentally calling for “A-kun” from the television receiver in a state where he is absorbed in creating a car using blocks. In this example, the voice agent 10 identifies that the voice related to the call is not a live voice, and does not execute a notification to Mr. A that the call has been made.
 なお、上述では、テレビ受信機から「Aくーん」との呼びかけについて反応しないようにする旨を述べたが、例えば、テレビ受信機をテレビ電話の端末として使用することも考えられる。その場合には、例えば、相手側からの呼びかけに被呼びかけ者が気付いていな場合、音声エージェント10は、その被呼びかけ者に対して呼びかけがあったことの通知は実行する利益がある。 In the above description, it is described that the TV receiver does not respond to the call of "A-kun". However, for example, the TV receiver may be used as a terminal for a videophone. In that case, for example, if the callee is not aware of the call from the other party, the voice agent 10 has the benefit of executing the notification that the callee has been called.
 そこで、音声エージェント10は、例えば、呼びかけの方向と呼びかけ者がだれであるかによって、被呼びかけ者に対して呼びかけがあったことの通知を行うか否かの判断をおこなうことも考えられる。例えば、テレビ受信機の方向からの呼びかけについては、基本的には被呼びかけ者に対して呼びかけがあったことの通知を行わないこととするが、例外的に呼びかけ者が登録者であった場合には被呼びかけ者に対して呼びかけがあったことの通知を行うようにされる。 Therefore, it is conceivable that the voice agent 10 determines whether or not to notify the called party of the calling based on, for example, the calling direction and the calling party. For example, in the case of a call from the direction of the television receiver, basically, the callee will not be notified that the call has been made, except in the case where the caller is a registrant. Is notified that the caller has been called.
 「音声エージェントの構成」
 図15は、音声エージェント10の構成例を示している。音声エージェント10は、入力インタフェースとしてのカメラ101およびマイク102を有している。ここで、マイク102は、音源方向を推定可能とするために例えばアレイ構成とされている。また、音声エージェント10は、出力インタフェースとしてのスピーカ103、プロジェクタ104、モニタ105およびLED106を有している。
"Voice Agent Configuration"
FIG. 15 shows a configuration example of the voice agent 10. The voice agent 10 has a camera 101 and a microphone 102 as input interfaces. Here, the microphone 102 has, for example, an array configuration so that the sound source direction can be estimated. The voice agent 10 has a speaker 103, a projector 104, a monitor 105, and an LED 106 as output interfaces.
 また、音声エージェント10は、処理本体部107を有している。この処理本体部107は、顔検出部111と、顔識別部112と、音声認識部113と、自然言語処理部114と、気付き判定部115と、原因推定部116と、音源方向推定部117と、話者推定部118と、生声判別部119と、出力制御部120と、音声合成部121と、ネットワークインタフェース122を有している。 (4) The voice agent 10 has a processing main unit 107. The processing main unit 107 includes a face detection unit 111, a face identification unit 112, a voice recognition unit 113, a natural language processing unit 114, a notice determination unit 115, a cause estimation unit 116, a sound source direction estimation unit 117 , A speaker estimation unit 118, a live voice discrimination unit 119, an output control unit 120, a speech synthesis unit 121, and a network interface 122.
 顔検出部111は、カメラ101からの画像信号に対して顔認識処理を施して、音声エージェント10の視野である画像に存在する顔を検出する。顔識別部112は、顔検出部111で検出された顔に基づいて、予め登録されている登録者の顔との比較により、検出されたそれぞれの顔の識別をする。 The face detection unit 111 performs a face recognition process on the image signal from the camera 101 to detect a face present in the image that is the visual field of the voice agent 10. The face identification unit 112 identifies each of the detected faces based on the face detected by the face detection unit 111 by comparing with the face of the registrant registered in advance.
 音声認識部113は、マイク102からの音声信号に対して音声認識処理を施して、音声信号をテキストに変換する。自然言語処理部114は、音声認識部113で得られたテキストの解析を行って、単語と品詞、係り受けなどの情報を得る。 The voice recognition unit 113 performs voice recognition processing on the voice signal from the microphone 102, and converts the voice signal into text. The natural language processing unit 114 analyzes the text obtained by the speech recognition unit 113 to obtain information such as words, parts of speech, and dependencies.
 音源方向推定部117は、マイク(マイクアレイ)102からの複数の音声信号に基づき、例えばそれらの音声信号の時間差を検出することで音源方向を推定する。話者推定部118は、マイク102からの音声信号に基づき、予め登録されている登録者の音声特徴との比較により、話者を推定する。生声判別部119は、マイク102からの音声信号に基づき、例えば周波数特性から生声かテレビ受信機からの音声であるあるかを判別する。 The sound source direction estimating unit 117 estimates the sound source direction based on a plurality of audio signals from the microphone (microphone array) 102, for example, by detecting a time difference between the audio signals. The speaker estimating unit 118 estimates a speaker based on a voice signal from the microphone 102 by comparing with a voice characteristic of a registrant registered in advance. Based on the audio signal from the microphone 102, the live voice determination unit 119 determines whether the voice is a live voice or a voice from a television receiver based on, for example, frequency characteristics.
 気付き判定部115は、カメラ101からの画像信号と、顔識別部112による識別結果、自然言語処理部114の処理結果、音源方向推定部117の推定結果などに基づいて、被呼びかけ者が呼びかけに気付いているか否かを判定する。 The notice determination unit 115 is configured to call the called party based on the image signal from the camera 101, the identification result by the face identification unit 112, the processing result of the natural language processing unit 114, the estimation result of the sound source direction estimation unit 117, and the like. Determine if you are aware.
 例えば、気付き判定部115は、被呼びかけ者の顔の向きと音源方向があっているかどうかで判定する。また、例えば、気付き判定部115は、通常呼びかけられた者が行う反応(振り返る、顔を上げるなど)を訓練データとして与えて教師あり学習がなされている気付き判別器に被呼びかけ者の画像を入力することで判定する。 For example, the awareness determination unit 115 determines whether the direction of the face of the callee matches the direction of the sound source. In addition, for example, the awareness determination unit 115 inputs the reaction (return, face-up, etc.) performed by the normally called person as training data and inputs the image of the called person to the awareness discriminator that has been trained by the teacher. Is determined.
 原因推定部116は、カメラ101からの画像信号、マイク102からの音声信号、顔識別部112による識別結果、自然言語処理部114の処理結果、さらには登録者のプロファイル情報などに基づいて、被呼びかけ者が呼びかけに気付かない原因を推定する。 The cause estimating unit 116 receives the image signal from the camera 101, the audio signal from the microphone 102, the identification result by the face identification unit 112, the processing result of the natural language processing unit 114, and the registrant's profile information. Estimate the cause that the caller does not notice the call.
 例えば、画像中に被呼びかけ者の顔がなければ不在が原因と推定する。また、例えば、登録者のプロファイル情報から被呼びかけ者が難聴(耳が遠い)ということが解れば、難聴(耳が遠い)が原因と推定する。また、例えば、環境音の音量が一定レベルを超えていれば、騒音が原因と推定する。また、例えば、ディープラーンニングで作成された「会話中」、「睡眠」、「集中」のシーン判別器により、その判別結果を原因と判定する。また、例えば、ディープラーンニングで作成された「静かにして欲しい」ことを意味するジェスチャーを判別する判別器による判別スコアが一定レベルを超えていれば、意図的に反応しないことが原因と推定する。 For example, if there is no face of the called person in the image, it is presumed that absence is the cause. Further, for example, if it is known from the registrant's profile information that the called party is deaf (early distant), it is presumed that hearing loss (early distant) is the cause. Also, for example, if the volume of the environmental sound exceeds a certain level, it is estimated that noise is the cause. Further, for example, a scene discriminator of “during conversation”, “sleep”, and “concentration” created by deep learning determines the result of the discrimination as a cause. In addition, for example, if the discrimination score of a gesture for discriminating a gesture meaning “I want to be quiet” created by deep learning exceeds a certain level, it is presumed that the cause is that there is no intentional reaction. .
 出力制御部120は、気付き判定部115の判定結果、原因推定部116の推定結果、自然言語処理部114の処理結果、音源方向推定部117の推定結果、話者推定部118の推定結果、生声判別部119の判別結果等に基づいて、被呼びかけ者に対して呼びかけに気付かせるための出力を制御する。出力制御部120は、具体的には、音声出力のためのテキストデータの発生、画像表示のための画像データの発生、各出力インタフェースを制御するための制御信号などを発生する。 The output control unit 120 determines the determination result of the awareness determination unit 115, the estimation result of the cause estimation unit 116, the processing result of the natural language processing unit 114, the estimation result of the sound source direction estimation unit 117, the estimation result of the speaker estimation unit 118, Based on the result of the discrimination by the voice discriminating unit 119, the output for controlling the callee to notice the call is controlled. The output control unit 120 specifically generates text data for audio output, generates image data for image display, and generates control signals for controlling each output interface.
 音声合成部121は、文字列を示すテキストデータを音声データ(音声信号)に変換する。ネットワークインタフェース122は、出力制御部120と、出力インタフェースとしての照明131、ウェラブルデバイス132およびロボット133をLANで接続するためのインタフェースである。 The speech synthesis unit 121 converts text data indicating a character string into speech data (speech signal). The network interface 122 is an interface for connecting the output control unit 120 to the illumination 131, the wearable device 132, and the robot 133 as output interfaces via a LAN.
 図16のフローチャートは、呼びかけが行われる場合における音声エージェント10の処理本体部107の処理手順の一例を示している。処理本体部107は、ステップST11において、処理を開始する。次に、処理本体部107は、ステップST12において、音声認識・解析(自然言語処理)をする。そして、処理本体部107は、ステップST13において、解析結果に基づいて、登録者の名前が呼ばれたか判断する。 The flowchart in FIG. 16 shows an example of the processing procedure of the processing main unit 107 of the voice agent 10 when a call is made. The processing main unit 107 starts processing in step ST11. Next, in step ST12, the processing main unit 107 performs voice recognition and analysis (natural language processing). Then, in step ST13, the processing main unit 107 determines whether the name of the registrant has been called based on the analysis result.
 登録者の名前が呼ばれたとき、処理本体部107は、ステップST14において、音源方向、つまり呼びかけが行われた方向を推定する。例えば、音声エージェント10がリビングに配置されている場合、玄関方向、台所方向、二階方向、窓方向などである。次に、処理本体部107は、ステップST15において、登録者の名前を呼んだ音声、つまり呼びかけの音声が生声であるかを判別する。 When the name of the registrant is called, in step ST14, the processing main unit 107 estimates the sound source direction, that is, the direction in which the call was made. For example, when the voice agent 10 is arranged in the living room, the direction is the entrance direction, the kitchen direction, the second floor direction, the window direction, and the like. Next, in step ST15, the processing main unit 107 determines whether the voice calling the registrant's name, that is, the calling voice is a live voice.
 次に、処理本体部107は、ステップST16において、話者、つまり呼びかけ者を推定する。この場合、呼びかけ者が登録者であれば呼びかけ者が誰かを具体的に特定できる。次に、ステップST17において、顔検出・識別を行って、音声エージェント10の視野に人がいるか否か、人がいるときにはその人が誰かを認識する。 Next, in step ST16, the processing main unit 107 estimates a speaker, that is, a caller. In this case, if the caller is a registrant, the caller can be specifically identified. Next, in step ST17, face detection / identification is performed to determine whether or not there is a person in the field of view of the voice agent 10, and when there is a person, the person is recognized.
 次に、処理本体部107は、ステップST18において、呼ばれた人、つまり被呼びかけ者は呼びかけに気付いたか否かを判断する。呼びかけに気付かないとき、処理本体部107は、ステップST19において、気付かない原因を推定する。次に、処理本体部107は、ステップST20において、気付かなった原因に応じて、気付かせるためにどのような行動をすべきかを決定する。 Next, in step ST18, the processing main unit 107 determines whether or not the called person, that is, the called person has noticed the calling. When the call is not noticed, the processing main unit 107 estimates the cause of not being noticed in step ST19. Next, in step ST20, the processing main unit 107 determines what action should be taken to make the user aware, in accordance with the cause of the notice.
 次に、処理本体部107は、ステップST21において、決定された行動に基づいて、被呼びかけ者に呼びかけを気付かせるための出力の制御をする。処理本体部107は、ステップST21の処理の後、ステップST22において、一連の処理を終了する。また、ステップST18において、呼ばれた人が気付いたとき、処理本体部107は、直ちに、ステップST22において、一連の処理を終了する。 Next, in step ST21, the processing main unit 107 controls output for reminding the called party of the call based on the determined action. After the processing in step ST21, the processing main unit 107 ends a series of processing in step ST22. When the called person is noticed in step ST18, the processing main unit 107 immediately ends the series of processing in step ST22.
 図17は、呼びかけが行われたときに不在であった被呼びかけ者が戻ってきた場合における音声エージェント10の処理本体部107の処理手順の一例を示している。処理本体部107は、ステップST31において、処理を開始する。次に、処理本体部107は、ステップST32において、顔検出・識別を行って、音声エージェント10の視野に人がいるか否か、人がいるときにはその人が誰かを認識する。 FIG. 17 shows an example of the processing procedure of the processing main unit 107 of the voice agent 10 when the called party who was absent when the calling was made returns. The processing main unit 107 starts processing in step ST31. Next, in step ST32, the processing main unit 107 performs face detection and identification to determine whether or not there is a person in the field of view of the voice agent 10, and to recognize who the person is when there is a person.
 次に、処理本体部107は、ステップST33において、不在記録の人、つまり上述の呼びかけに気付いていない場合の原因が不在であった際の被呼びかけ者がいるか否かを判断する。いるとき、処理本体部107は、ステップST34において、不在記録に基づいて被呼びかけ者に呼びかけがあったことを気付かせるための出力の制御をする。処理本体部107は、ステップST34の処理の後、ステップST35において、一連の処理を終了する。 Next, in step ST33, the processing main unit 107 determines whether or not there is a person who has been absent, that is, a person who has been called when the cause of unaware of the above-mentioned call is absent. When there is, in step ST34, the processing main unit 107 controls output for notifying that the called party has been called based on the absence record. After the processing in step ST34, the processing main unit 107 ends a series of processing in step ST35.
 図18は、音声エージェント10の他の構成例を示している。この図18において、図15と対応する部分には同一符号を付し、適宜、詳細説明は省略する。図18に示す音声エージェント10の処理本体部107は、原因推定部116と、出力制御部120と、ネットワークインタフェース122,123のみを有する。ネットワークインタフェース123は、クラウド150上に存在するWeb APIとWANで接続するためのインタフェースである。図18に示す音声エージェント10の処理本体部107は、図15の音声エージェント10の処理本体部107における多くの処理がクラウド150上に存在するWeb APIで実行する。 FIG. 18 shows another configuration example of the voice agent 10. In FIG. 18, portions corresponding to those in FIG. 15 are denoted by the same reference numerals, and detailed description will be omitted as appropriate. The processing main unit 107 of the voice agent 10 illustrated in FIG. 18 includes only a cause estimating unit 116, an output control unit 120, and network interfaces 122 and 123. The network interface 123 is an interface for connecting to a Web API existing on the cloud 150 via a WAN. The processing main unit 107 of the voice agent 10 illustrated in FIG. 18 executes many processes in the processing main unit 107 of the voice agent 10 illustrated in FIG. 15 using a Web API existing on the cloud 150.
 図19は、図18に示す音声エージェント10で使用されるWeb APIの例を示している。「顔検出・認識」のWeb APIは、動画ファイルおよび認証情報をパラメータとして受け取り、登録者ID、発話者座標(x、y)および確度を戻り値とする。なお、この戻り値は、例えばJSON形式とされる。以下のその他のWeb APIの戻りに関しても同様に、戻り値は、例えばJSON形式とされる。 FIG. 19 shows an example of a Web API used by the voice agent 10 shown in FIG. The Web API of “face detection / recognition” receives a moving image file and authentication information as parameters, and uses a registrant ID, speaker coordinates (x, y), and accuracy as return values. This return value is in, for example, a JSON format. Similarly, return values of the following other Web APIs are, for example, JSON format.
 ここで、動画ファイルは、音声エージェント10のカメラ101で収録した動画ファイルである。また、認証情報は、Web APIを利用するための認証情報である。また、登録者IDは、登録者に固有のID、例えば家族一人一人を指すIDである。また、発話者座標(x、y)は、発話者の顔が写っている位置の画面内座標である。また、確度は、認識した顔が登録者IDである確率、例えばAさんと認識した場合、それがAさんだとどの程度確信しているかを示すものである。 Here, the moving image file is a moving image file recorded by the camera 101 of the voice agent 10. The authentication information is authentication information for using the Web API. The registrant ID is an ID unique to the registrant, for example, an ID indicating each family member. Further, the speaker coordinates (x, y) are in-screen coordinates of a position where the face of the speaker is shown. Further, the accuracy indicates the probability that the recognized face is the registrant ID, for example, the degree of conviction that the recognized face is Mr. A when recognized as Mr. A.
 図20は、「顔検出・認識」のWeb APIの戻り値の一例を示している。ここでは、画像中に顔が3つ識別された場合の戻り値を示している。“id_detected”は、検出された顔に振ったID(順番を示す番号)である。“id_recognized”は、登録者IDである。 FIG. 20 shows an example of the return value of the Web API of “face detection / recognition”. Here, the return value when three faces are identified in the image is shown. “Id_detected” is the ID (number indicating the order) assigned to the detected face. “Id_recognized” is a registrant ID.
 「気付き判定」のWeb APIは、登録者ID、動画ファイルおよび認証情報をパラメータとして受け取り、部屋にいるかどうかの真偽値および気付いたどうかの真偽値を戻り値とする。ここで、登録者IDは、気付いたかどうかを調べたい人の登録IDである。動画ファイルは、音声エージェントのカメラ101で収録した動画ファイルである。また、認証情報は、Web APIを利用するための認証情報である。 The Web API for "notice determination" receives a registrant ID, a moving image file, and authentication information as parameters, and returns a boolean value indicating whether the user is in the room and a boolean value indicating whether the user has noticed. Here, the registrant ID is a registration ID of a person who wants to check whether or not he / she has noticed. The moving image file is a moving image file recorded by the camera 101 of the voice agent. The authentication information is authentication information for using the Web API.
 部屋にいるかどうかの真偽値は、登録者IDで指定した人が動画中にいるかどうかを示すものであり、動画中にいれば“True”であり、いなければ“False”である。また、気付いたかどうかの真偽値は、登録者IDで指定した人が気付いたかどうかを示すものであり、気付けがば“True”であり、いなければ“False”である。 The true / false value of whether or not the user is in the room indicates whether or not the person specified by the registrant ID is in the moving image, and is “True” if the person is in the moving image and “False” if not. The true / false value of whether or not noticed indicates whether or not the person designated by the registrant ID has noticed, and is “True” if noticed, and “False” if not noticed.
 「音声認識」のWeb APIは、音声ファイル、言語種別および認証情報をパラメータとして受け取り、テキストを戻り値とする。ここで、音声ファイルは、音声エージェント10のマイク102で収録した音声ファイルである。また、言語種別は、収録した音声の言語種別である。また、認証情報は、Web APIを利用するための認証情報である。また、テキストは、音声ファイルから書き起こされたテキストである。 The "voice recognition" Web API receives a voice file, a language type, and authentication information as parameters, and returns a text as a return value. Here, the voice file is a voice file recorded by the microphone 102 of the voice agent 10. The language type is the language type of the recorded voice. The authentication information is authentication information for using the Web API. The text is text transcribed from the audio file.
 「自然言語処理」のWeb APIは、テキスト、言語種別および認証情報をパラメータとして受け取り、単語と品詞、および係り受けを戻り値とする。「音源方向推定」のWeb APIは、音声ファイルおよび認証情報をパラメータとして受け取り、音源方向θおよび音源距離rを戻り値とする。「話者推定」のWeb APIは、音声ファイルおよび認証情報をパラメータとして受け取り、登録者IDを戻り値とする。「生声判別部」のWeb APIは、音声ファイルおよび認証情報をパラメータとして受け取り、生声かどうかの真偽値を戻り値とする。「音声合成」のWeb APIは、文字列、言語種別および認証情報をパラメータとして受け取り、音声ファイルを戻り値とする。 The Web API of "natural language processing" receives text, language type, and authentication information as parameters, and returns words, parts of speech, and dependencies as return values. The Web API of “sound source direction estimation” receives a sound file and authentication information as parameters, and returns the sound source direction θ and the sound source distance r as return values. The Web API of “speaker estimation” receives a voice file and authentication information as parameters, and uses a registrant ID as a return value. The Web API of the “live voice discriminating unit” receives a voice file and authentication information as parameters, and returns a boolean value indicating whether or not the voice is live as a return value. The Web API of “speech synthesis” receives a character string, a language type, and authentication information as parameters, and returns a speech file as a return value.
 以上説明したように、図1に示す音声エージェント10においては、被呼びかけ者が呼びかけに気付いていないと判断された場合、その原因推定の結果に基づいて被呼びかけ者に対して呼びかけに気付かせるための出力を変化させるように制御できる。そのため、被呼びかけ者に対して効果的に呼びかけに気付かせることができ、人間同士のコミュニケーションの円滑化を図ることができる。 As described above, in the voice agent 10 shown in FIG. 1, when it is determined that the callee has not noticed the call, the speech agent 10 is made to notice the call to the callee based on the result of the cause estimation. Can be controlled to change the output. Therefore, the callee can be effectively made aware of the call, and communication between humans can be facilitated.
 また、図1に示す音声エージェント10においては、被呼びかけ者に対して呼びかけに気付かせるための出力に、呼びかけがされた方向を示す方向情報が含まれるように制御できる。そのため、被呼びかけ者はどの方向から呼びかけがあったかを容易に認識でき、呼びかけに適切に対応することが可能となる。 Also, in the voice agent 10 shown in FIG. 1, it is possible to control so that the output for reminding the caller of the call includes direction information indicating the direction of the call. Therefore, the callee can easily recognize from which direction the call was made, and can appropriately respond to the call.
 また、図1に示す音声エージェント10においては、呼びかけが生声によらないときには、出力をしないように制御できる。そのため、例えばテレビ受信機からの呼びかけに誤って反応することを回避できる。 In addition, the voice agent 10 shown in FIG. 1 can be controlled so as not to output when the call is not based on live voice. Therefore, it is possible to avoid, for example, erroneously responding to a call from a television receiver.
 また、図1に示す音声エージェント10においては、原因推定の結果が被呼びかけ者の不在である場合に、被呼びかけ者が戻った後に、呼びかけがあったことを知らせるための出力をするように制御できる。そのため、不在であった被呼びかけ者は、戻った後に、呼びかけがあったことを知ることができる。また、この場合、呼びかけがあったことを知らせるための出力に、呼びかけがいつ頃あったかを示す時間情報を含めることができる。これにより、被呼びかけ者は呼びかけがいつ頃あったかを容易に認識でき、呼びかけに適切に対応することが可能となる。 Also, in the voice agent 10 shown in FIG. 1, when the result of the cause estimation is that the called party is absent, after the called party returns, control is performed so that an output for notifying that the calling party has been called is output. it can. Therefore, the callee who has been absent can know that the call has been made after returning. Also, in this case, the output for notifying that the call has been made can include time information indicating when the call was made. As a result, the callee can easily recognize when the call has been made, and can appropriately respond to the call.
 <2.第2の実施の形態>
 [テレビ電話システム]
 図21は、第2の実施の形態としてのテレビ電話システム50の構成例を示している。このテレビ電話システム50は、お父さん、お母さん、二人の子供が住んでいる住宅に配置されたテレビ電話装置200Aと、おじいさん、おばあさんが住んでいる住宅に配置されたテレビ電話装置200Bが、インターネット210を介して接続された構成となっている。
<2. Second Embodiment>
[Video phone system]
FIG. 21 shows a configuration example of a videophone system 50 according to the second embodiment. The videophone system 50 includes a videophone device 200A arranged in a house where a father, a mother and two children live, and a videophone device 200B arranged in a house where a grandfather and a grandmother live. Are connected via a.
 テレビ電話装置200Bには、上述した音声エージェント10と同様の機能を持つ音声エージェントが搭載されている。テレビ電話装置200Bの音声エージェントは、テレビ電話装置200Aから呼びかけがあって、被呼びかけ者が呼びかけに気付いていないと判断された場合、上述した音声エージェント10と同様に、気付かない原因に応じて、被呼びかけ者に対して呼びかけに気付かせるための出力をする。 The videophone device 200B includes a voice agent having the same function as the voice agent 10 described above. When the voice agent of the videophone device 200B receives a call from the videophone device 200A and determines that the callee has not noticed the call, like the voice agent 10 described above, Outputs to the callee to make the call aware.
 例えば、図示の例においては、テレビ電話装置200Aから男の子がおじいさんに呼びかけを行った場合であって、テレビ受信機200B側のおじいさんがそれに気付かなかった場合の例を示しており、音声による通知201とLED発光202がなされている。 For example, the illustrated example shows a case where the boy calls the grandfather from the videophone device 200A and the grandfather on the television receiver 200B does not notice it. LED emission 202 is performed.
 図22は、テレビ電話装置200Bの音声エージェント210の構成例を示している。この図22において、図15と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。この場合、処理本体部107の音声認識部113および話者推定部118には、テレビ電話装置200Aからインターネットを介して送られてくる音声信号が与えられる。また、この場合、音源方向推定や生声判別は不要となるため、図22の処理本体部107からはそれらの機能部は除いている。 FIG. 22 shows a configuration example of the voice agent 210 of the videophone device 200B. In FIG. 22, portions corresponding to those in FIG. 15 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate. In this case, a voice signal sent from the videophone device 200A via the Internet is given to the voice recognition unit 113 and the speaker estimation unit 118 of the processing main unit 107. Also, in this case, since the sound source direction estimation and the live voice discrimination are unnecessary, those functional units are omitted from the processing main unit 107 in FIG.
 また、図23は、テレビ電話装置200Bの音声エージェント210の他の構成例を示している。この図23において、図18、図22と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。図23に示す音声エージェント210の処理本体部107は、図22の音声エージェント210の処理本体部107における多くの処理がクラウド150上に存在するWeb APIで実行する。この場合、テレビ電話装置200Aからインターネットを介して送られてくる音声信号は、ネットワークインタフェース123を通じてクラウド150側に与えられて処理される。 FIG. 23 shows another configuration example of the voice agent 210 of the videophone device 200B. 23, portions corresponding to those in FIGS. 18 and 22 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate. The processing main unit 107 of the voice agent 210 illustrated in FIG. 23 executes many processes in the processing main unit 107 of the voice agent 210 illustrated in FIG. 22 using a Web API existing on the cloud 150. In this case, the audio signal transmitted from the videophone device 200A via the Internet is provided to the cloud 150 via the network interface 123 and processed.
 <3.第3の実施の形態>
 [テレビ電話システム]
 図24は、第3の実施の形態としてのテレビ電話システム60の構成例を示している。このテレビ電話システム60は、女の子が扱うモバイル機器からなるテレビ電話装置300Aと、おじいさん、おばあさんが住んでいる住宅に配置されたテレビ電話装置300Bが、エージェントクラウドサービス310を介して接続された構成となっている。
<3. Third Embodiment>
[Video phone system]
FIG. 24 shows a configuration example of a videophone system 60 according to the third embodiment. This videophone system 60 has a configuration in which a videophone device 300A composed of a mobile device handled by a girl and a videophone device 300B arranged in a house where grandfather and grandmother live are connected via an agent cloud service 310. Has become.
 エージェントクラウドサービス310は、上述した音声エージェント10と同様の機能を持っている。エージェントクラウドサービス310は、テレビ電話装置300Aから呼びかけがあって、被呼びかけ者が呼びかけに気付いていないと判断された場合、上述した音声エージェント10と同様に、テレビ電話装置300Bにおいて、気付かない原因に応じて、被呼びかけ者に対して呼びかけに気付かせるための出力をするように制御する。 The agent cloud service 310 has the same function as the voice agent 10 described above. When the agent cloud service 310 receives a call from the videophone device 300A and determines that the callee has not noticed the call, the agent cloud service 310 determines whether the videophone device 300B does not In response, control is performed so as to output to the called person to notice the calling.
 例えば、図示の例においては、テレビ電話装置300Aから女の子がおじいさんに呼びかけを行った場合であって、テレビ受信機300B側のおじいさんがそれに気付かなかった場合の例を示しており、音声による通知301とLED発光302がなされている。 For example, the illustrated example shows a case where the girl calls the grandfather from the videophone device 300A and the grandfather on the television receiver 300B does not notice it. LED emission 302 is performed.
 図25は、エージェントクラウドサービス310の構成例を示している。この図25において、図23と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。この場合、エージェントクラウドサービス310は、ネットワークインタフェース312によりテレビ電話装置300B側の各機器と接続されると共に、ネットワークインタフェース313によりテレビ電話装置300A側と接続されている。 FIG. 25 shows a configuration example of the agent cloud service 310. 25, portions corresponding to those in FIG. 23 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate. In this case, the agent cloud service 310 is connected to each device on the videophone device 300B side by the network interface 312, and is connected to the videophone device 300A side by the network interface 313.
 <4.変形例>
 なお、上述実施の形態においては、被呼びかけ者が存在するか否かをカメラ101からの画像信号に対して顔検出・識別の処理を行った結果で判断するように説明したが、さらに人感センサや赤外線カメラを追加して処理を行うようにしてもよい。このようにすることで、写真と本物の人物を区別する助けになるので、写真やポスターを誤検出し、誤って写真の中の人物に向かってエージェントが話かける誤動作を避けることを可能にする。
<4. Modification>
Note that, in the above-described embodiment, it has been described that whether or not a called party is present is determined based on the result of performing face detection and identification processing on the image signal from the camera 101. The processing may be performed by adding a sensor or an infrared camera. This helps to distinguish between photos and real people, so it is possible to falsely detect photos and posters and avoid false actions by agents talking to people in the photo by mistake. .
 また、図26は、上述した音声エージェントの処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。例えば、情報本体部107(図15、図18、図22、図23参照)を、コンピュータで構成することができる。 FIG. 26 is a block diagram illustrating a configuration example of hardware of a computer that executes the above-described processing of the voice agent by a program. For example, the information main body 107 (see FIGS. 15, 18, 22, and 23) can be configured by a computer.
 コンピュータにおいて、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、およびドライブ510が接続されている。 In the computer, a CPU (Central Processing Unit) 501, a ROM (Read Only Memory) 502, and a RAM (Random Access Memory) 503 are interconnected by a bus 504. The bus 504 is further connected to an input / output interface 505. An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
 入力部506は、キーボード、マウス、マイクロフォンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア511を駆動する。 The input unit 506 includes a keyboard, a mouse, a microphone, and the like. The output unit 507 includes a display, a speaker, and the like. The storage unit 508 includes a hard disk, a nonvolatile memory, and the like. The communication unit 509 includes a network interface and the like. The drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505およびバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。 In the computer configured as described above, the CPU 501 loads the program stored in the storage unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。 The program executed by the computer (CPU 501) can be provided by being recorded on a removable medium 511 as a package medium or the like, for example. Further, the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、予めインストールしておくことができる。 In the computer, the program can be installed in the storage unit 508 via the input / output interface 505 by attaching the removable medium 511 to the drive 510. The program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the storage unit 508. In addition, the program can be installed in the ROM 502 or the storage unit 508 in advance.
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。 The program executed by the computer may be a program in which processing is performed in chronological order according to the order described in this specification, or may be performed in parallel or at a necessary timing such as when a call is made. It may be a program that performs processing.
 また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。 Although the preferred embodiments of the present disclosure have been described in detail with reference to the accompanying drawings, the technical scope of the present disclosure is not limited to the examples. It is apparent that a person having ordinary knowledge in the technical field of the present disclosure can arrive at various changes or modifications within the scope of the technical idea described in the claims. It is understood that also belongs to the technical scope of the present disclosure.
 また、本技術は、以下のような構成を取ることもできる。
 (1)被呼びかけ者が呼びかけに気付いていないと判断された場合に原因推定をする原因推定部と、
 上記原因推定の結果に基づいて上記被呼びかけ者に対して上記呼びかけに気付かせるための出力を変化させるように制御する出力制御部を備える
 情報処理装置。
 (2)上記原因推定部は、上記被呼びかけ者が上記呼びかけに気付かない原因として予め設定された所定種類の原因の中から1つを推定する
 前記(1)に記載の情報処理装置。
 (3)上記所定種類の原因に、会話中、不在、難聴、集中、睡眠および意図的に無反応の全部または一部を含む
 前記(2)に記載の情報処理装置。
 (4)上記原因推定部は、上記原因推定をマルチモーダル入力に基づいて行う
 前記(1)から(3)のいずれかに記載の情報処理装置。
 (5)上記出力制御部は、マルチモーダル出力による出力を変化させる
 前記(1)から(4)のいずれかに記載の情報処理装置。
 (6)上記出力制御部は、上記呼びかけがされた方向を示す方向情報が上記出力に含まれるように制御する
 前記(1)から(5)のいずれかに記載の情報処理装置。
 (7)上記出力制御部は、上記呼びかけが生声によらないときには、上記出力をしないように制御する
 前記(1)から(6)のいずれかに記載の情報処置装置。
 (8)上記出力制御部は、上記原因推定の結果が上記被呼びかけ者の不在である場合に、上記被呼びかけ者が戻った後に、上記呼びかけがあったことを知らせるための出力をするように制御する
 前記(1)から(7)のいずれかに記載の情報処理装置。
 (9)上記出力制御部は、上記呼びかけがあったことを知らせるための出力に、上記呼びかけがいつ頃あったかを示す時間情報を含める
 前記(8)に記載の情報処理装置。
 (10)被呼びかけ者が呼びかけに気付いていないと判断された場合に原因推定をする手順と、
 上記原因推定の結果に基づいて上記被呼びかけ者に対して上記呼びかけに気付かせるための出力を変化させるように制御する手順を有する
 情報処理方法。
In addition, the present technology may have the following configurations.
(1) a cause estimating unit for estimating the cause when it is determined that the callee is not aware of the call;
An information processing apparatus comprising: an output control unit configured to control an output for notifying the callee of the call based on a result of the cause estimation.
(2) The information processing apparatus according to (1), wherein the cause estimating unit estimates one of predetermined types of causes set in advance as causes by which the callee does not notice the call.
(3) The information processing apparatus according to (2), wherein the predetermined type of cause includes all or a part of conversation, absence, hearing loss, concentration, sleep, and intentional unresponsiveness.
(4) The information processing apparatus according to any one of (1) to (3), wherein the cause estimating unit performs the cause estimation based on a multimodal input.
(5) The information processing device according to any one of (1) to (4), wherein the output control unit changes an output by multimodal output.
(6) The information processing device according to any one of (1) to (5), wherein the output control unit controls so that direction information indicating a direction in which the call is made is included in the output.
(7) The information processing device according to any one of (1) to (6), wherein the output control unit performs control so that the output is not performed when the call does not involve live voice.
(8) If the result of the cause estimation is that the called party is absent, the output control unit performs an output for notifying that the calling has been made after the called party returns. The information processing apparatus according to any one of (1) to (7).
(9) The information processing device according to (8), wherein the output control unit includes, in an output for notifying that the call has been made, time information indicating when the call was made.
(10) a procedure for estimating the cause when it is determined that the callee is unaware of the call;
An information processing method comprising a step of performing control to change an output for making the called party aware of the call based on a result of the cause estimation.
 10・・・音声エージェント
 20・・・リビング
 50,60・・・テレビ電話システム
 101・・・カメラ
 102・・・マイク
 103・・・スピーカ
 104・・・プロジェクタ
 105・・・モニタ
 106・・・LED
 107・・・処理本体部
 111・・・顔検出部
 112・・・顔識別部
 113・・・音声認識部
 114・・・自然言語処理部
 115・・・気付き判定部
 116・・・原因推定部
 117・・・音源方向推定部
 118・・・話者推定部
 119・・・生声判別部
 120・・・出力制御部
 121・・・音声合成部
 122・・・ネットワークインタフェース
 131・・・照明
 132・・・ウェラブルデバイス
 133・・・ロボット
 150・・・クラウド
 200A,200B,300A,300B・・・テレビ電話装置
 210・・・音声エージェント
 310・・・エージェントクラウドサービス
 312,313・・・ネットワークインタフェース
DESCRIPTION OF SYMBOLS 10 ... Voice agent 20 ... Living 50, 60 ... Video telephone system 101 ... Camera 102 ... Microphone 103 ... Speaker 104 ... Projector 105 ... Monitor 106 ... LED
107: processing main unit 111: face detection unit 112: face identification unit 113: voice recognition unit 114: natural language processing unit 115: notice recognition unit 116: cause estimation unit 117: sound source direction estimating unit 118: speaker estimating unit 119: live voice discriminating unit 120: output control unit 121: voice synthesizing unit 122: network interface 131: illumination 132・ ・ ・ Wearable device 133 ・ ・ ・ Robot 150 ・ ・ ・ Cloud 200A, 200B, 300A, 300B ・ ・ ・ Videophone device 210 ・ ・ ・ Voice agent 310 ・ ・ ・ Agent cloud service 312,313 ・ ・ ・ Network interface

Claims (10)

  1.  被呼びかけ者が呼びかけに気付いていないと判断された場合に原因推定をする原因推定部と、
     上記原因推定の結果に基づいて上記被呼びかけ者に対して上記呼びかけに気付かせるための出力を変化させるように制御する出力制御部を備える
     情報処理装置。
    A cause estimating unit for estimating a cause when it is determined that the callee is unaware of the call;
    An information processing apparatus comprising: an output control unit configured to control an output for notifying the callee of the call based on a result of the cause estimation.
  2.  上記原因推定部は、上記被呼びかけ者が上記呼びかけに気付かない原因として予め設定された所定種類の原因の中から1つを推定する
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the cause estimating unit estimates one of predetermined types of causes set as a cause by which the callee does not notice the call.
  3.  上記所定種類の原因に、会話中、不在、難聴、集中、睡眠および意図的に無反応の全部または一部を含む
     請求項2に記載の情報処理装置。
    The information processing apparatus according to claim 2, wherein the predetermined types of causes include all or a part of a conversation, absence, hearing loss, concentration, sleep, and intentionally unresponsive.
  4.  上記原因推定部は、上記原因推定をマルチモーダル入力に基づいて行う
     請求項1に記載の情報処理装置。
    The information processing device according to claim 1, wherein the cause estimating unit performs the cause estimation based on a multimodal input.
  5.  上記出力制御部は、マルチモーダル出力による出力を変化させる
     請求項1に記載の情報処理装置。
    The information processing device according to claim 1, wherein the output control unit changes an output based on a multimodal output.
  6.  上記出力制御部は、上記呼びかけがされた方向を示す方向情報が上記出力に含まれるように制御する
     請求項1に記載の情報処理装置。
    The information processing device according to claim 1, wherein the output control unit performs control so that direction information indicating a direction in which the call is made is included in the output.
  7.  上記出力制御部は、上記呼びかけが生声によらないときには、上記出力をしないように制御する
     請求項1に記載の情報処置装置。
    The information processing device according to claim 1, wherein the output control unit controls the output so as not to be performed when the call is not based on live voice.
  8.  上記出力制御部は、上記原因推定の結果が上記被呼びかけ者の不在である場合に、上記被呼びかけ者が戻った後に、上記呼びかけがあったことを知らせるための出力をするように制御する
     請求項1に記載の情報処理装置。
    If the result of the cause estimation is the absence of the callee, the output control unit performs control so as to perform an output for notifying that the call has been made after the callee returns. Item 2. The information processing device according to item 1.
  9.  上記出力制御部は、上記呼びかけがあったことを知らせるための出力に、上記呼びかけがいつ頃あったかを示す時間情報を含める
     請求項8に記載の情報処理装置。
    The information processing device according to claim 8, wherein the output control unit includes, in an output for notifying that the call has been made, time information indicating when the call was made.
  10.  被呼びかけ者が呼びかけに気付いていないと判断された場合に原因推定をする手順と、
     上記原因推定の結果に基づいて上記被呼びかけ者に対して上記呼びかけに気付かせるための出力を変化させるように制御する手順を有する
     情報処理方法。
    A procedure for estimating the cause if the callee is determined to be unaware of the call,
    An information processing method comprising a step of performing control to change an output for making the called party aware of the call based on a result of the cause estimation.
PCT/JP2019/026542 2018-07-11 2019-07-03 Information processing device and information processing method WO2020013061A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018131909 2018-07-11
JP2018-131909 2018-07-11

Publications (1)

Publication Number Publication Date
WO2020013061A1 true WO2020013061A1 (en) 2020-01-16

Family

ID=69142935

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/026542 WO2020013061A1 (en) 2018-07-11 2019-07-03 Information processing device and information processing method

Country Status (1)

Country Link
WO (1) WO2020013061A1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274653A (en) * 2003-03-12 2004-09-30 Hitachi Ltd Mobile terminal and computer software
JP2011086193A (en) * 2009-10-16 2011-04-28 Konami Digital Entertainment Co Ltd Apparatus, method, and program for processing information
JP2011253375A (en) * 2010-06-02 2011-12-15 Sony Corp Information processing device, information processing method and program
JP2013529445A (en) * 2010-05-31 2013-07-18 ▲華▼▲為▼終端有限公司 Information processing method and user equipment
JP2013197706A (en) * 2012-03-16 2013-09-30 Sharp Corp Terminal device, notification method, and program
JP2015011463A (en) * 2013-06-27 2015-01-19 シャープ株式会社 Monitoring device, monitoring device control method, server, server control method, monitoring system, and control program
JP2018030499A (en) * 2016-08-25 2018-03-01 株式会社デンソーテン Vehicle outside information providing device and vehicle outside information providing method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004274653A (en) * 2003-03-12 2004-09-30 Hitachi Ltd Mobile terminal and computer software
JP2011086193A (en) * 2009-10-16 2011-04-28 Konami Digital Entertainment Co Ltd Apparatus, method, and program for processing information
JP2013529445A (en) * 2010-05-31 2013-07-18 ▲華▼▲為▼終端有限公司 Information processing method and user equipment
JP2011253375A (en) * 2010-06-02 2011-12-15 Sony Corp Information processing device, information processing method and program
JP2013197706A (en) * 2012-03-16 2013-09-30 Sharp Corp Terminal device, notification method, and program
JP2015011463A (en) * 2013-06-27 2015-01-19 シャープ株式会社 Monitoring device, monitoring device control method, server, server control method, monitoring system, and control program
JP2018030499A (en) * 2016-08-25 2018-03-01 株式会社デンソーテン Vehicle outside information providing device and vehicle outside information providing method

Similar Documents

Publication Publication Date Title
US11843916B2 (en) Hearing aid with voice or image recognition
US11979716B2 (en) Selectively conditioning audio signals based on an audioprint of an object
US8063764B1 (en) Automated emergency detection and response
US9959885B2 (en) Method for user context recognition using sound signatures
TW201828043A (en) Privacy control in a connected environment based on speech characteristics
JP2023542968A (en) Hearing enhancement and wearable systems with localized feedback
US10923123B2 (en) Two-person automatic speech recognition training to interpret unknown voice inputs
US10810973B2 (en) Information processing device and information processing method
WO2020013061A1 (en) Information processing device and information processing method
US11302317B2 (en) Information processing apparatus and information processing method to attract interest of targets using voice utterance
TW202347096A (en) Smart glass interface for impaired users or users with disabilities
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
JPWO2019077859A1 (en) Notification system
US20230015216A1 (en) Ambient sound event detection and response system
JP7172041B2 (en) Sound transmission device and program
JP7293863B2 (en) Speech processing device, speech processing method and program
JP6748535B2 (en) Personal identification system
JP2018107597A (en) Intercom system
BR102016005135A2 (en) METHOD FOR PERCEPTION OF USER CONTEXT USING SOUND SIGNATURES

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19834550

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19834550

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP