WO2014203495A1 - 音声対話方法、及び機器 - Google Patents

音声対話方法、及び機器 Download PDF

Info

Publication number
WO2014203495A1
WO2014203495A1 PCT/JP2014/003097 JP2014003097W WO2014203495A1 WO 2014203495 A1 WO2014203495 A1 WO 2014203495A1 JP 2014003097 W JP2014003097 W JP 2014003097W WO 2014203495 A1 WO2014203495 A1 WO 2014203495A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
agent
unit
input
dialogue
Prior art date
Application number
PCT/JP2014/003097
Other languages
English (en)
French (fr)
Inventor
博史 天野
小塚 雅之
大森 基司
宜子 広瀬
中野 稔久
山口 高弘
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to US14/777,920 priority Critical patent/US9564129B2/en
Priority to EP14814417.3A priority patent/EP3012833B1/en
Priority to US16/268,938 priority patent/USRE49014E1/en
Priority to CN201480021678.6A priority patent/CN105144285B/zh
Priority to CN201810908919.9A priority patent/CN108806690B/zh
Priority to JP2015522541A priority patent/JP6389171B2/ja
Publication of WO2014203495A1 publication Critical patent/WO2014203495A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Definitions

  • the present invention relates to a voice dialogue method for performing processing based on voice inputted in a dialogue format.
  • a voice dialogue system that includes a voice input interface and performs processing based on voice inputted in a dialog form by a user is known.
  • Patent Document 1 describes a headset that includes a microphone, performs speech recognition processing on speech input from the microphone, and performs processing based on the result of the speech recognition processing.
  • Patent Document 2 describes a voice dialogue system having an agent that performs processing based on voice inputted in a dialogue form from a user.
  • the headset described in Patent Document 1 requires a pressing operation of a voice recognition control button provided on the headset when starting voice input and ending voice input. Therefore, when this headset is used as an input means in a voice dialogue system that performs processing based on voice inputted in a dialogue format, the user who uses this headset is not able to perform voice input. Each time it comes, it is necessary to press the voice recognition control button to start voice input, and press the voice recognition control button to end voice input.
  • the present invention has been made in view of the above problems, and in a voice interaction system, a voice interaction that can reduce the number of operations that a user needs to perform in accordance with a voice input in an interactive format compared to the conventional case. It aims to provide a method.
  • a speech dialogue method is a speech dialogue method performed by a speech dialogue system including a voice signal generation unit, a voice dialogue agent unit, a voice output unit, and a voice input control unit.
  • the voice signal generation unit receives voice input, generates a voice signal based on the received voice input, and the voice dialogue agent unit performs voice to the voice signal generated by the voice signal generation unit.
  • the voice generated by the voice dialogue agent unit when the voice generated by the voice dialogue agent unit is output, the user can perform voice input without operating the voice dialogue system. As a result, the number of operations that the user needs to perform with voice input in an interactive format is reduced as compared with the conventional case.
  • System configuration diagram showing the configuration of the spoken dialogue system 100
  • the block diagram which shows the function structure of the apparatus 140 State transition diagram of states managed by control unit 210
  • Block diagram showing the functional configuration of the voice interaction agent 400
  • Data structure diagram of dialogue DB500 Flow chart of first device processing Flow chart of first voice input process Flow chart of the first agent process Flow chart of first instruction execution process Processing procedure diagram in a specific example
  • Diagram 1 schematically showing the display content of the device 140
  • Diagram 2 schematically showing the display content of the device 140
  • Diagram 3 schematically showing the display content of the device 140.
  • the figure which shows the display content of the apparatus 140 typically 4 FIG.
  • the spoken dialogue agent server implements a spoken dialogue agent by executing a stored program.
  • This voice interaction agent performs a dialogue (input / output by voice) using a voice with a user who uses the voice dialogue system. Then, the voice conversation agent executes a process reflecting the content of the conversation, and outputs the execution result by voice through the device used by the user.
  • the user When the user wants to interact with the voice interaction agent (to input by voice to the voice interaction agent), the user performs a predetermined voice input start operation on the devices constituting the voice interaction system. Then, the device enters a state where it can accept voice input for a predetermined period after the voice input start operation is performed. Then, during a period in which the device can accept voice input, the user performs voice input to the voice interaction agent.
  • FIG. 1 is a system configuration diagram showing the configuration of the voice interaction system 100.
  • the voice dialogue system 100 includes a voice dialogue agent server 110a to a voice agent server 110b, a network 120, a gateway 130a to a gateway 130b, and a device 140a to a device 140e.
  • the gateway 130a and the devices 140a to 140c are arranged in the house 180, and the gateway 130b and the devices 140d to 140e are arranged in the car 190.
  • the devices 140a to 140e are wirelessly connected to the gateway 130 (except for the case where the gateway 130a and the gateway 130b are explicitly distinguished and displayed, the gateway 130a or the gateway 130b is simply referred to as the gateway 130).
  • Voice communication agent server 110 except for the case where the voice dialog agent server 110a and the voice dialog agent server 110b are explicitly distinguished and displayed via the gateway 130 and the network 120 via a wired communication function and a voice communication agent.
  • the server 110a or the voice interaction agent server 110b is simply called the voice interaction agent server 110).
  • the devices 140a to 140c disposed in the house 180 are, for example, a television set, an air conditioner, a video recorder, a washing machine, a portable smartphone, etc. installed indoors, and the device 140d disposed in the car 190.
  • the device 140e is, for example, a car air conditioner or a car navigation system installed in the car 190.
  • FIG. 2 is a block diagram showing a functional configuration of the device 140.
  • the device 140 includes a control unit 210, a voice input unit 220, an operation reception unit 230, an address storage unit 240, a communication unit 250, a voice output unit 260, and a display unit 270. , And an execution unit 280.
  • the voice input unit 220 is realized by, for example, a microphone and a processor that executes a program, is connected to the control unit 210, and is controlled by the control unit 210. Then, it has a function of receiving voice input from the user and generating a voice signal (hereinafter also referred to as “input voice data”).
  • the voice input unit 220 is controlled by the control unit 210 to be either a voice input acceptable state in which voice input can be accepted or a voice input unacceptable state in which voice input cannot be accepted. It becomes the state of.
  • the operation accepting unit 230 is realized by, for example, a touch panel, a touch panel controller, and a processor that executes a program, connected to the control unit 210, and controlled by the control unit 210. And it has the function which receives the predetermined contact operation made by the user, and produces
  • the predetermined contact operation performed by the user received by the operation reception unit 230 includes a predetermined voice input start operation indicating that voice input using the voice input unit 220 is started.
  • the voice input start operation an operation of touching an icon for receiving a voice input start operation displayed on a touch panel that is a part of the operation receiving unit 230 can be considered.
  • the operation reception unit 230 includes a button for receiving a voice input start operation, and an operation of pressing this button is conceivable.
  • the address storage unit 240 is realized by a memory and a processor that executes a program, and is connected to the communication unit 250.
  • IP Internet Protocol
  • each device 140 is associated with a specific voice interaction agent server that is one of the voice interaction agent servers 110.
  • a RAM Random Access Memory
  • ROM Read Only Memory
  • flash memory As an example of the memory built in the device 140, a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, and the like can be considered.
  • the communication unit 250 is realized by a processor that executes a program, a communication LSI (Large Scale Integration), and an antenna, and is connected to the control unit 210 and the address storage unit 240 and controlled by the control unit 210. Is done. And it has the following gateway communication functions and voice conversation agent server communication functions.
  • a communication LSI Large Scale Integration
  • the gateway communication function is a function for communicating with the gateway 130 wirelessly or by wire.
  • the voice interaction agent server communication function is a function of communicating with the voice interaction agent server 110 via the gateway 130 and the network 120.
  • the IP address stored in the storage unit 240 With reference to the IP address stored in the storage unit 240, communication with the specific voice interaction agent server is performed.
  • the audio output unit 260 is realized, for example, by a processor that executes a program and a speaker, is connected to the control unit 210, and is controlled by the control unit 210. And it has the function to convert the electrical signal sent from the control part 210 into an audio
  • the display unit 270 is realized by a touch panel, a touch panel controller, and a processor that executes a program, and is connected to the control unit 210 and controlled by the control unit 210. And it has the function to display the image based on the electrical signal sent from the control part 210, a character string, etc.
  • the execution unit 280 is a function that the device 140 originally has as a device (for example, if the device 140 is a TV, receives and decodes a TV signal, displays the decoded TV image on the display, and decodes the TV (For example, if the device 140 is an air conditioner, it is a function of blowing cool air or warm air from the air outlet so that the room where the air conditioner is installed has a set temperature.) That is connected to the control unit 210 and controlled by the control unit 210.
  • the execution unit 280 is realized by a television signal receiver, a television signal tuner, a television signal decoder, a display, a speaker, and the like as an example.
  • the execution unit 280 does not necessarily have a configuration that is realized by including all of the components in one housing.
  • the device 140 is a television
  • an example in which the remote controller and the display are configured to be included in separate housings can be considered.
  • each functional block constituting the device 140 does not have to be implemented by including all the components in one housing.
  • control unit 210 is realized by a processor that executes a program, and includes a voice input unit 220, an operation reception unit 230, a communication unit 250, a voice output unit 260, a display unit 270, and an execution unit 280.
  • the voice input unit state management function and the first device processing realization function described below are provided.
  • the voice input unit state management function is a function for managing the state (hereinafter also referred to as “state”) of the voice input unit 220 which is either a voice input acceptable state or a voice input unacceptable state.
  • FIG. 3 is a state transition diagram of states managed by the control unit 210.
  • the control unit 210 cannot (1) receive voice input until a voice input start operation is received by the operation reception unit 230.
  • the state is maintained, and (2) when a voice input start operation is accepted by the operation accepting unit 230, the state is changed to a voice input acceptable state.
  • the voice input acceptable state is changed until a predetermined time T1 (for example, 5 seconds) elapses after the state transitions to the voice input acceptable state.
  • a predetermined time T1 for example, 5 seconds
  • control unit 210 starts management with the state set to the voice input unacceptable state.
  • control unit 210 the description of the control unit 210 will be continued.
  • the control unit 210 controls the voice input unit 220, the operation reception unit 230, the communication unit 250, the voice output unit 260, the display unit 270, and the execution unit 280.
  • the device 140 executes the first device processing that is a characteristic operation of the device 140, (1) when the user performs a voice input start operation, (2) the user inputs voice.
  • This function realizes a series of processes for outputting voice based on data.
  • the first device processing will be described in detail later using the flowchart in the item ⁇ first device processing>.
  • the gateway 130 is realized by a personal computer or the like having a communication function, and is connected to the network 120. Then, by executing the stored program, the function of communicating with the device 140 wirelessly or by wire, the function of communicating with the voice interaction agent server 110 via the network 120, the device 140, the voice interaction agent server 110, Function to mediate communication between the two.
  • the voice interaction agent server 110 is realized by a server having a communication function configured by one or a plurality of computer systems, and is connected to the network 120. Then, by executing the stored program, a function of communicating with other devices connected to the network 120, a function of communicating with the device 140 via the gateway 130, and a function of realizing the voice interaction agent 400 And have.
  • FIG. 4 is a block diagram showing a functional configuration of the voice interaction agent 400 realized by the voice interaction agent server 110.
  • the voice dialogue agent 400 includes a control unit 410, a communication unit 420, a voice recognition processing unit 430, a dialogue DB (Date Base: database) storage unit 440, and a voice synthesis processing unit 450. And an instruction generation unit 460.
  • the communication unit 420 is realized by a processor that executes a program and a communication LSI, and is connected to the control unit 410, the speech recognition processing unit 430, and the speech synthesis processing unit 450, and is controlled by the control unit 410. Is done. And it has the function to communicate with the other apparatus connected to the network 120, and the function to communicate with the apparatus 140 via the gateway 130.
  • the speech recognition processing unit 430 is realized by a processor that executes a program, for example, is connected to the control unit 410 and the communication unit 420, and is controlled by the control unit 410.
  • the voice recognition process is performed on the input voice data received by the communication unit 420, and the voice data is converted into a character string (hereinafter also referred to as “input text”).
  • the speech synthesis processing unit 450 is realized by a processor that executes a program, is connected to the control unit 410 and the communication unit 420, and is controlled by the control unit 410. Then, it has a function of performing speech synthesis processing on the character string sent from the control unit 410 and converting it into speech data.
  • the dialogue DB storage unit 440 is realized by a memory and a processor that executes a program, and is connected to the control unit 410 and has a function of storing the dialogue DB 500.
  • FIG. 5 is a data configuration diagram of the dialogue DB 500 stored in the dialogue DB storage unit 440.
  • the dialogue DB 500 is configured by associating a keyword 510, a target device 520, a startup application 530, a processing content 540, and a response text 550.
  • the keyword 510 is a character string that is assumed to be included in the input text converted by the speech recognition processing unit 430.
  • the target device 520 is information for specifying a device that executes a process specified by the associated process content 540 (described later).
  • the device that executes the process specified by the process content 540 may include the voice interaction agent 400 itself.
  • the activation application 530 executes an application program to be activated in the device in order to cause the device identified by the associated target device 520 to execute the processing identified by the associated processing content 540 (described later). Information to identify.
  • the process content 540 is executed by a device specified by the associated target device 520. It is information that identifies a defined process.
  • the response text 550 is a character string (hereinafter also referred to as “response text”) that is determined to be generated based on the processing result when the processing specified by the associated processing content 540 is executed. .).
  • the instruction generation unit 460 is realized by a processor that executes a program, is connected to the control unit 410, and is controlled by the control unit 410. Then, when a set of the target device 520, the startup application 530, and the processing content 540 is sent from the control unit 410, the application program specified by the startup application 530 in the device specified by the target device 520 To generate a group of instructions for executing the process specified by the process content 540.
  • control unit 410 is realized by a processor that executes a program, and is connected to the communication unit 420, the speech recognition processing unit 430, the dialogue DB storage unit 440, the speech synthesis processing unit 450, and the instruction generation unit 460.
  • the function of controlling the communication unit 420, the function of controlling the speech recognition processing unit 430, the function of controlling the speech synthesis processing unit 450, and the function of controlling the command generation unit 460 the following input text It has a reply function, a command generation function, a command execution function, and a first agent processing realization function.
  • the input text reply function is that when the voice recognition processing unit 430 converts the input voice data received by the communication unit 420 into the input text, the input voice data is transmitted by controlling the communication unit 420. This is a function for returning the input text to the device 140.
  • the command generation function refers to the dialogue DB 500 stored in the dialogue DB storage unit 440 when an input text is sent from the speech recognition processing unit 430 and is included in the input text.
  • the target device 520, the start application 530, the processing content 540, and the response text 550 that are associated with the keyword 510 are read from the keyword 510, and (2) the read target device 520 and the start application
  • This is a function of sending a set of 530 and processing content 540 to the instruction generation unit 460 and causing the instruction generation unit 460 to generate an instruction group.
  • the instruction execution function executes the instruction group generated by the instruction generation unit 460, generates a response text specified by the response text 550 based on the execution result, and sends the response text to the speech synthesis processing unit 450. It is a function.
  • control unit 410 uses the communication unit 420 to communicate with a device specified by the target device 520 and cause the device to execute a command group as necessary.
  • the response text is generated by transmitting the execution result of the instruction group from the device.
  • the control unit 410 controls the communication unit 420, the speech recognition processing unit 430, the speech synthesis processing unit 450, and the command generation unit 460, so that By executing the first agent process which is a characteristic operation, the voice interaction agent 400 receives (1) input voice data transmitted from the device, and (2) voice recognition is performed on the received input voice data. Process, generate input text and send it back to the device, (3) generate and execute a group of instructions based on the generated input text, (4) generate response text based on the execution results, ( 5) A function that realizes a series of processes of converting the generated response text into response voice data and (6) returning the response text and the response voice data to the device.
  • the first agent process will be described in detail later with reference to a flowchart in the item ⁇ first agent process>.
  • the control unit 410 refers to the dialogue DB 500 stored in the dialogue DB storage unit 440. Then, the device “smart phone” identified by the target device 520 is activated by the application program “contact address” identified by the activation application 530, and the process of “examine the address of Mr. A” identified by the processing content 540 And a response text “Mr. A's address is XXXX” is generated based on the execution result of the processing.
  • the voice interaction system 100 performs a first device process and a first agent process as its characteristic operations.
  • the first device process is a process performed by the device 140. (1) When a voice input start operation is performed by the user, (2) a voice input from the user is received and input voice data is generated (3 This is a process of transmitting the generated input voice data to the voice dialogue agent, (4) receiving response voice data returned from the voice dialogue agent, and (5) outputting voice based on the received response voice data.
  • FIG. 6 is a flowchart of the first device process.
  • the first device process is started when the device 140 is activated.
  • the state managed by the control unit 210 is in a state where voice input cannot be accepted.
  • the control unit 210 waits until a voice input start operation performed by a user using the voice interaction system 100 is received by the operation reception unit 230 (step S600: No is repeated). ).
  • the voice input start operation is accepted (step S600: Yes)
  • the control unit 210 changes the state from the voice input unacceptable state to the voice input acceptable state (step S610) and causes the display unit 270 to change. Then, it is displayed that the voice input can be accepted (step S620).
  • FIG. 11A is a schematic diagram illustrating an example of a state in which the display unit 270 displays a voice input reception enabled state when the device 140 is, for example, a smartphone.
  • a touch panel 1110 that constitutes a smartphone is a part of the display unit 270, and a state is displayed by blinking a lower right region 1120 (for example, black and white are alternately lit). A message indicating that voice input is acceptable is displayed.
  • step S630 the device 140 executes a first voice input process
  • FIG. 7 is a flowchart of the first voice input process.
  • the voice input unit 220 receives voice input by the user and generates input voice data (step S700). Then, when a predetermined time T1 has elapsed since the state became a voice input acceptable state (step S710: No after repeating step S710: Yes), the control unit 210 accepts the state from the voice input acceptable state. The state is changed to the impossible state (step S720), and the display indicating that the voice input can be accepted is ended on the display unit 270 (step S730).
  • control unit 210 controls the communication unit 250 to transmit the input voice data generated by the voice input unit 220 to the voice dialog agent 400 realized by the specific voice dialog agent server (step S740).
  • step S740 ends, the device 140 ends the first voice input process.
  • control unit 210 waits until the communication unit 250 receives the input text returned from the voice interaction agent 400 in response to the input voice data transmitted in the process of step S740. (Step S640: No is repeated.)
  • the input text data is obtained by converting the input voice data transmitted in the process of step S740 into a character string by the voice interaction agent 400.
  • step S640 When the input text is received by the communication unit 250 (step S640: Yes), the display unit 270 displays the input text (step S650).
  • FIG. 11B is a schematic diagram illustrating an example in which the display unit 270 displays the input text when the device 140 is, for example, a smartphone.
  • This figure is an example when the input text is a character string “What is the room temperature?”. As shown in the figure, on the touch panel 1110 which is a part of the display unit 270, a character string “What is the room temperature?” As an input text is displayed together with a character string “you”.
  • control unit 210 receives the response text and the response voice data returned from the voice interaction agent 400 in response to the input voice data transmitted in the process of step S740. (Step S660: No is repeated).
  • step S660 When the response text and the response voice data are received by the communication unit 250 (step S660: Yes), the display unit 270 displays the response text (step S670), and the voice output unit 260 receives the response voice. The data is converted into voice and output (step S680).
  • FIG. 11C is a schematic diagram illustrating an example in which the display unit 270 displays the response text when the device 140 is, for example, a smartphone.
  • This figure is an example when the response text is a character string “Which room temperature?”. As shown in the figure, the response text “Which room temperature?” Is displayed on the touch panel 1110 which is a part of the display unit 270 together with the text “Home Agent”. Has been.
  • step S680 ends, the device 140 ends the first device process.
  • the first agent process is a process performed by the voice interaction agent 400, (1) receiving input voice data transmitted from the device, (2) performing voice recognition processing on the received input voice data, Generate input text and send it back to the device. (3) Generate and execute a command group based on the generated input text data. (4) Generate response text based on the execution result. (5) Generate This is a process of converting the response text into response voice data and (6) returning the response text and the response voice data to the device.
  • FIG. 8 is a flowchart of the first agent process.
  • the first agent process is started when the voice interaction agent 400 is activated.
  • the voice interaction agent 400 waits until the input voice data transmitted from the device 140 is received by the communication unit 420 (step S800: No is repeated).
  • the voice interaction agent 400 executes the first command execution process (step S810).
  • FIG. 9 is a flowchart of the first instruction execution process.
  • the speech recognition processing unit 430 performs speech recognition processing on the input speech data received by the communication unit 420, and converts the input speech data into input text that is a character string. (Step S900).
  • control unit 410 controls the communication unit 420 to return the input text to the device 140 that has transmitted the input voice data (step S910).
  • control unit 410 (1) refers to the dialogue DB 500 stored in the dialogue DB storage unit 440, and from the keyword 510 included in the input text, the target is associated with the keyword 510.
  • the device 520, the startup application 530, the processing content 540, and the response text 550 are read out.
  • the instruction generation unit 460 sets the read target device 520, the startup application 530, and the processing content 540 as a set. And the instruction generation unit 460 generates an instruction group (step S920).
  • the control unit 410 executes the generated command group (step S930), and generates a response text specified by the response text 550 based on the execution result (step S940). .
  • the control unit 410 communicates with the device specified by the target device 520 using the communication unit 420, causes the device to execute a part of the command group, and sends a command from the device.
  • a response text is generated by sending the execution result of the group.
  • the speech synthesis processing unit 450 performs speech synthesis processing on the generated response text to generate response speech data (step S950).
  • control unit 410 controls the communication unit 420 to send the generated response text and the generated response voice data to the device 140 that is the transmission source of the input voice data. (Step S960).
  • step S960 the voice interaction agent 400 ends the first command execution process.
  • step S800 the voice interaction agent 400 returns to the process of step S800 again, and continues the process from step S800.
  • FIG. 10 is a processing procedure diagram schematically showing a state in which processing reflecting the content of the dialogue is performed.
  • step S1000 When the user performs a voice input start operation on the device 140 (step S1000, corresponding to step S600: Yes in FIG. 6), the state transitions to a voice input acceptable state (step S1005, step S610 in FIG. 6). The device 140 performs a first voice input process (corresponding to step S1010 and step S630 in FIG. 6).
  • the touch panel 1110 that is a part of the display unit 270 of the device 140 that is a smartphone blinks the area 1120 during the period in which the state is in a voice input acceptable state. It is a figure which shows typically the example of a mode that it is displaying that the state is a voice input reception possible state by doing.
  • the device 140 transmits the input voice data “What is the room temperature?” To the voice interaction agent 400. (Corresponding to step S740 in FIG. 7).
  • the voice interaction agent 400 receives the input voice data (corresponding to Step S800 in FIG. 8: Yes) and executes the first command execution process (corresponding to Step S1060 and Step S810 in FIG. 8).
  • the voice interaction agent 400 if the voice interaction agent 400 generates response voice data “Which room temperature?”, The voice interaction agent 400 sends a message “Which room temperature?” Response voice data is transmitted saying "Is the room temperature?” (Corresponding to step S960 in FIG. 9).
  • the device 140 receives the response voice data (corresponding to step S660: Yes in FIG. 6) and outputs a voice “Which room temperature?” (Step S1015, step S680 in FIG. 6). Corresponding).
  • step S1010 when a predetermined time T1 elapses after the state transitions to the voice input acceptable state, the state transitions again to the voice input unacceptable state (corresponding to step S720 in FIG. 7). ). For this reason, the user who has heard the voice “Which room temperature?” Output from the device 140 performs a new voice input start operation on the device 140 in order to newly input by voice. (Step S1020, corresponding to Step S600 of FIG. 6: Yes). Then, the state transitions to a voice input acceptable state (step S1025, corresponding to step S610 in FIG. 6), and the device 140 performs a first voice input process (step S1030: corresponding to step S630 in FIG. 6). .
  • the touch panel 1110 that is a part of the display unit 270 of the device 140 that is a smartphone blinks the area 1120 during the period in which the state is in a voice input acceptable state. It is a figure which shows typically the example of a mode that it is displaying that the state is a voice input reception possible state by doing.
  • the device 140 transmits input voice data “Living.” To the voice interaction agent 400 (step in FIG. 7). Corresponding to S740).
  • the voice interaction agent 400 receives the input voice data (corresponding to Step S800 in FIG. 8: Yes) and executes the first command execution process (corresponding to Step S1065 and Step S810 in FIG. 8).
  • the voice interaction agent 400 if the voice interaction agent 400 generates response voice data “The living room temperature is 28 degrees. Is there anything else?” Response voice data “The living room temperature is 28 degrees. Is there anything else?” Is transmitted to the device 140 (corresponding to step S960 in FIG. 9).
  • the device 140 receives the response voice data (corresponding to Step S660: Yes in FIG. 6), and outputs a voice saying "The living room temperature is 28 degrees. Is there anything else?" S1035, corresponding to step S680 in FIG. 6).
  • step S1010 when a predetermined time T1 elapses after the state transitions to the voice input acceptable state, the state transitions again to the voice input unacceptable state (corresponding to step S720 in FIG. 7). ). For this reason, a user who has heard the voice “The living room temperature is 28 ° C., is there anything else?” Output from the device 140 is newly added to the device 140 in order to make a new voice input.
  • Voice input start operation is performed (step S1040, corresponding to step S600: Yes in FIG. 6). Then, the state transitions to a voice input acceptable state (step S1045, corresponding to step S610 in FIG. 6), and the device 140 performs a first voice input process (step S1050: corresponding to step S630 in FIG. 6). .
  • FIG. 12 shows that in the first voice input process, the touch panel 1110 that is a part of the display unit 270 of the device 140 that is a smartphone blinks the area 1120 during the period in which the state is in a voice input acceptable state. It is a figure which shows typically the example of a mode that the state is displaying the voice input reception possible state.
  • the device 140 transmits input voice data “No, thank you” to the voice interaction agent 400. (Corresponding to step S740 in FIG. 7).
  • the voice interaction agent 400 receives the input voice data (corresponding to Step S800 in FIG. 8: Yes) and executes the first command execution process (corresponding to Step S1070 and Step S810 in FIG. 8).
  • the voice conversation agent 400 if the voice conversation agent 400 generates response voice data “Ends”, the voice dialog agent 400 informs the device 140 “Ends”. Response voice data is transmitted (corresponding to step S960 in FIG. 9).
  • the device 140 receives the response voice data (corresponding to step S660: Yes in FIG. 6) and outputs a voice “End” (corresponding to step S1055 and step S680 in FIG. 6).
  • a user who uses the voice interaction system 100 performs a voice input start operation on the device 140, thereby changing the state of the device 140 to a state where voice input can be accepted, I do. After that, when the predetermined time T1 elapses, even if the user does not perform an operation for changing the state of the device 140 to a state where voice input cannot be received, the state of the device 140 is not ready for voice input. become.
  • the voice dialogue system 100 is accompanied by voice input as compared with the voice dialogue system in which it is necessary to perform an operation for setting the state of the device 140 to a voice input unacceptable state every time voice input is completed.
  • the number of operations that the user needs to perform is reduced.
  • the voice input system 100 when the user performs a voice input start operation by the user, the voice input system is in a state in which voice input is possible for a period from when the operation is performed until a predetermined time T1 has elapsed. It was an example of a configuration.
  • the first modified voice interactive system when each device outputs a voice based on response voice data in addition to the above period, a predetermined time T1 from the time when the voice is output.
  • This is an example of a configuration in which voice input is possible even during a period until the time elapses.
  • the first modified voice interaction system is modified such that the device 140 is changed to the device 1300 from the speech interaction system 100 in the first embodiment.
  • the device 1300 is not changed as hardware from the device 140 in the first embodiment, but a part of software stored as an execution target is changed. As a result, the device 1300 is modified from the device 140 in the first embodiment so that a part of its function is changed.
  • FIG. 13 is a block diagram showing a functional configuration of the device 1300.
  • the device 1300 is modified so that the control unit 210 is changed to the control unit 1310 from the device 140 (see FIG. 2) in the first embodiment.
  • the voice input unit state management function of the functions of the control unit 210 is changed from the control unit 210 in the first embodiment to a first modified voice input unit state management function described below.
  • the device processing implementation function is modified to be changed to a second function processing implementation function described below.
  • the first modified voice input unit state management function is the same as the voice input unit state management function in the first embodiment, in the voice input unit 220 that is in either the voice input acceptable state or the voice input unacceptable state. This is a function for managing a state (that is, “state”), and a part of the state transition condition is changed from the voice input unit state management function in the first embodiment.
  • FIG. 14 is a state transition diagram of states managed by the control unit 1310.
  • the control unit 1310 (1) a voice input start operation is received by the operation reception unit 230 or a voice output unit 260 Until the voice excluding the predetermined voice out of the voice based on the response voice data is output, the voice input unacceptable state is maintained, and (2) the voice input start operation is accepted by the operation accepting unit 230, or When the voice output unit 260 outputs a voice excluding a predetermined voice among the voices based on the response voice data, the state is shifted to a voice input acceptable state.
  • the voice input acceptable state is changed until a predetermined time T1 (for example, 5 seconds) elapses after the state transitions to the voice input acceptable state.
  • a predetermined time T1 for example, 5 seconds
  • the predetermined voice among the voices based on the response voice data is a voice that indicates that a new voice input is not required, and is, for example, a voice “End”. .
  • this voice is also referred to as “dialog end voice”.
  • control unit 1310 starts management with the state set to the voice input unacceptable state.
  • control unit 1310 the description of the control unit 1310 will be continued.
  • the control unit 1310 controls the voice input unit 220, the operation reception unit 230, the communication unit 250, the voice output unit 260, the display unit 270, and the execution unit 280. Then, by causing the device 1300 to execute the second device processing that is a characteristic operation of the device 1300, (1) when the user performs a voice input start operation, (2) input by voice from the user To generate input voice data, (3) transmit the generated input voice data to the voice dialogue agent, (4) receive response voice data returned from the voice dialogue agent, and (5) receive the response. If a voice based on the voice data is output and (6) the voice is not a dialogue end voice, the following process is repeated again even if the voice input start operation is not performed by the user. Is a function to realize the Hare series of processes.
  • the second device process will be described in detail later with reference to a flowchart in the item ⁇ second device process>.
  • the second device processing is processing performed by the device 1300.
  • FIG. 15 is a flowchart of the second device process.
  • the second device process starts when the device 1300 is activated.
  • the state managed by the control unit 1310 is in a state where voice input cannot be accepted.
  • step S1500 to step S1580 is the same as the processing from step S600 to step S680 of the first device processing (see FIG. 6) in the first embodiment. Therefore, these processes have already been described.
  • step S1580 the control unit 1310 checks whether or not the voice output by the voice output unit 260 in the process of step S1580 is a dialog end voice (step S1585).
  • this process is realized by checking whether or not the response text received in the process of step S1560: Yes is a predetermined character string (for example, a character string “finished”). Is done.
  • step S1585 when the voice is not an end-of-dialog (step S1585: No), the control unit 1310 changes the state from the voice input unacceptable state to the voice input acceptable state (step S1590), and the display unit It is displayed on 270 that it is in a voice input acceptable state (step S1595).
  • step S1595 the device 1300 returns to the process of step S1530 and repeats the process of step S1530 and subsequent steps.
  • step S1585 when it is a dialogue end voice (step S1585: Yes), the device 1300 ends the second device process.
  • FIG. 16 shows a case where a user who uses the first modified voice dialogue system performs a voice dialogue with the voice dialogue agent 400 using the device 1300 (here, it is assumed to be a smartphone). It is a processing procedure figure which shows typically a mode that agent 400 is performing processing in which the contents of the dialog were reflected.
  • step S1600 to step S1615 the processing from step S1630 to step S1635, the processing from step S1650 to step S1655, and the processing from step S1660 to step S1670 are specific examples in the first embodiment.
  • the processing is the same as the processing in steps S1000 to S1015, the processing in steps S1030 to S1035, the processing in steps S1050 to S1055, and the processing in steps S1060 to S1070 (see FIG. 10). Therefore, these processes have already been described.
  • step S1615 When the processing in step S1615 is completed, the voice “Which room temperature?” Is not the dialogue end voice (corresponding to step S1585: No in FIG. 15), so the state transitions to a voice input acceptable state. (Corresponding to step S1625, step S1590 in FIG. 15), the device 1300 performs a first voice input process (step S1630: corresponding to step S1530 in FIG. 15).
  • step S1635 When the process of step S1635 is completed, the voice “The living room temperature is 28 degrees. Is there anything else?” Is not a dialogue end voice (corresponding to step S1585: No in FIG. 15), and the state is voice input.
  • the device 1300 transitions to the acceptable state (step S1645, corresponding to step S1590 in FIG. 15), and performs the first voice input process (step S1650: corresponding to step S1530 in FIG. 15).
  • step S1635 When the process of step S1635 is completed, the voice “finished” is a dialogue end voice (corresponding to step S1585: Yes in FIG. 15), and the state is not changed to the voice input acceptable state, and the device 1300 Ends the second device process.
  • the device 1300 when the device 1300 outputs a voice based on the response voice data sent from the voice dialogue agent 400, if the voice is not a dialogue end voice, the device 1300 Even if the user does not perform a voice input operation, the voice input can be accepted.
  • the first modified voice interaction system further reduces the number of operations that the user needs to perform in accordance with the voice input, compared to the voice interaction system 100 according to the first embodiment.
  • ⁇ Embodiment 3> ⁇ Overview>
  • a second modified voice interaction system in which a part of the voice interaction system 100 according to Embodiment 1 is modified will be described.
  • the voice input system 100 when the user performs a voice input start operation by the user, the voice input system is in a state in which voice input is possible for a period from when the operation is performed until a predetermined time T1 has elapsed. It was an example of a configuration.
  • the second modified voice interaction system is modified such that the device 140 is changed to the device 1700 from the voice interaction system 100 in the first embodiment.
  • the device 1700 is not changed as hardware from the device 140 in the first embodiment, but a part of software stored as an execution target is changed. As a result, the device 1700 is modified from the device 140 in the first embodiment so that a part of its functions is changed.
  • FIG. 17 is a block diagram showing a functional configuration of the device 1700.
  • the device 1700 is modified such that the control unit 210 is changed to the control unit 1710 from the device 140 (see FIG. 2) in the first embodiment.
  • the control unit 1710 changes the voice input unit state management function from the control unit 210 in the first embodiment to a second modified voice input unit state management function described below, among the functions of the control unit 210.
  • the device processing implementation function is modified to be changed to a third function processing implementation function described below.
  • the second modified voice input unit state management function is the same as the voice input unit state management function in the first embodiment and the first modified voice input unit state management function in the second embodiment.
  • This is a function for managing the state (ie, “state”) of the voice input unit 220 that is either in an input unacceptable state, and part of the state transition condition is the voice input unit state management in the first embodiment The function has been changed.
  • FIG. 18 is a state transition diagram of states managed by the control unit 1710.
  • the control unit 1710 cannot accept voice input until a voice input start operation is accepted by the operation accepting unit 230 when the state is in a state where voice input cannot be accepted.
  • the state is maintained, and (2) when a voice input start operation is accepted by the operation accepting unit 230, the state is changed to a voice input acceptable state.
  • the state is in a state where voice input can be accepted, (3) until the voice output unit 260 outputs a dialogue end voice (for example, a voice saying “End”), the voice input can be accepted.
  • (4) When the dialogue end voice is output by the voice output unit 260, the state is shifted to a voice input unacceptable state.
  • control unit 1710 Referring back to FIG. 17 again, the description of the control unit 1710 will be continued.
  • the control unit 1710 controls the voice input unit 220, the operation reception unit 230, the communication unit 250, the voice output unit 260, the display unit 270, and the execution unit 280. Then, by causing the device 1700 to execute the third device processing that is a characteristic operation of the device 1700, (1) when the user performs a voice input start operation, (2) input by voice from the user To generate input voice data, (3) transmit the generated input voice data to the voice dialogue agent, (4) receive response voice data returned from the voice dialogue agent, and (5) receive the response. If a voice based on the voice data is output and (6) the voice is not a dialogue end voice, the following process is repeated again even if the voice input start operation is not performed by the user. Is a function to realize the Hare series of processes.
  • the third device process will be described in detail later using the flowchart in the item ⁇ Third device process>.
  • the third device process is a process performed by the device 1700.
  • FIG. 19 is a flowchart of the third device process.
  • the third device process starts when the device 1700 is activated.
  • the state managed by the control unit 1710 is in a state where voice input cannot be accepted.
  • steps S1900 to S1920 and the processes of steps S1940 to S1980 are respectively the processes of steps S600 to S620 of the first device process (see FIG. 6) in the first embodiment.
  • the process is the same as the process from S640 to S680. Therefore, these processes have already been described.
  • step S1920 When the process of step S1920 is completed, the device 1700 executes the second voice input process (step S1930).
  • FIG. 20 is a flowchart of the second voice input process.
  • the voice input unit 220 receives voice input by the user and generates input voice data (step S2000).
  • control unit 1910 controls the communication unit 250 to transmit the input voice data generated by the voice input unit 220 to the voice interaction agent 400 (step S2040).
  • step S2040 ends, the device 1700 ends the second voice input process.
  • the device 1900 proceeds to the process of step S1940, and performs the process of step S1940 and subsequent steps.
  • step S1980 the control unit 1710 checks whether or not the voice output by the voice output unit 260 is a dialog end voice in the process of step S1980 (step S1985).
  • this process is realized by checking whether or not the response text received in the process of step S1960: Yes is a predetermined character string (for example, a character string “finished”). Is done.
  • step S1985 when it is not the dialogue end voice (step S1985: No), the device 1900 returns to the process of step S1930 and repeats the process of step S1930 and subsequent steps.
  • step S1985 when it is a dialogue end voice (step S1585: Yes), the control unit 1710 changes the state from the voice input acceptable state to the voice input unacceptable state (step S1990).
  • step S1990 ends, the device 1900 ends the third device process.
  • FIG. 21 shows a case where a user who uses the second modified voice dialogue system performs a voice dialogue with the voice dialogue agent 400 using the device 1700 (here, it is assumed that it is a smartphone). It is a processing procedure figure which shows typically a mode that agent 400 is performing processing in which the contents of the dialog were reflected.
  • step S2100 the processing in step S2100, the processing in step S2105, the processing in step S2115, the processing in step S2135, the processing in step S2155, and the processing in steps S2160 to S2170 are respectively performed in the first embodiment.
  • the processing in step S1000, the processing in step S1005, the processing in step S1015, the processing in step S1035, the processing in step S1055, and the processing in steps S1060 to S1070 are the same. It is processing. Therefore, these processes have already been described.
  • step S2105 When the process of step S2105 ends, the device 1700 performs the second audio process (corresponding to step S2110, step S1930 in FIG. 19).
  • the device 1700 transmits input voice data “What is the room temperature?” To the voice interaction agent 400. (Corresponding to step S2040 in FIG. 20).
  • step S2115 When the processing in step S2115 is completed, the voice “Which room temperature is?” Is not the dialogue end voice (corresponding to step S1985: No in FIG. 19), and the device 1700 performs the second voice processing ( Step S2130, corresponding to Step S1930 in FIG. 19).
  • the device 1700 transmits the input voice data “Living.” To the voice interaction agent 400 (step in FIG. 20). Corresponding to S2040).
  • step S2135 When the process of step S2135 is completed, the voice “The living room temperature is 28 degrees. Is there anything else?” Is not a dialog end voice (corresponding to step S1985: No in FIG. 19). Second audio processing is performed (corresponding to step S2150 and step S1930 in FIG. 19).
  • the device 1700 transmits input voice data “No, thank you” to the voice interaction agent 400. (Corresponding to step S2040 in FIG. 20).
  • step S2135 When the process of step S2135 is completed, the voice “finished” is a dialogue end voice (corresponding to step S1985: Yes in FIG. 19), and the state is changed to a voice input acceptable state (in FIG. 19).
  • step S1990 the device 1700 ends the third device processing.
  • the device 1700 is in a state in which voice input is possible from the time when the operation is performed until the dialog end voice is output. To maintain.
  • a new voice input operation can be performed without performing a new voice input operation on the device 1700 until a dialog end voice is output. Input can be made.
  • the second modified voice interactive system further reduces the number of operations that the user needs to perform in accordance with the voice input, compared to the voice interactive system 100 according to the first embodiment.
  • ⁇ Embodiment 4> ⁇ Overview>
  • a third modified voice interaction system in which a part of the second modified voice interaction system in Embodiment 3 is modified will be described. To do.
  • the communication target speech interaction agent is the voice interaction agent until a series of processing ends. It was an example of a configuration limited to A.
  • the device when the device starts communication with the voice interaction agent A, the user who uses the third modified voice interaction system uses the device.
  • the communication partner of the device is changed from the voice dialogue agent A to the voice dialogue agent B thereafter. It is an example.
  • the third modified voice dialogue system is modified from the second modified voice dialogue system in Embodiment 3 such that the voice dialogue agent 400 is changed to the voice dialogue agent 2200.
  • the voice interaction agent 2200 is realized by the voice interaction agent server 110 in the same manner as the voice interaction agent 400 in the third embodiment.
  • Part of software for realizing the voice interaction agent 2200 executed by the voice interaction agent server 110 is changed from the software for realizing the voice interaction agent 400 in the third embodiment.
  • the voice interaction agent 2200 is modified from the voice interaction agent 400 in the third embodiment so that a part of its functions is changed.
  • FIG. 22 is a block diagram showing a functional configuration of the voice interaction agent 2200.
  • the target agent DB storage unit 2220 is added to the voice interaction agent 400 (see FIG. 4) in the third embodiment, and the control unit 410 is changed to the control unit 2210. Has been transformed.
  • the target agent DB storage unit 2220 is realized by a memory and a processor that executes a program, is connected to the control unit 2210, and has a function of storing the target agent DB 2300.
  • FIG. 23 is a data configuration diagram of the target agent DB 2300 stored in the target agent DB storage unit 2220.
  • the target agent DB 2300 is configured by associating a keyword 2310, a target agent 2320, and an IP address 2330.
  • the keyword 2310 is a character string that is assumed to be included in the input text converted by the speech recognition processing unit 430.
  • the target agent 2320 is information for identifying one of the voice conversation agents 2200 (hereinafter, this one is referred to as “additional voice conversation agent”) that is a communication target of the device 140.
  • the additional voice target agent specified by the target agent 2320 is an example of a configuration including a car agent, a retail store agent, and a house agent.
  • the car agent is a voice interaction agent 2200 that provides a relatively rich service provided with respect to equipment mounted on the car
  • the retail store agent is provided with respect to equipment arranged in the retail store. It is assumed that the voice interaction agent 2200 has a relatively rich service
  • the home agent is the voice interaction agent 2200 that has a relatively rich service provided for devices arranged in a house (house).
  • the IP address 2330 is an IP address in the network 120 for the voice conversation agent server 110 that realizes the additional voice conversation agent specified by the associated target agent 2320.
  • one target agent 2320 is associated with one or more keywords 2310.
  • keywords 2310 such as “in-vehicle”, “car”, “car”, and “navigation” are associated with “car agent”.
  • the plurality of keywords 2310 are associated with one target agent 2320, so that the voice interaction agent 2200 can cope with the ambiguity of input.
  • a voice when a user wants to communicate with a car agent, the user may input a voice as “Connect to a voice dialogue agent of navigation.” Or “Connect to a voice dialogue agent of a car. "May be input as a voice.
  • the voice interaction agent 2200 refers to the target agent DB 2300, so Agent 2320 can be identified as a car agent.
  • control unit 410 from the control unit 410 according to the third embodiment has a first agent process realization function that is described below as a second agent process realization function and a third agent process that is described below. It has been modified to be changed to the realization function.
  • the second agent processing realization function is that the control unit 2210 controls the communication unit 420, the speech recognition processing unit 430, the speech synthesis processing unit 450, and the command generation unit 460, so that the voice conversation agent 2200
  • the voice interaction agent 2200 receives (1) input voice data transmitted from the device, and (2) voice recognition is performed on the received input voice data. Process, generate input text and send it back to the device. (3) If the generated input text indicates that communication with another voice interaction agent is desired, (4) otherwise, generate and execute a group of instructions based on the generated input text, and (5) execute the result. Zui generates a response text, (6) converts the generated response text to the response voice data, a function for realizing the series of processing that returns to the apparatus and a response voice data and (7) the response text.
  • the third agent processing realization function is that the control unit 2210 controls the communication unit 420, the speech recognition processing unit 430, the speech synthesis processing unit 450, and the command generation unit 460, so that the voice conversation agent 2200
  • the voice interaction agent 2200 starts (1) communication with a device in response to a request from another voice input agent, and (2) transmits from the device.
  • the received input voice data is received, (3) voice recognition processing is performed on the received input voice data, an input text is generated and returned to the device, and (4) a command group based on the generated input text (5) Generate response text based on the execution result, (6) Convert the generated response text into response voice data, and (7) Response text and The answer is a function for realizing the series of processing that returns the audio data to the device.
  • the third agent process will be described in detail later with reference to a flowchart in the item ⁇ Third Agent Process>.
  • ⁇ Operation> As a characteristic operation of the third modified voice dialogue system, in addition to the first device process in the third embodiment, a part of the process is changed from the first agent process in the third embodiment. Two-agent processing and third agent processing are performed.
  • the second agent process is a process performed by the voice interaction agent 2200, (1) receiving input voice data transmitted from the device, (2) performing voice recognition processing on the received input voice data, Generate input text and send it back to the device. (3) If the generated input text indicates that communication with another voice interaction agent is desired, the device and the voice interaction agent (4) Otherwise, generate and execute a group of commands based on the generated input text, (5) generate a response text based on the execution result, and (6) generate This is a process of converting the response text into response voice data and (7) returning the response text and the response voice data to the device.
  • FIG. 24 is a flowchart of the second agent process.
  • the second agent process is started when the voice interaction agent 2200 is activated.
  • the voice interaction agent 2200 waits until the input voice data transmitted from the device 1700 is received by the communication unit 420 (step S2400: No is repeated).
  • the voice interaction agent 2200 executes a second command execution process (step S2410).
  • FIG. 25 is a flowchart of the second instruction execution process.
  • step S2500 to step S2510 and the processing of step S2520 to step S2560 are respectively the processing of step S900 to step S910 of the first instruction execution processing (see FIG. 9) in the third embodiment.
  • step S900 to step S910 of the first instruction execution processing see FIG. 9 in the third embodiment.
  • control unit 2210 checks whether or not the input text converted by the speech recognition processing unit 430 requests communication with another voice interaction agent (step S2515).
  • step S2515 If it is determined in step S2515 that communication with another voice interaction agent is not requested (step S2515: No), the voice interaction agent 2200 proceeds to step S2520 and performs steps S2520 to S2560. .
  • step S2515 when communication with another voice interaction agent is requested (step S2515: Yes), the control unit 2210 refers to the target agent DB 2300 stored in the target agent DB storage unit 2220.
  • step S2517 the voice interaction agent 2200 requested as the communication destination is specified. That is, the additional voice interaction agent specified by the target agent 2320 associated with the keyword 2310 included in the input text converted into the character string by the voice recognition processing unit 430 is used as the voice interaction agent 2200 requested as the communication destination. Identify.
  • the control unit 2210 When the additional voice conversation agent requested as the communication destination is specified, the control unit 2210 indicates that communication between the specified additional voice target agent and the device 1700 that is the transmission source of the input voice data is started. A predetermined signal (hereinafter, this signal is referred to as a “connection command”) is generated (step S2565).
  • control unit 2210 controls the communication unit 420 and uses the IP address 2330 associated with the keyword 2310 to generate the connection for the additional voice target agent.
  • the command is transmitted (step S2570).
  • control unit 2210 waits until a connection response (described later) returned from the additional voice interaction agent in response to the connection command transmitted in the process of step S2570 is received by the communication unit 420 (step S2575: No). repeat.).
  • step S2575 When the connection response is received by the communication unit 420 (step S2575: Yes), the voice interaction agent 2200 executes the first connection response process (step S2580).
  • FIG. 26 is a flowchart of the first connection response process.
  • the control unit 2210 determines a predetermined response text (for example, ““ additional voice ”indicating that communication between the additional voice dialogue agent and the device 1700 is possible. (The character string "Connected to the dialogue agent") is generated (step S2600).
  • a predetermined response text for example, ““ additional voice ”indicating that communication between the additional voice dialogue agent and the device 1700 is possible.
  • the character string "Connected to the dialogue agent” is generated (step S2600).
  • the “additional voice interaction agent” portion includes the name of the voice interaction agent 2200 specified by the target agent 2320 of the target agent DB 2300 (here, the car agent, the retail store agent, and the house agent). Either) is inserted.
  • the speech synthesis processing unit 450 performs speech synthesis processing on the generated response text to generate response speech data (step S2610).
  • control unit 2210 controls the communication unit 420 to generate the response text generated, the generated response voice data, and the device 1700 that is the transmission source of the input voice data. Is transmitted (step S2620).
  • step S2620 the voice interaction agent 2200 ends the first connection response process.
  • the voice interaction agent 2200 waits until a disconnection response (described later) transmitted from the additional voice interaction agent is received by the communication unit 420 (step S2585: No is repeated).
  • step S2585 When a disconnection response is received by the communication unit 420 (step S2585: Yes), the voice interaction agent 2200 executes a disconnection response process (step S2590).
  • FIG. 27 is a flowchart of the disconnection response process.
  • control unit 2210 displays a predetermined response text (for example, ““ additional voice interaction agent ”) indicating that the communication between the additional voice interaction agent and the device 1700 has ended.
  • a predetermined response text for example, ““ additional voice interaction agent ”
  • the character string “Is there anything else?” Is generated (step S2700).
  • the “additional voice interaction agent” portion includes the name of the voice interaction agent 2200 specified by the target agent 2320 of the target agent DB 2300 (here, the car agent, the retail store agent, and the house agent). Either) is inserted.
  • the speech synthesis processing unit 450 performs speech synthesis processing on the generated response text to generate response speech data (step S2710).
  • control unit 2210 controls the communication unit 420 to generate the response text generated for the device 1700 that is the transmission source of the input voice data in the process of step S2400.
  • the response voice data is transmitted (step S2720).
  • step S2720 ends, the voice interaction agent 2200 ends the disconnection response processing.
  • step S2560 the voice interaction agent 2200 ends the second command execution process. To do.
  • the voice interaction agent 2200 returns to the process of step S2400 again, and continues the process of step S2400 and subsequent steps.
  • the third agent process is a process performed by the voice interaction agent 2200, (1) starts communication with the device in response to a request from another voice input agent, and (2) the input voice data transmitted from the device. (3) Perform voice recognition processing on the received input voice data, generate input text and send it back to the device, and (4) generate and execute a group of instructions based on the generated input text (5) A process of generating a response text based on the execution result, (6) converting the generated response text into response voice data, and (7) returning the response text and the response voice data to the device. .
  • FIG. 28 is a flowchart of the third agent process.
  • step S2800 to step S2810 and the processing of step S2820 to step S2860 are respectively the processing of step S900 to step S910 of the first instruction execution processing (see FIG. 9) in Embodiment 1. This is the same processing as the processing in steps S920 to S960. Therefore, these processes have already been described.
  • the third agent process is started when the voice interaction agent 2200 is activated.
  • the voice interaction agent 2200 waits until a connection command transmitted from another voice interaction agent is received by the communication unit 420 (step S2811: No is repeated).
  • the control unit 2210 controls the communication unit 420 to perform a connection process for starting communication with the device 1700 that is a communication target in the connection command. Execute.
  • connection process includes a process of changing the transmission destination of the input voice data transmitted by the device 1700 from the voice conversation agent 2200 that has transmitted the connection command to the voice dialog agent 2200 that has received the connection command. Yes.
  • control unit 2210 controls the communication unit 420 to generate a connection response that is a signal indicating that communication with the device 1700 has started, and the generated connection response is displayed.
  • the message is transmitted to the voice interaction agent that is the transmission source of the connection command (step S2813).
  • control unit 2210 waits until the input voice data transmitted from the device 1700 is received by the communication unit 420 (step S2814: No is repeated).
  • step S2814: YES the processes of steps S2800 to S2810 are executed.
  • control unit 2210 checks whether or not the input text converted by the voice recognition processing unit 430 is to end the communication with the own voice conversation agent (step S2815). .
  • step S2815 If it is not in the process of step S2815 that the communication with the own voice conversation agent is terminated (step S2815: No), the voice conversation agent 2200 proceeds to the process of step S2820, and the processes of steps S2820 to S2860 are performed. I do. When the process of step S2860 ends, the voice interaction agent 2200 returns to the process of step S2814 again, and performs the processes of step S2814 and the subsequent steps.
  • step S2815 when it is to end the communication with the own voice conversation agent (step S2815: Yes), the control unit 2210 controls the communication unit 420 to communicate with the device 1700. Execute the disconnection process that ends the process.
  • the disconnection process includes a process of changing the transmission destination of the input voice data transmitted by the device 1700 from the voice conversation agent 2200 that has received the connection command to the voice dialog agent 2200 that has transmitted the connection command. Yes.
  • control unit 2210 controls the communication unit 420 to generate a disconnection response, which is a predetermined signal indicating that the communication with the device 1700 has ended, and generates the generated disconnection.
  • the response is transmitted to the voice interaction agent that is the source of the connection command (step S2890).
  • step S2890 the voice interaction agent 2200 returns to the process of step S2811, and performs the processes of step S2811 and subsequent steps.
  • FIG. 29 shows a case where a user using the third modified voice interaction system uses a device 1700 to start a voice conversation with a home agent that is one of the voice interaction agents 2200, and thereafter, by the home agent.
  • a process that schematically shows a state in which communication with the vehicle agent that is another one of the voice interaction agents 2200 is started by the generated connection command and the user performs a conversation with the vehicle agent. It is a procedure figure.
  • the specific voice interaction agent server of the device 1700 used by the user is the voice interaction agent server 110 that realizes the home agent, and the conversation end sound is a sound “End”.
  • steps S2900 to S2905 are the same as the processes in steps S2100 to S2105 in the specific example (see FIG. 21) in the third embodiment. Therefore, these processes have already been described.
  • step S2905 When the processing in step S2905 is completed, the device 1700 performs the second audio processing (corresponding to step S2906 and step S1930 in FIG. 19).
  • the device 1700 receives the input voice data “Connect to car agent” as home agent. (Corresponding to step S2040 in FIG. 20).
  • the house agent receives the input voice data (corresponding to step S2400: Yes in FIG. 24) and executes the second command execution process (corresponding to step S2410 in FIG. 24).
  • step S2515 since the input text is a communication request with the vehicle agent (corresponding to step S2515: Yes in FIG. 25), the house agent transmits a connection command to the vehicle agent (FIG. 25). Corresponding to step S2570).
  • the vehicle agent receives the connection command (corresponding to step S2811 of FIG. 28: Yes), starts communication with the device 1700 (corresponding to step S2812 of FIG. 28), and sends a connection response to the home agent. Is transmitted (corresponding to step S2990, step S2813 in FIG. 28).
  • the house agent receives the connection response (corresponding to step S2575: Yes in FIG. 25), and executes the first connection response process (corresponding to step S2965, step S2580 in FIG. 25).
  • the voice conversation agent 2200 if the voice conversation agent 2200 generates response voice data “Connected to the car agent”, the voice conversation agent 2200 sends a message “To the car agent”. Response voice data is transmitted (corresponding to step S2620 in FIG. 26).
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes) and outputs a voice “Connected to the vehicle agent” (step S2907, to step S1980 in FIG. 19). Correspondence).
  • Step S1985 No in FIG. 19
  • the device 1700 performs the second voice processing (Step S2910, Step in FIG. 19). Corresponding to S1930).
  • the device 1700 transmits input voice data “What is the temperature inside the car?” To the car agent ( Corresponding to step S2040 in FIG. 20).
  • the vehicle agent receives the input voice data (corresponding to step S2814: Yes in FIG. 28), and the voice data does not request communication termination (corresponding to step S2815: No in FIG. 28). Then, a command group corresponding to the input voice data is generated and executed (corresponding to step S2994, step S2830 in FIG. 28).
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes), and outputs a voice “The temperature inside the vehicle is 38 degrees. Is there anything else?” (Step S2915, corresponding to step S1980 in FIG. 19).
  • step S1985 No in FIG. 19
  • the device 1700 performs the second voice processing. (Corresponding to step S2930, step S1930 in FIG. 19).
  • the device 1700 transmits input voice data “No, thank you” to the vehicle agent ( Corresponding to step S2040 in FIG. 20).
  • the vehicle agent receives the input voice data (corresponding to step S2814 of FIG. 28: Yes), and the voice data requests the end of communication (corresponding to step S2815 of FIG. 28: Yes). Then, the communication with the device 1700 is terminated (corresponding to step S2870 in FIG. 28), and a disconnection response is transmitted to the home agent (corresponding to step S2998 and step S2890 in FIG. 28).
  • the house agent receives the disconnection response (corresponding to Step S2585: Yes in FIG. 25) and executes disconnection response processing (corresponding to Step S2970 and Step S2890 in FIG. 25).
  • response voice data is sent “corresponding to step S2720 in FIG. 27”.
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes), and outputs a voice “The connection with the vehicle agent has been disconnected. Is there anything else?” (Corresponding to step S2935, step S1980 in FIG. 19).
  • step S1985 No in FIG. 19
  • the device 1700 performs the second voice processing. (Corresponding to step S2950, step S1930 in FIG. 19).
  • the device 1700 transmits input voice data “No, thank you” to the home agent ( Corresponding to step S2040 in FIG. 20).
  • the house agent receives the input voice data (corresponding to step S2800 in FIG. 24: Yes) and executes the second command execution process (corresponding to step S2975 and step S2410 in FIG. 24).
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes) and outputs a voice “End” (corresponding to step S2955 and step S1980 in FIG. 19).
  • the voice “End” is a dialogue end voice (corresponding to step S1985 of FIG. 19: Yes)
  • the state is changed to a voice input acceptable state (corresponding to step S1990 of FIG. 19), and the device 1700 Finishes the third device process.
  • the voice interaction agent B when the user who uses the third modified voice interaction system is communicating with the voice interaction agent A, the voice interaction agent B performs processing more than the voice interaction agent A.
  • the voice interaction agent to be communicated and processed is changed from the voice interaction agent A to the voice interaction agent B so that the desired operation can be executed by the voice interaction agent B. become.
  • the third modified voice interaction system in the fourth embodiment when a device starts communication with the voice interaction agent A, a user who uses the third modified voice interaction system uses the device to In the configuration example, when a voice input indicating that communication with the voice agent B is desired is performed, the communication partner of the device is changed from the voice dialogue agent A to the voice dialogue agent B thereafter. .
  • the voice interaction agent A determines that the voice conversation agent used by the user should be the other voice conversation agent B rather than the voice conversation agent A, and thereafter the communication partner of the device is In this example, the voice interaction agent A is changed to the voice interaction agent B.
  • the fourth modified voice dialogue system is modified from the third modified voice dialogue system in Embodiment 4 so that the voice dialogue agent 2200 is changed to the voice dialogue agent 3000.
  • the voice dialogue agent 3000 is realized by the voice dialogue agent server 110 in the same manner as the voice dialogue agent 2200 in the fourth embodiment.
  • Part of software for realizing the voice interaction agent 3000 executed by the voice interaction agent server 110 is changed from the software for realizing the voice interaction agent 2200 according to the third embodiment.
  • the voice interaction agent 3000 is modified from the voice interaction agent 2200 in the fourth embodiment so that a part of its functions is changed.
  • FIG. 30 is a block diagram showing a functional configuration of the voice interaction agent 3000.
  • the target agent DB storage unit 2220 is deleted and the available service DB storage unit 3020 is added from the voice interaction agent 2200 (see FIG. 22) in the fourth embodiment.
  • the control unit 2210 is modified so as to be changed to the control unit 3010.
  • the available service DB storage unit 3020 is realized by a memory and a processor that executes a program as an example, and is connected to the control unit 3010 and has a function of storing the available service DB 3100.
  • FIG. 31 is a data configuration diagram of the available service DB 3100 stored in the available service DB storage unit 3020.
  • the available service DB 3100 is configured by associating a keyword 3110, a target agent 3120, a processing content 3130, an IP address 3140, and an availability 3150.
  • the keyword 3110 is a character string that is assumed to be included in the input text converted by the speech recognition processing unit 430.
  • the target agent 3120 is information for specifying an additional voice conversation agent that is a communication target of the device 1700.
  • the additional voice target agent specified by the target agent 2320 is an example of a configuration including a car agent, a retail store agent, and a house agent.
  • the processing content 3130 is obtained by the additional voice interaction agent specified by the associated target agent 3120 when the associated keyword 3110 is included in the input text converted by the speech recognition processing unit 430. This is information indicating the contents of the processing to be executed.
  • the IP address 3140 is an IP address in the network 120 for the voice conversation agent server 110 that realizes the additional voice conversation agent specified by the associated target agent 3120.
  • the availability 3150 is information indicating whether or not the processing of the content indicated by the associated processing content 3130 can be processed by the own voice conversation agent.
  • the control unit 3010 is modified from the control unit 2210 in the fourth embodiment so that the second agent processing realization function among the functions of the control unit 2210 is changed to the fourth agent processing realization function described below. Yes.
  • the fourth agent processing realization function is that the control unit 3010 controls the communication unit 420, the speech recognition processing unit 430, the speech synthesis processing unit 450, and the command generation unit 460, so that By executing the fourth agent process which is a characteristic operation, the voice interaction agent 2200 receives (1) input voice data transmitted from the device, and (2) voice recognition for the received input voice data. Processing is performed to generate an input text and return it to the device.
  • the device and the target agent associated with the keyword When the generated input text includes a predetermined keyword, the device and the target agent associated with the keyword (4) Otherwise, generate and execute a group of instructions based on the generated input text, and (5) based on the execution result Generates answer text, (6) converts the generated response text to the response voice data, a function for realizing the series of processing that returns to the apparatus and a response voice data and (7) the response text.
  • the second modified voice dialog system can perform one of the processes from the second agent process in the third embodiment.
  • the fourth agent process whose part has been changed is performed.
  • the fourth agent process is a process performed by the voice interaction agent 3000, (1) receives input voice data transmitted from the device, (2) performs voice recognition processing on the received input voice data, Generate input text and send it back to the device. (3) If the generated input text contains a predetermined keyword, realize communication between the device and the target agent associated with the keyword. (4) Otherwise, a command group is generated and executed based on the generated input text, (5) a response text is generated based on the execution result, and (6) the generated response text is used as a response voice. (7) A process of returning response text and response voice data to the device.
  • FIG. 32 is a flowchart of the fourth agent process.
  • the fourth agent process starts when the voice interaction agent 3000 is activated.
  • the voice interaction agent 3000 waits until the input voice data transmitted from the device 1700 is received by the communication unit 420 (step S3200: No is repeated).
  • the voice interaction agent 3000 executes a third command execution process (step S3210).
  • FIG. 33 is a flowchart of the third instruction execution process.
  • step S3300 to step S3310 the processing from step S3320 to step S3360, the processing from step S3365 to step S3375, and the processing from step S3385 to step S3390 are each step S2500 in the fourth embodiment.
  • the processing is the same as the processing of Step S2510, the processing of Step S2520 to Step S2560, the processing of Step S2565 to Step S2575, and the processing of Step S2585 to Step S2590. Therefore, these processes have already been described.
  • control unit 3010 refers to the available service DB 3100 stored in the available service DB storage unit 3020 (step S3312), and performs the process corresponding to the input text to another voice dialogue. It is determined whether or not to be executed by the agent (step S3315). That is, when the keyword 3110 is included in the input text data and the target agent 3120 associated with the keyword 3110 is not the own voice dialog agent, another voice dialog agent (specified by the target agent 3120) is used. It is determined that it should be executed by the additional voice interaction agent. Otherwise, it is determined that it should not be executed by the other voice interaction agent.
  • step S3315 When it is determined in step S3315 that it should not be executed by another voice interaction agent (step S3315: No), the voice interaction agent 3000 proceeds to the process of step S3320 and performs the processes of steps S3320 to S3360. Do.
  • step S3315 If it is determined in step S3315 that it should be executed by another voice interaction agent (step S3315: Yes), the voice interaction agent 3000 proceeds to the process of step S3365, and the process of steps S3365 to S3375. I do.
  • step S3375 when the connection response returned from the additional voice interaction agent is received by the communication unit 420 (step S3375: Yes), the voice interaction agent 3000 executes the second connection response process (step S3380). ).
  • FIG. 34 is a flowchart of the second connection response process.
  • control unit 3010 controls the communication unit 420 so that the input voice data received in the process of step S3200: Yes is the additional voice specified in the process of step S3315: Yes. Transfer to the dialog agent (step S3400).
  • step S3400 the voice interaction agent 3000 ends the second connection response process.
  • step S3385 the voice interaction agent 3000 proceeds to the process of step S3385, and performs the processes of step S3385 to step S3390.
  • step S3390 When the process of step S3390 is completed or when the process of step S3360 is completed, the voice interaction agent 3000 ends the third command execution process.
  • the voice interaction agent 3000 returns to the process of step S3200 again, and continues the process of step S3200 and subsequent steps.
  • FIG. 35 shows a case where a user using the fourth modified voice interaction system uses a device 1700 to start a voice conversation with a home agent that is one of the voice interaction agents 3000, and thereafter, by the home agent. Processing that schematically shows a state in which communication with the vehicle agent that is another one of the voice interaction agents 3000 is started by the generated connection command, and the user has a conversation with the vehicle agent. It is a procedure figure.
  • the specific voice interaction agent server of the device 1700 used by the user is the voice interaction agent server 110 that realizes the home agent, and the conversation end sound is a sound “End”.
  • step S3500 to step S3505 is the same processing as the processing from step S2900 to step S2905 in the specific example (see FIG. 29) in the fourth embodiment. Therefore, these processes have already been described.
  • step S3505 When the processing in step S3505 is completed, the device 1700 performs the second audio processing (corresponding to step S3506 and step S1930 in FIG. 19).
  • the device 1700 transmits input voice data “What is the temperature inside the car?” To the home agent ( Corresponding to step S2040 in FIG. 20).
  • the house agent receives the input voice data (corresponding to step S3200 in FIG. 32: Yes) and executes the third command execution process (corresponding to step S3210 in FIG. 32).
  • the keywords “temperature” and “in-vehicle” are included in the input text, and the target agent 3120 is not a house agent (corresponding to step S3315: No in FIG. 33).
  • a connection command is transmitted to the car agent (corresponding to step S3370 in FIG. 33).
  • the vehicle agent receives the connection command (corresponding to step S2811 of FIG. 28: Yes), starts communication with the device 1700 (corresponding to step S2812 of FIG. 28), and sends a connection response to the home agent. Is transmitted (corresponding to step S3590, step S2813 in FIG. 28).
  • the house agent receives the connection response (corresponding to step S3375: Yes in FIG. 33) and executes the second connection response process (corresponding to step S3380 in FIG. 33).
  • the house agent transfers the input voice data “What is the temperature in the car?” To the car agent (corresponding to step S3400 in FIG. 34).
  • the vehicle agent receives the input voice data (corresponding to step S2814: Yes in FIG. 28), and the voice data does not request communication termination (corresponding to step S2815: No in FIG. 28). Then, a command group corresponding to the input voice data is generated and executed (corresponding to step S3594 and step S2830 in FIG. 28).
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes), and outputs a voice “The temperature inside the vehicle is 38 degrees. Is there anything else?” (Step S3507, corresponding to step S1980 in FIG. 19).
  • step S1985 No in FIG. 19
  • the device 1700 performs the second voice processing. (Corresponding to step S3510, step S1930 in FIG. 19).
  • the device 1700 In the second voice input process, if the user inputs a voice message “Turn on the air conditioner at 25 degrees”, the device 1700 will input the voice data “Turn on the air conditioner at 25 degrees”. Is transmitted to the vehicle agent (corresponding to step S2040 in FIG. 20).
  • the vehicle agent receives the input voice data (corresponding to step S2814: Yes in FIG. 28), and the voice data does not request communication termination (corresponding to step S2815: No in FIG. 28). Then, a command group corresponding to the input voice data is generated and executed (corresponding to step S3594 and step S2830 in FIG. 28).
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes), and outputs a voice “The air conditioner is turned on at 25 degrees. Is there anything else?” (Corresponding to step S3525, step S1980 in FIG. 19).
  • step S1985 No in FIG. 19
  • the device 1700 performs the second voice processing. (Corresponding to step S3530, step S1930 in FIG. 19).
  • the device 1700 transmits input voice data “No, thank you” to the vehicle agent ( Corresponding to step S2040 in FIG. 20).
  • the vehicle agent receives the input voice data (corresponding to step S2814 of FIG. 28: Yes), and the voice data requests the end of communication (corresponding to step S2815 of FIG. 28: Yes). Then, the communication with the device 1700 is terminated (corresponding to step S2870 in FIG. 28), and a disconnection response is transmitted to the home agent (corresponding to step S3598 and step S2890 in FIG. 28).
  • the house agent receives the disconnection response (corresponding to Step S2585: Yes in FIG. 25) and executes disconnection response processing (corresponding to Step S2970 and Step S2890 in FIG. 25).
  • the voice dialogue agent 2200 if the voice dialogue agent 2200 generates response voice data “End”, the voice dialogue agent 2200 sends response voice data “End” to the device 1700. Is transmitted (corresponding to step S2720 in FIG. 27).
  • the device 1700 receives the response voice data (corresponding to step S1960 in FIG. 19: Yes) and outputs a voice “End” (corresponding to step S3555 and step S1980 in FIG. 19).
  • the voice “End” is a dialogue end voice (corresponding to step S1985 of FIG. 19: Yes)
  • the state is changed to a voice input acceptable state (corresponding to step S1990 of FIG. 19), and the device 1700 Ends the fourth device process.
  • the voice interaction agent A when the user using the third modified voice interaction system is communicating with the voice interaction agent A, the voice interaction agent A is more effective than the voice interaction agent A.
  • the voice conversation agent of the user's communication partner can be changed from the voice conversation agent A to the voice conversation agent B.
  • the voice conversation agent A transfers the input voice as it is to the voice conversation agent B, the voice conversation agent B performs the voice recognition process itself on the input voice itself. Can do. For this reason, the user can receive provision of a more appropriate service.
  • FIG. 36 (A) is a schematic diagram schematically showing an operation mode in which the voice interaction system 100 according to the first embodiment is operated.
  • a group 3600 is, for example, a company, an organization, a home, etc., and its size is not limited.
  • the group 3600 includes a plurality of devices 3601 (device A, device B, etc.) and a home gateway 3602.
  • the plurality of devices 3601 include devices that can be connected to the Internet (for example, smartphones, PCs, TVs, etc.) and devices that cannot be connected to the Internet by themselves (for example, lighting, washing machines, refrigerators, etc.). To do. Even if the device itself cannot be connected to the Internet, there may be a device that can be connected to the Internet via the home gateway 3602.
  • the group 3600 includes a user 10 who uses a plurality of devices 3601. For example, each of the devices shown in group 3600 corresponds to device 140 in the first embodiment.
  • the data center operating company 3610 has a cloud server 3611.
  • the cloud server 3611 is a virtualization server that cooperates with various devices via the Internet. It mainly manages huge data (big data) that is difficult to handle with ordinary database management tools.
  • the data center operating company 3610 performs data management, management of the cloud server 3611, operation of the data center that performs them, and the like. Details of services performed by the data center operating company 3610 will be described later.
  • the data center operating company 3610 is not limited to a company that performs only data management, operation of the cloud server 3611, and the like.
  • the device manufacturer corresponds to the data center operating company 3610 (See FIG. 36B).
  • the data center operating company 3610 is not limited to one company.
  • a device manufacturer and another management company jointly or share the data management and operation of the cloud server 3611, both or one of them corresponds to the data center operating company 3610 (FIG. 36 ( C)).
  • the data center operating company 3610 provides a voice interaction agent 400 (also referred to as “first voice interaction agent”) associated with the device 140.
  • the service provider 3620 has a server 3621.
  • the server 3621 mentioned here includes, for example, a memory in a personal PC regardless of the scale.
  • the service provider may not have the server 3621.
  • the service provider 3620 provides another voice interaction agent 400 (also referred to as a second voice interaction agent) connected from the first voice interaction agent.
  • the device A or device B of the group 3600 transmits each log information to the cloud server 3611 of the data center 3610.
  • the cloud server 3611 accumulates log information of the device A or the device B (FIG. 36 (a)).
  • the log information is information indicating, for example, driving conditions and operation dates / times of the plurality of devices 3601.
  • the log information may be provided directly to the cloud server 3611 from a plurality of devices 3601 itself via the Internet.
  • log information may be once accumulated from a plurality of devices 3601 in the home gateway 3602 and provided from the home gateway 3602 to the cloud server 3611.
  • the cloud server 3611 of the data center operating company 3610 provides the collected log information to the service provider 3620 in a certain unit.
  • it may be a unit in which the information collected by the data center operating company 3610 can be organized and provided to the service provider 3620, or a unit requested by the service provider 3620.
  • the log information is stored in the server 3621 owned by the service provider 3620 as necessary (FIG. 36B).
  • the service provider 3620 organizes the log information into information suitable for the service provided to the user, and provides it to the user.
  • the user to be provided may be the user 10 who uses the plurality of devices 3601 or the external user 20.
  • the service providing method for the user may be provided directly to the user from the service provider 3620 (FIG. 36E).
  • the service providing method for the user may be provided to the user via the cloud server 3611 of the data center operating company 3610 again (FIGS. 36 (c) and (d)).
  • the cloud server 3611 of the data center operating company 3610 may organize the log information into information suitable for the service provided to the user and provide it to the service provider 3620.
  • the user 10 and the user 20 may be different or the same.
  • FIG. 37 is a schematic diagram schematically showing service type 1 (in-house data center type).
  • This type is a type in which the service provider 3620 obtains information from the group 3600 and provides a service to the user.
  • the service provider 3620 has a function of a data center operating company. That is, the service provider 3620 has a cloud server 3611 that manages big data. Therefore, there is no data center operating company.
  • the service provider 3620 operates and manages the data center (cloud server 3611) (3703).
  • the service provider 3620 manages the OS (3702) and the application (3701).
  • the service provider 3620 provides a service using the OS (3702) and application (3701) to be managed (3704).
  • FIG. 38 is a schematic diagram schematically showing service type 2 (IaaS usage type).
  • IaaS is an abbreviation for infrastructure as a service, and is a cloud service provision model that provides a base for constructing and operating a computer system as a service via the Internet.
  • the data center operating company 3610 operates and manages the data center (cloud server 3611) (3703).
  • the service provider 3620 manages the OS (3702) and the application (3701).
  • the service provider 3620 provides a service using the OS (3702) and application (3701) to be managed (3704).
  • FIG. 39 is a schematic diagram schematically showing service type 3 (PaaS usage type).
  • PaaS is an abbreviation for Platform as a Service
  • PaaS is a cloud service provision model that provides a platform serving as a foundation for constructing and operating software as a service via the Internet.
  • the data center operating company 3610 manages the OS (3702) and operates and manages the data center (cloud server 3611) (3703).
  • the service provider 3620 manages the application (3701).
  • the service provider 3620 provides a service using the OS (3702) managed by the data center operating company 3610 and the application (3701) managed by the service provider 3620 (3704).
  • FIG. 40 is a schematic diagram schematically showing service type 4 (SaaS usage type).
  • SaaS is an abbreviation for Software as a Service.
  • SaaS a function that allows applications provided by a platform provider who owns a data center (cloud server) to be used via a network such as the Internet by a company / individual (user) who does not have a data center (cloud server).
  • This is a cloud service provision model.
  • the data center operating company 3610 manages the application (3701), manages the OS (3702), and operates and manages the data center (cloud server 3611) (3703).
  • the service provider 3620 provides a service using the OS (3702) and the application (3701) managed by the data center operating company 3610 (3704).
  • the service provider 3620 performs a service providing action.
  • the service provider 3620 or the data center operating company 3610 may develop an OS, an application, a big data database, or the like, or may be outsourced to a third party.
  • the service provider 3620 or the data center operating company 3610 may develop an OS, an application, a big data database, or the like, or may be outsourced to a third party.
  • five voice dialogue systems have been exemplified in the first to fifth embodiments, and the embodiments are also described. 6, the operation mode of the voice interaction system has been described by way of example. However, it can be modified as follows, and is used in the voice interaction system illustrated in the first to sixth embodiments or the operation mode thereof. Of course, it is not limited to the voice interaction method and device as described.
  • the voice interaction system 100 has been described as including the voice interaction agent server 110, the network 120, the gateway 130, and the device 140 as shown in FIG.
  • the voice interaction system stores the target agent DB 2300 in addition to the voice interaction agent server 110, the network 120, the gateway 130, and the device 140, and supports correspondence between the voice interaction agents.
  • a mediation server 4150 having a function of performing connection switching and the like.
  • FIG. 41 is a system configuration diagram showing a configuration of a voice interaction system 4100 including the mediation server 4150.
  • FIG. 42 is a block diagram showing a functional configuration of the mediation server 4150.
  • the mediation server 4150 includes a communication unit 4220, a control unit 4210, and a target agent DB storage unit 4230.
  • the target agent DB storage unit 4230 has a function of storing the target agent DB 2300 in the same manner as the target agent DB storage unit 2220 in the fourth embodiment.
  • the voice interaction system includes an intermediary server 4350 that stores the usable service DB 3100 instead of the intermediary server 4150 and has a function of performing association, connection switching, and the like between the voice interaction agents. It may be done.
  • FIG. 43 is a block diagram showing a functional configuration of the mediation server 4350.
  • the mediation server 4350 includes a communication unit 4320, a control unit 4310, and an available service DB storage unit 4330.
  • the available service DB storage unit 4330 has a function of storing the available service DB 3100 in the same manner as the available service DB 3020 in the fifth embodiment.
  • the image shown in FIG. 12 has been described as an example of the image displayed on the display unit 270 of the device 140.
  • FIG. 44 (a) to FIG. 44 (d), and FIG. 45 (b) “You”, “Car agent”, “Home agent”, etc.
  • a character string that identifies the subject of the utterance is displayed.
  • FIG. 45A an icon (image) for specifying the subject of the utterance is displayed.
  • a dialogue such as “conversing with a home agent” or “interacting with a car agent” is displayed at the top of the screen so that the voice conversation agent currently interacting with can be seen.
  • a character string that identifies the active voice interaction agent is displayed.
  • FIG. 44 (d) in order to know the voice interaction agent that has been (or has been) interacting with the present or the past, at the top of the corresponding response text, “Conversing with home agent”, “Car agent and A character string for identifying a voice conversation agent having a conversation (such as “in conversation”) is displayed.
  • FIG. 45 (b) an icon (image) for identifying a voice conversation agent that is interacting (having) is displayed.
  • these display examples are merely examples, and may indicate which voice conversation agent is interacting with each other by color, or which voice conversation agent is in the form of a screen or a part of the screen. You may indicate if you are interacting with.
  • the background color or wallpaper may be changed for each subject who speaks. In this way, it is only necessary that the voice interaction agent or the subject who speaks is displayed so as to be identifiable by the user.
  • the state management performed by the control unit 210 has been described as being managed in the manner shown in the state transition diagram of FIG.
  • the state management performed by the control unit 1310 has been described as being managed in the manner shown in the state transition diagram of FIG.
  • the state management performed by the control unit 1710 has been described as being managed in the manner shown in the state transition diagram of FIG.
  • the state management performed by the control unit is not limited to the management according to the above aspect, and the state management according to another aspect may be considered.
  • 46 to 50 are state transition diagrams showing examples of state management according to other modes performed by the control unit.
  • the voice output unit 260 When the voice based on the response text transmitted from the voice dialogue agent 110 is output, and the voice is a dialogue end voice, the state is changed to a voice input unacceptable state. Therefore, when the voice signal generated by the voice interaction agent 110 received by the communication unit 250 indicates that a new voice input is not required, the voice input unit 220 is in a voice input acceptance state. Even if the predetermined time has not passed since the transition to, the voice input cannot be accepted.
  • the display unit 270 is realized by, for example, a touch panel, a touch panel controller, and a processor that executes a program. It has been described that the configuration is performed by blinking the lower right region 1120 (see FIG. 11A, FIG. 11C, FIG. 12, etc.). However, as long as the user can recognize that the voice input can be accepted, the configuration is not necessarily limited to the above example.
  • the display unit 270 is realized by an LED (Light-Emitting-Diode) and a processor that executes a program, and displays that the voice input is ready by lighting the LED. Examples are possible. However, in the example of this configuration, the display unit 270 does not display the response text received by the communication unit 250 because it does not have a means for displaying a character string.
  • the communication unit 250 refers to the IP address stored in the address storage unit 240 when a specific one is not designated as the communication destination voice interaction agent server 110, and the specific voice It has been explained that the configuration communicates with the conversation agent server.
  • the address storage unit 240 does not store the IP address of the specific voice interaction agent server, and the voice interaction agent server specified by the user or the voice interaction agent specified by the user.
  • An example of a configuration that communicates with a voice interaction agent server that realizes the above can be considered.
  • each device 140 has been described as communicating with the voice interaction agent 110 via the gateway 130 and the network 120.
  • the gateway 130 becomes unnecessary.
  • a part or all of each element constituting the above embodiment and the above modification may be constituted by one system LSI.
  • the system LSI is a super multifunctional LSI manufactured by integrating a plurality of components on one chip.
  • the computer system includes a microprocessor, a ROM, a RAM, and the like.
  • a computer program is stored in a ROM, a RAM, or the like, and the system LSI realizes its functions by the microprocessor operating according to these computer programs.
  • each element constituting the above embodiment and the above modification may include an IC (Integrated Circuit) card or a module that can be attached to and detached from the apparatus.
  • IC cards or modules are computer systems that include a microprocessor, ROM, RAM, and the like.
  • IC cards or modules may include the above-mentioned super multifunctional LSI.
  • a computer program is stored in a ROM, a RAM, or the like, and the IC card or the module realizes its function by the microprocessor operating according to the computer program.
  • These IC cards or modules may have tamper resistance.
  • a computer program or digital signal used in the above-described embodiment and the above-described modification can be recorded on a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MD, DVD, DVD-ROM, DVD- You may record on RAM, BD, semiconductor memory, etc.
  • the computer program or digital signal used in the above embodiment and the above modification may be transmitted via a telecommunication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like. .
  • the computer program or digital signal used in the above-described embodiment and the above-described modification is recorded on a computer-readable recording medium and transferred, or transmitted via a network or the like, to another computer.
  • the system can also be implemented.
  • a voice dialogue method is a voice dialogue method performed by a voice dialogue system including a voice signal generation unit, a voice dialogue agent unit, a voice output unit, and a voice input control unit.
  • the voice signal generation unit receives voice input, generates a voice signal based on the received voice input, and the voice dialogue agent unit performs voice to the voice signal generated by the voice signal generation unit.
  • Performs recognition processing performs processing based on the result of the speech recognition processing, generates a response signal related to the processing, and the speech output unit outputs speech based on the response signal generated by the speech dialogue agent unit
  • the sound input control unit causes the sound signal generation unit to switch the sound input for a predetermined period from the output. Characterized in that it and of the possible can be accepted state acceptance.
  • the user when the voice generated by the voice dialogue agent unit is output, the user can perform voice input without performing an operation on the voice dialogue system. Can be performed. As a result, the number of operations that the user needs to perform with voice input in an interactive format is reduced as compared with the conventional case.
  • the voice dialogue system includes a display unit, and when the voice signal generation unit is in the acceptable state, the display unit indicates that the voice signal generation unit is in the acceptable state. Display may be performed.
  • the user can visually recognize whether or not the audio signal generation unit is in an acceptable state.
  • the voice dialogue system includes an additional voice dialogue agent unit, and the voice dialogue agent unit performs processing based on the result of the voice recognition processing based on the result of the voice recognition processing.
  • the additional voice interaction agent unit performs the speech recognition processing only when it is determined in the determination to be performed by the voice interaction agent unit.
  • Power unit may output the sound based on the response signal generated by the additional spoken dialogue agent unit.
  • the agent unit that performs processing based on the result of the speech recognition process is the voice interaction agent unit
  • the agent unit that performs processing based on the result of the speech recognition process is the additional speech dialogue agent unit, which performs the display to indicate that it is an agent portion
  • the display may be performed to indicate that the unit is the additional voice interaction agent unit.
  • the user can visually recognize whether the agent unit that performs the processing is the voice dialogue agent unit or the additional voice dialogue agent unit.
  • the voice dialog agent unit receives the voice signal generated by the voice signal generation unit. Transfer to the additional voice dialogue agent unit, and the additional voice dialogue agent unit may perform the voice recognition processing on the voice signal transferred from the voice dialogue agent unit.
  • the additional voice conversation agent unit can perform voice recognition processing using the voice signal transferred from the voice dialog agent unit.
  • the voice input control unit may place the voice signal generation unit in an unacceptable state in which the voice input cannot be accepted.
  • the voice signal generation unit can be set in the unacceptable state.
  • a device receives an audio input, generates an audio signal based on the received audio input, and an audio signal generated by the audio signal generation unit.
  • a transmitting unit for transmitting to an external server; a receiving unit for receiving a response signal generated and returned based on the audio signal by the server that has received the audio signal transmitted by the transmitting unit; and the receiving unit
  • a voice output unit that outputs voice based on the response signal received by the voice output unit, and when the voice output unit outputs the voice, the voice signal generation unit receives the voice input for a predetermined period from the output.
  • a voice input control unit configured to enable reception.
  • the user when the sound generated by the server is output, the user can input the sound without performing any operation on the device. .
  • the number of operations that the user needs to perform with voice input in an interactive format is reduced as compared with the conventional case.
  • the voice dialogue method and apparatus according to the present invention can be widely used in voice dialogue systems that perform processing based on voice inputted in a dialogue format from a user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 音声信号生成部と、音声対話エージェント部と、音声出力部と、音声入力制御部とを備える音声対話システムによって行われる音声対話方法であって、音声信号生成部が、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成し、音声対話エージェント部が、音声信号生成部によって生成された音声信号に対して音声認識処理を行い、その音声認識処理の結果に基づく処理を行い、その処理に係る応答信号を生成し、音声出力部が、音声対話エージェント部によって生成された応答信号に基づく音声を出力し、音声出力部によって音声が出力される場合に、音声入力制御部が、その出力から所定期間、音声信号生成部を、音声入力の受け付けが可能な受付可能状態とする音声対話方法。

Description

音声対話方法、及び機器
 本発明は、対話形式で入力された音声に基づいて処理を行う音声対話方法に関する。
 従来、音声入力インターフェースを備え、ユーザから対話形式で入力された音声に基づいて処理を行う音声対話システムが知られている。
 例えば、特許文献1には、マイクロフォンを備え、マイクロフォンから入力される音声に対して音声認識処理を行い、その音声認識処理の結果に基づく処理を行うヘッドセットが記載されている。
 また、特許文献2には、ユーザから対話形式で入力される音声に基づいて処理を行うエージェントを有する音声対話システムが記載されている。
特開2004-233794号公報 特開2008-90545号公報
 特許文献1記載のヘッドセットは、音声入力を開始する際と、音声入力を終了する際とに、ヘッドセットに設けられた音声認識制御ボタンの押下操作を必要とする。よって、このヘッドセットを、対話形式で入力される音声に基づいて処理を行う音声対話システムにおける入力手段として利用する場合には、このヘッドセットを利用するユーザは、音声入力の手番が回ってくるたびに、音声認識制御ボタンを押下操作して音声入力を開始し、音声認識制御ボタンを押下操作して音声入力を終了する必要がある。
 このため、このユーザは、音声入力の開始時と終了時と毎に行う必要のある、音声認識制御ボタンの押下操作を煩わしく感じてしまうことがある。
 そこで、本発明は係る問題に鑑みてなされたものであり、音声対話システムにおいて、対話形式による音声入力に伴ってユーザが行う必要がある操作の回数を、従来よりも低減することができる音声対話方法を提供することを目的とする。
 上記課題を解決するために本発明に係る音声対話方法は、音声信号生成部と、音声対話エージェント部と、音声出力部と、音声入力制御部とを備える音声対話システムによって行われる音声対話方法であって、前記音声信号生成部が、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成し、前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、前記音声出力部が、前記音声対話エージェント部によって生成された応答信号に基づく音声を出力し、前記音声出力部によって前記音声が出力される場合に、前記音声入力制御部が、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とすることを特徴とする。
 上述の音声対話方法によると、音声対話エージェント部によって生成された音声が出力されたときには、ユーザは、音声対話システムに対して操作を行わなくても、音声入力を行うことが可能となる。このことによって、対話形式による音声入力に伴ってユーザが行う必要がある操作の回数が、従来よりも低減されることとなる。
音声対話システム100の構成を示すシステム構成図 機器140の機能構成を示すブロック図 制御部210によって管理されるステートの状態遷移図 音声対話エージェント400の機能構成を示すブロック図 対話DB500のデータ構成図 第1機器処理のフローチャート 第1音声入力処理のフローチャート 第1エージェント処理のフローチャート 第1命令実行処理のフローチャート 具体例における処理手順図 (a)機器140の表示内容を模式的に示す図その1、(b)機器140の表示内容を模式的に示す図その2、(c)機器140の表示内容を模式的に示す図その3、(d)機器140の表示内容を模式的に示す図その4 機器140の表示内容を模式的に示す図その5 機器1300の機能構成を示すブロック図 制御部1310によって管理されるステートの状態遷移図 第2機器処理のフローチャート 音声対話エージェントとの対話を行う様子を模式的に示す処理手順図 機器1700の機能構成を示すブロック図 制御部1710によって管理されるステートの状態遷移図 第3機器処理のフローチャート 第2音声入力処理のフローチャート 音声対話エージェントとの対話を行う様子を模式的に示す処理手順図 音声対話エージェント2200の機能構成を示すブロック図 対象エージェントDB2300のデータ構成図 第2エージェント処理のフローチャート 第2命令実行処理のフローチャート 第1接続応答処理のフローチャート 切断応答処理のフローチャート 第3エージェント処理のフローチャート 音声対話エージェントとの対話を行う様子を模式的に示す処理手順図 音声対話エージェント3000の機能構成を示すブロック図 利用可能サービスDB3100のデータ構成図 第4エージェント処理のフローチャート 第3命令実行処理のフローチャート 第2接続応答処理のフローチャート 音声対話エージェントとの対話を行う様子を模式的に示す処理手順図 (A)音声対話システムが運用される運用形態の模式図、(B)データセンタ運営会社3610の模式図その1、(C)データセンタ運営会社3610の模式図その2 サービスの類型1の模式図 サービスの類型2の模式図 サービスの類型3の模式図 サービスの類型4の模式図 音声対話システム4100の構成を示すシステム構成図 仲介サーバ4150の機能構成を示すブロック図 仲介サーバ4350の機能構成を示すブロック図 (a)表示部に表示される画像例その1、(b)表示部に表示される画像例その2、(c)表示部に表示される画像例その3、(d)表示部に表示される画像例その4 (a)表示部に表示される画像例その5、(b)表示部に表示される画像例その6 ステートの状態遷移図の例その1 ステートの状態遷移図の例その2 ステートの状態遷移図の例その3 ステートの状態遷移図の例その4 ステートの状態遷移図の例その5
<実施の形態1>
 <概要>
 以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、宅内、車内等に設置された機器と、これら機器と通信する音声対話エージェントサーバとを含んで構成される音声対話システムについて説明する。
 この音声対話システムにおいて、音声対話エージェントサーバは、記憶しているプログラムを実行することで、音声対話エージェントを実現する。この音声対話エージェントは、音声対話システムを利用するユーザと、機器を介して音声を用いた対話(音声による入出力)を行う。そして、音声対話エージェントは、その対話の内容が反映された処理を実行して、その実行結果を、そのユーザが利用している機器を介して、音声にて出力する。
 ユーザは、音声対話エージェントと対話したい(音声対話エージェントに対して音声による入力を行いたい)場合に、音声対話システムを構成する機器に対して、所定の音声入力開始操作を行う。すると、その機器は、その音声入力開始操作がなされてから所定期間、音声入力の受け付けが可能な状態となる。そして、機器が、音声入力の受け付けが可能な状態である期間に、そのユーザは、音声対話エージェントに対して音声による入力を行う。
 以下、この音声対話システムの詳細について図面を参照しながら説明する。
 <構成>
 図1は、音声対話システム100の構成を示すシステム構成図である。
 同図に示されるように、音声対話システム100は、音声対話エージェントサーバ110a~音声エージェントサーバ110bと、ネットワーク120と、ゲートウエイ130a~ゲートウエイ130bと、機器140a~機器140eとから構成される。
 これらのうち、ゲートウエイ130aと機器140a~機器140cとは、家180内に配置され、ゲートウエイ130bと機器140d~機器140eとは、車190内に配置されている。
 機器140a~機器140eは、それぞれ、ゲートウエイ130(ゲートウエイ130aとゲートウエイ130bとを明示的に区別して表示する場合を除いて、ゲートウエイ130a又はゲートウエイ130bのことを、単にゲートウエイ130と呼ぶ。)と無線又は有線で通信する機能と、ゲートウエイ130及びネットワーク120を介して、音声対話エージェントサーバ110(音声対話エージェントサーバ110aと音声対話エージェントサーバ110bとを明示的に区別して表示する場合を除いて、音声対話エージェントサーバ110a又は音声対話エージェントサーバ110bのことを、単に音声対話エージェントサーバ110と呼ぶ。)と通信する機能とを有する。
 家180内に配置されている機器140a~機器140cは、例えば、屋内に設置されたテレビ、エアコン、録画機、洗濯機、持ち運び自在なスマートフォン等であり、車190内に配置されている機器140d~機器140eは、例えば、車190内に設置されているカーエアコン、カーナビ等である。
 ここでは、機器140a~機器140eをそれぞれ個別に説明することに代えて、機器140a~機器140eが共通に有している機能を有する仮想的な機器140について説明する。
 図2は、機器140の機能構成を示すブロック図である。
 同図に示されるように、機器140は、制御部210と、音声入力部220と、操作受付部230と、アドレス記憶部240と、通信部250と、音声出力部260と、表示部270と、実行部280とから構成される。
 音声入力部220は、一例として、マイクと、プログラムを実行するプロセッサとによって実現され、制御部210に接続され、制御部210によって制御される。そして、ユーザからの音声による入力を受け付けて、音声信号(以下、「入力音声データ」と呼ぶこともある。)を生成する機能を有する。
 音声入力部220は、制御部210によって制御されることで、音声入力を受け付けることが可能な音声入力受付可能状態と、音声入力の受け付けることが不可能な音声入力受付不可能状態とのいずれかの状態となる。
 操作受付部230は、一例として、タッチパネルと、タッチパネルコントローラと、プログラムを実行するプロセッサとによって実現され、制御部210に接続され、制御部210によって制御される。そして、ユーザによってなされる所定の接触操作を受け付けて、受け付けた接触操作に基づく電気信号を生成する機能を有する。
 操作受付部230が受け付ける、ユーザによってなされる所定の接触操作の中には、音声入力部220を利用して音声による入力を開始する旨を示す所定の音声入力開始操作が含まれる。
 音声入力開始操作は、一例として、操作受付部230の一部であるタッチパネル上に表示されている、音声入力開始操作を受け付けるためのアイコンにタッチする操作が考えられる。また、別の一例として、操作受付部230が、音声入力開始操作を受け付けるためのボタンを含んで構成されており、このボタンを押下する操作が考えられる。
 アドレス記憶部240は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、通信部250に接続される。そして、音声対話エージェントサーバ110の中の1つ(以下、この1つのことを、「特定音声対話エージェントサーバ」と呼ぶ。)についての、ネットワーク120のおけるIP(Internet Protocol)アドレスを記憶する機能を有する。
 この機能によって、機器140のそれぞれは、音声対話エージェントサーバ110の中の1つである特定音声対話エージェントサーバに対応付けられている。
 なお、機器140の内蔵するメモリとしては、一例として、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が考えられる。
 通信部250は、一例として、プログラムを実行するプロセッサと、通信用LSI(Large Scale Integration)と、アンテナとによって実現され、制御部210と、アドレス記憶部240とに接続され、制御部210によって制御される。そして、以下の、ゲートウエイ通信機能と、音声対話エージェントサーバ通信機能とを有する。
 ゲートウエイ通信機能とは、ゲートウエイ130と無線又は有線にて、通信する機能である。
 音声対話エージェントサーバ通信機能とは、ゲートウエイ130とネットワーク120とを介して、音声対話エージェントサーバ110と通信する機能である。
 ここで、通信部250は、音声対話エージェントサーバ110のうちのいずれか1つと通信する場合において、制御部210から、通信先の音声対話エージェントサーバ110として、特定の1つを指定されないときには、アドレス記憶部240に記憶されるIPアドレスを参照して、特定音声対話エージェントサーバと通信する。
 音声出力部260は、一例として、プログラムを実行するプロセッサと、スピーカとによって実現され、制御部210に接続され、制御部210によって制御される。そして、制御部210から送られる電気信号を音声に変換して出力する機能を有する。
 表示部270は、一例として、タッチパネルと、タッチパネルコントローラと、プログラムを実行するプロセッサとによって実現され、制御部210に接続され、制御部210によって制御される。そして、制御部210から送られる電気信号に基づく画像、文字列等を表示する機能を有する。
 実行部280は、機器140が、機器として本来備えている機能(例えば、機器140がテレビであれば、テレビ信号を受信して復号し、復号したテレビ画像をディスプレイに表示して、復号したテレビ音声をスピーカから出力する機能等であり、例えば、機器140がエアコンであれば、エアコンの設置された部屋が設定温度となるように、送風口から冷風又は温風を送風する機能等である)を実現する機能ブロックであって、制御部210に接続され、制御部210によって制御される。
 実行部280は、例えば、機器140がテレビである場合には、一例として、テレビ信号受信機、テレビ信号チューナ、テレビ信号デコーダ、ディスプレイ、スピーカ等によって実現される。
 また、実行部280は、必ずしも、1つの筺体内に、その全ての構成要素が含まれて実現される構成である必要はない。例えば、機器140がテレビである場合には、リモコンと、ディスプレイとが、互いに別筺体に含まれて構成される例等が考えられる。同様に、機器140を構成する各機能ブロックは、1つの筺体内に、その全ての構成要素が含まれて実現される構成である必要はない。
 制御部210は、一例として、プログラムを実行するプロセッサによって実現され、音声入力部220と、操作受付部230と、通信部250と、音声出力部260と、表示部270と、実行部280とに接続され、音声入力部220を制御する機能と、操作受付部230を制御する機能と、通信部250を制御する機能と、音声出力部260を制御する機能と、表示部270を制御する機能と、実行部280を制御する機能とに加えて、以下に述べる音声入力部状態管理機能と、第1機器処理実現機能とを有する。
 音声入力部状態管理機能とは、音声入力受付可能状態と、音声入力受付不可能状態とのいずれかとなる音声入力部220の状態(以下、「ステート」とも言う。)を管理する機能である。
 図3は、制御部210によって管理されるステートの状態遷移図である。
 同図に示されるように、制御部210は、ステートが、音声入力受付不可能状態である場合において、(1)操作受付部230によって音声入力開始操作が受け付けられるまでは、音声入力受付不可能状態を維持し、(2)操作受付部230によって音声入力開始操作が受け付けられると、ステートを、音声入力受付可能状態へと遷移させる。そして、ステートが、音声入力受付可能状態である場合において、(3)ステートが音声入力受付可能状態へと遷移してから所定時間T1(例えば5秒)経過するまでは、音声入力受付可能状態を維持し、(4)所定時間T1経過すると、ステートを、音声入力受付不可能状態へと遷移させる。
 なお、機器140が起動された時点では、制御部210は、ステートを音声入力受付不可能状態として管理を開始する。
 再び図2に戻って、制御部210の説明を続ける。
 第1機器処理実現機能とは、制御部210が、音声入力部220と、操作受付部230と、通信部250と、音声出力部260と、表示部270と、実行部280とを制御して、機器140に、その特徴的な動作である第1機器処理を実行させることで、機器140に、(1)ユーザによって音声入力開始操作がなされると、(2)ユーザからの音声による入力を受け付けて入力音声データを生成し、(3)生成した入力音声データを音声対話エージェントに送信し、(4)音声対話エージェントから返信された応答音声データを受信して、(5)受信した応答音声データに基づく音声を出力するという一連の処理を実現させる機能である。
 なお、第1機器処理については、後程<第1機器処理>の項目において、フローチャートを用いて詳細に説明する。
 図1に戻って、再び機器140の説明を続ける。
 ゲートウエイ130は、一例として、通信機能を有するパソコン等によって実現され、ネットワーク120に接続される。そして、記憶しているプログラムを実行することで、機器140と無線又は有線で通信する機能と、ネットワーク120を介して音声対話エージェントサーバ110と通信する機能と、機器140と音声対話エージェントサーバ110との間の通信を仲介する機能とを実現する。
 音声対話エージェントサーバ110は、一例として、1又は複数のコンピュータシステムによって構成される、通信機能を有するサーバによって実現され、ネットワーク120に接続される。そして、記憶しているプログラムを実行することで、ネットワーク120に接続される他の装置と通信する機能と、ゲートウエイ130を介して、機器140と通信する機能と、音声対話エージェント400を実現する機能とを有する。
 図4は、音声対話エージェントサーバ110によって実現される音声対話エージェント400の機能構成を示すブロック図である。
 同図に示されるように、音声対話エージェント400は、制御部410と、通信部420と、音声認識処理部430と、対話DB(Date Base:データベース)記憶部440と、音声合成処理部450と、命令生成部460とから構成される。
 通信部420は、一例として、プログラムを実行するプロセッサと、通信用LSIとによって実現され、制御部410と、音声認識処理部430と、音声合成処理部450とに接続され、制御部410によって制御される。そして、ネットワーク120に接続される他の装置と通信する機能と、ゲートウエイ130を介して、機器140と通信する機能とを有する。
 音声認識処理部430は、一例として、プログラムを実行するプロセッサによって実現され、制御部410と、通信部420とに接続され、制御部410によって制御される。そして、通信部420によって受信された入力音声データに対して音声認識処理を行って、その音声データを文字列(以下、「入力テキスト」とも呼ぶ。)に変換する機能を有する。
 音声合成処理部450は、一例として、プログラムを実行するプロセッサによって実現され、制御部410と通信部420とに接続され、制御部410によって制御される。そして、制御部410から送られてきた文字列に対して音声合成処理を行い、音声データに変換する機能を有する。
 対話DB記憶部440は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、制御部410に接続され、対話DB500を記憶する機能を有する。
 図5は、対話DB記憶部440に記憶される対話DB500のデータ構成図である。
 同図に示される通り、対話DB500は、キーワード510と、対象機器520と、起動アプリ530と、処理内容540と、応答テキスト550とが対応付けられて構成される。
 キーワード510は、音声認識処理部430によって変換された入力テキストに含まれると想定される文字列である。
 対象機器520は、対応付けられている処理内容540(後述)によって特定される処理を実行させる機器を特定する情報である。
 ここで、処理内容540によって特定される処理を実行させる機器に、音声対話エージェント400自身が含まれていてもよい。
 起動アプリ530は、対応付けられている処理内容540(後述)によって特定される処理を、対応付けられている対象機器520によって特定される機器に実行させるために、その機器において起動させるアプリケーションプログラムを特定する情報である。
 処理内容540は、音声認識処理部430によって変換された入力テキストに、対応付けられているキーワード510が含まれている場合に、対応付けられている対象機器520によって特定される機器に実行させると定められている処理を特定する情報である。
 応答テキスト550は、対応付けられている処理内容540によって指定される処理が実行された場合に、その処理結果に基づいて生成されると定められている文字列(以下、「応答テキスト」とも呼ぶ。)を示す情報である。
 再び図4に戻って、音声対話エージェント400の説明を続ける。
 命令生成部460は、一例として、プログラムを実行するプロセッサによって実現され、制御部410に接続され、制御部410によって制御される。そして、制御部410から、対象機器520と、起動アプリ530と、処理内容540との組が送られてきた場合に、対象機器520によって特定される機器において、起動アプリ530によって特定されるアプリケーションプログラムを起動して、処理内容540によって特定される処理を実行させるための命令群を生成する機能を有する。
 制御部410は、一例として、プログラムを実行するプロセッサによって実現され、通信部420と、音声認識処理部430と、対話DB記憶部440と、音声合成処理部450と、命令生成部460とに接続され、通信部420を制御する機能と、音声認識処理部430を制御する機能と、音声合成処理部450を制御する機能と、命令生成部460を制御する機能とに加えて、以下の入力テキスト返信機能と、命令生成機能と、命令実行機能と、第1エージェント処理実現機能とを有する。
 入力テキスト返信機能とは、音声認識処理部430によって、通信部420によって受信された入力音声データが入力テキストに変換された場合に、通信部420を制御して、その入力音声データを送信してきた機器140に対して、その入力テキストを返信させる機能である。
 命令生成機能とは、音声認識処理部430から入力テキストが送られてきた場合に、(1)対話DB記憶部440に記憶されている対話DB500を参照して、その入力テキストに含まれているキーワード510から、そのキーワード510に対応付けられている、対象機器520と、起動アプリ530と、処理内容540と、応答テキスト550とを読み出して、(2)読み出した、対象機器520と、起動アプリ530と、処理内容540との組を、命令生成部460に送って、命令生成部460に命令群を生成させる機能である。
 命令実行機能とは、命令生成部460によって生成された命令群を実行して、その実行結果に基づいて、応答テキスト550によって指定されている応答テキストを生成して、音声合成処理部450に送る機能である。
 なお、制御部410は、命令実行機能を実現する際に、必要に応じて、通信部420を用いて、対象機器520によって特定される機器と通信して、その機器に命令群を実行させて、その機器から命令群の実行結果を送信させることで、応答テキストを生成する。
 第1エージェント処理実現機能とは、制御部410が、通信部420と、音声認識処理部430と、音声合成処理部450と、命令生成部460とを制御して、音声対話エージェント400に、その特徴的な動作である第1エージェント処理を実行させることで、音声対話エージェント400に、(1)機器から送信された入力音声データを受信し、(2)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(3)生成した入力テキストに基づいて命令群を生成して実行し、(4)実行結果に基づいて応答テキストを生成し、(5)生成した応答テキストを応答音声データに変換して、(6)応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。
 なお、第1エージェント処理は、後程<第1エージェント処理>の項目において、フローチャートを用いて詳細に説明する。
 ここで、制御部410は、例えば、音声認識処理部430から、「Aさんの住所は?」という入力テキストが送られてきたとすると、対話DB記憶部440に記憶されている対話DB500を参照して、対象機器520で特定される機器「スマートフォン」に、起動アプリ530で特定されるアプリケーションプログラム「連絡先」を起動させて、処理内容540で特定される「Aさんの住所を調べる」という処理を実行させ、その処理の実行結果に基づいて、「Aさんの住所はXXXXです。」という応答テキストを生成する。
 以上のように構成される音声対話システム100の行う動作について、以下図面を参照しながら説明する。
 <動作>
 音声対話システム100は、その特徴的な動作として、第1機器処理と、第1エージェント処理とを行う。
 以下、これらの処理について順に説明する。
  <第1機器処理>
 第1機器処理は、機器140が行う処理であって、(1)ユーザによって音声入力開始操作がなされると、(2)ユーザからの音声による入力を受け付けて入力音声データを生成し、(3)生成した入力音声データを音声対話エージェントに送信し、(4)音声対話エージェントから返信された応答音声データを受信して、(5)受信した応答音声データに基づく音声を出力する処理である。
 図6は、第1機器処理のフローチャートである。
 第1機器処理は、機器140が起動されることで開始される。
 機器140が起動された時点で、制御部210によって管理されるステートは、音声入力受付不可能状態となる。
 第1機器処理が開始されると、制御部210は、音声対話システム100を利用するユーザによってなされる音声入力開始操作が、操作受付部230によって受け付けられるまで待機する(ステップS600:Noを繰り返す。)。そして、音声入力開始操作が受け付けられると(ステップS600:Yes)、制御部210は、ステートを、音声入力受付不可能状態から音声入力受付可能状態に遷移させて(ステップS610)、表示部270に、音声入力受付可能状態である旨を表示させる(ステップS620)。
 図11(a)は、機器140が、例えばスマートフォンである場合において、表示部270が、音声入力受付可能状態である旨を表示している様子の例を示す模式図である。
 同図において、スマートフォンを構成するタッチパネル1110は、表示部270の一部であって、その右下の領域1120を点滅表示させる(例えば、黒色と白色とを交互に点灯させる)ことで、ステートが音声入力受付可能状態である旨を表示している。
 再び図6に戻って、第1機器処理の説明を続ける。
 ステップS620の処理が終了すると、機器140は、第1音声入力処理を実行する(ステップS630)。
 図7は、第1音声入力処理のフローチャートである。
 第1音声入力処理が開始されると、音声入力部220は、ユーザによる音声入力を受け付けて入力音声データを生成する(ステップS700)。そして、ステートが音声入力受付可能状態となってから所定時間T1経過すると(ステップS710:Noを繰り返したのちステップS710:Yes)、制御部210は、ステートを、音声入力受付可能状態から音声入力受付不可能状態に遷移させて(ステップS720)、表示部270に、音声入力受付可能状態である旨の表示を終了させる(ステップS730)。
 そして、制御部210は、通信部250を制御して、特定音声対話エージェントサーバによって実現される音声対話エージェント400に対して、音声入力部220によって生成された入力音声データを送信させる(ステップS740)。
 ステップS740の処理が終了すると、機器140は、その第1音声入力処理を終了する。
 再び図6に戻って、第1機器処理の説明を続ける。
 第1音声入力処理が終了すると、制御部210は、ステップS740の処理において送信した入力音声データに応答して音声対話エージェント400から返信される入力テキストが、通信部250によって受信されるまで待機する(ステップS640:Noを繰り返す。)。
 ここで、この入力テキストデータは、ステップS740の処理において送信した入力音声データが、音声対話エージェント400によって文字列に変換されたものである。
 入力テキストが、通信部250によって受信されると(ステップS640:Yes)、表示部270は、その入力テキストを表示する(ステップS650)。
 図11(b)は、機器140が、例えばスマートフォンである場合において、表示部270が、入力テキストを表示している例を示す模式図である。
 同図は、入力テキストが、「部屋の温度は?」という文字列である場合の一例である。同図に示されるように、表示部270の一部であるタッチパネル1110に、入力テキストである『「部屋の温度は?」』という文字列が、「あなた」という文字列と共に表示されている。
 再び図6に戻って、第1機器処理の説明を続ける。
 ステップS650の処理が終了すると、制御部210は、ステップS740の処理において送信した入力音声データに応答して音声対話エージェント400から返信される、応答テキストと応答音声データとが、通信部250によって受信されるまで待機する(ステップS660:Noを繰り返す。)。
 応答テキストと応答音声データとが、通信部250によって受信されると(ステップS660:Yes)、表示部270は、その応答テキストを表示して(ステップS670)、音声出力部260は、その応答音声データを音声に変換して出力する(ステップS680)。
 図11(c)は、機器140が、例えばスマートフォンである場合において、表示部270が、応答テキストを表示している例を示す模式図である。
 同図は、応答テキストが、「どちらの部屋の温度ですか?」という文字列である場合の一例である。同図に示されるように、表示部270の一部であるタッチパネル1110に、応答テキストである『「どちらの部屋の温度ですか?」』という文字列が、「家エージェント」という文字列と共に表示されている。
 再び図6に戻って、第1機器処理の説明を続ける。
 ステップS680の処理が終了すると、機器140は、その第1機器処理を終了する。
  <第1エージェント処理>
 第1エージェント処理は、音声対話エージェント400が行う処理であって、(1)機器から送信された入力音声データを受信し、(2)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(3)生成した入力テキストデータに基づいて命令群を生成して実行し、(4)実行結果に基づいて応答テキストを生成し、(5)生成した応答テキストを応答音声データに変換して、(6)応答テキストと応答音声データとを機器に返信する処理である。
 図8は、第1エージェント処理のフローチャートである。
 第1エージェント処理は、音声対話エージェント400が起動されることで開始される。
 第1エージェント処理が開始されると、音声対話エージェント400は、機器140から送信される入力音声データが、通信部420によって受信されるまで待機する(ステップS800:Noを繰り返す。)。そして、入力音声データが受信されると(ステップS800:Yes)、音声対話エージェント400は、第1命令実行処理を実行する(ステップS810)。
 図9は、第1命令実行処理のフローチャートである。
 第1命令実行処理が開始されると、音声認識処理部430は、通信部420によって受信された入力音声データに対して音声認識処理を行って、入力音声データを文字列である入力テキストに変換する(ステップS900)。
 入力テキストに変換されると、制御部410は、通信部420を制御して、その入力音声データを送信してきた機器140に対して、その入力テキストを返信させる(ステップS910)。
 そして、制御部410は、(1)対話DB記憶部440に記憶されている対話DB500を参照して、その入力テキストに含まれているキーワード510から、そのキーワード510に対応付けられている、対象機器520と、起動アプリ530と、処理内容540と、応答テキスト550とを読み出して、(2)読み出した、対象機器520と、起動アプリ530と、処理内容540との組を、命令生成部460に送って、命令生成部460に命令群を生成させる(ステップS920)。
 命令群が生成されると、制御部410は、生成された命令群を実行(ステップS930)し、その実行結果に基づいて、応答テキスト550によって指定されている応答テキストを生成する(ステップS940)。ここで、制御部410は、必要に応じて、通信部420を用いて、対象機器520によって特定される機器と通信して、その機器に命令群の一部を実行させて、その機器から命令群の実行結果を送信させることで、応答テキストを生成する。
 応答テキストが生成されると、音声合成処理部450は、生成された応答テキストに対して音声合成処理を行い、応答音声データを生成する(ステップS950)。
 応答音声データが生成されると、制御部410は、通信部420を制御して、入力音声データの送信元である機器140に対して、生成された応答テキストと、生成された応答音声データをと送信させる(ステップS960)。
 ステップS960の処理が終了すると、音声対話エージェント400は、その第1命令実行処理を終了する。
 再び図8に戻って、第1エージェント処理の説明を続ける。
 第1命令実行処理が終了すると、音声対話エージェント400は、再びステップS800の処理に戻って、ステップS800以下の処理を続ける。
 上記構成の音声対話システム100の行う動作の具体例について、以下、図面を用いて説明する。
 <具体例>
 図10は、音声対話システム100を利用するユーザが、機器140(ここでは、仮に、スマートフォンであるとする。)を用いて、音声対話エージェント400と音声を用いた対話を行い、音声対話エージェント400が、その対話の内容が反映された処理を行っている様子を模式的に示す処理手順図である。
 ユーザが機器140に対して音声入力開始操作を行うと(ステップS1000、図6のステップS600:Yesに対応)、ステートが音声入力受付可能状態へと遷移して(ステップS1005、図6のステップS610に対応)、機器140は、第1音声入力処理を行う(ステップS1010、図6のステップS630に対応)。
 図11(a)は、この第1音声入力処理において、ステートが音声入力受付可能状態となっている期間、スマートフォンである機器140の表示部270の一部であるタッチパネル1110が、領域1120を点滅させることで、ステートが音声入力受付可能状態である旨を表示している様子の例を模式的に示す図である。
 再び図10に戻って、具体例の説明を続ける。
 この第1音声入力処理において、ユーザが、「部屋の温度は?」との音声を入力したとすると、機器140は、「部屋の温度は?」という入力音声データを、音声対話エージェント400へ送信する(図7のステップS740に対応)。
 すると、音声対話エージェント400は、その入力音声データを受信して(図8のステップS800:Yesに対応)、第1命令実行処理を実行する(ステップS1060、図8のステップS810に対応)。
 ここで、この第1命令実行処理において、音声対話エージェント400が、「どちらの部屋の温度でしょうか?」という応答音声データを生成したとすると、音声対話エージェント400は、機器140に、「どちらの部屋の温度でしょうか?」という応答音声データを送信する(図9のステップS960に対応)。
 すると、機器140は、その応答音声データを受信して(図6のステップS660:Yesに対応)、「どちらの部屋の温度でしょうか?」という音声を出力する(ステップS1015、図6のステップS680に対応)。
 ステップS1010の処理において、ステートが音声入力受付可能状態へと遷移してから所定時間T1経過した時点で、ステートが再び音声入力受付不可能状態へと遷移している(図7のステップS720に対応)。このため、機器140から出力された「どちらの部屋の温度でしょうか?」という音声を聞いたユーザは、新たに音声による入力を行うために、機器140に対して新たな音声入力開始操作を行う(ステップS1020、図6のステップS600:Yesに対応)。すると、ステートが音声入力受付可能状態へと遷移して(ステップS1025、図6のステップS610に対応)、機器140は、第1音声入力処理を行う(ステップS1030:図6のステップS630に対応)。
 図11(c)は、この第1音声入力処理において、ステートが音声入力受付可能状態となっている期間、スマートフォンである機器140の表示部270の一部であるタッチパネル1110が、領域1120を点滅させることで、ステートが音声入力受付可能状態である旨を表示している様子の例を模式的に示す図である。
 再び図10に戻って、具体例の説明を続ける。
 この第1音声入力処理において、ユーザが、「リビング。」との音声を入力したとすると、機器140は、「リビング。」という入力音声データを、音声対話エージェント400へ送信する(図7のステップS740に対応)。
 すると、音声対話エージェント400は、その入力音声データを受信して(図8のステップS800:Yesに対応)、第1命令実行処理を実行する(ステップS1065、図8のステップS810に対応)。
 ここで、この第1命令実行処理において、音声対話エージェント400が、「リビングの温度は28度です。他に何かありますか?」という応答音声データを生成したとすると、音声対話エージェント400は、機器140に、「リビングの温度は28度です。他に何かありますか?」という応答音声データを送信する(図9のステップS960に対応)。
 すると、機器140は、その応答音声データを受信して(図6のステップS660:Yesに対応)、「リビングの温度は28度です。他に何かありますか?」という音声を出力する(ステップS1035、図6のステップS680に対応)。
 ステップS1010の処理において、ステートが音声入力受付可能状態へと遷移してから所定時間T1経過した時点で、ステートが再び音声入力受付不可能状態へと遷移している(図7のステップS720に対応)。このため、機器140から出力された「リビングの温度は28度です。他に何かありますか?」という音声を聞いたユーザは、新たに音声による入力を行うために、機器140に対して新たな音声入力開始操作を行う(ステップS1040、図6のステップS600:Yesに対応)。すると、ステートが音声入力受付可能状態へと遷移して(ステップS1045、図6のステップS610に対応)、機器140は、第1音声入力処理を行う(ステップS1050:図6のステップS630に対応)。
 図12は、この第1音声入力処理において、ステートが音声入力受付可能状態となっている期間、スマートフォンである機器140の表示部270の一部であるタッチパネル1110が、領域1120を点滅させることで、ステートが音声入力受付可能状態である旨を表示している様子の例を模式的に示す図である。
 再び図10に戻って、具体例の説明を続ける。
 この第1音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器140は、「ないよ。ありがとう。」という入力音声データを、音声対話エージェント400へ送信する(図7のステップS740に対応)。
 すると、音声対話エージェント400は、その入力音声データを受信して(図8のステップS800:Yesに対応)、第1命令実行処理を実行する(ステップS1070、図8のステップS810に対応)。
 ここで、この第1命令実行処理において、音声対話エージェント400が、「終了します。」という応答音声データを生成したとすると、音声対話エージェント400は、機器140に、「終了します。」という応答音声データを送信する(図9のステップS960に対応)。
 すると、機器140は、その応答音声データを受信して(図6のステップS660:Yesに対応)、「終了します。」という音声を出力する(ステップS1055、図6のステップS680に対応)。
 <考察>
 上記構成の音声対話システム100によると、音声対話システム100を利用するユーザは、機器140に対して音声入力開始操作を行うことで、機器140の状態を、音声入力受付可能状態にして、音声入力を行う。そして、その後、所定時間T1が経過すれば、ユーザによって、機器140の状態を音声入力受付不可能状態にするための操作が行われなくても、機器140の状態が、音声入力受付不可能状態になる。
 このため、音声入力が終了するたびに、機器140の状態を音声入力受付不可能状態にするための操作を行う必要がある音声対話システムに比べて、音声対話システム100は、音声入力に伴ってユーザが行う必要がある操作の回数が低減されている。
<実施の形態2>
 <概要>
 以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態1における音声対話システム100の一部が変形された第1変形音声対話システムについて説明する。
 実施の形態1における音声対話システム100は、機器140が、ユーザによって音声入力開始操作がなされると、その操作がなされた時点から所定時間T1が経過するまでの期間、音声入力が可能な状態となる構成の例であった。
 これに対して、実施の形態2における第1変形音声対話システムは、各機器が、上記期間に加えて、応答音声データに基づく音声を出力した場合において、その出力を行った時点から所定時間T1が経過するまでの期間にも、音声入力が可能な状態となる構成の例となっている。
 以下、この第1変形音声対話システムの詳細について、実施の形態1における音声対話システム100との相違点を中心に、図面を参照しながら説明する。
 <構成>
 第1変形音声対話システムは、実施の形態1における音声対話システム100から、機器140が、機器1300に変更されるように変形されている。
 機器1300は、実施の形態1における機器140から、ハードウエアとしては変更されていないが、実行対象として記憶するソフトウエアの一部が変更されている。そして、このことによって、機器1300は、実施の形態1における機器140から、その機能の一部が変更されるように変形されている。
 図13は、機器1300の機能構成を示すブロック図である。
 同図に示されるように、機器1300は、実施の形態1における機器140(図2参照)から、制御部210が、制御部1310に変更されるように変形されている。
 制御部1310は、実施の形態1における制御部210から、制御部210の有する機能のうち、音声入力部状態管理機能が、以下に述べる第1変形音声入力部状態管理機能に変更され、第1機器処理実現機能が、以下に述べる第2機能処理実現機能に変更されるように変形されている。
 第1変形音声入力部状態管理機能とは、実施の形態1における音声入力部状態管理機能と同様に、音声入力受付可能状態と、音声入力受付不可能状態とのいずれかとなる音声入力部220の状態(すなわち、「ステート」)を管理する機能であって、その状態遷移条件の一部が、実施の形態1における音声入力部状態管理機能から変更されている。
 図14は、制御部1310によって管理されるステートの状態遷移図である。
 同図に示されるように、制御部1310は、ステートが、音声入力受付不可能状態である場合において、(1)操作受付部230によって音声入力開始操作が受け付けられる、又は、音声出力部260によって、応答音声データに基づく音声のうちの所定の音声を除く音声が出力されるまでは、音声入力受付不可能状態を維持し、(2)操作受付部230によって音声入力開始操作が受け付けられる、又は、音声出力部260によって、応答音声データに基づく音声のうちの所定の音声を除く音声が出力されると、ステートを、音声入力受付可能状態へと遷移させる。そして、ステートが、音声入力受付可能状態である場合において、(3)ステートが音声入力受付可能状態へと遷移してから所定時間T1(例えば5秒)経過するまでは、音声入力受付可能状態を維持し、(4)所定時間T1経過すると、ステートを、音声入力受付不可能状態へと遷移させる。
 ここで、応答音声データに基づく音声のうちの所定の音声とは、予め定められた、新たな音声入力を必要としない旨を示す音声であり、例えば、「終了します。」という音声である。以下、この音声のことを「対話終了音声」とも呼ぶ。
 なお、機器1300が起動された時点では、制御部1310は、ステートを音声入力受付不可能状態として管理を開始する。
 再び図13に戻って、制御部1310の説明を続ける。
 第2機能御処理実現機能とは、制御部1310が、音声入力部220と、操作受付部230と、通信部250と、音声出力部260と、表示部270と、実行部280とを制御して、機器1300に、その特徴的な動作である第2機器処理を実行させることで、機器1300に、(1)ユーザによって音声入力開始操作がなされると、(2)ユーザからの音声による入力を受け付けて入力音声データを生成し、(3)生成した入力音声データを音声対話エージェントに送信し、(4)音声対話エージェントから返信された応答音声データを受信して、(5)受信した応答音声データに基づく音声を出力し、(6)その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び(2)以下の処理を繰り返すという一連の処理を実現させる機能である。
 なお、第2機器処理については、後程<第2機器処理>の項目において、フローチャートを用いて詳細に説明する。
 以上のように構成される第1変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。
 <動作>
 第1変形音声対話システムは、その特徴的な動作として、実施の形態1における第1エージェント処理に加えて、実施の形態1における第1機器処理から、その処理の一部が変更された第2機器処理を行う。
 以下、この第2機器処理について、第1機器処理からの変更点を中心に説明する。
  <第2機器処理>
 第2機器処理は、機器1300が行う処理であって、(1)ユーザによって音声入力開始操作がなされると、(2)ユーザからの音声による入力を受け付けて入力音声データを生成し、(3)生成した入力音声データを音声対話エージェントに送信し、(4)音声対話エージェントから返信された応答音声データを受信して、(5)受信した応答音声データに基づく音声を出力し、(6)その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び(2)以下の処理を繰り返す処理である。
 図15は、第2機器処理のフローチャートである。
 第2機器処理は、機器1300が起動されたことで開始される。
 機器1300が起動された時点で、制御部1310によって管理されるステートは、音声入力受付不可能状態となる。
 同図において、ステップS1500~ステップS1580の処理は、実施の形態1における第1機器処理(図6参照)のステップS600~ステップS680の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS1580の処理が終了すると、制御部1310は、ステップS1580の処理において音声出力部260によって出力された音声が、対話終了音声であるか否かを調べる(ステップS1585)。この処理は、一例として、ステップS1560:Yesの処理において受信された応答テキストが、予め定められた文字列(例えば、「終了します。」という文字列)であるか否かを調べることで実現される。
 ステップS1585の処理において、対話終了音声でない場合に(ステップS1585:No)、制御部1310は、ステートを、音声入力受付不可能状態から音声入力受付可能状態に遷移させて(ステップS1590)、表示部270に、音声入力受付可能状態である旨を表示させる(ステップS1595)。
 ステップS1595の処理が終了すると、機器1300は、ステップS1530の処理に戻って、ステップS1530以下の処理を繰り返す。
 ステップS1585の処理において、対話終了音声である場合に(ステップS1585:Yes)、機器1300は、その第2機器処理を終了する。
 上記構成の第1変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。
 <具体例>
 図16は、第1変形音声対話システムを利用するユーザが、機器1300(ここでは、仮に、スマートフォンであるとする。)を用いて、音声対話エージェント400と音声を用いた対話を行い、音声対話エージェント400が、その対話の内容が反映された処理を行っている様子を模式的に示す処理手順図である。
 ここでは、対話終了音声が、「終了します。」という音声であるとして説明する。
 同図において、ステップS1600~ステップS1615の処理と、ステップS1630~ステップS1635の処理と、ステップS1650~ステップS1655の処理と、ステップS1660~ステップS1670の処理とは、それぞれ、実施の形態1における具体例(図10参照)の、ステップS1000~ステップS1015の処理と、ステップS1030~ステップS1035の処理と、ステップS1050~ステップS1055の処理と、ステップS1060~ステップS1070の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS1615の処理が終了すると、「どちらの部屋の温度でしょうか?」という音声は、対話終了音声でないので(図15のステップS1585:Noに対応)、ステートが音声入力受付可能状態へと遷移して(ステップS1625、図15のステップS1590に対応)、機器1300は、第1音声入力処理を行う(ステップS1630:図15のステップS1530に対応)。
 ステップS1635の処理が終了すると、「リビングの温度は28度です。他に何かありますか?」という音声は、対話終了音声でないので(図15のステップS1585:Noに対応)、ステートが音声入力受付可能状態へと遷移して(ステップS1645、図15のステップS1590に対応)、機器1300は、第1音声入力処理を行う(ステップS1650:図15のステップS1530に対応)。
 ステップS1635の処理が終了すると、「終了します。」という音声は、対話終了音声なので(図15のステップS1585:Yesに対応)、ステートが音声入力受付可能状態へと遷移されずに、機器1300は、第2機器処理を終了する。
 <考察>
 上記構成の第1変形音声対話システムによると、機器1300は、音声対話エージェント400から送られてきた応答音声データに基づく音声を出力した場合に、その音声が対話終了音声でなければ、機器1300を利用するユーザによって音声入力操作がなされなくとも、音声入力受付可能状態となる。
 このため、ユーザは、機器1300に対して、一旦、音声入力開始操作を行えば、対話終了音声が出力されるまでは、応答音声データに基づく音声が出力されてから所定期間T1が経過するまでの期間において、機器1300に対して新たに音声入力操作を行わなくとも、新たな音声入力を行うことができる。
 このように、第1変形音声対話システムは、実施の形態1における音声対話システム100よりも、さらに、音声入力に伴ってユーザが行う必要がある操作の回数が低減されている。
<実施の形態3>
 <概要>
 以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態1における音声対話システム100の一部が変形された第2変形音声対話システムについて説明する。
 実施の形態1における音声対話システム100は、機器140が、ユーザによって音声入力開始操作がなされると、その操作がなされた時点から所定時間T1が経過するまでの期間、音声入力が可能な状態となる構成の例であった。
 これに対して、実施の形態3における第2変形音声対話システムは、各機器が、ユーザによって音声入力開始操作がなされると、その操作がなされた時点から、対話終了音声を出力するまでの期間、音声入力が可能な状態となる構成の例となっている。
 以下、この第2変形音声対話システムの詳細について、実施の形態1における音声対話システム100との相違点を中心に、図面を参照しながら説明する。
 <構成>
 第2変形音声対話システムは、実施の形態1における音声対話システム100から、機器140が、機器1700に変更されるように変形されている。
 機器1700は、実施の形態1における機器140から、ハードウエアとしては変更されていないが、実行対象として記憶するソフトウエアの一部が変更されている。そして、このことによって、機器1700は、実施の形態1における機器140から、その機能の一部が変更されるように変形されている。
 図17は、機器1700の機能構成を示すブロック図である。
 同図に示されるように、機器1700は、実施の形態1における機器140(図2参照)から、制御部210が、制御部1710に変更されるように変形されている。
 制御部1710は、実施の形態1における制御部210から、制御部210の有する機能のうち、音声入力部状態管理機能が、以下に述べる第2変形音声入力部状態管理機能に変更され、第1機器処理実現機能が、以下に述べる第3機能処理実現機能に変更されるように変形されている。
 第2変形音声入力部状態管理機能とは、実施の形態1における音声入力部状態管理機能、実施の形態2における第1変形音声入力部状態管理機能と同様に、音声入力受付可能状態と、音声入力受付不可能状態とのいずれかとなる音声入力部220の状態(すなわち、「ステート」)を管理する機能であって、その状態遷移条件の一部が、実施の形態1における音声入力部状態管理機能から変更されている。
 図18は、制御部1710によって管理されるステートの状態遷移図である。
 同図に示されるように、制御部1710は、ステートが、音声入力受付不可能状態である場合において、(1)操作受付部230によって音声入力開始操作が受け付けられるまでは、音声入力受付不可能状態を維持し、(2)操作受付部230によって音声入力開始操作が受け付けられると、ステートを、音声入力受付可能状態へと遷移させる。そして、ステートが、音声入力受付可能状態である場合において、(3)音声出力部260によって対話終了音声(例えば、「終了します。」という音声)が出力されるまでは、音声入力受付可能状態を維持し、(4)音声出力部260によって対話終了音声が出力されると、ステートを、音声入力受付不可能状態へと遷移させる。
 再び図17に戻って、制御部1710の説明を続ける。
 第3機能御処理実現機能とは、制御部1710が、音声入力部220と、操作受付部230と、通信部250と、音声出力部260と、表示部270と、実行部280とを制御して、機器1700に、その特徴的な動作である第3機器処理を実行させることで、機器1700に、(1)ユーザによって音声入力開始操作がなされると、(2)ユーザからの音声による入力を受け付けて入力音声データを生成し、(3)生成した入力音声データを音声対話エージェントに送信し、(4)音声対話エージェントから返信された応答音声データを受信して、(5)受信した応答音声データに基づく音声を出力し、(6)その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び(2)以下の処理を繰り返すという一連の処理を実現させる機能である。
 なお、第3機器処理については、後程<第3機器処理>の項目において、フローチャートを用いて詳細に説明する。
 以上のように構成される第2変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。
 <動作>
 第2変形音声対話システムは、その特徴的な動作として、実施の形態1における第1エージェント処理に加えて、実施の形態1における第1機器処理から、その処理の一部が変更された第3機器処理を行う。
 以下、この第3機器処理について、第1機器処理からの変更点を中心に説明する。
  <第3機器処理>
 第3機器処理は、機器1700が行う処理であって、(1)ユーザによって音声入力開始操作がなされると、(2)ユーザからの音声による入力を受け付けて入力音声データを生成し、(3)生成した入力音声データを音声対話エージェントに送信し、(4)音声対話エージェントから返信された応答音声データを受信して、(5)受信した応答音声データに基づく音声を出力し、(6)その音声が対話終了音声でなければ、ユーザによって音声入力開始操作がなされなくても、再び(2)以下の処理を繰り返す処理である。
 図19は、第3機器処理のフローチャートである。
 第3機器処理は、機器1700が起動されたことで開始される。
 機器1700が起動された時点では、制御部1710によって管理されるステートは、音声入力受付不可能状態となっている。
 同図において、ステップS1900~ステップS1920の処理と、ステップS1940~ステップS1980の処理とは、それぞれ、実施の形態1における第1機器処理(図6参照)のステップS600~ステップS620の処理と、ステップS640~ステップS680の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS1920の処理が終了すると、機器1700は、第2音声入力処理を実行する(ステップS1930)。
 図20は、第2音声入力処理のフローチャートである。
 第2音声入力処理が開始されると、音声入力部220は、ユーザによる音声入力を受け付けて入力音声データを生成する(ステップS2000)。
 そして、制御部1910は、通信部250を制御して、音声対話エージェント400に対して、音声入力部220によって生成された入力音声データを送信させる(ステップS2040)。
 ステップS2040の処理が終了すると、機器1700は、その第2音声入力処理を終了する。
 再び図19に戻って、第3機器処理の説明を続ける。
 第2音声入力処理が終了すると、機器1900は、ステップS1940の処理に進んで、ステップS1940以下の処理を行う。
 ステップS1980の処理が終了すると、制御部1710は、ステップS1980の処理において、音声出力部260によって出力された音声が、対話終了音声であるか否かを調べる(ステップS1985)。この処理は、一例として、ステップS1960:Yesの処理において受信された応答テキストが、予め定められた文字列(例えば、「終了します。」という文字列)であるか否かを調べることで実現される。
 ステップS1985の処理において、対話終了音声でない場合に(ステップS1985:No)、機器1900は、ステップS1930の処理に戻って、ステップS1930以下の処理を繰り返す。
 ステップS1985の処理において、対話終了音声である場合に(ステップS1585:Yes)、制御部1710は、ステートを、音声入力受付可能状態から音声入力受付不可能状態に遷移させる(ステップS1990)。
 ステップS1990の処理が終了すると、機器1900は、その第3機器処理を終了する。
 上記構成の第2変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。
 <具体例>
 図21は、第2変形音声対話システムを利用するユーザが、機器1700(ここでは、仮に、スマートフォンであるとする。)を用いて、音声対話エージェント400と音声を用いた対話を行い、音声対話エージェント400が、その対話の内容が反映された処理を行っている様子を模式的に示す処理手順図である。
 ここでは、対話終了音声が、「終了します。」という音声であるとして説明する。
 同図において、ステップS2100の処理と、ステップS2105の処理と、ステップS2115の処理と、ステップS2135の処理と、ステップS2155の処理と、ステップS2160~ステップS2170の処理とは、それぞれ、実施の形態1における具体例(図10参照)の、ステップS1000の処理と、ステップS1005の処理と、ステップS1015の処理と、ステップS1035の処理と、ステップS1055の処理と、ステップS1060~ステップS1070の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS2105の処理が終了すると、機器1700は、第2音声処理を行う(ステップS2110、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「部屋の温度は?」との音声を入力したとすると、機器1700は、「部屋の温度は?」という入力音声データを、音声対話エージェント400へ送信する(図20のステップS2040に対応)。
 ステップS2115の処理が終了すると、「どちらの部屋の温度でしょうか?」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS2130、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「リビング。」との音声を入力したとすると、機器1700は、「リビング。」という入力音声データを、音声対話エージェント400へ送信する(図20のステップS2040に対応)。
 ステップS2135の処理が終了すると、「リビングの温度は28度です。他に何かありますか?」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS2150、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器1700は、「ないよ。ありがとう。」という入力音声データを、音声対話エージェント400へ送信する(図20のステップS2040に対応)。
 ステップS2135の処理が終了すると、「終了します。」という音声は、対話終了音声なので(図19のステップS1985:Yesに対応)、ステートが音声入力受付可能状態へと遷移されて(図19のステップS1990に対応)、機器1700は、第3機器処理を終了する。
 <考察>
 上記構成の第2変形音声対話システムによると、機器1700は、一旦、音声入力開始操作がなされると、その操作がなされた時点から、対話終了音声を出力するまでは、音声入力が可能な状態を維持する。
 このため、ユーザは、機器1700に対して、一旦、音声入力開始操作を行えば、対話終了音声が出力されるまでは、機器1700に対して新たな音声入力操作を行わなくとも、新たな音声入力を行うことができる。
 このように、第2変形音声対話システムは、実施の形態1における音声対話システム100よりも、さらに、音声入力に伴ってユーザが行う必要がある操作の回数が低減されている。
<実施の形態4>
 <概要>
 以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態3における第2変形音声対話システムの一部が変形された第3変形音声対話システムについて説明する。
 実施の形態3における第2変形音声対話システムは、機器1700が音声対話エージェントAとの間で通信を開始すると、一連の処理が終了するまでの間、通信対象の音声対話エージェントが、音声対話エージェントAに限定されている構成の例であった。
 これに対して実施の形態4における第3変形音声対話システムは、機器が音声対話エージェントAとの間で通信を開始した場合において、第3変形音声対話システムを利用するユーザが、その機器を用いて、他の音声エージェントBとの間で通信を行いたい旨の音声入力を行ったときに、以後、その機器の通信相手は、音声対話エージェントAから、音声対話エージェントBに変更される構成の例となっている。
 以下、この第3変形音声対話システムの詳細について、実施の形態3における第2変形音声対話システムとの相違点を中心に、図面を参照しながら説明する。
 <構成>
 第3変形音声対話システムは、実施の形態3における第2変形音声対話システムから、音声対話エージェント400が、音声対話エージェント2200に変更されるように変形されている。
 音声対話エージェント2200は、実施の形態3における音声対話エージェント400と同様に、音声対話エージェントサーバ110によって実現される。
 音声対話エージェントサーバ110によって実行される、音声対話エージェント2200を実現するためのソフトウエアの一部が、実施の形態3における音声対話エージェント400を実現するためのソフトウエアから変更されている。そして、このことによって、音声対話エージェント2200は、実施の形態3における音声対話エージェント400から、その機能の一部が変更されるように変形されている。
 図22は、音声対話エージェント2200の機能構成を示すブロック図である。
 同図に示されるように、音声対話エージェント2200は、実施の形態3における音声対話エージェント400(図4参照)から、対象エージェントDB記憶部2220が追加され、制御部410が、制御部2210に変更されるように変形されている。
 対象エージェントDB記憶部2220は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、制御部2210に接続され、対象エージェントDB2300を記憶する機能を有する。
 図23は、対象エージェントDB記憶部2220に記憶される対象エージェントDB2300のデータ構成図である。
 同図に示される通り、対象エージェントDB2300は、キーワード2310と、対象エージェント2320と、IPアドレス2330とが対応付けられて構成される。
 キーワード2310は、音声認識処理部430によって変換された入力テキストに含まれると想定される文字列である。
 対象エージェント2320は、機器140の通信対象となる、音声対話エージェント2200の中の1つ(以下、この1つのことを「追加音声対話エージェント」と呼ぶ。)を特定する情報である。
 この例では、対象エージェント2320によって特定される追加音声対象エージェントには、車エージェントと、小売店エージェントと、家エージェントとが含まれる構成の例となっている。
 ここで、車エージェントとは、車に搭載された機器について提供されるサービスが比較的充実している音声対話エージェント2200であり、小売店エージェントとは、小売店に配置された機器について提供されるサービスが比較的充実している音声対話エージェント2200であり、家エージェントとは、住宅(家)に配置された機器について提供されるサービスが比較的充実している音声対話エージェント2200であるとしている。
 IPアドレス2330は、対応付けられている対象エージェント2320によって特定される追加音声対話エージェントを実現する音声対話エージェントサーバ110についての、ネットワーク120におけるIPアドレスである。
 図23に示されるように、1つの対象エージェント2320には、1又は複数のキーワード2310が対応付けられている。一例として、「車エージェント」には、「車内」、「車」、「カー」、「ナビ」といったキーワード2310が対応付けられている。
 1つの対象エージェント2320に対して、複数のキーワード2310が対応付けられていることで、音声対話エージェント2200は、入力の曖昧さに対応することができる。
 例えば、ユーザは、車エージェントとの間で通信を行いたい場合に、「ナビの音声対話エージェントに接続して。」と音声入力する場合もあるし、「車の音声対話エージェントに接続して。」と音声入力する場合もある。
 ここでは、「ナビ」と「車」とが、共に「車エージェント」に対応付けられているため、音声対話エージェント2200は、対象エージェントDB2300を参照することで、どちらの音声入力の場合でも、対象エージェント2320が車エージェントであると特定することができる。
 再び図22に戻って、音声対話エージェント2200の説明を続ける。
 制御部2210は、実施の形態3における制御部410から、制御部410が有する機能のうち、第1エージェント処理実現機能が、以下に述べる第2エージェント処理実現機能と、以下に述べる第3エージェント処理実現機能とに変更されるように変形されている。
 第2エージェント処理実現機能とは、制御部2210が、通信部420と、音声認識処理部430と、音声合成処理部450と、命令生成部460とを制御して、音声対話エージェント2200に、その特徴的な動作である第2エージェント処理を実行させることで、音声対話エージェント2200に、(1)機器から送信された入力音声データを受信し、(2)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(3)生成した入力テキストが、他の音声対話エージェントとの間で通信を行いたい旨を示すものである場合に、機器とその音声対話エージェントとの間の通信を実現させ、(4)そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、(5)実行結果に基づいて応答テキストを生成し、(6)生成した応答テキストを応答音声データに変換して、(7)応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。
 なお、第2エージェント処理は、後程<第2エージェント処理>の項目において、フローチャートを用いて詳細に説明する。
 第3エージェント処理実現機能とは、制御部2210が、通信部420と、音声認識処理部430と、音声合成処理部450と、命令生成部460とを制御して、音声対話エージェント2200に、その特徴的な動作である第3エージェント処理を実行させることで、音声対話エージェント2200に、(1)他の音声入力エージェントからの要求に応じて機器との通信を開始し、(2)機器から送信された入力音声データを受信し、(3)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(4)生成した入力テキストに基づいて命令群を生成して実行し、(5)実行結果に基づいて応答テキストを生成し、(6)生成した応答テキストを応答音声データに変換して、(7)応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。
 なお、第3エージェント処理は、後程<第3エージェント処理>の項目において、フローチャートを用いて詳細に説明する。
 以上のように構成される第3変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。
 <動作>
 第3変形音声対話システムは、その特徴的な動作として、実施の形態3における第1機器処理に加えて、実施の形態3における第1エージェント処理から、その処理の一部が変更された、第2エージェント処理と第3エージェント処理とを行う。
 以下、これら第2エージェント処理と第3エージェント処理とについて、第1エージェント処理からの変更点を中心に説明する。
  <第2エージェント処理>
 第2エージェント処理は、音声対話エージェント2200が行う処理であって、(1)機器から送信された入力音声データを受信し、(2)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(3)生成した入力テキストが、他の音声対話エージェントとの間で通信を行いたい旨を示すものである場合に、機器とその音声対話エージェントとの間の通信を実現させ、(4)そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、(5)実行結果に基づいて応答テキストを生成し、(6)生成した応答テキストを応答音声データに変換して、(7)応答テキストと応答音声データとを機器に返信する処理である。
 図24は、第2エージェント処理のフローチャートである。
 第2エージェント処理は、音声対話エージェント2200が起動されることで開始される。
 第2エージェント処理が開始されると、音声対話エージェント2200は、機器1700から送信される入力音声データが、通信部420によって受信されるまで待機する(ステップS2400:Noを繰り返す。)。そして、入力音声データが受信されると(ステップS2400:Yes)、音声対話エージェント2200は、第2命令実行処理を実行する(ステップS2410)。
 図25は、第2命令実行処理のフローチャートである。
 同図において、ステップS2500~ステップS2510の処理と、ステップS2520~ステップS2560の処理とは、それぞれ、実施の形態3における第1命令実行処理(図9参照)のステップS900~ステップS910の処理と、ステップS920~ステップS960の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS2510の処理が終了すると、制御部2210は、音声認識処理部430によって変換された入力テキストが、他の音声対話エージェントとの通信を要求するものであるか否かを調べる(ステップS2515)。
 ステップS2515の処理において、他の音声対話エージェントとの通信を要求するものでない場合に(ステップS2515:No)、音声対話エージェント2200は、ステップS2520の処理に進み、ステップS2520~ステップS2560の処理を行う。
 ステップS2515の処理において、他の音声対話エージェントとの通信を要求するものである場合に(ステップS2515:Yes)、制御部2210は、対象エージェントDB記憶部2220に記憶されている対象エージェントDB2300を参照して(ステップS2517)、通信先として要求される音声対話エージェント2200を特定する。すなわち、音声認識処理部430によって文字列に変換された入力テキストに含まれるキーワード2310に対応付けられた対象エージェント2320によって特定される追加音声対話エージェントを、通信先として要求される音声対話エージェント2200として特定する。
 通信先として要求される追加音声対話エージェントが特定されると、制御部2210は、特定された追加音声対象エージェントと、入力音声データの送信元である機器1700との間の通信を開始させる旨を示す所定の信号(以下、この信号を「接続命令」と呼ぶ。)を生成する(ステップS2565)。
 接続命令が生成されると、制御部2210は、通信部420を制御して、そのキーワード2310に対応付けられているIPアドレス2330を利用して、追加音声対象エージェントに対して、生成された接続命令を送信させる(ステップS2570)。
 その後、制御部2210は、ステップS2570の処理において送信した接続命令に応答して追加音声対話エージェントから返信される接続応答(後述)が、通信部420によって受信されるまで待機する(ステップS2575:Noを繰り返す。)。
 接続応答が、通信部420によって受信されると(ステップS2575:Yes)、音声対話エージェント2200は、第1接続応答処理を実行する(ステップS2580)。
 図26は、第1接続応答処理のフローチャートである。
 第1接続応答処理が開始されると、制御部2210は、追加音声対話エージェントと機器1700との間の通信が可能となった旨を示す、予め定められた応答テキスト(例えば、「『追加音声対話エージェント』に接続しました。」という文字列。)を生成する(ステップS2600)。
 ここで、『追加音声対話エージェント』の部分には、対象エージェントDB2300の対象エージェント2320によって特定される音声対話エージェント2200の名称(ここでは、車エージェントと、小売店エージェントと、家エージェントとのうちのいずれか)が挿入されることとする。
 応答テキストが生成されると、音声合成処理部450は、生成された応答テキストに対して音声合成処理を行い、応答音声データを生成する(ステップS2610)。
 応答音声データが生成されると、制御部2210は、通信部420を制御して、入力音声データの送信元である機器1700に対して、生成された応答テキストと、生成された応答音声データとを送信させる(ステップS2620)。
 ステップS2620の処理が終了すると、音声対話エージェント2200は、その第1接続応答処理を終了する。
 再び図25に戻って、第2命令実行処理の説明を続ける。
 第1接続応答処理が終了すると、音声対話エージェント2200は、追加音声対話エージェントから送信される切断応答(後述)が、通信部420によって受信されるまで待機する(ステップS2585:Noを繰り返す。)。
 切断応答が、通信部420によって受信されると(ステップS2585:Yes)、音声対話エージェント2200は、切断応答処理を実行する(ステップS2590)。
 図27は切断応答処理のフローチャートである。
 切断応答処理が開始されると、制御部2210は、追加音声対話エージェントと機器1700との間の通信が終了した旨を示す、予め定められた応答テキスト(例えば、「『追加音声対話エージェント』との接続を切りました。他に何かありますか?」という文字列。)を生成する(ステップS2700)。
 ここで、『追加音声対話エージェント』の部分には、対象エージェントDB2300の対象エージェント2320によって特定される音声対話エージェント2200の名称(ここでは、車エージェントと、小売店エージェントと、家エージェントとのうちのいずれか)が挿入されることとする。
 応答テキストが生成されると、音声合成処理部450は、生成された応答テキストに対して音声合成処理を行い、応答音声データを生成する(ステップS2710)。
 応答音声データが生成されると、制御部2210は、通信部420を制御して、ステップS2400の処理において入力音声データの送信元である機器1700に対して、生成された応答テキストと、生成された応答音声データとを送信させる(ステップS2720)。
 ステップS2720の処理が終了すると、音声対話エージェント2200は、その切断応答処理を終了する。
 再び図25に戻って、第2命令実行処理の説明を続ける
 切断応答処理が終了した場合、又は、ステップS2560の処理が終了した場合に、音声対話エージェント2200は、その第2命令実行処理を終了する。
 再び図24に戻って、第2エージェント処理の説明を続ける。
 第2命令実行処理が終了すると、音声対話エージェント2200は、再びステップS2400の処理に戻って、ステップS2400以下の処理を続ける。
  <第3エージェント処理>
 第3エージェント処理は、音声対話エージェント2200が行う処理であって、(1)他の音声入力エージェントからの要求に応じて機器との通信を開始し、(2)機器から送信された入力音声データを受信し、(3)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(4)生成した入力テキストに基づいて命令群を生成して実行し、(5)実行結果に基づいて応答テキストを生成し、(6)生成した応答テキストを応答音声データに変換して、(7)応答テキストと応答音声データとを機器に返信する処理である。
 図28は、第3エージェント処理のフローチャートである。
 同図において、ステップS2800~ステップS2810の処理と、ステップS2820~ステップS2860の処理とは、それぞれ、実施の形態1における第1命令実行処理(図9参照)のステップS900~ステップS910の処理と、ステップS920~ステップS960の処理と同様の処理である。よって、これらの処理については説明済みである。
 第3エージェント処理は、音声対話エージェント2200が起動されることで開始される。
 第3エージェント処理が開始されると、音声対話エージェント2200は、他の音声対話エージェントから送信される接続命令が、通信部420によって受信されるまで待機する(ステップS2811:Noを繰り返す。)。そして、接続命令が受信されると(ステップS2811:Yes)、制御部2210は、通信部420を制御して、接続命令において通信対象とされる機器1700との間の通信を開始する接続処理を実行する。
 ここで、この接続処理には、機器1700が送信する入力音声データの送信先を、接続命令を送信した音声対話エージェント2200から、接続命令を受信した音声対話エージェント2200へと変更させる処理を含んでいる。
 接続処理が実行されると、制御部2210は、通信部420を制御して、機器1700との間の通信が開始された旨を示す信号である接続応答を生成して、生成した接続応答を、接続命令の送信元である音声対話エージェントへ送信する(ステップS2813)。
 その後、制御部2210は、機器1700から送信される入力音声データが、通信部420によって受信されるまで待機する(ステップS2814:Noを繰り返す)。そして、入力音声データが受信されると(ステップS2814:Yes)、ステップS2800~ステップS2810の処理を実行する。
 ステップS2810の処理が終了すると、制御部2210は、音声認識処理部430によって変換された入力テキストが、自音声対話エージェントとの通信を終了する旨のものであるか否かを調べる(ステップS2815)。
 ステップS2815の処理において、自音声対話エージェントとの通信を終了する旨のものでない場合に(ステップS2815:No)、音声対話エージェント2200は、ステップS2820の処理に進んで、ステップS2820~ステップS2860の処理を行う。そして、ステップS2860の処理が終了すると、音声対話エージェント2200は、再びステップS2814の処理に戻って、ステップS2814以下の処理を行う。
 ステップS2815の処理において、自音声対話エージェントとの通信を終了する旨のものである場合に(ステップS2815:Yes)、制御部2210は、通信部420を制御して、機器1700との間の通信を終了する切断処理を実行する。
 ここで、この切断処理には、機器1700が送信する入力音声データの送信先を、接続命令を受信した音声対話エージェント2200から、接続命令を送信した音声対話エージェント2200へと変更させる処理を含んでいる。
 切断処理が実行されると、制御部2210は、通信部420を制御して、機器1700との間の通信が終了された旨を示す所定の信号である切断応答を生成して、生成した切断応答を、接続命令の送信元である音声対話エージェントへ送信する(ステップS2890)。
 ステップS2890の処理が終了すると、音声対話エージェント2200は、ステップS2811の処理に戻って、ステップS2811以下の処理を行う。
 上記構成の第3変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。
 <具体例>
 図29は、第3変形音声対話システムを利用するユーザが、機器1700を用いて、音声対話エージェント2200のうちの1つである家エージェントと音声を用いた対話を開始し、その後、家エージェントによって生成された接続命令によって、音声対話エージェント2200のうちの他の1つである車エージェントとの間の通信が開始されて、そのユーザが、車エージェントとの対話を行う様子を模式的に示す処理手順図である。
 ここでは、ユーザの利用する機器1700の特定音声対話エージェントサーバが、家エージェントを実現する音声対話エージェントサーバ110であり、対話終了音声が、「終了します。」という音声であるとして説明する。
 同図において、ステップS2900~ステップS2905の処理は、それぞれ、実施の形態3における具体例(図21参照)の、ステップS2100~ステップS2105の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS2905の処理が終了すると、機器1700は、第2音声処理を行う(ステップS2906、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「車エージェントに接続して。」との音声を入力したとすると、機器1700は、「車エージェントに接続して。」という入力音声データを、家エージェントに送信する(図20のステップS2040に対応)。
 すると、家エージェントは、その入力音声データを受信して(図24のステップS2400:Yesに対応)、第2命令実行処理を実行する(図24のステップS2410に対応)。
 第2命令実行処理において、入力テキストが、車エージェントとの通信要求であるので(図25のステップS2515:Yesに対応)、家エージェントは、車エージェントに対して、接続命令を送信する(図25のステップS2570に対応)。
 すると、車エージェントは、接続命令を受信し(図28のステップS2811:Yesに対応)、機器1700との間の通信を開始して(図28のステップS2812に対応)、家エージェントに、接続応答を送信する(ステップS2990、図28のステップS2813に対応)。
 すると、家エージェントは、接続応答を受信し(図25のステップS2575:Yesに対応)、第1接続応答処理を実行する(ステップS2965、図25のステップS2580に対応)。
 ここで、この第1接続応答処理において、音声対話エージェント2200が、「車エージェントに接続しました。」という応答音声データを生成したとすると、音声対話エージェント2200は、機器1700に、「車エージェントに接続しました。」という応答音声データを送信する(図26のステップS2620に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「車エージェントに接続しました。」という音声を出力する(ステップS2907、図19のステップS1980に対応)。
 そして、「車エージェントに接続しました。」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS2910、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「車内の温度は?」との音声を入力したとすると、機器1700は、「車内の温度は?」という入力音声データを、車エージェントへ送信する(図20のステップS2040に対応)。
 すると、車エージェントは、その入力音声データを受信して(図28のステップS2814:Yesに対応)、その音声データが通信終了を要求するものではないため(図28のステップS2815:Noに対応)、その入力音声データに対応する命令群を生成して実行する(ステップS2994、図28のステップS2830に対応)。
 ここで、この命令群の実行において、車エージェントが、「車内の温度は38度です。他に何かありますか?」という応答音声データを生成したとすると、車エージェントは、機器1700に、「車内の温度は38度です。他に何かありますか?」という応答音声データを送信する(図28のステップS2860に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「車内の温度は38度です。他に何かありますか?」という音声を出力する(ステップS2915、図19のステップS1980に対応)。
 そして、「車内の温度は38度です。他に何かありますか?」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS2930、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器1700は、「ないよ。ありがとう。」という入力音声データを、車エージェントへ送信する(図20のステップS2040に対応)。
 すると、車エージェントは、その入力音声データを受信して(図28のステップS2814:Yesに対応)、その音声データが通信終了を要求するものであるため(図28のステップS2815:Yesに対応)、機器1700との間の通信を終了して(図28のステップS2870に対応)、家エージェントに切断応答を送信する(ステップS2998、図28のステップS2890に対応)。
 すると、家エージェントは、その切断応答を受信して(図25のステップS2585:Yesに対応)、切断応答処理を実行する(ステップS2970、図25のステップS2890の処理に対応)。
 ここで、この切断処理において、音声対話エージェント2200が、「車エージェントとの接続を切りました。他に何かありますか?」という応答音声データを生成したとすると、音声対話エージェント2200は、機器1700に、「車エージェントとの接続を切りました。他に何かありますか?」という応答音声データを送信する(図27のステップS2720に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「車エージェントとの接続を切りました。他に何かありますか?」という音声を出力する(ステップS2935、図19のステップS1980に対応)。
 そして、「車エージェントとの接続を切りました。他に何かありますか?」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS2950、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器1700は、「ないよ。ありがとう。」という入力音声データを、家エージェントへ送信する(図20のステップS2040に対応)。
 すると、家エージェントは、その入力音声データを受信して(図24のステップS2800:Yesに対応)、第2命令実行処理を実行する(ステップS2975、図24のステップS2410に対応)。
 ここで、この第2命令実行処理において、家エージェントが、「終了します。」という応答音声データを生成したとすると、家エージェントは、機器1700に、「終了します。」という応答音声データを送信する(図25のステップS2560に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「終了します。」という音声を出力する(ステップS2955、図19のステップS1980に対応)。
 「終了します。」という音声は、対話終了音声なので(図19のステップS1985:Yesに対応)、ステートが音声入力受付可能状態へと遷移されて(図19のステップS1990に対応)、機器1700は、第3機器処理を終了する。
 <考察>
 上記構成の第3変形音声対話システムによると、第3変形音声対話システムを利用するユーザは、音声対話エージェントAと通信している場合において、音声対話エージェントAよりも、音声対話エージェントBに処理を行わせる方が望ましいと考えたときに、通信して処理させる音声対話エージェントを、音声対話エージェントAから音声対話エージェントBに変更して、所望の処理を音声対話エージェントBに実行させることができるようになる。
 また、この場合には、音声対話エージェントAは、入力音声を、そのまま音声対話エージェントBに転送することになるので、音声対話エージェントBは、その入力音声そのものに対して音声認識処理を行うことができる。このため、ユーザは、音声対話エージェントBから、より適切なサービスの提供を受けることができるようになる。
<実施の形態5>
 <概要>
 以下、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態4における第3変形音声対話システムの一部が変形された第4変形音声対話システムについて説明する。
 実施の形態4における第3変形音声対話システムは、機器が音声対話エージェントAとの間で通信を開始した場合において、第3変形音声対話システムを利用するユーザが、その機器を用いて、他の音声エージェントBとの間で通信を行いたい旨の音声入力を行ったときに、以後、その機器の通信相手は、音声対話エージェントAから、音声対話エージェントBに変更される構成の例であった。
 これに対して実施の形態5における第4変形音声対話システムは、機器が音声対話エージェントAとの間で通信を開始した場合において、その通信内容において所定の条件が満たされるときに、音声対話エージェントAが、ユーザの利用する音声対話エージェントとして、自音声対話エージェントAよりも、他の音声対話エージェントBの方を通信相手とすべきであると判定して、以後、その機器の通信相手が、音声対話エージェントAから、音声対話エージェントBに変更される構成の例となっている。
 以下、この第4変形音声対話システムの詳細について、実施の形態4における第3変形音声対話システムとの相違点を中心に、図面を参照しながら説明する。
 <構成>
 第4変形音声対話システムは、実施の形態4における第3変形音声対話システムから、音声対話エージェント2200が、音声対話エージェント3000に変更されるように変形されている。
 音声対話エージェント3000は、実施の形態4における音声対話エージェント2200と同様に、音声対話エージェントサーバ110によって実現される。
 音声対話エージェントサーバ110によって実行される、音声対話エージェント3000を実現するためのソフトウエアの一部が、実施の形態3における音声対話エージェント2200を実現するためのソフトウエアから変更されている。そして、このことによって、音声対話エージェント3000は、実施の形態4における音声対話エージェント2200から、その機能の一部が変更されるように変形されている。
 図30は、音声対話エージェント3000の機能構成を示すブロック図である。
 同図に示されるように、音声対話エージェント3000は、実施の形態4における音声対話エージェント2200(図22参照)から、対象エージェントDB記憶部2220が削除され、利用可能サービスDB記憶部3020が追加され、制御部2210が、制御部3010に変更されるように変形されている。
 利用可能サービスDB記憶部3020は、一例として、メモリと、プログラムを実行するプロセッサとによって実現され、制御部3010に接続され、利用可能サービスDB3100を記憶する機能を有する。
 図31は、利用可能サービスDB記憶部3020に記憶される利用可能サービスDB3100のデータ構成図である。
 同図に示されるように、利用可能サービスDB3100は、キーワード3110と、対象エージェント3120と、処理内容3130と、IPアドレス3140と、利用可否3150とが対応付けられて構成される。
 キーワード3110は、音声認識処理部430によって変換された入力テキストに含まれると想定される文字列である。
 対象エージェント3120は、機器1700の通信対象となる、追加音声対話エージェントを特定する情報である。
 この例では、実施の形態4と同様に、対象エージェント2320によって特定される追加音声対象エージェントには、車エージェントと、小売店エージェントと、家エージェントとが含まれる構成の例となっている。
 処理内容3130は、音声認識処理部430によって変換された入力テキストに、対応付けられているキーワード3110が含まれている場合に、対応付けられている対象エージェント3120によって特定される追加音声対話エージェントによって実行される対象となる処理の内容を示す情報である。
 IPアドレス3140は、対応付けられている対象エージェント3120によって特定される追加音声対話エージェントを実現する音声対話エージェントサーバ110についての、ネットワーク120におけるIPアドレスである。
 利用可否3150は、対応付けられている処理内容3130によって示される内容の処理を、自音声対話エージェントで処理することが可能か否かを示す情報である。
 再び図30に戻って、音声対話エージェント3000の説明を続ける。
 制御部3010は、実施の形態4における制御部2210から、制御部2210が有する機能のうち、第2エージェント処理実現機能が、以下に述べる第4エージェント処理実現機能に変更されるように変形されている。
 第4エージェント処理実現機能とは、制御部3010が、通信部420と、音声認識処理部430と、音声合成処理部450と、命令生成部460とを制御して、音声対話エージェント3000に、その特徴的な動作である第4エージェント処理を実行させることで、音声対話エージェント2200に、(1)機器から送信された入力音声データを受信し、(2)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(3)生成した入力テキストに所定のキーワードが含まれている場合に、機器と、そのキーワードに対応付けられている対象エージェントとの間の通信を実現させ、(4)そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、(5)実行結果に基づいて応答テキストを生成し、(6)生成した応答テキストを応答音声データに変換して、(7)応答テキストと応答音声データとを機器に返信するという一連の処理を実現させる機能である。
 なお、第4エージェント処理は、後程<第4エージェント処理>の項目において、フローチャートを用いて詳細に説明する。
 以上のように構成される第4変形音声対話システムの行う動作について、以下、図面を参照しながら説明する。
 <動作>
 第4変形音声対話システムは、その特徴的な動作として、実施の形態4における第2機器処理と、第3エージェント処理とに加えて、実施の形態3における第2エージェント処理から、その処理の一部が変更された第4エージェント処理を行う。
 以下、この第4エージェント処理について、第2エージェント処理からの変更点を中心に説明する。
  <第4エージェント処理>
 第4エージェント処理は、音声対話エージェント3000が行う処理であって、(1)機器から送信された入力音声データを受信し、(2)受信した入力音声データに対して音声認識処理を行って、入力テキストを生成して機器に返信し、(3)生成した入力テキストに所定のキーワードが含まれている場合に、機器と、そのキーワードに対応付けられている対象エージェントとの間の通信を実現させ、(4)そうでない場合に、生成した入力テキストに基づいて命令群を生成して実行し、(5)実行結果に基づいて応答テキストを生成し、(6)生成した応答テキストを応答音声データに変換して、(7)応答テキストと応答音声データとを機器に返信する処理である。
 図32は、第4エージェント処理のフローチャートである。
 第4エージェント処理は、音声対話エージェント3000が起動されることで開始される。
 第4エージェント処理が開始されると、音声対話エージェント3000は、機器1700から送信される入力音声データが、通信部420によって受信されるまで待機する(ステップS3200:Noを繰り返す。)。そして、入力音声データが受信されると(ステップS3200:Yes)、音声対話エージェント3000は、第3命令実行処理を実行する(ステップS3210)。
 図33は、第3命令実行処理のフローチャートである。
 同図において、ステップS3300~ステップS3310の処理と、ステップS3320~ステップS3360の処理と、ステップS3365~ステップS3375の処理と、ステップS3385~ステップS3390の処理とは、それぞれ、実施の形態4におけるステップS2500~ステップS2510の処理と、ステップS2520~ステップS2560の処理と、ステップS2565~ステップS2575の処理と、ステップS2585~ステップS2590の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS3310の処理が終了すると、制御部3010は、利用可能サービスDB記憶部3020に記憶されている利用可能サービスDB3100を参照して(ステップS3312)、入力テキストに対応する処理を、他の音声対話エージェントで実行すべきか否かを判定する(ステップS3315)。すなわち、入力テキストデータに、キーワード3110が含まれている場合において、そのキーワード3110に対応付けられている対象エージェント3120が、自音声対話エージェントでないときに、他の音声対話エージェント(対象エージェント3120によって特定される追加音声対話エージェント)で実行すべきであると判定し、それ以外であれば、他の音声対話エージェントで実行すべきでないと判定する。
 ステップS3315の処理において、他の音声対話エージェントで実行すべきでないと判定された場合に(ステップS3315:No)、音声対話エージェント3000は、ステップS3320の処理に進み、ステップS3320~ステップS3360の処理を行う。
 ステップS3315の処理において、他の音声対話エージェントで実行すべきであると判定された場合に(ステップS3315:Yes)、音声対話エージェント3000は、ステップS3365の処理に進み、ステップS3365~ステップS3375の処理を行う。
 ステップS3375の処理において、追加音声対話エージェントから返信される接続応答が、通信部420によって受信されると(ステップS3375:Yes)、音声対話エージェント3000は、第2接続応答処理を実行する(ステップS3380)。
 図34は、第2接続応答処理のフローチャートである。
 第2接続応答処理が開始されると、制御部3010は、通信部420を制御して、ステップS3200:Yesの処理において受信した入力音声データを、ステップS3315:Yesの処理において特定された追加音声対話エージェントへ転送する(ステップS3400)。
 ステップS3400の処理が終了すると、音声対話エージェント3000は、その第2接続応答処理を終了する。
 再び図33に戻って、第2命令実行処理の説明を続ける。
 第2接続応答処理が終了すると、音声対話エージェント3000は、ステップS3385の処理に進んで、ステップS3385~ステップS3390の処理を行う。
 ステップS3390の処理が終了した場合、又は、ステップS3360の処理が終了した場合に、音声対話エージェント3000は、その第3命令実行処理を終了する。
 再び、図32に戻って、第4エージェント処理の説明を続ける。
 第3命令実行処理が終了すると、音声対話エージェント3000は、再びステップS3200の処理に戻って、ステップS3200以下の処理を続ける。
 上記構成の第4変形音声対話システムが行う動作の具体例について、以下、図面を用いて説明する。
 <具体例>
 図35は、第4変形音声対話システムを利用するユーザが、機器1700を用いて、音声対話エージェント3000のうちの1つである家エージェントと音声を用いた対話を開始し、その後、家エージェントによって生成された接続命令によって、音声対話エージェント3000のうちの他の1つである車エージェントとの間の通信が開始されて、そのユーザが、車エージェントとの対話を行う様子を模式的に示す処理手順図である。
 ここでは、ユーザの利用する機器1700の特定音声対話エージェントサーバが、家エージェントを実現する音声対話エージェントサーバ110であり、対話終了音声が、「終了します。」という音声であるとして説明する。
 同図において、ステップS3500~ステップS3505の処理は、それぞれ、実施の形態4における具体例(図29参照)の、ステップS2900~ステップS2905の処理と同様の処理である。よって、これらの処理については説明済みである。
 ステップS3505の処理が終了すると、機器1700は、第2音声処理を行う(ステップS3506、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「車内の温度は?」との音声を入力したとすると、機器1700は、「車内の温度は?」という入力音声データを、家エージェントに送信する(図20のステップS2040に対応)。
 すると、家エージェントは、その入力音声データを受信して(図32のステップS3200:Yesに対応)、第3命令実行処理を実行する(図32のステップS3210に対応)。
 第3命令実行処理において、入力テキストに「温度」、「車内」というキーワードが含まれており、対象エージェント3120が、家エージェントでないため(図33のステップS3315:Noに対応)、家エージェントは、車エージェントに対して、接続命令を送信する(図33のステップS3370に対応)。
 すると、車エージェントは、接続命令を受信し(図28のステップS2811:Yesに対応)、機器1700との間の通信を開始して(図28のステップS2812に対応)、家エージェントに、接続応答を送信する(ステップS3590、図28のステップS2813に対応)。
 すると、家エージェントは、接続応答を受信し(図33のステップS3375:Yesに対応)、第2接続応答処理を実行する(図33のステップS3380に対応)。
 第2接続応答処理において、家エージェントは、「車内の温度は?」という入力音声データを、車エージェントへ転送する(図34のステップS3400に対応)。
 すると、車エージェントは、その入力音声データを受信して(図28のステップS2814:Yesに対応)、その音声データが通信終了を要求するものではないため(図28のステップS2815:Noに対応)、その入力音声データに対応する命令群を生成して実行する(ステップS3594、図28のステップS2830に対応)。
 ここで、この命令群の実行において、車エージェントが、「車内の温度は38度です。他に何かありますか?」という応答音声データを生成したとすると、車エージェントは、機器1700に、「車内の温度は38度です。他に何かありますか?」という応答音声データを送信する(図28のステップS2860に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「車内の温度は38度です。他に何かありますか?」という音声を出力する(ステップS3507、図19のステップS1980に対応)。
 そして、「車内の温度は38度です。他に何かありますか?」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS3510、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「エアコンを25度でオンにして。」との音声を入力したとすると、機器1700は、「エアコンを25度でオンにして。」という入力音声データを、車エージェントへ送信する(図20のステップS2040に対応)。
 すると、車エージェントは、その入力音声データを受信して(図28のステップS2814:Yesに対応)、その音声データが通信終了を要求するものではないため(図28のステップS2815:Noに対応)、その入力音声データに対応する命令群を生成して実行する(ステップS3594、図28のステップS2830に対応)。
 ここで、この命令群の実行において、車エージェントが、「エアコンを25度でオンにしました。他に何かありますか?」という応答音声データを生成したとすると、車エージェントは、機器1700に、「エアコンを25度でオンにしました。他に何かありますか?」という応答音声データを送信する(図28のステップS2860に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「エアコンを25度でオンにしました。他に何かありますか?」という音声を出力する(ステップS3525、図19のステップS1980に対応)。
 そして、「エアコンを25度でオンにしました。他に何かありますか?」という音声は、対話終了音声でないので(図19のステップS1985:Noに対応)、機器1700は、第2音声処理を行う(ステップS3530、図19のステップS1930に対応)。
 この第2音声入力処理において、ユーザが、「ないよ。ありがとう。」との音声を入力したとすると、機器1700は、「ないよ。ありがとう。」という入力音声データを、車エージェントへ送信する(図20のステップS2040に対応)。
 すると、車エージェントは、その入力音声データを受信して(図28のステップS2814:Yesに対応)、その音声データが通信終了を要求するものであるため(図28のステップS2815:Yesに対応)、機器1700との間の通信を終了して(図28のステップS2870に対応)、家エージェントに切断応答を送信する(ステップS3598、図28のステップS2890に対応)。
 すると、家エージェントは、その切断応答を受信して(図25のステップS2585:Yesに対応)、切断応答処理を実行する(ステップS2970、図25のステップS2890の処理に対応)。
 ここで、この切断処理において、音声対話エージェント2200が、「終了します。」という応答音声データを生成したとすると、音声対話エージェント2200は、機器1700に、「終了します。」という応答音声データを送信する(図27のステップS2720に対応)。
 すると、機器1700は、その応答音声データを受信して(図19のステップS1960:Yesに対応)、「終了します。」という音声を出力する(ステップS3555、図19のステップS1980に対応)。
 「終了します。」という音声は、対話終了音声なので(図19のステップS1985:Yesに対応)、ステートが音声入力受付可能状態へと遷移されて(図19のステップS1990に対応)、機器1700は、第4機器処理を終了する。
 <考察>
 上記構成の第4変形音声対話システムによると、第3変形音声対話システムを利用するユーザが音声対話エージェントAと通信している場合において、音声対話エージェントAが、音声対話エージェントAよりも音声対話エージェントBの方を通信相手とすべきであると判定した場合には、ユーザの通信相手の音声対話エージェントを、音声対話エージェントAから音声対話エージェントBに変更することができるようになる。
 このことによって、ユーザは、各音声対話エージェントにおいてどのようなサービスが提供されているかを知らなくても、より適切な音声対話エージェントからサービスの提供を受けることができるようになる。
 また、この場合には、音声対話エージェントAは、入力音声を、そのまま音声対話エージェントBに転送することになるので、音声対話エージェントBは、その入力音声そのものに対して音声認識処理そのものを行うことができる。このため、ユーザは、より適切なサービスの提供を受けることができるようになる。
 <実施の形態6>
 ここでは、実施の形態1における音声対話システム100が運用される運用形態の一例について例示する。もちろん、実施の形態1における音声対話システム100は、ここで例示する以外の運用形態で運用されても構わない。
 図36(A)は、実施の形態1における音声対話システム100が運用される運用形態を模式的に示す模式図である。
 図36(A)において、グループ3600は、例えば企業、団体、家庭等であり、その規模を問わない。グループ3600には、複数の機器3601(機器A、機器B等)及びホームゲートウエイ3602が存在する。複数の機器3601には、インターネットと接続可能な機器(例えば、スマートフォン、PC、TV等)もあれば、それ自身ではインターネットと接続不可能な機器(例えば、照明、洗濯機、冷蔵庫等)も存在する。それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウエイ3602を介してインターネットと接続可能となる機器が存在してもよい。またグループ3600には複数の機器3601を使用するユーザ10が存在する。例えば、グループ3600に示す機器のそれぞれが、実施の形態1における機器140に該当する。
 データセンタ運営会社3610には、クラウドサーバ3611が存在する。クラウドサーバ3611とはインターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社3610は、データ管理やクラウドサーバ3611の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社3610が行っている役務については詳細を後述する。ここで、データセンタ運営会社3610は、データ管理やクラウドサーバ3611の運営等のみを行っている会社に限らない。例えば複数の機器3601のうちの1つの機器を開発・製造している機器メーカが、併せてデータ管理やクラウドサーバ3611の管理等を行っている場合は、機器メーカがデータセンタ運営会社3610に該当する(図36(B)参照)。また、データセンタ運営会社3610は1つの会社に限らない。例えば機器メーカ及び他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ3611の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社3610に該当するものとする(図36(C)参照)。例えば、データセンタ運営会社3610で、機器140に紐付けされた音声対話エージェント400(「第1の音声対話エージェント」とも言う。)が提供される。
 サービスプロバイダ3620は、サーバ3621を保有している。ここで言うサーバ3621とは、その規模は問わず例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダがサーバ3621を保有していない場合もある。例えば、サービスプロバイダ3620で、第1の音声対話エージェントから接続される他の音声対話エージェント400(第2の音声対話エージェントとも言う。)が提供される。
 次に、上記運用形態における情報の流れを説明する。
 まず、グループ3600の機器A又は機器Bは、各ログ情報をデータセンタ3610のクラウドサーバ3611に送信する。クラウドサーバ3611は機器A又は機器Bのログ情報を集積する(図36(a))。ここで、ログ情報とは複数の機器3601の、例えば運転状況や動作日時等を示す情報である。例えば、テレビの視聴履歴やレコーダの録画予約情報、洗濯機の運転日時・洗濯物の量、冷蔵庫の開閉日時・開閉回数などであるが、これらのものに限らずあらゆる機器から取得が可能な全ての情報を言う。ログ情報は、インターネットを介して複数の機器3601自体から直接クラウドサーバ3611に提供される場合もある。また複数の機器3601から一旦ホームゲートウエイ3602にログ情報が集積され、ホームゲートウエイ3602からクラウドサーバ3611に提供されてもよい。
 次に、データセンタ運営会社3610のクラウドサーバ3611は、集積したログ情報を一定の単位でサービスプロバイダ3620に提供する。ここで、データセンタ運営会社3610が集積した情報を整理してサービスプロバイダ3620に提供することのできる単位でもいいし、サービスプロバイダ3620が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。前記ログ情報は、必要に応じてサービスプロバイダ3620が保有するサーバ3621に保存される(図36(b))。そして、サービスプロバイダ3620は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。提供するユーザは、複数の機器3601を使用するユーザ10でもよいし、外部のユーザ20でもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダ3620から直接ユーザへ提供されてもよい(図36(e))。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社3610のクラウドサーバ3611を再度経由して、ユーザに提供されてもよい(図36(c)、(d))。また、データセンタ運営会社3610のクラウドサーバ3611がログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ3620に提供してもよい。
 なお、ユーザ10とユーザ20とは、別でも同一でもよい。
 以下に、上記運用形態において提供され得るサービスの類型について、いくつか例示する。
 <サービスの類型1:自社データセンタ型>
 図37は、サービスの類型1(自社データセンタ型)を模式的に示す模式図である。
 本類型は、サービスプロバイダ3620がグループ3600から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ3620が、データセンタ運営会社の機能を有している。すなわち、サービスプロバイダ3620が、ビッグデータの管理をするクラウドサーバ3611を保有している。従って、データセンタ運営会社は存在しない。
 本類型では、サービスプロバイダ3620は、データセンタ(クラウドサーバ3611)を運営、管理している(3703)。また、サービスプロバイダ3620は、OS(3702)及びアプリケーション(3701)を管理する。サービスプロバイダ3620は、管理するOS(3702)及びアプリケーション(3701)を用いてサービス提供を行う(3704)。
 <サービスの類型2:IaaS利用型>
 図38は、サービスの類型2(IaaS利用型)を模式的に示す模式図である。ここでIaaSとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築及び稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
 本類型では、データセンタ運営会社3610がデータセンタ(クラウドサーバ3611)を運営、管理している(3703)。また、サービスプロバイダ3620は、OS(3702)及びアプリケーション(3701)を管理する。サービスプロバイダ3620は、管理するOS(3702)及びアプリケーション(3701)を用いてサービス提供を行う(3704)。
 <サービスの類型3:PaaS利用型>
 図39は、サービスの類型3(PaaS利用型)を模式的に示す模式図である。ここでPaaSとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウエアを構築及び稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
 本類型では、データセンタ運営会社3610は、OS(3702)を管理し、データセンタ(クラウドサーバ3611)を運営、管理している(3703)。また、サービスプロバイダ3620は、アプリケーション(3701)を管理する。サービスプロバイダ3620は、データセンタ運営会社3610が管理するOS(3702)及びサービスプロバイダ3620が管理するアプリケーション(3701)を用いてサービス提供を行う(3704)。
 <サービスの類型4:SaaS利用型>
 図40は、サービスの類型4(SaaS利用型)を模式的に示す模式図である。ここでSaaSとはソフトウエア・アズ・ア・サービスの略である。例えばデータセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社・個人(利用者)がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
 本類型では、データセンタ運営会社3610は、アプリケーション(3701)を管理し、OS(3702)を管理し、データセンタ(クラウドサーバ3611)を運営、管理している(3703)。また、サービスプロバイダ3620は、データセンタ運営会社3610が管理するOS(3702)及びアプリケーション(3701)を用いてサービス提供を行う(3704)。
 以上いずれの類型においても、サービスプロバイダ3620がサービス提供行為を行ったものとする。また例えば、サービスプロバイダ3620もしくはデータセンタ運営会社3610は、OS、アプリケーションもしくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
<補足>
 以上、本発明に係る音声対話方法の一態様、及び本発明に係る機器の一態様として、実施の形態1~実施の形態5において、5つの音声対話システムを例示して、また、実施の形態6において、音声対話システムの運用形態を例示して説明したが、以下のように変形することも可能であり、実施の形態1~実施の形態6において例示した音声対話システム又はその運用形態で用いられた通りの、音声対話方法、及び機器に限られないことはもちろんである。
 (1)実施の形態1において、音声対話システム100は、図1に示されるように、音声対話エージェントサーバ110と、ネットワーク120と、ゲートウエイ130と、機器140とから構成されるとして説明した。これに対して、別の一例として、音声対話システムは、音声対話エージェントサーバ110と、ネットワーク120と、ゲートウエイ130と、機器140とに加えて、対象エージェントDB2300を記憶し、音声対話エージェント間の対応付け、接続切り替え等を行う機能を有する仲介サーバ4150とから構成されるとしてもよい。
 図41は、仲介サーバ4150を含んで構成される音声対話システム4100の構成を示すシステム構成図である。
 図42は、仲介サーバ4150の機能構成を示すブロック図である。
 同図に示されるように、仲介サーバ4150は、通信部4220と、制御部4210と、対象エージェントDB記憶部4230とから構成される。
 ここで、対象エージェントDB記憶部4230は、実施の形態4における対象エージェントDB記憶部2220と同様に、対象エージェントDB2300を記憶する機能を有する。
 また、別の一例として、音声対話システムは、仲介サーバ4150に代えて、利用可能サービスDB3100を記憶し、音声対話エージェント間の対応付け、接続切り替え等を行う機能を有する仲介サーバ4350を含んで構成されるとしてもよい。
 図43は、仲介サーバ4350の機能構成を示すブロック図である。
 同図に示されるように、仲介サーバ4350は、通信部4320と、制御部4310と、利用可能サービスDB記憶部4330とから構成される。
 ここで、利用可能サービスDB記憶部4330は、実施の形態5における利用可能サービスDB3020と同様に、利用可能サービスDB3100を記憶する機能を有する。
 (2)実施の形態1において、機器140の表示部270に表示される画像として、図12に示される画像を例示して説明した。
 これに対して、他の画像例として、図44(a)~図44(d)、図45(a)、図45(b)等が考えられる。
 図12、図44(a)~図44(d)、図45(b)の例では、表示される各応答テキストの行頭に、「あなた」、「車エージェント」、「家エージェント」等といった、発話の主体が特定される文字列が表示されている。また、図45(a)では、発話の主体が特定されるアイコン(画像)が表示されている。
 図44(a)、図44(b)の例では、現在対話している音声対話エージェントがわかるように、画面の上部に「家エージェントと対話中」、「車エージェントと対話中」といった対話している音声対話エージェントが特定される文字列が表示されている。
 図44(d)の例では、現在又は過去に対話している(していた)音声対話エージェントがわかるように、該当する応答テキストの上部に、「家エージェントと対話中」、「車エージェントと対話中」といった対話している(していた)音声対話エージェントを特定する文字列が表示されている。また、図45(b)では、対話している(していた)音声対話エージェントが特定されるアイコン(画像)が表示されている。
 また、これらの表示例は、あくまで一例であって、色によってどの音声対話エージェントと対話しているかを示してもよいし、画面の形や、画面を構成する一部の形でどの音声対話エージェントと対話しているかを示してもよい。さらには、発話する主体毎に背景の色や壁紙等を変更してもよい。このように、対話している音声対話エージェント、又は、発話する主体が、ユーザによって識別可能に表示されていればよい。
 (3)実施の形態1、及び上記変形例において、対話している音声対話エージェント、又は、発話する主体が、視覚によって識別可能に表示される例について説明した。しかしながら、ユーザによって識別することができれば、必ずしも、対話している音声対話エージェント、又は、発話する主体が、視覚によって識別可能に表示される例に限られない。
 例えば、音声によって、対話している音声対話エージェントがわかるように、「家エージェントと対話中です。」と音声出力してもよいし、効果音にて、どの音声対話エージェントと対話しているかがわかるようにしてもよいし、声色、話速、音量等によって、どの音声対話エージェントと対話しているかがわかるようにしてもよい。
 (4)実施の形態1において、制御部210によってなされるステートの管理は、図3の状態遷移図で示される態様で管理されるとして説明した。また、実施の形態2において、制御部1310によってなされるステートの管理は、図14の状態遷移図で示される態様で管理されるとして説明した。そして、実施の形態3において、制御部1710によってなされるステートの管理は、図18の状態遷移図で示される態様で管理されるとして説明した。
 これらに対して、制御部によってなされるステートの管理は、上記態様による管理に限られず、他の態様によるステートの管理も考えられる。図46~図50に、制御部によってなされる他の態様によるステートの管理例を示す状態遷移図を示す。
 例えば、図48の状態遷移図で示される態様でステートが管理される場合には、ステートが音声入力受付可能状態に遷移してから所定時間が経過していなくても、音声出力部260が、音声対話エージェント110から送信された応答テキストに基づく音声を出力した場合において、その音声が、対話終了音声であるときには、ステートが、音声入力受付不可能状態に遷移される。このため、音声入力部220は、通信部250によって受信された、音声対話エージェント110によって生成された音声信号が、新たな音声入力を必要としない旨を示すものであるときには、音声入力受付可能状態に遷移してから所定時間が経過していなくても、音声入力受付不可能状態となる。
 (5)実施の形態1において、表示部270は、一例として、タッチパネルと、タッチパネルコントローラと、プログラムを実行するプロセッサとによって実現され、音声入力受付可能状態である旨の表示を、表示部270の右下の領域1120(図11(a)、図11(c)、図12等参照)を点滅させることで行う構成であるとして説明した。しかしながら、音声入力受付可能状態であることをユーザに認知させることができれば、必ずしも、上記構成の例に限られない。他の例として、表示部270は、LED(Light Emitting Diode)と、プログラムを実行するプロセッサとによって実現され、音声入力受付可能状態である旨の表示を、このLEDを点灯させることで行う構成の例が考えられる。但し、この構成の例では、表示部270は、文字列を表示する手段を有さないため、通信部250によって受信された応答テキストの表示を行わない。
 (6)実施の形態1において、通信部250は、通信先の音声対話エージェントサーバ110として、特定の1つを指定されないときには、アドレス記憶部240に記憶されるIPアドレスを参照して、特定音声対話エージェントサーバと通信する構成であると説明した。これに対して、他の一例として、アドレス記憶部240が、特定音声対話エージェントサーバのIPアドレスを記憶しておらず、ユーザによって指定される音声対話エージェントサーバ、又はユーザによって指定される音声対話エージェントを実現する音声対話エージェントサーバと通信する構成の例が考えられる。
 (7)実施の形態1において、機器140のそれぞれは、ゲートウエイ130とネットワーク120とを介して、音声対話エージェント110と通信するとして説明した。
 これに対して、機器140の中に、ゲートウエイ130を介さずに直接ネットワーク120に接続する機能を有し、ゲートウエイ130を介さずに、音声対話エージェントと通信するものが存在する構成であっても構わない。全ての機器140がゲートウエイを介さずに直接ネットワーク120に接続する場合には、ゲートウエイ130は不要となる。
 (8)上記実施の形態及び上記変形例を構成する各要素の一部又は全部は、1つのシステムLSIから構成されているとしてもよい。システムLSIは、複数の構成部を1つのチップに集積して製造された超多機能LSIである。具体的には、マイクロプロセッサ、ROM、RAM等を含んで構成されるコンピュータシステムである。ROM、RAM等にコンピュータプログラムが記憶され、マイクロプロセッサが、これらコンピュータプログラムに従って動作することによって、システムLSIは、その機能を実現する。
 (9)上記実施の形態及び上記変形例を構成する各要素の一部又は全部は、装置に着脱可能なIC(Integrated Circuit)カード又はモジュールを含んで構成されるとしてもよい。これらICカード又はモジュールは、マイクロプロセッサ、ROM、RAM等を含んで構成されるコンピュータシステムである。これらICカード又はモジュールは、前述の超多機能LSIを含むとしてもよい。ROM、RAM等にコンピュータプログラムが記憶され、マイクロプロセッサが、これらコンピュータプログラムに従って動作することによって、これらICカード又はモジュールは、その機能を実現する。これらICカード又はモジュールは、耐タンパ性を有するとしてもよい。
 (10)上記実施の形態及び上記変形例で利用されるコンピュータプログラム又はデジタル信号を、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MD、DVD、DVD-ROM、DVD-RAM、BD、半導体メモリ等に記録してもよい。
 また、上記実施の形態及び上記変形例で利用されるコンピュータプログラム又はデジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。
 上記実施の形態及び上記変形例で利用されるコンピュータプログラム又はデジタル信号を、コンピュータ読み取り可能な記録媒体に記録して移送することによって、又は、ネットワーク等を経由して伝送することで、他のコンピュータシステムでも実施させることができるようになる。
 (12)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
 (13)以下、さらに、本発明の一態様に係る音声対話方法、及び機器について、それらの構成及びそれらの変形例と各効果について説明する。
 (a)本発明の一実施形態に係る音声対話方法は、音声信号生成部と、音声対話エージェント部と、音声出力部と、音声入力制御部とを備える音声対話システムによって行われる音声対話方法であって、前記音声信号生成部が、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成し、前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、前記音声出力部が、前記音声対話エージェント部によって生成された応答信号に基づく音声を出力し、前記音声出力部によって前記音声が出力される場合に、前記音声入力制御部が、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とすることを特徴とする。
 上述の、本発明の一実施形態に係る音声対話方法によると、音声対話エージェント部によって生成された音声が出力されたときには、ユーザは、音声対話システムに対して操作を行わなくても、音声入力を行うことが可能となる。このことによって、対話形式による音声入力に伴ってユーザが行う必要がある操作の回数が、従来よりも低減されることとなる。
 (b)また、前記音声対話システムは、表示部を備え、前記音声信号生成部が前記受付可能状態である場合に、前記表示部が、前記音声信号生成部が前記受付可能状態である旨を示す表示を行うとしてもよい。
 このようにすることで、ユーザは、音声信号生成部が受付可能状態であるか否かを、目視によって認識することができるようになる。
 (c)また、前記音声対話システムは、追加音声対話エージェント部を備え、前記音声対話エージェント部が、前記音声認識処理の結果に基づいて、音声認識処理の結果に基づく処理を、前記音声対話エージェント部と前記追加音声対話エージェント部とのいずれで行うかを決定し、前記音声対話エージェント部は、前記決定において、前記音声対話エージェント部で行うと決定された場合に限って、前記音声認識処理の結果に基づく処理を行い、前記決定において、前記追加音声対話エージェント部で行うと決定された場合に、前記追加音声対話エージェント部が、前記音声信号生成部によって受け付けられた音声に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、前記音声出力部が、前記追加音声対話エージェント部によって生成された応答信号に基づく音声を出力するとしてもよい。
 このようにすることで、音声対話エージェント部が処理するよりも、追加音声対話エージェント部が処理する方が適切な処理を、追加音声対話エージェント部に処理させることができるようになる。
 (d)また、前記表示部は、音声認識処理の結果に基づく処理を行うエージェント部が前記音声対話エージェント部である場合には、音声認識処理の結果に基づく処理を行うエージェント部が前記音声対話エージェント部である旨を示すように前記表示を行い、音声認識処理の結果に基づく処理を行うエージェント部が前記追加音声対話エージェント部である場合には、音声認識処理の結果に基づく処理を行うエージェント部が前記追加音声対話エージェント部である旨を示すように前記表示を行うとしてもよい。
 このようにすることで、ユーザは、処理を行うエージェント部が、音声対話エージェント部と追加音声対話エージェント部とのいずれであるかを、目視によって認識することができるようになる。
 (e)また、前記音声対話エージェント部は、前記決定において、前記追加音声対話エージェント部で行うと決定された場合に、前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号を前記追加音声対話エージェント部へ転送し、前記追加音声対話エージェント部が、前記音声対話エージェント部から転送された音声信号に対して前記音声認識処理を行うとしてもよい。
 このようにすることで、追加音声対話エージェント部は、音声対話エージェント部から転送された音声信号を利用して、音声認識処理を行うことができるようになる。
 (f)また、前記音声信号生成部が前記受付可能状態である場合において、前記音声対話エージェント部によって生成された応答信号が、新たな音声入力の受け付けは必要ない旨を示すものであるときには、前記所定期間であっても、前記音声入力制御部が、前記音声信号生成部を、前記音声入力の受け付けが不可能な受付不可能状態とするとしてもよい。
 このようにすることで、例え所定期間であっても、音声入力の受け付けが不要ならば、音声信号生成部を、受付不可能状態とすることができるようになる。
 (g)本発明の一実施形態に係る機器は、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成する音声信号生成部と、前記音声信号生成部によって生成された音声信号を、外部のサーバに送信する送信部と、前記送信部によって送信された音声信号を受信した前記サーバによって、当該音声信号に基づいて生成されて返信された応答信号を受信する受信部と、前記受信部によって受信された応答信号に基づく音声を出力する音声出力部と、前記音声出力部によって前記音声が出力される場合に、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とする音声入力制御部とを備えることを特徴とする。
 上述の、本発明の一実施形態に係る機器によると、サーバによって生成された音声が出力されたときには、ユーザは、機器に対して操作を行わなくても、音声入力を行うことが可能となる。このことによって、対話形式による音声入力に伴ってユーザが行う必要がある操作の回数が、従来よりも低減されることとなる。
 本発明に係る音声対話方法、及び機器は、ユーザから対話形式で入力された音声に基づいて処理を行う音声対話システムに広く利用することができる。
 100 音声対話システム
 110 音声対話エージェントサーバ
 120 ネットワーク
 130 ゲートウエイ
 140 機器
 210 制御部
 220 音声入力部
 230 操作受付部
 240 アドレス記憶部
 250 通信部
 260 音声出力部
 270 表示部
 280 実行部
 400 音声対話エージェント
 410 制御部
 420 通信部
 430 音声認識処理部
 440 対話DB記憶部
 450 音声合成処理部
 460 命令生成部

Claims (7)

  1.  音声信号生成部と、音声対話エージェント部と、音声出力部と、音声入力制御部とを備える音声対話システムによって行われる音声対話方法であって、
     前記音声信号生成部が、音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成し、
     前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、
     前記音声出力部が、前記音声対話エージェント部によって生成された応答信号に基づく音声を出力し、
     前記音声出力部によって前記音声が出力される場合に、前記音声入力制御部が、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とする
     ことを特徴とする音声対話方法。
  2.  前記音声対話システムは、表示部を備え、
     前記音声信号生成部が前記受付可能状態である場合に、前記表示部が、前記音声信号生成部が前記受付可能状態である旨を示す表示を行う
     ことを特徴とする請求項1記載の音声対話方法。
  3.  前記音声対話システムは、追加音声対話エージェント部を備え、
     前記音声対話エージェント部が、前記音声認識処理の結果に基づいて、音声認識処理の結果に基づく処理を、前記音声対話エージェント部と前記追加音声対話エージェント部とのいずれで行うかを決定し、
     前記音声対話エージェント部は、前記決定において、前記音声対話エージェント部で行うと決定された場合に限って、前記音声認識処理の結果に基づく処理を行い、
     前記決定において、前記追加音声対話エージェント部で行うと決定された場合に、
      前記追加音声対話エージェント部が、前記音声信号生成部によって受け付けられた音声に対して音声認識処理を行い、当該音声認識処理の結果に基づく処理を行い、当該処理に係る応答信号を生成し、
      前記音声出力部が、前記追加音声対話エージェント部によって生成された応答信号に基づく音声を出力する
     ことを特徴とする請求項2記載の音声対話方法。
  4.  前記表示部は、音声認識処理の結果に基づく処理を行うエージェント部が前記音声対話エージェント部である場合には、音声認識処理の結果に基づく処理を行うエージェント部が前記音声対話エージェント部である旨を示すように前記表示を行い、音声認識処理の結果に基づく処理を行うエージェント部が前記追加音声対話エージェント部である場合には、音声認識処理の結果に基づく処理を行うエージェント部が前記追加音声対話エージェント部である旨を示すように前記表示を行う
     ことを特徴とする請求項3記載の音声対話方法。
  5.  前記音声対話エージェント部は、前記決定において、前記追加音声対話エージェント部で行うと決定された場合に、
      前記音声対話エージェント部が、前記音声信号生成部によって生成された音声信号を前記追加音声対話エージェント部へ転送し、
      前記追加音声対話エージェント部が、前記音声対話エージェント部から転送された音声信号に対して前記音声認識処理を行う
     ことを特徴とする請求項4記載の音声対話方法。
  6.  前記音声信号生成部が前記受付可能状態である場合において、前記音声対話エージェント部によって生成された応答信号が、新たな音声入力の受け付けは必要ない旨を示すものであるときには、前記所定期間であっても、前記音声入力制御部が、前記音声信号生成部を、前記音声入力の受け付けが不可能な受付不可能状態とする
     ことを特徴とする請求項2記載の音声対話方法。
  7.  音声入力を受け付けて、受け付けた音声入力に基づく音声信号を生成する音声信号生成部と、
     前記音声信号生成部によって生成された音声信号を、外部のサーバに送信する送信部と、
     前記送信部によって送信された音声信号を受信した前記サーバによって、当該音声信号に基づいて生成されて返信された応答信号を受信する受信部と、
     前記受信部によって受信された応答信号に基づく音声を出力する音声出力部と、
     前記音声出力部によって前記音声が出力される場合に、当該出力から所定期間、前記音声信号生成部を、前記音声入力の受け付けが可能な受付可能状態とする音声入力制御部とを備える
     ことを特徴とする機器。
PCT/JP2014/003097 2013-06-19 2014-06-10 音声対話方法、及び機器 WO2014203495A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US14/777,920 US9564129B2 (en) 2013-06-19 2014-06-10 Voice interaction method, and device
EP14814417.3A EP3012833B1 (en) 2013-06-19 2014-06-10 Voice interaction method, and device
US16/268,938 USRE49014E1 (en) 2013-06-19 2014-06-10 Voice interaction method, and device
CN201480021678.6A CN105144285B (zh) 2013-06-19 2014-06-10 声音对话方法及设备
CN201810908919.9A CN108806690B (zh) 2013-06-19 2014-06-10 声音对话方法及声音对话代理服务器
JP2015522541A JP6389171B2 (ja) 2013-06-19 2014-06-10 音声対話方法、及び機器

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361836763P 2013-06-19 2013-06-19
US61/836,763 2013-06-19

Publications (1)

Publication Number Publication Date
WO2014203495A1 true WO2014203495A1 (ja) 2014-12-24

Family

ID=52104247

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/003097 WO2014203495A1 (ja) 2013-06-19 2014-06-10 音声対話方法、及び機器

Country Status (5)

Country Link
US (2) USRE49014E1 (ja)
EP (1) EP3012833B1 (ja)
JP (3) JP6389171B2 (ja)
CN (2) CN108806690B (ja)
WO (1) WO2014203495A1 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2019124647A1 (ko) * 2017-12-18 2019-06-27 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
JP2019109567A (ja) * 2017-12-15 2019-07-04 オンキヨー株式会社 電子機器、及び、電子機器の制御プログラム
WO2019225201A1 (ja) 2018-05-25 2019-11-28 ソニー株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
KR20210022579A (ko) 2018-06-25 2021-03-03 소니 주식회사 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
CN113162964A (zh) * 2020-01-23 2021-07-23 丰田自动车株式会社 代理系统、终端装置以及代理程序
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
JPWO2020105466A1 (ja) * 2018-11-21 2021-10-07 ソニーグループ株式会社 情報処理装置、及び情報処理方法
CN113689849A (zh) * 2020-05-18 2021-11-23 丰田自动车株式会社 智能体控制装置、智能体控制方法以及记录有程序的记录介质
JP2022503458A (ja) * 2019-09-12 2022-01-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP2022084707A (ja) * 2017-05-16 2022-06-07 アップル インコーポレイテッド デジタルアシスタントサービスの遠距離拡張
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation

Families Citing this family (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN108806690B (zh) * 2013-06-19 2023-05-09 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6391887B2 (ja) * 2016-04-11 2018-09-19 三菱電機株式会社 応答生成装置、対話制御システムおよび応答生成方法
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN115719592A (zh) * 2016-08-15 2023-02-28 中兴通讯股份有限公司 一种语音信息处理方法和装置
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作系统
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
JP7133969B2 (ja) * 2018-04-27 2022-09-09 シャープ株式会社 音声入力装置、及び遠隔対話システム
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10942039B2 (en) * 2018-08-06 2021-03-09 Comcast Cable Communications, Llc Methods and systems for managing communication sessions
WO2020040753A1 (en) * 2018-08-21 2020-02-27 Google Llc Automated assistant invocation of second interactive module using supplemental data provided by first interactive module
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7002823B2 (ja) * 2018-12-06 2022-01-20 アルパイン株式会社 案内音声出力制御システムおよび案内音声出力制御方法
JP6555838B1 (ja) * 2018-12-19 2019-08-07 Jeインターナショナル株式会社 音声問合せシステム、音声問合せ処理方法、スマートスピーカー運用サーバー装置、チャットボットポータルサーバー装置、およびプログラム。
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
JP7175221B2 (ja) * 2019-03-06 2022-11-18 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7198122B2 (ja) * 2019-03-07 2022-12-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7280074B2 (ja) * 2019-03-19 2023-05-23 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
JP2021117302A (ja) 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、エージェントサーバおよびエージェントプログラム
JP7264071B2 (ja) * 2020-01-23 2023-04-25 トヨタ自動車株式会社 情報処理システム、情報処理装置、及びプログラム
JP2021117296A (ja) 2020-01-23 2021-08-10 トヨタ自動車株式会社 エージェントシステム、端末装置およびエージェントプログラム
CN111292716A (zh) 2020-02-13 2020-06-16 百度在线网络技术(北京)有限公司 语音芯片和电子设备
JP2021152589A (ja) * 2020-03-24 2021-09-30 シャープ株式会社 電子機器の制御装置、制御プログラム、制御方法、電子機器
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
JP7380416B2 (ja) 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
JP2021182052A (ja) * 2020-05-18 2021-11-25 トヨタ自動車株式会社 エージェント連携装置
JP7310705B2 (ja) * 2020-05-18 2023-07-19 トヨタ自動車株式会社 エージェント制御装置、エージェント制御方法、及びエージェント制御プログラム
JP7347324B2 (ja) 2020-05-18 2023-09-20 トヨタ自動車株式会社 エージェント連携装置
JP7380415B2 (ja) 2020-05-18 2023-11-15 トヨタ自動車株式会社 エージェント制御装置
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220287110A1 (en) * 2021-03-05 2022-09-08 Samsung Electronics Co., Ltd. Electronic device and method for connecting device thereof

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1137766A (ja) * 1997-07-22 1999-02-12 Aqueous Res:Kk エージェント装置
JP2001056225A (ja) * 1999-08-17 2001-02-27 Equos Research Co Ltd エージェント装置
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP2004233794A (ja) 2003-01-31 2004-08-19 Toshiba Corp 音声認識装置、及び音声認識方法
JP2006178175A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
JP2008090545A (ja) 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
JP2013114020A (ja) * 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
JP2002116797A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
AUPO214096A0 (en) * 1996-09-04 1996-09-26 Telefonaktiebolaget Lm Ericsson (Publ) A telecommunications system and method for automatic call recognition and distribution
US6249720B1 (en) 1997-07-22 2001-06-19 Kabushikikaisha Equos Research Device mounted in vehicle
US6229880B1 (en) * 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7177402B2 (en) * 2001-03-01 2007-02-13 Applied Voice & Speech Technologies, Inc. Voice-activated interactive multimedia information processing system
US7003079B1 (en) * 2001-03-05 2006-02-21 Bbnt Solutions Llc Apparatus and method for monitoring performance of an automated response system
US7039166B1 (en) * 2001-03-05 2006-05-02 Verizon Corporate Services Group Inc. Apparatus and method for visually representing behavior of a user of an automated response system
US7573986B2 (en) * 2001-07-18 2009-08-11 Enterprise Integration Group, Inc. Method and system for interjecting comments to improve information presentation in spoken user interfaces
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
JP2004240150A (ja) * 2003-02-05 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置、音声対話装置選択方法、プログラム及び記録媒体
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
US7460652B2 (en) * 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US7117051B2 (en) * 2004-03-15 2006-10-03 Tmio, Llc Appliance communication system and method
JP4581441B2 (ja) 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
AU2005246437B2 (en) * 2004-05-21 2011-10-06 Voice On The Go Inc. Remote access system and method and intelligent agent therefor
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8880047B2 (en) * 2005-08-03 2014-11-04 Jeffrey C. Konicek Realtime, location-based cell phone enhancements, uses, and applications
US9866697B2 (en) * 2005-08-19 2018-01-09 Nexstep, Inc. Consumer electronic registration, control and support concierge device and method
US20070265831A1 (en) * 2006-05-09 2007-11-15 Itai Dinur System-Level Correction Service
WO2008072413A1 (ja) 2006-12-15 2008-06-19 Mitsubishi Electric Corporation 音声認識装置
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8150020B1 (en) * 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
CN101079885B (zh) * 2007-06-26 2010-09-01 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的系统和方法
DE112008001334B4 (de) * 2007-07-02 2016-12-15 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
WO2011089450A2 (en) * 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
JP2011232619A (ja) 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
CN103038818B (zh) * 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
US9536197B1 (en) * 2011-04-22 2017-01-03 Angel A. Penilla Methods and systems for processing data streams from data producing objects of vehicle and home entities and generating recommendations and settings
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US9300718B2 (en) * 2013-04-09 2016-03-29 Avaya Inc. System and method for keyword-based notification and delivery of content
US10546441B2 (en) * 2013-06-04 2020-01-28 Raymond Anthony Joao Control, monitoring, and/or security, apparatus and method for premises, vehicles, and/or articles
CN108806690B (zh) * 2013-06-19 2023-05-09 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1137766A (ja) * 1997-07-22 1999-02-12 Aqueous Res:Kk エージェント装置
JP2001056225A (ja) * 1999-08-17 2001-02-27 Equos Research Co Ltd エージェント装置
JP2003241797A (ja) * 2002-02-22 2003-08-29 Fujitsu Ltd 音声対話システム
JP2004233794A (ja) 2003-01-31 2004-08-19 Toshiba Corp 音声認識装置、及び音声認識方法
JP2006178175A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
JP2008090545A (ja) 2006-09-29 2008-04-17 Toshiba Corp 音声対話装置および音声対話方法
JP2013114020A (ja) * 2011-11-29 2013-06-10 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3012833A4

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP2022084707A (ja) * 2017-05-16 2022-06-07 アップル インコーポレイテッド デジタルアシスタントサービスの遠距離拡張
JP7379562B2 (ja) 2017-05-16 2023-11-14 アップル インコーポレイテッド デジタルアシスタントサービスの遠距離拡張
US11336479B2 (en) 2017-09-20 2022-05-17 Fujifilm Business Innovation Corp. Information processing apparatus, information processing method, and non-transitory computer readable medium
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019109567A (ja) * 2017-12-15 2019-07-04 オンキヨー株式会社 電子機器、及び、電子機器の制御プログラム
WO2019124647A1 (ko) * 2017-12-18 2019-06-27 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
JP2021521497A (ja) * 2018-05-04 2021-08-26 グーグル エルエルシーGoogle LLC 検出された口運動および/または注視に基づく自動化アシスタントの適応
US11614794B2 (en) 2018-05-04 2023-03-28 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US11493992B2 (en) 2018-05-04 2022-11-08 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
KR20210014625A (ko) 2018-05-25 2021-02-09 소니 주식회사 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
US11869496B2 (en) 2018-05-25 2024-01-09 Sony Corporation Information processing device and information processing method, and information processing system
WO2019225201A1 (ja) 2018-05-25 2019-11-28 ソニー株式会社 情報処理装置及び情報処理方法、並びに情報処理システム
US11234094B2 (en) 2018-06-25 2022-01-25 Sony Corporation Information processing device, information processing method, and information processing system
KR20210022579A (ko) 2018-06-25 2021-03-03 소니 주식회사 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
JPWO2020105466A1 (ja) * 2018-11-21 2021-10-07 ソニーグループ株式会社 情報処理装置、及び情報処理方法
JP7456387B2 (ja) 2018-11-21 2024-03-27 ソニーグループ株式会社 情報処理装置、及び情報処理方法
JP7052168B2 (ja) 2019-09-12 2022-04-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP2022503458A (ja) * 2019-09-12 2022-01-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド 音声処理方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
US11990130B2 (en) 2019-09-12 2024-05-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and computer storage medium for processing voices
CN113162964A (zh) * 2020-01-23 2021-07-23 丰田自动车株式会社 代理系统、终端装置以及代理程序
CN113162964B (zh) * 2020-01-23 2024-03-19 丰田自动车株式会社 代理系统、终端装置以及代理程序
JP2021182057A (ja) * 2020-05-18 2021-11-25 トヨタ自動車株式会社 エージェント制御装置
CN113689849B (zh) * 2020-05-18 2023-11-17 丰田自动车株式会社 智能体控制装置、智能体控制方法以及记录有程序的记录介质
JP7318587B2 (ja) 2020-05-18 2023-08-01 トヨタ自動車株式会社 エージェント制御装置
US11636857B2 (en) 2020-05-18 2023-04-25 Toyota Jidosha Kabushiki Kaisha Agent control device, agent control method, and storage medium storing program
CN113689849A (zh) * 2020-05-18 2021-11-23 丰田自动车株式会社 智能体控制装置、智能体控制方法以及记录有程序的记录介质

Also Published As

Publication number Publication date
CN105144285B (zh) 2018-11-02
US20160322048A1 (en) 2016-11-03
EP3012833A1 (en) 2016-04-27
JP6736617B2 (ja) 2020-08-05
CN108806690A (zh) 2018-11-13
US9564129B2 (en) 2017-02-07
EP3012833A4 (en) 2016-06-29
JP6389171B2 (ja) 2018-09-12
JP7072610B2 (ja) 2022-05-20
USRE49014E1 (en) 2022-04-05
CN108806690B (zh) 2023-05-09
EP3012833B1 (en) 2022-08-10
JP2018189984A (ja) 2018-11-29
JPWO2014203495A1 (ja) 2017-02-23
CN105144285A (zh) 2015-12-09
JP2020173477A (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
JP6736617B2 (ja) 音声対話方法、及び、音声対話エージェントサーバ
CN111123721B (zh) 具有结合声波导和散热片的紧凑型家庭助手的设计
EP3392878B1 (en) Voice recognition apparatus and voice recognition method
JP6928882B2 (ja) 情報処理装置、音声認識システム、及び、情報処理方法
US10803863B2 (en) Artificial intelligence voice recognition apparatus
JP5370432B2 (ja) 管理装置、カラオケシステム及び管理方法
CN107635214B (zh) 基于蓝牙遥控器的响应方法、装置、系统及可读存储介质
CN104350483A (zh) 电子设备的整体识别
WO2014067256A1 (zh) 一种遥控方法、智能终端及智能遥控系统
WO2021180083A1 (zh) 蓝牙通信系统和无线通信系统
CN106385621A (zh) 智能设备控制方法和装置
TWI777371B (zh) 音訊資訊傳送系統、方法、裝置及相應的兩輪車和頭盔
RU2666636C2 (ru) Система и способ управления окружающими устройствами на основе топологии
KR101889278B1 (ko) 음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말
CN113703849B (zh) 投屏应用打开方法和装置
EP1949232A2 (en) Method and apparatus for managing tasks
KR102493026B1 (ko) 심리스 서비스를 제공하는 서버, 사용자 단말 및 미디어 재생 장치
CN111988693A (zh) 基于耳机充电盒的耳机控制方法、系统及可读存储介质
CN115209213B (zh) 一种无线投屏方法及移动设备
WO2024067213A1 (zh) 人机交互的方法、电子设备及系统

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480021678.6

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14814417

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 14777920

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2015522541

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2014814417

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE