EP2596493A1 - Humanoid robot equipped with a natural dialogue interface,method for controlling the robot and corresponding program - Google Patents
Humanoid robot equipped with a natural dialogue interface,method for controlling the robot and corresponding programInfo
- Publication number
- EP2596493A1 EP2596493A1 EP11730675.3A EP11730675A EP2596493A1 EP 2596493 A1 EP2596493 A1 EP 2596493A1 EP 11730675 A EP11730675 A EP 11730675A EP 2596493 A1 EP2596493 A1 EP 2596493A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- channel
- robot
- message
- interlocutor
- messages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004891 communication Methods 0.000 claims abstract description 82
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 230000006399 behavior Effects 0.000 claims description 76
- 230000009471 action Effects 0.000 claims description 36
- 230000005540 biological transmission Effects 0.000 claims description 33
- 230000014509 gene expression Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 11
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000011161 development Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 65
- 230000033001 locomotion Effects 0.000 abstract description 37
- 241000282414 Homo sapiens Species 0.000 abstract description 30
- 238000012545 processing Methods 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 description 48
- 210000003128 head Anatomy 0.000 description 28
- 238000010586 diagram Methods 0.000 description 19
- 230000004044 response Effects 0.000 description 15
- 238000013515 script Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000000052 comparative effect Effects 0.000 description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 241000239290 Araneae Species 0.000 description 7
- 241000283073 Equus caballus Species 0.000 description 7
- 241000283973 Oryctolagus cuniculus Species 0.000 description 7
- 241000283966 Pholidota <mammal> Species 0.000 description 7
- 241000282412 Homo Species 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 241000239292 Theraphosidae Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 210000004247 hand Anatomy 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 210000003414 extremity Anatomy 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 210000000245 forearm Anatomy 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 101100468275 Caenorhabditis elegans rep-1 gene Proteins 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 241000695776 Thorichthys aureus Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 244000245420 ail Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000000617 arm Anatomy 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 235000004611 garlic Nutrition 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 201000005111 ocular hyperemia Diseases 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B15/00—Systems controlled by a computer
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/003—Controls for manipulators by means of an audio-responsive input
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Definitions
- the present invention belongs to the field of humanoid robots. More specifically, it applies to the methods of programming and the use of dialogue interfaces with a robot of this type to enable the said robot to perform actions on the order of a user, the provision of adequate responses by said robot and, more generally, restoration of "humanoid relations" between said robot and his or her interlocutors.
- a robot can be called a humanoid from the moment it has certain attributes of the appearance and functionality of the man: a head, a trunk, two arms, possibly two hands, two legs, two feet ... Beyond appearance, the functions that a humanoid robot is able to fulfill will depend on its ability to perform movements, talk and reason. Humanoid robots are able to walk, to make gestures, with the limbs or with the head. The complexity of the gestures they are able to perform increases constantly.
- the present invention solves this problem by providing a dialog interface with a humanoid robot that uses a natural mode of confirming responses.
- the present invention discloses a humanoid robot comprising at least two message communication channels with at least one interlocutor according to different modalities, said at least two channels being each chosen from the reception, transmission, and a control module group. input / output of said channels, said robot being characterized in that said control module is able to improve the understanding of the messages received by said robot by executing at least one function selected in the group combination of messages received / transmitted on a first channel and on a second channel, sending a second message generated from a first message received on a channel.
- said communication channels are chosen from the group of communication channels transmitting and / or receiving sound, visual, tactile messages, displacements and / or positions of at least part of the robot, and digital.
- a first communication channel is a sound transmission channel and a second communication channel is a reception channel for displacements and / or positions of at least a part of the robot by said at least one interlocutor, said displacements and / or or positions being representative of inputs communicated by the interlocutor to the robot, the specifications of said inputs being defined by the robot to the interlocutor by the message transmitted on the first channel.
- the robot of the invention further comprises a third touch communication channel by which the interlocutor validates the inputs made on the second channel.
- a first communication channel is a sound message reception channel and a second communication channel is a sound message transmission channel and in that said control module is able to evaluate the level of confidence of the understanding by said robot of a first message received on said first channel and generating at least a second message on said second channel whose content depends on said confidence level.
- the first channel comprises a voice recognition filter messages received by a list of expressions each of which is associated with an expected recognition rate and that the content of said second message is chosen by a heuristic in the group comprising repetition of said first message on the first channel, confirmation request by a third message to be sent by the interlocutor on the first channel of a subset of the expressions of the filter, transmission request by the interlocutor of at least one another message on at least one third channel.
- the robot of the invention is able to transmit on the second channel a start of listening signal on the first channel to ensure the half-duplex mode sequencing messages on the first and second channel.
- said choice heuristic is a function of the position of the real recognition rates with respect to thresholds determined from the expected recognition rates.
- said third channel is a touch reception channel or displacements of a part of the robot.
- the robot of the invention further comprises an interface module with an electronic mail, said interface module allowing an account holder on said messaging to use said robot as an agent for receiving / reading messages.
- electronic on the second channel write / forward on the first channel and administer said account by dialogue using said first and second channel.
- said third channel is a visual reception channel for images of objects corresponding to the list of expressions of the filter of the first channel, said images being compared to an image database of said objects previously recorded with said accessible expressions.
- a first communication channel is a visual message reception channel and a second communication channel is a sound message transmission channel and in that said control module is able to evaluate the level of confidence of the understanding by said robot of a first message received on said first channel and generating at least a second message on said second channel whose content depends on said confidence level.
- the first channel comprises an image recognition filter of the messages received by a list of expressions to each of which is associated an expected recognition rate and in that the content of said second message is chosen by a heuristic in the group comprising request for repetition of said first message on the first channel, request for confirmation by a third message to be sent by the party on a third channel for receiving sound messages of a subset of the expressions of the filter, transmission request by the interlocutor of at least one other message on at least one fourth channel.
- at least one of the channels is a hybrid channel receiving as inputs the outputs of two channels merged by said input and output control module.
- the invention also discloses a method for controlling the communications of a humanoid robot with at least one interlocutor comprising at least two message transmission steps by communication channels using different modalities, said two steps being each chosen in the reception group , transmission, and a control step of the inputs / outputs of said channels, said robot being characterized in that said control step is able to improve the understanding of the messages received by said robot by performing at least one function selected in the combination group of messages received / transmitted on a first channel and a second channel, sending a second message generated from a first message received on a channel.
- the invention also discloses a computer program comprising program code instructions for executing the above method when the program is run on a computer, said program being adapted to allow a humanoid robot comprising at least two channels communicating messages with at least one interlocutor according to different modalities, said at least two channels being each chosen from the reception group, transmission, and a sub-program for controlling the inputs / outputs of said channels, said computer program being characterized in that said control routine is able to improve the understanding of the messages received by said robot by executing at least one function selected in the group combination of messages received / transmitted on a first channel and on a second channel, transmission of a second message generated from a first message received on a channel.
- the invention also discloses a method of developing a communication interface between at least one humanoid robot and at least one interlocutor, said at least one humanoid robot comprising at least two message communication channels with the at least one interlocutor according to different modalities, said at least two channels being each chosen in the reception group, transmission, and an input / output control module of said channels, said control module being able to improve the understanding of the messages received by said robot in performing at least one function selected from the combination group of received / transmitted messages on a first channel and a second channel, transmitting a second message generated from a first message received on a channel, said method being characterized in that it comprises a programming step of said chosen function.
- said step of programming said chosen function comprises at least one substep of defining a first communication channel as a sound transmission channel and a second communication channel as a travel receiving channel. at least one robot member by said at least one interlocutor, a sub-step of defining a correspondence between said movements and inputs communicated by the interlocutor to the robot, and a substep of defining the specifications of said inputs by generating at least one message to be transmitted by the robot to the interlocutor on the first channel.
- the development method of the invention further comprises a substep of defining a third touch communication channel by which the interlocutor validates the inputs made on the second channel.
- the steps of the development method of the invention are carried out via at least one control box in which a main action frame to be performed by said robot is connected to at least one event selected from the group. antecedent events and successor events to the action to be programmed and programmed to take place according to a temporal constraint predefined by a Timeline.
- said programming step of said selected function comprises at least one sub-step of defining a first channel of communication as a sound message receiving channel and a second communication channel as a sound message transmission channel, a sub-step of defining a confidence level evaluation function of the understanding by said robot of a first message received on said first channel and a substep of defining the generation of at least a second message on said second channel whose content depends on said confidence level.
- the development method of the invention further comprises a substep of defining a voice recognition filter of the messages received on the first channel by a list of expressions each of which is associated with an expected recognition rate and a sub-step of defining the content of said second message by a heuristic chosen in the request group of repetition of said first message on the first channel, confirmation request by a third message to be sent by the interlocutor on the first channel of a sub all the expressions of the filter, request for transmission by the interlocutor of at least one other message on at least one third channel.
- the steps of the development method of the invention are carried out via at least one control box in which a main action frame to be performed by said robot is connected to at least one event selected from the group. antecedent events and successor events to the action to be programmed and programmed to take place according to a temporal constraint predefined by a timeline, said command box being a choice type box.
- the invention also discloses a computer program comprising program code instructions for executing the above development method when the program is run on a computer, said program being adapted to allow a user to program a robot.
- humanoid device comprising at least two message communication channels with at least one interlocutor according to different modalities, said at least two channels being each selected from the reception, transmission group, and a control subprogram of input / output of said channels, said computer program being characterized in that it comprises a programming module in the control routine of at least one function to be executed by the selected robot in the group of received messages / transmitted on a first channel and a second channel, sending a second message generated from a first message received on a channel.
- the computer program of the invention further comprises a module for programming the passage of at least one parameter to a control box.
- the computer program of the invention further comprises a module for programming the return of the inputs of a visual communication channel of the robot in the interface of said program.
- the computer program of the invention further comprises a module for programming behaviors of the robot running in parallel.
- the interface of the invention also has the advantage of offering multimodal confirmation modes that can easily be adapted to the environment in which the dialogue is executed, for example if the ambient noise is too high for the voice recognition may have some effectiveness.
- the user can be asked to replace / confirm ambiguous answers with a touch, a gesture or the display of a particular numerical symbol, color or shape.
- the user has at his disposal means enabling him to intuitively replace or emulate the traditional interfaces that he is used to using when he is facing his computer or using a smart phone or a touch pad.
- the modes of expression of the robot can themselves be multimodal, combining inter alia intonation, gaze, gesture to hold the attention of his interlocutor and communicate emotions or clues to answers to provide.
- the interface of the invention contributes to to improve the results of the recognition system and to enhance the quality of the experience of the user immersed in a "real virtuality", that is to say that of a dialogue with a physically embodied avatar.
- the invention also provides an environment for developing these interfaces, ergonomic and versatile, which makes it very easy to create, in a very short time, new interaction scenarios specially adapted for uses of the robot not imagined by its designer.
- FIG. 1 is a diagram of the physical architecture of a humanoid robot in several embodiments of the invention
- FIG. 2 illustrates the head of a humanoid robot comprising sensors that are useful for implementing the invention in several of its embodiments;
- FIG. 3 is a schematic diagram of the architecture of high level software for controlling the functions of the robot in several embodiments of the invention.
- FIG. 4 is a diagram of the functional architecture for editing and programming the behaviors / interactions of a robot in several embodiments of the invention
- FIG. 5 is a functional flowchart of the treatments generally applied to improve the interpretation given by a humanoid robot of the responses / stimuli it receives in several embodiments of the invention
- FIG. 6 is a logic diagram for programming the behaviors / interactions of a robot in several embodiments of the invention.
- FIGS. 7a, 7b and 7c represent timing diagrams illustrating the logical and temporal combination of the interactions of a multimodal interface in several embodiments of the invention.
- FIGS. 8a, 8b, 8c, 8d and 8e show a series of screens making it possible to program a dialogue with a robot humanoid with binary choice and option of changing the interaction language in one embodiment of the invention
- FIGS. 9a, 9b, 9c, 9d and 9e show a series of screens making it possible to program a dialogue with a humanoid robot with choice choices in a list and option of changing the language of interaction in one embodiment of the invention. 'invention;
- FIGS. 10a, 10b, 10c and 10d show a series of screens making it possible to perform a comparative speech recognition test between several options of a list of choices in one embodiment of the invention
- FIGS. 11a and 11b show a series of screens making it possible to replace or supplement options of a list of choices and to perform a new comparative speech recognition test between several options in one embodiment of the invention. 'invention;
- FIGS. 12a, 12b, 12c and 12d show a series of screens making it possible to perform a comparative voice recognition test between several options of a list of choices in a language different from that of the question in one embodiment of the invention. the invention;
- FIGS. 13a, 13b, 13c and 13d show a series of screens making it possible to check / modify the thresholds of the comparative speech recognition tests between several options of a list of choices in one embodiment of the invention.
- FIG 1 illustrates the physical architecture of a humanoid robot in one embodiment of the invention.
- a humanoid robot has been disclosed in particular in the patent application WO2009 / 124951 published on 15/10/2009.
- This platform served as a basis for the improvements that led to the present invention.
- this humanoid robot can be indifferently referred to under this generic name or under its trademark NAO TM, without the generality of the reference being modified.
- This robot comprises about two dozen electronic cards type 1 10 control sensors and actuators that control the joints.
- the card 1 10 shown in the figure is the one that controls the left foot.
- a The virtues of architecture are that the cards controlling the joints are for the most part interchangeable.
- a joint normally has at least two degrees of freedom and therefore two motors.
- the joint also includes several position sensors, including MRE (Magnetic Rotary Encoder).
- MRE Magnetic Rotary Encoder
- the electronic control card includes a commercial microcontroller. It can be for example a DSPIC TM of the company Microchip. It is a 16-bit MCU coupled to a DSP. This MCU has a servo loop cycle of one ms.
- the robot can also include other types of actuators, including LEDs (electroluminescent diodes) whose color and intensity can reflect the emotions of the robot. It may also include other types of position sensors, including an inertial unit, FSR (ground pressure sensors), etc ....
- the head 160 includes the intelligence of the robot, including the card 130 which performs the high-level functions that allow the robot to perform the tasks assigned to it, including, in the context of the present invention, participation in games.
- the card 130 could however be located elsewhere in the robot, for example in the trunk. However, we will see that this location, when the head is removable, can replace these high-level functions and thus in particular to completely change the intelligence of the robot and therefore its missions very quickly. Or conversely to change a body by another (for example a defective body by a non defective) keeping the same artificial intelligence.
- the head may also include specialized cards, especially in the speech or vision processing or also in the processing of service inputs / outputs, such as the encoding necessary to open a port to establish a communication remotely over Wide Area Network (WAN).
- WAN Wide Area Network
- the processor of the card 130 may be a commercial x86 processor.
- a low-power processor such as the Géode TM from AMD (32-bit, 500 MHz) will be favorably selected.
- the card also includes a set of RAM and flash memories. This card also manages the communication of the robot with the outside (behavior server, other robots ...), normally on a WiFi transmission layer, WiMax, possibly on a public network of mobile data communications with standard protocols possibly encapsulated in a VPN.
- the processor is normally controlled by a standard OS which allows to use the usual high-level languages (C, C ++, Python, ...) or the specific languages of artificial intelligence like URBI (programming language specialized in robotics) for programming high-level functions.
- a card 120 is housed in the trunk of the robot. This is where the computer that provides the transmission to cards 1 10 orders calculated by the card 130. This card could be housed elsewhere in the robot. But the location in the trunk is advantageous because it is located near the head and at the crossroads of the four members, which allows to minimize the connectivity connecting the card 130 to the card 120 and cards 1 10.
- the calculator of this card 120 is also a commercial processor. This may advantageously be a 32-bit processor of the ARM 9 TM type clocked at 100 MHz. The type of processor, its central position, close to the on / off button, its connection to the control of the power supply make it a tool well adapted for the management of the power supply of the robot (standby mode, emergency stop,. ..).
- the card also includes a set of RAM and flash memories.
- FIG. 2a and 2b respectively show a front view and a side view of the head of a humanoid robot having sensors useful for the implementation of the invention in several of its embodiments.
- the head 160 of Figure 1 is improved to a head 200a, 200b, so as to provide the robot with sensory capabilities and expressions that are useful in the practice of the present invention.
- NAO has 4 omnidirectional microphones 21a, 212a, 213a, 214a, for example KEEG1540PBL-A provided by Kingstate Electronics Corp., 21a at the front, 214a at the back and 212a and 213a. on each side of the head (see also Figure 2b), of which only the access holes to the outside are visible in the figures because they are distributed to the inside of the head.
- a voice recognition and analysis system for example a BabEAR TM system provided by the company Acapela TM, recognizes a corpus of predefined words that a user having the appropriate interfaces, presented more far in the description, can enrich with its own terms. These words trigger the behavior of his choice, including answers to questions interpreted by the robot.
- the software environment supports multiple languages, as indicated later in the description. NAO is also able to detect the origin of a sound, which allows it to remove ambiguities between several speakers.
- NAO sees through two 640x480 CMOS cameras, 220a, capable of capturing 30 frames per second, for example of brand cameras Omnivision TM reference 0V760 (CMOS sensor 1/6 th inch: 3.6 ⁇ pixels).
- the first camera placed at the forehead is pointed towards its horizon, while the second placed at the level of the mouth, scrutinizes its immediate environment.
- the software can retrieve photos of what NAO sees and the video stream.
- NAO embeds a set of face detection and recognition algorithms, shapes, which allow it to recognize its interlocutor, to locate a ball as well as more complex objects.
- NAO is equipped with a capacitive sensor, 230a, for example divided into three sections and developed specifically by the plaintiff for this application. More than three sections could be planned for particular applications. It is thus possible to give information to NAO by touch, for example by pressing a series of buttons allowing the triggering of actions defined by the application, which may be, in the context of the present invention, different responses associated with each button, a scroll in a list of choices, access to a help menu, etc.
- the system is accompanied by LEDs that indicate whether there is contact.
- NAO can express itself by reading aloud any text file residing locally in its storage space, for example programmed according to the modes explained later in the description or retrieved from a website or an RSS feed.
- With 2 loudspeakers, 210b arranged on each side of the head, its voice synthesis system Acapela Acapela Acapela for example, is configurable, which allows changes in particular the speed and / or tone of the voice .
- FIG. 3 is a diagram of the architecture of high level software for controlling the functions of the robot in one embodiment of the invention.
- FIG. 3 is very schematically represented a first humanoid robot RH1 communicating with a first remote terminal TD1, for example by wireless link for reasons of mobility.
- Remote terminal means a remote terminal of the server platform PFS, providing, via a communication network, access to a web service SW, dedicated to this type of humanoid robot RH1.
- a second humanoid robot RH2 communicates with a second remote terminal TD2, for example also by wireless link so as not to hinder the mobility of the humanoid robot RH2.
- the TD1 and TD2 remote terminals and the PFS server platform are networked via the RC communication network.
- the respective modules M51, M52, M21, M22, M41, M42, M1 1, M12, M31, M32 of the linking modules B5, B2, B4, B1 and B3 are in this example represented in number of two per module. linking, but this number may be different and any for each linking module.
- the first humanoid robot RH1 triggers the module M1 1 which must first use a function "On".
- the module M1 1 then uses a connection interface module and function call or proxy P1 which makes a request to the connection module B1 to which the module M1 1 is linked.
- the linking module B1 makes requests to its own modules and modules for connecting the network to which it is directly connected (child contact modules) which repeat this operation iteratively until a network matching module responds to the request with the location of the called function it has in a module.
- the response to the request is also transmitted iteratively by the parent linking modules (in the opposite direction) to the connection module B1 directly linked to the proxy P1 needing to connect and call this function.
- the function requested for the step is located in the module M41 of the second remote terminal TD2.
- the connection module B4 returned the call parameters of the "on" function, which, for example, contain an integer duration parameter in seconds representing the duration during which the robot is going to walk, and a parameter Exclusive, of Boolean type, representing the exclusive or not running of the robot, ie if the robot is allowed to do another action or not while walking.
- the walk function with the parameter Duration equal to 10 and the Exclusive parameter equal to 1, because we want it to speak after having walked for 10 seconds in this example.
- connection and call interface module P1 can thus make the connection and the call of the "on" function with the desired parameters, remotely, as if it were located locally.
- the connection interface and function call modules use intercom software capable of calling a function of a module located on a different terminal or server, the function being able to be written by a series of instructions in a computer language different from that of the calling module.
- Proxies use, for example, the SOAP intercommunication software. We therefore have an inter-platform and inter-language communication architecture. Once this function delocalized "on” carried out, the module M1 1 must call a function "speaks".
- Another connection interface and function call or P2 proxy module makes a request to the connection module B1 to which the module M1 1 is linked.
- connection module B1 makes a request to its own modules M1 1 and M12 in a first step, through a function performed in the form of a sequence of stored instructions, which goes, by example, return the presence of this function "speaks" in the module M12.
- the connection module B1 informs the connection interface module and function call P2 which can then call directly, by a call-type call local the "speak" function of the module M12, with as parameter, for example, the text to say "hello", this parameter having been transmitted to the P2 proxy by the linking module B1.
- the system comprises an STM storage and management module (short for "Short Term Memory” in English) of parameters representative of the state of the mobile terminal, in this case the humanoid robot RH1, adapted to set day the values of said parameters on receipt of an external event, and to inform a module, upon prior request, of an update of one of said stored parameter. Also the module prevented will be able to initiate an action according to the modifications of parameters of which it was informed.
- STM storage and management module short for "Short Term Memory” in English
- the STM storage and management module can memorize the state of a parameter representative of the appearance of someone detected by a motion detector of the robot RH1.
- this parameter passes from a representative state of person in the immediate environment of the robot to a representative state of someone present in the immediate environment of the robot, on request previously carried out by the module M1 1, the memory module and STM prevents, by an event or signal, this change in value.
- the module M1 1 can then, for example, automatically trigger the successive triggering described above (the functions "on” and "speaks").
- the storage and management module STM is part of the remote terminal TD1, but, as a variant, it can be part of the other remote terminal TD2, of the server platform PFS, or a humanoid robot RH1 or RH2.
- the STM storage and management module is also capable of storing in memory a temporal evolution of certain parameters over respective reference time intervals.
- a module of the system can, in addition, have access to the evolution of the values of these parameters for a certain duration, and take into account these changes in the actions to be carried out.
- the modules of the called functions can be located on the server platform PGS, on a humanoid robot RH1, RH2 or on a remote terminal TD1, TD2 of the communication network RC.
- the present invention makes it possible to have a program distributed over the network, and an identical operation of the mobile terminal, whether it makes a local or remote call to a function.
- the present architecture also makes it possible to have a set of stored parameters representative of the state of the mobile terminal, and to be able to take account of changes in this state to trigger certain actions automatically.
- the storage and management module can also record an evolution of parameter values during a predetermined time interval, which allows a module to have access to a history of the evolution of these parameters.
- NAOQI a system for operating and managing robot interfaces
- FIG. 4 is a diagram of the functional architecture for editing and programming the behaviors of a robot in one embodiment of the invention.
- Choregraph TM Such an architecture has been described by patent application PCT / EP2010 / 057111 filed on 25/05/2010.
- the software for editing and programming the behaviors of a humanoid robot for implementing said architecture is commercially known as Choregraph TM, and may be denoted by its generic name or by its commercial name, without altering the generality of the references.
- the robot controlled by this architecture may be a humanoid robot having a head, a trunk and four members, each of the parts being articulated, each articulation being controlled by one or more motors.
- This architecture allows a user of the system to control such a robot by creating simulated behaviors on a virtual robot and executed on the real robot connected to the system by a wired or wireless link.
- behaviors such as walking - straight, right or left of n not, a hello - movements of one of the arms above the head speech, etc.
- movements of the head, part of a member, a given angle
- Figure 4 is a process flow diagram that illustrates the articulation of the commands triggered by events with their temporal dimension. Commands triggered by events are represented in the semantics of the invention by Boxes or "Boxes” or “Control Boxes” 410.
- a Box is a tree-based programming structure that may include one or more of the following elements that are defined next:
- timeline or time axis of 420 frames
- Control boxes are normally interconnected by connections that most often transmit event information from one Box to another, as detailed later in the description. Any Box is connected directly or indirectly to a "Root Box” or Root that initializes the behavior / motion scenario of the robot.
- a time axis of Frames 420 represents the temporal constraint to which the behaviors and movements of the robot defined in the box in which the said time axis of frames is inserted.
- the Timeline thus synchronizes the behaviors and movements of the Box. It is divided into frames which are associated with a run rate defined in number of frames per second or Frames Per Second (FPS).
- the FPS of each Timeline is customizable by the user. By default, the FPS can be set to a given value, for example 15 FPS.
- a Timeline can include:
- Behavior Layers or "Behavior Layers” 430 each comprising one or more Behavior Key Frames or “Behavior Principal Frames” 450, which may themselves include one or more Diagrams or "flow diagrams” 470, which are actually sets of boxes that can also be directly attached to a higher level mailbox, without going through a Behavior Layer or a Timeline;
- One or more Motion Layers or "Motion Layers” 440 each comprising one or more Motion Key Frames or "Main Motion Frames” 460 which may include one or more Motion Screens or "Motion Screens” 480.
- a behavior layer defines a set of behaviors of the robot or main behavior patterns. Several behavior layers can be defined within the same box. They will then be programmed to run synchronously by the Timeline of the Box.
- a behavior layer may include one or more main patterns of behavior.
- a main behavior matrix defines a behavior of the robot, such as walking ("Walk"), speech (“Say”), the music game (“Music”) ...
- a certain number of behaviors are pre-programmed in the system of the invention to be directly inserted by the user in a simple "drag and drop” from a library as detailed later in the description.
- Each Primary Behavior Frame is defined by a trigger event that is the start of the frame to which it is inserted into the Timeline.
- the end of the Main Behavior Frame is defined only to the extent that another Main Behavior Frame is inserted after it, or if an end event is defined.
- a Movement Layer defines a set of robot motions that are programmed by one or more successive main Motion Frames that group movements of the robot's joint motors. These movements to be executed are defined by the angular positions of arrival of said engines that can be programmed by action on motion screens, said actions being detailed further in the description. All the main Motion Frames of the same Box are synchronized by the Timeline of the Box.
- a Main Motion Frame is defined by an Arrival Frame. The starting frame is the ending frame of the previous main movement frame or the start event of the box.
- the Main Behavior Frames and the Main Motion Frames are commonly referred to as Main Action Frame.
- a flow diagram is a set of connected boxes, as detailed below.
- Each of the Boxes may in turn include other timelines to which new patterns of behavior or movement are attached.
- a script is a program directly executable by the robot.
- the scripts are privilegedly written in C ++ language.
- a Box that includes a script does not include any other element.
- the software can be installed on a PC or other personal computer platform using a Windows TM, Mac TM or Linux TM operating system.
- the humanoid robot of the present invention will generally be programmed to interact with a human being using the Choregraph TM software.
- Choregraph TM software The combination of temporal and behavioral logics made possible by this development architecture is particularly advantageous for the implementation of the present invention.
- a number of tools, discussed later in the following description, have been particularly developed for the implementation of a humanoid robot with a natural dialogue interface in the context of the present invention.
- FIG. 5 is a functional flowchart of the treatments generally applied to improve the interpretation given by a humanoid robot of the response / stimuli it receives in several embodiments of the invention.
- GUI components in English: GUI Elements or Graphical User Interface Elements
- text box in English
- OK / Cancel buttons checkboxes
- radio buttons or Combo Boxes.
- the existing autonomous robots can set up simple human-robot interfaces, such as voice recognition, but in the prior art, no multimodal, regionalized (allowing multilingualism) and fail-managing user interface elements provided to users and developers.
- the human does not speak naturally to a robot because he does not find his human references, that is to say, the gestures and the behaviors that a human would have in the same situation.
- the interaction will not be particularly natural if the robot does not look in the direction of the human, usual interaction in the Man-Man interaction.
- the type of voice recognition compatible with the computer resources embedded on a multi-function humanoid robot does not effectively manage interactions with multiple users.
- speech synthesis is usually programmed with pre-written sentences by humans, whether a story invented for the robot or an email written by a human and that the robot will read. There is therefore a lack of elements to bring the Man-robot interaction closer to a Man-Man interaction.
- the human-robot interfaces of the prior art do not have enough multi-modality or interaction codes to simulate a natural human-human interaction and contribute to the success of the interaction.
- the interface uses knowledge already acquired by the user and even those he uses daily, the experience will be much easier and will require little learning from the user .
- sweeping a room in a virtual world will be all the more instinctively with a virtual reality headset by moving your head than by pressing the arrows on a computer keyboard.
- the solution of the invention proposes user interface elements, combining software and hardware, adapted to an autonomous humanoid robot.
- GUI Elements used above to the behaviors of a robot
- UlElements can for example be defined to simply code actions such as:
- the UlElements of the invention are elements that can be used and parameterized easily by a behavior developer. These are mainly choreographic boxes that become GUIs Basic elements for programming behaviors. Notably, some of these boxes include Choreographer plugins, encoded in C ++ using a Widget library produced by the Qt TM environment for developing GUI components.
- This module comprises, physically or logically, the transmission / reception preprocessing means of the specialized communication channels of which the robot is equipped.
- a type 1 receiver channel 521 corresponds to human hearing and enables a robot to acquire sound signals, preferably messages voice with semantic content.
- the robot can be equipped with microphones 210a shown in Figure 2a.
- the outputs of this channel are normally preprocessed by a dedicated signal processing processor that executes speech recognition algorithms. These algorithms can be more or less complex and variable in effectiveness depending on the environment in which they are used (ambient noise, multi speakers ...) and the achievement of specific learning more or less complete. In all configurations, however, recognition errors are unavoidable.
- a type 1 transmitter channel 531 corresponds to human speech and enables a robot to speak, that is to say to pronounce semantic content voice messages, for example via speakers 210b represented on the device.
- Figure 2b The language, timbre, rhythm and tone of the voice can be varied depending on the context and to express a feeling. But these sounds can also be beeps, prerecorded music, it being understood that the beep, in Morse sequence for example, and the music, according to pre-established codes, can also have a semantic content.
- a type 2 receiver channel 522 corresponds to human vision and allows a robot to locate its environment and acquire images that it can then recognize if they are stored in a memory accessible to it.
- the robot can be equipped for example CMOS cameras 220a shown in Figure 2a.
- One of the cameras is preferably dedicated to distant vision, the other to near vision.
- the image recognition algorithms are adapted to allow detection or recognition of the faces of the interlocutors of the robot. Again, whatever the performance of recognition, uncertainties or errors are inevitable.
- Image recognition can also be applied to simple shapes such as figures presented to the robot on visuals or marks, the meaning of which can be defined by coding.
- a transmitter channel 532 of type 2 is an artificial channel without direct human equivalent. This channel allows the emission of light signals produced by LEDs implanted on the body of the robot. Many LEDs can be provided, especially on the eyes, ears, torso, feet. They may have different colors and may have variable frequency flashing capability. This channel provides the robot with simple and powerful means of sending messages. In particular, a particular code can be defined and programmed by a user.
- a 523 type 3 receiver channel is a channel equivalent to human touch. This channel is however limited in its tactile areas. These may for example be concentrated in a touch sensor such as the sensor 230a shown in Figure 2a.
- the interlocutor of the robot will activate the touch sensor to communicate a message to the robot, binary type (validation of an action) or more complex.
- the information received by this channel can indeed correspond to a code defined by the user, either unitary (tape, caress respectively having a meaning of punishment and reward), or sequential Morse type.
- a specific touch sensor is not necessarily necessary to define a communication channel of this type.
- a channel of the same type to the extent that it receives a contact action from a speaker, can be defined in which the message sensor is a continuous analog sensor represented by the positions of the arms and / or forearms of the robot, said positions being representative of digital values communicated by the interlocutor to the robot, as will be explained later in the following description.
- the robot knows at any moment the angular positions of its joints and therefore knows how to interpret as a message variations thereof caused by a displacement under the action of the interlocutor, if the meaning of said displacement has been defined to advance.
- a simple touch of a limb (the forearm for example) can also be detected by the angular position sensors of the joints of the robot. Sudden movements, such as jolts or uplift, can be detected by the robot's inertial unit and its foot-sole sensors (FSR), respectively.
- FSR foot-sole sensors
- a type 533 transmitter channel of type 3 is equivalent to the human gesture.
- the head can be endowed with two degrees of freedom: displacement in azimuth, measured by a yaw angle (or yaw in English) and displacement in elevation, measured by a pitch angle (or pitch in English).
- These two movements traditionally define approval (pitch) or denial (yaw) messages. They also allow the robot to lead his gaze towards the interlocutor with whom he is in conversation.
- the shoulders, elbows, wrists can be respectively given the following degrees of freedom: pitch and roll (roll or twist right / left); yaw; yaw.
- the hand can have opening and closing capabilities. Combinations of the movements of these joints make it possible to define the content of messages to be communicated to the interlocutors of the robot by this channel.
- the robot can receive and transmit signals via infrared, Bluetooth or Wifi connection. It is therefore possible for an interlocutor to transmit messages to the robot via this channel, in particular by using a remote control programmed for this purpose, for example an Apple TM iPhone TM or another phone with motion capture and / or positioning.
- a robot can send messages to another robot via these communication ports.
- a message communication channel can be defined by merging different type channels into a hybrid type channel.
- the outputs of a sound channel with speech recognition and a visual channel with image recognition can be combined to create a new channel whose outputs will be enhanced by a data fusion process.
- the output output of this channel is a priori a higher level of confidence than those of the two outputs taken separately.
- interlocutors 541 and 542 of the robot are shown in FIG. 5 .
- the interlocutors can be located at a distance from the robot, provided they are connected to the room where it is located by the data links for transmitting the audio and / or visual signals necessary for the exchange of messages. .
- the use of type 3 communication channels that require physical contact will not be possible.
- the relative position of the robot with respect to its interlocutors and with respect to its environment can also be measured by particular sensors (speech recognition associated with a location of the speaker, image recognition, ultrasonic sensor, etc.) and be interpreted, for example, crossed with an analysis of volume, tone or expression to characterize the nature of the human dialogue / robot and possibly modify its progress.
- sensors speech recognition associated with a location of the speaker, image recognition, ultrasonic sensor, etc.
- module 510 The logic control of the inputs / outputs of these different communication channels is performed by module 510.
- the input / output control module of the communication channels 510 can also be used more simply to combine message entries, this combination to virtually eliminate any possibility of doubt in the "mind" of the robot.
- the programming of the combination function of the inputs received by a receiver channel and the outputs transmitted by a receiver channel can be achieved in a simple way using BUIEIements.
- BUIEIements constituted by a command box of type Choice or Box Choice. This represents a way of making a choice in a closed list. It is especially adapted to the recognition of a limited number of words and sentences, within the framework a dialogue, the robot can ask a question before listening to the choice of the user.
- the robot states on its type 1 transmitter channel 531, the minimum number and the maximum number available to the user, and tends to its interlocutor one of his arms, the latter being in weak servo.
- This arm will constitute the receiver channel 523 of type 3 of Figure 5.
- the low position of the arm is associated with the minimum figure, the high position to the maximum figure.
- the user thus uses the robot arm as a cursor to choose its number.
- the robot knows the position of his arm thanks to the sensors available on the ShoulderPitch. To enhance this interaction, the robot looks at his hand while the user moves his arm. At each change of position, the robot can state the number chosen.
- the user can validate his choice by touching the middle touch sensor on the head of the robot, using another type 523 receiver channel 3. It is also possible, especially in case of too many numbers in relation to the accuracy of the sensors, one arm allows to make a rough adjustment, and the second to choose more precisely. Lists of ordered expressions can be represented by numbers. The procedure above then becomes a modality of choice in a drop-down menu announced by the robot.
- An alternative for selecting a digit is to use only the touch sensor. For example :
- FIG. 6 is a logic diagram for programming the behaviors / interactions of a robot in several embodiments of the invention.
- the example illustrated by the figure is a scenario where a robot dialogues with an interlocutor who offers him a choice in a list of words, for example in the case of a guessing game.
- a type 1 receive channel, a type 3 receive channel, and a type 1 transmit channel are used.
- the actions represented by the code 610 in the figure are actions of a robot interlocutor: a choice made by the user on a list, for example, previously stated by the robot; timeout (or lack of choice); answer "yes / no" to a request for confirmation of understanding of one or more words on this list.
- the actions represented by the code 620 in the figure are actions of the robot that will be activated according to the state of the internal variables represented by the code 630.
- the significance of these internal variables is as follows:
- r probability rate of recognition by the robot of the word spoken by the user among those of the list of choices
- - f cumulative number of recognition failures
- t number of timeouts (or no choice by the interlocutor after a predefined time);
- threshold 2 of probability of recognition rate - tmax: maximum number of possible timeouts
- fmax maximum number of possible failures.
- timeout is treated corresponds to the application to the problem posed of a simple principle of everyday human life: "Who does not say a word consents ".
- NAO listens to the user / interlocutor and the variables f and t are initialized to zero. If the interlocutor passes the predetermined timeout time, the timeout counter is incremented and if the maximum number of timeouts is reached, the interaction loop is interrupted.
- This application can be initialized either in a behavior in a deterministic context where a specific action made by the user will trigger it such as an interpellation of the robot, in a game to know the number of players when it is started or by the support on one of the tactile sensors of the head, either in the context of an artificial intelligence which will trigger it according to parameters such as the detected presence of a human being, the time of day or more generally, the history of events of the day stored by the robot.
- the probability rate of measured recognition r is compared with thresholds S1 and S2 (S1 ⁇ S2), expected recognition probability rates, which will be described later. of which they are determined.
- the robot also indicates "I did not understand” and activates another "activateHelpWhenFailure” function consisting in providing the listener with the list of choices and asking the other person to use its tactile sensor, telling him how to use it; beyond (3 ⁇ f ⁇ fmax), the robot can pronounce sentences telling the other person that the conditions for an efficient conversation are not fulfilled, such as "there is too much "noise", which will normally prompt the caller to stop the conversation.
- the robot can activate that of the functions "activateHelpWhenFailure” consisting of repeating the list of choices;
- FIGS. 7a, 7b and 7c represent timing diagrams illustrating the logical and temporal combination of the interactions of a multimodal interface in several embodiments of the invention.
- Choice Boxes are Boxes such as those illustrated under item 410 in FIG. 4, but they are a particular type allowing the particularly effective programming of specialized behaviors for a natural dialogue.
- - 710a denotes the actions / words of the robot or its interlocutor
- 720a denotes the touch sensor
- 750a designates the LEDs of the face of the robot in a rotating animated position
- 760a designates the LED flash of the robot's face (which may be of different colors depending on the robot's understanding of the message received);
- R1, R2 and R3 respectively denote a case where the robot unambiguously understands, a case where the robot understands but doubt and a case where the robot does not understand at all; - In Figure 7c, 710c designates the function "Return to the previous menu".
- LEDs 750a of the face of the robot possibly the LED flash to punctuate the exchange of questions and answers: the LEDs are in fixed position 751 a to indicate that the robot detects speech and analysis;
- FIGS. 8a, 8b, 8c, 8d and 8e show a series of screens making it possible to program a dialogue with a humanoid robot with a binary choice and an option to change the language of interaction in one embodiment of the invention
- FIGS. 9a, 9b, 9c, 9d and 9e show a series of screens making it possible to program a dialogue with a humanoid robot with choice choices in a list and option of changing the interaction language in one embodiment of the invention. invention
- FIGS. 10a, 10b, 10c and 10d show a series of screens making it possible to perform a comparative voice recognition test between several options of a list of choices in one embodiment of the invention
- FIGS. 11a and 11b show a series of screens making it possible to replace or supplement options of a list of choices and to perform a new comparative speech recognition test between several options in one embodiment of the invention.
- Figures 12a, 12b, 12c and 12d show a sequence of screens for performing a comparative speech recognition test between several options of a choice list in a language different from that of the question in an embodiment of the invention. 'invention;
- FIGS. 13a, 13b, 13c and 13d show a series of screens making it possible to check / modify the thresholds of the comparative speech recognition tests between several options of a list of choices in one embodiment of the invention.
- a Choice Box allows a user to choose a response from a predefined set of choices. It uses an array-like component that allows a developer to write an intuitive and readable set of possible choices. The list of choices can also be put in the box, if the developer does not know it in advance. Thus, for example, in the case of an application handling the email of the user, the robot can make him choose a contact in his address book stored in a separate file.
- Ul Elements are very configurable tools. UlElements using recognition and / or speech synthesis are regionalized. For example, the Choice Box is editable in French and English. At the GUI level for programming, the Widget Qt TM used to change the edit language of the box can be a ComboBox.
- the inputs (and outputs) of the choreographer boxes can be of several types:
- An input (respectively output) of dynamic type retrieves (respectively sort) an ALValue.
- the ALValue are a union of common types, described in an NAOQI library, including: integers, floats, array, boolean, string, but also "bang", which is an uninitialized ALValue.
- Dynamic type entries allow you to manage the changes of an application in a very flexible way. In particular, the choice of inter-modal and / or intra- modalities, the presentation of aids are provided to the interlocutors of the robot to activate them may depend on the number of possible choices.
- Choregraphic software used to implement the invention includes box parameters of Boolean type (Check Box), string of characters (Text Box), multiple choice of strings (Combo Box) editable or not by the end user , integer or Floating floating (Slider), or other.
- Check Box the programmer who uses the Choice Box in his behavior or application has the option to check or uncheck the boolean "Repeat validated choice” (in French, "Repeat the validated choice”). This will affect the behavior of NAO during the interaction as it defines whether NAO always repeats the user-validated choice or not.
- a diagnostic tool can maximize the success of voice interaction.
- the Choice Box when the developer has finished writing his list of words in the table, he can launch this tool which will indicate a percentage of recognition of these words, 100% corresponding to a word that will certainly be recognized by the robot, 0% to a word that the robot will not recognize.
- This diagnosis is made by comparing the word said speech synthesis (which is assumed to be close to what the user will say) and the expected word by voice recognition.
- the solution of the invention also solves the problem of voice recognition that does not handle the presence of multiple users. Humans realize that when talking to others, communication is difficult, so they adapt by talking one by one. This situation is facilitated by the existence of clearly single-user interaction codes, such as the use of the tutelage by the robot.
- a deficient voice recognition requires that the Man-robot interface manages chess situations in the best possible way, to make the user talk at the right moment (it will go through interaction codes) and to make available alternative solutions to the dialogue.
- an audio diagnostic function makes it possible to solve this type of problem.
- This function is executed by pronouncing the word to be tested by the speech-synthesis software, text-to-speech.
- This word is then analyzed by voice recognition. More precisely, the same word is pronounced, for example three times, each time by changing the speed of the voice and its pitch, so as to have a representative sample of the ways of pronouncing the word.
- the three recognition rates returned by the speech recognition are then averaged, and it is this value which is the estimated percentage of recognition of the word.
- "Together" mode works as follows: all words in the choice box are listened to by speech recognition, and NAO then calculates the estimated recognition rate as described elsewhere.
- the "One by One” mode works as follows: for a given line, the word to be analyzed is listened to by voice recognition, as well as the other possible choices on the other lines, but not its alternatives located on the same line as him.
- the advantage of this diagnosis is that if two "synonyms" are similar, for example "hello! and "hello!, the estimated rate of recognition will not be as low as it would be in "Together” mode (the rates would be very bad because they would often be confused by voice recognition). is not serious that two synonyms are confused by the robot.
- the synonyms are ranked in descending order of the estimated rate of recognition, and the recognition rate of the best synonym is written at the end of the line.
- the Choice Box is programmed to ask a user to confirm his answer when the robot is not sure of having correctly recognized or interpreted it.
- This mechanism is identical to that used by a human who has poor hearing or is immersed in an environment that makes understanding difficult.
- the robot will have different reactions depending on the level of understanding of the response of the user.
- Several thresholds (for example the thresholds S1 and S2 defined in comment in FIG. 5) are then fixed as a function of the recognition confidence calculated by the recognition software: for example, when the first recognition threshold S1 is not reached. , the robot asks the player to repeat his answer; when the first threshold S1 is reached but a second threshold S2 of higher recognition is not, the robot will ask a question whose answer will remove the doubt.
- the robot can also provide help for the user to respond correctly to the robot: he can give the list of possible choices, indicate the means of interaction with him, repeat the question asked if there was one.
- Interaction codes are also very useful to overcome the deficiencies of speech recognition. Indeed, the speech recognition does not speak to the robot while he speaks, and the time between the launch of speech recognition and the moment when it is really active is quite long. A tone code is thus played at the launch of voice recognition, indicating to the user that he can speak. Then, a rather intuitive visual code, the LEDs of the ears that turn, allows the user to know that the robot is listening.
- UlElements using voice recognition also offer an alternative way to this voice recognition, to allow the user to succeed in communication even in case of repeated problems of understanding (this may be due to an extremely noisy environment for example).
- These alternative means can be tactile, sound, visual, etc.
- the Choice Box allows the user to choose an answer by using the touch sensor: pressing on the front sensor makes it possible to advance in the list of choices (the robot then states each choice), the back one makes it possible to back in this list, the middle one to validate his choice.
- the robot states the various choices, and that the user says “OK” when he hears the choice he wants to validate. Or, for a confirmation, instead of saying "yes” or "no" the user can press one of the arms of the robot.
- the input / output control module of the communication channels of the various types 1, 2, 3 defined in comment in FIG. 5 makes it possible to generate, in a simple and user-friendly manner, the management functions of these combinations by links between the different inputs / Outputs of Choice Boxes.
- the solution of the invention proposes a humanization of the interface, a simulation of the Man-Man interface. We know that three main factors come into play when there is a direct communication between two humans: of course the word, that is to say the words, but also the tone of the voice and the visual elements.
- the tone of the voice and the facial expressions are nevertheless missing on a robot with frozen face and tone.
- these two elements are offset by other functions, codes that translate these elements. They require a more or less long learning of the user. The goal is to make this learning as short as possible and therefore the codes are the most consistent and as close as possible to what the user already knows.
- Recognition and speech synthesis are limiting, in particular by the absence of natural language and a recognition that is uniquely user-friendly and that allows only a limited number of words to be recognized.
- the solution of the invention solves the problem of the non-use of natural language by robots in order to propose a sufficiently natural human-robot interaction.
- the voice synthesis of the robot is used at best.
- most of the UlElements of the robot using synthesis and / or voice recognition are regionalised.
- a French-speaking user (respectively English-speaking) will be able to converse with his robot in French (respectively in English), thus maximizing the success of the interaction.
- timings and interaction codes are best used to improve the responsiveness of the robot and facilitate the success of human-robot communication.
- the Choice Box offers several parameters such as the waiting time for a user response. This ensures that the robot does not wait too long before considering that the user has not responded, but also that it waits long enough for the voice recognition can be activated at the right time.
- the interaction codes can be gestural, sound and / or visual. Thus a beep of end of voice recognition allows the user to know that the robot does not listen anymore.
- the communication is made more natural by the use of several communication channels of different modalities, and particular behavior on the part of the robot.
- sound localization and face detection allows the robot to turn its head towards its human interlocutor, which seems a fact when it is addressed to another human.
- the robot can also implement a speaker identification (facial recognition, voice stamp, voice print %) so to speak to a particular human by using his name, his own characteristics such as, for example, the history of conversations and behaviors played by the robot.
- the robot can also know what the user has thought of a behavior as he has touched his touch sensor (Man liked the behavior), and then offer to play it during an oral communication for example. The robot will try to act appropriately to the situation.
- the robot is enslaved by the icon Chorégraphe "enslave garlic motors on / off", then it is put upright thanks to the "init pose” position of the pose library.
- the robot By moving the arms, the robot asks "What is your favorite animal?", And then starts a listening sound. While he is listening, his eyes turn blue, as well as his ears, and the touch sensors of his head blink blue.
- the robot is not sure but believes to understand pangolin. His eyes flash once in green. He then said, while throwing an animation of the arms, "I understood pangolin, is it correct?".
- the robot flashes once the eyes red and throws a helper while moving his arms: "pangolin, spider, rabbit, or horse? You can also choose an answer using my touch sensor.What is your favorite animal? " and he comes back in listening mode.
- the robot responds "spider” while flaming his eyes once in blue.
- the robot flashes once his eyes green, then repeat "rabbit” and out of the box and behavior.
- Other interactions between communication channels of the robot are possible, such as those described below.
- the Choice Box makes special use of voice recognition in combination with the touch sensor to recognize the user's choice. Another possibility is to use the robot's vision, especially image recognition. It is an object recognition and not a concept: if you show him a can, he will recognize this same can and not another brand.
- One of the possibilities of the development software in its version allowing to implement the invetion is to have in this software the camera feedback of the robot. The user can show objects to the robot, see the image obtained in Choreographer, and identify by hand the interesting object in the image. The user names it. The robot then analyzes the object and stores it in its image database.
- the user can then use these images as possible choices for a choice box.
- the user wants to fill a Choice Box with object names, such as "can”, "cup”, “magazine”. He fills the Choice Box with these words, then takes a can, his favorite mug and the cover of a magazine and shows them to the robot for analysis as explained above.
- the Choice Box searches the robot's image database: if an object marked "cup” is present, NAO then searches for it while listening to the user, and so on for the others. words. Thus, the user launches this Box on NAO, which listens to his choices. The user says “bobbin” but the robot does not understand. After two times, the robot explains that he can show him “can", “cup” and “magazine” because they are in his database. The user can while listening listen to the bobbin that was used for recording (or the same brand). The robot then acts as if he recognized the word "bobbin”.
- the robot In the context of the present invention, it is also possible to program the robot to act as an agent for receiving / reading, writing / sending and administering an email account of a user of the robot. This application is described below.
- NAO can read emails, reply to an email or send emails to a contact, but also add the author of a mail received to contacts, delete a message, mark it as unread, re-read it, read the next or previous message.
- Choice Boxes Three Choice Boxes are used in this application, making it an indispensable element. The words were chosen thanks to the audio diagnosis.
- the robot starts by looking if the user has received new messages. If so, it reads the first new message then launches a Choice Box without question. If not, he launches this same Choice Box but with a question: "What do you want me to do?" Being able to launch a Choice Box with or without question is therefore used in the mail application.
- This Choice Box allows the user to choose from the possible actions of NAO. These actions are written in the table of the plugin of the box.
- the output of Choice Box "timeout" is useful, because in case of timeout, NAO reads the following message.
- a parameter "maximum number of repetition when no reply” is then set to 1: the robot leaves this box choice at the first timeout.
- the parameter "repeat validated choice” is disabled, because after a choice of the user the robot launches a specific animation or action that clearly shows what he understood. Thanks to the boolean parameters “activate head”, “activate arms” and “activate legs”, the robot will be animated with animations dedicated to the speech.
- Exit is one of the default choices of the box choice, which allows here to exit the mail application.
- the parameter "maximum number of repetition when no reply” is for example 3, its default value for, in case of timeout, not to send an email to anyone, but to be able to cancel the sending of the mail and return to the main menu. Similarly, saying "Exit”, the default choice of the application, allows you to return to the main menu.
- a help function is for the case where the user does not remember his contacts. In this case, with the touch sensor for example, NAO states the list of contacts.
- the robot will record the message of the user.
- the message can be re-registered, if the first one is not suitable;
- the settings are essentially the same as for the Main Menu Choice Box, with the "Maximum number of repeat when no reply" setting set to 1.
- the parameters "speech recognition timeout”, which indicate after how much time without response the robot considers that there is timeout, and "speech recognition timeout when confirmation” can for example be set to 4 seconds instead of 6 by default, so that the user can easily say nothing and let the message be sent.
- the Choice Box can also be statically configured with constant parameters over the entire life of the Box. But in the context of using an automatic question generation system, the parameters can be set automatically. For example, in the context of using a conversational agent such as that developed by the company As An Angel, said agent can configure the Choice Box based on the questions and answers that he automatically generated.
- Chorégraphe boxes are implemented by means of a script in one of the supported programming languages. If this box has some parametrizable aspects, such as the number of repetitions, the language used by the robot, the text that the robot must pronounce, this information is integrated directly into the script of the box. When one wants to modify the parameters of the box, for example after having duplicated it to use it differently, it is necessary to modify the script of the box to change its behavior.
- each "box parameter” has a name, a description, a type (among boolean, integer, float and string), and depending on the type can have additional attributes, such as a default value.
- a "box parameter” can be defined as inheriting from the parent box, this which will affect how the value will be determined.
- the author of the Box can now access the "Box parameters" using several functions that take the name of the "Box parameter” as an argument. It can view the current value of a "Box parameter” and change it. It can also create dynamic "Box parameters", which will not appear in Choregraph, but which can be used as temporary storage in the Box's scripts.
- the current value of a parameter depends on whether it is marked as inheriting from the Parent Box or not. If it is not (the default case), the "Box parameter" is box specific, and when the box script looks at its current value, it is simply returned. If marked as inheriting, when reading the value, the Boards diagrams hierarchy will be rolled up to find a Parent Box containing a "Box parameter" of the same name. If none is found the current value for the Current Box is used.
- the robot also has a software module allowing it to recognize objects that pass in the field of vision of its camera. However, the objects to be recognized must first be learned in a learning phase. This learning is done using a specific interface in Choreographer.
- This interface displays in real time the video sent by the robot's camera.
- the image is only available when Choreographer is connected to a robot with a camera and a properly configured video capture module.
- video display When video display is enabled, the user can initiate a learning. A countdown then appears on the image, and the user then has for example 4 seconds to present an object in front of the camera. At the end of the countdown the images are captured and recorded. The user must then crop the object of interest in the image by drawing a polygon on the frozen image. Once the polygon is closed, a dialog opens asking the user to enter keywords defining the object.
- Each learning generates an entry in a database that is saved by choreographer on the user's computer. Once the learning is finished, a button makes it possible to send a light version of the database on the robot. The object recognition module will then use this database, and when an object is recognized, an event containing the associated keywords will be triggered on the robot.
- Choreographer is also a behavior editor for the robot.
- a behavior is an object similar to a computer program, which can be executed by the robot.
- a behavior management interface on the robot.
- Choreographer When Choreographer is connected to a robot, an entry in the application's menus is used to display the behavior manager. It is a modal window displaying a list of behaviors installed on the robot, as well as a set of buttons to manipulate them.
- buttons displayed next to the behavior list allow you to add, remove, and transfer to the user's computer.
- the user can very easily manipulate the behaviors installed on the robot, as if it were files on his computer.
- a user can download a behavior, modify it, and reinstall it on the robot, without having to save it on his computer.
- the behaviors installed by the user can then run in parallel, under the constraints of temporal coherence and between behaviors defined by the different Behavior Boxes, Behavior Frames and Timeline.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Robotics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mechanical Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
The invention relates to a humanoid robot equipped with an interface for natural dialogue with an interlocutor. In the prior art, the methods of dialogue between humanoid robots equipped, moreover, with developed movement functionalities and human beings are limited particularly by the capabilities of voice and visual recognition processing with which said robots can be fitted. The present invention equips said robots with capabilities for removing doubt from several methods of communication for the messages which they receive and for combining these different methods, which allow a great improvement in the quality and the natural character of the dialogues with those with whom the robots are speaking. The invention likewise provides simple and user-friendly means for implementing the programming of the functions which allow the free flow of these dialogues using multiple methods to be ensured.
Description
ROBOT HUMANOÏDE DOTE D'UNE INTERFACE DE DIALOGUE NATUREL, PROCEDE DE CONTROLE DU ROBOT ET PROGRAMME CORRESPONDANT HUMANOID ROBOT HAVING A NATURAL DIALOGUE INTERFACE, ROBOT CONTROL METHOD, AND CORRESPONDING PROGRAM
La présente invention appartient au domaine des robots humanoïdes. Plus précisément, elle s'applique aux méthodes de programmation et d'emploi d'interfaces de dialogue avec un robot de ce type pour permettre l'exécution par ledit robot d'actions sur commande d'un utilisateur, la fourniture de réponses adéquates par ledit robot et, de manière plus générale, rétablissement de « relations humanoïdes » entre ledit robot et son ou ses interlocuteurs. The present invention belongs to the field of humanoid robots. More specifically, it applies to the methods of programming and the use of dialogue interfaces with a robot of this type to enable the said robot to perform actions on the order of a user, the provision of adequate responses by said robot and, more generally, restoration of "humanoid relations" between said robot and his or her interlocutors.
Un robot peut être qualifié d'humanoïde à partir du moment où il possède certains attributs de l'apparence et des fonctionnalités de l'homme: une tête, un tronc, deux bras, éventuellement deux mains, deux jambes, deux pieds...Au-delà de l'apparence, les fonctions qu'un robot humanoïde est capable de remplir vont dépendre de sa capacité à effectuer des mouvements, à parler et à « raisonner ». Des robots humanoïdes sont capables de marcher, de faire des gestes, avec les membres ou avec la tête. La complexité des gestes qu'ils sont capables d'effectuer augmente sans cesse. A robot can be called a humanoid from the moment it has certain attributes of the appearance and functionality of the man: a head, a trunk, two arms, possibly two hands, two legs, two feet ... Beyond appearance, the functions that a humanoid robot is able to fulfill will depend on its ability to perform movements, talk and reason. Humanoid robots are able to walk, to make gestures, with the limbs or with the head. The complexity of the gestures they are able to perform increases constantly.
Certains robots peuvent parler, en réponse à des stimuli de l'environnement. Le développement des outils de reconnaissance et de synthèse de la parole a également permis de développer des fonctions de dialogue de certains robots avec des humains qui enrichissent de manière importante les possibilités d'interactions. De telles interfaces hommes-robots utilisant la parole sont divulguées notamment par le brevet US 7,71 1 ,569 ainsi que par la demande publiée sous le numéro US2009/287678. Some robots can talk in response to environmental stimuli. The development of speech recognition and synthesis tools has also made it possible to develop dialogue functions of certain robots with humans that significantly enrich the possibilities of interactions. Such human-robot interfaces using speech are disclosed in particular by US Pat. No. 7,741,569 and by the application published under number US2009 / 287678.
Dans ces documents de l'art antérieur, les imperfections inhérentes à la reconnaissance vocales sont palliées par le recours à des aides sémantiques et/ou contextuelles qui nécessitent l'accès à une base de données, un apprentissage et l'utilisation de ressources de calcul importantes pour être en mesure de lever les doutes de la reconnaissance - intervalle de confiance de la reconnaissance faible, faux positifs, faux négatifs.... L'utilisation de ces moyens n'est pas appropriée dans le cas d'un
robot humanoïde multifonctions qui doit être économe de ses ressources de calcul pour gérer ses processus critiques tels que la locomotion. In these documents of the prior art, the imperfections inherent in voice recognition are mitigated by the use of semantic and / or contextual aids which require access to a database, learning and the use of computing resources. important to be able to remove the doubts of recognition - confidence interval low recognition, false positives, false negatives .... The use of these means is not appropriate in the case of a A multifunctional humanoid robot that must be economical with its computing resources to manage critical processes such as locomotion.
Il serait avantageux de pouvoir disposer d'un robot humanoïde capable de réaliser la lever de doute de la reconnaissance effectuée par des capteurs et des logiciels qui resteront imparfaits de manière simple et efficace en utilisation des ressources de calcul embarquées sur ledit robot. It would be advantageous to be able to have a humanoid robot capable of raising the suspicion of the recognition made by sensors and software that will remain imperfect in a simple and effective manner using the onboard computing resources on said robot.
La présente invention résout ce problème en procurant une interface de dialogue avec un robot humanoïde qui utilise un mode naturel de confirmation des réponses. The present invention solves this problem by providing a dialog interface with a humanoid robot that uses a natural mode of confirming responses.
A cet effet, la présente invention divulgue un robot humanoïde comprenant au moins deux canaux de communication de messages avec au moins un interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un module de contrôle des entrées/sorties desdits canaux, ledit robot étant caractérisé en ce que ledit module de contrôle est apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. For this purpose, the present invention discloses a humanoid robot comprising at least two message communication channels with at least one interlocutor according to different modalities, said at least two channels being each chosen from the reception, transmission, and a control module group. input / output of said channels, said robot being characterized in that said control module is able to improve the understanding of the messages received by said robot by executing at least one function selected in the group combination of messages received / transmitted on a first channel and on a second channel, sending a second message generated from a first message received on a channel.
Avantageusement, lesdits canaux de communication sont choisis dans le groupe des canaux de communication émettant et/ou recevant des messages sonores, visuels, tactiles, de déplacements et/ou positions d'au moins une partie du robot, et numériques. Advantageously, said communication channels are chosen from the group of communication channels transmitting and / or receiving sound, visual, tactile messages, displacements and / or positions of at least part of the robot, and digital.
Avantageusement, un premier canal de communication est un canal d'émission sonore et un deuxième canal de communication est un canal de réception de déplacements et/ou positions d'au moins une partie du robot par ledit au moins un interlocuteur, lesdits déplacements et/ou positions étant représentatifs d'entrées communiquées par l'interlocuteur au robot, les spécifications desdites entrées étant définies par le robot à l'interlocuteur par le message émis sur le premier canal.
Avantageusement, le robot de l'invention comprend en outre un troisième canal de communication tactile par lequel l'interlocuteur valide les entrées effectuées sur le deuxième canal. Advantageously, a first communication channel is a sound transmission channel and a second communication channel is a reception channel for displacements and / or positions of at least a part of the robot by said at least one interlocutor, said displacements and / or or positions being representative of inputs communicated by the interlocutor to the robot, the specifications of said inputs being defined by the robot to the interlocutor by the message transmitted on the first channel. Advantageously, the robot of the invention further comprises a third touch communication channel by which the interlocutor validates the inputs made on the second channel.
Avantageusement, un premier canal de communication est un canal de réception de messages sonores et un deuxième canal de communication est un canal d'émission de messages sonores et en ce que ledit module de contrôle est apte à évaluer le niveau de confiance de la compréhension par ledit robot d'un premier message reçu sur ledit premier canal et à générer au moins un deuxième message sur ledit deuxième canal dont le contenu dépend dudit niveau de confiance. Advantageously, a first communication channel is a sound message reception channel and a second communication channel is a sound message transmission channel and in that said control module is able to evaluate the level of confidence of the understanding by said robot of a first message received on said first channel and generating at least a second message on said second channel whose content depends on said confidence level.
Avantageusement, le premier canal comprend un filtre de reconnaissance vocale des messages reçus par une liste d'expressions à chacune desquelles est associé un taux de reconnaissance attendu et en ce que le contenu dudit deuxième message est choisi par une heuristique dans le groupe comprenant demande de répétition dudit premier message sur le premier canal, demande de confirmation par un troisième message à émettre par l'interlocuteur sur le premier canal d'un sous-ensemble des expressions du filtre, demande d'émission par l'interlocuteur d'au moins un autre message sur au moins un troisième canal. Advantageously, the first channel comprises a voice recognition filter messages received by a list of expressions each of which is associated with an expected recognition rate and that the content of said second message is chosen by a heuristic in the group comprising repetition of said first message on the first channel, confirmation request by a third message to be sent by the interlocutor on the first channel of a subset of the expressions of the filter, transmission request by the interlocutor of at least one another message on at least one third channel.
Avantageusement, le robot de l'invention est apte à émettre sur le deuxième canal un signal de début d'écoute sur le premier canal pour assurer le séquencement en mode half-duplex des messages sur le premier et le deuxième canal. Advantageously, the robot of the invention is able to transmit on the second channel a start of listening signal on the first channel to ensure the half-duplex mode sequencing messages on the first and second channel.
Avantageusement, ladite heuristique de choix est une fonction de la position des taux de reconnaissance réels par rapport à des seuils déterminés à partir des taux de reconnaissance attendus. Advantageously, said choice heuristic is a function of the position of the real recognition rates with respect to thresholds determined from the expected recognition rates.
Avantageusement, ledit troisième canal est un canal de réception tactile ou de déplacements d'une partie du robot.
Avantageusement, le robot de l'invention comprend en outre un module d'interface avec une messagerie électronique, ledit module d'interface permettant à un titulaire d'un compte sur ladite messagerie d'utiliser ledit robot comme agent de réception/lecture des messages électroniques sur le deuxième canal, d'écriture/expédition sur le premier canal et d'administration dudit compte par dialogue en utilisant lesdits premier et deuxième canal. Advantageously, said third channel is a touch reception channel or displacements of a part of the robot. Advantageously, the robot of the invention further comprises an interface module with an electronic mail, said interface module allowing an account holder on said messaging to use said robot as an agent for receiving / reading messages. electronic on the second channel, write / forward on the first channel and administer said account by dialogue using said first and second channel.
Avantageusement, ledit troisième canal est un canal de réception visuelle d'images d'objets correspondant à la liste d'expressions du filtre du premier canal, lesdites images étant comparées à une base de données d'images desdits objets préalablement enregistrés avec lesdites expressions accessible par ledit module de contrôle des entrées/sorties desdits canaux de communication. Avantageusement, un premier canal de communication est un canal de réception de messages visuels et un deuxième canal de communication est un canal d'émission de messages sonores et en ce que ledit module de contrôle est apte à évaluer le niveau de confiance de la compréhension par ledit robot d'un premier message reçu sur ledit premier canal et à générer au moins un deuxième message sur ledit deuxième canal dont le contenu dépend dudit niveau de confiance. Advantageously, said third channel is a visual reception channel for images of objects corresponding to the list of expressions of the filter of the first channel, said images being compared to an image database of said objects previously recorded with said accessible expressions. by said input / output control module of said communication channels. Advantageously, a first communication channel is a visual message reception channel and a second communication channel is a sound message transmission channel and in that said control module is able to evaluate the level of confidence of the understanding by said robot of a first message received on said first channel and generating at least a second message on said second channel whose content depends on said confidence level.
Avantageusement, le premier canal comprend un filtre de reconnaissance d'images des messages reçus par une liste d'expressions à chacune desquelles est associé un taux de reconnaissance attendu et en ce que le contenu dudit deuxième message est choisi par une heuristique dans le groupe comprenant demande de répétition dudit premier message sur le premier canal, demande de confirmation par un troisième message à émettre par l'interlocuteur sur un troisième canal de réception de messages sonores d'un sous-ensemble des expressions du filtre, demande d'émission par l'interlocuteur d'au moins un autre message sur au moins un quatrième canal.
Avantageusement, au moins un des canaux est un canal hybride recevant en entrées les sorties de deux canaux fusionnées par ledit module de contrôle des entrées et sorties. L'invention divulgue également un procédé de contrôle des communications d'un robot humanoïde avec au moins un interlocuteur comprenant au moins deux étapes de transmission de message par des canaux de communication utilisant des modalités différentes, lesdites deux étapes étant choisies chacune dans le groupe réception, émission, et une étape de contrôle des entrées/sorties desdits canaux, ledit robot étant caractérisé en ce que ladite étape de contrôle est apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. Advantageously, the first channel comprises an image recognition filter of the messages received by a list of expressions to each of which is associated an expected recognition rate and in that the content of said second message is chosen by a heuristic in the group comprising request for repetition of said first message on the first channel, request for confirmation by a third message to be sent by the party on a third channel for receiving sound messages of a subset of the expressions of the filter, transmission request by the interlocutor of at least one other message on at least one fourth channel. Advantageously, at least one of the channels is a hybrid channel receiving as inputs the outputs of two channels merged by said input and output control module. The invention also discloses a method for controlling the communications of a humanoid robot with at least one interlocutor comprising at least two message transmission steps by communication channels using different modalities, said two steps being each chosen in the reception group , transmission, and a control step of the inputs / outputs of said channels, said robot being characterized in that said control step is able to improve the understanding of the messages received by said robot by performing at least one function selected in the combination group of messages received / transmitted on a first channel and a second channel, sending a second message generated from a first message received on a channel.
L'invention divulgue également un programme d'ordinateur comprenant des instructions de code de programme permettant l'exécution du procédé ci- dessus lorsque le programme est exécuté sur un ordinateur, ledit programme étant adapté pour permettre à un robot humanoïde comprenant au moins deux canaux de communication de messages avec au moins un interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un sous- programme de contrôle des entrées/sorties desdits canaux, ledit programme d'ordinateur étant caractérisé en ce que ledit sous-programme de contrôle est apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. The invention also discloses a computer program comprising program code instructions for executing the above method when the program is run on a computer, said program being adapted to allow a humanoid robot comprising at least two channels communicating messages with at least one interlocutor according to different modalities, said at least two channels being each chosen from the reception group, transmission, and a sub-program for controlling the inputs / outputs of said channels, said computer program being characterized in that said control routine is able to improve the understanding of the messages received by said robot by executing at least one function selected in the group combination of messages received / transmitted on a first channel and on a second channel, transmission of a second message generated from a first message received on a channel.
L'invention divulgue également un procédé de développement d'une interface de communication entre au moins un robot humanoïde et au moins un interlocuteur, ledit au moins un robot humanoïde comprenant au moins deux canaux de communication de messages avec le au moins un
interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un module de contrôle des entrées/sorties desdits canaux, ledit module de contrôle étant apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal, ledit procédé étant caractérisé en ce qu'il comprend une étape de programmation de ladite fonction choisie. The invention also discloses a method of developing a communication interface between at least one humanoid robot and at least one interlocutor, said at least one humanoid robot comprising at least two message communication channels with the at least one interlocutor according to different modalities, said at least two channels being each chosen in the reception group, transmission, and an input / output control module of said channels, said control module being able to improve the understanding of the messages received by said robot in performing at least one function selected from the combination group of received / transmitted messages on a first channel and a second channel, transmitting a second message generated from a first message received on a channel, said method being characterized in that it comprises a programming step of said chosen function.
Avantageusement, ladite étape de programmation de ladite fonction choisie comprend au moins une sous-étape de définition d'un premier canal de communication en tant que canal d'émission sonore et d'un deuxième canal de communication en tant que canal de réception de déplacements d'au moins un membre du robot par ledit au moins un interlocuteur, une sous- étape de définition d'une correspondance entre lesdits déplacements et des entrées communiquées par l'interlocuteur au robot, et une sous-étape de définition des spécifications desdites entrées par génération d'au moins un message à émettre par le robot à l'interlocuteur sur le premier canal. Advantageously, said step of programming said chosen function comprises at least one substep of defining a first communication channel as a sound transmission channel and a second communication channel as a travel receiving channel. at least one robot member by said at least one interlocutor, a sub-step of defining a correspondence between said movements and inputs communicated by the interlocutor to the robot, and a substep of defining the specifications of said inputs by generating at least one message to be transmitted by the robot to the interlocutor on the first channel.
Avantageusement, le procédé de développement de l'invention comprend en outre une sous-étape de définition d'un troisième canal de communication tactile par lequel l'interlocuteur valide les entrées effectuées sur le deuxième canal. Advantageously, the development method of the invention further comprises a substep of defining a third touch communication channel by which the interlocutor validates the inputs made on the second channel.
Avantageusement, les étapes du procédé de développement de l'invention sont effectuées par l'intermédiaire d'au moins une Boîte de commande dans laquelle une Trame principale d'action à effectuer par ledit robot est reliée à au moins un événement choisi dans le groupe des événements antécédents et des événements successeurs à l'action à programmer et programmée pour se dérouler selon une contrainte temporelle prédéfinie par une Timeline. Advantageously, the steps of the development method of the invention are carried out via at least one control box in which a main action frame to be performed by said robot is connected to at least one event selected from the group. antecedent events and successor events to the action to be programmed and programmed to take place according to a temporal constraint predefined by a Timeline.
Avantageusement, ladite étape de programmation de ladite fonction choisie comprend au moins une sous-étape de définition d'un premier canal de
communication en tant que canal de réception de messages sonores et d'un deuxième canal de communication en tant que canal d'émission de messages sonores, une sous-étape de définition d'une fonction d'évaluation d'un niveau de confiance de la compréhension par ledit robot d'un premier message reçu sur ledit premier canal et une sous-étape de définition de la génération d'au moins un deuxième message sur ledit deuxième canal dont le contenu dépend dudit niveau de confiance. Advantageously, said programming step of said selected function comprises at least one sub-step of defining a first channel of communication as a sound message receiving channel and a second communication channel as a sound message transmission channel, a sub-step of defining a confidence level evaluation function of the understanding by said robot of a first message received on said first channel and a substep of defining the generation of at least a second message on said second channel whose content depends on said confidence level.
Avantageusement, le procédé de développement de l'invention comprend en outre une sous-étape de définition d'un filtre de reconnaissance vocale des messages reçus sur le premier canal par une liste d'expressions à chacune desquelles est associé un taux de reconnaissance attendu et une sous- étape de définition du contenu dudit deuxième message par une heuristique choisie dans le groupe demande de répétition dudit premier message sur le premier canal, demande de confirmation par un troisième message à émettre par l'interlocuteur sur le premier canal d'un sous-ensemble des expressions du filtre, demande d'émission par l'interlocuteur d'au moins un autre message sur au moins un troisième canal. Avantageusement, les étapes du procédé de développement de l'invention sont effectuées par l'intermédiaire d'au moins une Boîte de commande dans laquelle une Trame principale d'action à effectuer par ledit robot est reliée à au moins un événement choisi dans le groupe des événements antécédents et des événements successeurs à l'action à programmer et programmée pour se dérouler selon une contrainte temporelle prédéfinie par une Timeline, ladite Boîte de commande étant une Boîte de type Choix. Advantageously, the development method of the invention further comprises a substep of defining a voice recognition filter of the messages received on the first channel by a list of expressions each of which is associated with an expected recognition rate and a sub-step of defining the content of said second message by a heuristic chosen in the request group of repetition of said first message on the first channel, confirmation request by a third message to be sent by the interlocutor on the first channel of a sub all the expressions of the filter, request for transmission by the interlocutor of at least one other message on at least one third channel. Advantageously, the steps of the development method of the invention are carried out via at least one control box in which a main action frame to be performed by said robot is connected to at least one event selected from the group. antecedent events and successor events to the action to be programmed and programmed to take place according to a temporal constraint predefined by a timeline, said command box being a choice type box.
L'invention divulgue également un programme d'ordinateur comprenant des instructions de code de programme permettant l'exécution du procédé de développement ci-dessus lorsque le programme est exécuté sur un ordinateur, ledit programme étant adapté pour permettre à un utilisateur de programmer un robot humanoïde comprenant au moins deux canaux de communication de messages avec au moins un interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un sous-programme de contrôle des
entrées/sorties desdits canaux, ledit programme d'ordinateur étant caractérisé en ce qu'il comprend un module de programmation dans le sous- programme de contrôle d'au moins une fonction à exécuter par le robot choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. The invention also discloses a computer program comprising program code instructions for executing the above development method when the program is run on a computer, said program being adapted to allow a user to program a robot. humanoid device comprising at least two message communication channels with at least one interlocutor according to different modalities, said at least two channels being each selected from the reception, transmission group, and a control subprogram of input / output of said channels, said computer program being characterized in that it comprises a programming module in the control routine of at least one function to be executed by the selected robot in the group of received messages / transmitted on a first channel and a second channel, sending a second message generated from a first message received on a channel.
Avantageusement, le programme d'ordinateur de l'invention comprend en outre un module pour programmer le passage d'au moins un paramètre à une Boîte de commande. Advantageously, the computer program of the invention further comprises a module for programming the passage of at least one parameter to a control box.
Avantageusement, le programme d'ordinateur de l'invention comprend en outre un module pour programmer le retour des entrées d'un canal de communication visuel du robot dans l'interface dudit programme. Advantageously, the computer program of the invention further comprises a module for programming the return of the inputs of a visual communication channel of the robot in the interface of said program.
Avantageusement, le programme d'ordinateur de l'invention comprend en outre un module pour programmer des comportements du robot se déroulant en parallèle. L'interface de l'invention présente en outre l'avantage d'offrir des modes de confirmation multimodaux qui peuvent être facilement adaptés à l'environnement dans lequel s'exécute le dialogue, par exemple si le bruit ambiant est trop élevé pour que la reconnaissance vocale puisse avoir une quelconque efficacité. L'utilisateur peut ainsi être invité à remplacer/confirmer des réponses ambiguës par un toucher, un geste ou l'affichage d'un symbole numérique, de couleur ou de forme particulière. Ainsi l'utilisateur a à sa disposition des moyens lui permettant de remplacer ou émuler de manière intuitive les interfaces traditionnelles qu'il est habitué à utiliser quand il est face à son ordinateur ou qu'il utilise un téléphone intelligent ou une tablette tactile. Advantageously, the computer program of the invention further comprises a module for programming behaviors of the robot running in parallel. The interface of the invention also has the advantage of offering multimodal confirmation modes that can easily be adapted to the environment in which the dialogue is executed, for example if the ambient noise is too high for the voice recognition may have some effectiveness. The user can be asked to replace / confirm ambiguous answers with a touch, a gesture or the display of a particular numerical symbol, color or shape. Thus, the user has at his disposal means enabling him to intuitively replace or emulate the traditional interfaces that he is used to using when he is facing his computer or using a smart phone or a touch pad.
En outre, les modes d'expression du robot peuvent eux-mêmes être multimodaux, en combinant notamment intonation, regard, geste pour retenir l'attention de son interlocuteur et lui communiquer des émotions ou des indices sur des réponses à fournir. De plus, en se rapprochant des modes de communication naturels entre humains, l'interface de l'invention contribue
à améliorer les résultats du système de reconnaissance et à renforcer la qualité de l'expérience de l'utilisateur plongé dans une « virtualité réelle », c'est-à-dire celle d'un dialogue avec un avatar incarné physiquement. In addition, the modes of expression of the robot can themselves be multimodal, combining inter alia intonation, gaze, gesture to hold the attention of his interlocutor and communicate emotions or clues to answers to provide. Moreover, by approaching the natural modes of communication between humans, the interface of the invention contributes to to improve the results of the recognition system and to enhance the quality of the experience of the user immersed in a "real virtuality", that is to say that of a dialogue with a physically embodied avatar.
L'invention fournit également un environnement de développement de ces interfaces, ergonomique et versatile, qui permet de créer très facilement et en très peu de temps de nouveaux scénarios d'interaction spécialement adaptés pour des utilisations du robot non imaginées par son concepteur. The invention also provides an environment for developing these interfaces, ergonomic and versatile, which makes it very easy to create, in a very short time, new interaction scenarios specially adapted for uses of the robot not imagined by its designer.
L'invention sera mieux comprise et ses différentes caractéristiques et avantages ressortiront de la description qui suit de plusieurs exemples de réalisation et de ses figures annexées dont : The invention will be better understood and its various features and advantages will emerge from the following description of several exemplary embodiments and its appended figures including:
- La figure 1 est un schéma de l'architecture physique d'un robot humanoïde dans plusieurs modes de réalisation de l'invention ; FIG. 1 is a diagram of the physical architecture of a humanoid robot in several embodiments of the invention;
- La figure 2 illustre la tête d'un robot humanoïde comportant des capteurs utiles à la mise en œuvre de l'invention dans plusieurs de ses modes de réalisation ; FIG. 2 illustrates the head of a humanoid robot comprising sensors that are useful for implementing the invention in several of its embodiments;
- La figure 3 est un schéma de l'architecture des logiciels de haut niveau permettant le pilotage des fonctions du robot dans plusieurs modes de réalisation de l'invention ; FIG. 3 is a schematic diagram of the architecture of high level software for controlling the functions of the robot in several embodiments of the invention;
- La figure 4 est un schéma de l'architecture fonctionnelle d'édition et de programmation des comportements/interactions d'un robot dans plusieurs modes de réalisation de l'invention ; FIG. 4 is a diagram of the functional architecture for editing and programming the behaviors / interactions of a robot in several embodiments of the invention;
- La figure 5 est un organigramme fonctionnel des traitements appliqués de manière générale pour améliorer l'interprétation donnée par un robot humanoïde des réponse/stimuli qu'il reçoit dans plusieurs modes de réalisation de l'invention ; FIG. 5 is a functional flowchart of the treatments generally applied to improve the interpretation given by a humanoid robot of the responses / stimuli it receives in several embodiments of the invention;
- La figure 6 est un diagramme logique de programmation des comportements/interactions d'un robot dans plusieurs modes de réalisation de l'invention ; FIG. 6 is a logic diagram for programming the behaviors / interactions of a robot in several embodiments of the invention;
- Les figures 7a, 7b et 7c représentent des chronogrammes illustrant la combinaison logique et temporelle des interactions d'une interface multimodale dans plusieurs modes de réalisation de l'invention; FIGS. 7a, 7b and 7c represent timing diagrams illustrating the logical and temporal combination of the interactions of a multimodal interface in several embodiments of the invention;
- Les figures 8a, 8b, 8c, 8d et 8e représentent un enchaînement d'écrans permettant de programmer un dialogue avec un robot
humanoïde avec choix binaire et option de changement de la langue d'interaction dans un mode de réalisation de l'invention; FIGS. 8a, 8b, 8c, 8d and 8e show a series of screens making it possible to program a dialogue with a robot humanoid with binary choice and option of changing the interaction language in one embodiment of the invention;
- Les figures 9a, 9b, 9c, 9d et 9e représentent un enchaînement d'écrans permettant de programmer un dialogue avec un robot humanoïde avec choix choix dans une liste et option de changement de la langue d'interaction dans un mode de réalisation de l'invention; FIGS. 9a, 9b, 9c, 9d and 9e show a series of screens making it possible to program a dialogue with a humanoid robot with choice choices in a list and option of changing the language of interaction in one embodiment of the invention. 'invention;
- Les figures 10a, 10b, 10c et 10d représentent un enchaînement d'écrans permettant d'exécuter un test de reconnaissance vocale comparative entre plusieurs options d'une liste de choix dans un mode de réalisation de l'invention; FIGS. 10a, 10b, 10c and 10d show a series of screens making it possible to perform a comparative speech recognition test between several options of a list of choices in one embodiment of the invention;
- Les figures 1 1 a et 1 1 b représentent un enchaînement d'écrans permettant de remplacer ou compléter des options d'une liste de choix et d'exécuter un nouveau test de reconnaissance vocale comparative entre plusieurs options dans un mode de réalisation de l'invention; FIGS. 11a and 11b show a series of screens making it possible to replace or supplement options of a list of choices and to perform a new comparative speech recognition test between several options in one embodiment of the invention. 'invention;
- Les figures 12a, 12b, 12c et 12d représentent un enchaînement d'écrans permettant d'exécuter un test de reconnaissance vocale comparative entre plusieurs options d'une liste de choix dans une langue différente de celle de la question dans un mode de réalisation de l'invention; FIGS. 12a, 12b, 12c and 12d show a series of screens making it possible to perform a comparative voice recognition test between several options of a list of choices in a language different from that of the question in one embodiment of the invention. the invention;
- Les figures 13a, 13b, 13c et 13d représentent un enchaînement d'écrans permettant de vérifier/modifier les seuils des tests de reconnaissance vocale comparative entre plusieurs options d'une liste de choix dans un mode de réalisation de l'invention. FIGS. 13a, 13b, 13c and 13d show a series of screens making it possible to check / modify the thresholds of the comparative speech recognition tests between several options of a list of choices in one embodiment of the invention.
La figure 1 illustre l'architecture physique d'un robot humanoïde dans un mode de réalisation de l'invention. Un tel robot a été divulgué notamment dans la demande de brevet WO2009/124951 publiée le 15/10/2009. Cette plateforme a servi de base aux améliorations qui ont conduit à la présente invention. Dans la suite de la description, ce robot humanoïde peut être indifféremment désigné sous cette appellation générique ou sous sa marque commerciale NAO™, sans que la généralité de la référence en soit modifiée. Ce robot comprend environ deux douzaines de cartes électroniques du type 1 10 de commande de capteurs et d'actionneurs qui pilotent les articulations. La carte 1 10 montrée sur la figure est celle qui contrôle le pied gauche. Une
des vertus de l'architecture est que les cartes contrôlant les articulations sont pour la plupart interchangeables. Une articulation a normalement au moins deux degrés de liberté et donc deux moteurs. Chaque moteur est piloté en angle. L'articulation comporte également plusieurs capteurs de position, notamment des MRE (Magnetic Rotary Encoder). La carte électronique de contrôle comporte un microcontrôleur du commerce. Ce peut être par exemple un DSPIC™ de la société Microchip. C'est un MCU 16 bits couplé à un DSP. Ce MCU a un cycle d'asservissement en boucle d'une ms. Le robot peut également comporter d'autres types d'actionneurs, notamment des LED (Diodes électroluminescentes) dont la couleur et l'intensité peuvent traduire les émotions du robot. Celui-ci peut également comporter d'autres types de capteurs de position, notamment une centrale inertielle, des FSR (Capteurs de pression au sol), etc.... Figure 1 illustrates the physical architecture of a humanoid robot in one embodiment of the invention. Such a robot has been disclosed in particular in the patent application WO2009 / 124951 published on 15/10/2009. This platform served as a basis for the improvements that led to the present invention. In the remainder of the description, this humanoid robot can be indifferently referred to under this generic name or under its trademark NAO ™, without the generality of the reference being modified. This robot comprises about two dozen electronic cards type 1 10 control sensors and actuators that control the joints. The card 1 10 shown in the figure is the one that controls the left foot. A The virtues of architecture are that the cards controlling the joints are for the most part interchangeable. A joint normally has at least two degrees of freedom and therefore two motors. Each motor is driven at an angle. The joint also includes several position sensors, including MRE (Magnetic Rotary Encoder). The electronic control card includes a commercial microcontroller. It can be for example a DSPIC ™ of the company Microchip. It is a 16-bit MCU coupled to a DSP. This MCU has a servo loop cycle of one ms. The robot can also include other types of actuators, including LEDs (electroluminescent diodes) whose color and intensity can reflect the emotions of the robot. It may also include other types of position sensors, including an inertial unit, FSR (ground pressure sensors), etc ....
La tête 160 comporte l'intelligence du robot, notamment la carte 130 qui exécute les fonctions de haut niveau qui permettent au robot d'accomplir les missions qui lui sont assignées, notamment, dans le cadre de la présente invention, laparticipation à des jeux. La carte 130 pourrait cependant être située ailleurs dans le robot, par exemple dans le tronc. On verra cependant que cette localisation, lorsque la tête est amovible, permet de remplacer ces fonctions de haut niveau et donc notamment de changer complètement l'intelligence du robot et donc ses missions très rapidement. Ou à l'inverse de changer un corps par un autre (par exemple un corps défectueux par un non défectueux) en gardant la même intelligence artificielle. La tête peut comporter également des cartes spécialisées, notamment dans le traitement de la parole ou de la vision ou également dans le traitement d'entrées/sorties de service, comme l'encodage nécessaire à l'ouverture d'un port pour établir une communication à distance sur un réseau étendu WAN (Wide Area Network). Le processeur de la carte 130 peut être un processeur x86 du commerce. On choisira de manière privilégiée un processeur à basse consommation tel que le Géode™ de la société AMD (32 bits, 500 MHz). La carte comporte également un ensemble de mémoires RAM et flash. Cette carte gère également les communications du robot avec l'extérieur (serveur de comportements, autres robots...), normalement sur une couche de transmission WiFi, WiMax, éventuellement sur une réseau public de communications mobiles de données avec des protocoles standards
éventuellement encapsulés dans un VPN. Le processeur est normalement piloté par un OS standard ce qui permet d'utiliser les langages de haut niveau usuels (C, C++, Python, ...) ou les langages spécifiques de l'intelligence artificielle comme URBI (langage de programmation spécialisé dans la robotique) pour la programmation des fonctions de haut niveau. The head 160 includes the intelligence of the robot, including the card 130 which performs the high-level functions that allow the robot to perform the tasks assigned to it, including, in the context of the present invention, participation in games. The card 130 could however be located elsewhere in the robot, for example in the trunk. However, we will see that this location, when the head is removable, can replace these high-level functions and thus in particular to completely change the intelligence of the robot and therefore its missions very quickly. Or conversely to change a body by another (for example a defective body by a non defective) keeping the same artificial intelligence. The head may also include specialized cards, especially in the speech or vision processing or also in the processing of service inputs / outputs, such as the encoding necessary to open a port to establish a communication remotely over Wide Area Network (WAN). The processor of the card 130 may be a commercial x86 processor. A low-power processor such as the Géode ™ from AMD (32-bit, 500 MHz) will be favorably selected. The card also includes a set of RAM and flash memories. This card also manages the communication of the robot with the outside (behavior server, other robots ...), normally on a WiFi transmission layer, WiMax, possibly on a public network of mobile data communications with standard protocols possibly encapsulated in a VPN. The processor is normally controlled by a standard OS which allows to use the usual high-level languages (C, C ++, Python, ...) or the specific languages of artificial intelligence like URBI (programming language specialized in robotics) for programming high-level functions.
Une carte 120 est logée dans le tronc du robot. C'est là que se situe le calculateur qui assure la transmission aux cartes 1 10 des ordres calculés par la carte 130. Cette carte pourrait être logée ailleurs dans le robot. Mais la localisation dans le tronc est avantageuses car elle se situe près de la tête et au carrefour des quatre membres, ce qui permet donc de minimiser la connectique reliant cette carte 130 à la carte 120 et aux cartes 1 10. Le calculateur de cette carte 120 est également un processeur du commerce. Ce peut avantageusement être un processeur 32 bits du type ARM 9™ cadencé à 100 MHz. Le type du processeur, sa position centrale, proche du bouton de marche/arrêt, sa liaison au contrôle de l'alimentation en font un outil bien adapté pour la gestion de l'alimentation du robot (mode veille, arrêt d'urgence, ...). La carte comporte également un ensemble de mémoires RAM et flash. A card 120 is housed in the trunk of the robot. This is where the computer that provides the transmission to cards 1 10 orders calculated by the card 130. This card could be housed elsewhere in the robot. But the location in the trunk is advantageous because it is located near the head and at the crossroads of the four members, which allows to minimize the connectivity connecting the card 130 to the card 120 and cards 1 10. The calculator of this card 120 is also a commercial processor. This may advantageously be a 32-bit processor of the ARM 9 ™ type clocked at 100 MHz. The type of processor, its central position, close to the on / off button, its connection to the control of the power supply make it a tool well adapted for the management of the power supply of the robot (standby mode, emergency stop,. ..). The card also includes a set of RAM and flash memories.
Cette architecture à trois niveaux est particulièrement avantageuse pour la mise en œuvre de la présente invention dans laquelle le robot doit pouvoir exécuter des mouvements coordonnés et d'autres actions tels que des lectures de capteurs et simultanément interpréter des paroles ou des signes émis dans son environnement et réagir ou répondre à ceux-ci. Les figures 2a et 2b représentent respectivement une vue de face et une vue de profil de la tête d'un robot humanoïde comportant des capteurs utiles à la mise en œuvre de l'invention dans plusieurs de ses modes de réalisation. La tête 160 de la figure 1 est améliorée en une tête 200a, 200b, de manière à doter le robot des capacités sensorielles et d'expressions qui sont utiles à la mise en œuvre de la présente invention. This three-level architecture is particularly advantageous for the implementation of the present invention in which the robot must be able to execute coordinated movements and other actions such as sensor readings and simultaneously interpret words or signals emitted in its environment. and react or respond to them. Figures 2a and 2b respectively show a front view and a side view of the head of a humanoid robot having sensors useful for the implementation of the invention in several of its embodiments. The head 160 of Figure 1 is improved to a head 200a, 200b, so as to provide the robot with sensory capabilities and expressions that are useful in the practice of the present invention.
NAO est doté de 4 microphones omnidirectionnels 21 1 a, 212a, 213a, 214a, par exemple de référence KEEG1540PBL-A fournis par Kingstate Electronics Corp, un 21 1 a à l'avant, un 214a à l'arrière et un 212a et 213a sur chaque côté de la tête (voir également figure 2b), dont seulement les trous d'accès à l'extérieur sont visibles sur les figures car ils sont répartis à
l'intérieur de la tête. A partir des captures sonores effectuées par les microphones, un système d'analyse et de reconnaissance vocale, par exemple un système BabEAR™ fourni par la société Acapela™, reconnaît un corpus de mots prédéfinis qu'un utilisateur disposant des interfaces adéquates, présentées plus loin dans la description, peut enrichir avec ses propres termes. Ces mots permettent de déclencher les comportements de son choix, notamment des réponses à des questions interprétées par le robot. L'environnement logiciel supporte plusieurs langues, comme indiqué plus loin dans la description. NAO est également capable de détecter la provenance d'un son, ce qui lui permet de lever des ambiguïtés entre plusieurs locuteurs. NAO has 4 omnidirectional microphones 21a, 212a, 213a, 214a, for example KEEG1540PBL-A provided by Kingstate Electronics Corp., 21a at the front, 214a at the back and 212a and 213a. on each side of the head (see also Figure 2b), of which only the access holes to the outside are visible in the figures because they are distributed to the inside of the head. From the sound captures made by the microphones, a voice recognition and analysis system, for example a BabEAR ™ system provided by the company Acapela ™, recognizes a corpus of predefined words that a user having the appropriate interfaces, presented more far in the description, can enrich with its own terms. These words trigger the behavior of his choice, including answers to questions interpreted by the robot. The software environment supports multiple languages, as indicated later in the description. NAO is also able to detect the origin of a sound, which allows it to remove ambiguities between several speakers.
NAO voit à travers deux caméras CMOS 640x480, 220a, capables de capter jusqu'à 30 images par seconde, par exemple des caméras de marque Omnivision™ de référence 0V760 (capteur CMOS 1 /6eme pouce : pixels de 3,6 μιτι). La première caméra placée au niveau du front, est pointée vers son horizon, alors que la seconde placée au niveau de la bouche, scrute son environnement immédiat. Le logiciel permet de récupérer des photos de ce que voit NAO ainsi que le flux vidéo. Pour percevoir et interpréter son environnement, NAO embarque un ensemble d'algorithmes de détection et de reconnaissance de visage, de formes, qui lui permettent de reconnaître son interlocuteur, de localiser une balle ainsi que des objets plus complexes. NAO sees through two 640x480 CMOS cameras, 220a, capable of capturing 30 frames per second, for example of brand cameras Omnivision ™ reference 0V760 (CMOS sensor 1/6 th inch: 3.6 μιτι pixels). The first camera placed at the forehead, is pointed towards its horizon, while the second placed at the level of the mouth, scrutinizes its immediate environment. The software can retrieve photos of what NAO sees and the video stream. To perceive and interpret its environment, NAO embeds a set of face detection and recognition algorithms, shapes, which allow it to recognize its interlocutor, to locate a ball as well as more complex objects.
Placé au sommet de son crâne, NAO est doté d'un capteur capacitif, 230a, divisé par exemple en trois sections et développé spécifiquement par la demanderesse pour cette application. Plus de trois sections pourraient être prévues pour des applications particulières. Il est ainsi possible de donner des informations à NAO par le toucher, par exemple en pressant une série de boutons permettant le déclenchement d'actions définies par l'application, qui peuvent être, dans le cadre de la présente invention des réponses différentes associées à chaque bouton, un déroulement dans une liste de choix proposés, l'accès à un menu d'aide, etc.. Le système est accompagné de LED qui indiquent s'il y a contact.
NAO peut s'exprimer en lisant à voix haute n'importe quel fichier texte résidant localement dans son espace de stockage, par exemple programmé selon les modes explicités plus loin dans la description ou récupéré depuis un site web ou un flux RSS. Doté de 2 hauts parleurs, 210b, disposés de chaque coté de la tête, son système de synthèse vocale par exemple Acapela Mobility d'Acapela, est paramétrable, ce qui permet notamment des modifications de la vitesse et/ou de la tonalité de la voix. Placed at the top of its skull, NAO is equipped with a capacitive sensor, 230a, for example divided into three sections and developed specifically by the plaintiff for this application. More than three sections could be planned for particular applications. It is thus possible to give information to NAO by touch, for example by pressing a series of buttons allowing the triggering of actions defined by the application, which may be, in the context of the present invention, different responses associated with each button, a scroll in a list of choices, access to a help menu, etc. The system is accompanied by LEDs that indicate whether there is contact. NAO can express itself by reading aloud any text file residing locally in its storage space, for example programmed according to the modes explained later in the description or retrieved from a website or an RSS feed. With 2 loudspeakers, 210b, arranged on each side of the head, its voice synthesis system Acapela Acapela Acapela for example, is configurable, which allows changes in particular the speed and / or tone of the voice .
Il est possible d'envoyer un fichier de musique à NAO et le lui faire jouer. NAO accepte par exemple les formats _.wav et _.mp3, ce qui permet, dans le cadre de la présente invention de prévoir des réponses musicales ou des sons personnalisés en accompagnement ou en substitutions de réponses vocales. D'autres formats de fichiers de musique peuvent être également acceptés. La figure 3 est un schéma de l'architecture des logiciels de haut niveau permettant le pilotage des fonctions du robot dans un mode de réalisation de l'invention. It is possible to send a music file to NAO and play it. NAO accepts, for example, the formats _.wav and _.mp3, which makes it possible, in the context of the present invention, to provide musical responses or personalized sounds for accompanying or replacing voice responses. Other music file formats may also be accepted. Figure 3 is a diagram of the architecture of high level software for controlling the functions of the robot in one embodiment of the invention.
Une architecture logicielle de ce type a été divulguée notamment dans la demande de brevet WO2009/124955 publiée le 15/10/2009. Elle comporte les fonctions de base de gestion des communications entre un robot et un PC ou un site distant et d'échange de logiciels qui fournissent l'infrastructure logicielle nécessaire à la mise en œuvre de la présente invention. Cette architecture est décrite ci-dessous de manière générique, sans mention spécifique des fonctions logicielles utilisées dans une application spécifique, étant entendu que ces fonctions sont traitées comme toute autre fonction logicielle de gestion des comportements du robot de la présente invention. Sur la figure 3 est représenté très schématiquement un premier robot humanoïde RH1 communiquant avec un premier terminal distant TD1 , par exemple par liaison sans fil pour des raisons de mobilité. On entend par terminal distant un terminal distant de la plate-forme serveur PFS, fournissant, par l'intermédiaire d'un réseau de communication, l'accès à un service web SW, dédié à ce type de robot humanoïde RH1 . A software architecture of this type has been disclosed in particular in the patent application WO2009 / 124955 published on 15/10/2009. It comprises the basic functions of communication management between a robot and a PC or a remote site and exchange of software that provide the software infrastructure necessary for the implementation of the present invention. This architecture is described below generically, without specific mention of the software functions used in a specific application, it being understood that these functions are treated like any other behavior management software function of the robot of the present invention. FIG. 3 is very schematically represented a first humanoid robot RH1 communicating with a first remote terminal TD1, for example by wireless link for reasons of mobility. Remote terminal means a remote terminal of the server platform PFS, providing, via a communication network, access to a web service SW, dedicated to this type of humanoid robot RH1.
Bien entendu, les liaisons de communication entre éléments du système peuvent être filaires, et les terminaux mobiles peuvent être, en variante, des téléphones portables ou des ordinateurs portables.
Un deuxième robot humanoïde RH2 communique avec un deuxième terminal distant TD2, par exemple également par liaison sans fil de manière à ne pas entraver la mobilité du robot humanoïde RH2. Of course, the communication links between elements of the system may be wired, and the mobile terminals may be, alternatively, mobile phones or laptops. A second humanoid robot RH2 communicates with a second remote terminal TD2, for example also by wireless link so as not to hinder the mobility of the humanoid robot RH2.
Les terminaux distants TD1 et TD2 et la plateforme serveur PFS sont reliés en réseau par l'intermédiaire du réseau de communication RC. Pour le service web de la plateforme serveur PFS ainsi que pour les terminaux distants TD1 et TD2, et que pour les robots humanoïdes RH1 et RH2, un seul module respectif de mise en relation B5, B2, B4, B1 et B3 dédié à au moins un module comprenant au moins une série d'instructions mettant en œuvre une fonction logicielle par exécution par un processeur. Les modules respectifs M51 , M52, M21 , M22, M41 , M42, M1 1 , M12, M31 , M32 des modules de mise en relation B5, B2, B4, B1 et B3 sont sur cet exemple représentés au nombre de deux par module de mise en relation, mais ce nombre peut être différent et quelconque pour chaque module de mise en relation. The TD1 and TD2 remote terminals and the PFS server platform are networked via the RC communication network. For the web service of the PFS server platform as well as for the TD1 and TD2 remote terminals, and for the humanoid robots RH1 and RH2, only one respective connection module B5, B2, B4, B1 and B3 dedicated to at least a module comprising at least one series of instructions implementing a software function by execution by a processor. The respective modules M51, M52, M21, M22, M41, M42, M1 1, M12, M31, M32 of the linking modules B5, B2, B4, B1 and B3 are in this example represented in number of two per module. linking, but this number may be different and any for each linking module.
Nous allons maintenant illustrer un exemple nullement limitatif de fonctionnement du système imaginé par un utilisateur du premier terminal distant TD1 possédant le premier robot humanoïde RH1 . Il peut, par exemple, faire réaliser par son robot un certain nombre de fonctions au moyen d'une application logicielle embarquée sur le premier terminal distant TD1 , ou accessible sur la plateforme serveur PFS depuis le premier terminal distant TD1 . We will now illustrate a non-limiting example of operation of the system devised by a user of the first remote terminal TD1 having the first humanoid robot RH1. It may, for example, have his robot perform a certain number of functions by means of a software application embedded on the first remote terminal TD1, or accessible on the server platform PFS from the first remote terminal TD1.
Par exemple il réalise simplement, aux moyens d'outils graphiques de l'application logicielle, une application pour son robot, dans laquelle le robot va marcher pendant 10 secondes puis dire "Bonjour à tous". Cette application est par exemple téléchargée dans le premier robot humanoïde RH1 sous forme d'un module, par exemple le module M1 1 , puis déclenchée par l'utilisateur par l'intermédiaire du premier terminal distant TD1 . For example, he simply realizes, by means of graphic tools of the software application, an application for his robot, in which the robot will walk for 10 seconds then say "Hello everyone". This application is for example downloaded into the first humanoid robot RH1 in the form of a module, for example the module M1 1, then triggered by the user via the first remote terminal TD1.
Le premier robot humanoïde RH1 déclenche le module M1 1 qui doit utiliser en premier une fonction "Marche". Le module M1 1 utilise alors un module d'interface de connexion et d'appel de fonction ou proxy P1 qui effectue une requête au module de mise en relation B1 auquel est lié le module M1 1 . Le module de mise en relation B1 effectue des requêtes à destination de ses propres modules et des modules de mise en relation du réseau auquel il est directement relié (modules de mise en relation enfants) qui répètent cette
opération de manière itérative, jusqu'à ce qu'un module de mise en relation du réseau réponde à la requête avec la localisation de la fonction appelée qu'il a dans un module. La réponse à la requête étant également transmise de manière itérative par les modules de mise en relation parents (en sens inverse) jusqu'au module de mise en relation B1 directement lié au proxy P1 ayant besoin de se connecter et d'appeler cette fonction. Par exemple, la fonction demandée pour la marche est localisée dans le module M41 du deuxième terminal distant TD2. En retour le module de mise en relation B4 a retourné les paramètres d'appels de la fonction "marche", qui, par exemple, contiennent un paramètre Durée de type entier en secondes représentant la durée pendant laquelle le robot va marcher, et un paramètre Exclusif, de type booléen, représentant la marche exclusive ou non du robot, i.e. si on autorise le robot à faire une autre action ou non pendant qu'il marche. Dans cet exemple, on appelle la fonction marche avec le paramètre Durée valant 10 et le paramètre Exclusif valant 1 , car on veut qu'il parle après avoir marché 10 seconde dans cet exemple. The first humanoid robot RH1 triggers the module M1 1 which must first use a function "On". The module M1 1 then uses a connection interface module and function call or proxy P1 which makes a request to the connection module B1 to which the module M1 1 is linked. The linking module B1 makes requests to its own modules and modules for connecting the network to which it is directly connected (child contact modules) which repeat this operation iteratively until a network matching module responds to the request with the location of the called function it has in a module. The response to the request is also transmitted iteratively by the parent linking modules (in the opposite direction) to the connection module B1 directly linked to the proxy P1 needing to connect and call this function. For example, the function requested for the step is located in the module M41 of the second remote terminal TD2. In return, the connection module B4 returned the call parameters of the "on" function, which, for example, contain an integer duration parameter in seconds representing the duration during which the robot is going to walk, and a parameter Exclusive, of Boolean type, representing the exclusive or not running of the robot, ie if the robot is allowed to do another action or not while walking. In this example, we call the walk function with the parameter Duration equal to 10 and the Exclusive parameter equal to 1, because we want it to speak after having walked for 10 seconds in this example.
Le module d'interface de connexion et d'appel P1 peut donc effectuer la connexion et l'appel de la fonction "marche" avec les paramètres souhaités, à distance, comme si elle était située en local. Les modules d'interface de connexion et d'appels de fonction utilisent un logiciel d'intercommunication capable d'appeler une fonction d'un module localisé sur un terminal ou serveur différent, la fonction pouvant être écrite par une série d'instructions dans un langage informatique différent de celui du module appelant. Les proxies utilisent, par exemple, le logiciel d'intercommunication SOAP. On a donc une architecture de communication inter-plateformes et inter-langages. Une fois cette fonction délocalisée "marche" effectuée, le module M1 1 doit faire appel à une fonction "parle". Un autre module d'interface de connexion et d'appel de fonction ou proxy P2 effectue une requête au module de mise en relation B1 auquel est lié le module M1 1 . Le module de mise en relation B1 effectue une requête à destination de ses propres modules M1 1 et M12 dans un premier temps, par l'intermédiaire d'une fonction réalisée sous la forme d'une suite d'instructions mémorisées, qui va, par exemple, retourner la présence de cette fonction "parle" dans le module M12. Le module de mise en relation B1 informe le module d'interface de connexion et d'appel de fonction P2 qui peut alors appeler directement, par un appel de type appel
local la fonction "parle" du module M12, avec comme paramètre, par exemple, le texte à dire "bonjour", ce paramètre ayant été transmis au proxy P2 par le module de mise en relation B1 . The connection and call interface module P1 can thus make the connection and the call of the "on" function with the desired parameters, remotely, as if it were located locally. The connection interface and function call modules use intercom software capable of calling a function of a module located on a different terminal or server, the function being able to be written by a series of instructions in a computer language different from that of the calling module. Proxies use, for example, the SOAP intercommunication software. We therefore have an inter-platform and inter-language communication architecture. Once this function delocalized "on" carried out, the module M1 1 must call a function "speaks". Another connection interface and function call or P2 proxy module makes a request to the connection module B1 to which the module M1 1 is linked. The connection module B1 makes a request to its own modules M1 1 and M12 in a first step, through a function performed in the form of a sequence of stored instructions, which goes, by example, return the presence of this function "speaks" in the module M12. The connection module B1 informs the connection interface module and function call P2 which can then call directly, by a call-type call local the "speak" function of the module M12, with as parameter, for example, the text to say "hello", this parameter having been transmitted to the P2 proxy by the linking module B1.
En outre, le système comprend un module de mémorisation et de gestion STM (diminutif de "Short Term Memory" en langue anglaise) de paramètres représentatifs de l'état du terminal mobile, en l'occurrence du robot humanoïde RH1 , adaptés pour mettre à jour les valeurs desdits paramètres sur réception d'un événement externe, et pour informer un module, sur demande préalable, d'une mise à jour d'un desdits paramètre mémorisé. Aussi le module prévenu pourra engager une action en fonction des modifications de paramètres dont il a été informé. In addition, the system comprises an STM storage and management module (short for "Short Term Memory" in English) of parameters representative of the state of the mobile terminal, in this case the humanoid robot RH1, adapted to set day the values of said parameters on receipt of an external event, and to inform a module, upon prior request, of an update of one of said stored parameter. Also the module prevented will be able to initiate an action according to the modifications of parameters of which it was informed.
En relation avec l'exemple préalablement décrit, par exemple, le module de mémorisation et de gestion STM peut mémoriser l'état d'un paramètre représentatif de l'apparition de quelqu'un détecté par un détecteur de mouvement du robot RH1 . Lorsque ce paramètre passe d'un état représentatif de personne dans l'environnement immédiat du robot à un état représentatif de quelqu'un présent dans l'environnement immédiat du robot, sur demande effectuée préalablement par le module M1 1 , le module de mémorisation et de gestion STM prévient, par un événement ou signal ce changement de valeur. Le module M1 1 peut, alors par exemple, déclencher automatiquement le déclenchement successif décrit précédemment (les fonctions "marche" et "parle"). In connection with the previously described example, for example, the STM storage and management module can memorize the state of a parameter representative of the appearance of someone detected by a motion detector of the robot RH1. When this parameter passes from a representative state of person in the immediate environment of the robot to a representative state of someone present in the immediate environment of the robot, on request previously carried out by the module M1 1, the memory module and STM prevents, by an event or signal, this change in value. The module M1 1 can then, for example, automatically trigger the successive triggering described above (the functions "on" and "speaks").
Dans l'exemple de la figure 3, le module de mémorisation et de gestion STM fait partie du terminal distant TD1 , mais, en variante, il peut faire partie de l'autre terminal distant TD2, de la plate-forme serveur PFS, ou d'un robot humanoïde RH1 ou RH2. In the example of FIG. 3, the storage and management module STM is part of the remote terminal TD1, but, as a variant, it can be part of the other remote terminal TD2, of the server platform PFS, or a humanoid robot RH1 or RH2.
Le module de mémorisation et de gestion STM est également capable de stocker en mémoire une évolution temporelle de certains paramètres sur des intervalles de temps respectifs de référence. Ainsi, un module du système peut, en outre, avoir accès à l'évolution des valeurs de ces paramètres depuis une certaine durée, et tenir compte de ces évolutions dans les actions à mener. The STM storage and management module is also capable of storing in memory a temporal evolution of certain parameters over respective reference time intervals. Thus, a module of the system can, in addition, have access to the evolution of the values of these parameters for a certain duration, and take into account these changes in the actions to be carried out.
En variante, les modules des fonctions appelées peuvent être localisée sur la plate-forme serveur PGS, sur un robot humanoïde RH1 , RH2 ou sur un terminal distant TD1 , TD2 du réseau de communication RC.
Ainsi, la présente invention permet d'avoir un programme réparti sur le réseau, et un fonctionnement identique du terminal mobile, qu'il fasse un appel local ou distant à une fonction. As a variant, the modules of the called functions can be located on the server platform PGS, on a humanoid robot RH1, RH2 or on a remote terminal TD1, TD2 of the communication network RC. Thus, the present invention makes it possible to have a program distributed over the network, and an identical operation of the mobile terminal, whether it makes a local or remote call to a function.
En outre, la présente architecture permet également d'avoir un ensemble de paramètres mémorisés représentatifs de l'état du terminal mobile, et de pouvoir tenir compte d'évolutions de cet état pour déclencher automatiquement certaines actions. In addition, the present architecture also makes it possible to have a set of stored parameters representative of the state of the mobile terminal, and to be able to take account of changes in this state to trigger certain actions automatically.
De surcroît, le module de mémorisation et de gestion peut également enregistrer une évolution de valeurs de paramètres durant un intervalle de temps prédéterminé, ce qui permet à un module d'avoir accès à un historique de l'évolution de ces paramètres. In addition, the storage and management module can also record an evolution of parameter values during a predetermined time interval, which allows a module to have access to a history of the evolution of these parameters.
Ces fonctions de communication et de mémorisation, qui constituent un système d'exploitation et de gestion des interfaces du robot, dénommé NAOQI, sont particulièrement utiles pour la mise en œuvre de la présente invention. These communication and storage functions, which constitute a system for operating and managing robot interfaces, called NAOQI, are particularly useful for the implementation of the present invention.
La figure 4 est un schéma de l'architecture fonctionnelle d'édition et de programmation des comportements d'un robot dans un mode de réalisation de l'invention. FIG. 4 is a diagram of the functional architecture for editing and programming the behaviors of a robot in one embodiment of the invention.
Une telle architecture a été décrite par la demande de brevet PCT/EP2010/0571 1 1 déposée le 25/05/2010. Le logiciel d'édition et de programmation des comportements d'un robot humanoïde permettant de mettre en œuvre ladite architecture est commercialement dénommé Chorégraphe™, et peut être désigné indifféremment pas son nom générique ou par son nom commercial, sans altérer la généralité des références. Such an architecture has been described by patent application PCT / EP2010 / 057111 filed on 25/05/2010. The software for editing and programming the behaviors of a humanoid robot for implementing said architecture is commercially known as Choregraph ™, and may be denoted by its generic name or by its commercial name, without altering the generality of the references.
Le robot contrôlé par cette architecture peut être un robot humanoïde ayant une tête, un tronc et quatre membres, chacune des parties étant articulée, chaque articulation étant commandée par un ou plusieurs moteurs. Cette architecture permet à un utilisateur du système de commander un tel robot en créant des comportements simulés sur un robot virtuel et exécutés sur le robot réel relié au système par une liaison filaire ou sans fil. The robot controlled by this architecture may be a humanoid robot having a head, a trunk and four members, each of the parts being articulated, each articulation being controlled by one or more motors. This architecture allows a user of the system to control such a robot by creating simulated behaviors on a virtual robot and executed on the real robot connected to the system by a wired or wireless link.
Il s'agit de visualiser, de simuler et de faire exécuter des comportements (tels que la marche - tout droit, à droite ou à gauche de n pas ; un « hello » - mouvements d'un des bras au-dessus de la tête ; la parole, etc ..) et des
mouvements (de la tête, d'une partie de membre, d'un angle donné) sur l'écran d'un ordinateur programmé pour ce faire. It involves visualizing, simulating and executing behaviors (such as walking - straight, right or left of n not, a hello - movements of one of the arms above the head speech, etc.) and movements (of the head, part of a member, a given angle) on the screen of a computer programmed to do this.
La figure 4 est un organigramme des traitements qui illustre l'articulation des commandes déclenchées par des événements avec leur dimension temporelle. Les commandes déclenchées par des événements sont représentées dans la sémantique de l'invention par des Boxes ou « Boîtes » ou « Boîtes de commande » 410. Une Boîte est une structure de programmation arborescente qui peut comprendre un ou plusieurs des éléments ci-dessous qui sont définis ensuite: Figure 4 is a process flow diagram that illustrates the articulation of the commands triggered by events with their temporal dimension. Commands triggered by events are represented in the semantics of the invention by Boxes or "Boxes" or "Control Boxes" 410. A Box is a tree-based programming structure that may include one or more of the following elements that are defined next:
- Une « Timeline » ou axe temporel de Trames 420; - A "timeline" or time axis of 420 frames;
- Un « Diagram » ou Diagramme de flux 470 - A "Diagram" or Flow Diagram 470
- Un Script 490. - A Script 490.
Les Boîtes de commande sont normalement reliées entre elles par des connections qui transmettent le plus souvent une information d'événement d'une Boîte à l'autre, comme détaillé plus loin dans la description. Toute Boîte est reliée directement ou indirectement à une « Boîte racine » ou Root qui initialise le scénario de comportement/mouvement du robot. Control boxes are normally interconnected by connections that most often transmit event information from one Box to another, as detailed later in the description. Any Box is connected directly or indirectly to a "Root Box" or Root that initializes the behavior / motion scenario of the robot.
Un axe temporel de Trames 420 représente la contrainte temporelle à laquelle sont soumis les comportements et les mouvements du robot définis dans la Boîte dans laquelle le dit Axe temporel de Trames est inséré. Dans la suite de la description et des revendications, nous utiliserons la dénomination anglo-saxonne de Timeline, communément admise avec le même sens dans le monde de la programmation. La Timeline réalise ainsi la synchronisation des comportements et mouvements de la Boîte. Elle est découpée en frames (Trames) auxquelles est associée une vitesse de déroulement définie en nombre de Trames par seconde ou Frames Per Second (FPS). Le FPS de chaque Timeline est paramétrable par l'utilisateur. Par défaut, le FPS peut être fixé à une valeur donnée, par exemple 15 FPS. Une Timeline peut comprendre : A time axis of Frames 420 represents the temporal constraint to which the behaviors and movements of the robot defined in the box in which the said time axis of frames is inserted. In the rest of the description and the claims, we will use the Anglo-Saxon name of Timeline, commonly accepted with the same meaning in the world of programming. The Timeline thus synchronizes the behaviors and movements of the Box. It is divided into frames which are associated with a run rate defined in number of frames per second or Frames Per Second (FPS). The FPS of each Timeline is customizable by the user. By default, the FPS can be set to a given value, for example 15 FPS. A Timeline can include:
- Une ou plusieurs Behavior Layers ou « Couches de comportement » 430, comprenant chacune une ou plusieurs Behavior Key Frames ou « Trames principales de comportement » 450, qui peuvent comprendre elles-mêmes un ou plusieurs Diagrams ou « Diagrammes de flux » 470, qui sont en fait des ensembles de Boîtes qui peuvent également être
rattachées directement à une Boîte de niveau supérieur, sans passer par une Couche de comportement ni une Timeline; One or more Behavior Layers or "Behavior Layers" 430, each comprising one or more Behavior Key Frames or "Behavior Principal Frames" 450, which may themselves include one or more Diagrams or "flow diagrams" 470, which are actually sets of boxes that can also be directly attached to a higher level mailbox, without going through a Behavior Layer or a Timeline;
- Une ou plusieurs Motion Layers ou « Couches de mouvement » 440, comprenant chacune une ou plusieurs Motion Key Frames ou «Trames principales de mouvement » 460 qui peuvent comprendre un ou plusieurs Motion Screens ou « Ecrans de mouvement » 480. One or more Motion Layers or "Motion Layers" 440, each comprising one or more Motion Key Frames or "Main Motion Frames" 460 which may include one or more Motion Screens or "Motion Screens" 480.
Une Couche de comportement définit un ensemble de comportements du robot ou Trames principales de comportement. Plusieurs Couches de comportement peuvent être définies au sein d'une même Boîte. Elles seront alors programmées pour se dérouler de manière synchronisée par la Timeline de la Boîte. A behavior layer defines a set of behaviors of the robot or main behavior patterns. Several behavior layers can be defined within the same box. They will then be programmed to run synchronously by the Timeline of the Box.
Une Couche de comportement pourra comprendre un ou plusieurs Trames principales de comportement. Une Trame principale de comportement définit un comportement du robot, tel que la marche (« Walk »), la parole (« Say »), le jeu de musique (« Music »)... Un certain nombre de comportements sont pré-programmés dans le système de l'invention pour être directement insérés par l'utilisateur dans un simple « drag and drop » à partir d'une librairie comme détaillé plus loin dans la description. Chaque Trame principale de comportement est définie par un événement déclencheur qui est le début de la Trame à laquelle elle est insérée dans la Timeline. La fin de la Trame principale de comportement n'est définie que dans la mesure où une autre Trame principale de comportement est insérée à sa suite, ou si un événement de fin est défini. A behavior layer may include one or more main patterns of behavior. A main behavior matrix defines a behavior of the robot, such as walking ("Walk"), speech ("Say"), the music game ("Music") ... A certain number of behaviors are pre-programmed in the system of the invention to be directly inserted by the user in a simple "drag and drop" from a library as detailed later in the description. Each Primary Behavior Frame is defined by a trigger event that is the start of the frame to which it is inserted into the Timeline. The end of the Main Behavior Frame is defined only to the extent that another Main Behavior Frame is inserted after it, or if an end event is defined.
Une Couche de mouvement définit un ensemble de mouvements du robot qui sont programmés par une ou plusieurs Trames principales de mouvement successives qui regroupent des mouvements des moteurs des articulations du robot. Ces mouvements à exécuter sont définis par les positions angulaires d'arrivée des dits moteurs qui peuvent être programmées par action sur des écrans de mouvement, lesdites actions étant détaillées plus loin dans la description. Toutes les Trames principales de mouvement d'une même Boîte sont synchronisées par la Timeline de la Boîte. Une Trame principale de mouvement est définie par une Trame d'arrivée. La Trame de départ est celle de fin de la Trame principale de mouvement précédente ou celle de l'événement de début de la Boîte.
On désigne sous l'appellation commune de Trame principale d'action les Trames principales de comportement et les Trames principales de mouvement. A Movement Layer defines a set of robot motions that are programmed by one or more successive main Motion Frames that group movements of the robot's joint motors. These movements to be executed are defined by the angular positions of arrival of said engines that can be programmed by action on motion screens, said actions being detailed further in the description. All the main Motion Frames of the same Box are synchronized by the Timeline of the Box. A Main Motion Frame is defined by an Arrival Frame. The starting frame is the ending frame of the previous main movement frame or the start event of the box. The Main Behavior Frames and the Main Motion Frames are commonly referred to as Main Action Frame.
Il est possible d'exécuter en parallèle plusieurs Trames principales d'action (de comportement ou de mouvement), à condition qu'elles soient rattachées à la même Timeline. It is possible to run in parallel several main action frames (behavior or movement), provided that they are attached to the same Timeline.
Un Diagramme de flux est un ensemble de Boîtes connectées entre elles, comme détaillé plus loin. Chacune des Boîtes peut à son tour comprendre d'autres Timeline auxquelles sont rattachées de nouvelles Couches de comportement ou de mouvement. A flow diagram is a set of connected boxes, as detailed below. Each of the Boxes may in turn include other timelines to which new patterns of behavior or movement are attached.
Un script est un programme directement exécutable par le robot. Dans le cadre de la présente invention, les scripts sont de manière privilégiée écrits en langage C++. Une Boîte qui comprend un script ne comprend pas d'autre élément. A script is a program directly executable by the robot. In the context of the present invention, the scripts are privilegedly written in C ++ language. A Box that includes a script does not include any other element.
Le logiciel peut être implanté sur un PC ou une autre plateforme de type ordinateur personnel utilisant un système d'exploitation Windows™, Mac™ ou Linux™. The software can be installed on a PC or other personal computer platform using a Windows ™, Mac ™ or Linux ™ operating system.
Le robot humanoïde de la présente invention sera généralement programmé pour pouvoir interagir avec un être humain en utilisant le logiciel Chorégraphe™. La combinaison des logiques temporelles et comportementales rendue possible par cette architecture de développement est particulièrement avantageuse pour la mise en œuvre de la présente invention. Un certain nombre d'outils, évoqués plus loin dans la suite de la description, ont été particulièrement développés pour la mise en œuvre d'un robot humanoïde disposant d'une interface de dialogue naturel dans le cadre de la présente invention. The humanoid robot of the present invention will generally be programmed to interact with a human being using the Choregraph ™ software. The combination of temporal and behavioral logics made possible by this development architecture is particularly advantageous for the implementation of the present invention. A number of tools, discussed later in the following description, have been particularly developed for the implementation of a humanoid robot with a natural dialogue interface in the context of the present invention.
La figure 5 est un organigramme fonctionnel des traitements appliqués de manière générale pour améliorer l'interprétation donnée par un robot humanoïde des réponse/stimuli qu'il reçoit dans plusieurs modes de réalisation de l'invention. FIG. 5 is a functional flowchart of the treatments generally applied to improve the interpretation given by a humanoid robot of the response / stimuli it receives in several embodiments of the invention.
Au fil du temps, l'être humain a développé une grande variété de moyens pour interagir avec les machines. Ces moyens suivent l'évolution des technologies, ils sont donc de plus en plus performants. En tous cas, pour
être efficace, l'interaction quelle qu'elle soit, doit être adaptée à la plateforme et aux besoins de l'utilisateur. Over time, humans have developed a wide variety of ways to interact with machines. These means follow the evolution of technologies, so they are more and more efficient. In any case, for to be effective, the interaction whatever it is, must be adapted to the platform and the needs of the user.
Les interfaces graphiques et environnements fenêtrés mettent ainsi à disposition d'un utilisateur un certain nombre d'éléments d'interface encore appelés composants d'interface graphique (en anglais : GUI Eléments ou Graphical User Interface Eléments), comme par exemple : zone de texte (Text Box en anglais), boutons OK/Cancel, cases à cocher (Check Box en anglais), boutons de radio (Radio Button en anglais), ou boîtes combinées (Combo Box en anglais). Ces éléments, adaptés à une interface graphique, ne peuvent pas être utilisés tels quels sur un robot humanoïde qui ne fournit pas en principe de retour visuel de type écran traditionnel. Or les échanges avec le robot devraient être au moins aussi riches que ceux avec l'interface graphique d'un ordinateur. On veut alors pouvoir choisir une option, épeler un mot, lancer ou quitter une application de la même façon qu'on cocherait une case, qu'on entrerait un texte au clavier, qu'on double-cliquerait sur une icône ou qu'on cliquerait sur la croix dans la fenêtre de l'application. On ne veut pas non plus copier simplement ces éléments existants justement puisqu'on veut une interface humanisée et naturelle pour l'utilisateur. Il faut donc trouver des éléments d'interface utilisateur qui soient adaptés à un robot humanoïde autonome. The graphical interfaces and windowed environments thus make available to a user a certain number of interface elements, also called GUI components (in English: GUI Elements or Graphical User Interface Elements), for example: text box (Text Box in English), OK / Cancel buttons, checkboxes, radio buttons, or Combo Boxes. These elements, adapted to a graphical interface, can not be used as such on a humanoid robot that does not provide in principle visual feedback of traditional screen type. But the exchanges with the robot should be at least as rich as those with the graphical interface of a computer. We then want to be able to choose an option, spell a word, launch or quit an application in the same way that we tick a box, we enter a text on the keyboard, we double-click on an icon or we would click on the cross in the application window. We do not want to simply copy these existing elements just because we want a humanized interface and natural for the user. It is therefore necessary to find user interface elements that are adapted to an autonomous humanoid robot.
Ces éléments doivent également être facilement paramétrables pour les créateurs de comportements de robots humanoïdes et permettre une adaptation facile à la langue de l'utilisateur. Les robots autonomes existants peuvent mettre en place des interfaces hommes-robots simples, comme de la reconnaissance vocale, mais, dans l'art antérieur, aucun élément d'interface utilisateur multimodal, régionalisé (permettant le multilinguisme) et gérant les échecs n'a été fourni aux utilisateurs ni aux développeurs. These elements must also be easily customizable for creators of humanoid robot behaviors and allow easy adaptation to the user's language. The existing autonomous robots can set up simple human-robot interfaces, such as voice recognition, but in the prior art, no multimodal, regionalized (allowing multilingualism) and fail-managing user interface elements provided to users and developers.
En effet, aujourd'hui, le type de reconnaissance vocale qu'il est possible d'implanter sur un robot humanoïde de taille et de prix raisonnable, doté de capacités d'acquisition et de traitement multi-capteurs, de capacités de locomotion et d'un grand nombre de degrés de liberté de ses quatre membres, est nécessairement limité par les ressources informatiques et en énergie électrique qu'il est possible d'embarquer sur le robot. Ces ressources sont en effet nécessairement affectées par priorité aux traitements permettant d'assurer la sécurité et la fiabilité des captures de
signaux et des commandes nécessaires à l'exécution des mouvements. Il est donc nécessaire de prévoir des éléments d'interface homme-robot permettant de corriger au mieux les imperfections inévitables, dans ce contexte, de la reconnaissance vocale et d'offrir à l'utilisateur une interaction réussie grâce notamment à des mécanismes de lever de doute sur l'interprétation que donne le robot aux messages qu'il reçoit de l'utilisateur et à des questions renvoyées par le robot qui s'inscrivent dans le cadre d'une séquence de dialogue qui converge. Indeed, today, the type of voice recognition that can be implemented on a humanoid robot of reasonable size and price, with multi-sensor acquisition and processing capabilities, locomotion capabilities and 'a large number of degrees of freedom of its four members, is necessarily limited by the computing resources and electrical energy that it is possible to embark on the robot. These resources are in fact necessarily assigned priority treatment to ensure the safety and reliability of catches of signals and commands necessary for the execution of movements. It is therefore necessary to provide human-robot interface elements making it possible to better correct the inevitable imperfections, in this context, of voice recognition and to offer the user a successful interaction thanks in particular to mechanisms for doubt about the robot's interpretation of the messages it receives from the user and questions returned by the robot that fall within the context of a converging dialogue sequence.
On notera également que l'humain ne parle pas de façon naturelle à un robot parce qu'il ne retrouve pas ses références humaines, c'est-à-dire les gestes et les comportements qu'un humain aurait dans la même situation. L'interaction ne sera notamment pas naturelle si le robot ne regarde pas dans la direction de l'humain, interaction habituelle dans l'interaction Homme-Homme. De plus, contrairement à la communication humaine, le type de reconnaissance vocale compatible avec les ressources informatiques embarquées sur un robot humanoïde multifonctions ne permet pas de gérer à elle seule de manière efficace des interactions avec plusieurs utilisateurs. En outre, la plupart des robots utilisent peu ou pas le langage naturel, la synthèse vocale étant en général programmée avec des phrases pré-écrites par des humains, que ce soient une histoire inventée pour le robot ou un email écrit par un humain et que le robot va lire. Il manque donc des éléments permettant de rapprocher au mieux l'interaction Homme-robot d'une interaction Homme-Homme. Les interfaces homme-robot de l'art antérieur n'ont pas assez de multi-modalité ou de codes d'interaction permettant de simuler une interaction naturelle Homme-Homme et de contribuer à la réussite de l'interaction. De plus, si l'interface fait appel à des connaissances déjà acquises par l'utilisateur et même à celles qu'il utilise quotidiennement, l'expérience sera bien plus facile et ne nécessitera que peu d'apprentissage de la part de l'utilisateur. Ainsi, balayer des yeux une salle dans un monde virtuel se fera d'autant plus instinctivement avec un casque de réalité virtuelle en bougeant la tête qu'en appuyant sur les flèches d'un clavier d'ordinateur. It should also be noted that the human does not speak naturally to a robot because he does not find his human references, that is to say, the gestures and the behaviors that a human would have in the same situation. The interaction will not be particularly natural if the robot does not look in the direction of the human, usual interaction in the Man-Man interaction. Moreover, unlike human communication, the type of voice recognition compatible with the computer resources embedded on a multi-function humanoid robot does not effectively manage interactions with multiple users. In addition, most robots use little or no natural language, speech synthesis is usually programmed with pre-written sentences by humans, whether a story invented for the robot or an email written by a human and that the robot will read. There is therefore a lack of elements to bring the Man-robot interaction closer to a Man-Man interaction. The human-robot interfaces of the prior art do not have enough multi-modality or interaction codes to simulate a natural human-human interaction and contribute to the success of the interaction. In addition, if the interface uses knowledge already acquired by the user and even those he uses daily, the experience will be much easier and will require little learning from the user . Thus, sweeping a room in a virtual world will be all the more instinctively with a virtual reality headset by moving your head than by pressing the arrows on a computer keyboard.
La solution de l'invention propose des éléments d'interface utilisateur, combinant software et hardware, adaptés à un robot humanoïde autonome.
En transposant l'appellation GUI Eléments utilisée ci-dessus aux comportements d'un robot, on définit alors des BUI Eléments (Behavior User Interface Eléments), que l'on pourra ici appeler plus généralement et simplement des UlElements. De tels UlElements peuvent par exemple être définis pour coder de manière simple des actions telles que : The solution of the invention proposes user interface elements, combining software and hardware, adapted to an autonomous humanoid robot. By transposing the name GUI Elements used above to the behaviors of a robot, we then define BUI Elements (Behavior User Interface Elements), which we can call here more generally and simply UlElements. Such UlElements can for example be defined to simply code actions such as:
quitter une application à n'importe quel moment en tapant simultanément sur les trois capteurs tactiles de la tête du robot ; interpeller le robot en utilisant la reconnaissance vocale ; passer à l'étape suivante d'une application en tapant sur un des capteurs tactiles du robot. leave an application at any time by simultaneously tapping the three touch sensors on the robot's head; challenge the robot using voice recognition; move to the next step of an application by tapping one of the robot's touch sensors.
Ces éléments simples sont ainsi de véritables codes d'interaction qui peuvent être implantés dans des bibliothèques génériques pour être disponibles dans tous les comportements et applications d'un robot ou créées en tant que ressources spécifiques d'un projet donné. These simple elements are thus real interaction codes that can be implemented in generic libraries to be available in all the behaviors and applications of a robot or created as specific resources of a given project.
Les UlElements de l'invention sont des éléments utilisables et paramétrables facilement par un développeur de comportements. Ce sont principalement des boîtes Chorégraphe qui deviennent des GUI Eléments de base pour la programmation de comportements. Notamment, certaines de ces boîtes comprennent des plugins Chorégraphe, codés en C++ en utilisant une librairie de Widget produit par l'environnement Qt™ de développement de composants d'interfaces graphiques. The UlElements of the invention are elements that can be used and parameterized easily by a behavior developer. These are mainly choreographic boxes that become GUIs Basic elements for programming behaviors. Notably, some of these boxes include Choreographer plugins, encoded in C ++ using a Widget library produced by the Qt ™ environment for developing GUI components.
On a représenté sur la figure 5 une vue simplifiée d'une architecture fonctionnelle permettant la mise en œuvre de l'invention. There is shown in Figure 5 a simplified view of a functional architecture for the implementation of the invention.
On aménage au sein de ou en connexion avec l'unité centrale 120 de la figure 1 un module de contrôle des entrées/sorties 510 des canaux de communication par lesquels le robot va échanger ses messages avec ses interlocuteurs. Ce module comprend, physiquement ou logiquement, les moyens de prétraitement émission/réception des canaux de communication spécialisés dont le robot est équipé. Arranged within or in connection with the central unit 120 of Figure 1 an input / output control module 510 of the communication channels by which the robot will exchange his messages with his interlocutors. This module comprises, physically or logically, the transmission / reception preprocessing means of the specialized communication channels of which the robot is equipped.
Sans que cela soit limitatif, on a représenté sur la figure trois types de canaux de communication de messages, chaque type disposant d'un canal de réception et d'un canal d'émission. Without this being limiting, three types of message communication channels are shown in the figure, each type having a reception channel and a transmission channel.
Un canal récepteur 521 de type 1 correspond à l'ouïe humaine et permet à un robot d'acquérir des signaux sonores, de préférence des messages
vocaux à contenu sémantique. Pour ce faire, le robot peut être équipé des microphones 210a représentés sur la figure 2a. Les sorties de ce canal sont normalement prétraitées par un processeur de traitement de signal spécialisé qui exécute des algorithmes de reconnaissance vocale. Ces algorithmes peuvent être plus ou moins complexes et d'efficacité variable selon l'environnement dans lequel ils sont utilisés (bruit ambiant, multi locuteurs...) et la réalisation d'un apprentissage spécifique plus ou moins complet. Dans toutes les configurations, des erreurs de reconnaissance sont cependant inévitables. A type 1 receiver channel 521 corresponds to human hearing and enables a robot to acquire sound signals, preferably messages voice with semantic content. To do this, the robot can be equipped with microphones 210a shown in Figure 2a. The outputs of this channel are normally preprocessed by a dedicated signal processing processor that executes speech recognition algorithms. These algorithms can be more or less complex and variable in effectiveness depending on the environment in which they are used (ambient noise, multi speakers ...) and the achievement of specific learning more or less complete. In all configurations, however, recognition errors are unavoidable.
Un canal émetteur 531 de type 1 correspond à la parole humaine et permet à un robot de parler, c'est-à-dire de prononcer des messages vocaux à contenu sémantique, par exemple par l'intermédiaire de haut-parleurs 210b représentés sur la figure 2b. La langue, le timbre, le rythme et la tonalité de la voix peuvent être variés en fonction du contexte et pour exprimer un sentiment. Mais ces sons peuvent également être des bip, de la musique préenregistrée, étant entendu que les bip, en séquence morse par exemple, et la musique, selon des codes préétablis, peuvent avoir également un contenu sémantique. A type 1 transmitter channel 531 corresponds to human speech and enables a robot to speak, that is to say to pronounce semantic content voice messages, for example via speakers 210b represented on the device. Figure 2b. The language, timbre, rhythm and tone of the voice can be varied depending on the context and to express a feeling. But these sounds can also be beeps, prerecorded music, it being understood that the beep, in Morse sequence for example, and the music, according to pre-established codes, can also have a semantic content.
Un canal récepteur 522 de type 2 correspond à la vision humaine et permet à un robot de repérer son environnement et d'acquérir des images qu'il peut ensuite reconnaître si elles sont stockées dans une mémoire qui lui est accessible. Pour ce faire, le robot peut être équipé par exemple des caméras CMOS 220a représentées sur la figure 2a. Une des caméras est de préférence dédiée à la vision lointaine, l'autre à la vision proche. Avantageusement, les algorithmes de reconnaissance d'image sont adaptés pour permettre une détection voire une reconnaissance des visages des interlocuteurs du robot. Là encore, quelles que soient les performances de la reconnaissance, des incertitudes ou des erreurs sont inévitables. La reconnaissance d'image peut également s'appliquer à des formes simples telles que des chiffres présentés au robot sur des visuels ou des marques, dont la signification peut être définie par un codage. A type 2 receiver channel 522 corresponds to human vision and allows a robot to locate its environment and acquire images that it can then recognize if they are stored in a memory accessible to it. To do this, the robot can be equipped for example CMOS cameras 220a shown in Figure 2a. One of the cameras is preferably dedicated to distant vision, the other to near vision. Advantageously, the image recognition algorithms are adapted to allow detection or recognition of the faces of the interlocutors of the robot. Again, whatever the performance of recognition, uncertainties or errors are inevitable. Image recognition can also be applied to simple shapes such as figures presented to the robot on visuals or marks, the meaning of which can be defined by coding.
Un canal émetteur 532 de type 2 est un canal artificiel sans équivalent humain direct. Ce canal permet l'émission de signaux lumineux produits par des LED implantées sur le corps du robot. De nombreuses LED peuvent être prévues, notamment sur les yeux, les oreilles, le torse, les pieds. Elles
peuvent avoir des couleurs différentes et être dotées d'une capacité de clignotement à fréquence variable. Ce canal dote le robot de moyens simples et puissants d'envoi de messages. En particulier un code particulier peut être défini et programmé par un utilisateur. A transmitter channel 532 of type 2 is an artificial channel without direct human equivalent. This channel allows the emission of light signals produced by LEDs implanted on the body of the robot. Many LEDs can be provided, especially on the eyes, ears, torso, feet. They may have different colors and may have variable frequency flashing capability. This channel provides the robot with simple and powerful means of sending messages. In particular, a particular code can be defined and programmed by a user.
Un canal récepteur 523 de type 3 est un canal équivalent au toucher humain. Ce canal est cependant limité dans ses zones tactiles. Celles-ci peuvent par exemple être concentrées dans un capteur tactile tel que le capteur 230a représenté sur la figure 2a. L'interlocuteur du robot actionnera le capteur tactile pour communiquer un message au robot, de type binaire (validation d'une action) ou plus complexe. Les informations reçues par ce canal peuvent en effet correspondre à un code défini par l'utilisateur, soit unitaire (tape, caresse ayant respectivement une signification de punition et de récompense), soit séquentiel de type morse. Un capteur tactile spécifique n'est pas forcément nécessaire pour définir un canal de communication de ce type. Un canal de même type, dans la mesure où il reçoit une action de contact d'un interlocuteur, peut être défini dans lequel le capteur de message est un capteur analogique continu représenté par les positions des bras et/ou avant-bras du robot, lesdites positions étant représentatives de valeurs numériques communiquées par l'interlocuteur au robot, comme cela sera expliqué plus loin dans la suite de la description. En effet, le robot connaît à tout instant les positions angulaires de ses articulations et sait donc interpréter comme un message des variations de celles-ci provoquées par un déplacement sous l'action de l'interlocuteur, si la signification dudit déplacement a été définie à l'avance. Un simple toucher d'un membre (l'avant-bras par exemple) peut également être décelé par les capteurs de position angulaire des articulations du robot. Des mouvements plus brusques, tels que des secousses ou un soulèvement peuvent être détectés respectivement par la centrale inertielle du robot et ses capteurs de soles de pieds (FSR). A 523 type 3 receiver channel is a channel equivalent to human touch. This channel is however limited in its tactile areas. These may for example be concentrated in a touch sensor such as the sensor 230a shown in Figure 2a. The interlocutor of the robot will activate the touch sensor to communicate a message to the robot, binary type (validation of an action) or more complex. The information received by this channel can indeed correspond to a code defined by the user, either unitary (tape, caress respectively having a meaning of punishment and reward), or sequential Morse type. A specific touch sensor is not necessarily necessary to define a communication channel of this type. A channel of the same type, to the extent that it receives a contact action from a speaker, can be defined in which the message sensor is a continuous analog sensor represented by the positions of the arms and / or forearms of the robot, said positions being representative of digital values communicated by the interlocutor to the robot, as will be explained later in the following description. Indeed, the robot knows at any moment the angular positions of its joints and therefore knows how to interpret as a message variations thereof caused by a displacement under the action of the interlocutor, if the meaning of said displacement has been defined to advance. A simple touch of a limb (the forearm for example) can also be detected by the angular position sensors of the joints of the robot. Sudden movements, such as jolts or uplift, can be detected by the robot's inertial unit and its foot-sole sensors (FSR), respectively.
Un canal émetteur de type 533 de type 3 est équivalent au geste humain. La tête peut être dotée de deux degrés de liberté : déplacement en azimuth, mesuré par un angle de lacet (ou yaw en anglais) et déplacement en élévation, mesuré par un angle de tangage (ou pitch en anglais). Ces deux mouvements définissent traditionnellement des messages d'approbation (pitch) ou de dénégation (yaw). Ils permettent également au robot de diriger
son regard vers l'interlocuteur avec qui il est en conversation. Les articulations épaules, coudes, poignets peuvent être respectivement dotées des degrés de liberté suivants : pitch et roll (roulis ou torsion droite/gauche) ; yaw ; yaw. La main peut être dotée de capacités d'ouverture et de fermeture. Des combinaisons des mouvements de ces articulations permettent de définir le contenu de messages à communiquer aux interlocuteurs du robot par ce canal. A type 533 transmitter channel of type 3 is equivalent to the human gesture. The head can be endowed with two degrees of freedom: displacement in azimuth, measured by a yaw angle (or yaw in English) and displacement in elevation, measured by a pitch angle (or pitch in English). These two movements traditionally define approval (pitch) or denial (yaw) messages. They also allow the robot to lead his gaze towards the interlocutor with whom he is in conversation. The shoulders, elbows, wrists can be respectively given the following degrees of freedom: pitch and roll (roll or twist right / left); yaw; yaw. The hand can have opening and closing capabilities. Combinations of the movements of these joints make it possible to define the content of messages to be communicated to the interlocutors of the robot by this channel.
D'autres canaux de communication de messages, non représentés sur la figure, existent ou peuvent également être définis. En particulier, le robot peut recevoir et émettre des signaux par liaison infrarouge, Bluetooth ou Wifi. Il est donc possible à un interlocuteur de transmettre des messages au robot par ce canal, notamment en utilisant une télécommande programmée à cet effet, par exemple un iPhone™ d'Apple™ ou un autre téléphone ayant des fonctionnalités de capture de mouvement et/ou de positionnement. Other message communication channels, not shown in the figure, exist or can also be defined. In particular, the robot can receive and transmit signals via infrared, Bluetooth or Wifi connection. It is therefore possible for an interlocutor to transmit messages to the robot via this channel, in particular by using a remote control programmed for this purpose, for example an Apple ™ iPhone ™ or another phone with motion capture and / or positioning.
De même un robot peut envoyer des messages à un autre robot via ces ports de communication. Similarly a robot can send messages to another robot via these communication ports.
Selon l'invention, un canal de communication de messages peut être défini par fusion de canaux de type différents en un canal de type hybride. Ainsi, les sorties d'un canal sonore doté d'une reconnaissance de paroles et d'un canal visuel doté d'une reconnaissance d'images peuvent être combinées pour créer un nouveau canal dont les sorties seront améliorées par un processus de fusion de données, la sortie en sortie de ce canal étant a priori d'un niveau de confiance supérieur à ceux des deux sorties prises séparément. According to the invention, a message communication channel can be defined by merging different type channels into a hybrid type channel. Thus, the outputs of a sound channel with speech recognition and a visual channel with image recognition can be combined to create a new channel whose outputs will be enhanced by a data fusion process. , the output output of this channel is a priori a higher level of confidence than those of the two outputs taken separately.
Sont également représentés sur la figure 5 deux interlocuteurs 541 et 542 du robot. Naturellement, un seul ou plus de deux interlocuteurs sont possibles dans les scénarios de mise en œuvre de l'invention. En outre les interlocuteurs peuvent être situés à distance du robot, à la condition d'être reliés à la pièce où celui-ci se trouve par les liaisons de données permettant de transmettre les signaux sonores et/ou visuels nécessaires à l'échange des messages. Naturellement, dans ce cas, l'utilisation des canaux de communication de type 3 qui nécessitent un contact physique ne sera pas possible. Also shown in FIG. 5 are two interlocutors 541 and 542 of the robot. Naturally, only one or more interlocutors are possible in the implementation scenarios of the invention. In addition the interlocutors can be located at a distance from the robot, provided they are connected to the room where it is located by the data links for transmitting the audio and / or visual signals necessary for the exchange of messages. . Naturally, in this case, the use of type 3 communication channels that require physical contact will not be possible.
La position relative du robot par rapport à son/ses interlocuteurs et par rapport à son environnement peut également être mesurée par des
capteurs particuliers (reconnaissance vocale associée à une localisation du locuteur ; reconnaissance d'images ; capteur ultrasonore, etc ..) et être interprétée, croisée par exemple avec une analyse de volume, de tonalité ou d'expression pour caractériser la nature du dialogue homme/robot et modifier éventuellement son déroulement. Ainsi, un interlocuteur qui se rapproche et qui parle fort pourra être vu par le robot comme une menace et déclencher différents comportements de protection, avec une gestuelle associée, voire une modification ou une interruption des interactions. The relative position of the robot with respect to its interlocutors and with respect to its environment can also be measured by particular sensors (speech recognition associated with a location of the speaker, image recognition, ultrasonic sensor, etc.) and be interpreted, for example, crossed with an analysis of volume, tone or expression to characterize the nature of the human dialogue / robot and possibly modify its progress. Thus, an interlocutor who approaches and speaks loudly can be seen by the robot as a threat and trigger different protective behaviors, with associated gestures, or even a modification or interruption of interactions.
Le contrôle logique des entrées/sorties de ces différents canaux de communication est effectué par module 510. The logic control of the inputs / outputs of these different communication channels is performed by module 510.
Celui-ci permet à la fois, comme explicité plus loin dans la description, d'effectuer des levers de doute sur les entrées d'un canal récepteur d'un premier type (par exemple sonore), par des messages émis sur un canal émetteur du même premier type, lesdites actions de lever de doute pouvant être effectuées en réponse par l'interlocuteur sur un canal du même premier type ou sur un canal récepteur d'un second type (par exemple tactile). Les messages de demande de lever de doute sur un message reçu sur un canal d'un premier type (par exemple sonore) peuvent également être émis sur un canal d'un second type (par exemple visuel, par émission de LED), l'action de lever de doute de l'interlocuteur devant être effectuée sur un canal récepteur d'un troisième type (par exemple tactile). Ces combinaisons sont données à titre purement illustratif et non limitatif, une grande variété de combinaisons étant possible. This allows both, as explained later in the description, to raise doubts on the inputs of a receiver channel of a first type (for example sound), by messages transmitted on an emitter channel of the same first type, said actions to remove doubt that can be performed in response by the interlocutor on a channel of the same first type or on a receiver channel of a second type (for example tactile). The request messages to remove doubt about a message received on a channel of a first type (for example sound) can also be transmitted on a channel of a second type (for example visual, by emission of LED), the action to remove doubt of the interlocutor to be performed on a receiver channel of a third type (eg touch). These combinations are given for purely illustrative and non-limiting purposes, a wide variety of combinations being possible.
Le module de contrôle des entrées/sorties des canaux de communication 510 peut également être utilisé plus simplement pour combiner des entrées de messages, cette combinaison permettant de supprimer pratiquement toute possibilité de doute dans « l'esprit » du robot. The input / output control module of the communication channels 510 can also be used more simply to combine message entries, this combination to virtually eliminate any possibility of doubt in the "mind" of the robot.
La programmation de la fonction de combinaison des entrées reçues par un canal récepteur et des sorties émises par un canal récepteur peut être réalisé de manière simple en utilisant des BUIEIements. The programming of the combination function of the inputs received by a receiver channel and the outputs transmitted by a receiver channel can be achieved in a simple way using BUIEIements.
Nous décrirons plus loin un type de BUIEIements constitué par une Boîte de commande de type Choix ou Boîte Choix. Celle-ci représente une façon de faire un choix dans une liste fermée. Elle est surtout adaptée à la reconnaissance d'un nombre restreint de mots et phrases, dans le cadre
d'un dialogue, le robot pouvant poser une question avant d'écouter le choix de l'utilisateur. We will describe later a type of BUIEIements constituted by a command box of type Choice or Box Choice. This represents a way of making a choice in a closed list. It is especially adapted to the recognition of a limited number of words and sentences, within the framework a dialogue, the robot can ask a question before listening to the choice of the user.
Nous décrivons ci-dessous un type de BUIEIement distinct d'un type différent d'une Boîte Choix. We describe below a BUIlement type distinct from a different type of a Choice Box.
Nous illustrons cette modalité par l'exemple du choix d'un nombre entier. Pour cet élément, le robot par exemple énonce sur son canal émetteur de type 1 , 531 , le nombre minimal et le nombre maximal disponible pour l'utilisateur, et tend à son interlocuteur un de ses bras, ce dernier étant en asservissement faible. Ce bras constituera le canal récepteur 523 de type 3 de la figure 5. La position basse du bras est associée au chiffre minimum, la position haute au chiffre maximal. L'utilisateur utilise ainsi le bras du robot comme un curseur afin de choisir son chiffre. Le robot connaît la position de son bras grâce aux senseurs disponibles sur l'articulation pitch de l'épaule (ShoulderPitch). Pour agrémenter cette interaction, le robot regarde sa main pendant que l'utilisateur lui bouge le bras. A chaque changement de position, le robot peut énoncer le chiffre choisi. L'utilisateur peut valider son choix en touchant le capteur tactile du milieu sur la tête du robot, utilisant un autre canal récepteur 523 de type 3. On peut également prévoir, notamment en cas de nombre trop important de chiffres par rapport à la précision des capteurs, qu'un bras permette de faire un réglage grossier, et le deuxième de choisir plus précisément. Des listes d'expressions ordonnées peuvent être représentées par des nombres. La procédure ci-dessus devient alors une modalité de choix dans un menu déroulant annoncé par le robot. We illustrate this modality by the example of the choice of an integer. For this element, the robot, for example, states on its type 1 transmitter channel 531, the minimum number and the maximum number available to the user, and tends to its interlocutor one of his arms, the latter being in weak servo. This arm will constitute the receiver channel 523 of type 3 of Figure 5. The low position of the arm is associated with the minimum figure, the high position to the maximum figure. The user thus uses the robot arm as a cursor to choose its number. The robot knows the position of his arm thanks to the sensors available on the ShoulderPitch. To enhance this interaction, the robot looks at his hand while the user moves his arm. At each change of position, the robot can state the number chosen. The user can validate his choice by touching the middle touch sensor on the head of the robot, using another type 523 receiver channel 3. It is also possible, especially in case of too many numbers in relation to the accuracy of the sensors, one arm allows to make a rough adjustment, and the second to choose more precisely. Lists of ordered expressions can be represented by numbers. The procedure above then becomes a modality of choice in a drop-down menu announced by the robot.
Une variante permettant d'effectuer le choix d'un chiffre consiste à utiliser uniquement le capteur tactile. Par exemple : An alternative for selecting a digit is to use only the touch sensor. For example :
Taper sur le capteur de devant permet de descendre d'un cran dans la liste de chiffres ; Typing on the front sensor will move down one notch in the list of digits;
Taper sur celui de derrière permet d'avancer dans la liste de chiffres ; Typing on the back one makes it possible to advance in the list of digits;
- Laisser le capteur de devant ou de derrière appuyé permet d'accélérer le défilement dans la liste de chiffres ; - Leave the front or back sensor pressed to speed up scrolling in the list of numbers;
Le choix se ferait en touchant le capteur du milieu. The choice would be by touching the middle sensor.
On voit qu'il est possible de varier de manière importante les combinaisons possibles en fonction des scénarios d'utilisation de l'invention.
La figure 6 est un diagramme logique de programmation des comportements/interactions d'un robot dans plusieurs modes de réalisation de l'invention. We see that it is possible to vary significantly the possible combinations according to the use scenarios of the invention. FIG. 6 is a logic diagram for programming the behaviors / interactions of a robot in several embodiments of the invention.
L'exemple illustré par la figure est un scénario où un robot dialogue avec un interlocuteur qui lui propose un choix dans une liste de mots, par exemple dans le cas d'un jeu de devinettes. Dans ce scénario, un canal récepteur de type 1 , un canal récepteur de type 3 et un canal émetteur de type 1 sont utilisés. The example illustrated by the figure is a scenario where a robot dialogues with an interlocutor who offers him a choice in a list of words, for example in the case of a guessing game. In this scenario, a type 1 receive channel, a type 3 receive channel, and a type 1 transmit channel are used.
Les actions représentées par le code 610 sur la figure sont des actions d'un interlocuteur du robot : choix énoncé par l'utilisateur sur une liste par exemple précédemment énoncée par le robot ; timeout (ou absence de choix) ; réponse « oui/non » à une demande de confirmation de compréhension d'un ou plusieurs mots sur cette liste. The actions represented by the code 610 in the figure are actions of a robot interlocutor: a choice made by the user on a list, for example, previously stated by the robot; timeout (or lack of choice); answer "yes / no" to a request for confirmation of understanding of one or more words on this list.
Les actions représentées par le code 620 sur la figure sont des actions du robot qui seront activées en fonction de l'état des variables internes représentées par le code 630. La signification de ces variables internes est la suivante : The actions represented by the code 620 in the figure are actions of the robot that will be activated according to the state of the internal variables represented by the code 630. The significance of these internal variables is as follows:
r : taux de probabilité de reconnaissance par le robot du mot énoncé par l'utilisateur parmi ceux de la liste de choix ; - f : nombre cumulé d'échecs de reconnaissance ; r: probability rate of recognition by the robot of the word spoken by the user among those of the list of choices; - f: cumulative number of recognition failures;
t : nombre de timeouts (ou absence de choix par l'interlocuteur au bout d'un temps prédéfini) ; t: number of timeouts (or no choice by the interlocutor after a predefined time);
51 : seuil 1 de taux de probabilité de reconnaissance ; 51: threshold 1 of probability of recognition rate;
52 : seuil 2 de taux de probabilité de reconnaissance ; - tmax : nombre maximal de timeouts possibles ; 52: threshold 2 of probability of recognition rate; - tmax: maximum number of possible timeouts;
fmax : nombre maximal d'échecs possibles. fmax: maximum number of possible failures.
La manière générale dont sont traités les timeout correspond à l'application au problème posé d'un principe simple de la vie humaine quotidienne : « Qui ne dit mot consent ... » The general way in which timeout is treated corresponds to the application to the problem posed of a simple principle of everyday human life: "Who does not say a word consents ..."
La logique générale des traitements représentés sur cette figure est décrite ci-dessous. The general logic of the treatments shown in this figure is described below.
NAO écoute l'utilisateur/interlocuteur et les variables f et t sont initialisées à zéro. Si l'interlocuteur laisse passer le temps de timeout prédéterminé, le compteur de timeouts est incrémenté et si le nombre maximal de timeouts est atteint, la boucle d'interaction est interrompue.
Cette application peut être initialisée soit dans un comportement dans un contexte déterministe où une action spécifique faite par l'utilisateur la déclenchera telle qu'une interpellation du robot, dans un jeu pour connaître le nombre de joueurs quand on le démarre ou par l'appui sur un des capteurs tactiles de la tête, soit dans le contexte d'une intelligence artificielle qui la déclenchera en fonction de paramètres tels que la présence détectée d'un être humain, l'heure de la journée ou plus généralement, l'historique des événements de la journée stocké par le robot. Par exemple, s'il détecte que l'utilisateur l'appelle, il déclenche une application lui permettant de savoir ce que l'utilisateur veut de lui et pourquoi il l'a appelé. Dans un autre contexte, il pourra déclencher lui-même une application pour proposer un jeu s'il détecte la présence d'un humain, qu'il a une forte envie de jouer et que ça fait longtemps qu'il n'a pas joué. Si l'interlocuteur énonce un choix avant l'expiration du timeout, le taux de probabilité de reconnaissance mesuré r est comparé à des seuils S1 et S2 (S1 < S2), de taux de probabilité de reconnaissance attendus dont on décrira plus loin la manière dont ils sont déterminés. NAO listens to the user / interlocutor and the variables f and t are initialized to zero. If the interlocutor passes the predetermined timeout time, the timeout counter is incremented and if the maximum number of timeouts is reached, the interaction loop is interrupted. This application can be initialized either in a behavior in a deterministic context where a specific action made by the user will trigger it such as an interpellation of the robot, in a game to know the number of players when it is started or by the support on one of the tactile sensors of the head, either in the context of an artificial intelligence which will trigger it according to parameters such as the detected presence of a human being, the time of day or more generally, the history of events of the day stored by the robot. For example, if it detects that the user is calling it, it triggers an application to know what the user wants from him and why he called him. In another context, it can trigger itself an application to propose a game if it detects the presence of a human, he has a strong desire to play and it's been a long time since he played . If the interlocutor states a choice before the expiry of the timeout, the probability rate of measured recognition r is compared with thresholds S1 and S2 (S1 <S2), expected recognition probability rates, which will be described later. of which they are determined.
Si r < S1 , cette reconnaissance du mot est considérée comme un échec. Le compteur d'échecs est incrémenté. Si fmax est atteint, le mot est déclaré définitivement non reconnu et l'interaction est interrompue. Si fmax n'est pas atteint, on peut prévoir, comme illustré sur la figure, trois cas : If r <S1, this recognition of the word is considered a failure. The chess counter is incremented. If fmax is reached, the word is declared permanently unrecognized and the interaction is interrupted. If fmax is not reached, we can predict, as illustrated in the figure, three cases:
au premier échec (f =1 ), le robot indique à son interlocuteur « je n'ai pas compris » et active celle des fonctions « activateHelpWhenFailure » consistant à répéter la liste de choix ; at the first failure (f = 1), the robot indicates to its interlocutor "I did not understand" and activates the function "activateHelpWhenFailure" consisting of repeating the list of choices;
au deuxième échec, (f = 2), le robot indique également « je n'ai pas compris » et active une autre des fonctions « activateHelpWhenFailure » consistant à fournir à son interlocuteur la liste de choix et à demander à son interlocuteur d'utiliser son capteur tactile, en lui indiquant comment l'utiliser ; au-delà (3 < f < fmax), le robot peut prononcer des phrases indiquant à son interlocuteur que les conditions d'une conversation efficace ne sont pas remplies, telles que « il y a trop
de bruit », ce qui normalement incitera ledit interlocuteur à mettre un terme à la conversation. at the second failure, (f = 2), the robot also indicates "I did not understand" and activates another "activateHelpWhenFailure" function consisting in providing the listener with the list of choices and asking the other person to use its tactile sensor, telling him how to use it; beyond (3 <f <fmax), the robot can pronounce sentences telling the other person that the conditions for an efficient conversation are not fulfilled, such as "there is too much "noise", which will normally prompt the caller to stop the conversation.
Si S1 < r < S2, le robot a un doute sur ce qu'il a effectivement entendu ; selon la procédure représentée sur la figure, il peut alors procéder à une action de lever de doute, en prononçant le mot ou l'expression qu'il pense avoir reconnu et en demandant à son interlocuteur « Est-ce correct ? » ; si l'interlocuteur répond « oui » ou ne répond pas au bout du timeout, le robot considère que la réponse est exacte. Si l'interlocuteur répond « non », le compteur d'échec est incrémenté ; si fmax est atteint, le robot indique définitivement qu'il n'a pas compris et l'interaction s'arrête ; si fmax n'est pas atteint: If S1 <r <S2, the robot has a doubt about what he actually heard; according to the procedure shown in the figure, he can then proceed to an action of raising doubt, by pronouncing the word or expression that he thinks he has recognized and asking his interlocutor "Is this correct? " if the person answers "yes" or does not answer after the timeout, the robot considers that the answer is correct. If the interlocutor answers "no", the failure counter is incremented; if fmax is reached, the robot definitively indicates that it has not understood and the interaction stops; if fmax is not reached:
au premier échec ( f = 1 ), le robot peut activer celle des fonctions « activateHelpWhenFailure » consistant à répéter la liste de choix ; at the first failure (f = 1), the robot can activate that of the functions "activateHelpWhenFailure" consisting of repeating the list of choices;
au deuxième échec (f = 2), active une autre des fonctions « activateHelpWhenFailure » consistant à fournir à son interlocuteur la liste de choix et à demander à son interlocuteur d'utiliser son capteur tactile, en lui indiquant comment l'utiliser ; - à partir du 3eme échec et jusqu'à fmax, l'interlocuteur doit répéter le choix jusqu'à ce que le taux de probabilité de reconnaissance s'améliore. at the second failure (f = 2), activates another "activateHelpWhenFailure" function consisting in providing the listener with the listener and asking the other party to use his tactile sensor, indicating how to use it; - from the 3rd and failure to f max, the caller has to repeat the selection until the probability of recognition rate improves.
De cette manière, il est ainsi possible de pallier grandement les imperfections de la reconnaissance vocale et de créer une fluidité améliorée dans la conversation entre le robot et son interlocuteur. In this way, it is thus possible to greatly overcome the imperfections of voice recognition and to create an improved fluidity in the conversation between the robot and its interlocutor.
Les figures 7a, 7b et 7c représentent des chronogrammes illustrant la combinaison logique et temporelle des interactions d'une interface multimodale dans plusieurs modes de réalisation de l'invention. FIGS. 7a, 7b and 7c represent timing diagrams illustrating the logical and temporal combination of the interactions of a multimodal interface in several embodiments of the invention.
Ces figures sont des vues des Boîtes Choix permettant de programmer les interactions du type de celle représentée sur le diagramme de la figure 6. Les Boîtes Choix sont des Boîtes telles que celles illustrées sous la rubrique 410 sur la figure 4, mais elles sont d'un type particulier permettant la
programmation particulièrement efficace de comportements spécialisés pour un dialogue naturel. These figures are views of the Choice Boxes making it possible to program the interactions of the type shown in the diagram of FIG. 6. The Choice Boxes are Boxes such as those illustrated under item 410 in FIG. 4, but they are a particular type allowing the particularly effective programming of specialized behaviors for a natural dialogue.
Les significations des symboles de ces figures sont les suivantes : The meanings of the symbols in these figures are as follows:
sur la figure 7a, in Figure 7a,
- 710a désigne les actions/paroles du robot ou de son interlocuteur ; - 710a denotes the actions / words of the robot or its interlocutor;
720a désigne le capteur tactile ; 720a denotes the touch sensor;
740a désigne un bip de reconnaissance ; 740a denotes a recognition beep;
750a désigne les LED du visage du robot en position animée tournante; 750a designates the LEDs of the face of the robot in a rotating animated position;
751 a désigne les LED du visage du robot en position figée ; 751 a designates the LEDs of the face of the robot in the fixed position;
760a désigne le flash des LED du visage du robot (qui peut être de différentes couleurs en fonction de la compréhension par le robot du message reçu) ; 760a designates the LED flash of the robot's face (which may be of different colors depending on the robot's understanding of the message received);
- 770a désigne la fonction timeout ; 770a designates the timeout function;
780a désigne la sortie de la Boîte Choix ; 780a denotes the output of the Choice Box;
790a désigne la fonction « Aller au menu capteur tactile » (figure 7b) ; 790a designates the function "Go to the touch sensor menu" (Figure 7b);
7A0 désigne la fonction « Aller au tri des choix » (figure 7c) ; 7A0 denotes the function "Go to sorting choices" (FIG. 7c);
- 7B0 désigne la fonction « Aller au menu reconnaissance vocale » ; - 7B0 designates the function "Go to the voice recognition menu";
R1 , R2 et R3 désignent respectivement un cas où le robot comprend sans ambiguïté, un cas où le robot comprend mais doute et un cas où le robot ne comprend pas du tout ; - Sur la figure 7c, 710c désigne la fonction « Revenir au menu précédent ». R1, R2 and R3 respectively denote a case where the robot unambiguously understands, a case where the robot understands but doubt and a case where the robot does not understand at all; - In Figure 7c, 710c designates the function "Return to the previous menu".
La logique générale des traitements programmés dans la Boîte Choix est identique à celle déjà décrite. Les éléments supplémentaires ici décrits sont : The general logic of the treatments programmed in the Choice Box is identical to that already described. The additional elements described here are:
- L'utilisation des LED 750a du visage du robot, éventuellement du flash de LED pour ponctuer les échanges de questions et de réponses : les LED sont en position figée 751 a pour indiquer que le robot détecte la parole et l'analyse ; - The use of LEDs 750a of the face of the robot, possibly the LED flash to punctuate the exchange of questions and answers: the LEDs are in fixed position 751 a to indicate that the robot detects speech and analysis;
L'utilisation d'un « bip » sonore émis par le robot pour indiquer le moment où il est prêt à reconnaître ; en effet, en raison des
limitations de capacité de traitement et d'alimentation, et pour éviter également un bruitage de la reconnaissance, celle-ci n'est pas active en même temps que la synthèse vocale ; il ne faut donc pas que l'interlocuteur réponde trop tôt aux questions que lui pose le robot ; le « bip » donne le top pour commencer à répondre ; The use of an acoustic "beep" emitted by the robot to indicate when it is ready to recognize; because of the limitations of processing capacity and power supply, and also to avoid recognition noise, it is not active at the same time as speech synthesis; it is therefore not necessary for the interlocutor to answer too early the questions posed to him by the robot; the "beep" gives the top to start responding;
La possibilité d'utiliser plusieurs niveaux d'aide qui dépendent de l'historique du robot et de son expérience cet utilisateur au cours de cet échange et des échanges précédents; The ability to use several levels of help that depend on the history of the robot and its experience this user during this exchange and previous exchanges;
- La possibilité de naviguer entre plusieurs menus pour faciliter la programmation. - The ability to navigate between several menus to facilitate programming.
Les figures qui sont maintenant décrites sont des copies d'écrans sur lesquels un composant Boîte Choix du logiciel Chorégraphe décrit en commentaire à la figure 4 ci-dessus est utilisé pour programmer des interactions simples ou complexes entre un robot NAO et un interlocuteur en utilisant dans les exemples représentés des canaux de réception et d'émission de type 1 (échanges vocaux). The figures which are now described are screenshots on which a Chorégraphe software's Choice Box component described in commentary in FIG. 4 above is used to program simple or complex interactions between an NAO robot and an interlocutor by using the illustrated examples of the reception and transmission channels of type 1 (voice exchanges).
Les figures 8a, 8b, 8c, 8d et 8e représentent un enchaînement d'écrans permettant de programmer un dialogue avec un robot humanoïde avec choix binaire et option de changement de la langue d'interaction dans un mode de réalisation de l'invention; FIGS. 8a, 8b, 8c, 8d and 8e show a series of screens making it possible to program a dialogue with a humanoid robot with a binary choice and an option to change the language of interaction in one embodiment of the invention;
Les figures 9a, 9b, 9c, 9d et 9e représentent un enchaînement d'écrans permettant de programmer un dialogue avec un robot humanoïde avec choix choix dans une liste et option de changement de la langue d'interaction dans un mode de réalisation de l'invention; FIGS. 9a, 9b, 9c, 9d and 9e show a series of screens making it possible to program a dialogue with a humanoid robot with choice choices in a list and option of changing the interaction language in one embodiment of the invention. invention;
Les figures 10a, 10b, 10c et 10d représentent un enchaînement d'écrans permettant d'exécuter un test de reconnaissance vocale comparative entre plusieurs options d'une liste de choix dans un mode de réalisation de l'invention; FIGS. 10a, 10b, 10c and 10d show a series of screens making it possible to perform a comparative voice recognition test between several options of a list of choices in one embodiment of the invention;
Les figures 1 1 a et 1 1 b représentent un enchaînement d'écrans permettant de remplacer ou compléter des options d'une liste de choix et d'exécuter un nouveau test de reconnaissance vocale comparative entre plusieurs options dans un mode de réalisation de l'invention;
Les figures 12a, 12b, 12c et 12d représentent un enchaînement d'écrans permettant d'exécuter un test de reconnaissance vocale comparative entre plusieurs options d'une liste de choix dans une langue différente de celle de la question dans un mode de réalisation de l'invention; FIGS. 11a and 11b show a series of screens making it possible to replace or supplement options of a list of choices and to perform a new comparative speech recognition test between several options in one embodiment of the invention. invention; Figures 12a, 12b, 12c and 12d show a sequence of screens for performing a comparative speech recognition test between several options of a choice list in a language different from that of the question in an embodiment of the invention. 'invention;
Les figures 13a, 13b, 13c et 13d représentent un enchaînement d'écrans permettant de vérifier/modifier les seuils des tests de reconnaissance vocale comparative entre plusieurs options d'une liste de choix dans un mode de réalisation de l'invention. De manière générale, une Boîte Choix permet à un utilisateur de choisir une réponse parmi un ensemble prédéfini de choix. Elle fait appel à un composant de type tableau qui permet à un développeur d'écrire de façon intuitive et lisible son ensemble de choix possibles. La liste de choix peut également être mise en entrée de la boîte, si le développeur ne la connaît pas à l'avance. Ainsi, par exemple, dans le cas d'une application gérant les mails de l'utilisateur, le robot pourra lui faire choisir un contact dans son carnet d'adresse stocké dans un fichier à part. Ces Ul Eléments sont des outils très paramétrables. Les UlElements utilisant la reconnaissance et/ou la synthèse vocale sont ainsi régionalisés. Par exemple, la Boîte Choix est éditable en français et en anglais. Au niveau interface graphique pour sa programmation, le Widget Qt™ utilisé pour changer la langue d'édition de la boîte peut être une ComboBox. FIGS. 13a, 13b, 13c and 13d show a series of screens making it possible to check / modify the thresholds of the comparative speech recognition tests between several options of a list of choices in one embodiment of the invention. In general, a Choice Box allows a user to choose a response from a predefined set of choices. It uses an array-like component that allows a developer to write an intuitive and readable set of possible choices. The list of choices can also be put in the box, if the developer does not know it in advance. Thus, for example, in the case of an application handling the email of the user, the robot can make him choose a contact in his address book stored in a separate file. These Ul Elements are very configurable tools. UlElements using recognition and / or speech synthesis are regionalized. For example, the Choice Box is editable in French and English. At the GUI level for programming, the Widget Qt ™ used to change the edit language of the box can be a ComboBox.
Les entrées (et sorties) des boîtes Chorégraphe peuvent être de plusieurs types : The inputs (and outputs) of the choreographer boxes can be of several types:
1 . "bang ": un signal est envoyé 1. "bang": a signal is sent
2. number : l'entrée récupère un nombre, entier ou flottant 2. number: the entry retrieves a number, integer or floating
3. string : l'entrée récupère une chaîne de caractère 3. string: the input retrieves a string
4. dynamic. 4. dynamic.
Une entrée (respectivement sortie) de type dynamic récupère (respectivement sort) une ALValue. An input (respectively output) of dynamic type retrieves (respectively sort) an ALValue.
Les ALValue sont une réunion de types communs, décrits dans une librairie NAOQI, notamment : entiers, flottants, array, booléen, string, mais aussi "bang", qui est une ALValue non initialisée. Les entrées de type dynamic permettent de gérer les évolutions d'une application de manière très souple. En particulier le choix des modes de confirmation inter-modalités et/ou intra-
modalités, la présentation d'aides sont fournies aux interlocuteurs du robot pour les activer peuvent dépendre du nombre des choix possibles. The ALValue are a union of common types, described in an NAOQI library, including: integers, floats, array, boolean, string, but also "bang", which is an uninitialized ALValue. Dynamic type entries allow you to manage the changes of an application in a very flexible way. In particular, the choice of inter-modal and / or intra- modalities, the presentation of aids are provided to the interlocutors of the robot to activate them may depend on the number of possible choices.
Ainsi, on peut envoyer un tableau python (type array) en entrée d'une boîte Chorégraphe à condition que cette entrée soit de type dynamic. Thus, we can send a python array (array type) to the input of a choreographer box provided that this entry is of type dynamic.
Le logiciel Chorégraphe utilisé pour mettre en œuvre l'invention comprend des paramètres de boîtes de type booléen (Check Box), chaîne de caractères (Text Box), choix multiple de chaînes de caractères (Combo Box) éditables ou non par l'utilisateur final, nombre entier ou flottant flottant (Slider), ou autre. Par exemple, le programmeur qui utilise la Boîte Choix dans son comportement ou application a la possibilité de cocher ou décocher le paramètre booléen "Repeat validated choice" (en français, "Répéter le choix validé"). Cela aura une incidence sur le comportement de NAO pendant l'interaction puisqu'il définit si NAO répète systématiquement le choix validé par l'utilisateur ou non. Choregraphic software used to implement the invention includes box parameters of Boolean type (Check Box), string of characters (Text Box), multiple choice of strings (Combo Box) editable or not by the end user , integer or Floating floating (Slider), or other. For example, the programmer who uses the Choice Box in his behavior or application has the option to check or uncheck the boolean "Repeat validated choice" (in French, "Repeat the validated choice"). This will affect the behavior of NAO during the interaction as it defines whether NAO always repeats the user-validated choice or not.
Pour pallier la déficience de la reconnaissance vocale, un outil de diagnostic permet de maximiser la réussite de l'interaction vocale. Ainsi, dans la Boîte Choix, quand le développeur a fini d'écrire sa liste de mots dans le tableau, il peut lancer cet outil qui va indiquer un pourcentage de reconnaissance de ces mots, 100% correspondant à un mot qui sera certainement reconnu par le robot, 0% à un mot que le robot ne reconnaîtra pas. Ce diagnostic est effectué en comparant le mot dit par la synthèse vocale (que l'on suppose proche de ce que va dire l'utilisateur) et le mot attendu par la reconnaissance vocale. De plus, afin de maximiser les chances et le naturel de l'interaction, pour chaque choix, on peut définir plusieurs expressions. Ainsi, pour demander au robot d'envoyer un mail, le développeur pourra mettre à disposition de l'utilisateur plusieurs phrases telles que "envoyer un mail", "envoyer un message" ou "envoyer un email". L'utilisateur aura ensuite le choix entre ces différentes expressions pour finalement dire la même chose. La solution de l'invention permet également de résoudre le problème d'une reconnaissance vocale qui ne gère pas la présence de plusieurs utilisateurs. Les humains se rendent compte qu'en parlant à plusieurs, la communication est difficile, donc ils s'adaptent en parlant un par un. Cette situation est facilitée par l'existence de codes d'interaction clairement mono-utilisateur, comme l'utilisation du tutoiement par le robot.
Une reconnaissance vocale déficiente impose que l'interface Homme-robot gère notamment au mieux les situations d'échecs, fasse parler l'utilisateur au bon moment (cela va passer par des codes d'interaction) et mette à disposition des solutions alternatives au dialogue qui soient plus efficaces. Dans le cadre de la présente invention, une fonction de diagnostic audio permet de résoudre ce type de problèmes. Cette fonction s'exécute en faisant prononcer le mot à tester par le logiciel de synthèse vocale, text-to- speech. Ce mot est alors analysé par la reconnaissance vocale. Plus précisément, le même mot est prononcé, par exemple trois fois, à chaque fois en changeant la vitesse de la voix et son pitch, de façon à avoir un échantillon représentatif des manières de prononcer le mot. Les trois taux de reconnaissance renvoyés par la reconnaissance vocale sont alors moyennés, et c'est cette valeur qui est le pourcentage estimé de reconnaissance du mot. Il y a deux modes de diagnostic audio possibles Le mode "Together" fonctionne comme suit : tous les mots inscrits dans la boîte choix sont écoutés par la reconnaissance vocale, puis NAO calcule le taux estimé de reconnaissance comme décrit par ailleurs. To overcome the deficiency of speech recognition, a diagnostic tool can maximize the success of voice interaction. Thus, in the Choice Box, when the developer has finished writing his list of words in the table, he can launch this tool which will indicate a percentage of recognition of these words, 100% corresponding to a word that will certainly be recognized by the robot, 0% to a word that the robot will not recognize. This diagnosis is made by comparing the word said speech synthesis (which is assumed to be close to what the user will say) and the expected word by voice recognition. Moreover, to maximize the chances and the naturalness of the interaction, for each choice, we can define several expressions. Thus, to ask the robot to send an email, the developer can make available to the user several phrases such as "send an email", "send a message" or "send an email". The user will then have the choice between these different expressions to finally say the same thing. The solution of the invention also solves the problem of voice recognition that does not handle the presence of multiple users. Humans realize that when talking to others, communication is difficult, so they adapt by talking one by one. This situation is facilitated by the existence of clearly single-user interaction codes, such as the use of the tutelage by the robot. A deficient voice recognition requires that the Man-robot interface manages chess situations in the best possible way, to make the user talk at the right moment (it will go through interaction codes) and to make available alternative solutions to the dialogue. that are more effective. In the context of the present invention, an audio diagnostic function makes it possible to solve this type of problem. This function is executed by pronouncing the word to be tested by the speech-synthesis software, text-to-speech. This word is then analyzed by voice recognition. More precisely, the same word is pronounced, for example three times, each time by changing the speed of the voice and its pitch, so as to have a representative sample of the ways of pronouncing the word. The three recognition rates returned by the speech recognition are then averaged, and it is this value which is the estimated percentage of recognition of the word. There are two possible audio diagnostic modes "Together" mode works as follows: all words in the choice box are listened to by speech recognition, and NAO then calculates the estimated recognition rate as described elsewhere.
Le mode "One by One" fonctionne comme suit : pour une ligne donnée, le mot à analyser est écouté par la reconnaissance vocale, ainsi que les autres choix possibles sur les autres lignes, mais pas ses alternatives situées sur la même ligne que lui. L'intérêt de ce diagnostic est que si deux "synonymes" se ressemblent, par exemple "coucou!" et "coucou toi!", le taux estimé de reconnaissance ne sera pas aussi bas qu'il le serait en mode "Together" (les taux seraient très mauvais car ils seraient souvent confondus par la reconnaissance vocale.) En effet, il n'est pas grave que deux synonymes sont confondus par le robot. The "One by One" mode works as follows: for a given line, the word to be analyzed is listened to by voice recognition, as well as the other possible choices on the other lines, but not its alternatives located on the same line as him. The advantage of this diagnosis is that if two "synonyms" are similar, for example "hello!" and "hello!", the estimated rate of recognition will not be as low as it would be in "Together" mode (the rates would be very bad because they would often be confused by voice recognition). is not serious that two synonyms are confused by the robot.
Une fois le diagnostic effectué sur chaque ligne, les synonymes sont rangés par ordre décroissant de taux estimé de reconnaissance, et le taux de reconnaissance du meilleur synonyme est inscrit à la fin de la ligne. Once the diagnosis is made on each line, the synonyms are ranked in descending order of the estimated rate of recognition, and the recognition rate of the best synonym is written at the end of the line.
Ainsi, la Boîte Choix est programmée pour demander à un utilisateur de confirmer sa réponse lorsque le robot n'est pas certain de l'avoir correctement reconnue ou interprétée. Ce mécanisme est identique à celui utilisé par un humain qui aurait une audition déficiente ou qui serait plongé dans un environnement rendant sa compréhension difficile. Le robot aura des réactions différentes selon le niveau de compréhension de la réponse de
l'utilisateur. Plusieurs seuils (par exemple les seuils S1 et S2 définis en commentaire à la figure 5) sont alors fixés en fonction de la confiance de reconnaissance calculée par le logiciel de reconnaissance : par exemple, lorsque le premier seuil de reconnaissance S1 n'est pas atteint, le robot demande au joueur de répéter sa réponse ; lorsque le premier seuil S1 est atteint mais qu'un deuxième seuil S2 de reconnaissance plus élevé ne l'est pas, le robot va poser une question dont la réponse permettra de lever le doute. Le robot peut également fournir une aide pour que l'utilisateur réponde correctement au robot : il peut donner la liste des choix possibles, indiquer les moyens d'interaction avec lui, répéter la question posée s'il y en avait une. Les codes d'interaction sont également très utiles pour pallier les déficiences de la reconnaissance vocale. En effet, la reconnaissance vocale ne permet pas de parler au robot pendant qu'il parle, et le délai entre le lancement de la reconnaissance vocale et le moment où elle est réellement active est assez long. Un code sonore est ainsi joué au lancement de la reconnaissance vocale, indiquant à l'utilisateur qu'il peut parler. Ensuite, un code visuel assez intuitif, les LED des oreilles qui tournent, permet à l'utilisateur de savoir que le robot est en écoute. Les UlElements utilisant la reconnaissance vocale proposent également un moyen alternatif à cette reconnaissance vocale, pour permettre à l'utilisateur de réussir la communication même en cas de problèmes répétés de compréhension (cela peut être dû à un environnement extrêmement bruyant par exemple). Ces moyens alternatifs peuvent être tactiles, sonores, visuels, etc. Par exemple, la Boîte Choix permet à l'utilisateur de choisir une réponse en utilisant le capteur tactile : appuyer sur le capteur de devant permet d'avancer dans la liste de choix (le robot énonce alors chaque choix), celui de derrière permet de reculer dans cette liste, celui du milieu permet de valider son choix. On peut imaginer également que le robot énonce les différents choix, et que l'utilisateur dise "OK" quand il entend le choix qu'il veut valider. Ou encore, pour une confirmation, au lieu de dire "oui" ou "non" l'utilisateur peut appuyer sur un des bras du robot. Le module de contrôle des entrées/sorties des canaux de communication des différents types 1 , 2, 3 définis en commentaire à la figure 5 permet de générer de manière simple et conviviale les fonctions de gestion de ces combinaisons par des liaisons entre les différentes entrées/sorties des Boîtes Choix.
De façon générale, la solution de l'invention propose une humanisation de l'interface, une simulation de l'interface Homme-Homme. Nous savons que trois principaux facteurs entrent en jeu lors d'une communication directe entre deux humains : bien sûr la parole c'est-à-dire les mots dits, mais aussi le ton de la voix et les éléments visuels. Pour preuve, en observant tout au long de leur évolution les moyens de communication indirecte, telle que l'écriture ou les messages instantanés, on peut voir très clairement de quelle façon le manque d'informations du dialogue peut en règle générale être pallié par l'ajout de substituts à la communication directe, substituts tels que la ponctuation ou plus récemment les smileys. Dans tous les cas, malgré les grandes avancées technologiques d'aujourd'hui, ces éléments fondamentaux sont encore difficilement transposables dans leur entier pour la communication homme-robot. Il est cependant possible de trouver des substituts artificiels qui améliorent le rendu du dialogue. La synthèse et la reconnaissance vocales du robot permettent une équivalence à la parole. Elles sont ainsi les piliers de sa communication avec un humain. Un robot humanoïde a a fortiori l'avantage de pouvoir rendre une grande partie des éléments visuels du dialogue que sont les gestes et les expressions faciales. En effet, bien qu'avec son corps anthropomorphe, ses déplacements ne soient pas aussi aisés qu'un robot sur roues, ses gestes peuvent être plus facilement basés sur le comportement humain et donc aussi facilement décryptés que les mouvements humains. La communication se fait alors plus naturellement. Thus, the Choice Box is programmed to ask a user to confirm his answer when the robot is not sure of having correctly recognized or interpreted it. This mechanism is identical to that used by a human who has poor hearing or is immersed in an environment that makes understanding difficult. The robot will have different reactions depending on the level of understanding of the response of the user. Several thresholds (for example the thresholds S1 and S2 defined in comment in FIG. 5) are then fixed as a function of the recognition confidence calculated by the recognition software: for example, when the first recognition threshold S1 is not reached. , the robot asks the player to repeat his answer; when the first threshold S1 is reached but a second threshold S2 of higher recognition is not, the robot will ask a question whose answer will remove the doubt. The robot can also provide help for the user to respond correctly to the robot: he can give the list of possible choices, indicate the means of interaction with him, repeat the question asked if there was one. Interaction codes are also very useful to overcome the deficiencies of speech recognition. Indeed, the speech recognition does not speak to the robot while he speaks, and the time between the launch of speech recognition and the moment when it is really active is quite long. A tone code is thus played at the launch of voice recognition, indicating to the user that he can speak. Then, a rather intuitive visual code, the LEDs of the ears that turn, allows the user to know that the robot is listening. UlElements using voice recognition also offer an alternative way to this voice recognition, to allow the user to succeed in communication even in case of repeated problems of understanding (this may be due to an extremely noisy environment for example). These alternative means can be tactile, sound, visual, etc. For example, the Choice Box allows the user to choose an answer by using the touch sensor: pressing on the front sensor makes it possible to advance in the list of choices (the robot then states each choice), the back one makes it possible to back in this list, the middle one to validate his choice. One can also imagine that the robot states the various choices, and that the user says "OK" when he hears the choice he wants to validate. Or, for a confirmation, instead of saying "yes" or "no" the user can press one of the arms of the robot. The input / output control module of the communication channels of the various types 1, 2, 3 defined in comment in FIG. 5 makes it possible to generate, in a simple and user-friendly manner, the management functions of these combinations by links between the different inputs / Outputs of Choice Boxes. In general, the solution of the invention proposes a humanization of the interface, a simulation of the Man-Man interface. We know that three main factors come into play when there is a direct communication between two humans: of course the word, that is to say the words, but also the tone of the voice and the visual elements. As proof, by observing throughout their evolution the means of indirect communication, such as writing or instant messages, we can see very clearly how the lack of information of the dialogue can in general be mitigated by the adding substitutes for direct communication, substitutes such as punctuation or more recently smileys. In any case, despite the great technological advances of today, these fundamental elements are still difficult to transpose in their entirety for human-robot communication. However, it is possible to find artificial substitutes that improve the rendering of the dialogue. The vocal synthesis and recognition of the robot allow an equivalence to speech. They are thus the pillars of his communication with a human. A humanoid robot has the advantage of being able to make a large part of the visual elements of the dialog that are gestures and facial expressions. Indeed, although with his anthropomorphic body, his movements are not as easy as a robot on wheels, his gestures can be more easily based on human behavior and thus easily decrypted as human movements. Communication is then more natural.
Le ton de la voix et les expressions faciales manquent néanmoins sur un robot à visage et tonalité figés. Cependant, ces deux éléments sont compensés par d'autres fonctions, des codes qui traduiront ces éléments. Ils nécessitent un apprentissage plus ou moins long de l'utilisateur. L'objectif est alors de faire que cet apprentissage soit le plus court possible et donc que les codes soient les plus cohérents et les plus proches possible de ce que l'utilisateur connaît déjà. The tone of the voice and the facial expressions are nevertheless missing on a robot with frozen face and tone. However, these two elements are offset by other functions, codes that translate these elements. They require a more or less long learning of the user. The goal is to make this learning as short as possible and therefore the codes are the most consistent and as close as possible to what the user already knows.
En adaptant les lois basiques de l'ergonomie de Ben Shneiderman énoncées dans son livre Designing the User Interface: Stratégies for Effective Human-Computer Interaction (publié en 1997 : http://www. es, u d. edu/heil/pubs/books/dtui. shtml) et appliquées normalement aux interfaces graphiques, on arrive à des codes cohérents,
simples et donc à une interaction naturelle et fluide. Ces lois énoncent les principes suivants : la cohérence des codes et des éléments d'interface, la présence de raccourcis pour les utilisateurs avancés, la présence de retours immédiats sur les actions effectuées, la fin explicite des dialogues, une gestion simple des erreurs, la possibilité de retours en arrière, l'utilisateur doit se sentir maître durant l'interaction et enfin, une stimulation moindre de la mémoire à court-terme de l'utilisateur. By adapting Ben Shneiderman's basic ergonomic laws set out in his book Designing the User Interface: Strategies for Effective Human-Computer Interaction (published in 1997: http: // www. Es, edu u / heil / pubs / books / dtui.shtml) and applied normally to graphic interfaces, we arrive at coherent codes, simple and therefore to a natural and fluid interaction. These laws set out the following principles: the consistency of codes and interface elements, the presence of shortcuts for advanced users, the presence of immediate feedback on the actions performed, the explicit end of dialogues, simple error handling, possibility of backtracking, the user must feel master during the interaction and finally, less stimulation of the short-term memory of the user.
La reconnaissance et la synthèse vocale sont limitatives, notamment par l'absence de langage naturel et une reconnaissance uniquement mono- utilisateur et ne permettant de reconnaître qu'un nombre limité de mots. La solution de l'invention résout le problème de la non-utilisation de langage naturel par les robots afin de proposer une interaction Homme-robot suffisamment naturelle. Déjà, la synthèse vocale du robot est utilisée au mieux. Notamment, la plupart des UlElements du robot utilisant la synthèse et/ou la reconnaissance vocale sont régionalisés. Un utilisateur francophone (respectivement anglophone) pourra ainsi converser avec son robot en français (respectivement en anglais), maximisant ainsi la réussite de l'interaction. Ensuite, des timings et des codes d'interaction sont utilisés au mieux afin d'améliorer la réactivité du robot et de faciliter le succès de la communication Homme-robot. Ainsi, la Boîte Choix propose plusieurs paramètres comme le délai d'attente d'une réponse de l'utilisateur. On s'assure ainsi que le robot n'attend pas trop longtemps avant de considérer que l'utilisateur n'a rien répondu, mais aussi qu'il attend suffisamment longtemps pour que la reconnaissance vocale puisse être activée au bon moment. Les codes d'interaction peuvent être gestuels, sonores et/ou visuels. Ainsi un bip sonore de fin de reconnaissance vocale permet à l'utilisateur de savoir que le robot ne l'écoute plus. Recognition and speech synthesis are limiting, in particular by the absence of natural language and a recognition that is uniquely user-friendly and that allows only a limited number of words to be recognized. The solution of the invention solves the problem of the non-use of natural language by robots in order to propose a sufficiently natural human-robot interaction. Already, the voice synthesis of the robot is used at best. In particular, most of the UlElements of the robot using synthesis and / or voice recognition are regionalised. A French-speaking user (respectively English-speaking) will be able to converse with his robot in French (respectively in English), thus maximizing the success of the interaction. Then, timings and interaction codes are best used to improve the responsiveness of the robot and facilitate the success of human-robot communication. Thus, the Choice Box offers several parameters such as the waiting time for a user response. This ensures that the robot does not wait too long before considering that the user has not responded, but also that it waits long enough for the voice recognition can be activated at the right time. The interaction codes can be gestural, sound and / or visual. Thus a beep of end of voice recognition allows the user to know that the robot does not listen anymore.
De plus, dans la solution de l'invention, la communication est rendue plus naturelle par une l'utilisation de plusieurs canaux de communication de modalités différentes, et des comportements particuliers de la part du robot. Ainsi, l'utilisation de la localisation sonore et de la détection de visage (notamment sa position) permet au robot de tourner sa tête vers son interlocuteur humain, ce qui semble un fait acquis lorsqu'il s'adresse à un autre humain. Le robot peut également mettre en œuvre une identification du locuteur (reconnaissance faciale, timbre de la voix, empreinte vocale...) afin
de s'adresser à un humain en particulier en utilisant son nom, des caractéristiques qui lui sont propres comme, par exemple, l'historique des conversations et comportements joués par le robot. Le robot peut également savoir ce que l'utilisateur a pensé d'un comportement selon qu'il ait caressé son capteur tactile (l'Homme a aimé le comportement), et proposer alors de le jouer lors d'une communication orale par exemple. Le robot va tenter d'agir de façon adaptée à la situation. Ainsi, il peut jouer des animations, utiliser ses LED et diffuser du son, ce qui lui permet alors de simuler les gestes instinctifs qu'un humain fait quand il parle (parler avec les mains, ...). Le robot peut également produire des acquiescements de la tête (nommés head nods ). Plusieurs études, notamment celle de Justine Cassell faite dans son article Social Dialogue With Embodied Conversational Agents (publié en 2005: In addition, in the solution of the invention, the communication is made more natural by the use of several communication channels of different modalities, and particular behavior on the part of the robot. Thus, the use of sound localization and face detection (including its position) allows the robot to turn its head towards its human interlocutor, which seems a fact when it is addressed to another human. The robot can also implement a speaker identification (facial recognition, voice stamp, voice print ...) so to speak to a particular human by using his name, his own characteristics such as, for example, the history of conversations and behaviors played by the robot. The robot can also know what the user has thought of a behavior as he has touched his touch sensor (Man liked the behavior), and then offer to play it during an oral communication for example. The robot will try to act appropriately to the situation. Thus, he can play animations, use his LEDs and broadcast sound, which allows him to simulate the instinctive gestures that a human does when he speaks (talking with the hands, ...). The robot can also produce head nods (called head nods). Several studies, including that of Justine Cassell made in her article Social Dialogue With Embodied Conversational Agents (published in 2005:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10. 1. 1. 124.9853&rep=rep 1&tvpe=pdfh ont permis de prouver que l'homme considère qu'une machine ou un avatar semble plus intéressé par la conversation quand cette machine ou cet avatar produit des head nods, même quand ils sont produits au hasard. Tous ces signaux gestuels (comme acquiescer ou nier avec la tête, les bras ou les mains), sonores, la chronologie de l'interaction, la localisation de l'interlocuteur, ou encore la détection des intentions de l'utilisateur (est-ce qu'il avance ou recule) permettent de rendre plus naturelle et efficace l'interaction Homme-robot en la rendant plus proche des codes humains habituels. Ils résolvent donc également une partie des problèmes liés à la reconnaissance vocale restrictive. Ils sont un des avantages de l'invention. Les copies d'écrans des figures 8 à 13 décrivent la manière dont peuvent être programmés plusieurs cas de dialogue entre un robot NAO et un interlocuteur. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10. 1. 1. 124.9853 & rep = rep 1 & tvpe = pdfh have proved that the man considers that a machine or an avatar seems more interested in the conversation when this machine or this avatar produces head nods, even when they are produced at hazard. All these gestural signals (such as acquiesce or deny with the head, arms or hands), sound, the chronology of the interaction, the location of the interlocutor, or the detection of the intentions of the user (is this whether it is moving forward or backward) make Man-robot interaction more natural and effective by making it closer to the usual human codes. They also solve some of the problems related to restrictive speech recognition. They are one of the advantages of the invention. The screen shots in Figures 8 to 13 describe how you can program multiple dialogs between an NAO robot and a caller.
Pour utiliser la boîte choix dans le comportement, il faut la drag-and-dropper (glisser-déposer) depuis la librairie par défaut de Chorégraphe dans le diagramme (figure 8a). On ajoute une boîte LocalizedText, qui va permettre d'éditer la question en français et en anglais. On écrit la question en anglais "What is your favorite animal?" dans le plugin texte de la Boîte LocalizedText (figure 8b). On veut aussi éditer la question en français. Pour ce faire, on utilise la Combo Box du plugin de la boîte, et on choisit French. (figure 8c). On écrit alors le texte de la question en français dans le plugin texte qui est
vide quand il n'est pas édité : "Quel est ton animal préféré ?" (figure 8d). La question doit être en entrée de la Boîte Choix, pour être bien gérée par le robot. On relie la sortie de la boîte LocalizedText à l'entrée onStart de la Boîte Choix (figure 8e). To use the choice box in the behavior, you need drag-and-drop (drag-and-drop) from the default choreographer library in the diagram (Figure 8a). We add a LocalizedText box, which will allow to edit the question in French and in English. The question is written in English "What is your favorite animal?" in the text plugin of the LocalizedText Box (Figure 8b). We also want to edit the question in French. To do this, we use the Combo Box plugin box, and we choose French. (Figure 8c). We then write the text of the question in French in the text plugin which is empty when it is not edited: "What is your favorite animal?" (Figure 8d). The question must be in the box of choice, to be well managed by the robot. The output of the LocalizedText box is connected to the OnStart entry of the Choice Box (Figure 8e).
On va maintenant éditer les choix, en anglais, comme l'indique la Combo Box de la Boîte Choix. On enlève les choix par défaut de la Boîte. Sur la première ligne du tableau, on écrit le premier choix "pangolin" (figure 9a). Sur la deuxième ligne, on propose un autre animal : "spider", mais on ajoute un synonyme "tarantula", séparé de spider par un slash '/'. Cela signifie que le robot considère spider et tarantula comme étant synonymes (figure 9b). On finit d'éditer les choix, en ajoutant par exemple "rabbit" et "pony". On remarque que le nombre de lignes s'adapte automatiquement quand on ajoute des choix (figure 9c). On utilise la Combo Box pour passer la langue d'édition de la Boîte Choix au français (figure 9d). Comme pour l'anglais, on écrit la liste de choix, ainsi on obtient : "pangolin", "araignée/tarentule", "lapin" et "poney". (figure 9d). We will now edit the choices, in English, as indicated by the Combo Box of the Choice Box. Remove the default choices from the Box. On the first line of the table, we write the first choice "pangolin" (Figure 9a). On the second line, we propose another animal: "spider", but we add a synonym "tarantula", separated from spider by a slash '/'. This means that the robot considers spider and tarantula to be synonymous (Figure 9b). We finish editing the choices, adding for example "rabbit" and "pony". Note that the number of lines adapts automatically when you add choices (Figure 9c). The Combo Box is used to pass the language of edition of the Choice Box to French (figure 9d). As for English, we write the list of choices, so we get: "pangolin", "spider / tarantula", "rabbit" and "pony". (Figure 9d).
Mais on ne sait pas si le robot va bien reconnaître ces choix ou pas. On veut alors lancer la fonction de diagnostic audio. On clique sur le "plus" (figure 10a). On clique alors sur l'icône d'évaluation (figure 10b). Pour chaque ligne, les mots sont évalués (figure 10c). En cas de synonymes, le meilleur est placé au début, et le pourcentage indiqué est alors le résultat du meilleur synonyme. Le diagnostic audio se finit, on voit alors que "poney"' risque d'être très mal reconnu (figure 10d). But we do not know if the robot will recognize these choices or not. We want to start the audio diagnostic function. We click on the "plus" (figure 10a). Then click on the evaluation icon (Figure 10b). For each line, the words are evaluated (Figure 10c). In case of synonyms, the best is placed at the beginning, and the percentage indicated is then the result of the best synonym. The audio diagnosis ends, we see that "pony" 'may be very poorly recognized (Figure 10d).
On décide alors de changer de mot et de mettre "cheval" à la place (figure 1 1 a). On relance le diagnostic. "Cheval" obtient un excellent score de 82%, on le conserve (figure 1 1 b). It is then decided to change the word and put "horse" instead (Figure 1 1 a). We restart the diagnosis. "Horse" gets an excellent score of 82%, it is preserved (Figure 1 1 b).
On repasse en anglais et on lance le diagnostic sur les mots en anglais (figures 12a, 12 b). On rajoute ensuite à "poney" le synonyme "horse", en tant que traduction de "cheval" (figure 12c). On relance le diagnostic, et on remarque que "horse", ayant un meilleur score que "poney", a été placé en première position automatiquement (figure 12d). We go back to English and we start the diagnosis on words in English (Figures 12a, 12b). Then we add to "pony" the synonym "horse", as a translation of "horse" (Figure 12c). We restart the diagnosis, and we note that "horse", having a better score than "pony", was placed in first position automatically (Figure 12d).
On va maintenant éditer les paramètres qui peuvent être réglés. On clique sur la clé à molette en bas à gauche de la Boîte Choix (figure 13a). La fenêtre de paramétrage s'ouvre (figure 13b) ; on coche le paramètre booléen
"activate arms" (figure 13c). Ainsi, le robot bougera les bras pendant qu'il parlera. On clique sur OK pour valider ce nouveau paramétrage. We will now edit the parameters that can be set. Click on the adjustable wrench at the bottom left of the Choice Box (Figure 13a). The parameter window opens (Figure 13b); check the Boolean parameter "activate arms" (Figure 13c). Thus, the robot will move his arms while he speaks. Click on OK to validate this new setting.
On relie l'entrée générale du comportement à l'entrée de la boîte LocalizedText, et les sorties de la boîte Choix à la sortie générale du comportement (figure 13d). We connect the general input of the behavior to the input of the LocalizedText box, and the outputs of the Choice box to the general output of the behavior (Figure 13d).
On décrit maintenant un exemple de fonctionnement du logiciel programmé comme dans l'exemple décrit ci-dessus. An example of operation of the programmed software is now described as in the example described above.
On asservit le robot grâce à l'icône Chorégraphe "enslave ail motors on/off", puis on le met debout grâce à la position "init pose" de la pose library. On met la langue du robot à français grâce au paramètre présent sur sa page web. On lance le comportement sur le robot grâce à l'icône Play de Chorégraphe. The robot is enslaved by the icon Chorégraphe "enslave garlic motors on / off", then it is put upright thanks to the "init pose" position of the pose library. We put the language of the robot to French thanks to the parameter present on its web page. We start the behavior on the robot with the Choreographer Play icon.
En bougeant les bras, le robot demande "Quel est ton animal préféré ?", puis lance un signal sonore d'écoute. Pendant qu'il est en écoute, ses yeux tournent en bleu, ainsi que ses oreillles, et les capteurs tactiles de sa tête clignotent en bleu. By moving the arms, the robot asks "What is your favorite animal?", And then starts a listening sound. While he is listening, his eyes turn blue, as well as his ears, and the touch sensors of his head blink blue.
L'utilisateur répond alors "dauphin". Les yeux de NAO deviennent jaunes pendant qu'il analyse ce qui vient d'être dit. Il ne comprend pas la réponse : ses yeux flashent deux fois en rouge, et ses oreilles en bleu. Il dit "Je n'ai pas compris. Tu peux répondre : pangolin, araignée, lapin ou cheval. Quel est ton animal préféré ?", tout en bougeant les bras et il revient en phase d'écoute. The user then answers "dolphin". NAO's eyes turn yellow as he analyzes what has just been said. He does not understand the answer: his eyes flash red twice, and his ears blue. He said, "I did not understand, you can answer: pangolin, spider, rabbit or horse.What is your favorite animal?" While moving his arms and he returns to the listening phase.
L'utilisateur répond alors "lapin". Le robot n'est pas sûr mais croit comprendre pangolin. Ses yeux flashent une fois en vert. Il dit alors, tout en lançant une animation des bras, "J'ai compris pangolin, est-ce correct ?". L'utilisateur répond "non". Le robot flashe une fois les yeux en rouge et lance une aide tout en bougeant les bras : "pangolin, araignée, lapin, ou cheval ? Tu peux aussi choisir une réponse à l'aide de mon capteur tactile. Quel est ton animal préféré ?" et il revient en mode écoute. L'utilisateur appuie alors sur le capteur tactile de devant, le robot flashe ses yeux une fois en bleu et dit "pangolin". Puis l'utilisateur appuie à nouveau, le robot répond "araignée" tout en flashant ses yeux une fois en bleu. La troisième fois le robot dit "lapin" avec un flash bleu des yeux. L'utilisateur appuie alors sur le capteur tactile du milieu pour valider son choix. Le robot flashe une fois ses yeux en vert, répète alors "lapin" et sort de la boîte et du comportement.
D'autres interactions entre canaux de communication du robot sont possibles, telles que celles décrites ci-dessous. The user then responds "rabbit". The robot is not sure but believes to understand pangolin. His eyes flash once in green. He then said, while throwing an animation of the arms, "I understood pangolin, is it correct?". The user answers "no". The robot flashes once the eyes red and throws a helper while moving his arms: "pangolin, spider, rabbit, or horse? You can also choose an answer using my touch sensor.What is your favorite animal? " and he comes back in listening mode. The user then presses on the front touch sensor, the robot flashes his eyes once in blue and says "pangolin". Then the user presses again, the robot responds "spider" while flaming his eyes once in blue. The third time the robot says "rabbit" with a blue flash of eyes. The user then presses on the middle touch sensor to validate his choice. The robot flashes once his eyes green, then repeat "rabbit" and out of the box and behavior. Other interactions between communication channels of the robot are possible, such as those described below.
La Boîte Choix utilise de manière privilégiée la reconnaissance vocale en combinaison avec le capteur tactile afin de reconnaître le choix de l'utilisateur. Une autre possibilité est d'utiliser la vision du robot, notamment la reconnaissance d'image. C'est une reconnaissance d'objet et non pas de concept : si on lui montre une canette, il reconnaîtra cette même canette et pas celle d'une autre marque. Une des possibilités du logiciel de développement dans sa version permettant de mettre en œuvre l'invetion est d'avoir dans ce logiciel le retour caméra du robot. L'utilisateur peut montrer des objets au robot, voir l'image obtenue dans Chorégraphe, et identifier à la main l'objet intéressant dans l'image. L'utilisateur le nomme. Le robot analyse alors l'objet et le stocke dans sa base de données d'images. The Choice Box makes special use of voice recognition in combination with the touch sensor to recognize the user's choice. Another possibility is to use the robot's vision, especially image recognition. It is an object recognition and not a concept: if you show him a can, he will recognize this same can and not another brand. One of the possibilities of the development software in its version allowing to implement the invetion is to have in this software the camera feedback of the robot. The user can show objects to the robot, see the image obtained in Choreographer, and identify by hand the interesting object in the image. The user names it. The robot then analyzes the object and stores it in its image database.
L'utilisateur peut alors utiliser ces images comme des choix possibles pour une boîte choix. The user can then use these images as possible choices for a choice box.
Par exemple, si l'utilisateur veut remplir une Boîte Choix avec des noms d'objets, comme "canette", "tasse", "magazine". Il remplit la Boîte Choix avec ces mots, puis prend une canette, sa tasse préférée et la couverture d'un magazine et les montre au robot pour qu'il les analyse comme expliqué précédemment. La Boîte Choix fait alors une recherche dans la base de données d'images du robot : si un objet noté "tasse" est présent, NAO le recherche alors en même temps qu'il écoute l'utilisateur, et ainsi de suite pour les autres mots. Ainsi, l'utilisateur lance cette Boîte sur NAO, qui écoute ses choix. L'utilisateur dit "canette" mais le robot ne comprend pas. Au bout de deux fois, le robot explique qu'il peut lui montrer "canette", "tasse" et "magazine" parce qu'ils sont dans sa base de données. L'utilisateur peut pendant l'écoute montrer la canette qui a servi à l'enregistrement (ou de la même marque). Le robot agit alors comme s'il avait reconnu le mot "canette". For example, if the user wants to fill a Choice Box with object names, such as "can", "cup", "magazine". He fills the Choice Box with these words, then takes a can, his favorite mug and the cover of a magazine and shows them to the robot for analysis as explained above. The Choice Box then searches the robot's image database: if an object marked "cup" is present, NAO then searches for it while listening to the user, and so on for the others. words. Thus, the user launches this Box on NAO, which listens to his choices. The user says "bobbin" but the robot does not understand. After two times, the robot explains that he can show him "can", "cup" and "magazine" because they are in his database. The user can while listening listen to the bobbin that was used for recording (or the same brand). The robot then acts as if he recognized the word "bobbin".
Dans le cadre de la présente invention, il est également possible de programmer le robot pour qu'il serve d'agent de réception/lecture, écriture/envoi et administration d'un compte de messagerie d'un utilisateur du robot. Cette application est décrite ci-dessous. In the context of the present invention, it is also possible to program the robot to act as an agent for receiving / reading, writing / sending and administering an email account of a user of the robot. This application is described below.
Avec l'application Mail, NAO peut notamment lire des emails, répondre à un email ou envoyer des emails à un contact, mais aussi ajouter l'auteur d'un
mail reçu aux contacts, supprimer un message, le marquer comme non lu, le relire, lire le message suivant ou le précédent. With the Mail application, NAO can read emails, reply to an email or send emails to a contact, but also add the author of a mail received to contacts, delete a message, mark it as unread, re-read it, read the next or previous message.
Trois Boîtes Choix sont utilisées dans cette application, en faisant ainsi un élément indispensable. Les mots ont été choisis grâce au diagnostic audio. Quand l'application est lancée, le robot commence par regarder si l'utilisateur a reçu de nouveaux messages. Si oui, il lit le premier nouveau message puis lance une Boîte Choix sans question. Si non, il lance cette même Boîte Choix mais avec une question : "Que veux-tu que je fasse?". Le fait de pouvoir lancer une Boîte Choix avec ou sans question est donc utilisé dans l'application mail. Cette Boîte Choix permet à l'utilisateur de faire son choix parmi les actions possibles de NAO. Ces actions sont écrites dans le tableau du plugin de la boîte. La sortie de Boîte Choix "timeout" est utile, car en cas de timeout, NAO lit le message suivant. Un paramètre "maximum number of répétition when no reply" est alors mis à 1 : le robot quitte cette boîte choix au premier timeout. De plus, le paramètre "repeat validated choice" est désactivé, car après un choix de l'utilisateur le robot lance une animation ou action spécifique qui montre clairement ce qu'il a compris. Grâce aux paramètres booléens "activate head", "activate arms" et "activate legs", le robot va être animer avec des animations dédiées au discours. Three Choice Boxes are used in this application, making it an indispensable element. The words were chosen thanks to the audio diagnosis. When the application is launched, the robot starts by looking if the user has received new messages. If so, it reads the first new message then launches a Choice Box without question. If not, he launches this same Choice Box but with a question: "What do you want me to do?" Being able to launch a Choice Box with or without question is therefore used in the mail application. This Choice Box allows the user to choose from the possible actions of NAO. These actions are written in the table of the plugin of the box. The output of Choice Box "timeout" is useful, because in case of timeout, NAO reads the following message. A parameter "maximum number of repetition when no reply" is then set to 1: the robot leaves this box choice at the first timeout. In addition, the parameter "repeat validated choice" is disabled, because after a choice of the user the robot launches a specific animation or action that clearly shows what he understood. Thanks to the boolean parameters "activate head", "activate arms" and "activate legs", the robot will be animated with animations dedicated to the speech.
Par exemple, les choix possibles de cette boîte, en français sont: For example, the possible choices of this box, in French are:
Enregistrer une réponse / Répondre à ce mail / Répondre au mail / Répondre ; Record an answer / Reply to this email / Reply to the email / Reply;
Lire à nouveau / Relire ce mail / Relire le mail / Relire ; Read Again / Read Again / Reread Mail / Reread;
Suivant / Lire le suivant / Lire le mail suivant ; Next / Read the next / Read the following email;
- Précédent / Lire le mail précédent / Lire le message précédent ; - Previous / Read the previous mail / Read the previous message;
Marquer comme non lu / Conserver / Relire plus tard ; Mark as unread / Keep / Replay later;
Supprimer / Supprimer le mail / Supprimer le message ;Delete / Delete the mail / Delete the message;
Écrire un mail / Envoyer un mail / Envoyer ; Write an e-mail / Send an e-mail / Send;
Ajouter aux contacts; Add to Contacts;
- Sortir/Quitter/Passer/Arrête/Arrêter/Annuler/Tais toi : "Sortir" est un des choix par défaut de la boîte choix, qui permet ici de sortir de l'application mail. - Exit / Exit / Skip / Stop / Stop / Cancel / Shut up: "Exit" is one of the default choices of the box choice, which allows here to exit the mail application.
Si l'utilisateur choisit l'option "Écrire un mail", il doit d'abord choisir un contact dans son carnet d'adresses. Pour réaliser cette fonction de choix, une Boîte Choix avec en entrée la question "A qui veux-tu écrire ?" est utilisée. La liste
de choix est variable. Par conséquent, le tableau de la Boîte Choix n'a pas été rempli, la liste de contact est récupérée depuis le fichier qui la sauvegarde et envoyée à l'entrée "choicesList" de la boîte Choix, de type dynamic. Cette fois-ci, le paramètre "repeat validated choice" est activé, pour indiquer à l'utilisateur que Nao a bien compris à qui envoyer le message. Le paramètre "maximum number of répétition when no reply" est par exemple à 3, sa valeur par défaut pour, en cas de timeout, ne pas envoyer un mail à n'importe qui, mais bien pouvoir annuler l'envoi du mail et de revenir au menu principal. De même, dire "Sortir", choix par défaut de l'application, permet de revenir au menu principal. Une fonction d'aide est pour le cas où l'utilisateur ne se rappelle plus de ses contacts. Dans ce cas, avec le capteur tactile par exemple, NAO énonce la liste des contacts. If the user chooses the option "Write a mail", he must first choose a contact in his address book. To realize this function of choice, a Box Choice with in entry the question "To whom do you want to write?" is used. The list choice is variable. As a result, the Choice Box table has not been filled in. The contact list is retrieved from the file that saves it and sent to the "choices" entry in the Choice box, of type dynamic. This time, the "repeat validated choice" parameter is set to tell the user that Nao understood who to send the message to. The parameter "maximum number of repetition when no reply" is for example 3, its default value for, in case of timeout, not to send an email to anyone, but to be able to cancel the sending of the mail and return to the main menu. Similarly, saying "Exit", the default choice of the application, allows you to return to the main menu. A help function is for the case where the user does not remember his contacts. In this case, with the touch sensor for example, NAO states the list of contacts.
Que ce soit dans ce cas d'envoi direct d'un mail, ou bien dans le cas de réponse à un message reçu, le robot va enregistrer le message de l'utilisateur. Whether in this case sending a direct mail, or in the case of response to a message received, the robot will record the message of the user.
Une fois le message fini, le robot relit le message enregistré puis lance une Boîte Choix qui propose par exemple les différentes interactions suivantes: Once the message is finished, the robot re-reads the recorded message and then launches a Choice Box which proposes for example the following different interactions:
Rejoue-le / Rejoue le message / Rejoue mon message : NAO relit le message. Replay it / Replay the message / Replay my message: NAO re-read the message.
- Réenregistre le message / Réenregistre mon message / - Resave the message / Resave my message /
Réenregistre-le : le message peut être réenregistré, si le premier ne convient pas ; Resave it: the message can be re-registered, if the first one is not suitable;
Ne l'envoie pas / Ne pas envoyer / N'envoie pas le message : NAO n'enverra pas le message, puis reviendra au niveau précédent de l'application ; Do not send / Do not send / Do not send the message: NAO will not send the message, then return to the previous level of the application;
Envoie-le / Envoie le message / Envoie mon message : NAO enverra le message ; Sends it / Sends the message / Sends my message: NAO will send the message;
En cas de timeout, le message est envoyé ; In case of timeout, the message is sent;
En cas de sortie "other" de la Boîte qui ne soit pas un timeout, comme une demande de sortie ou des échecs à répétition, l'application revient au niveau précédent. In case of "other" output of the Box that is not a timeout, such as an exit request or repeated failures, the application returns to the previous level.
Les paramètres sont sensiblement les mêmes que pour la Boîte Choix du menu principal, avec le paramètre "Maximum number of répétition when no reply" mis à 1 . Les paramètres "speech récognition timeout", qui indiquent au bout de combien de temps sans réponse le robot considère qu'il y a timeout,
et "speech récognition timeout when confirmation" peuvent par exemple être mis à 4 secondes au lieu de 6 par défaut, pour que l'utilisateur puisse facilement ne rien dire et laisser le message être envoyé. La Boîte Choix peut également être configurée de manière statique avec des paramètres constants sur toute la durée d'utilisation de la Boîte. Mais dans le cadre de l'utilisation d'un système de génération automatique de questions, les paramètres peuvent être réglés automatiquement. Par exemple, dans le cadre d'utilisation d'un agent conversationnel tel que celui développé par la société As An Angel, ledit agent peut configurer la Boîte Choix en fonction des questions-réponses qu'il aura automatiquement générés. The settings are essentially the same as for the Main Menu Choice Box, with the "Maximum number of repeat when no reply" setting set to 1. The parameters "speech recognition timeout", which indicate after how much time without response the robot considers that there is timeout, and "speech recognition timeout when confirmation" can for example be set to 4 seconds instead of 6 by default, so that the user can easily say nothing and let the message be sent. The Choice Box can also be statically configured with constant parameters over the entire life of the Box. But in the context of using an automatic question generation system, the parameters can be set automatically. For example, in the context of using a conversational agent such as that developed by the company As An Angel, said agent can configure the Choice Box based on the questions and answers that he automatically generated.
D'autres améliorations ont été apportées au logiciel Chorégraphe de développement des comportements, notamment pour faciliter la mise en œuvre de la présente invention. Une description en est donnée ci-dessous. Other improvements have been made to the choreographic behavior development software, in particular to facilitate the implementation of the present invention. A description is given below.
Les Boites Chorégraphe sont implémentées au moyen d'un script dans un des langages de programmation supportés. Si cette Boîte a certains aspects paramétrables, comme le nombre de répétitions, la langue utilisée par le robot, le texte que le robot doit prononcer, ces informations sont intégrées directement dans le script de la boite. Lorsqu'on veut modifier les paramètres de la boite, par exemple après l'avoir dupliquée pour l'utiliser différemment, il faut modifier le script de la boite pour changer son comportement. Chorégraphe boxes are implemented by means of a script in one of the supported programming languages. If this box has some parametrizable aspects, such as the number of repetitions, the language used by the robot, the text that the robot must pronounce, this information is integrated directly into the script of the box. When one wants to modify the parameters of the box, for example after having duplicated it to use it differently, it is necessary to modify the script of the box to change its behavior.
Comme c'est une opération courante, qu'un utilisateur sans connaissance approfondie du langage de script utilisé pourrait vouloir réaliser, ainsi que pour améliorer la productivité des utilisateurs de Chorégraphe, une interface spéciale a été développée pour pouvoir configurer des scripts de Boîte. Il y a deux aspects à cette fonctionnalité. As it is a common operation, a user without a deep knowledge of the scripting language used might want to achieve, as well as to improve the productivity of Choreographer users, a special interface has been developed to be able to configure Box scripts. There are two aspects to this feature.
Dans l'interface de Chorégraphe, l'utilisateur a la possibilité de créer des "paramètres de Boîte" dans la fenêtre d'édition des attributs de la boite, de la même manière qu'il peut créer des entrées et des sorties pour la boite. Chaque "paramètre de boite" a un nom, une description, un type (parmi booléen, entier, flottant et chaîne), et en fonction du type peut avoir des attributs supplémentaires, comme une valeur par défaut. Enfin un "paramètre de boite" peut être défini comme héritant de la boite parente, ce
qui affectera la manière dont la valeur sera déterminée. Une fois des "paramètres de boite" définis, la Boîte est affichée dans son diagramme avec un indicateur visuel supplémentaire dans son coin inférieur gauche. Quand l'utilisateur clique sur cette icône, un dialogue d'édition de "paramètres de Boîte" s'ouvre, et l'utilisateur peut définir la valeur associée à chaque "paramètre de Boîte", dans le cadre d'éventuelles contraintes définies dans les attributs du "paramètre de Boîte". In the Choreographer interface, the user can create "box parameters" in the box attributes edit window, in the same way that he can create inputs and outputs for the box. . Each "box parameter" has a name, a description, a type (among boolean, integer, float and string), and depending on the type can have additional attributes, such as a default value. Finally a "box parameter" can be defined as inheriting from the parent box, this which will affect how the value will be determined. Once "box parameters" have been defined, the box is displayed in its diagram with an additional visual indicator in its lower left corner. When the user clicks on this icon, a dialog for editing "Box parameters" opens, and the user can define the value associated with each "Box parameter", within the framework of any constraints defined in the attributes of the "Box parameter".
Dans le script de la boite, l'auteur de la Boîte peut désormais accéder aux "paramètres de Boîte" à l'aide de plusieurs fonctions prennant en argument le nom du "paramètre de Boîte". Il peut consulter la valeur courante d'un "paramètre de Boîte" et la changer. Il peut aussi créer des "paramètres de Boîte" dynamiques, qui n'apparaîtront pas dans Chorégraphe, mais qui pourront servir de stockage temporaire dans les scripts de la Boite. La valeur courante d'un paramètre dépend du fait qu'il soit marqué comme héritant de la Boîte parente ou non. S'il ne l'est pas (le cas par défaut), le "paramètre de Boîte" est spécifique à la Boîte, et quand le script de la Boîte le consulte sa valeur courante est simplement retournée. S'il est marqué comme héritant, lors de la lecture de la valeur, la hiérarchie de diagrammes de Boîtes va être remontée jusqu'à trouver une Boîte parente contenant un "paramètre de Boîte" du même nom. Si aucun n'est trouvé la valeur courante pour la Boîte courante est utilisée. In the box script, the author of the Box can now access the "Box parameters" using several functions that take the name of the "Box parameter" as an argument. It can view the current value of a "Box parameter" and change it. It can also create dynamic "Box parameters", which will not appear in Choregraph, but which can be used as temporary storage in the Box's scripts. The current value of a parameter depends on whether it is marked as inheriting from the Parent Box or not. If it is not (the default case), the "Box parameter" is box specific, and when the box script looks at its current value, it is simply returned. If marked as inheriting, when reading the value, the Boards diagrams hierarchy will be rolled up to find a Parent Box containing a "Box parameter" of the same name. If none is found the current value for the Current Box is used.
Le robot dispose par ailleurs d'un module logiciel lui permettant de reconnaître des objets qui passent dans le champ de vision de sa caméra. Cependant les objets à reconnaître doivent d'abord être appris dans une phase d'apprentissage. Cet apprentissage est réalisé à l'aide d'une interface spécifique dans Chorégraphe. The robot also has a software module allowing it to recognize objects that pass in the field of vision of its camera. However, the objects to be recognized must first be learned in a learning phase. This learning is done using a specific interface in Choreographer.
Cette interface affiche en temps réel la vidéo envoyée par la caméra du robot. L'image n'est disponible que lorsque Chorégraphe est connecté à un robot disposant d'une caméra et d'un module de capture vidéo correctement configuré. Quand l'affichage vidéo est activé, l'utilisateur peut déclencher un apprentissage. Un compte à rebours apparaît alors sur l'image, et l'utilisateur dispose alors par exemple de 4 secondes pour présenter un objet devant la caméra. A la fin du compte à rebours des images sont capturées et
enregistrées. L'utilisateur doit alors détourer l'objet d'intérêt dans l'image en dessinant un polygone sur l'image figée. Une fois le polygone fermé, un dialogue s'ouvre demandant à l'utilisateur d'entrer des mots-clés définissant l'objet. This interface displays in real time the video sent by the robot's camera. The image is only available when Choreographer is connected to a robot with a camera and a properly configured video capture module. When video display is enabled, the user can initiate a learning. A countdown then appears on the image, and the user then has for example 4 seconds to present an object in front of the camera. At the end of the countdown the images are captured and recorded. The user must then crop the object of interest in the image by drawing a polygon on the frozen image. Once the polygon is closed, a dialog opens asking the user to enter keywords defining the object.
Chaque apprentissage génère une entrée dans une base de données qui est sauvegardée par Chorégraphe sur l'ordinateur de l'utilisateur. Une fois l'apprentissage terminé, un bouton permet d'envoyer une version allégée de la base de données sur le robot. Le module de reconnaissance d'objets utilisera alors cette base de données, et quand un objet sera reconnu, un événement contenant les mots-clés associés sera déclenché sur le robot. Each learning generates an entry in a database that is saved by choreographer on the user's computer. Once the learning is finished, a button makes it possible to send a light version of the database on the robot. The object recognition module will then use this database, and when an object is recognized, an event containing the associated keywords will be triggered on the robot.
Chorégraphe est par ailleurs un éditeur de comportements pour le robot. Comme décrit précédemment en commentaire à la figure 4, un comportement est un objet similaire à un programme informatique, qui peut être exécuté par le robot. Afin d'installer et d'exécuter ces comportements sur le robot, il a été développé une interface de gestion des comportements sur le robot. Quand Chorégraphe est connecté à un robot, une entrée des menus de l'application permet d'afficher le gestionnaire de comportements. C'est une fenêtre modale affichant une liste des comportements installés sur le robot, ainsi qu'un ensemble de boutons pour les manipuler. Choreographer is also a behavior editor for the robot. As previously described in commentary to FIG. 4, a behavior is an object similar to a computer program, which can be executed by the robot. In order to install and execute these behaviors on the robot, it has been developed a behavior management interface on the robot. When Choreographer is connected to a robot, an entry in the application's menus is used to display the behavior manager. It is a modal window displaying a list of behaviors installed on the robot, as well as a set of buttons to manipulate them.
Pour chaque comportement installé est affiché son nom, son état (en cours d'exécution ou non) et un attribut définissant si le comportement doit être exécuté au démarrage du robot. Pour démarrer ou arrêter un comportement, il suffit de cliquer sur l'icône affichant son état courant, ce qui a pour effet de basculer l'état. Une fois le comportement terminé l'état repasse automatiquement à "arrêté". L'attribut "lancer au démarrage" est une Boîte à cocher. Elle indique la valeur courante de l'attribut, et l'utilisateur peut simplement cliquer dessus pour changer cette valeur. For each installed behavior is displayed its name, its state (running or not) and an attribute defining if the behavior must be executed at the start of the robot. To start or stop a behavior, simply click on the icon displaying its current state, which has the effect of toggling the state. Once the behavior is complete, the status automatically returns to "stopped". The attribute "start at startup" is a checkbox. It indicates the current value of the attribute, and the user can simply click on it to change that value.
Les boutons affichés à côté de la liste de comportements permettent d'en ajouter, d'en supprimer, et d'en transférer vers l'ordinateur de l'utilisateur. L'utilisateur peut ainsi très facilement manipuler les comportements installés sur le robot, comme si c'était des fichiers sur son ordinateur. En particulier, un utilisateur peut télécharger un comportement, le modifier, et le réinstaller sur le robot, sans avoir à l'enregistrer sur son ordinateur.
Les comportements installés par l'utilisateur peuvent alors s'exécuter en parallèle, sous les contraintes de cohérence temporelle et entre comportements définies par les différentes Boîtes de comportement, les Trames de comportement et la Timeline. The buttons displayed next to the behavior list allow you to add, remove, and transfer to the user's computer. The user can very easily manipulate the behaviors installed on the robot, as if it were files on his computer. In particular, a user can download a behavior, modify it, and reinstall it on the robot, without having to save it on his computer. The behaviors installed by the user can then run in parallel, under the constraints of temporal coherence and between behaviors defined by the different Behavior Boxes, Behavior Frames and Timeline.
Les exemples décrits ci-dessus sont donnés à titre d'illustration de modes de réalisation de l'invention. Ils ne limitent en aucune manière le champ de l'invention qui est défini par les revendications qui suivent.
The examples described above are given by way of illustration of embodiments of the invention. They in no way limit the scope of the invention which is defined by the following claims.
Claims
1 . Robot humanoïde comprenant au moins deux canaux de communication naturelle (521 , 522, 523, 531 , 532, 533) de messages avec au moins un interlocuteur (541 , 542) selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un module de contrôle (510) des entrées/sorties desdits canaux, ledit robot étant caractérisé en ce que ledit module de contrôle est apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. 1. A humanoid robot comprising at least two natural communication channels (521, 522, 523, 531, 532, 533) of messages with at least one interlocutor (541, 542) in different ways, said at least two channels being each selected from the reception group, transmission, and a control module (510) of the inputs / outputs of said channels, said robot being characterized in that said control module is able to improve the understanding of the messages received by said robot by performing at least one selected function in the combination group of messages received / transmitted on a first channel and a second channel, sending a second message generated from a first message received on a channel.
2. Robot humanoïde selon la revendication 1 , caractérisé en ce que lesdits canaux de communication sont choisis dans le groupe des canaux de communication émettant et/ou recevant des messages sonores, visuels, tactiles, gestuels, positionnels ou symboliques. 2. Humanoid robot according to claim 1, characterized in that said communication channels are chosen from the group of communication channels transmitting and / or receiving sound, visual, tactile, gestural, positional or symbolic messages.
3. Robot humanoïde selon la revendication 2, caractérisé en ce qu'un premier canal de communication est un canal d'émission sonore et un deuxième canal de communication est un canal de réception de gestes et/ou positions d'au moins une partie du robot par ledit au moins un interlocuteur, lesdits gestes et/ou positions étant représentatifs d'entrées communiquées par l'interlocuteur au robot, les spécifications desdites entrées étant définies par le robot à l'interlocuteur par le message émis sur le premier canal. 3. Humanoid robot according to claim 2, characterized in that a first communication channel is a sound transmission channel and a second communication channel is a reception channel of gestures and / or positions of at least a part of the robot by said at least one interlocutor, said gestures and / or positions being representative of inputs communicated by the interlocutor to the robot, the specifications of said entries being defined by the robot to the interlocutor by the message transmitted on the first channel.
4. Robot humanoïde selon la revendication 3, caractérisé en ce qu'il comprend en outre un troisième canal de communication tactile par lequel l'interlocuteur valide les entrées effectuées sur le deuxième canal. 4. humanoid robot according to claim 3, characterized in that it further comprises a third touch communication channel by which the interlocutor validates the entries made on the second channel.
5. Robot humanoïde selon la revendication 2, caractérisé en ce qu'un premier canal de communication est un canal de réception de messages sonores et un deuxième canal de communication est un canal d'émission de messages sonores et en ce que ledit module de contrôle est apte à évaluer le niveau de confiance de la compréhension par ledit robot d'un premier message reçu sur ledit premier canal et à générer au moins un deuxième message sur ledit deuxième canal dont le contenu dépend dudit niveau de confiance. 5. Humanoid robot according to claim 2, characterized in that a first communication channel is a sound message receiving channel and a second communication channel is a sound message transmission channel and in that said control module is able to evaluate the level of confidence of said robot in understanding a first message received on said first channel and generating at least a second message on said second channel whose content depends on said confidence level.
6. Robot humanoïde selon la revendication 5, caractérisé en ce que le premier canal comprend un filtre de reconnaissance vocale des messages reçus par une liste d'expressions à chacune desquelles est associé un taux de reconnaissance attendu et en ce que le contenu dudit deuxième message est choisi par une heuristique dans le groupe comprenant demande de répétition dudit premier message sur le premier canal, demande de confirmation par un troisième message à émettre par l'interlocuteur sur le premier canal d'un sous-ensemble des expressions du filtre, demande d'émission par l'interlocuteur d'au moins un autre message sur au moins un troisième canal. 6. Humanoid robot according to claim 5, characterized in that the first channel comprises a voice recognition filter messages received by a list of expressions each of which is associated with an expected recognition rate and that the content of said second message is chosen by a heuristic in the group comprising request for repetition of said first message on the first channel, confirmation request by a third message to be sent by the interlocutor on the first channel of a subset of the expressions of the filter, request for transmission by the interlocutor of at least one other message on at least one third channel.
7. Robot humanoïde selon la revendication 6, caractérisé en ce qu'il est apte à émettre sur le deuxième canal un signal de début d'écoute sur le premier canal pour assurer le séquencement en mode half-duplex des messages sur le premier et le deuxième canal. 7. humanoid robot according to claim 6, characterized in that it is able to transmit on the second channel a start of listening signal on the first channel to ensure the half-duplex mode sequencing messages on the first and the second channel.
8. Robot humanoïde selon la revendication 6, caractérisé en ce que ladite heuristique de choix est une fonction de la position des taux de reconnaissance réels par rapport à des seuils déterminés à partir des taux de reconnaissance attendus. 8. humanoid robot according to claim 6, characterized in that said heuristic of choice is a function of the position of the actual recognition rates with respect to thresholds determined from the expected recognition rates.
9. Robot humanoïde selon la revendication 6, caractérisé en ce que ledit troisième canal est un canal de réception tactile ou de gestes d'une partie du robot. 9. Humanoid robot according to claim 6, characterized in that said third channel is a touch reception channel or gestures of a part of the robot.
10. Robot humanoïde selon l'une des revendications 5 à 9, caractérisé en ce qu'il comprend en outre un module d'interface avec une messagerie électronique, ledit module d'interface permettant à un titulaire d'un compte sur ladite messagerie d'utiliser ledit robot comme agent de réception/lecture des messages électroniques sur le deuxième canal, d'écriture/expédition sur le premier canal et d'administration dudit compte par dialogue en utilisant lesdits premier et deuxième canal. 10. humanoid robot according to one of claims 5 to 9, characterized in that it further comprises an interface module with an electronic mail, said interface module allowing an account holder on said e-mail to use said robot as an agent for receiving / reading electronic messages on the second channel, writing / dispatching on the first channel and administering said count by dialogue using said first and second channel.
1 1 . Robot humanoïde selon la revendication 6, caractérisé en ce que ledit troisième canal est un canal de réception visuelle d'images d'objets correspondant à la liste d'expressions du filtre du premier canal, lesdites images étant comparées à une base de données d'images desdits objets préalablement enregistrés avec lesdites expressions accessible par ledit module de contrôle des entrées/sorties desdits canaux de communication. 1 1. A humanoid robot according to claim 6, characterized in that said third channel is a visual image object receiving channel corresponding to the list of filter expressions of the first channel, said images being compared to a database of images of said previously recorded objects with said expressions accessible by said input / output control module of said communication channels.
12. Robot humanoïde selon la revendication 2, caractérisé en ce qu'un premier canal de communication est un canal de réception de messages visuels et un deuxième canal de communication est un canal d'émission de messages sonores et en ce que ledit module de contrôle est apte à évaluer le niveau de confiance de la compréhension par ledit robot d'un premier message reçu sur ledit premier canal et à générer au moins un deuxième message sur ledit deuxième canal dont le contenu dépend dudit niveau de confiance. 12. Humanoid robot according to claim 2, characterized in that a first communication channel is a visual message receiving channel and a second communication channel is a sound message transmission channel and in that said control module is able to evaluate the level of confidence of said robot's understanding of a first message received on said first channel and to generate at least a second message on said second channel whose content depends on said confidence level.
13. Robot humanoïde selon la revendication 12, caractérisé en ce que le premier canal comprend un filtre de reconnaissance d'images des messages reçus par une liste d'expressions à chacune desquelles est associé un taux de reconnaissance attendu et en ce que le contenu dudit deuxième message est choisi par une heuristique dans le groupe comprenant demande de répétition dudit premier message sur le premier canal, demande de confirmation par un troisième message à émettre par l'interlocuteur sur un troisième canal de réception de messages sonores d'un sous-ensemble des expressions du filtre, demande d'émission par l'interlocuteur d'au moins un autre message sur au moins un quatrième canal. 13. Humanoid robot according to claim 12, characterized in that the first channel comprises an image recognition filter messages received by a list of expressions each of which is associated with an expected recognition rate and that the content of said second message is chosen by a heuristic in the group comprising request for repetition of said first message on the first channel, confirmation request by a third message to be sent by the interlocutor on a third channel for receiving sound messages of a subset expressions of the filter, transmission request by the interlocutor of at least one other message on at least one fourth channel.
14. Robot humanoïde selon l'une des revendications 1 à 13, caractérisé en ce qu'au moins un des canaux est un canal hybride recevant en entrées les sorties de deux canaux fusionnées par ledit module de contrôle des entrées et sorties. 14. Humanoid robot according to one of claims 1 to 13, characterized in that at least one of the channels is a hybrid channel receiving as inputs the outputs of two channels merged by said input and output control module.
15. Procédé de contrôle des communications d'un robot humanoïde avec au moins un interlocuteur comprenant au moins deux étapes de transmission de message par des canaux de communication utilisant des modalités différentes, lesdites deux étapes étant choisies chacune dans le groupe réception, émission, et une étape de contrôle des entrées/sorties desdits canaux, ledit robot étant caractérisé en ce que ladite étape de contrôle est apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. 15. A method of controlling the communications of a humanoid robot with at least one interlocutor comprising at least two message transmission steps by communication channels using different modalities, said two steps being each chosen in the reception, transmission, and reception group. a step of controlling the inputs / outputs of said channels, said robot being characterized in that said control step is able to improve the understanding of the messages received by said robot by performing at least one function selected in the group combination of received / transmitted messages on a first channel and a second channel, transmitting a second message generated from a first message received on a channel.
16. Programme d'ordinateur comprenant des instructions de code de programme permettant l'exécution du procédé selon la revendication 15 lorsque le programme est exécuté sur un ordinateur, ledit programme étant adapté pour permettre à un robot humanoïde comprenant au moins deux canaux de communication de messages avec au moins un interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un sous-programme de contrôle des entrées/sorties desdits canaux, ledit programme d'ordinateur étant caractérisé en ce que ledit sous-programme de contrôle est apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. A computer program comprising program code instructions for executing the method of claim 15 when the program is run on a computer, said program being adapted to allow a humanoid robot comprising at least two communication channels to communicate with each other. messages with at least one interlocutor according to different modalities, said at least two channels being each chosen from the reception group, transmission, and a subroutine for controlling the inputs / outputs of said channels, said computer program being characterized in that said control routine is able to improve the understanding of the messages received by said robot by executing at least one function selected in the group combination of messages received / transmitted on a first channel and on a second channel, sending a second message generated from a first message received on a channel.
17. Procédé d'édition et de commande d'une interface de communication entre au moins un robot humanoïde et au moins un interlocuteur, ledit au moins un robot humanoïde comprenant au moins deux canaux de communication naturelle de messages avec le au moins un interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un module de contrôle des entrées/sorties desdits canaux, ledit module de contrôle étant apte à améliorer la compréhension des messages reçus par ledit robot en exécutant au moins une fonction choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal, ledit procédé étant caractérisé en ce qu'il comprend une étape de programmation de ladite fonction choisie. 17. A method of editing and controlling a communication interface between at least one humanoid robot and at least one interlocutor, said at least one humanoid robot comprising at least two channels for natural communication of messages with the at least one interlocutor according to different modalities, said at least two channels being each chosen in the reception group, transmission, and an input / output control module of said channels, said control module being able to improve the understanding of the messages received by said robot in performing at least one function selected from the combination group of received / transmitted messages on a first channel and a second channel, transmitting a second message generated from a first message received on a channel, said method being characterized in that it comprises a programming step of said chosen function.
18. Procédé d'édition et de commande selon la revendication 17, caractérisé en ce que ladite étape de programmation de ladite fonction choisie comprend au moins une sous-étape de définition d'un premier canal de communication en tant que canal d'émission sonore et d'un deuxième canal de communication en tant que canal de réception d'au moins un geste imprimé à un membre du robot par ledit au moins un interlocuteur, une sous- étape de définition d'une correspondance entre ledit au moins un geste et une entrée communiquée par l'interlocuteur au robot, et une sous-étape de définition des spécifications desdites entrées par génération d'au moins un message à émettre par le robot à l'interlocuteur sur le premier canal. 18. Editing and control method according to claim 17, characterized in that said step of programming said selected function comprises at least one sub-step of defining a first communication channel as a sound emission channel. and a second communication channel as a reception channel for at least one gesture printed to a robot member by said at least one interlocutor, a substep of defining a correspondence between said at least one gesture and an input communicated by the interlocutor to the robot, and a substep of defining the specifications of said inputs by generating at least one message to be transmitted by the robot to the interlocutor on the first channel.
19. Procédé d'édition et de commande selon la revendication 18, caractérisé en ce qu'il comprend en outre une sous-étape de définition d'un troisième canal de communication tactile par lequel l'interlocuteur valide les entrées effectuées sur le deuxième canal. 19. A method of editing and control according to claim 18, characterized in that it further comprises a sub-step of defining a third touch communication channel by which the interlocutor validates the entries made on the second channel. .
20. Procédé d'édition et de commande selon l'une des revendications 18 à 19, caractérisé en ce que ses étapes sont effectuées par l'intermédiaire d'au moins une Boîte de commande dans laquelle une Trame principale d'action à effectuer par ledit robot est reliée à au moins un événement choisi dans le groupe des événements antécédents et des événements successeurs à l'action à programmer et programmée pour se dérouler selon une contrainte temporelle prédéfinie par une Timeline. 20. A method of editing and control according to one of claims 18 to 19, characterized in that its steps are performed through at least one control box in which a main action frame to be performed by said robot is connected to at least one selected event in the group of antecedent events and successor events to the action to be programmed and programmed to take place according to a temporal constraint predefined by a Timeline.
21 . Procédé d'édition et de commande selon la revendication 17, caractérisé en ce ladite étape de programmation de ladite fonction choisie comprend au moins une sous-étape de définition d'un premier canal de communication en tant que canal de réception de messages sonores et d'un deuxième canal de communication en tant que canal d'émission de messages sonores, une sous-étape de définition d'une fonction d'évaluation d'un niveau de confiance de la compréhension par ledit robot d'un premier message reçu sur ledit premier canal et une sous-étape de définition de la génération d'au moins un deuxième message sur ledit deuxième canal dont le contenu dépend dudit niveau de confiance. 21. An editing and control method according to claim 17, characterized in that said step of programming said selected function comprises at least one substep of defining a first communication channel as a sound message receiving channel and a a second communication channel as a transmission channel of sound messages, a sub-step of defining a function for evaluating a level of confidence of the understanding by said robot of a first message received on said first channel and a sub-step of defining the generation of at least one second message on said second channel whose content depends on said confidence level.
22. Procédé d'édition et de commande selon la revendication 21 , caractérisé en ce qu'il comprend en outre une sous-étape de définition d'un filtre de reconnaissance vocale des messages reçus sur le premier canal par une liste d'expressions à chacune desquelles est associé un taux de reconnaissance attendu et une sous-étape de définition du contenu dudit deuxième message par une heuristique choisie dans le groupe demande de répétition dudit premier message sur le premier canal, demande de confirmation par un troisième message à émettre par l'interlocuteur sur le premier canal d'un sous-ensemble des expressions du filtre, demande d'émission par l'interlocuteur d'au moins un autre message sur au moins un troisième canal. 22. A method of editing and control according to claim 21, characterized in that it further comprises a substep of defining a voice recognition filter messages received on the first channel by a list of expressions to each of which is associated an expected recognition rate and a sub-step of defining the content of said second message by a heuristic chosen in the request group for repetition of said first message on the first channel, confirmation request by a third message to be sent by the first message; interlocutor on the first channel of a subset of the expressions of the filter, transmission request by the interlocutor of at least one other message on at least one third channel.
23. Procédé de développement selon l'une des revendications 21 à 22, caractérisé en ce que ses étapes sont effectuées par l'intermédiaire d'au moins une Boîte de commande dans laquelle une Trame principale d'action à effectuer par ledit robot est reliée à au moins un événement choisi dans le groupe des événements antécédents et des événements successeurs à l'action à programmer et programmée pour se dérouler selon une contrainte temporelle prédéfinie par une Timeline, ladite Boîte de commande étant une Boîte de type Choix. 23. Development method according to one of claims 21 to 22, characterized in that its steps are performed via at least one control box in which a main frame of action to be performed by said robot is connected at least one event selected in the group of antecedent events and successor events to the action to be programmed and programmed to take place according to a temporal constraint predefined by a timeline, said command box being a choice type box.
24. Programme d'ordinateur comprenant des instructions de code de programme permettant l'exécution du procédé selon la revendication 17 lorsque le programme est exécuté sur un ordinateur, ledit programme étant adapté pour permettre à un utilisateur de programmer un robot humanoïde comprenant au moins deux canaux de communication naturelle de messages avec au moins un interlocuteur selon des modalités différentes, lesdits au moins deux canaux étant choisis chacun dans le groupe réception, émission, et un sous-programme de contrôle des entrées/sorties desdits canaux, ledit programme d'ordinateur étant caractérisé en ce qu'il comprend un module de programmation dans le sous-programme de contrôle d'au moins une fonction à exécuter par le robot choisie dans le groupe combinaison de messages reçus/émis sur un premier canal et sur un deuxième canal, émission d'un deuxième message généré à partir d'un premier message reçu sur un canal. A computer program comprising program code instructions for executing the method of claim 17 when the program is run on a computer, said program being adapted to allow a user to program a humanoid robot comprising at least two natural message communication channels with at least one interlocutor according to different modalities, said at least two channels being each selected from the reception group, transmission, and an input / output control subroutine of said channels, said computer program being characterized in that it comprises a programming module in the control routine of at least one function to be executed by the robot selected in the group combination of messages received / transmitted on a first channel and on a second channel, sending a second message generated from a first message received on a channel.
25. Programme d'ordinateur selon la revendication 24, caractérisé en ce qu'il comprend en outre un module pour programmer le passage d'au moins un paramètre à une Boîte de commande. 25. Computer program according to claim 24, characterized in that it further comprises a module for programming the passage of at least one parameter to a control box.
26. Programme d'ordinateur selon la revendication 24, caractérisé en ce qu'il comprend en outre un module pour programmer le retour des entrées d'un canal de communication visuel du robot dans l'interface dudit programme. 26. Computer program according to claim 24, characterized in that it further comprises a module for programming the return of the inputs of a visual communication channel of the robot in the interface of said program.
27. Programme d'ordinateur selon la revendication 24, caractérisé en ce qu'il comprend en outre un module pour programmer des comportements du robot se déroulant en parallèle. 27. Computer program according to claim 24, characterized in that it further comprises a module for programming behaviors of the robot running in parallel.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1056047A FR2963132A1 (en) | 2010-07-23 | 2010-07-23 | HUMANOID ROBOT HAVING A NATURAL DIALOGUE INTERFACE, METHOD OF USING AND PROGRAMMING THE SAME |
PCT/EP2011/061743 WO2012010451A1 (en) | 2010-07-23 | 2011-07-11 | Humanoid robot equipped with a natural dialogue interface, method for controlling the robot and corresponding program |
Publications (1)
Publication Number | Publication Date |
---|---|
EP2596493A1 true EP2596493A1 (en) | 2013-05-29 |
Family
ID=43618099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP11730675.3A Withdrawn EP2596493A1 (en) | 2010-07-23 | 2011-07-11 | Humanoid robot equipped with a natural dialogue interface,method for controlling the robot and corresponding program |
Country Status (8)
Country | Link |
---|---|
US (1) | US8942849B2 (en) |
EP (1) | EP2596493A1 (en) |
JP (2) | JP6129073B2 (en) |
KR (1) | KR101880775B1 (en) |
CN (1) | CN103119644B (en) |
BR (1) | BR112013001711A2 (en) |
FR (1) | FR2963132A1 (en) |
WO (2) | WO2012010437A1 (en) |
Families Citing this family (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
FR2962048A1 (en) * | 2010-07-02 | 2012-01-06 | Aldebaran Robotics S A | HUMANOID ROBOT PLAYER, METHOD AND SYSTEM FOR USING THE SAME |
US9566710B2 (en) | 2011-06-02 | 2017-02-14 | Brain Corporation | Apparatus and methods for operating robotic devices using selective state space training |
US10866783B2 (en) * | 2011-08-21 | 2020-12-15 | Transenterix Europe S.A.R.L. | Vocally activated surgical control system |
KR20130021943A (en) * | 2011-08-24 | 2013-03-06 | 한국전자통신연구원 | Digital mind service apparatus and method |
JP5982840B2 (en) * | 2012-01-31 | 2016-08-31 | 富士通株式会社 | Dialogue device, dialogue program, and dialogue method |
FR2989209B1 (en) | 2012-04-04 | 2015-01-23 | Aldebaran Robotics | ROBOT FOR INTEGRATING NATURAL DIALOGUES WITH A USER IN HIS BEHAVIOR, METHODS OF PROGRAMMING AND USING THE SAME |
US20130311528A1 (en) * | 2012-04-25 | 2013-11-21 | Raanan Liebermann | Communications with a proxy for the departed and other devices and services for communicaiton and presentation in virtual reality |
US20170206064A1 (en) * | 2013-03-15 | 2017-07-20 | JIBO, Inc. | Persistent companion device configuration and deployment platform |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US9764468B2 (en) | 2013-03-15 | 2017-09-19 | Brain Corporation | Adaptive predictor apparatus and methods |
US9037396B2 (en) * | 2013-05-23 | 2015-05-19 | Irobot Corporation | Simultaneous localization and mapping for a mobile robot |
US9242372B2 (en) * | 2013-05-31 | 2016-01-26 | Brain Corporation | Adaptive robotic interface apparatus and methods |
US9314924B1 (en) | 2013-06-14 | 2016-04-19 | Brain Corporation | Predictive robotic controller apparatus and methods |
US9792546B2 (en) | 2013-06-14 | 2017-10-17 | Brain Corporation | Hierarchical robotic controller apparatus and methods |
US9384443B2 (en) | 2013-06-14 | 2016-07-05 | Brain Corporation | Robotic training apparatus and methods |
JP5945732B2 (en) * | 2013-07-03 | 2016-07-05 | パナソニックIpマネジメント株式会社 | Message transmission device in electronic component mounting system |
US9579789B2 (en) | 2013-09-27 | 2017-02-28 | Brain Corporation | Apparatus and methods for training of robotic control arbitration |
JP5996603B2 (en) * | 2013-10-31 | 2016-09-21 | シャープ株式会社 | Server, speech control method, speech apparatus, speech system, and program |
US9597797B2 (en) | 2013-11-01 | 2017-03-21 | Brain Corporation | Apparatus and methods for haptic training of robots |
US9358685B2 (en) | 2014-02-03 | 2016-06-07 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
US9302393B1 (en) * | 2014-04-15 | 2016-04-05 | Alan Rosen | Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes |
EP2933070A1 (en) * | 2014-04-17 | 2015-10-21 | Aldebaran Robotics | Methods and systems of handling a dialog with a robot |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
US10279470B2 (en) | 2014-06-12 | 2019-05-07 | Play-i, Inc. | System and method for facilitating program sharing |
US9370862B2 (en) * | 2014-06-12 | 2016-06-21 | Play-i, Inc. | System and method for reinforcing programming education through robotic feedback |
EP3178040A4 (en) * | 2014-08-07 | 2018-04-04 | Okinawa Institute of Science and Technology School Corporation | Inverse reinforcement learning by density ratio estimation |
CN104267922B (en) * | 2014-09-16 | 2019-05-31 | 联想(北京)有限公司 | A kind of information processing method and electronic equipment |
US9630318B2 (en) | 2014-10-02 | 2017-04-25 | Brain Corporation | Feature detection apparatus and methods for training of robotic navigation |
CN104493827A (en) * | 2014-11-17 | 2015-04-08 | 福建省泉州市第七中学 | Intelligent cognitive robot and cognitive system thereof |
US9717387B1 (en) | 2015-02-26 | 2017-08-01 | Brain Corporation | Apparatus and methods for programming and training of robotic household appliances |
CN104951077A (en) * | 2015-06-24 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | Man-machine interaction method and device based on artificial intelligence and terminal equipment |
WO2016206643A1 (en) * | 2015-06-26 | 2016-12-29 | 北京贝虎机器人技术有限公司 | Method and device for controlling interactive behavior of robot and robot thereof |
CN106313113B (en) * | 2015-06-30 | 2019-06-07 | 芋头科技(杭州)有限公司 | The system and method that a kind of pair of robot is trained |
CN104985599B (en) * | 2015-07-20 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | Study of Intelligent Robot Control method, system and intelligent robot based on artificial intelligence |
US9828094B2 (en) * | 2015-07-26 | 2017-11-28 | John B. McMillion | Autonomous cleaning system |
US20170050320A1 (en) * | 2015-08-18 | 2017-02-23 | Behzad Nejat | Novel robotic device with a configurable behavior image |
CN105206273B (en) * | 2015-09-06 | 2019-05-10 | 上海智臻智能网络科技股份有限公司 | Voice transfer control method and system |
JP5892531B1 (en) * | 2015-11-16 | 2016-03-23 | プレンプロジェクト・ホールディングス有限会社 | Link string mapping device, link string mapping method, and program |
CN105425648A (en) * | 2016-01-11 | 2016-03-23 | 北京光年无限科技有限公司 | Portable robot and data processing method and system thereof |
CN105680972A (en) * | 2016-01-20 | 2016-06-15 | 山东大学 | Network synchronous control method of robot cluster cooperation tasks |
CN105808501A (en) * | 2016-03-09 | 2016-07-27 | 北京众星智联科技有限责任公司 | Implementation of artificial intelligence learning |
JP6726388B2 (en) * | 2016-03-16 | 2020-07-22 | 富士ゼロックス株式会社 | Robot control system |
CN109070356B (en) * | 2016-04-28 | 2022-06-28 | 富士通株式会社 | Robot |
DE102016115243A1 (en) * | 2016-04-28 | 2017-11-02 | Masoud Amri | Programming in natural language |
US11645444B2 (en) * | 2016-05-10 | 2023-05-09 | Trustees Of Tufts College | Systems and methods enabling online one-shot learning and generalization by intelligent systems of task-relevant features and transfer to a cohort of intelligent systems |
US10241514B2 (en) | 2016-05-11 | 2019-03-26 | Brain Corporation | Systems and methods for initializing a robot to autonomously travel a trained route |
US20170326443A1 (en) | 2016-05-13 | 2017-11-16 | Universal Entertainment Corporation | Gaming machine |
US9987752B2 (en) | 2016-06-10 | 2018-06-05 | Brain Corporation | Systems and methods for automatic detection of spills |
US10282849B2 (en) | 2016-06-17 | 2019-05-07 | Brain Corporation | Systems and methods for predictive/reconstructive visual object tracker |
US10239205B2 (en) * | 2016-06-29 | 2019-03-26 | International Business Machines Corporation | System, method, and recording medium for corpus curation for action manifestation for cognitive robots |
US10016896B2 (en) | 2016-06-30 | 2018-07-10 | Brain Corporation | Systems and methods for robotic behavior around moving bodies |
CN106056109A (en) * | 2016-07-30 | 2016-10-26 | 深圳市寒武纪智能科技有限公司 | Storytelling robot based on computer vision |
CN106327291A (en) * | 2016-08-10 | 2017-01-11 | 深圳市豆娱科技有限公司 | Shopping guide interaction system based on virtual reality shopping mall, and application method of shopping guide interaction system |
JP6517762B2 (en) | 2016-08-23 | 2019-05-22 | ファナック株式会社 | A robot system that learns the motion of a robot that a human and a robot work together |
JP2018067100A (en) * | 2016-10-18 | 2018-04-26 | 株式会社日立製作所 | Robot interactive system |
US10987804B2 (en) * | 2016-10-19 | 2021-04-27 | Fuji Xerox Co., Ltd. | Robot device and non-transitory computer readable medium |
US10274325B2 (en) | 2016-11-01 | 2019-04-30 | Brain Corporation | Systems and methods for robotic mapping |
US10001780B2 (en) | 2016-11-02 | 2018-06-19 | Brain Corporation | Systems and methods for dynamic route planning in autonomous navigation |
US11119722B2 (en) * | 2016-11-08 | 2021-09-14 | Sharp Kabushiki Kaisha | Movable body control apparatus and recording medium |
US10723018B2 (en) | 2016-11-28 | 2020-07-28 | Brain Corporation | Systems and methods for remote operating and/or monitoring of a robot |
US11443161B2 (en) | 2016-12-12 | 2022-09-13 | Microsoft Technology Licensing, Llc | Robot gesture generation |
JP6795387B2 (en) * | 2016-12-14 | 2020-12-02 | パナソニック株式会社 | Voice dialogue device, voice dialogue method, voice dialogue program and robot |
KR102616403B1 (en) * | 2016-12-27 | 2023-12-21 | 삼성전자주식회사 | Electronic device and method for delivering message thereof |
CN106548772A (en) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | Speech recognition test system and method |
US10377040B2 (en) | 2017-02-02 | 2019-08-13 | Brain Corporation | Systems and methods for assisting a robotic apparatus |
US10852730B2 (en) | 2017-02-08 | 2020-12-01 | Brain Corporation | Systems and methods for robotic mobile platforms |
JP6433525B2 (en) * | 2017-03-06 | 2018-12-05 | 政信 近藤 | Personal authentication device |
WO2018175291A1 (en) * | 2017-03-20 | 2018-09-27 | Ebay Inc. | Detection of mission change in conversation |
JP7002143B2 (en) * | 2017-03-21 | 2022-01-20 | 国立大学法人東京工業大学 | Communication analysis device and measurement / feedback device and interaction device used for it |
CN106920552A (en) * | 2017-03-30 | 2017-07-04 | 天津中科先进技术研究院有限公司 | Intelligent robot with high in clouds interactive function |
US10293485B2 (en) | 2017-03-30 | 2019-05-21 | Brain Corporation | Systems and methods for robotic path planning |
JP6610610B2 (en) * | 2017-04-27 | 2019-11-27 | トヨタ自動車株式会社 | Voice input / output device, wireless connection method, voice dialogue system |
JP6994292B2 (en) | 2017-05-08 | 2022-01-14 | 達闥机器人有限公司 | Robot wake-up methods, devices and robots |
CN107219849B (en) * | 2017-05-23 | 2020-04-07 | 北京理工大学 | Multi-way ball picking and serving robot control system |
US10678338B2 (en) * | 2017-06-09 | 2020-06-09 | At&T Intellectual Property I, L.P. | Determining and evaluating data representing an action to be performed by a robot |
US10569420B1 (en) | 2017-06-23 | 2020-02-25 | X Development Llc | Interfacing with autonomous devices |
WO2019032996A1 (en) * | 2017-08-10 | 2019-02-14 | Facet Labs, Llc | Oral communication device and computing architecture for processing data and outputting user feedback, and related methods |
US20200357382A1 (en) * | 2017-08-10 | 2020-11-12 | Facet Labs, Llc | Oral, facial and gesture communication devices and computing architecture for interacting with digital media content |
US10083006B1 (en) * | 2017-09-12 | 2018-09-25 | Google Llc | Intercom-style communication using multiple computing devices |
KR102128812B1 (en) * | 2017-12-11 | 2020-07-02 | 한국전자통신연구원 | Method for evaluating social intelligence of robot and apparatus for the same |
US11024294B2 (en) | 2017-12-29 | 2021-06-01 | DMAI, Inc. | System and method for dialogue management |
US11222632B2 (en) | 2017-12-29 | 2022-01-11 | DMAI, Inc. | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs |
WO2019133689A1 (en) * | 2017-12-29 | 2019-07-04 | DMAI, Inc. | System and method for selective animatronic peripheral response for human machine dialogue |
US10800039B2 (en) * | 2018-01-23 | 2020-10-13 | General Electric Company | Controlling and commanding an unmanned robot using natural interfaces |
US20190236976A1 (en) * | 2018-01-31 | 2019-08-01 | Rnd64 Limited | Intelligent personal assistant device |
WO2019160613A1 (en) | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for dynamic program configuration |
US10832118B2 (en) * | 2018-02-23 | 2020-11-10 | International Business Machines Corporation | System and method for cognitive customer interaction |
CN108161955A (en) * | 2018-03-19 | 2018-06-15 | 重庆鲁班机器人技术研究院有限公司 | Robot controller |
CN110322875A (en) * | 2018-03-29 | 2019-10-11 | 富泰华工业(深圳)有限公司 | Robot interactive system and method |
FR3080926B1 (en) * | 2018-05-04 | 2020-04-24 | Spoon | METHOD FOR CONTROLLING A PLURALITY OF EFFECTORS OF A ROBOT |
JP2021523838A (en) * | 2018-05-14 | 2021-09-09 | ボード オブ リージェンツ, ザ ユニバーシティ オブ テキサス システムBoard Of Regents, The University Of Texas System | Integrated system design for mobile work robots with social expressive ability |
JP7000253B2 (en) * | 2018-05-31 | 2022-01-19 | 国立大学法人東海国立大学機構 | Force visualization device, robot and force visualization program |
CN109003612B (en) * | 2018-06-08 | 2021-01-29 | 英业达科技有限公司 | Voice question-answer verification system and method based on artificial intelligence |
CN108942926B (en) * | 2018-06-28 | 2020-06-19 | 达闼科技(北京)有限公司 | Man-machine interaction method, device and system |
CN113727767B (en) * | 2018-10-17 | 2023-05-23 | 派拓艺(深圳)科技有限责任公司 | Machine animal splicing model |
KR102228866B1 (en) * | 2018-10-18 | 2021-03-17 | 엘지전자 주식회사 | Robot and method for controlling thereof |
JP7480706B2 (en) * | 2018-10-30 | 2024-05-10 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
CN109262617A (en) * | 2018-11-29 | 2019-01-25 | 北京猎户星空科技有限公司 | Robot control method, device, equipment and storage medium |
CN109822581A (en) * | 2018-12-08 | 2019-05-31 | 浙江国自机器人技术有限公司 | Guide method for computer room robot |
CN109889723A (en) * | 2019-01-30 | 2019-06-14 | 天津大学 | A kind of audio, video data acquisition system based on NAO robot |
CN109828568B (en) * | 2019-02-15 | 2022-04-15 | 武汉理工大学 | NAO robot ball-searching gait optimization method for RoboCup game |
US11164582B2 (en) | 2019-04-29 | 2021-11-02 | Google Llc | Motorized computing device that autonomously adjusts device location and/or orientation of interfaces according to automated assistant requests |
WO2020251074A1 (en) * | 2019-06-12 | 2020-12-17 | 엘지전자 주식회사 | Artificial intelligence robot for providing voice recognition function and operation method thereof |
CN111061370B (en) * | 2019-12-16 | 2021-07-16 | 深圳市云网万店电子商务有限公司 | Man-machine interaction device and method for intelligent equipment |
CN111694939B (en) * | 2020-04-28 | 2023-09-19 | 平安科技(深圳)有限公司 | Method, device, equipment and storage medium for intelligent robot calling |
US11907670B1 (en) | 2020-07-14 | 2024-02-20 | Cisco Technology, Inc. | Modeling communication data streams for multi-party conversations involving a humanoid |
US11875362B1 (en) | 2020-07-14 | 2024-01-16 | Cisco Technology, Inc. | Humanoid system for automated customer support |
US12118568B2 (en) | 2021-01-27 | 2024-10-15 | Cisco Technology, Inc. | Self-provisioning humanoid for automated customer support |
CN113222805B (en) * | 2021-05-08 | 2023-04-07 | 西北工业大学 | Rapid high-accuracy NAO type football robot vision processing method |
KR102519599B1 (en) * | 2021-10-29 | 2023-04-11 | 주식회사 서큘러스 | Multimodal based interaction robot, and control method for the same |
WO2023090951A1 (en) | 2021-11-19 | 2023-05-25 | Samsung Electronics Co., Ltd. | Methods and systems for suggesting an enhanced multimodal interaction |
CN114770514B (en) * | 2022-05-11 | 2024-08-27 | 北京睿知文峰教育科技有限公司 | STM 32-based artificial intelligent robot control method and device |
CN116117834A (en) * | 2023-04-11 | 2023-05-16 | 佛山宜视智联科技有限公司 | Interactive robot color changing system |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
JP2001188555A (en) * | 1999-12-28 | 2001-07-10 | Sony Corp | Device and method for information processing and recording medium |
JP2002261966A (en) * | 2000-09-08 | 2002-09-13 | Matsushita Electric Works Ltd | Communication support system and photographing equipment |
JP4765155B2 (en) * | 2000-09-28 | 2011-09-07 | ソニー株式会社 | Authoring system, authoring method, and storage medium |
WO2002029715A1 (en) * | 2000-10-03 | 2002-04-11 | Kent Ridge Digital Labs | A system, method and language for programming behaviour in synthetic creatures |
JP2004283943A (en) * | 2003-03-20 | 2004-10-14 | Sony Corp | Apparatus and method of selecting content, and robot device |
JP2004295766A (en) * | 2003-03-28 | 2004-10-21 | Sony Corp | Robot apparatus and user authentication method through robot |
EP1656620A2 (en) * | 2003-07-11 | 2006-05-17 | Sonolink Communications Systems, LLC | System and method for advanced rule creation and management within an integrated virtual workspace |
US7221928B2 (en) * | 2003-10-01 | 2007-05-22 | Laird Mark D | Mobile emergency notification system |
US20060031340A1 (en) * | 2004-07-12 | 2006-02-09 | Boban Mathew | Apparatus and method for advanced attachment filtering within an integrated messaging platform |
JP4629560B2 (en) | 2004-12-01 | 2011-02-09 | 本田技研工業株式会社 | Interactive information system |
US20060122837A1 (en) * | 2004-12-08 | 2006-06-08 | Electronics And Telecommunications Research Institute | Voice interface system and speech recognition method |
JP2006187825A (en) * | 2005-01-05 | 2006-07-20 | Yaskawa Electric Corp | Robot device and method of controlling the same |
JP2007069302A (en) * | 2005-09-07 | 2007-03-22 | Hitachi Ltd | Action expressing device |
JP2007260864A (en) * | 2006-03-29 | 2007-10-11 | Advanced Telecommunication Research Institute International | Communication robot |
JP2008052178A (en) * | 2006-08-28 | 2008-03-06 | Toyota Motor Corp | Voice recognition device and voice recognition method |
KR100827088B1 (en) * | 2006-09-07 | 2008-05-02 | 삼성전자주식회사 | Software robot apparatus |
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
JP2008241933A (en) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | Data processing device and data processing method |
US8706914B2 (en) * | 2007-04-23 | 2014-04-22 | David D. Duchesneau | Computing infrastructure |
JP2009061547A (en) * | 2007-09-06 | 2009-03-26 | Olympus Corp | Robot control system, robot, program, and information storage medium |
FR2929873B1 (en) | 2008-04-09 | 2010-09-03 | Aldebaran Robotics | CONTROL-CONTROL ARCHITECTURE OF A MOBILE ROBOT USING ARTICULATED MEMBERS |
FR2930108B1 (en) | 2008-04-09 | 2010-07-30 | Aldebaran Robotics | DISTRIBUTED COMMUNICATION SYSTEM AND METHOD COMPRISING AT LEAST ONE SERVER, AT LEAST ONE REMOTE TERMINAL, AND AT LEAST ONE MOBILE TERMINAL CAPABLE OF COMMUNICATING WITH THE REMOTE TERMINAL CONNECTING INTO NETWORK AUDIT SERVER |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
JP5334178B2 (en) * | 2009-01-21 | 2013-11-06 | クラリオン株式会社 | Speech recognition apparatus and data update method |
FR2946160B1 (en) | 2009-05-26 | 2014-05-09 | Aldebaran Robotics | SYSTEM AND METHOD FOR EDIT AND ORDER BEHAVIOR OF MOBILE ROBOT. |
CN101604204B (en) * | 2009-07-09 | 2011-01-05 | 北京科技大学 | Distributed cognitive technology for intelligent emotional robot |
-
2010
- 2010-07-23 FR FR1056047A patent/FR2963132A1/en not_active Withdrawn
-
2011
- 2011-07-08 WO PCT/EP2011/061567 patent/WO2012010437A1/en active Application Filing
- 2011-07-11 EP EP11730675.3A patent/EP2596493A1/en not_active Withdrawn
- 2011-07-11 CN CN201180045189.0A patent/CN103119644B/en not_active Expired - Fee Related
- 2011-07-11 JP JP2013520054A patent/JP6129073B2/en active Active
- 2011-07-11 BR BR112013001711A patent/BR112013001711A2/en not_active Application Discontinuation
- 2011-07-11 US US13/811,204 patent/US8942849B2/en not_active Expired - Fee Related
- 2011-07-11 KR KR1020137002968A patent/KR101880775B1/en active IP Right Grant
- 2011-07-11 WO PCT/EP2011/061743 patent/WO2012010451A1/en active Application Filing
-
2016
- 2016-09-26 JP JP2016186918A patent/JP2017041260A/en active Pending
Non-Patent Citations (2)
Title |
---|
None * |
See also references of WO2012010451A1 * |
Also Published As
Publication number | Publication date |
---|---|
US8942849B2 (en) | 2015-01-27 |
US20130218339A1 (en) | 2013-08-22 |
JP6129073B2 (en) | 2017-05-17 |
JP2017041260A (en) | 2017-02-23 |
CN103119644B (en) | 2016-01-20 |
WO2012010437A1 (en) | 2012-01-26 |
WO2012010451A1 (en) | 2012-01-26 |
KR20140000189A (en) | 2014-01-02 |
FR2963132A1 (en) | 2012-01-27 |
CN103119644A (en) | 2013-05-22 |
BR112013001711A2 (en) | 2016-05-31 |
KR101880775B1 (en) | 2018-08-17 |
JP2013539569A (en) | 2013-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2012010451A1 (en) | Humanoid robot equipped with a natural dialogue interface, method for controlling the robot and corresponding program | |
KR102306624B1 (en) | Persistent companion device configuration and deployment platform | |
US11148296B2 (en) | Engaging in human-based social interaction for performing tasks using a persistent companion device | |
CN111801730B (en) | Systems and methods for artificial intelligence driven auto-chaperones | |
EP2834811A1 (en) | Robot capable of incorporating natural dialogues with a user into the behaviour of same, and methods of programming and using said robot | |
US20170206064A1 (en) | Persistent companion device configuration and deployment platform | |
WO2018093806A1 (en) | Embodied dialog and embodied speech authoring tools for use with an expressive social robot | |
JP7260221B2 (en) | Robot interaction method and device | |
CN107430501A (en) | The competition equipment responded to speech trigger | |
WO2016011159A9 (en) | Apparatus and methods for providing a persistent companion device | |
FR2947923A1 (en) | SYSTEM AND METHOD FOR GENERATING CONTEXTUAL BEHAVIOR OF A MOBILE ROBOT | |
TW201916005A (en) | Interaction method and device | |
FR2991222A1 (en) | SYSTEM AND METHOD FOR GENERATING CONTEXTUAL MOBILE ROBOT BEHAVIOR EXECUTED IN REAL-TIME | |
WO2019161249A1 (en) | System and method for visual scene construction based on user communication | |
Li et al. | " BIRON, let me show you something": evaluating the interaction with a robot companion | |
EP4111354A1 (en) | Systems and methods for short- and long-term dialog management between a robot computing device/digital companion and a user | |
WO2018183812A1 (en) | Persistent companion device configuration and deployment platform | |
Avdic | Physical Actuation as an Alternative Approach to the Intelligibility of Smart Speakers | |
Pettersson et al. | Perspectives on Ozlab in the cloud: A literature review of tools supporting Wizard-of-Oz experimentation, including an historical overview of 1971-2013 and notes on methodological issues and supporting generic tools | |
WO2010116057A1 (en) | Mobile communication terminal, and method and device for recognizing shapes for a robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
17P | Request for examination filed |
Effective date: 20130222 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR |
|
DAX | Request for extension of the european patent (deleted) | ||
17Q | First examination report despatched |
Effective date: 20171114 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20190403 |