WO2005124738A1 - Voice dialog system and voice dialog method - Google Patents

Voice dialog system and voice dialog method Download PDF

Info

Publication number
WO2005124738A1
WO2005124738A1 PCT/JP2004/008772 JP2004008772W WO2005124738A1 WO 2005124738 A1 WO2005124738 A1 WO 2005124738A1 JP 2004008772 W JP2004008772 W JP 2004008772W WO 2005124738 A1 WO2005124738 A1 WO 2005124738A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
user
output
unit
proficiency
Prior art date
Application number
PCT/JP2004/008772
Other languages
French (fr)
Japanese (ja)
Inventor
Kazuya Nomura
Ryo Mochizuki
Hirofumi Nishimura
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to PCT/JP2004/008772 priority Critical patent/WO2005124738A1/en
Publication of WO2005124738A1 publication Critical patent/WO2005124738A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a voice dialogue system and a voice dialogue method for performing a dialogue between a system and a user using each other's voices.
  • this type of voice interaction system has a microphone that captures the input voice from the user (speaker), a speed that outputs the voice response of the system, and the input voice from the user.
  • a voice response remover that removes the voice response superimposed on the speech, a voice recognizer that takes in the output of the voice response remover and recognizes the utterance of the user, and a voice response corresponding to the recognized voice.
  • a dialogue control unit that performs selection control and a voice response unit that actually outputs a voice response to a speaker and a voice response removal unit are provided to enable a voice dialogue between the user and the system. At this time, the system has a function to recognize the user's voice even when the voice dialogue system is outputting a voice response. Open 2 0 0 1-2 9 6 No. 890).
  • the present invention has been made in order to solve such a problem, and has a new concept.
  • the user is generated by the user.
  • the microphone that converts the voice into a voice signal and the user that is input to the microphone
  • the user stands up.
  • the mortar has a proficiency determining unit that determines the proficiency level of the dialogue, and an audio output changing unit that changes the output of the system-side voice according to the proficiency level determined by the proficiency level determining unit. ing.
  • a speech dialogue system in which a speech output unit capable of outputting system-side speech to a user, and the user is generated according to the system-side speech output by the output unit.
  • the system includes a proficiency determining unit that determines the proficiency level of the spoken dialogue, and a voice output changing unit that changes the output of the system according to the proficiency level determined by the proficiency level determining unit.
  • the output of the side audio is changed between at least two output contents, at least between the detailed output contents and the simpler output contents than the detailed contents. For a user who is not familiar with the dialogue system, the system can easily understand how to use it by outputting system-side sounds with detailed output contents.
  • Speech output can be used to eliminate or reduce waiting time for smooth use.
  • the speech dialogue system according to the third invention is system-independent for the user.
  • a microphone that converts the user's voice into an m-number, and a sound unit that recognizes the user's voice that is input from the microphone. And the user's standing voice based on the voice signal converted from the user's standing voice by the microphone.
  • a proficiency determining unit that determines the proficiency level of the spoken dialogue, and a system is established based on the proficiency level determined by the proficiency level determining unit.
  • the proficiency level determination unit has a configuration in which the proficiency level determination unit determines the proficiency level using the generation timing. With this configuration, it is possible to change the output of the system-side voice according to the user's skill level in using the dialog system. In this case, the user's utterance type is used to determine the skill level. If you want to detect the sound of the channel, you can judge your proficiency by simple signal detection and calculation.
  • the speech dialogue system according to the fourth invention is system-independent for a user.
  • An audio output unit that can output the message, and a user who speaks according to the system-side audio output by the output unit.
  • the proficiency determining unit determines the degree of proficiency of the tongue, and a voice output changing unit that changes the output of the system-side voice based on the proficiency determined by the proficiency determining unit.
  • a utterance timing detection unit that detects the utterance start time as the utterance timing is provided.
  • the proficiency judgment unit starts utterance. It has a configuration in which the proficiency level is determined using the time difference between the time and the output start time of the system-side audio.
  • the voice dialogue system of the invention of claim 5 is a system in which Standing
  • An audio output unit capable of outputting audio and a user generated by the user according to the system-side audio output from the audio output unit.
  • a microphone mouth phone that converts to J ° IS and a microphone mouth phone.
  • a proficiency level determination unit for determining the proficiency level of the spoken dialogue, and a standing power change unit for changing the output of the system side voice in addition to the proficiency level determined by the proficiency level determination unit. Is entered
  • the use frequency count unit that counts the cumulative use count of the user's voice input using 53 ⁇ 4m based on the audio signal that was sent is used, and the proficiency level judgment unit starts from the use count unit. It has a structure to judge the proficiency level using the obtained cumulative use count.
  • the proficiency of using the tongue system ⁇ -It is possible to change the output of the system-side audio in the meantime. Since the used number of times of use is used, the user can detect the signal input of _, and calculate the accumulated value to obtain the number of times of use. ⁇ , Simple signal detection and calculation Will determine your proficiency
  • the speech dialogue system according to the sixth aspect of the present invention provides a system
  • An audio output unit capable of outputting audio, and a user generated by the user according to the system-side audio output from the output unit
  • Microphone that converts the message into a message, and a microphone that outputs the user's voice that is input.
  • the user's voice is converted based on the voice signal converted by the microphone.
  • a proficiency judging unit that judges the proficiency level of the spoken dialogue, and an output of the system-side voice according to the proficiency level determined by the proficiency level judging unit
  • the user using ⁇ knowledge is provided with a usage frequency measurement unit that calculates the frequency of use of voice input, and the proficiency level determination unit uses the usage level obtained from the usage frequency calculation unit to determine the level of proficiency.
  • the user can stand alone.
  • the proficiency level can be determined by simple signal detection and calculation.
  • a speech dialogue system is a speech dialogue system comprising: a sound output unit capable of outputting a voice on the system side;
  • a microphone that converts the user's voice generated by the user into a voice signal in accordance with the system-side voice output by the voice output unit, and a voice recognition of the user voice input by the microphone.
  • Voice 3 ⁇ 4 User standing based on the audio signal converted by the microphone
  • a proficiency judging unit for judging the proficiency of the spoken dialogue, and a system for changing the output of the system side sounds according to the proficiency determined by the proficiency judging unit
  • the utterance speed calculation unit that calculates the utterance speed of the user's voice using the BTS knowledge is provided.
  • the proficiency level determination unit determines the proficiency level based on the user's utterance speed obtained from the utterance speed calculation unit.
  • the speech dialogue system according to the eighth aspect of the present invention provides the system
  • a microphone that converts the user's sound generated by the user into an audio signal according to the user, and a user microphone that is input to the microphone
  • an output changing unit for changing the output of the system-side sound according to the proficiency determined by the proficiency determining unit.
  • Cumulative average that calculates the cumulative average similarity using the similarity that indicates how similar the content of one voice of the user who responded to the voice based on the voice signal is to the correct response.
  • a similarity calculation unit is provided, and the proficiency determination unit is configured to determine the proficiency using the cumulative average mussel average similarity obtained from the cumulative average similarity calculation unit.
  • the voice sounds the content of the voice iv * Then, using a threshold or the like to detect the similarity of how the recognition content of the system responds to the question of the system voice and how similar the response is to the content of the response, a threshold value is used to calculate the cumulative average value. It will be possible to judge proficiency with simple detection and calculation
  • a speech dialogue system comprises: a speech output unit capable of outputting system-side speech to a user;
  • the system output by the voice output section A microphone that converts the user's voice generated by the user according to the voice into a voice code, and a voice that recognizes the user's voice input to the microphone phone And a proficiency determination unit that determines the proficiency level of the user's voice dialogue based on the audio signal converted from the user's voice by the microphone phone, and a proficiency level determination unit. According to the proficiency level, the system can change the voice output.
  • a cumulative average recognition rate calculator In addition to having an output changing unit, based on the input audio signal, the content of the user's voice in response to the A cumulative average recognition rate calculator is used to calculate the product-average recognition rate using the recognition rate that indicates whether or not the skill has been used.
  • the proficiency level determination unit uses the cumulative average recognition rate obtained from the cumulative average recognition rate calculation unit. It has a configuration to determine the proficiency level.
  • the conversation system is capable of outputting system-side audio to the user.
  • the user output according to the voice output section and the system-side audio output from the audio output section.
  • a system judging unit according to the proficiency level determined by the proficiency level determining unit and the proficiency level determining unit
  • a voice output changing unit for changing the output of the utterance, and for determining the similarity or the recognition rate when the proficiency determining unit determines that the proficiency is lower than a predetermined value.
  • a threshold changing unit that changes the threshold so as to lower the threshold.
  • the output of the system-side speech can be changed according to the user's proficiency in using the speech dialogue system. Can be knocked according to the judgment result of the proficiency level, and the threshold value is corrected to an appropriate value to reduce the proficiency level and facilitate the user's voice recognition. This is possible.
  • a speech dialogue system includes a voice output unit capable of outputting voices of the system side to a user, and a system side output unit that outputs the voices.
  • a microphone that converts voice into a voice signal, and a user voice that is input to a microphone.
  • a voice recognition unit a proficiency determination unit that determines the proficiency level of a user's voice dialog based on a voice signal converted from a user's voice by a microphone, and a proficiency level determination unit.
  • a proficiency level determination unit and a proficiency level determination unit based on the meaning of the contents of the system-side voice output from the voice output unit to the user. Is determined.
  • the tongue-and-tongue system of the twelfth invention is capable of outputting system-side audio to a user.
  • a microphone that converts a user sound generated by the microphone into an audio signal, a sound section that recognizes the user sound input to the microphone, and a user and a _ standing voice.
  • a proficiency determining unit that determines the proficiency of a user's voice dialogue based on the voice signal converted by the microphone, and a proficiency determined by the proficiency determining unit.
  • a voice output changing unit for changing the voice output.
  • the speech dialogue system of the thirteenth invention is a stand-by system capable of outputting system-side speech to a user.
  • a microphone output phone It is input to a microphone output phone, a microphone phone that converts a user sound generated by the user into a voice signal in accordance with the system-side voice output from the voice output section, and a microphone phone.
  • the voice is converted by microphone and is
  • a lesson to judge the proficiency of the user's voice conversation based on the signal A system determination according to the proficiency level determined by the proficiency level determination section and the proficiency level determination section
  • a voice output changing unit for changing the output of the user, and a system side output from the voice output unit to the user.
  • the dictionary When the content of the voice changes, the dictionary has a configuration that switches the dictionary of the content that is predicted to generate a user according to the changed content.
  • the dictionary is switched to a dictionary that is predicted to have a possibility that the user will respond according to the content of the voice.-S), so if the dictionary is fixed, false recognition is reduced, and It is possible to grasp the response content of each user more quickly
  • the sound dialogue system of the fourteenth invention is system-independent for the user.
  • the user uttered a voice according to the voice of the
  • a microphone microphone that converts the signal into a sound signal, and a user microphone that is input to the microphone
  • the voice recognition unit is a voice ⁇
  • the proficiency determining unit that determines the proficiency of the user's voice dialogue based on the signal, and the proficiency determined by the proficiency determining unit are used to set up the system.
  • It has an output changing unit, and it stands up from the audio signal input from the microphone.
  • It has a configuration equipped with a response remover that removes the signal equivalent to the output of the device.
  • the system can be output from the output unit to the user, and the system side output from the output unit can be output.
  • the user generated the sound.
  • the user who responds to the system-side voice determines the user's level of conversation skill based on the audio signal converted by the microphone, and then determines the proficiency. It has a configuration to change the output of the system side according to the degree.
  • FIG. 1 is a block diagram showing a configuration of a voice interaction system according to a first embodiment of the present invention.
  • FIG. 2 shows a speech dialogue system according to the first and second embodiments of the present invention.
  • FIG. 3 is a block diagram showing a configuration of a voice interaction system according to a second embodiment of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a voice interaction system according to a third embodiment of the present invention.
  • FIG. 5 is a time chart showing the operation of the voice interaction system according to the third embodiment of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a voice interaction system according to a fourth embodiment of the present invention.
  • FIG. 7 is a time chart showing the operation of the voice interaction system according to the fourth embodiment of the present invention.
  • FIG. 8 is a block diagram showing a configuration of a voice interaction system according to a fifth embodiment of the present invention.
  • FIG. 9 is a time chart showing the operation of the voice interaction system according to the fifth embodiment of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a voice interaction system according to a sixth embodiment of the present invention.
  • FIG. 11 is a time chart showing the operation of the voice interaction system according to the sixth embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration of a voice interaction system according to a seventh embodiment of the present invention.
  • FIG. 13 is a time chart showing the operation of the voice interaction system according to the seventh embodiment of the present invention.
  • FIG. 14 is a block diagram showing the configuration of the voice interaction system according to the eighth embodiment of the present invention.
  • FIG. 15 is a time chart showing the operation of the voice interaction system according to the eighth embodiment of the present invention.
  • FIG. 16 is a block diagram of a speech dialogue system according to a ninth embodiment of the present invention. It is a block diagram showing the result
  • FIG. 17 shows a ninth embodiment of the present invention.
  • FIG. 18 is a block diagram showing the configuration of the speech dialogue system according to the tenth embodiment of the present invention.
  • FIG. 19 is a perspective view of a tenth embodiment of the present invention.
  • the following describes an example in which the dialogue system is applied to a force navigation device.
  • a speech dialogue system 1 is a system-independent system such as voice and response to each user.
  • a speech force (sound output unit) 20 for outputting the speech a microphone 21 for converting the speech generated by the user into an audio signal, and a microphone
  • the voice response remover 22 that removes the output-equivalent signal corresponding to Gy K output at speed 20 from the 1st issue, and the microphone 21 outputs the signal.
  • the superimposed signal is removed by the response remover 2 2 ⁇
  • a dialogue control unit 24 that selects the answer voice and controls the dialogue with the user, and responds with a message
  • Saisha Database 2 5 And a response that generates a speech response signal to be output to the speech force 20 or the speech response removal unit 22 using the data of the response speech database 25 based on the output of the dialogue control unit 24.
  • a proficiency determining section 50 for determining the proficiency level and outputting the result to the response generating section 26.
  • a voice output changing unit 60 of the present invention that changes the output of the system side voice according to the user's proficiency.
  • the voice response removing unit 22 is based on the 1 ”signal input from the microphone 21 and the response voice signal input from the response generating unit 26, for example, LMS (Least Mean quare) / Finoleta coefficient learning means 28 that adjusts the filter coefficient (impulse response) obtained using the Newton algorithm optimally while learning it.
  • Adaptive filter 2 that corrects and outputs the response voice signal
  • the voice recognition unit 23 performs acoustic processing on the voice signal input from the microphone 21 and having the superposition of the voice response reduced by the voice response removal unit 22.
  • the phoneme identification means selects and identifies the most suitable phoneme candidates based on the minimum unit of speech obtained by the sound processing means.
  • Word candidates are selected based on the data and, syntax, It has a language processing means (not shown) for executing word processing to obtain correct sentences while using linguistic information such as thought and context.
  • Tatsuhibiki processing means was example, if, LPC cepstrum preparative ram: utilizing (L 1 nea ⁇ P redictor C oefficient C epstr U m LPC coefficients of cepstrum preparative ram) or the like, inputted from the microphone Hong 2 1
  • the speech signal obtained is converted into a time-series vector notation called a feature vector, and the outline of the speech spectrum (the vector envelope) is estimated.
  • the element identification means is, for example, HMM (HiddenMarkoV
  • the speech signal is established using the sound parameters extracted by the sound processing means based on the speech.
  • the processing means uses syntax such as comparing word dictionaries in the dictionary database based on phoneme candidates to select the most likely word, and specifying connection relationships between words using a language model. It performs processing and semantic processing.
  • the dialogue control section 24 selectively controls the response content based on the content of the voice signal recognized by the voice recognition section 23 and outputs it to the response generation section 26.
  • the response generator 26 responds based on the content determined by the dialogue controller 24.
  • ⁇ Completion database 25 Generates a response voice signal using the data from the input device and outputs it to the proficiency level determination section 50 and the speaker 20.
  • the response generation unit 26 determines whether the proficiency level from the proficiency level determination unit 50 is high or low. The details determined by the interaction control unit 24 will be described later in more detail. According to one of the more detailed response contents and the more simplified response contents, the signal from J
  • the utterance start time (timing of utterance) of the user is detected based on the signal of the society.
  • the proficiency determination unit 50 is provided with a response from the response generation unit 26.
  • the time difference between the output start time of the signal and the utterance start time of the user input from the timing detection unit 27 is calculated, and this time difference is less than the set time. If so, it is determined that the user is proficient in using the voice dialogue system 1, and if the time difference is equal to or greater than the set time, it is determined that the user is not proficient in using it.
  • the upper row (a) shows the case where the user is proficient and the middle row (b) shows the case where the user is proficient and the lower row.
  • (c) shows the case in which the response generation unit 26 changes the output of the voice response and responds after the proficiency level determination unit 50 determines that the user is proficient.
  • the horizontal axis indicates the time axis in which the time elapses in the direction of the arrow.
  • the spoken dialogue system 1 outputs a guide voice S10 for asking a user about a destination, such as "Where are you?"
  • a user voice U10 indicating that the desired destination is "Yokohama I”.
  • the user voice U 10 is input to the microphone 21 and converted into a voice signal.
  • the voice signal output from the microphone 21 is guided by the voice response removing unit 22.
  • the signal equivalent to voice and the like is passed through without being subtracted, and is input to the voice recognition unit 23 and the proficiency level determination unit 50.
  • the speech recognition unit 23 recognizes the content of the user speech U 10 based on the speech signal, that is, the destination is Yokohama ⁇ , but it is not clear whether it is Yokohama city or not.
  • the control unit 24 selects the content of the next question (guidance voice) to be asked to the user. In other words, since it was recognized that the destination was Yokohama City, in order to further narrow down the destination, in Yokohama I, the level one level below “ ⁇ ” was not “Town”. Because of the “ward”, the dialog control unit 24 determines to ask which ward the destination is. Based on this determination, the response generation unit 26 outputs a voice response signal asking which zone it is.
  • the response generation unit 26 generates (voice synthesis) a voice response signal using data read from the response voice database 25 based on the signal input from the dialog control unit 24.
  • This voice response signal is sent to the filter coefficient learning means 28, the adaptive filter 29, and the utterance timing.
  • the speaker detection unit 27 it is also input to the speaker 20, and as shown in Fig. 2, the area of "Which of Yokohama City? Please tell us the name of the area.”
  • the guide and voice S20 do not simply output "Please tell me the ward name.” ”And output.
  • the system allows the user to confirm that the Yokohama system, which is the user's request, is correct.
  • the user who has heard the above guide voice emits a user voice U20 of "-Tsuzuki Ward" as the desired ward.
  • the "speak the ward name” part of the output of the guide voice S20 If you don't ask for the rest, you don't know what to do next.
  • the user starts responding with the user voice U 20, for example, as shown in the case, speak the name of the zone of the output of the guide voice S 20.
  • the sound recognition unit 23 can correct the user's voice U 20. ⁇
  • the timing detection section 27 detects the time (timing) T until the start time of U20, the first utterance of Tsuzuki-ku J, and T, and learns. Input to the degree determination unit 50.
  • the proficiency judgment unit 50 asks for the ward name from the response generation unit 26,
  • the input signal of the guided voice S 20 and the utterance timing signal of the user voice U 20 from the utterance timing detection unit 27 are input, and the output start time of the guide voice S 20 and the user voice U
  • the time difference T is calculated from the utterance start time of 20 and.
  • the time difference T becomes larger than the proficiency determination reference value, and the proficiency determination unit 50 determines that the user is not proficient in using the voice conversation system 1.
  • the response generation unit 26 outputs the above-mentioned guide voice S 20 without being changed even in the next voice conversation.
  • the guide voice S10 and the user's voice U10 are performed in the same manner as in Fig. 2 (a), followed by "Which of Yokohama City?
  • the dialogue controller 24 decides to output a voice response signal from the response generator 26 asking "Where do you name the ward?"
  • Guy K says, “Single way. • •” of S21 and the user's standing voice U20 are overlapped and input to the microphone 21.
  • the response remover 22 removes the signal corresponding to the gai voice from the signal input to the microphone 21, and the voice nw unit 23 utters the voice U 2
  • the utterance timing detector 27 detects the utterance U 20 time (Ty, Ng) of the user who wrote the song with Tsuzuki-ku J, and the proficiency determination unit 50. Enter o
  • the proficiency level judgment unit 50 asks for the ward name from the response generation unit 26.
  • the signal of the guided voice S 21 and the utterance timing signal of the user voice U 20 from the utterance timing detection unit 50 are input, and the output start time of the guide voice S 21 and the user voice U 2
  • the time difference t is calculated from the utterance start time of 0 and. In this case, the time difference t becomes smaller than the proficiency determination reference value, and the proficiency determination section 27 determines that the user has mastered the use of the voice interaction system 1.
  • the response generation unit 26 stops the output in the middle of "Which of Yokohama City" as shown in the guide voice S21, and thereafter, in this case, Please tell me the name of the ward. Do not output the J part.
  • the response generation unit 26 replaces the guide sound S 20 with the guide sound S.
  • the first embodiment of the present invention is established.
  • the tongue tongue system 1 is composed of system-side audio output such as a
  • the timing of the conversation with the society is detected to determine the user's proficiency in using the voice dialogue system 1, and the subsequent system is determined according to the proficiency.
  • the user In order to determine the degree to which the output of the system side can be changed, the user
  • the utterance of the utterance and the wing are detected and sent, so it can be detected easily.
  • the voice interaction system 2 according to the second embodiment of the present invention is based on the detection of the timing of the generation of the voice interaction system 1 according to the first embodiment shown in FIG. Instead of the proficiency judging unit 50 that judges the proficiency based only on the timing detected by the part 27, time
  • the H-32 is further increased by the proficiency level determination section 51 that determines the proficiency level by adding the data from the time-semantic database 32 to the timing.
  • the point is different from the voice dialogue system 1 in Fig. 1 o
  • the time-to-semantic database 32 responds to the utterance of Guy's voice from speed 20 and explains the meaning of Guy ⁇ ⁇ ⁇ ⁇ in the period from the time of the user's utterance start.
  • the ripeness determination unit 51 is an utterance timing detection unit 27, which is based on the time-semantic data 32 in addition to the utterance timing of the user.
  • the spoken dialogue system 2 can be used in accordance with a user's proficiency.
  • the voice dialogue system 3 is obtained from the utterance timing detection unit 27 of the sound pair 5 system 1 of the first embodiment shown in FIG. 1 and the timing detection unit 27 of this utterance pair.
  • the proficiency level determination unit 50 that determines the level of proficiency based on the social timing
  • the number of usages that stores the number of times of use of the dialogue system 3 and the number of times that the number of times of use of the mussels used by the number of usages of the dialogue system 3 are stored.
  • the difference from the spoken dialogue system 1 is that a proficiency level determination unit 52 for determining the level is provided.
  • the usage count part 3 3 adds one time to the previous cumulative usage count stored in the usage count storage part 3 4. Then, a new cumulative number of times of use is obtained, and the cumulative number of times of use is input to the number-of-uses storage section 34 and rewritten and stored, and is also input to the proficiency determination section 52. is there.
  • the proficiency level determination unit 52 determines the user proficiency level by comparing the proficiency level with a criterion value based on the cumulative usage count input from the usage count unit 33. is there. In this case, a first set value and a second set value that is larger than the first set value are provided as the criterion value for the proficiency level.
  • Fig. 5 (a) shows the case of an unskilled user
  • Fig. 5 (b) shows the case of a user who has become somewhat proficient
  • Fig. 5 (c) shows the case of a sufficiently proficient user. ing.
  • the usage count unit 33 adds the current usage count of 1 to the accumulated usage count stored in the usage count storage unit 34 each time. In addition, a new cumulative use count is obtained. The usage count unit 33 stores the new cumulative usage count in the usage count storage unit 34 and inputs the new cumulative usage count to the proficiency level determination unit 52.
  • the proficiency level determination section 52 compares the input cumulative number with a first set value and a second set value, which are criteria for proficiency level determination. If the cumulative number of times of use is smaller than the first set value, the proficiency judging unit 52 judges that the user is not proficient in using the voice dialogue system 3, and FIG. As shown, the guide voices S10 and S20 are output with the same contents as in Fig. 5 (a). In this case, the user-to-user voices U10 and U20 are the same as in the case of FIG. 5 (a).
  • the proficiency determination section 52 It is determined that the user has mastered the speech dialogue system 3 to a certain degree, and the result of this determination is input to the response generation unit 26. As a result of this input, the response generation unit 26 sets the guide voice S23 as a more omitted guide voice S23, as shown in FIG. 5 (b). For example, change to the question "Which of Yokohama City is the power of?", Omitting "Please tell me the name of the ward.”
  • the proficiency level determination section 5 2 It is determined that the user is sufficiently proficient in the system 3, and the result of the determination is input to the response generator 26.
  • the response generation unit 26 converts the content of the guide voice S 23 into a guide voice S 22 that is further omitted, as shown in FIG. 5 (c). For example, change to “Yokohama City!” And output from speaker 20.
  • the spoken dialogue system 3 determines the proficiency according to the cumulative number of uses, and according to the proficiency, the content of the system-side speech such as the guide speech. Can be changed.
  • the proficiency level is determined in three stages: unfamiliar, proficient to some extent, and proficient enough.
  • a detailed response can be made by simplifying the contents of the side audio sequentially.
  • the voice dialogue system 4 according to the fourth embodiment of the present invention shown in FIG. 6 is similar to the voice dialogue system 1 according to the first embodiment shown in FIG. Instead of having the proficiency level determination unit 50, a usage frequency calculation unit 35 that calculates the usage frequency of the user's voice interaction system 4 and a usage that stores the usage frequency obtained by the usage frequency calculation unit 35 Frequency storage
  • the proficiency level determination unit 53 is input to the usage frequency storage unit 36 to store the replacement frequency, and is also input to the proficiency level determination unit 53.
  • the user's proficiency level is determined by using the frequency of use input from 5 and comparing it with the proficiency level criterion.
  • a third set value and a fourth set value larger than this are set as criteria for judging the proficiency level.
  • Fig. 7 (a) shows the case of an unskilled user
  • Fig. 7 (b) shows the case of a user who has become somewhat proficient
  • Fig. 7 (c) shows the case of Each ripe user case is shown.
  • the usage frequency calculation unit 35 stores the new usage frequency in the usage frequency storage unit 36 and inputs the new usage frequency to the proficiency level determination unit 53.
  • the proficiency judging unit 53 is a third unit based on the input frequency of use and the criterion for judging the proficiency.
  • Fig. 5 shows the guide voices S10 and S20.
  • the proficiency determination unit 53 Determines that he / she has mastered the speech dialogue system 4 to some extent, and inputs the determination result to the response generation unit 26.
  • the answer generation unit 26, as shown in FIG. 7 (b) outputs the guide voice S23 with the contents of the guide voice S20 further omitted, as shown in FIG. 7 (b).
  • the proficiency level determination unit 3 It is determined that the user is sufficiently proficient in step 4, and the result of the determination is input to the response generator 26. This input causes a response As shown in Fig. 7 (c), the part 26 is a guide voice S22 that further omits the content of the guide voice S23. And then output from speaker 20
  • the voice interaction system 4 provides a voice interaction system capable of changing the output of the system-side voice in accordance with the user's proficiency in using the voice interaction system.
  • a voice interaction system capable of changing the output of the system-side voice in accordance with the user's proficiency in using the voice interaction system.
  • the voice dialogue system 5 is a vocal timing detection unit of the voice dialogue system 1 according to the first embodiment shown in FIG. Instead of 3 8 and the proficiency level determination section 50, an utterance rate calculation section 37 that calculates the utterance rate of the user, and an utterance rate calculation section
  • the utterance speed storage unit 30 that stores the utterance J3 ⁇ 4 degrees obtained in 37 and the proficiency determination unit 54 that determines the proficiency using the utterance speed are provided.
  • the utterance speed calculation unit 37 calculates the utterance speed at which the user utters.
  • the speech speed is, for example, (the length of the dictionary) Z (speech time, ie, s. Time interval).
  • the proficiency level determination unit 54 determines whether the user is unfamiliar or proficient depending on whether the utterance speed of the user is lower (slower) or higher (faster) than the criterion value. It is. Next, with reference to FIG. 9, the operation of the voice dialogue system 5 according to the fifth embodiment of the present invention will be described.
  • Fig. 9 (a) shows a user who is familiar with the voice dialogue system 5 and Fig. 9 (b) shows a user who is familiar with the voice dialogue system 5. Show the case.
  • the utterance speed calculation unit 37 calculates the utterance speed of the user and inputs it to the utterance speed storage unit 38 and the proficiency determination unit 54.
  • the proficiency level determination unit 54 compares the input stuttering level with the criterion value, and determines that the utterance speed is lower than the criterion value.
  • the response generator 26 sends the careful voice S 20 of the detailed contents to the speaker 20 from the speaker 20.
  • the proficiency level determination unit 54 determines that the user is proficient in the conversation system 5 in the mouth if the speech speed is higher than or equal to the determination reference value. Then, as shown in Fig. 9 (b), the guide voice S20 is changed to a simple guide voice s23 with a part of the guide voice S20 omitted, and the response generation unit 26 takes the speed 20 Output from
  • the voice interaction system 5 provides a voice interaction system capable of changing the output of the system-side voice according to the user's proficiency in using the voice interaction system. Can provide
  • the speech dialogue system As shown in FIG. 10, the speech dialogue system according to the sixth embodiment of the present invention is described.
  • the system 6 is a voice interactive system of the first embodiment shown in FIG.
  • the cumulative average similarity calculation unit 39 that calculates the cumulative average similarity based on the similarity and the similarity of the response content of the user and the response content, and the cumulative Every time the average similarity calculation unit 39 calculates a new cumulative average similarity, the cumulative average similarity storage unit 40 rewrites and stores the new cumulative average similarity, and the cumulative average similarity calculation Department
  • a proficiency level judging unit 55 for judging the level of proficiency using the cumulative average similarity input from 39 is provided is similar to the speech dialogue system 1.
  • the function of the speech recognition unit 23 is enhanced as follows.
  • the speech recognition unit 23 receives the voice of the user based on the signal received by the microphone mouth phone 21 and removed by the speech response removal unit 22 from the superposition output from the speech force 20. Is input to the dialogue control section 24 and the dialogue control section 24 or the response generation section 26 draws the above-mentioned ""-"-single voice from the input.
  • the content of the voice is input (in the figure, this signal line is omitted), and the user,
  • the content of the guide and the correct response to the guide voice are compared, and the
  • the cumulative average similarity calculator 39 calculates the similarity newly input from the speech recognizer 23 and the similarity stored in the cumulative average similarity storage 40.
  • the new average of the cumulative average similarities is calculated using the formula (for example, the sum of the recognition result similarities) / (the number of times of recognition). It is recommended to input 40 and the proficiency judgment section 55.
  • the proficiency level determination unit 55 is configured to compare the input cumulative average similarity with a criterion value and determine the proficiency level based on the level.
  • Fig. 11 (a) shows a user's use of the spoken dialogue system 6, and Fig. 11 (b) shows a user using the spoken dialogue system 6. The figure shows the case where the user is proficient.
  • the cumulative average similarity calculation unit 39 obtains the similarity obtained by the speech recognition unit 23 in response to the new use of the user's voice dialogue system 6. , And calculates a new cumulative average similarity based on the accumulated average similarity stored in the cumulative average similarity storage unit 40 and the cumulative average similarity storage unit 40. Part 5 Enter in 5 and ⁇
  • the proficiency determination unit 55 determines that the user is not proficient, and the response generation unit 2
  • the spoken dialogue system 6 depends on the user's proficiency in using the spoken dialogue system. It is possible to provide a spoken dialogue system that can change the output of speech, and it is also possible to use a cumulative average similarity that is easy to detect and calculate to determine proficiency. Become possible
  • the dialogue system 7 according to the seventh embodiment of the present invention is different from the voice dialogue system according to the first embodiment shown in FIG. 1.
  • the voice f3 ⁇ 4 section 23 recognizes the content of the user's one sound based on the signal received by the microphone 21 and the superimposed portion removed by the answer removing section 22 and recognizes the contents of the dialog section 24.
  • the user's guide from which the user is extracted from the dialogue control unit 24 or the command generation unit 26 is input, and the content of the voice is input (in FIG. (Signal lines are omitted.)
  • the cumulative average recognition rate calculation section 41 calculates the recognition rate newly input from the speech recognition section 23 and the cumulative average recognition rate up to that stored in the cumulative average recognition rate storage section 42. If the new cumulative average recognition rate is not
  • the proficiency determining section 56 is configured to compare the average recognition rate of the accumulated mussels with the criterion value and determine the proficiency based on its level.
  • Fig. 13 (a) shows the case where the user is unfamiliar with the use of the spoken dialogue system 7
  • Fig. 13 (b) shows the case where the user is not familiar with the use of the spoken dialogue system 7. Shows a case that is proficient.
  • the cumulative average cumulative average recognition rate calculation unit 41 receives the speech recognition unit 23 according to the new use of the user's speech dialogue system 7.
  • Recognition rate and cumulative average recognition rate storage unit 41
  • a new or cumulative average recognition rate is calculated based on the cumulative average recognition rate up to that stored in 42 and is input to the cumulative average recognition rate storage section 42 and the proficiency judgment section 56.
  • the proficiency level determination section 56 determines that the user is not proficient when the input cumulative average recognition rate is lower than the determination reference value, and the response generation section 26 provides a polite and detailed guide voice S 2. 0 is output from speaker 20.
  • the cumulative average recognition rate is equal to or greater than the judgment reference value, it is judged that the user is proficient, and the simple content of the guide sound is partially omitted.
  • the voice dialogue system 7 according to the seventh embodiment of the present invention is a user's proficiency in using the voice dialogue system. System audio output can be changed according to
  • the speech dialogue system 8 according to the eighth embodiment of the present invention is a speech dialogue system according to the first embodiment shown in FIG.
  • the proficiency level is determined by using one of the similarity and recognition rate obtained by the voice recognition section 23 instead of the utterance timing detection section 2 7 and the proficiency level determination section 50 of 1. If the proficiency level determined by the proficiency level determination section 57 and the proficiency level determination section 57 is lower than a predetermined value, the operation is started.
  • the threshold changing unit that changes the threshold used to determine the similarity and the recognition rate in the recognition unit 23
  • the speech recognition unit 23 uses the threshold to make a speech based on the user's voice.
  • the voice recognition unit 23 detects similarities such as how similar the user's response is to the correct response to the guide voice question.
  • the cumulative average similarity calculation unit calculates the cumulative average based on the input similarity.
  • the similarity is calculated and input to the proficiency level determination unit 57.
  • the proficiency determining unit 57 determines the proficiency using the cumulative average similarity. As a result, when it is determined that the proficiency level is low, the threshold value is reduced by the threshold value changing unit 43, so that the user who is not accustomed to using the voice dialogue system 8 can also make a speech.
  • Recognition section 23 makes recognition easier.
  • Fig. 5 (a) if the user is judged to be proficient in using the spoken dialogue system 8 by the proficiency judging unit 57, the similarity is judged by the voice ⁇ unit 23.
  • the threshold is higher than the threshold used for the determination, and the user's voice can be recognized ⁇ , but the user is not proficient in using the spoken dialogue system 8.
  • User's mouth has similarity
  • the proficiency level determination unit 57 determines that the user level is low.
  • the threshold value is lowered by the threshold value changing unit 43, and thereafter, the similarity is determined by the speech recognition unit 23 using the lowered threshold value. In this way, even a user with a low level of proficiency can use the voice recognition unit 23 to create a user-friendly environment.
  • the voice-to-speech system 8 As described above, the voice-to-speech system 8 according to the eighth embodiment of the present invention is described.
  • the speech dialogue system 9 according to the ninth embodiment of the present invention is different from the voice conversation system 9 according to the first embodiment shown in FIG.
  • the mouth determination unit 44, the speaker information identified by the speaker determination unit 44, the speech timing, the utterance timing obtained from the ring detection unit 27, and the ring information are input to the user.
  • the point that a proficiency level judging unit 58 for judging the proficiency level of the user is provided is similar to that of the dialogue system 1, and the other configuration is the same as that of the voice pair system 1.
  • the speaker information determined by the speaker determination unit 44 and the proficiency level information of the speaker determined by the proficiency level determination unit 58 are input and the s Stores information on learning for each player.
  • the speaker determination unit 4 4 uses the speaker judgment unit 44 based on the user sound U 10 uttered by the first user. Is determined from the speaker-specific proficiency storage unit. Find out proficiency level information and continue
  • the development timing detection unit 27 uses the Guy and Riko
  • the time difference between and is detected, and the proficiency level is determined by the proficiency level determination unit 58 using the time difference between and the proficiency level of the user and the user is improved. If it is determined that one is used, the level determined that the speaker's proficiency determined by the person determination unit 44 is used from an unfamiliar level is changed. To be stored. On the other hand, if the proficiency determined by using the learning timing and the proficiency is still accustomed and remains at a high level, the relevant speaker stored in the speaker-specific proficiency storage unit is used. Do not rewrite your proficiency
  • the sound dialogue system 9f determines the proficiency level with the S3 ⁇ 4 person, and changes the content according to the proficiency level of each user.
  • the system can be used to output the voice, so that the speaker can be determined at the input stage of the user's voice U10 for the voice s10. From the above, the guide sound S20 and the corresponding user
  • the level of proficiency is determined earlier and the proficiency level is determined at a later stage, and the system-side voice is output, as compared to the voice dialogue system 1 that determines the level of proficiency from U20. For example, if you want to By registering in advance, it is possible to determine whether or not the users 1 to are registered for use permission, and it is possible to limit the users of the voice interaction system 9.
  • the speech dialogue system 10 according to the tenth embodiment of the present invention is different from the voice conversation system 10 according to the first embodiment of the present invention.
  • the user's one sound generated by the user in response to the guide voice output from 0 is supplemented by the microphone 21.
  • the supplemented signal is a voiced conversation system 1 shown in FIG.
  • the utterance timing is detected by the utterance timing detection unit 27.
  • the proficiency determination unit 59 changes the content of the guide voice output from the speed 20 according to the user's proficiency determined by the responsiveness determination unit 59.
  • the dictionary is generated based on the content of the response voice signal of the response generation unit 26.
  • the switching unit 46 switches so as to select a dictionary matching the above contents from the plurality of dictionaries in the voice recognition dictionary database 45.
  • the voice u can also be output from the cocoon part 23
  • the voice dialogue system The voice dialogue system
  • a voice dialogue system that can change the output of system side sounds according to the user's proficiency / skill in using the voice dialogue system.
  • the input timing for the proficiency level determination unit 100 includes input timing, output speed, cumulative use of the mussels, cumulative average similarity, cumulative average recognition rate, and the like.
  • One of the above was used, but it is not limited to this.
  • the proficiency level is determined and stored for each content of the system-side audio, and the system-side setup determined to be proficient is stored.
  • the utterance tie detection unit 27 takes the time difference between the output start time of the system-side sound source and the utterance start time of the user's one-sided voice, but this is not necessarily limited to the start time. It is also possible to detect the time on the way and obtain the time. As described above, depending on the user's proficiency in using the voice dialogue system, the system side
  • the B-voice dialogue system and the dialogue method according to the present invention are based on the user's proficiency, in which the system and the user interact with each other by sound. It has the effect that the output of the system can be changed, and is useful as a spoken dialogue system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

A voice dialog system (1) has a speaker (20) capable of outputting a system side voice to a user, a microphone (21) for converting a voice produced by the user into a voice signal according to the system side voice outputted from the speaker (20), a section (23) for recognizing the user voice inputted to the microphone (21), a voice production timing detecting section (27) for detecting voice production timing based on the voice signal produced by converting the user voice through the microphone (21) and a response aural signal from a response generating section (26), a familiarization level judging section (50) for judging the level of familiarization of voice dialog of the user by using the voice production timing, and a voice output altering section (60) for altering the output content of the system side voice depending on the level of familiarization judged by the familiarization level judging section (50).

Description

音声対話システ ム及び音声対話方法 技術分野 明  Spoken dialogue system and spoken dialogue method
本発明は、 互いに音尸 を用いてシステム とュ一ザ一と の間で対話 を行 う 音声対話システム及び音声対話方法に関する。  The present invention relates to a voice dialogue system and a voice dialogue method for performing a dialogue between a system and a user using each other's voices.
田 背景技術  Field background technology
従来、 こ の種の音声対話システ ムは、 ユーザ一 (話者) からの入 力音声を取 り 込むマイ ク 口 ホンと 、 システムの音声応答を出力する ス ピー力 と 、 ユーザーからの入力音声に重畳された音声応答を除去 する音声応答除去部と 、 音声応答除去部の出力を取 り 込んでユーザ 一の発話内容を認識する音声認識部と 、 認識された音声に対応する 立声応答を選択制御する対話制御部と、 実際に音声応答をス ピーカ および音声応答除去部に出力する音声応答部とが設け られて、 ユー ザ一と システム と の間で音声によ る対話を可能と し、 その際、 音声 対話システムが音声応答を出力 している と きであってもユーザーか らの音声を認識でき る よ う に した くージイ ン機能を持たせたもので あつた (例えば、 特開 2 0 0 1 - 2 9 6 8 9 0 号公報参照)。  Conventionally, this type of voice interaction system has a microphone that captures the input voice from the user (speaker), a speed that outputs the voice response of the system, and the input voice from the user. A voice response remover that removes the voice response superimposed on the speech, a voice recognizer that takes in the output of the voice response remover and recognizes the utterance of the user, and a voice response corresponding to the recognized voice. A dialogue control unit that performs selection control and a voice response unit that actually outputs a voice response to a speaker and a voice response removal unit are provided to enable a voice dialogue between the user and the system. At this time, the system has a function to recognize the user's voice even when the voice dialogue system is outputting a voice response. Open 2 0 0 1-2 9 6 No. 890).
しカゝしなが ら、 こ のよ う な従来の音声対話システムでは、 パージ ィ ン機能を利用する こ と によ り 音声対話システムの使用に慣れたュ 一ザ一がシステムの音尸応答中に発声してもュ一ザ一の音声内容を 把握でき る よ う に してレ、る ものの、 その使用に慣れていないユーザ が使用でき る よ う な レベルに音声応答の出力を固定する と 、 音声 対話システムの使用に慣れたュ ザ が立 However, in such a conventional voice interactive system, a user who is accustomed to using the voice interactive system can use the purged function to respond to the sound of the system. Even if you utter the voice inside, you can grasp the voice content of the user, but fix the output of the voice response to a level that can be used by users who are not used to using it And the voice Users familiar with using the dialogue system
曰 声応答の出力の途中で発 声し始め 、 その発尸 を終了 した後にも システムから音声 )'、答が出力 され続け 、 待ち時間が生じて しまい 、 逆に の待ち時間を減らすた め音声応答の レベノレを上げる と 、 使用に慣れていなレ、ュ一ザ一が使 用 しに ぐ < なる と い う 問題力 sあ た Speaking starts in the middle of the output of the voice response, and the voice is output from the system even after terminating the speech)), the answer continues to be output, and a waiting time occurs, and conversely, the voice is reduced to reduce the waiting time increasing the Rebenore of response, Les such accustomed to use, Interview one the one is was Oh ingredients <happens when we will issue force s to use
本発明はこのよ う な問題を解決するためになされたもので 、 ュ ' ~ ザ一の立  The present invention has been made in order to solve such a problem, and has a new concept.
尸対話システム使用の習熟度に J心 じて.システム側 声の出 力を変吏可能に した音声対 舌システム及び立 ·=±=·  Be aware of the proficiency of using the dialogue system.Speech-to-lingual system with a system capable of changing voice output and standing up
曰 尸対話方法を提供する こ と を S 的とする。 発明の開示  It is S-type to provide a dialogue method. Disclosure of the invention
第 1 の発明の音声対話システムは 、 ュ一ザ一に対してシステム側 音声を出力可能な音 =■出力部と 立  The speech dialogue system of the first invention has a sound capable of outputting system-side speech to a user = ■ output unit and
曰 声出力部が出力 したシステム側 音声に従つてュ一ザ一が発尸 したュ一ザ ―立 立  According to the system-side audio output from the voice output unit, the user is generated by the user.
曰 を 曰 声信号に変換す るマイ ク ホンと 、 マィ ク 口 ホンへ入力 されたュ一ザ一立  The microphone that converts the voice into a voice signal and the user that is input to the microphone
曰 を音声 grS 成 1 る立  Say voice grS
尸 ¾部と、 ュ ' ~ザ一立  The part of the society
曰 尸 をマィ ク ホンによ り 変換し た音声信号に基づいてュ一ザ ―の立  Based on the audio signal converted from the microphone by the microphone, the user stands up.
臼 対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に応 じてシステム側音 声の出力を変更する音声出力変更部と を備えた排稱成を有している。  The mortar has a proficiency determining unit that determines the proficiency level of the dialogue, and an audio output changing unit that changes the output of the system-side voice according to the proficiency level determined by the proficiency level determining unit. ing.
この構成に り 、 ュ ' ザ一の 曰 尸対話システム使用の習熟度に応 じてシステム側音声の出力を変更可能な m 尸対話システムを提供す る こ と が可能と なる  With this configuration, it is possible to provide a dialog system in which the output of the system-side voice can be changed according to the user's proficiency in using the dialog system.
第 2 の発明の音声対話システムは 、 ュ一ザ一に対してシステム側 音声を出力可能な音声出力部と 、 臼 尸出力部が出力 したシステム側 音声に従つてュ一ザ一が発尸 したュ ザ ―立  According to a second aspect of the present invention, there is provided a speech dialogue system in which a speech output unit capable of outputting system-side speech to a user, and the user is generated according to the system-side speech output by the output unit. User-Standing
曰 を音 号に 換す るマイ ク ロ ホンと 、 マイ ク ホン 入力されたュ一ザ一 立 Convert sayings to sounds Microphone and user input from microphone
音声を 曰 ?3 認 δ成する音 ^、 部と 、 ュ一ザ一立 Say the audio? 3 Recognition δ Generated sound ^, part, and user
曰声をマィ ク ホンによ り 変換し た音声信号に基づレ、てユーザ一の立  Based on the voice signal converted by the microphone, the user's
曰声対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に応 じてシステム側 曰 尸の出力を変更する音声出力変更部と を備える と と もに 、 システム 側音声の出力の変更が、 詳細な出力内容と詳細な内容よ り 簡素な出 力内容と の少なく と も 2つの出力内容間で行われる構成を有してい こ の構成によ りゝ 本音声対話システムに習熟していなレヽ ュ 一ザ一 に対しては詳細な出力内容のシステム側音 を出力する こ と によ り 使用方法を容易に理解させゝ 立  The system includes a proficiency determining unit that determines the proficiency level of the spoken dialogue, and a voice output changing unit that changes the output of the system according to the proficiency level determined by the proficiency level determining unit. The output of the side audio is changed between at least two output contents, at least between the detailed output contents and the simpler output contents than the detailed contents. For a user who is not familiar with the dialogue system, the system can easily understand how to use it by outputting system-side sounds with detailed output contents.
本曰 対話システムに習熟したュ一ザ 一に対しては簡素な出力内容のシステム側立  For users who are familiar with the dialogue system, the system side with simple output contents
曰 声を出力する こ と によ り 待ち時間を無しにするかあるいは少なく してス ム一ズな使用を可 能とする こ と がでさ る  Speech output can be used to eliminate or reduce waiting time for smooth use.
第 3 の発明の音尸対話システムはゝ ュ一ザ一に対してシステム側 立  The speech dialogue system according to the third invention is system-independent for the user.
曰 声を出力可能な立 A voice that can output voice
曰 声出力部と 立  And voice output
曰 声出力部が出力 したシステム側 立  System side output by the voice output unit
曰 尸に従つてュ '―ザ一が発尸 したュ一ザ一 曰 尸 を m 号に変換す るマイ ク ロ ホンと 、 マイ ク ホン 入力 されたュ ザ一音声を立尸 認識する音 部と 、 ュ一ザ一立声をマィ ク 口 ホンによ り 変換し た音声信号に基づレ、てユーザ一の立 A microphone that converts the user's voice into an m-number, and a sound unit that recognizes the user's voice that is input from the microphone. And the user's standing voice based on the voice signal converted from the user's standing voice by the microphone.
曰 声対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に応 じてシス テ ム 立  A proficiency determining unit that determines the proficiency level of the spoken dialogue, and a system is established based on the proficiency level determined by the proficiency level determining unit.
側 曰 尸の出力を変更する音声出力変更部と を備える と と もに 、 入力 され た音声信号に基づレ、てユーザ一が発声する発尸 タィ ミ ングを検出す る発声タイ ング検出部を備え 、 習熟度判定部が 、 発尸 タイ ミ ング を用いて習熟度を判定する構成を有している の構成によ り 、 ユーザ一の首尸対話システム使用の習熟度に応 じてシステム側音声の出力を変更可能とする こ と ができ 、その場合、 習熟度の判定にユーザ一の発声タィ ヽングを用いる よ う に したので ュ ' ~ザ一の音 ° 尸 を検出すればよ < 、 簡単な信号検出と演算で習 熟度を判定でさ る こ と と なる And an audio output change unit that changes the output of the user, and an utterance timing detection unit that detects the timing of the utterance of the user based on the input audio signal. The proficiency level determination unit has a configuration in which the proficiency level determination unit determines the proficiency level using the generation timing. With this configuration, it is possible to change the output of the system-side voice according to the user's skill level in using the dialog system. In this case, the user's utterance type is used to determine the skill level. If you want to detect the sound of the channel, you can judge your proficiency by simple signal detection and calculation.
第 4 の発明の音声対話システムは 、 ュ一ザ一に対してシステ ム側 立  The speech dialogue system according to the fourth invention is system-independent for a user.
曰 尸を出力可能な音声出力部と、 曰 尸出力部が出力 したシステ ム側 音声に従つてユーザ一が発声したュ一ザ一 立 An audio output unit that can output the message, and a user who speaks according to the system-side audio output by the output unit.
曰 尸を音 ?=· I s号に変換す るマィ ク P ホンと 、 マイ ク 口 ホ ン 入力 されたュ ' ^~ザ一音声を音声 The microphone P-phone, which converts the sound into a sound? = · Is, and the microphone input phone,
^誠^ る音声 ¾p ¾ icrr 誠 p ¾ icrr
P P¾¾ P |Jと 、 ュ一ザ一 立  P P¾¾ P | J and the user
曰 尸 をマィ ク Π ホンによ り 変換し た音 号に基づレヽてユ ーザ一の立  Based on the sound converted from the microphone, the user's standing
曰 尸对 g舌の習熱度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に し、 してシステム側音 声の出力を変更する音声出力変更部と を備える と と もに 、 入力 され た音 号に基づレ、て発声タ イ ミ ング と してのュ ' ~ザ一の発声開始 時間を検出する発 タイ ミ ング検出部を備え 、 習熟度判定部が発声 開始時間と システ ム側音声の出力開始時間と の時間差を用いて習熟 度を判定する構成を有している。  It has a proficiency determining unit that determines the degree of proficiency of the tongue, and a voice output changing unit that changes the output of the system-side voice based on the proficiency determined by the proficiency determining unit. In addition, based on the input sound, a utterance timing detection unit that detects the utterance start time as the utterance timing is provided.The proficiency judgment unit starts utterance. It has a configuration in which the proficiency level is determined using the time difference between the time and the output start time of the system-side audio.
の構成によ り 、 ユーザ一の音尸対話システム使用の習熟度に応 With this configuration, the user's proficiency in using the conversation system can be adjusted.
- じてシステム側音声の出力を変更可能とする と ができ 、その場合、 習熟度の判定にユ ーザ一音声の発尸開始時間と音声出力部によ る シ ステム側音声出力開始時間と の時間差を用レ、る よ う に したので、 ュ -It is possible to change the output of the system-side sound in the same way, in which case the start time of the user's single sound and the start time of the system-side sound output by the sound output unit are used to determine the proficiency The time difference between the two
, _ 立 , _ Standing
一ザ 曰 声信号の入力.開始時間 と システム側 曰声の出力開始時間 と を検出 してこの時間差を演算すればよ < 、 簡単な信号検出 と演算で 習熟度を判定でき る こ と と なる。 It is possible to detect the start time of the voice signal and calculate the time difference by detecting the start time of the voice output of the system and the time difference. <It is possible to determine the proficiency level by simple signal detection and calculation. .
5 の発明の音声対話システムは 、 ュ ザ一に対してシステム側 立 The voice dialogue system of the invention of claim 5 is a system in which Standing
音声を出力可能な音尸出力部と 、 曰 声出力部が出力 したシステム側 音声に従つてユーザ一が発尸 したュ一ザ一曰 声を立 An audio output unit capable of outputting audio and a user generated by the user according to the system-side audio output from the audio output unit.
J° IS号に変換す るマイ ク 口 ホンと 、 マィ ク 口ホン 入力されたュ一ザ一音声を音声 認識する立  A microphone mouth phone that converts to J ° IS and a microphone mouth phone.
曰 尸 wひ n^o と 、 ュ · ~ザ一立  Saying w hi n ^ o and ·
曰 声 ¾ マィ ク Π ホンによ り 変換し た音声信号に基づレ、てュ ―ザ一の立  According to the voice signal converted by the microphone
曰 声対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に ) 、 じてシス テ ム側音 声の出力を変更する立 出力変更部と を備える と と もに 、 入力 され  A proficiency level determination unit for determining the proficiency level of the spoken dialogue, and a standing power change unit for changing the output of the system side voice in addition to the proficiency level determined by the proficiency level determination unit. Is entered
 Standing
た音声信号に基づいて 曰 尸 5¾ mを利用 したュ一ザ一音声入力の累積 使用回数を力 ゥン トする使用回数力 ゥン 卜部を備え 、 習熟度判定部 が、 使用回数カ ウン 部から得た累積使用回数を用いて習熟度を判 定する構成を有している The use frequency count unit that counts the cumulative use count of the user's voice input using 5¾m based on the audio signal that was sent is used, and the proficiency level judgment unit starts from the use count unit. It has a structure to judge the proficiency level using the obtained cumulative use count.
この構成によ り 、 ュ一ザ一の立  With this configuration, user standing
曰 尸対 舌システム使用の習熟度 \ - しヽ じてシステム側音声の出力を変更可能とする こ と ができ 、その場合、 習熟度の判定にユ ーザ一が音尸対 B舌システムを使用 した累積使用回 数を用いる よ う に したので、 ュ一ザ , _ 立 の信号入力を検出 しその 累積値を演算して累積使用回数を得ればよ < 、 簡単な信号検出 と演 算で習熟度を判定でさ る こ と と なる  The proficiency of using the tongue system \-It is possible to change the output of the system-side audio in the meantime. Since the used number of times of use is used, the user can detect the signal input of _, and calculate the accumulated value to obtain the number of times of use. <, Simple signal detection and calculation Will determine your proficiency
第 6 の発明の音声対話システムは 、 ュ一ザ一に対してシステム側  The speech dialogue system according to the sixth aspect of the present invention provides a system
 Standing
音声を出力可能な音尸 出力部と 、 出力部が出力 したシステム側 音声に従 てユーザ一が発尸 したュ一ザ一 立 立 An audio output unit capable of outputting audio, and a user generated by the user according to the system-side audio output from the output unit
曰 尸 を 曰 号に変換す るマイ ク α ホンと 、 マィ ク 口 ホン 入力 されたュ一ザ一音声を音声 する立  Microphone that converts the message into a message, and a microphone that outputs the user's voice that is input.
曰 尸 £ δ或部と 、 ュ ~ザ一立  Say £ δ or part, and
曰 声をマィ ク 口 ホンによ り 変換し た音声信号に基づいてュ一ザ一の立  The user's voice is converted based on the voice signal converted by the microphone.
曰 声対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に応 じてシステム側音 声の出力を 更する立  A proficiency judging unit that judges the proficiency level of the spoken dialogue, and an output of the system-side voice according to the proficiency level determined by the proficiency level judging unit
曰 尸出力変更部と を備える と と もに 、 入力 され た立 吉 In addition to having an output change unit, Tachiyoshi
曰 尸信号に基づいて立  Say based on the signal
曰 尸 μτδ識を利用 したユーザ—音声入力の使用 頻度を計算する使用頻度計赏部を備え、 習熟度判定部が 、 使用頻度 計算部から得た使用 度を用レ、て 熟度を判定する構成を有してい m こ の稱成によ り 、 ュ ザ一の立  The user using μτδ knowledge is provided with a usage frequency measurement unit that calculates the frequency of use of voice input, and the proficiency level determination unit uses the usage level obtained from the usage frequency calculation unit to determine the level of proficiency. With this structure, the user can stand alone.
曰 尸対話シス テ ム使用の習熟度 じてシステム側音声の出力を変更可能とする こ と ができ 、その場合、 習熟度の判定にユーザ が使用 した音声対話システムの使用頻度を 用レヽる よ に したので 、 ュ一ザ一立  It is possible to change the output of the system-side voice according to the level of use of the dialogue system. In this case, the frequency of use of the voice dialogue system used by the user to determine the level of skill is used. The user
曰 声の信号の入力にて本音声対話 システムの使用を検出 しその頻度を演算 して使用頻度を得ればよ く 簡単な信号検出と演算で習熟度を判定でき る こ と と なる  If the use of the spoken dialogue system is detected based on the input of the voice signal and the frequency is calculated and the frequency of use is calculated, the proficiency level can be determined by simple signal detection and calculation.
第 7 の発明の音声対話システムは 、 二一ザ一に対してシステム側 曰 声を出力可能な音 出力部と 、 立  A speech dialogue system according to a seventh aspect of the present invention is a speech dialogue system comprising: a sound output unit capable of outputting a voice on the system side;
曰声出力部が出力 したシステム側 臼 声に従つてユーザ一が発尸 したュ一ザ一音声を音声信号に変換す るマィ ク Π ホンと 、 マィ ク ホン 入力 されたユーザー音声を音声 認 ¾する立 認識部と 、 ュ一ザ一立  A microphone that converts the user's voice generated by the user into a voice signal in accordance with the system-side voice output by the voice output unit, and a voice recognition of the user voice input by the microphone. Recognition unit and user
曰 声 ¾:マイ ク ロ ホ ンによ り 変換し た音声信号に基づいてュ一ザ一の立  Voice ¾: User standing based on the audio signal converted by the microphone
曰声対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に応じてシス テ ム側音 尸の出力を変更する立  A proficiency judging unit for judging the proficiency of the spoken dialogue, and a system for changing the output of the system side sounds according to the proficiency determined by the proficiency judging unit
尸出力変更部と を備える と と もに 、 入力 され た音声信号に基づレ、て立  It has an output changing section and a
曰 BTS識を利用 したユーザー音声の発声速度 を計算する発声速度計算部を備え 習熟度判定部が、 発声速度計算 部から得たュ一ザ一の発尸速度を基に習熟度を判定する構成を有し ている  The utterance speed calculation unit that calculates the utterance speed of the user's voice using the BTS knowledge is provided.The proficiency level determination unit determines the proficiency level based on the user's utterance speed obtained from the utterance speed calculation unit. have
この構成によ り 、 ュ ―ザ一の 臼 尸対話システム使用の習熟度に応 じてシステム側音声の出力を変更可能とする こ と ができ 、その場合、 習熟度の判定にユーザ一の発尸信号を用いる よ う に したので、 た と えばユーザ の発声開始時間と発尸終了時間 と を検出 して演算すれ ばよ く 、 簡単な信号検出と演算で習熟度を判定でき る こ と と なる。 With this configuration, it is possible to change the output of the system-side voice according to the user's skill level in using the interactive system. In this case, the user is required to determine the skill level. We decided to use the social signal, so For example, it is only necessary to detect and calculate the user's utterance start time and utterance end time, and the proficiency can be determined by simple signal detection and calculation.
第 8 の発明の音尸対話システムは 、 ユーザ一に対してシステム側 立 立  The speech dialogue system according to the eighth aspect of the present invention provides the system
曰 声を出力可能な立 A voice that can output voice
曰 尸出力部と、 曰 声出力部が出力 したシステム側 立  And the system side output by the voice output unit
曰 =■に従つてュ ~ザ一が発尸 したュ一ザ一音尸 を音声信号に変換す るマイ ク ロ ホンと 、 マィ ク 口 ホンへ入力 されたユーザー立 According to ■, a microphone that converts the user's sound generated by the user into an audio signal according to the user, and a user microphone that is input to the microphone
声を音声 Voice to voice
^識する音 立 ^ Sounds to recognize
部と 、 ュ一ザ一 曰 声をマイ ク 口 ホンに り 変換し た 立  And converted the voice of User 1 into a microphone
音声信号に基づレ、てュ一ザ ―の 曰 声対話の習熟度を判定する習熟 Based on the voice signal, the user says: Skills to judge the proficiency of voice dialogue
'ス判定部と 、 習熟度判定部で判定した習熟度に応じてシステム側音 の出力を変更する 尸 出力変更部と を備える と と もに 、 入力 され た 立 And an output changing unit for changing the output of the system-side sound according to the proficiency determined by the proficiency determining unit.
音声信号に基づレ、てシステム側 曰 声に応答したユーザ一音声の内 容が正しい応答内容にどれだけ類似 しているかを表す類似度を使つ て累 ΤΆ平均類似度を計算する累積平均類似度計算部を備え 、 習熟度 判定部が、 累積平均類似度計算部から得た累禾貝平均類似度を用いて 習熟度を判定する構成を有している  Cumulative average that calculates the cumulative average similarity using the similarity that indicates how similar the content of one voice of the user who responded to the voice based on the voice signal is to the correct response. A similarity calculation unit is provided, and the proficiency determination unit is configured to determine the proficiency using the cumulative average mussel average similarity obtained from the cumulative average similarity calculation unit.
こ の構成によ り 、 ュ一ザ一の音 対話システム使用の習熟度に応 じてシステム側音声の出力 を変更 能とする こ と ができ 、その場合、 習熟度の判定にュ ザ一が使用 した音声対話システムの累積平均類 似度を用いる よ う に したので、 ュ一ザ一音声の信号入力を基にユー With this configuration, it is possible to change the output of the system-side voice according to the user's skill in using the speech dialogue system. In this case, the user can judge the skill level. Since the cumulative average similarity of the spoken dialogue system used was used, the user based on the user's voice signal input.
, 立 , Standing
ザ 曰 声の内容を音 iv *
Figure imgf000009_0001
し、 の認識内容がシステム側音声の問 いかけに対する正しレ、応答内容に どれだけ類似してレヽるかと いった 類似度を、 閾値等を利用 して検出 しその累積平均値を演算すればよ く 、 簡単な検出と演算で習熟度を判定でき る こ と と なる
The voice sounds the content of the voice iv *
Figure imgf000009_0001
Then, using a threshold or the like to detect the similarity of how the recognition content of the system responds to the question of the system voice and how similar the response is to the content of the response, a threshold value is used to calculate the cumulative average value. It will be possible to judge proficiency with simple detection and calculation
第 9 の発明の音声対話システムは 、 ユーザ一に対してシステム側 音声を出力可能な音声出力部と、 立  A speech dialogue system according to a ninth aspect of the present invention comprises: a speech output unit capable of outputting system-side speech to a user;
曰声出力部が出力 したシステム側 音声に従ってュ ' ^~ザ が発尸 したユーザ一音尸 を音尸ィ 号に変換す るマイ ク ロ ホンと 、 マ ク 口ホ ンへ入力 されたュ一ザ一音声を音尸 認識する音声 部と 、 ュ ' ザ一音声をマイ ク 口 ホンによ り 変換し た音声信号に基づいてュ一ザ一の音声対話の習熟度を判定する習熟 度判定部と 、 習熟度判定部で判定した習熟度に応 じてシステム側立 曰 声の出力を変更する立 The system output by the voice output section A microphone that converts the user's voice generated by the user according to the voice into a voice code, and a voice that recognizes the user's voice input to the microphone phone And a proficiency determination unit that determines the proficiency level of the user's voice dialogue based on the audio signal converted from the user's voice by the microphone phone, and a proficiency level determination unit. According to the proficiency level, the system can change the voice output.
曰 出力変更部と を備える と と もに 、 入力 され た音声信号に基づレ、てシステム側音声に応答 したユーザ一音声の内 容カ システム側音尸 の内容を どれだけ正確に してなされたか否 力 を表す認識率を使 て果積平均認識率を計算する累積平均認識率 計算部を備え 、 習熟度判定部が、 累積平均認識率計算部から得た累 積平均認識率を用いて習熟度を判定する構成を有している。  In addition to having an output changing unit, based on the input audio signal, the content of the user's voice in response to the A cumulative average recognition rate calculator is used to calculate the product-average recognition rate using the recognition rate that indicates whether or not the skill has been used.The proficiency level determination unit uses the cumulative average recognition rate obtained from the cumulative average recognition rate calculation unit. It has a configuration to determine the proficiency level.
こ の構成によ り 、 ュ ザ一の音声対話システム使用の習熟度に J心 じてシステム側音 の出力を変更可能とする こ と ができ 、その場合、 習熟度の判定にュ一ザ ―が使用 した音声対話システムの累積平均認 識率を用いる よ う に したので 、 ユーザ一音声の信号入力を基にュ一 ザ一音声の内 立  With this configuration, it is possible to change the output of the system-side sound in accordance with the user's proficiency in using the speech dialogue system. In this case, the user can judge the proficiency. Uses the cumulative average recognition rate of the spoken dialogue system used by the user, so that the user-independent
容を 曰 尸 ρ 卩 レ 、 こ の認識内容がシステム側音声の内 容を どれだけ認識してレ、るかといったに ¾^ヽ B¾率を 、 閾値等を利用 し て検出 しその累積平均値を演算すればよ く 、 簡単な検出と演算で習 容 ¾ 、 に 、 、 、 、 、 、 、 、 、 、 、 、 、 ¾ ¾ ¾ ¾ に に ¾ 認識 認識 認識 ¾ ¾ 認識 ¾ 認識 ¾ ¾ 認識 認識Can be calculated by simple detection and calculation.
- 熟度を判定でき る と と なる  -When you can judge your maturity
第 1 0 の発明の立  Standing of the 10th invention
曰 尸対話システムはゝ ュ一ザ一に対してシステム 側音声を出力可能な立  The conversation system is capable of outputting system-side audio to the user.
曰声出力部と 、 音声出力部が出力 したシステム 側音声に従つてュ一ザ一が発声したュ一ザ一立  The user output according to the voice output section and the system-side audio output from the audio output section.
曰声を音声信号に変換 するマイ ク ロ ホン と 、 マィ ク 口ホ ンへ入力 されたユーザ 立 一音声を 臼 尸 識す。音声 識部と 、 ュ一ザ一音声をマィ ク 口 ホ ンによ り 変 した音声信号に基づレ、てュ ' "~ザ一の音声対話の 熟度を判定する 熟度判定部と 、 習熟度判定部で判定した習熟度に応じてシステム側 立 It recognizes the microphone that converts the voice into a voice signal and the user's standing voice that is input to the microphone mouth phone. Based on the speech recognition unit and the voice signal changed by the user's voice, the user's voice is judged based on the voice proficiency of the user's voice conversation. A system judging unit according to the proficiency level determined by the proficiency level determining unit and the proficiency level determining unit
曰 尸 の出力を変更する音声出力変更部と を備える と と もに、 習熟度 判定部にて習熟度が所定値よ り も低いと判定された場合に、 類似度 または認識率を決定するための閾値を下げる よ う に閾値を変更する 閾値変更部を備えた構成を有している。 And a voice output changing unit for changing the output of the utterance, and for determining the similarity or the recognition rate when the proficiency determining unit determines that the proficiency is lower than a predetermined value. And a threshold changing unit that changes the threshold so as to lower the threshold.
の構成によ り 、 ユーザ一の音声対話システム使用の習熟度に応 じてシステム側音声の出力を変更可能とする -- と ができ、その場合、 類似度または認識率を決定するための閾値を習熟度の判定結果を応 じてフィ 一 K ノ ッ クする こ と ができ、 閾値を妥当な値に修正して習 熟度が低レ、ュ一ザ一の音声認識をも容易にする こ と が可能と なる。  According to the configuration, the output of the system-side speech can be changed according to the user's proficiency in using the speech dialogue system. Can be knocked according to the judgment result of the proficiency level, and the threshold value is corrected to an appropriate value to reduce the proficiency level and facilitate the user's voice recognition. This is possible.
第 1 1 の発明の音声対話システムは、 ュ ~ザ一に対してシステム 側 Ρ 声を出力可能な音声出力部と 、 音声出力部が出力 したシステム 側立  A speech dialogue system according to an eleventh aspect of the present invention includes a voice output unit capable of outputting voices of the system side to a user, and a system side output unit that outputs the voices.
曰 尸 従つてユーザーが発声したユ ーザ 立  According to the user,
一 曰 声を音声信号に変換 するマィ ク 口 ホンと 、 マイ ク ロホンへ入力 されたユーザー音声を音 尸 織する立  (1) A microphone that converts voice into a voice signal, and a user voice that is input to a microphone.
曰 声認識部と、 ユーザ一音声をマィ ク ロホ ンによ り 変換 した音声信号に基づいてュ一ザ一の音声対話の習熟度を判定する習 熟度判定部と 、 習熟度判定部で判定した習熟度に応じてシステム側 立  A voice recognition unit, a proficiency determination unit that determines the proficiency level of a user's voice dialog based on a voice signal converted from a user's voice by a microphone, and a proficiency level determination unit. System setup according to the mastery level
曰 の出力を変更する音声出力変更部と を備える と と もに、 習熟度 判定部が 、 ュ一ザ一に対して音声出力部が出力するシステム側音声 の内容の意味を加味して習熟度を判定する構成を有している。 And a proficiency level determination unit, and a proficiency level determination unit based on the meaning of the contents of the system-side voice output from the voice output unit to the user. Is determined.
の構成によ り 、 ユーザ一の音声対話システム使用の習熟度に応 With this configuration, it is possible to respond to the user's
- じてシステム側音声の出力を変更可能とする と ができ、その場合、 システム側立  -The audio output of the system can be changed in the
曰 声の問いかけ内容ごと にュ一ザ一の習熟度を判定する こ と がでさ 、 たと えばシステム側音声にてュ一ザ一が習熟した内容 の問レヽかけを行う 場合には簡素な内容と し、 熟していない問いか けを行 う には詳細な内容と して、 問いかけ と にその習熟度に π わせなが らシステム側音尸の出力内容を異ならせて出力する こ と が可能と なる It is possible to determine the user's proficiency level for each of the questions asked by the voice, for example, when conducting a question-and-answer question of the user's proficiency using system-side audio, simple contents And whether it ’s an unripe question It is possible to make the output contents of the system sound source different while giving π to the proficiency level at the time of asking a question as detailed contents.
第 1 2 の発明の音 目舌システ ムは 、 ユーザ一に対 して システム 側音声を出力可能な =" 出力部と ゝ 曰声出力部が出力 したシステム 側音声に従つてュ ' ~ザ一が発 したュ一ザ一音 を音声信号に変換 するマイ ク ホンと 、 マイ ク ホンへ入力 されたュ一ザ一音声を音 尸 σΕ·識する音 部と 、 ュ一ザ , _ 立声をマイ ク ホンによ り 変換 した音声信号に基づレ、てュ一ザ一の音声対話の習熟度を判定する習 熟度判定部と 、 習熟度判定部で判定した習熟度に J心 じてシステム側 立  The tongue-and-tongue system of the twelfth invention is capable of outputting system-side audio to a user. A microphone that converts a user sound generated by the microphone into an audio signal, a sound section that recognizes the user sound input to the microphone, and a user and a _ standing voice. A proficiency determining unit that determines the proficiency of a user's voice dialogue based on the voice signal converted by the microphone, and a proficiency determined by the proficiency determining unit. System side
曰 声の出力を変更する音声出力変更部と を備える と と もに 、 入力 さ れチ 7 立 吉 And a voice output changing unit for changing the voice output.
曰 尸信号に基づレ、て話者が誰であるかの認識を行う話者判定部 を備え、 習熟度判定部が話者判定部で ^kしにュ一ザ一 と に習熟 度を判定する構成を有している  It has a speaker judgment unit that recognizes who the speaker is based on the signal, and the proficiency judgment unit uses the speaker judgment unit to increase the proficiency with each user. Has a configuration to determine
こ の構成によ り 、 ュ一ザ一の立  With this configuration, user standing
曰 声対話システム使用の習熟度に応 じてシステム側音声の出力を変更可能とする こ と ができ 、その場合、 どのユ ーザ一が本音尸対目舌システムを使用 しているのかを認識して の結果認識したュ一ザ一 と に習熟度を判定しその習熟度に合つ たシステム側立  It is possible to change the output of the system side voice according to the skill level of the use of the spoken dialogue system, and in that case, it is recognized which user is using the real tongue system. The proficiency level is determined with the user who is recognized as a result of the
曰 声に変更 して出力する こ と が可能と なる  It is possible to change the voice and output it
第 1 3 の発明の音尸対話システムは 、 ユーザ一に対してシステム 側音声を出力可能な立 立  The speech dialogue system of the thirteenth invention is a stand-by system capable of outputting system-side speech to a user.
曰 尸出力部と 、 声出力部が出力 したシステム 側音声に従つてュ ザ ―が発尸 したュ一ザ一音 を音声信号に変換 するマイ ク 口 ホンと 、 マィ ク P ホンへ入力 されたュ一ザ一音声を音  It is input to a microphone output phone, a microphone phone that converts a user sound generated by the user into a voice signal in accordance with the system-side voice output from the voice output section, and a microphone phone. User sound
■=!=·  ■ =! = ·
尸 る音尸 部と 、 ュ ―ザ , _ 立 The sound section of the society
曰声をマイ ク ホンによ り 変換 しチ : 吉  The voice is converted by microphone and is
曰 尸信号に基づレ、てュ一ザ一の音声対話の 熟度を判定する習 熟度判定部と 、 習熟度判定部で判定した習熟度に応じて システム側 立 A lesson to judge the proficiency of the user's voice conversation based on the signal A system determination according to the proficiency level determined by the proficiency level determination section and the proficiency level determination section
曰 尸の出力を変更する音声出力変更部と を備える と と もに 、 曰 声出 力部からュ一ザ一に対し出力 される システム側立 And a voice output changing unit for changing the output of the user, and a system side output from the voice output unit to the user.
曰 声の内容が変化し たと さ、 変化した内容 じてュ 一ザ一が発尸する と予測される内 容の辞書 辞書を切 り 替える構成を有してレヽる When the content of the voice changes, the dictionary has a configuration that switches the dictionary of the content that is predicted to generate a user according to the changed content.
- の構成によ り 、 ュ一ザ一の音声对 §舌システム使用の習熟 /スに応 じてシステム側音声の出力を変更可能とする こ と がでさ 、その場合、 変化したシス テ ム側立  According to the configuration of-, it is possible to change the output of the system-side sound in accordance with the user's proficiency in using the tongue system, in which case the changed system Sidelines
曰声の内容に合わせてュ ' ~ザ一が応答する可能 性がめ -S) と予測される内容の辞書に切 り 替えるので、 辞 を固定し た場合に比ベ誤認識が減り 、 またュ一ザ一の応答内容をよ り 早く 把 握する こ と等が可能と なる  The dictionary is switched to a dictionary that is predicted to have a possibility that the user will respond according to the content of the voice.-S), so if the dictionary is fixed, false recognition is reduced, and It is possible to grasp the response content of each user more quickly
第 1 4 の発明の音 対話シス テ ムは、 ュ一ザ に対してシステム 側立  The sound dialogue system of the fourteenth invention is system-independent for the user.
曰声を出力可能な立  Standing that can output voice
曰声出力部と 、 音声出力部が出力 したシステム 立  Voice output unit and system output by voice output unit
側 曰声に従つてュ 一ザ一が発声したュ ' ザ , _ 立 The user uttered a voice according to the voice of the
曰 尸 を音尸信号に変換 するマ ィ ク 口ホンと 、 マ ィ ク ロホンへ入力 されたュ一ザ一立  A microphone microphone that converts the signal into a sound signal, and a user microphone that is input to the microphone
曰 尸 を音 声 η · 一 9 る音声認識部と 、 ユーザー立  The voice recognition unit is a voice η
曰 尸 をマィ ク P ホンによ り 変換 した 古  The old man who converted the gods by using Magic P-phone
曰 尸信号に基づいてュ一ザ一 の音声対話の習熟度を判定する習 熟度判定部と 、 習熟度判定部で判定した習熟度に し、してシステム側 立  The proficiency determining unit that determines the proficiency of the user's voice dialogue based on the signal, and the proficiency determined by the proficiency determining unit are used to set up the system.
尸の出力を変更する立 ^  Change the output of the social context ^
曰 尸出力変更部と を備える と と ちに 、 マ ィ ク 口 ホンから入力 された音声信号から 立  It has an output changing unit, and it stands up from the audio signal input from the microphone.
、 曰 尸 出力部が出力 したシステ ム側立 吉  The system output from the output unit, Tachiyoshi
曰 尸 の出力相当信号分を除去する 日 応答除去部を備えた構成 を有してレ、る。  It has a configuration equipped with a response remover that removes the signal equivalent to the output of the device.
の構成によ り 、 ュ一ザ一の音声対話システム使用の習 ^、 度 し、 じてシステム側音声の出力を変更可能とする こ と がでさ 、その場合、 システム側音声の出力中にユーザーが発尸 した aゝ マィ ク 口 ホン から出力 される信号がシステム側 曰 尸 とュ一ザ一音声と を重畳した 尸信号と なる ちのの 、 システム側 曰 尸に相当する信号分を除去で さ 、 ュ一ザ一曰 尸 をその除去分だけよ り 明確に認識でき る こ と と な る o With this configuration, it is possible to learn the use of the user's voice dialogue system, and then to change the output of the system side voice in that case. A ゝ Magic mouth phone created by the user Since the signal output from the system is a signal obtained by superimposing the system side and the user's voice, the signal part corresponding to the system side can be removed, and the user's side is removed. O Recognition more clearly
第 1 5 の発明の 曰 尸対話方法は 、 曰 出力部からユーザーに対し てシステム側 を出力可能であ り 、 曰 出力部が出力 したシステ ム側立  According to the fifteenth aspect of the invention, the system can be output from the output unit to the user, and the system side output from the output unit can be output.
尸に従つてュ一ザ一が発尸 したュ ―ザ一音声をマイ ク D ホン で m ?=■信号に変換し 、 マイ ク 口 ホン 入力 されたユーザー音尸 を 尸 部で 尸 SrS識 "9 る と と もに 、 システム側音声に応答するュ一 ザ一曰 がマィ ク ホンによ り 変換された音声信号に基づいてュ一 ザ一の 曰 対話の習熟度を判定した後に 判定した習熟度に応 じて システム側 尸 の出力を変更する構成を有してレヽる。  According to the society, the user generated the sound. The user's voice was converted to the m? = ■ signal by the microphone D phone, and the user sound input from the microphone mouth phone was converted to the SrS knowledge by the microphone. At the same time, the user who responds to the system-side voice determines the user's level of conversation skill based on the audio signal converted by the microphone, and then determines the proficiency. It has a configuration to change the output of the system side according to the degree.
この構成によ り 、 ュ一ザ一の 曰 対話システム使用の習熟度に じてシステム側 尸の出力を変 可能な 曰 声対話方法を提供する と が可能と なる □ 図面の簡単な 明  With this configuration, it is possible to provide a voice dialogue method that can change the output of the system side according to the user's skill in using the voice dialogue system.
本発明に係る 曰 尸対話システム及び曰 尸対話方法の特徴お び 所は 、 以下の図面とノヽに 、 後述される記載から明 らかになる 0  The features and locations of the communication system and the communication method according to the present invention will be apparent from the following description in the drawings and figures below.
第 1 図は 、 本発明の第 1 の実施の形態の音声対話シス テ ム の構成 を示したブ クク 図である。  FIG. 1 is a block diagram showing a configuration of a voice interaction system according to a first embodiment of the present invention.
第 2 図は 、 本発明の第 1 および 2 の 施の形態の音声対話シス  FIG. 2 shows a speech dialogue system according to the first and second embodiments of the present invention.
第 実  First
テムの動作を表したタィ ムチヤ に System that represents the operation of the system
第 3 図は 、 本発明の第 2 の実施の形態の音声対話シス テ ム の構成 を示 したブ P V ク 図である。 第 4 図は、 本発明の第 3 の実施の形態の音声対話システムの構成 を示したブロ ッ ク 図である。 FIG. 3 is a block diagram showing a configuration of a voice interaction system according to a second embodiment of the present invention. FIG. 4 is a block diagram showing a configuration of a voice interaction system according to a third embodiment of the present invention.
第 5 図は、 本発明の第 3 の実施の形態の音声対話システムの動作 を表したタイ ムチヤ一トである。  FIG. 5 is a time chart showing the operation of the voice interaction system according to the third embodiment of the present invention.
第 6 図は、 本発明の第 4 の実施の形態の音声対話システムの構成 を示したブロ ッ ク 図である。  FIG. 6 is a block diagram showing a configuration of a voice interaction system according to a fourth embodiment of the present invention.
第 7 図は、 本発明の第 4 の実施の形態の音声対話システムの動作 を表したタイ ムチヤ一トである。  FIG. 7 is a time chart showing the operation of the voice interaction system according to the fourth embodiment of the present invention.
第 8 図は、 本発明の第 5 の実施の形態の音声対話システムの構成 を示したブロ ッ ク 図である。  FIG. 8 is a block diagram showing a configuration of a voice interaction system according to a fifth embodiment of the present invention.
第 9 図は、 本発明の第 5 の実施の形態の音声対話システムの動作 を表したタイ ムチヤ一 トである。  FIG. 9 is a time chart showing the operation of the voice interaction system according to the fifth embodiment of the present invention.
第 1 0 図は、 本発明の第 6 の実施の形態の音声対話システムの構 成を示 したプロ ッ ク 図である。  FIG. 10 is a block diagram showing a configuration of a voice interaction system according to a sixth embodiment of the present invention.
第 1 1 図は、 本発明の第 6 の実施の形態の音声対話システムの動 作を表 したタイ ムチヤ一トである。  FIG. 11 is a time chart showing the operation of the voice interaction system according to the sixth embodiment of the present invention.
第 1 2 図は、 本発明の第 7 の実施の形態の音声対話システムの構 成を示したブロ ッ ク 図である。  FIG. 12 is a block diagram showing a configuration of a voice interaction system according to a seventh embodiment of the present invention.
第 1 3 図は、 本発明の第 7 の実施の形態の音声対話システ ムの動 作を表 したタイ ムチャー トである。  FIG. 13 is a time chart showing the operation of the voice interaction system according to the seventh embodiment of the present invention.
第 1 4 図は、 本発明の第 8 の実施の形態の音声対話システ ムの構 成を示 したブロ ッ ク図である。  FIG. 14 is a block diagram showing the configuration of the voice interaction system according to the eighth embodiment of the present invention.
第 1 5 図は、 本発明の第 8 の実施の形態の音声対話システムの動 作を表したタイ ムチヤ一トである。  FIG. 15 is a time chart showing the operation of the voice interaction system according to the eighth embodiment of the present invention.
第 1 6 図は、 本発明の第 9 の実施の形態の音声対話システムの構 成を示 したブロ ッ ク 図である FIG. 16 is a block diagram of a speech dialogue system according to a ninth embodiment of the present invention. It is a block diagram showing the result
第 1 7 図は 、 本発明の第 9 の実施の形態の立  FIG. 17 shows a ninth embodiment of the present invention.
曰 尸対話シス テ ムの動 作を表したタィ ムチャ一トである  It is a timing chart showing the operation of the dialogue system
第 1 8 図は 、 本発明の第 1 0 の実施の形態の 曰 声対話システムの 構成を示したブ口 ッ ク 図である  FIG. 18 is a block diagram showing the configuration of the speech dialogue system according to the tenth embodiment of the present invention.
第 1 9 図は 、 本発明の第 1 0 の実施の形態の立  FIG. 19 is a perspective view of a tenth embodiment of the present invention.
曰 声対話システムの 作を したタイ ムチャ一 である 発明を実施するための最良の形態  The best mode for carrying out the invention.
以下 、 本発明の実施の形態について、 図面を用いて説明する なお 、 以下の各実施の形態において実質的に |pj一な構成部分につ レヽては 、 同一の番号を付し 、 その重複する 明を省略する。 こ こで  Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following embodiments, substantially the same components as those in | pj will be denoted by the same reference numerals, and the description thereof will be repeated. The description is omitted. here
-=±=■  -= ± = ■
はゝ ζώ
曰 尸対話システムを力一ナビゲーショ ン装置に適用 した例につ さ 明する  The following describes an example in which the dialogue system is applied to a force navigation device.
第 1 図に示すよ う に 、 本発明の第 1 の実施の形態の音声対話シス テム 1 はゝ 一ザ一に対してガイ Κ音声や 応答といったシステ ム側立  As shown in FIG. 1, a speech dialogue system 1 according to a first embodiment of the present invention is a system-independent system such as voice and response to each user.
曰 尸を出力するス ピ―力 (音尸出力部 ) 2 0 と 、 ユーザーが発 した 曰 尸を音声信号に変換するマ ィ ク ロ ホン 2 1 と 、 マイ ク ロ ホン A speech force (sound output unit) 20 for outputting the speech, a microphone 21 for converting the speech generated by the user into an audio signal, and a microphone
2 1 から出力された立 2 Standing output from 1
曰 尸 1s号からス ピー力 2 0 で出力 されたガィ K 曰 に相当する出力相当信号を除去する音声応答除去部 2 2 と 、 マィ ク ホン 2 1 から出力され立  The voice response remover 22 that removes the output-equivalent signal corresponding to Gy K output at speed 20 from the 1st issue, and the microphone 21 outputs the signal.
曰 尸 ί 答除去部 2 2 にて重畳信号分を除 ≤· 口  The superimposed signal is removed by the response remover 2 2 ≤
去 して得ナ— Get away
日 尸 15 に基づさュ ~ザ —音声の発話内容を認識する立 曰 声 識部 2 3 と、 音尸認識部 2 3 で得たュ一ザ一音声の内容に基づ さ対応する i¾、答音声を選択してュ一ザ一と の対話を制御する対話制 御部 2 4 と 、 メ'し、 曰 尸 7 タ を記 した応答立  User based on Japanese Society 15 —Recognizing the contents of the utterance of the voice, the voice recognition section 23, and the corresponding i¾ based on the content of the user's voice obtained by the voice section recognition section 23, A dialogue control unit 24 that selects the answer voice and controls the dialogue with the user, and responds with a message
曰 尸データベース 2 5 と 、 対話制御部 2 4 の出力に基づさ応答音声データベース 2 5 のデ 一タを利用 してス ピー力 2 0や音尸応答除去部 2 2 に出力するため の音声応答信号を生成する応答生成部 2 6 と 、 ユーザ一の発尸 タィ ヽ ングを検出する発声タイ ヽ ング検出部 2 7 と 、 音声応答信号と上 記重畳された信号分を除去した音 信号と を用いてユーザ一の習熟 度を判定して応答生成部 2 6 へ出力する習熟度判定部 5 0 と を備え ている。 Saisha Database 2 5 And a response that generates a speech response signal to be output to the speech force 20 or the speech response removal unit 22 using the data of the response speech database 25 based on the output of the dialogue control unit 24. A generation unit 26, an utterance timing detection unit 27 for detecting the conversation timing of the user, and a voice response signal and a sound signal from which the superimposed signal has been removed are used. And a proficiency determining section 50 for determining the proficiency level and outputting the result to the response generating section 26.
なお、 対話制御部 2 4 と応答音尸 7 タベース 2 5 と応答生成部 Note that the dialogue control unit 24, the response sound database 7 and the response generation unit
2 6 と は、 ユーザ一の習熟度に応 じてシス テ ム側音声の出力を変更 する本発明の音声出力変更部 6 0 を構成する。 26 constitutes a voice output changing unit 60 of the present invention that changes the output of the system side voice according to the user's proficiency.
音声応答除去部 2 2 は、 マィ ク ホン 2 1 から入力された 曰 1"信 号と応答生成部 2 6 から入力 された応答音声信号と に基づさ 、 た と えば L M S ( L e a s t M e a n S q u a r e ) / 二ュ一 ト ン ァルゴリ ズムを利用 して得たフィ ルタ係数 (イ ンパルス応答 ) を学 習 しなが ら最適に調整する フィノレタ係数学習手段 2 8 と、 のィ ン パルス応答によ り 応答音声信号を補正して出力する適応フ ィルタ 2 The voice response removing unit 22 is based on the 1 ”signal input from the microphone 21 and the response voice signal input from the response generating unit 26, for example, LMS (Least Mean quare) / Finoleta coefficient learning means 28 that adjusts the filter coefficient (impulse response) obtained using the Newton algorithm optimally while learning it. Adaptive filter 2 that corrects and outputs the response voice signal
9 と、 マイ ク ロホン 2 1 よ り 入力 された音声信号から適応フィルタ9 and an adaptive filter from the audio signal input from microphone 21.
2 9 よ り 入力 された出力信号を減算する減算器 3 0 どを有している。 音声認識部 2 3 は、 マイ ク ホン 2 1 から入力 され音声応答除去 部 2 2 で音声応答の相当重畳分を減 した音声信号を音響処理する 立 It has a subtractor 30 for subtracting the output signal inputted from 29. The voice recognition unit 23 performs acoustic processing on the voice signal input from the microphone 21 and having the superposition of the voice response reduced by the voice response removal unit 22.
曰響処理手段 (図示せず) と 立 Symphony processing means (not shown) and standing
、 曰 響処理手段で得た音声の最小単位 を基に最もそれら しい音素候補を選びだして識別する音素識別手段 The phoneme identification means selects and identifies the most suitable phoneme candidates based on the minimum unit of speech obtained by the sound processing means.
(図示せず) と 、 本音声対話システム 1 の利用 目 的に関連する平きロ Eロ 等を記憶した辞書データべ一ス (図示せず) と、 音素認識手段で得 られた音素と辞書データ と を基に して単語の候補を選定し 、 構文、 思味、 文脈等の言語情報を利用 しなが ら正しい文章を得るための言 処理を実行する言語処理手段 (図示せず) と を有している。 (Not shown), a dictionary database (not shown) that stores flat data related to the purpose of using the spoken dialogue system 1 (not shown), and phonemes and dictionaries obtained by phoneme recognition means. Word candidates are selected based on the data and, syntax, It has a language processing means (not shown) for executing word processing to obtain correct sentences while using linguistic information such as thought and context.
なお、 立響処理手段は、 たと えば、 L P Cケプス ト ラム ( L 1 n e a Γ P r e d i c t o r C o e f f i c i e n t C e p s t r U m : 線形予測係数化ケプス ト ラム) 等を利用 して、 マイ ク ホン 2 1 から入力 された音声信号を特徴量べク トルと い う 時系列 のベク 卜ノレに変換し、 音声スぺク トルの概形 (スベタ トル包絡) を 推定する よ う に構成する。 Incidentally, Tatsuhibiki processing means was example, if, LPC cepstrum preparative ram: utilizing (L 1 nea Γ P redictor C oefficient C epstr U m LPC coefficients of cepstrum preparative ram) or the like, inputted from the microphone Hong 2 1 The speech signal obtained is converted into a time-series vector notation called a feature vector, and the outline of the speech spectrum (the vector envelope) is estimated.
 Standing
曰 素識別手段は、 たと えば H M M ( H i d d e n M a r k o V The element identification means is, for example, HMM (HiddenMarkoV
M o d e 1 : 隠れマル コ フモデル) 法等を利用 して、 入力 された 立 Mode 1: Hidden Markov model)
曰 尸を基に音響処理手段で抽出 した音響パラメ 一タ を用いて音声信 号の立 The speech signal is established using the sound parameters extracted by the sound processing means based on the speech.
曰 5し号化を行い、 予め用意してある標準音素モデルと比較し て最もそれら しい音素の候補を選び出すよ う に構成する ο  5 is performed, and the most suitable phoneme candidate is selected by comparing with a standard phoneme model prepared in advance.ο
処理手段は、 音素候補を基に して辞書データべ一ス の単語辞 書と比較し最もそれら しい単語を選択した り 、 言語モデルにて単語 間の接続関係を規定した り するな ど、 構文処理や意味処理を行 う よ ラ に構成する。  The processing means uses syntax such as comparing word dictionaries in the dictionary database based on phoneme candidates to select the most likely word, and specifying connection relationships between words using a language model. It performs processing and semantic processing.
一方 、 対話制御部 2 4 は、 音声認識部 2 3 で認識した音声信号の 内容に基づき応答内容を選択制御 して応答生成部 2 6 へ出力する よ ラ に している。  On the other hand, the dialogue control section 24 selectively controls the response content based on the content of the voice signal recognized by the voice recognition section 23 and outputs it to the response generation section 26.
応答生成部 2 6 は、 対話制御部 2 4 で決定した内容に基づき応答 The response generator 26 responds based on the content determined by the dialogue controller 24.
Θ 了一タベース 2 5 力、らのデ一タ を利用 して応答音声信号を生成 し 、 習熟度判定部 5 0 と ス ピーカ 2 0 へ出力する。 また 、 こ の応答 生成部 2 6 では、 習熟度判定部 5 0 からの習熟度の高低 Ifし
Figure imgf000018_0001
し 、 対話制御部 2 4 で決定した内容の う ち後でよ り 詳細に説明する よ う によ り 詳細な応答内容と よ り 簡略化された応答内容と の一方に応じ た J心 曰 信号 (ガイ ド音声や立
了 Completion database 25 Generates a response voice signal using the data from the input device and outputs it to the proficiency level determination section 50 and the speaker 20. In addition, the response generation unit 26 determines whether the proficiency level from the proficiency level determination unit 50 is high or low.
Figure imgf000018_0001
The details determined by the interaction control unit 24 will be described later in more detail. According to one of the more detailed response contents and the more simplified response contents, the signal from J
曰 尸応答を出力するための信号 ) を 生成する よ う に構成してある  Signal to output the response)
発声タィ ミ ング検出部 2 7 は 、 マィ ク 口ホン 2 1 から入力 された 曰 ^ IS "^"の う ちス ピ一力 2 0 から出力 されたガイ 曰 相当分を音 尸応答除去部 2 2 にて除去して得た立 , _ 立  The utterance timing detection unit 27, which is input from the microphone phone 21, outputs a corresponding part of the voice output from the voice output 20 of the ^ IS “^”. , _ Standing obtained by removing in step 2
尸信号に基づさ 、 ュ一ザ 曰 尸の発声開始時間(発声のタイ ミ ング)を検出する よ に してある o 習熟度判定部 5 0 は 、 応答生成部 2 6 からの応 立  The utterance start time (timing of utterance) of the user is detected based on the signal of the society. O The proficiency determination unit 50 is provided with a response from the response generation unit 26.
答曰 尸信号の出力 開始時間 と 、 発尸 タィ ミ ング検出部 2 7 から入力 されたュ一ザ , 立 曰 尸 の発声開始時間 と の時間差を演算 して 、 この時間差が設定時間未 満であればユーザ一が音声対話システム 1 の使用に習熟している と 判定し、 時間差が設定時間以上であれば習熟してレ、ないと判定する う に構成してある o  The time difference between the output start time of the signal and the utterance start time of the user input from the timing detection unit 27 is calculated, and this time difference is less than the set time. If so, it is determined that the user is proficient in using the voice dialogue system 1, and if the time difference is equal to or greater than the set time, it is determined that the user is not proficient in using it.
次に、 第 2 図を参照し、 本発明の第 1 の 匕  Next, with reference to FIG. 2, a first embodiment of the present invention will be described.
実施 ^  Do ^
の形 の立  Standing in the shape of
曰 対話シ ステム 1 の動作について説明する ο  He explains the operation of Dialogue System 1 ο
第 2 図において 、 上段 ( a ) はュ一ザ一が習熟してレ、なレ、ケ一ス 、 中段 ( b ) はュ一ザ一が習熟して発尸 しているケ一ス 、 下段 ( c ) はユーザ一が習熟している と習熟度判定部 5 0 が判定した後に応答 生成部 2 6 が音声応答の出力を変更 して応答してレ、るケ一スをそれ ぞれ示す o なお、 第 2 図の各段におレ、て 、 横軸は矢印の方向 時間 が経過する時間軸を示してお り 、 点線の上半部には立  In FIG. 2, the upper row (a) shows the case where the user is proficient and the middle row (b) shows the case where the user is proficient and the lower row. (c) shows the case in which the response generation unit 26 changes the output of the voice response and responds after the proficiency level determination unit 50 determines that the user is proficient. o In each row of Fig. 2, the horizontal axis indicates the time axis in which the time elapses in the direction of the arrow.
曰 尸対話システ ム 1 のガィ ド音声を、 また 、線の下半部にはュ ~ザ一の立  The guide voice of the dialogue system 1 and the lower half of the line
曰 尸 をそれ ぞれ示 してめ 。  Show each of them.
まず、 ュ一ザ一が習熟していなレ、第 2 図 ( a ) のケ一スにつき説 明する と 、 ナビゲ ―ショ ン装置の使用をュ一ザ一が希望したナ¾ Π 、 音声対話システム 1 が、 ス ピーカ 2 0 を通じてユーザーに 「どち ら までですか」 といった 目 的地に関する問いかけのガイ ド音声 S 1 0 を出力する。 このガイ ド音声 S 1 0 の出力が終了する と 、 ユーザー は、 こ の問いかけを受け、 希望の 目 的地と してた と えば 「横浜巿」 と のユーザー音声 U 1 0 を発声する。 このユーザ一音声 U 1 0 は、 マイ ク ロ ホ ン 2 1 へ入力 され、 音声信号に変換される。 First, if the user is unfamiliar with the case shown in Fig. 2 (a), the user who wishes to use the navigation device will see The spoken dialogue system 1 outputs a guide voice S10 for asking a user about a destination, such as "Where are you?" When the output of the guide voice S10 ends, the user receives this question and utters a user voice U10 indicating that the desired destination is "Yokohama I". The user voice U 10 is input to the microphone 21 and converted into a voice signal.
この場合、 ガイ ド音声 S 1 0 とユーザー音声 U 1 0 と は、 時間上 で重畳していないので、 マイ ク ロ ホン 2 1 から出力 された音声信号 は、 音声応答除去部 2 2 でガイ ド音声相当信号等を減算される こ と な く そのまま通過 して、 音声認識部 2 3 と習熟度判定部 5 0 と に入 力 される。  In this case, since the guide voice S 10 and the user voice U 10 are not superimposed in time, the voice signal output from the microphone 21 is guided by the voice response removing unit 22. The signal equivalent to voice and the like is passed through without being subtracted, and is input to the voice recognition unit 23 and the proficiency level determination unit 50.
音声認識部 2 3 では、 音声信号に基づきユーザー音声 U 1 0 の内 容、 すなわち 目的地が横浜巿である こ と を認識する も のの横浜市の いずこであるかが不明なので、 対話制御部 2 4 が、 ユーザーに対し 発すべき次の問いかけ (ガイ ド音声) の内容を選択する。 すなわち、 目 的地が横浜市である こ と までは認識されたので、 目的地を さ らに 詳細に絞 り 込むため、 横浜巿では 「巿」 の一つ下の レベルが 「町」 ではなく 「区」 である こ とから、 目 的地が どの区であるかの問いか けを行 う よ う に対話制御部 2 4 が決定する。 こ の決定に基づいて応 答生成部 2 6 が、 どの区であるかの問いかけの音声応答信号を出力 する。  The speech recognition unit 23 recognizes the content of the user speech U 10 based on the speech signal, that is, the destination is Yokohama 巿, but it is not clear whether it is Yokohama city or not. The control unit 24 selects the content of the next question (guidance voice) to be asked to the user. In other words, since it was recognized that the destination was Yokohama City, in order to further narrow down the destination, in Yokohama I, the level one level below “巿” was not “Town”. Because of the “ward”, the dialog control unit 24 determines to ask which ward the destination is. Based on this determination, the response generation unit 26 outputs a voice response signal asking which zone it is.
すなわち、 応答生成部 2 6 は、 対話制御部 2 4 から入力 された信 号を基に応答音声データベース 2 5 から読み出 したデータ を利用 し て音声応答信号を生成 (音声合成) する。 こ の音声応答信号は、 フ ィ ルタ係数学習手段 2 8 、 適応フ ィ ノレタ 2 9 、 および発声タイ ミ ン グ検出部 2 7 に入力 される と と もに、 ス ピーカ 2 0 にち入力 され、 第 2 図に示すよ う に「横浜市のどち らですか。区名をお話し下さい。」 と の区名 を問いかけるガイ ド音声 S 2 0 を出力する こ の 合、 ガ ィ ド、音声 S 2 0 は、 単に 「区名をお話し下さい。」 と 出力するだけで な < 、 ユーザーが回答した 「横浜巿」 を加えて出力する こ と によ り 、 立 That is, the response generation unit 26 generates (voice synthesis) a voice response signal using data read from the response voice database 25 based on the signal input from the dialog control unit 24. This voice response signal is sent to the filter coefficient learning means 28, the adaptive filter 29, and the utterance timing. As well as being input to the speaker detection unit 27, it is also input to the speaker 20, and as shown in Fig. 2, the area of "Which of Yokohama City? Please tell us the name of the area." In the case of outputting the guide voice S20 for asking the name, the guide and voice S20 do not simply output "Please tell me the ward name." ”And output.
曰 尸対話システム 1 がユーザ一の要望である横浜市を正し < WO レ たこ と を、 ユーザ一が確認でき る よ う に してある ο The system allows the user to confirm that the Yokohama system, which is the user's request, is correct.
上記ガイ ド音声を聞いたユーザーは、 希望する 区と して 、 た と え ば Γ - 都筑区」 とのユーザー音声 U 2 0 を発する。 のケ一スでは、 ュ一ザ一が音声対話システム 1 の使用に習熟してレ、ないので 、 上 し ガィ ド音声 S 2 0 の出力の う ち 「区名をお話」 辺 •9 り 以降の部分 まで聞かないと次に何を しなければならないのか分からなレ、 。 この ホ PI果 、 ユーザーがユーザー音声 U 2 0 で応答し始めるのは 、 たと え ば のケースに示すよ う に、 ガイ ド音声 S 2 0 の出力の Γ区名 をお 話し下」 あた り の箇所と なる。  The user who has heard the above guide voice emits a user voice U20 of "-Tsuzuki Ward" as the desired ward. In this case, since the user is not familiar with the use of the voice dialogue system 1, the "speak the ward name" part of the output of the guide voice S20 If you don't ask for the rest, you don't know what to do next. In this PI, the user starts responding with the user voice U 20, for example, as shown in the case, speak the name of the zone of the output of the guide voice S 20. Where
このと き、ス ピーカ 2 0 から出力 されたガイ ド音声 S 2 0 の「 · · · 下さい。」 とユーザー -音声 U 2 0 の 「都筑」 と が重なつてマィ ク 口 ホ ン 2 1 に入力 されるが 、 音声応答除去部 2 2 にてガイ K 立  At this time, the guide voice S20 “·······” output from the speaker 20 and the user-voice U20 “Tsuzuki” overlap and the microphone mouth phone 21 Input, but the voice response remover 22
曰 <相当分 の信号がマイ ク ロ ホン 2 1 から入力 された信号から除去されるので、 音 認識部 2 3 でュ ―ザ一音声 U 2 0 を正し < 或 "9 る こ と ができ ο  According to the comment, since a considerable amount of the signal is removed from the signal input from the microphone 21, the sound recognition unit 23 can correct the user's voice U 20. ο
また、 この と き発尸 タイ ミ ング検出部 2 7 が 「都筑区 J と レ、つた ュ ―ザ一の発声 U 2 0 の開始時間までの時間 (タイ ミ ング ) Tを検 出 し 、 習熟度判定部 5 0 へ入力する。  At this time, the timing detection section 27 detects the time (timing) T until the start time of U20, the first utterance of Tsuzuki-ku J, and T, and learns. Input to the degree determination unit 50.
習熟度判定部 5 0 は 、 応答生成部 2 6 からの区名 を問レ、かけるガ ィ ド音声 S 2 0 の信号と発声タイ ミ ング検出部 2 7 からのユーザ一 音声 U 2 0 の発声タイ ミ ング信号と が入力 され、 ガイ ド音声 S 2 0 の出力開始時間とユーザー音声 U 2 0 の発声開始時間と から これら の時間差 Tを演算する。 このケースでは、 時間差 Tが習熟度の判定 基準値よ り 大き く な り 、 習熟度判定部 5 0 では、 ユーザ一が音声対 話システム 1 の使用に習熟していないと判定する。この判定の結果、 応答生成部 2 6 は、 次回の音声対話においても上記ガイ ド音声 S 2 0 等を変更する こ と なく 出力する。 The proficiency judgment unit 50 asks for the ward name from the response generation unit 26, The input signal of the guided voice S 20 and the utterance timing signal of the user voice U 20 from the utterance timing detection unit 27 are input, and the output start time of the guide voice S 20 and the user voice U The time difference T is calculated from the utterance start time of 20 and. In this case, the time difference T becomes larger than the proficiency determination reference value, and the proficiency determination unit 50 determines that the user is not proficient in using the voice conversation system 1. As a result of this determination, the response generation unit 26 outputs the above-mentioned guide voice S 20 without being changed even in the next voice conversation.
一方、 第 2 図 ( b ) に示すよ う に、 ガイ ド音声 S 1 0 、 ユーザー 音声 U 1 0 が上記第 2 図 ( a ) と 同様に行われ、 続いて 「横浜市の どち らですか。 区名をお話下さい。」 と の問いかけの音声応答信号を 応答生成部 2 6 から出力する よ う に対話制御部 2 4 が決定しス ピー 力 2 0 からガイ ド立  On the other hand, as shown in Fig. 2 (b), the guide voice S10 and the user's voice U10 are performed in the same manner as in Fig. 2 (a), followed by "Which of Yokohama City? The dialogue controller 24 decides to output a voice response signal from the response generator 26 asking "Where do you name the ward?"
曰 を出力 し始めたちのの 、 今回ュ一ザ一が問い かけの内容が途中で分か り 、 ガイ ド音尸 S 2 1 が Γ横浜市の 」 まで 曰 声出力 された段階でュ一ザ一が 「都筑区 J と のュ一ザ一立  At this stage, the user was able to understand what he was asking, and the guide sound S21 was output up to の in Yokohama. Ichigo "Is a user with Tsuzuki Ward J
曰 声 U 2 Say U 2
0 を発 した とする ο Assume that 0 is issued ο
この と き 、 ガイ K 曰 尸 S 2 1 の 「の どち らで . • • 」 とュ一ザ一 立声 U 2 0 と が重なつてマイ ク ロ ホン 2 1 に入力 されるが 、 音声応 答除去部 2 2 にてガィ 音声相当分の信号がマィ ク ホン 2 1 に入 力 された信号から除去され、 音声 n w 部 2 3 ではュ一ザ一曰 声 U 2 At this time, Guy K says, “Single way. • •” of S21 and the user's standing voice U20 are overlapped and input to the microphone 21. The response remover 22 removes the signal corresponding to the gai voice from the signal input to the microphone 21, and the voice nw unit 23 utters the voice U 2
0 を正しく B¾ B或一 3 る こ と ができ る o 0 can be correctly written as B¾B or 1 3 o
また の と き 、 発尸 タイ ミ ング検出部 2 7 が Γ都筑区 J と レヽっ たュ ~ザ一の発声 U 2 0 の時間 (タィ 、ング ) を検出 し、 習熟度判 定部 5 0 に入力する o  At the same time, the utterance timing detector 27 detects the utterance U 20 time (Ty, Ng) of the user who wrote the song with Tsuzuki-ku J, and the proficiency determination unit 50. Enter o
習熟度判定部 5 0 は 、 応答生成部 2 6 からの区名 を問いかけるガ ィ ド音声 S 2 1 の信号と発声タイ ミ ング検出部 5 0 からのユーザー 音声 U 2 0 の発声タイ ミ ング信号と が入力 され、 ガイ ド音声 S 2 1 の出力開始時間とユーザー音声 U 2 0 の発声開始時間と から これら の時間差 t を演算する。 このケース では、 時間差 t が習熟度の判定 基準値よ り 小さ く な り 、 習熟度判定部 2 7 では、 ユーザーが音声対 話システム 1 の使用に習熟したと判定する。 こ の判定の結果、 応答 生成部 2 6 は、 ガイ ド音声 S 2 1 に示すよ う に 「横浜市の どち らで」 と いつた途中でその出力を中止し 、 以降こ のケ スでは 「ですか。 区名をお話し下さい J の部分を出力 しないよ 'う \こする。 The proficiency level judgment unit 50 asks for the ward name from the response generation unit 26. The signal of the guided voice S 21 and the utterance timing signal of the user voice U 20 from the utterance timing detection unit 50 are input, and the output start time of the guide voice S 21 and the user voice U 2 The time difference t is calculated from the utterance start time of 0 and. In this case, the time difference t becomes smaller than the proficiency determination reference value, and the proficiency determination section 27 determines that the user has mastered the use of the voice interaction system 1. As a result of this determination, the response generation unit 26 stops the output in the middle of "Which of Yokohama City" as shown in the guide voice S21, and thereafter, in this case, Please tell me the name of the ward. Do not output the J part.
そ して のュ一ザ ―が音声対話システム 1 を次に使用する と き は 、 第 2 図 ( C ) に示すよ う に、 ガイ ド音声 S 1 0 、 ユーザ一音声 When the user next uses the voice dialogue system 1, as shown in FIG. 2 (C), the guide voice S10 and the user voice
U 1 0 が上記第 2 図 ( a ) と 同 %に行われた後は 、 応答生成部 2 6 が 、 ガィ ド音尸 S 2 0 に代えてこの内容をよ り省略したガイ ド音声After U 10 is performed at the same percentage as that in FIG. 2 (a), the response generation unit 26 replaces the guide sound S 20 with the guide sound S.
S 2 2 、 すなわち Γ横浜巿 ! 」 と 出力する。 ュ一ザ一は、 音声対話 システム 1 に習熟しているので、 上記ガイ ド立 S2 2, namely {Yokohama}! Is output. Since the user is familiar with the spoken dialogue system 1, the above guide
曰 S 2 2 を聞いただ けで Γ都筑区 J と レ、 たュ ' ~ザ一音声 U 2 0 を発し 、 これを受けて 立  Just listening to S22, ΓTsuzuki-ku J and 、, ュ '-The one voice U20 was issued and received
曰 尸対話システム 1 ち Γ都筑区 ! 」 と いった次ぎのよ り 省略したガ ィ ド、立 Saisha Dialogue System 1 Γ Tsuzuki Ward! A more abbreviated guide,
曰 S 3 0 を出力 し τい < 。 このよ う に 、 ュ一ザ一が音声対話 システム 1 に 立  It outputs S 30 and says τ <. In this way, the user starts the speech dialogue system 1.
習熟したと判定された後は、 ガィ ド、 尸や音声応答と レヽつたシステム側立  After it is determined that you are familiar with the system, you will be guided by the system
曰 尸がよ り 省略された内容 と変更されて出力 さ - れる と になる o  The output will be changed and output will be changed to a more abbreviated content o
以上のよ う に 、 本発明の第 1 の実施の形態の立  As described above, the first embodiment of the present invention is established.
曰 対言舌システム 1 は 、 ガィ 卜、立曰 等のシステム側音声の出力 と これに応答するユーザ 一の立  The tongue tongue system 1 is composed of system-side audio output such as a
尸発尸 と のタィ 、 ングを検出 してユ ーザ一の当該音声対話シ ステム 1 の使用の 熟度を判定し 、 習熟度に応じてそれ以降のシス テム側 尸の出力を変更する こ と がで る の習 m度の判定にあ たつては 、 ュ一ザ一 古 The timing of the conversation with the society is detected to determine the user's proficiency in using the voice dialogue system 1, and the subsequent system is determined according to the proficiency. In order to determine the degree to which the output of the system side can be changed, the user
曰 尸の発声タィ 、ヽングを検出 して行つてレヽるの で 、 簡単にその検出がでさ る  The utterance of the utterance and the wing are detected and sent, so it can be detected easily.
次に 、 第 3 図を参照 し 本発明の第 2 の実施の形態の音声対話シ ステム 2 の構成について 明する  Next, the configuration of a voice interaction system 2 according to a second embodiment of the present invention will be described with reference to FIG.
第 3 図に示すよ う に、 本発明の第 2 の実施の形態の 声対話シス テム 2 は 、 第 1 図に示した第 1 の実施の形態の音声対話システム 1 の発尸 タィ ヽング検出部 2 7 で検出 した発尸 タィ ミ ングのみによ り 熟度を判定する習熟度判定部 5 0 に代えて 、 時間 ―思味データべ As shown in FIG. 3, the voice interaction system 2 according to the second embodiment of the present invention is based on the detection of the timing of the generation of the voice interaction system 1 according to the first embodiment shown in FIG. Instead of the proficiency judging unit 50 that judges the proficiency based only on the timing detected by the part 27, time
■―ス 3 2 と 、 こ の 時間 ―意味デ一タベ ス 3 2 からのテ タ を発 尸 タィ ミ ングに加味して習熟度を判定する習熟度判定部 5 1 と をさ らに H けた点が第 1 図の 曰 声対話システム 1 と相違している o The H-32 is further increased by the proficiency level determination section 51 that determines the proficiency level by adding the data from the time-semantic database 32 to the timing. The point is different from the voice dialogue system 1 in Fig. 1 o
時間一意味データベ ―ス 3 2 は 、 ス ピ一力 2 0 からガイ 曰 声を 発した場合にこれに 答するュ ―ザ一曰 の発尸開始時間までの間 における 当該ガイ Κ 曰 の意味を把握するための了 タベ一ス であ 熟度判定部 5 1 は 発声タィ ミ ング検出部 2 7 で ュ一ザ一 の発声タイ ミ ングに加え 時間 ―意味デ一タベ一ス 3 2 を基にュ ' ザ ―力 応答して発尸するまでのガィ ド 尸 の 味を加味してュ一ザ 一の習熟度を判定する すなわち 、 上記ガィ ド、 曰 の意味を加味す る と によ り 、 例えばどの問い 1=1 わせのガィ K 尸に合つた 答を ュ一ザ一が実行してレ、るのかもチェ ッ クする こ と によ り 、 ュ一ザ一 の習熟を把握する よ う に構成してある  The time-to-semantic database 32 responds to the utterance of Guy's voice from speed 20 and explains the meaning of Guy に お け る in the period from the time of the user's utterance start. The ripeness determination unit 51 is an utterance timing detection unit 27, which is based on the time-semantic data 32 in addition to the utterance timing of the user. User's power The skill of the user is determined by taking into account the taste of the guide until responding, and the taste is determined. That is, the above guide, taking into account the meaning of For example, by grasping the user's proficiency by checking whether the user executes the answer that matches the question 1 = 1 Are configured to
上 g己; 発明の第 2 の実施の形態の音尸対話システム 2 の動作は、 The operation of the dialog system 2 according to the second embodiment of the present invention is as follows.
2 図のタイ ムチャ ―卜 と 同 ¾と なるが 習熟度判定部 5 1 で第 2 図 ( b ) のュ一ザ 立 2 Same as the timing chart in Fig. 2, but the second Figure (b)
7° U 2 0 の内容がガィ ド音声 s 2 1 で問レ、か けている内容に合つてレ、るかを判断している点が第 1 図の音 対話 システム 1 の動作と相连するだけである  The fact that the content of 7 ° U 20 is interrogated by the guide voice s 21, and whether or not it matches the content being spoken, is in agreement with the operation of the sound dialogue system 1 in Fig. 1. Just do
以上のよ に、 本発明の第 2 の実施の形態の音声対話システム 2 は 、 ュ ―ザ一の習熟度に a わせてガィ 立  As described above, the spoken dialogue system 2 according to the second embodiment of the present invention can be used in accordance with a user's proficiency.
卜 曰 尸等の システム側立  Uto says the system side of the society
曰 尸 を - 出力する と がでさゝ 習熟していなレ、ュ ' ~ザ一には詳細な内容で出 力する と で使用方法を分かり やす < し、 また習熟したュ一ザ一に は上記内容を省略した簡素な内容で出力する こ と で分かり き つたガ ィ 曰 を長 と 聞さなが ら次ぎのシステム側音声の出力を待つ必 要をな < しスム一ズな対応を可能とする こ と がでさ る よ う になる そ して 、 ュ一ザ一の習熟度を判定する 口 に 、 システム側音尸によ る問レ、かけの内容とュ一ザ ―音声による応答の内容と が合つている と ち発尸 タィ ミ ングと併せ する こ と がでさ る こ と から 、 第 If you are unfamiliar with the output, it is easy for you to understand how to use it. It is not necessary to wait for the output of the next system-side audio while listening to the Guy who can be understood by outputting simple contents that omit the above contents. Then, in the mouth to judge the user's proficiency level, a question by the system side sound, the contents of the call and the user's voice response Since the contents of the above are combined, it can be combined with the timing of the source.
1 図の立 1 Standing figure
曰 尸対話システム 1 よ り さ らに習熟度判定の精度を向上させ る こ と が可能と なる  It is possible to further improve the accuracy of the proficiency level judgment with the dialog system 1
次に 、 第 4 図を参照 し 本発明の第 3 の実施の形態の音声対話シ ステム 3 の構成について Ski明する。  Next, with reference to FIG. 4, the ski configuration of the voice interaction system 3 according to the third embodiment of the present invention will be described.
第 4 図に示すよ に 、 本発明の第 3 の実施の形態の立  As shown in FIG. 4, a third embodiment of the present invention is described.
曰 声対話シス テム 3 は 、 第 1 図に示 した第 1 の実施の形態の音 対 5システム 1 の発声タィ ヽ ング検出部 2 7 と、 この発尸 タィ ミ ング検出部 2 7 か ら得た発尸 タィ ミ ングに基づき習熟度を判断する習熟度判定部 5 0 と に代えて 、 ュ ' ザ一の立  The voice dialogue system 3 is obtained from the utterance timing detection unit 27 of the sound pair 5 system 1 of the first embodiment shown in FIG. 1 and the timing detection unit 27 of this utterance pair. Instead of the proficiency level determination unit 50 that determines the level of proficiency based on the social timing,
曰 尸対話システム 3 の累積使用回数を力 ク ン 卜する使用回数力 クン 卜部 3 3 と 、 こ の使用回数力 クン ト部 3 3 で力 クン 卜 した累禾貝使用回を格納する使用回数格納部 3 4 と 、 使用 回数力 ク ン 卜部 3 3 から得た累積使用回数を用いてュ一ザ一の 熟 度を判定する習熟度判定部 5 2 と を設けた点が音声対話システム 1 と相違する。 The number of usages that stores the number of times of use of the dialogue system 3 and the number of times that the number of times of use of the mussels used by the number of usages of the dialogue system 3 are stored. Using the part 3 4 and the cumulative number of uses obtained from the use count part 3 3 The difference from the spoken dialogue system 1 is that a proficiency level determination unit 52 for determining the level is provided.
使用回数力 ゥン ト部 3 3 は、 ユーザーが音声対話システム 3 を新 たに 1 回使用するたびに、 使用回数格納部 3 4 に格納しているそれ 以前の累積使用回数に 1 回分をプラス して新たな累積使用回数を得、 こ の累積使用回数を使用回数格納部 3 4 へ入力 して書き換え格納す る と と もに、 習熟度判定部 5 2 へも入力する よ う に してある。  Each time the user uses the voice interaction system 3 once, the usage count part 3 3 adds one time to the previous cumulative usage count stored in the usage count storage part 3 4. Then, a new cumulative number of times of use is obtained, and the cumulative number of times of use is input to the number-of-uses storage section 34 and rewritten and stored, and is also input to the proficiency determination section 52. is there.
習熟度判定部 5 2 は、 使用回数カ ウン ト部 3 3 から入力 された累 積使用回数を基に習熟度の判定基準値と比較して、 ユーザーの習熟 度を判定する よ う に してある。 この習熟度の判定基準値と しては、 こ のケース では、 第 1 設定値と これよ り 大きい値の第 2設定値と を 設けてある。  The proficiency level determination unit 52 determines the user proficiency level by comparing the proficiency level with a criterion value based on the cumulative usage count input from the usage count unit 33. is there. In this case, a first set value and a second set value that is larger than the first set value are provided as the criterion value for the proficiency level.
次に、 第 5 図を参照し、 本発明の第 3 の実施の形態の音声対話シ ステム 3 の動作について説明する。  Next, an operation of the voice interaction system 3 according to the third embodiment of the present invention will be described with reference to FIG.
第 5 図 ( a ) は、 習熟していないユーザーのケース 、 第 5 図 ( b ) はある程度習熟してきたユーザ一のケース 、 第 5 図 ( c ) は十分習 熟したユーザーのケースを夫々示 している。  Fig. 5 (a) shows the case of an unskilled user, Fig. 5 (b) shows the case of a user who has become somewhat proficient, and Fig. 5 (c) shows the case of a sufficiently proficient user. ing.
ユーザーが音声対話システム 3 を使用する と き、 その都度、 使用 回数カ ウン ト部 3 3 が使用回数格納部 3 4 に格納しているそれまで の累積使用回数に今回の使用回数である 1 を加えて新たな累積使用 回数を得る。 使用回数カ ウン ト部 3 3 は、 こ の新たな累積使用回数 を使用回数格納部 3 4 に格納する と と もに習熟度判定部 5 2 へ入力 する。  Each time the user uses the voice dialogue system 3, the usage count unit 33 adds the current usage count of 1 to the accumulated usage count stored in the usage count storage unit 34 each time. In addition, a new cumulative use count is obtained. The usage count unit 33 stores the new cumulative usage count in the usage count storage unit 34 and inputs the new cumulative usage count to the proficiency level determination unit 52.
習熟度判定部 5 2 は、 入力 された累積回数を習熟度判定の基準で ある第 1 設定値および第 2 設定値と の大小関係を比較する。 累積使用回数が第 1 設定値よ り 小さい場合には、 習熟度判定部 5 2 は、 ユーザーが音声対話システ ム 3 の使用に習熟していないと判 断し、 第 3 図 ( a ) 〖こ示すよ う に、 ガイ ド音声 S 1 0 、 S 2 0 を第 5 図 ( a ) の場合と 同 じ内容で出力する。 この場合、 ユーザ一音声 U 1 0 、 U 2 0 も第 5 図 ( a ) の場合と 同様になる。 The proficiency level determination section 52 compares the input cumulative number with a first set value and a second set value, which are criteria for proficiency level determination. If the cumulative number of times of use is smaller than the first set value, the proficiency judging unit 52 judges that the user is not proficient in using the voice dialogue system 3, and FIG. As shown, the guide voices S10 and S20 are output with the same contents as in Fig. 5 (a). In this case, the user-to-user voices U10 and U20 are the same as in the case of FIG. 5 (a).
ユーザーの使用回数が増えて、 使用回数カ ウン ト部 3 3 から入力 された累積使用回数が第 1 設定値以上で第 2設定値未満と なった場 合、 習熟度判定部 5 2 は、 ユーザーが音声対話システム 3 にある程 度習熟したと判定し、 こ の判定結果を応答生成部 2 6 に入力する。 この入力によ り 、 応答生成部 2 6 は、 第 5 図 ( b ) に示すよ う に、 ガイ ド音声 S 2 0 の内容をよ り省略したガイ ド音声 S 2 3 と して、 た と えば 「区名 をお話し下さい。」 を省略した 「横浜市のどち らです 力 。」 と の問いかけに変更 してス ピーカ 2 0 から出力する。  If the user's usage count increases and the cumulative usage count input from the usage count section 3 3 falls below the second set value and is greater than or equal to the first set value, the proficiency determination section 52 It is determined that the user has mastered the speech dialogue system 3 to a certain degree, and the result of this determination is input to the response generation unit 26. As a result of this input, the response generation unit 26 sets the guide voice S23 as a more omitted guide voice S23, as shown in FIG. 5 (b). For example, change to the question "Which of Yokohama City is the power of?", Omitting "Please tell me the name of the ward."
ユーザーの使用回数がさ らに増えて、 使用回数カ ウン ト部 3 3 か ら入力 された累積使用回数が第 2設定値以上と なった場合、 習熟度 判定部 5 2 は、 ユーザーが音声対話システ ム 3 に十分習熟したと判 定し、この判定結果を応答生成部 2 6 に入力する。この入力によ り 、 応答生成部 2 6 は、 第 5 図 ( c ) に示すよ う に、 ガイ ド音声 S 2 3 の内容をさ らに省略したガイ ド音声 S 2 2 と して、 たと えば 「横浜 市 ! 」 と変更 してス ピーカ 2 0 から出力する。  If the user's usage count further increases and the cumulative usage count input from the usage count section 3 3 becomes equal to or greater than the second set value, the proficiency level determination section 5 2 It is determined that the user is sufficiently proficient in the system 3, and the result of the determination is input to the response generator 26. As a result of this input, the response generation unit 26 converts the content of the guide voice S 23 into a guide voice S 22 that is further omitted, as shown in FIG. 5 (c). For example, change to “Yokohama City!” And output from speaker 20.
以上のよ う に、 本発明の第 3 の実施の形態の音声対話システ ム 3 は、 累積使用回数に応じて習熟度を判定し、 習熟度に応じてガイ ド 音声等のシステム側音声の内容を変更する こ と ができ る。この場合、 習熟度を習熟していない、 ある程度習熟している、 十分習熟してい る といった 3段階で判定し、 習熟度が上がるに したがってシステム 側音声の内容を順次よ り省略した簡素なもの と して細やかな対応が 可能と なる。 As described above, the spoken dialogue system 3 according to the third embodiment of the present invention determines the proficiency according to the cumulative number of uses, and according to the proficiency, the content of the system-side speech such as the guide speech. Can be changed. In this case, the proficiency level is determined in three stages: unfamiliar, proficient to some extent, and proficient enough. A detailed response can be made by simplifying the contents of the side audio sequentially.
次に、 第 6 図を参照 し、 本発明の第 4 の実施の形態の立  Next, with reference to FIG. 6, a fourth embodiment of the present invention will be described.
曰 尸対話シ ステムの構成について説明する  Explain the structure of the dialogue system
第 6 図に示した本発明の第 4 の実施の形態の音声対話システム 4 は 、 第 1 図に示した第 1 の実施の形態の音声対話システム 1 の発尸 タィ ミ ング検出部 2 7を有する習熟度判定部 5 0 に代えて 、 ュ ' ~ザ 一の音声対話システム 4 の使用頻度を計算する使用頻度計算部 3 5 と 、 使用頻度計算部 3 5 で得た使用頻度を格納する使用頻度格納部 The voice dialogue system 4 according to the fourth embodiment of the present invention shown in FIG. 6 is similar to the voice dialogue system 1 according to the first embodiment shown in FIG. Instead of having the proficiency level determination unit 50, a usage frequency calculation unit 35 that calculates the usage frequency of the user's voice interaction system 4 and a usage that stores the usage frequency obtained by the usage frequency calculation unit 35 Frequency storage
3 6 と 、 使用頻度計算部 3 5 から得た使用頻度を用いて習熟度判定 部 5 3 と を設けた点が音声対話システム 1 と相違してお 、 その他 の構成は音声対話システム 1 と 同一である。 36 and a proficiency level determination unit 53 using the usage frequency obtained from the usage frequency calculation unit 35 are different from the voice interaction system 1, and the other configuration is the same as the voice interaction system 1. It is.
すなわち、 使用頻度計算部 3 5 は、 ユーザーが音声対話システム In other words, the usage frequency calculation unit 35
4 を使用するたびに 、 使用頻度格納部 3 6 に格納されてレ、るそれま での使用頻度と今回の使用 と に基づき新たな使用頻度を計 し、 こ の新たに得た使用頻度を使用頻度格納部 3 6 へ入力 して さ換え格 納する と と もに、 習熟度判定部 5 3 へも入力する よ う に してめる 習熟度判定部 5 3 は、 使用頻度計算部 3 5 から入力 された使用頻 度を用いて習熟度の判定基準と比較して、 ユーザーの習熟度を判定Each time 4 is used, a new usage frequency is calculated based on the usage frequency up to that time stored in the usage frequency storage unit 36 and the current usage, and the newly obtained usage frequency is calculated. The proficiency level determination unit 53 is input to the usage frequency storage unit 36 to store the replacement frequency, and is also input to the proficiency level determination unit 53. The user's proficiency level is determined by using the frequency of use input from 5 and comparing it with the proficiency level criterion.
- する よ う に してある 。 こ の習熟度の判定基準と しては、 のケ一ス では、第 3設定値と これよ り 大きい値の第 4設定値と を設けている。  -You have to do it. In this case, a third set value and a fourth set value larger than this are set as criteria for judging the proficiency level.
次に、 第 7 図を参照 し、 本発明の第 4 の実施の形態の音声対話シ ステム 4 の動作について説明する。  Next, an operation of the voice interaction system 4 according to the fourth embodiment of the present invention will be described with reference to FIG.
第 7 図 ( a ) は、 習熟していないユーザーのケース 、 第 7 図 ( b ) はある程度習熟してきたユーザーのケース 、 第 7 図 ( c ) は十分習 熟したュ ザ一のケースをそれぞれ示す。 Fig. 7 (a) shows the case of an unskilled user, Fig. 7 (b) shows the case of a user who has become somewhat proficient, and Fig. 7 (c) shows the case of Each ripe user case is shown.
ュ ~ザ一が音声対話システム 4 を使用する と き、 その都度、 使用 頻度 十算部 3 5 が使用頻度格納部 3 6 に格納しているそれまでの使 用頻度と今回の使用 と から計算して新たな使用頻度を得る。 使用頻 度計算部 3 5 は、 こ の新たな使用頻度を使用頻度格納部 3 6 に格納 する と と もに習熟度判定部 5 3 へ入力する。  Each time the user uses the voice dialogue system 4, the calculation is performed based on the usage frequency up to that time stored in the usage frequency storage unit 36 and the current usage by the usage frequency deduction unit 35 in the usage frequency storage unit 36 To obtain a new frequency of use. The usage frequency calculation unit 35 stores the new usage frequency in the usage frequency storage unit 36 and inputs the new usage frequency to the proficiency level determination unit 53.
習熟度判定部 5 3 は、 入力 された使用頻度と習熟度判定の基準で める第 3 ョ; ti  The proficiency judging unit 53 is a third unit based on the input frequency of use and the criterion for judging the proficiency.
nX定値おょぴ第 4設定値と の大小関係を比較する。 使用頻度が第 3 設定値よ り 小さい場合には、習熟度判定部 5 3 は、 ユーザ一が音声対話システム 4 の使用に習熟していないと判断し、 第 7 図 ( a ) に示すよ う に、 ガイ ド音声 S 1 0 、 S 2 0 のを第 5 図 Compare the magnitude relationship with the nX constant value fourth setting value. If the frequency of use is lower than the third set value, the proficiency judging unit 53 judges that the user is not proficient in using the voice dialogue system 4, and as shown in FIG. 7 (a). Fig. 5 shows the guide voices S10 and S20.
( a ) の場合と 同 じ内容で出力する。 この場合、 ユーザー音声 U 1Output with the same content as in (a). In this case, user voice U 1
0 、 U 2 0 も第 5 図 ( a ) の場合と 同様になる。 0 and U 20 are the same as in the case of Fig. 5 (a).
ュ ' ~ザ一の使用回数が増えて、 使用頻度計算部 3 5 から入力 され た使用頻度が第 3 設定値以上で第 4設定値未満と なった場合、 習熟 度判定部 5 3 は、 ユーザーが音声対話システム 4 にある程度習熟し た と判定し 、 こ の判定結果を応答生成部 2 6 に入力する。 こ の入力 によ り 、 し、答生成部 2 6 は、 第 7 図 ( b ) 〖こ示すよ う に、 ガイ ド音 声 S 2 0 の内容をよ り省略したガイ ド音声 S 2 3 と して、 たと えば If the frequency of use of the menu increases and the usage frequency input from the usage frequency calculation unit 35 becomes equal to or more than the third set value and less than the fourth set value, the proficiency determination unit 53 Determines that he / she has mastered the speech dialogue system 4 to some extent, and inputs the determination result to the response generation unit 26. As a result of this input, the answer generation unit 26, as shown in FIG. 7 (b), outputs the guide voice S23 with the contents of the guide voice S20 further omitted, as shown in FIG. 7 (b). And, for example,
「区名をお話し下さい。」 を省略した 「横浜市のどち らですか。」 と の問いかけに内容を変更 してス ピーカ 2 0 から出力する。 Change the content to the question "Which city is Yokohama?" Without "Please tell me the name of the ward."
ュ ' ~ザ の使用回数が さ らに増えて、 使用頻度計算部 3 5 から入 力 された使用頻度が第 4設定値以上と なった場合、 習熟度判定部 3 は、 ユーザーが音声対話システム 4 に十分習熟した と判定し、 の判定結果を応答生成部 2 6 に入力する。 こ の入力によ り 、 応答 成部 2 6 は、 第 7 図 ( c ) に示すよ う に、 ガイ ド音声 S 2 3 の内容 を さ らに省略したガイ ド音声 S 2 2 と して、 たと えば 「横浜市 I J と 内容をさ らに変更してス ピーカ 2 0 力 ら出力する If the number of times the user uses the user further increases and the usage frequency input from the usage frequency calculation unit 35 becomes equal to or higher than the fourth set value, the proficiency level determination unit 3 It is determined that the user is sufficiently proficient in step 4, and the result of the determination is input to the response generator 26. This input causes a response As shown in Fig. 7 (c), the part 26 is a guide voice S22 that further omits the content of the guide voice S23. And then output from speaker 20
以上のよ う に 、 本発明の第 4 の実施の形態の音声対話システム 4 は、 ュ一ザ一の音声対話システム使用の習熟度に応じてシステム側 音声の出力を変更可能な音声対話システムを提供する こ と がでさ る と と も に、 この ·¾/ A口 、 習熟度を判定するのに検出おょぴ演算が簡単 な使用頻度を用いる こ と が可能と なる。  As described above, the voice interaction system 4 according to the fourth embodiment of the present invention provides a voice interaction system capable of changing the output of the system-side voice in accordance with the user's proficiency in using the voice interaction system. In addition to this, it is possible to use the 口 / A port and the frequency of use in which the detection operation is simple to judge the proficiency level.
次に 、 第 8 図を参照し、 本発明の第 5 の実施の形態の音尸対話シ ステムの構成について説明する。  Next, with reference to FIG. 8, a description will be given of a configuration of a speech dialog system according to a fifth embodiment of the present invention.
第 8 図に示すよ う に、 本発明の第 5 の実施の形態の音声対話シス テム 5 は、 第 1 図に示した第 1 の実施の形態の音声対話システム 1 の発声タイ ミ ング検出部 3 8 と習熟度判定部 5 0 と に代えて 、 ュ一 ザ一の発声速度を計算する発声速度計算部 3 7 と 、 発声速度計算部 As shown in FIG. 8, the voice dialogue system 5 according to the fifth embodiment of the present invention is a vocal timing detection unit of the voice dialogue system 1 according to the first embodiment shown in FIG. Instead of 3 8 and the proficiency level determination section 50, an utterance rate calculation section 37 that calculates the utterance rate of the user, and an utterance rate calculation section
3 7 で得た発 J¾度を格納する発声速度格納部 3 0 と 、 発 速度を 用いて習熟度を判定する習熟度判定部 5 4 と を設けた点が立 The utterance speed storage unit 30 that stores the utterance J¾ degrees obtained in 37 and the proficiency determination unit 54 that determines the proficiency using the utterance speed are provided.
曰 対話 システム 1 と相埋してお り 、 その他の構成は音声対話システム 1 と 同一でめ «。  It is the same as the dialogue system 1, but other configurations are the same as the voice dialogue system 1.
すなわち、 発声速度計算部 3 7 は、 ユーザーが発声する発尸速度 That is, the utterance speed calculation unit 37 calculates the utterance speed at which the user utters.
¾:計算 して発尸速度格納部 3 8 と習熟度判定部 5 4 へ入力する こ こで、 発声速度は、 たと えば (辞書の長さ) Z (発声時間 、 すなわ ち 卢 s .識された時間区間) で定義する。 ¾: Calculate and input to the speech speed storage unit 38 and the proficiency level judgment unit 54. Here, the speech speed is, for example, (the length of the dictionary) Z (speech time, ie, s. Time interval).
習熟度判定部 5 4 は、 ユーザーの発声速度が判定基準値よ り 小さ い (遅い) か 、 大きい (速い) かに応じて習熟していないか 、 習熟 しているかを判定する よ う に してある。 次に、 第 9 図を参照し、 本発明の第 5 の実施の形態の音声対話シ ステム 5 の動作につレ、て説明する The proficiency level determination unit 54 determines whether the user is unfamiliar or proficient depending on whether the utterance speed of the user is lower (slower) or higher (faster) than the criterion value. It is. Next, with reference to FIG. 9, the operation of the voice dialogue system 5 according to the fifth embodiment of the present invention will be described.
第 9 図 ( a ) は、 ュ一ザ一が音声対話システム 5 に習熟してレ、な レヽケ一スを 、 また第 9 図 ( b ) は、 ュ ザ一が音声対話システム 5 に習熟してレ、るケ一スを示す。  Fig. 9 (a) shows a user who is familiar with the voice dialogue system 5 and Fig. 9 (b) shows a user who is familiar with the voice dialogue system 5. Show the case.
発 速度計算部 3 7 はゝ 二―ザ一の発声速度を計算し、 発声速度 格納部 3 8 と習熟度判定部 5 4へ入力する。習熟度判定部 5 4 では、 入力された発尸迷度と判定基準値と を比較し、 発声速度が判定基準 値よ り 小さ < ゆつ く り 話している場口 には、 ユーザーが音声対話シ ステム 5 に習熟してレ、ないと判定し 、 第 9 図 ( a ) に示すよ う に丁 寧な詳細内容のガイ K 曰声 S 2 0 を応答生成部 2 6 がス ピーカ 2 0 から出力する  The utterance speed calculation unit 37 calculates the utterance speed of the user and inputs it to the utterance speed storage unit 38 and the proficiency determination unit 54. The proficiency level determination unit 54 compares the input stuttering level with the criterion value, and determines that the utterance speed is lower than the criterion value. As a result of learning the system 5 and judging that there is no problem, as shown in FIG. 9 (a), the response generator 26 sends the careful voice S 20 of the detailed contents to the speaker 20 from the speaker 20. Output
一方 習熟度判定部 5 4 で発尸速度が判定基準値以上であ り 早 < 話してレ、る ·¾; 口 には 、 ュ一ザ一が音尸対話システム 5 に習熟してい る と判定し 第 9 図 ( b ) に示すよ ラ にガイ ド音声 S 2 0 の一部を 省略した簡 な内容のガイ ド音声 s 2 3 へ変更して応答生成部 2 6 がス ピ一力 2 0 から出力する。  On the other hand, the proficiency level determination unit 54 determines that the user is proficient in the conversation system 5 in the mouth if the speech speed is higher than or equal to the determination reference value. Then, as shown in Fig. 9 (b), the guide voice S20 is changed to a simple guide voice s23 with a part of the guide voice S20 omitted, and the response generation unit 26 takes the speed 20 Output from
以上のよ 5 に 、 本発明の第 5 の実施の形態の音声対話システム 5 は、 ュ一ザ一の音声対話システム使用の習熟度に応じてシステム側 音声の出力を変更可能な音声対話システムを提供する こ と がでさ る As described above, the voice interaction system 5 according to the fifth embodiment of the present invention provides a voice interaction system capable of changing the output of the system-side voice according to the user's proficiency in using the voice interaction system. Can provide
- と と もに 、 の 口 、 ュ一ザ一の習熟度を判定する のに検出お ぴ 演算が簡単なュ —ザ一の発声迷度を用レ、る こ と が可能と なる。  -Together with this, it is possible to use the user's voice utterance degree, which is easy to detect and calculate, to determine the user's proficiency level.
次に 、 第 1 0 図を参照 し、 本発明の第 6 の実施の形態の音声対話 システムの構成について説明する。  Next, the configuration of a voice interaction system according to a sixth embodiment of the present invention will be described with reference to FIG.
芎 1 0 図に示すよ ラ に 、 本発明の 6 の実施の形態の音声対話シ ステム 6 は、 第 1 図に示 した第 1 の実 の形態の音声対話システム芎 10 As shown in FIG. 10, the speech dialogue system according to the sixth embodiment of the present invention is described. The system 6 is a voice interactive system of the first embodiment shown in FIG.
1 の発声タィ ミ ング検出部 2 7 と習熟度判定部 5 0 と に代えて、 ュ 一ザ一音声信号からュ一ザ一音声を認識する と と もにガィ K音声の 問レヽかけに対するュ ~ザ一の応答内容が どれだけ正しレ、応答内容に 類似 しているかと いつた類似度を基に累積平均類似度を計嘗する累 禾貝平均類似度計算部 3 9 と 、 累積平均類似度計算部 3 9 が新たな累 積平均類似度を計算するたびにその新たな累積平均類似度に書き直 して格納する累禾貝平均類似度格納部 4 0 と、 累積平均類似度計算部In place of the utterance timing detection unit 27 and the proficiency level determination unit 50 of FIG. 1, a user-one voice is recognized from a user-one voice signal, and a question The cumulative average similarity calculation unit 39 that calculates the cumulative average similarity based on the similarity and the similarity of the response content of the user and the response content, and the cumulative Every time the average similarity calculation unit 39 calculates a new cumulative average similarity, the cumulative average similarity storage unit 40 rewrites and stores the new cumulative average similarity, and the cumulative average similarity calculation Department
3 9 から入力 された累積平均類似度を用いて習熟度を判定する習熟 度判定部 5 5 と を設けた点が音尸対話システム 1 と相 ¾してお り 、 その他の構成は音声対話システム 1 と 同一である なお、 こ の音声 対話システム 6 では 、 音声認識部 2 3 の機能を下記の よ う に増強し てある The point that a proficiency level judging unit 55 for judging the level of proficiency using the cumulative average similarity input from 39 is provided is similar to the speech dialogue system 1. In this spoken dialogue system 6, the function of the speech recognition unit 23 is enhanced as follows.
すなわち、 音声認識部 2 3 は 、 マィ ク 口 ホ ン 2 1 で受け音声応答 除去部 2 2 がス ピー力 2 0 力 ら出力 した重畳分を除去した信号に基 づきュ一ザ一音声の内容を認識して対話制御部 2 4 に入力する と と もに、 対話制御部 2 4 または応答生成部 2 6 力 ら上記ュ ' ""-ザ一音声 を引き出 した問いかけのガイ ド立  In other words, the speech recognition unit 23 receives the voice of the user based on the signal received by the microphone mouth phone 21 and removed by the speech response removal unit 22 from the superposition output from the speech force 20. Is input to the dialogue control section 24 and the dialogue control section 24 or the response generation section 26 draws the above-mentioned ""-"-single voice from the input.
曰 声の内容が入力 され (同図中、 こ の信号線は省略してある)、ユ ーザ , 立  The content of the voice is input (in the figure, this signal line is omitted), and the user,
の内容と ガィ ド音声に対す る正しい応答の内容と を比較してガイ ド、音声の問いかけに対するュ The content of the guide and the correct response to the guide voice are compared, and the
—ザ一の応答内容が どれだけ正しレヽ応答に類似してレ、るかと いった 類似度を演算 して累積平均類似度 S十算部 3 9 に入力する よ う に構成 してある。 —It is configured to calculate the similarity to determine how similar the response content is to the correct response, and to input it to the cumulative average similarity S10 arithmetic unit 39.
累積平均類似度計算部 3 9 は、 音声認識部 2 3 から新たに入力 さ れた類似度と累積平均類似度格納部 4 0 に格納されていたそれまで の累積平均類似度と に り 、新た 7 累積平均類似度を、 た と えば(認 識結果類似度の合計) / (認識回数) と いった式を用いて計算 し、 累積平均類似度格納部 4 0 と習熟度判定部 5 5 と に入力する よ う に してめ る。 The cumulative average similarity calculator 39 calculates the similarity newly input from the speech recognizer 23 and the similarity stored in the cumulative average similarity storage 40. The new average of the cumulative average similarities is calculated using the formula (for example, the sum of the recognition result similarities) / (the number of times of recognition). It is recommended to input 40 and the proficiency judgment section 55.
習熟度判定部 5 5 は 、 入力 された累積平均類似度を判定基準値と 比較してその高低で習熟度を判定する よ う に構成している。  The proficiency level determination unit 55 is configured to compare the input cumulative average similarity with a criterion value and determine the proficiency level based on the level.
次に、 第 1 1 図を参照 し、 本発明の第- 6 の実施の形態の音声対話 システ ム 6 の動作につレ、て説明する。  Next, the operation of the voice interaction system 6 according to the sixth embodiment of the present invention will be described with reference to FIG.
第 1 1 図 ( a ) は、 ュ一ザ一が音声対話システム 6 の使用に習熟 してレヽなレヽケ一スを、 また第 1 1 図 ( b ) は、 ユーザーが音声対話 システム 6 の使用に習熟してい るケースを示している。  Fig. 11 (a) shows a user's use of the spoken dialogue system 6, and Fig. 11 (b) shows a user using the spoken dialogue system 6. The figure shows the case where the user is proficient.
ュ一ザ一が 声対話システム 6 を使用 し始める と 、 累積平均類似 度計算部 3 9 はゝ ―ザ一の音声対話システム 6 の新たな使用に応 じて音声認識部 2 3 で得た類似度と累積平均類似度格納部 4 0 に格 納されていたそれまでの累積平均類似度と に基づき、 新たな累積平 均類似度を計算し、 累積平均類似度格納部 4 0 と習熟度判定部 5 5 と に入力する ο  When the user starts using the voice dialogue system 6, the cumulative average similarity calculation unit 39 obtains the similarity obtained by the speech recognition unit 23 in response to the new use of the user's voice dialogue system 6. , And calculates a new cumulative average similarity based on the accumulated average similarity stored in the cumulative average similarity storage unit 40 and the cumulative average similarity storage unit 40. Part 5 Enter in 5 and ο
習熟度判定部 5 5 では 、 入力 された累積平均類似度が判定基準値 よ 低いと きはユーザ一が習熟していないと判定し、 応答生成部 2 When the input cumulative average similarity is lower than the determination reference value, the proficiency determination unit 55 determines that the user is not proficient, and the response generation unit 2
6 が丁寧で詳細なガイ K音声 S 2 0 をス ピーカ 2 0 力 ら出力する。 これに対し、 累積平均類似度が判定基準値以上の と きはユーザーが 習熟している と判定してガイ ド音声を一部省略した簡素な内容のガ ィ K音声 S 2 3 に変更 してス ピー力 2 0 力 ら出力する。 6 outputs a polite and detailed guy K voice S 20 from the speaker 20 power. On the other hand, when the cumulative average similarity is equal to or greater than the judgment reference value, it is judged that the user is proficient, and the guidance sound is partially changed to a simple content of Guy K sound S23. Output from the speed force 20.
以上のよ う に 、 本発明の第 6 の実施の形態の音声対話システム 6 は 、 ユーザーの音声対話システム使用の習熟度に応じてシステム側 音声の出力を変更可能な音声対話シスァムを提供する こ と ができ る と と ちに、 習熟度を判定するのに検出およぴ演算が簡単な累積平均 類似度を用レ、る こ と が可能と なる As described above, the spoken dialogue system 6 according to the sixth embodiment of the present invention depends on the user's proficiency in using the spoken dialogue system. It is possible to provide a spoken dialogue system that can change the output of speech, and it is also possible to use a cumulative average similarity that is easy to detect and calculate to determine proficiency. Become possible
次に 、 第 1 2 図を参照し、 本発明の第 7 の実施の形態の 尸対話 システムの構成について説明する  Next, a configuration of a dialogue system according to a seventh embodiment of the present invention will be described with reference to FIG.
第 1 2 図に示すよ う に、 本発明の第 7 の実施の形態の 対話シ ステム 7 は 、 第 1 図に示した第 1 の実施の形態の音声対話システム As shown in FIG. 12, the dialogue system 7 according to the seventh embodiment of the present invention is different from the voice dialogue system according to the first embodiment shown in FIG. 1.
1 の発声タィ ミ ング検出部 2 7 と習熟度判定部 5 0 と に代えて ガ ィ ド、曰声の問いかけの内容をユ ーザ一が どれだけ正しく してレ、 るかと いつ 7こ p¾率を基に累積平均認識率を計算する累積平均認識 率計算部 4 1 と 、 累積平均認識率計算部 4 1 が新たな累積平均認識 率を計算するたびにその新たな累積平均認識率に書き直して格納す る累積平均認識率格納部 4 2 と 、 累積平均認識率を基にュ一ザ一の 習熟度を判定する習熟度判定部 5 6 と を BXけた点が音声対話システ ム 1 と相違してお < 、 その他の構成は 曰 対話システム 1 と |pj一で ある なお 、 この音声対話システム 7 では SS ώιτ In place of the utterance timing detection unit 27 of 1 and the proficiency level determination unit 50, a guide, and how much the user can correct the content of the voice question, and when Each time the cumulative average recognition rate calculation unit 41 calculates the cumulative average recognition rate based on the new cumulative average recognition rate, and the cumulative average recognition rate calculation unit 41 calculates the new cumulative average recognition rate, it is rewritten into the new cumulative average recognition rate. It differs from the spoken dialogue system 1 in that the cumulative average recognition rate storage unit 42 that stores it and the proficiency level determination unit 56 that determines the user's proficiency based on the cumulative average recognition rate are BX-digit. The other components are the same as the dialogue system 1 and | pj. In this spoken dialogue system 7, SS SSιτ
、 曰 2 3 の機能 を下記のよ う に増強してある。  He said that the function of 23 was enhanced as follows.
すなわち 、 音声 f¾ 部 2 3 は、 マィ ク ホン 2 1 で受け 尸 し、答 除去部 2 2 で重畳分を除去した信号に基づきュ一ザ一音尸の内容を 認識して対話制御部 2 4 に入力する と と ちに、 対話制御部 2 4 また は応令生成部 2 6 から上記ユーザ 曰 尸 を引 き 出 した問いかけのガ ィ ド、 曰声の内容が入力 され (同図中、 この信号線は省略してある )、 ガイ 古  In other words, the voice f¾ section 23 recognizes the content of the user's one sound based on the signal received by the microphone 21 and the superimposed portion removed by the answer removing section 22 and recognizes the contents of the dialog section 24. At the same time, the user's guide from which the user is extracted from the dialogue control unit 24 or the command generation unit 26 is input, and the content of the voice is input (in FIG. (Signal lines are omitted.)
ド、 尸 の問いかけの内容とュ一ザ一の応答内容と を比較してュ Compare the contents of the question asked by
—ザ一がガイ ド音声の問いかけを どれだけ正し < ているかと レヽつナー PS¾率を演算して累積平均認識率計算部 4 1 に入力する よ ラ に構成してある。 —To what extent the user corrects the question of the guide voice <Calculates the PS rate and inputs it to the cumulative average recognition rate calculator 41. It is configured in.
累積平均認識率計算部 4 1 は、 音声認識部 2 3 から新たに入力 さ れた認識率と 累積平均認識率格納部 4 2 に格納されていたそれまで の累積平均認識率と によ り 、新たな累積平均認識率を、 た と えば(正 The cumulative average recognition rate calculation section 41 calculates the recognition rate newly input from the speech recognition section 23 and the cumulative average recognition rate up to that stored in the cumulative average recognition rate storage section 42. If the new cumulative average recognition rate is
1レ \ P9¾した回数の合計) / (認識回数) と いつた式を用いて計算 し、 累禾貝平均認識率格納部 4 2 と習熟度判定部 5 6 と に入力する よ う にする o Calculate using the formula (1) (total number of times P9 \) / (recognition frequency) and input it to the cumulative mussels average recognition rate storage unit 42 and the proficiency level determination unit 56.
習熟度判定部 5 6 は 、 累禾貝平均認識率を判定基準値と比較してそ の高低で習熟度を判定する う に構成している。  The proficiency determining section 56 is configured to compare the average recognition rate of the accumulated mussels with the criterion value and determine the proficiency based on its level.
次に 第 1 3 図を参照し 、 本発明の第 7 の実施の形態の音声対話 システム 7 の動作につレ、て 明する。  Next, with reference to FIG. 13, the operation of the voice interaction system 7 according to the seventh embodiment of the present invention will be described.
第 1 3 図 ( a ) は、 ュ一ザ一が音声対話システム 7 の使用に習熟 していないケースを、 また第 1 3 図 ( b ) は、 ュ —ザ一が音声対話 システム 7 の使用に習熟しているケース を示している。  Fig. 13 (a) shows the case where the user is unfamiliar with the use of the spoken dialogue system 7, and Fig. 13 (b) shows the case where the user is not familiar with the use of the spoken dialogue system 7. Shows a case that is proficient.
ュ ' -"ザ一が音声対話システム 7 を使用 し始める と、 累積平均累積 平均認識率計算部 4 1 は 、 ュ一ザ一の音声対話システム 7 の新たな 使用に応じて音声認識部 2 3 で得た認識率と累積平均認識率格納部 When the user starts using the speech dialogue system 7, the cumulative average cumulative average recognition rate calculation unit 41 receives the speech recognition unit 23 according to the new use of the user's speech dialogue system 7. Recognition rate and cumulative average recognition rate storage unit
4 2 に格納されていたそれまでの累積平均認識率と に基づき、 新た か累稗平均認識率を計算 し 、 累積平均認識率格納部 4 2 と習熟度判 定部 5 6 と に入力する。 A new or cumulative average recognition rate is calculated based on the cumulative average recognition rate up to that stored in 42 and is input to the cumulative average recognition rate storage section 42 and the proficiency judgment section 56.
習熟度判定部 5 6 では、 入力 された累積平均認識率が判定基準値 よ り 低いと きはユーザーが習熟していないと判定し、 応答生成部 2 6 が丁寧で詳細なガイ ド音声 S 2 0 をス ピーカ 2 0 から出力する。 これに対し、 累積平均認識率が判定基準値以上の と きはユーザーが 習熟している と判定してガイ ド音声を一部省略した簡素な内容のガ イ ド音声 S 2 3 に変更 してス ピ 力 2 0 から出力する 以上のよ ラ に、 本発明の第 7 の実施の形態の音声対話システム 7 は、 ユーザ一の音声対話システム使用の習熟度に応じてシステム側 音声の出力を変更可能な立 The proficiency level determination section 56 determines that the user is not proficient when the input cumulative average recognition rate is lower than the determination reference value, and the response generation section 26 provides a polite and detailed guide voice S 2. 0 is output from speaker 20. On the other hand, when the cumulative average recognition rate is equal to or greater than the judgment reference value, it is judged that the user is proficient, and the simple content of the guide sound is partially omitted. As described above, the voice dialogue system 7 according to the seventh embodiment of the present invention is a user's proficiency in using the voice dialogue system. System audio output can be changed according to
曰 尸対話システムを提供する こ と ができ る と と もに 、 習熟度を判定するのに検出ゃ演算が簡単な累禾貝平均認識 In addition to being able to provide a dialogue system, the average recognition of mussels that is easy to detect and calculate to determine proficiency
- 率を用いる と が可能と なる  -Using rates allows
次に、 第 1 4 図を参照 し 、 本発明の第 8 の実施の形態の音声対話 システムの構成について 明する  Next, with reference to FIG. 14, the configuration of a speech dialogue system according to an eighth embodiment of the present invention will be described.
第 1 4 図に示すよ う に 立  Standing as shown in Fig. 14
、 本発明の第 8 の実施の形態の 曰 声対話シ ステム 8 は 、 第 1 図に示した第 1 の実施の形態の音声対話システム The speech dialogue system 8 according to the eighth embodiment of the present invention is a speech dialogue system according to the first embodiment shown in FIG.
1 の発声タィ ミ ング検出部 2 7 と習熟度判定部 5 0 と に代えて、 音 声認識部 2 3 で得た類似度や認識率などのいずれかを用レ、て習熟度 を判定する習熟度判定部 5 7 と 、 習熟度判定部 5 7 で判定した習熟 度が所定値よ り 低い場合には立 The proficiency level is determined by using one of the similarity and recognition rate obtained by the voice recognition section 23 instead of the utterance timing detection section 2 7 and the proficiency level determination section 50 of 1. If the proficiency level determined by the proficiency level determination section 57 and the proficiency level determination section 57 is lower than a predetermined value, the operation is started.
曰 尸 識部 2 3 で上記類似度や認識率 な どを決定するのに用いる閾値を下げる よ ラ に変更する閾値変更部 The threshold changing unit that changes the threshold used to determine the similarity and the recognition rate in the recognition unit 23
4 3 と を a けた点が音声対話システム 1 と相 してお 、 その他の 構成は音尸対話システム 1 と 一である なお 、 音声対話システムThe difference between 4 and 3 is the same as that of the spoken dialogue system 1, and the other components are the same as those of the spoken dialogue system 1.
8 には、 第 1 0 図における累積平均類似度計算部 3 9 と累積平均類 似度格納部 4 0 、 または第 1 2 図 ¾ ねける累積平均認識率計算部 48 contains the cumulative average similarity calculation unit 39 in FIG. 10 and the cumulative average similarity storage unit 40, or the cumulative average recognition rate calculation unit 4 shown in FIG.
1 と累積平均認識率格納部 4 2 を設ける よ ラ に しているが 、 こ こ で は前者を用いる もの と し 、 第 8 図中では省略してある また、 音声 認識部 2 3 は 、 第 1 0 図や第 1 2 図の音声対話システム 6 、 7 のよ う にその機能を増強してある 1 and a cumulative average recognition rate storage section 4 2 are provided, however, the former is used here, and is omitted in FIG. 8. Its functions are enhanced as in the dialogue systems 6 and 7 in Fig. 10 and Fig. 12.
次に、 第 1 5 図を参照 しゝ 本発明の第 8 の実施の形態の音声対話 システ ム 8 の動作につレヽて説明する。 ュ ザ が音声 B舌システム 8 を使用 し始める と 、 第 1 0 図の音 声対話システム 6 の場合と 同様に、 音声認識部 2 3 が閾値を用いて ュ一ザ一曰 声 ^基に立 Next, the operation of the voice interaction system 8 according to the eighth embodiment of the present invention will be described with reference to FIG. When the user starts using the speech B tongue system 8, as in the case of the speech dialogue system 6 in FIG. 10, the speech recognition unit 23 uses the threshold to make a speech based on the user's voice.
曰 声認識部 2 3 でユーザーの応答がガイ ド音声 の問いかけに対する正しい応答に どれだけ類似しているかといった 類似度を検出する 累積平均類似度計算部では、 入力 された類似度 を基に累積平均類似度を計算して、 習熟度判定部 5 7 へ入力する。 習熟度判定部 5 7 では 、累積平均類似度を用いて習熟度を判定する。 この結果ゝ 習熟度が低いと判定されたと き は、 閾値変更部 4 3 で閾 値を下げる こ と によ り 音声対話システム 8 の使用に慣れていないュ 一ザ一の 曰声内容をも音声認識部 2 3 でよ り 認識し易いよ う にする。  The voice recognition unit 23 detects similarities such as how similar the user's response is to the correct response to the guide voice question.The cumulative average similarity calculation unit calculates the cumulative average based on the input similarity. The similarity is calculated and input to the proficiency level determination unit 57. The proficiency determining unit 57 determines the proficiency using the cumulative average similarity. As a result, when it is determined that the proficiency level is low, the threshold value is reduced by the threshold value changing unit 43, so that the user who is not accustomed to using the voice dialogue system 8 can also make a speech. Recognition section 23 makes recognition easier.
すなわち 、 類似度の閾値が常に固定されているケースでは、 第 1 That is, in the case where the threshold of the similarity is always fixed, the first
5 図 ( a ) に示すよ に、 音声対話システム 8 の使用に習熟してい る と習熟度判定部 5 7 で判定されたユーザーの場合には、 類似度が 音声 顾部 2 3 で類似度の判定に用いた閾値よ り 高く なってお り 、 ュ一ザ の音声を < 認識でき るのに対し、 音声対話システム 8 の 使用に習熟していなレ、と習熟度判定部 5 7 で判定されたユーザーの 口 には 、 類似度が立 5 As shown in Fig. 5 (a), if the user is judged to be proficient in using the spoken dialogue system 8 by the proficiency judging unit 57, the similarity is judged by the voice 顾 unit 23. The threshold is higher than the threshold used for the determination, and the user's voice can be recognized <, but the user is not proficient in using the spoken dialogue system 8. User's mouth has similarity
曰声認識部 2 3 で類似度判定に用いた閾値よ り 低く ュ ―ザ一の音尸 をあま り よ く 認識でき ないこ と になる。 This means that the voice recognition unit 23 cannot recognize the user's voice well below the threshold used for the similarity determination.
- そ で 、 習熟度判定部 5 7 がユーザーの習熟度が低いと判定した -Therefore, the proficiency level determination unit 57 determines that the user level is low.
*¾; 口 には 、 第 1 5 図 ( b ) に示すよ う に、 閾値変更部 4 3 で閾値を 下げ 、 以後こ の下げた閾値を用いて音声認識部 2 3 で類似度を決定 する よ う にする と 、 習熟度が低いユーザーでも音声認識部 2 3 でュ 一ザ一立 * ¾: In the mouth, as shown in Fig. 15 (b), the threshold value is lowered by the threshold value changing unit 43, and thereafter, the similarity is determined by the speech recognition unit 23 using the lowered threshold value. In this way, even a user with a low level of proficiency can use the voice recognition unit 23 to create a user-friendly environment.
曰 尸がよ り 容易に認識でき る よ う になる。  He will be able to recognize it more easily.
以上のよ う に、 本発明の第 8 の実施の形態の音声対.話システム 8 As described above, the voice-to-speech system 8 according to the eighth embodiment of the present invention is described.
■=±=■ ■ = ± = ■
は、 ュ ザ —の音尸対話システム使用の習熟度に応じてシステム側 立 Depends on the user's proficiency in using the dialog system. Standing
曰 声の出力を変更可能な音声対話システムを提供する こ と ができ る と と もに 、 習熟度を判定するのに検出や演算が簡単な累積平均類似It is possible to provide a spoken dialogue system that can change the voice output, and it is also easy to detect and calculate cumulative average similarity to determine proficiency.
- 度を用いる とが可能と な 、 この場合 、 ユーザ ―の習熟度が低い と きには 、 類似度を決定する と さの閾値を下げる よ ラ に変更する こ と によ り 、 習熟していないュ ' ザ一の音 をよ り 容易に S^S "3 る こ と カ 可能と なる  -It is possible to use the degree. In this case, when the user's proficiency is low, the user is proficient by changing the threshold to lower the threshold for determining the similarity. S ^ S "3 more easily
次に 、 第 1 6 図を参照し 、 本発明の第 9 の実施の形態の音声対 S舌 システ ムの稱成について説明する  Next, referring to FIG. 16, a description will be given of the configuration of the voice-to-S tongue system according to the ninth embodiment of the present invention.
第 1 6 図に示すよ う に、 本発明の第 9 の実施の形態の音声対話シ ステム 9 は 、 第 1 図に示した第 1 の実施の形態 立  As shown in FIG. 16, the speech dialogue system 9 according to the ninth embodiment of the present invention is different from the voice conversation system 9 according to the first embodiment shown in FIG.
の 曰 対話システム The said dialogue system
1 の習熟度判定部 5 0 に代えて 、 ユーザ一である話者が誰であるかIn place of the proficiency judgment unit 50 of 1, who is the speaker who is the best user
- を判定する 口者判定部 4 4 と 、 の話者判定部 4 4 で識別 した話者 情報と発尸 タィ 、 ング検出部 2 7 から得た発声タィ 、 ング情報と が 入力されてュ一ザ ―の習熟度を判定する習熟度判定部 5 8 と を設け た点が 尸対話システム 1 と相旌してお り 、 その他の構成は音声対 システム 1 と 同一である  The mouth determination unit 44, the speaker information identified by the speaker determination unit 44, the speech timing, the utterance timing obtained from the ring detection unit 27, and the ring information are input to the user. The point that a proficiency level judging unit 58 for judging the proficiency level of the user is provided is similar to that of the dialogue system 1, and the other configuration is the same as that of the voice pair system 1.
なお 、 同図では 、 省略しているが、 話者判定部 4 4 で判定された 話者情報と習熟度判定部 5 8 で判定された当該話者の習熟度情報と が入力 されて s占者ごと の習 スに関する情報を格納してわ \ B占者別 習熟度格納部を設けてある  Although not shown in the figure, the speaker information determined by the speaker determination unit 44 and the proficiency level information of the speaker determined by the proficiency level determination unit 58 are input and the s Stores information on learning for each player. \ B
次に 、 第 1 7 図を参照 し 、 本発明の第 9 の実施の形態の音声対話 システム 9 の動作について説明する。  Next, the operation of the speech dialogue system 9 according to the ninth embodiment of the present invention will be described with reference to FIG.
ュ ' ~ザ一が立  ''
曰 対話システム 9 を使用 し始める と 、 第 1 7 図に示 すよ う に 、 最初のュ ' ザ一が発声するュ一ザ一音 U 1 0 を基に話 者判定部 4 4 で話者を判定し、 話者別習熟度格納部からその話者の 習熟度情報を み出 し、 続く ガィ K 立 When the conversation system 9 is started to be used, as shown in Fig. 17, the speaker determination unit 4 4 uses the speaker judgment unit 44 based on the user sound U 10 uttered by the first user. Is determined from the speaker-specific proficiency storage unit. Find out proficiency level information and continue
曰 を tmみ出 した習熟度に合わ せてス ピ一力 2 0 から出力する にする。  According to the level of proficiency at which tm has come out, we will output from speed 20.
すなわち 、 話者が習熟していなレ、場合には 、 第 1 7 図 ( a ) に示 すよ う に In: < ガィ K 曰 S 2 0 を詳細な内容で出力 し 、 P¾者が習熟 している場 には 、 第 1 7 図 ( b ) に示すよ う に続 < ガイ ド音声 s In other words, if the speaker is not proficient, as shown in Fig. 17 (a), In: <Gy K outputs S20 with detailed contents, and the P¾ In the case where the sound is being played, as shown in Fig. 17 (b),
2 2 をよ り 簡素化した内容に変更 して出力する よ ラ にする 2 Change 2 to a more simplified version and output it
なお 、 話者が習熟していなレヽ ■¾; 口 には、 第 1 図の立  Note that the speaker is not proficient in the mouth.
曰声対話システ ム 1 の Π と |pj にゝ 発 タィ ヽング検出部 2 7 で第 1 7 図のガイ 、 立 古  In the voice dialogue system 1 and | pj, the development timing detection unit 27 uses the Guy and Riko
卜 曰 尸 S 2 0 の出力開始時間とュ一ザ一音声 U 2 0 の発尸'開始時間 The output start time of S20 and the start time of U20 sound
- と の時間差を検出 し 、 の時間差を用いて習熟度判定部 5 8 で習熟 度を判定する この • 口 、 ュ ' ザ一の習熟度が向上して音声対話シ ステム 9 の使用にュ ザ一が慣れている と判定された場合には 、 ¾ 者判定部 4 4 で判定した話者の習熟度を慣れていないレベルから慣 れている と の レベル 曰 さ換えて 者別習熟度格納部に格納する。 これに対し 、 発尸 タィ 、 ングを用レ、て判定した習熟度がまだ慣れて レヽなレヽ レベルのままである場合には 、 話者別習熟度格納部に格納さ れている 当該話者の習熟度の書さ換えは実行しなレ、  -The time difference between and is detected, and the proficiency level is determined by the proficiency level determination unit 58 using the time difference between and the proficiency level of the user and the user is improved. If it is determined that one is used, the level determined that the speaker's proficiency determined by the person determination unit 44 is used from an unfamiliar level is changed. To be stored. On the other hand, if the proficiency determined by using the learning timing and the proficiency is still accustomed and remains at a high level, the relevant speaker stored in the speaker-specific proficiency storage unit is used. Do not rewrite your proficiency
以上のよ 5 に. 、 本発明の第 9 の実施の形態の音 対話システム 9 fま、 S¾者 と に習熟度を判定し各ュ一ザ一の習熟度に合わせて変更 した内容のガィ ド立等の システム側立 - 曰 声を出力する と が可能と な したがつて 、 ガィ 曰 声 s 1 0 に対するュ ' ザ一音声 U 1 0 の 入力段階で話者を判定でさ る こ と から 、 ガイ ド音尸 S 2 0 と これに 対応するュ ―ザ 立  As described above, the sound dialogue system 9f according to the ninth embodiment of the present invention determines the proficiency level with the S¾ person, and changes the content according to the proficiency level of each user. The system can be used to output the voice, so that the speaker can be determined at the input stage of the user's voice U10 for the voice s10. From the above, the guide sound S20 and the corresponding user
曰 尸 U 2 0 と から習熟度を判定する音声対話シス テム 1 等に比ベ 、 よ り 早レ、段階で習熟度を判定してシステム側音声 を出力する 、 と がでさ る また 、 たと えば使用を許可する話者をあ らかじめ登録しておけば、 ユーザ 1 ~~が使用許可を登録された者であ るか否かを判定でき、 音声対話システム 9 の使用者を制限する こ と な ども可能と なる。 According to U20, the level of proficiency is determined earlier and the proficiency level is determined at a later stage, and the system-side voice is output, as compared to the voice dialogue system 1 that determines the level of proficiency from U20. For example, if you want to By registering in advance, it is possible to determine whether or not the users 1 to are registered for use permission, and it is possible to limit the users of the voice interaction system 9.
次に、 第 1 8 図を参照し、 本発明の第 1 0 の実施の形態の音声対 システムの構成について説明する  Next, with reference to FIG. 18, the configuration of the voice pair system according to the tenth embodiment of the present invention will be described.
第 1 8 図に示すよ う に、 本発明の第 1 0 の実施の形態の 曰 声対話 システム 1 0 は、 本発明の第 1 の実施の形態の立  As shown in FIG. 18, the speech dialogue system 10 according to the tenth embodiment of the present invention is different from the voice conversation system 10 according to the first embodiment of the present invention.
曰 対話システム 1 に 、 異なる内容の辞書を有する音 ¾·、 π^ζ ¾r 曰 τ 一タベ 一ス 4 5 と 、 立  According to the dialogue system 1, sounds 辞書 ·, π ^ ζ ¾r with different content dictionaries,
曰 尸 卩¾¾部 2 3 で用いる辞書を応答生成部 2 6 で出力される往々音 尸信号を基に切 り 替える辞書切替部 4 6 と を さ らに追加 した点が相 す 。 This is in addition to a dictionary switching unit 46 that switches the dictionary used in the synthesizing unit 23 based on the frequently used speech signal output by the response generating unit 26.
次に、 第 1 9 図を参照し、 本発明の第 1 0 の実施の形態の音声対 システム 1 0 の動作について説明する。  Next, the operation of the voice-to-speech system 10 according to the tenth embodiment of the present invention will be described with reference to FIG.
ュ一ザ一が音声対話システム 1 0 を使用 し始める と 、 ス ピ一力 2 When the user starts using the speech dialogue system 10, the speaker 2
0 から出力 されるガイ ド音声に応えてユ ーザ一が発するュ一ザ一音 尸 をマィ ク ホ ン 2 1 で補足する こ の補足された信号は 、 第 1 図 の立声対話システム 1 の場合と 同 に、 発尸 タィ ヽ ング検出部 2 7 で発声タィ 、 ングが検出される。 この発声タィ ヽ ングを用いて習熟 度判定部 5 9 が判定したユーザーの習熟度に応じてス ピ一力 2 0 か ら出力するガイ ド音声の内容を変更する よ ラ に応答生成部 2 6 で応 立 The user's one sound generated by the user in response to the guide voice output from 0 is supplemented by the microphone 21. The supplemented signal is a voiced conversation system 1 shown in FIG. As in the case of (1), the utterance timing is detected by the utterance timing detection unit 27. Using the utterance timing, the proficiency determination unit 59 changes the content of the guide voice output from the speed 20 according to the user's proficiency determined by the responsiveness determination unit 59. Established in
答 曰 号を生成する Answer Generate a sign
この場 、 応答生成部 2 6 の応答音声信号の内容に基づさ辞書切  In this case, the dictionary is generated based on the content of the response voice signal of the response generation unit 26.
 Standing
替部 4 6 が 曰声認識辞書データべ一ス 4 5 の複数の辞書から上記内 容に合つた辞書を選択する よ う に切 り 替え 立 The switching unit 46 switches so as to select a dictionary matching the above contents from the plurality of dictionaries in the voice recognition dictionary database 45.
、 臼 ΒΕ·識部 2 3 で利用 可能とする たと えば、 第 1 9 図 ( a ) に示すよ う に 「横浜巿のどち らですか。 区名をお話し下さい。」 と のガイ ド音声 S 2 0 を出力 し、 その応答が いずれかの区名である こ と を予想して横浜市の全区名辞書 D 1 を用 してレ、るにもかかわらず、 ユーザーがガイ ド音声 S 2 0 の前半の 部分である 「横浜市の どち らですか。」 のみに注意が向き後半の 「区 名 をお話しく ださい に気づかなかった り 、 あるいは 「新横浜」 が 区名である と勘]^レ、して、 区名でない 「新横浜」 と言った内容のュ 一ザ一立 , Available to us For example, as shown in Fig. 19 (a), a guide voice S20 of "Which of Yokohama? Please tell me the ward name." Is output, and the response is Despite using the dictionary D1 of all ward names in Yokohama City in anticipation of being a name, the user was asked to read the first part of the guide voice S20, Or "I don't notice the name of the ward in the second half, or I think that" Shin-Yokohama "is the name of the ward] ^^ What you said
曰声 U 2 1 を発した とする と 、 「新横浜」 は横浜市の全区名辞 書 D 1 には入ってレ、ないので音声認識部 2 3 では認識でき ないこ と になる  If you say U 21, "Shin-Yokohama" will not be recognized by the speech recognition unit 23 because it does not appear in all ward abbreviations D 1 in Yokohama.
これに対し、 本立  In contrast,
曰 対話システム 1 0 の辞書切替部 4 6 では、 ガ 、  According to the dictionary switching unit 4 6 of the dialogue system 10,
ィ ド音声 S 2 0 の刖半部分ではユーザ一が区名 よ り 下位の町や字な どの名 を う 可能性があるので、 第 1 7 図 ( b ) に示すよ う にガイ it -=;=· Since the user may name a town or character lower than the ward name in the most part of the guide voice S20, the guide it-= as shown in Fig. 17 (b) ; = ·
曰 尸 2 0 の出力開始からガイ ド立声 S 2 0 の終了後の所定時間 までの間 、 横浜市の全区名辞書 D 1 を利用でき る よ う にする と と も に 、 ガイ K音声 s 2 0 の出力開始から 「区名を · · の後半部分 の途中までのみ横浜巿の全町字辞書 D 2 を音声認識部 2 3 で利用で さ る よ う に切 り 替える 。 したがってゝ ユーザーが 「新横浜」 といつ た区名でなぃュ一ザ一音声 U 2 1 を発しても横浜巿の全町字辞書 D From the start of the output of the social network 20 to the predetermined time after the end of the guide voice S 20, the dictionary D 1 of all ward names in Yokohama is made available and the voice of the guy K is used. From the start of the output of s 20, the ward name is switched so that the whole town character dictionary D 2 of Yokohama の み can be used by the speech recognition unit 23 only in the middle of the second half of · ·. Issued a voice U 21 with the name of the ward named “Shin-Yokohama”, but the entire town dictionary D of Yokohama
2 を利用 して正し < 目 的地を認識する こ と ができ る よ う 〖こなる。 一方、 第 1 9 図 ( c ) に示すよ う に 、 ガイ ド音声 S 2 0 の出力開 始から 「区名 を」 辺 り までは横浜巿の全町字辞書 D 2 と し、 その後 を横浜巿の全区名辞書 D 1 に切 り 替える よ う にする こ と もでき る。 このよ う にすれば 、 ュ一ザ一がガイ ド、音声 S 2 0 の途中であわてて 町名を言つ こ 口 にち 、 あるいはガィ ド音声 S 2 0 を聞き終えて区 名 を言わねばならないこ と を認識してた と えば 「神奈川区 J と レヽっ ュ ' 0 aifc It is possible to recognize the correct place using <2>. On the other hand, as shown in Fig. 19 (c), from the start of the output of the guide speech S20 to the neighborhood of "ku name", the whole town character dictionary D2 of Yokohama 巿 is used, and the rest is Yokohama. It is also possible to switch to the all ward name dictionary D 1 of 巿. In this way, the user can hear the guide and hear the name of the town in the middle of the voice S20, or hear the guide voice S20 and finish the ward. I realized that I had to say my name, for example, "Kanagawa-ku J and review '0 aifc
た ザ一 2 0 を発声した 合に - S If you say the one 20-S
音声 u も 曰 尸 繭部 2 3 で る こ と が可能と なる o  The voice u can also be output from the cocoon part 23
以上のよ う に、 本発明の第 1 0 の実施の形態 立  As described above, the tenth embodiment of the present invention was established.
の 曰 声対話システム The voice dialogue system
1 0 は 、 ュ一ザ一の音声対話シス テム使用の習熟 /スに応じてシステ ム側音 の出力を変更可能な音声対話システムを提供する こ と がで さ る と と もに、 ガィ ド音声等のシステム側音声の問いかけ内容に応 じてュ一ザ一力';応答しそ う な内容 (それがシステム側音 の問いか け A 10 is to provide a voice dialogue system that can change the output of system side sounds according to the user's proficiency / skill in using the voice dialogue system. The user's ability in response to the contents of the system-side sound, such as the system sound; the content likely to respond (that is, the system-side sound A
1=1 つた応答であれ誤り そ う な内容であれ) の辞書に切 り 替える - と がでさ 、 辞書を固定した場合に比ベ誤認識が減り ュ ザ一の応 答内容をよ り 早く 把握する こ と等が可能と なる。  1 = Switch to a dictionary with either a single response or an error that seems to be wrong)-When the dictionary is fixed, false recognition is reduced compared to a fixed dictionary, and the response content of the user is faster. It is possible to grasp the situation.
なお 、 本発明では上記実施の形態に限られず、 それらの一部を変 更または修正して ち よい。  It should be noted that the present invention is not limited to the above embodiment, and some of them may be changed or modified.
すなわち 、 上記実施の形態では 、 習熟度判定部で判定する ための 入力項百 と して発 タイ ミ ング、 発 速 'ス 、 累禾貝使用回数 、 累積平 均類似度 、 累積平均認識率等の う ちの一つを用いたが、 これに限る こ と な < これらを組合せて用いる ラ に しても よレ、 o  That is, in the above-described embodiment, the input timing for the proficiency level determination unit 100 includes input timing, output speed, cumulative use of the mussels, cumulative average similarity, cumulative average recognition rate, and the like. One of the above was used, but it is not limited to this.
また 、 システム側音声の内容ごと に習熟度を判定して記憶してお き 、 習熟した と判定したシステム側立  Also, the proficiency level is determined and stored for each content of the system-side audio, and the system-side setup determined to be proficient is stored.
曰 の内容のちのだけシステム 側音声の出力を変更する よ う に して 、 本当にユーザ -が慣れた内容 だけにつレ、て出力変更が行われる よ う に して も よい o  It may be possible to change the output of the system-side audio only after the contents described, so that the output is changed only based on the contents that the user is really used to o
また 、 発声タイ 、 ング検出部 2 7 では 、 システム側音尸の出力開 始時間 とュ一ザ一側音声の発声開始時間と の時間差を取る よ う に し たが、 必ずしも開始時間に限る こ と なく 途中の時間を検出 して時間 を求める よ う に しても よい。 以上説明 したよ フ に、 ュ一ザ一の音声対話システム使用の習熟度 に応じてシス テ ム側立 In addition, the utterance tie detection unit 27 takes the time difference between the output start time of the system-side sound source and the utterance start time of the user's one-sided voice, but this is not necessarily limited to the start time. It is also possible to detect the time on the way and obtain the time. As described above, depending on the user's proficiency in using the voice dialogue system, the system side
曰 の出力を変更する こ と が可 立  It is possible to change the output
能な 曰 声対話シ - ステムを提供する と がでさ る。  It is possible to provide an effective speech dialogue system.
産業上の利用可能性 Industrial applicability
以上のよ う に、 本発明にか力 る B 声対話システム及び曰 尸対話方 法は、 シス テ ム側とュ一ザ一が音尸 で対話する 、 ュ―ザ一の習熟 度に応じてシステム側 曰 の出力を変更可能である とい 効果を有 し、 音声対話システム と して有用でめ る。  As described above, the B-voice dialogue system and the dialogue method according to the present invention are based on the user's proficiency, in which the system and the user interact with each other by sound. It has the effect that the output of the system can be changed, and is useful as a spoken dialogue system.

Claims

請 求 の 範 囲 The scope of the claims
1 . ュ ザ —に対してシス テ ム側音声を出力可能な音声出力部と、1. An audio output unit that can output system-side audio to the user
-、ム -M
刖記音尸出力部が出力 したシステ ム側音声に従つて前記ユーザ一が 発声したュ一ザ一音声を音声信号に変換するマィ ク ロホンと 、 前 IB マィ ク 口 ホンへ入力 された前記ユーザー音声を 13 声認識する 声認 部と 、 記ユーザ一音声を前記マイ ク ロ ホンによ り 変換した目 U §己マ A microphone for converting the user's voice uttered by the user into a voice signal in accordance with the system-side voice output from the recording section output unit, and the user's input to the previous IB microphone mouth phone A voice recognition unit for recognizing 13 voices, and an eye converted from the user's voice by the microphone.
1°信号に基づいて前記ユーザーの音声対話の習熟度を判定する習 熟度判定部と 、 刖記習熟度判定部で判定した前記習熟度に応じて前 記システム側音声の出力を変更する音声出力変更部と を備えたこ と を特徴とする音声対言舌シス テ ム。 A proficiency judging unit for judging the proficiency of the user's voice dialogue based on the 1 ° signal; and 音 声 a voice for changing the output of the system-side speech according to the proficiency determined by the proficiency deciding unit. A speech tongue tongue system characterized by having an output changing unit and.
2 . 刖記システム側音声の出力の変更は、 詳細な出力内容と ¾リ Rし詳 細な出力内容よ り 簡素な出力内容と の少なく と も 2つの出力内容間 で行 う こ と を特徴とする請求項 1 に記載の音声対言舌シス テ ム o 2. The output of the recording system side audio is changed between at least two output contents, with detailed output contents and simpler output contents than detailed output contents. Speech tongue tongue system according to claim 1
3 . 入力された刖記音声信号に基づいて前記ュ一ザ一が発声する発 3. The utterance produced by the user based on the input voice signal
 ヽ
尸 タィ 、 ングを検出する発声タイ ミ ング検出部を備え、 前記習熟度 判定部は 、 刖記発声タイ ミ ングを用いて前記習熟度を判定する こ と を特徴とする請求項 1 に記載の音声対話システム ο 2. The utterance timing detection unit for detecting timing and timing, wherein the proficiency level determination unit determines the proficiency level using a utterance timing. Spoken dialogue system ο
4 . 刖記発声タイ ミ ングが前記ユーザーの発声開始時間であ り 、 刖 記習熟度判定部が前記発声開始時間 と前記システム側音声の出力開 始時間と の時間差を用いて前記習熟度を判定する こ と を特徴とする 求項 3 に記載の音声対話シス テ ム。  4. The recording utterance timing is the utterance start time of the user, and the 習 recording proficiency determination unit determines the proficiency using the time difference between the utterance start time and the output start time of the system-side voice. The voice interaction system according to claim 3, characterized in that it is determined.
5 . 入力 された刖記音声信号に基づいて前記音尸認識を利用 したュ 一ザ一 尸入力の累積使用回数をカ ウン トする使用回数力 ゥン ト部 を備えゝ 刖 p己 ¾? z,判定部が、 前記使用回数力 ゥ ン ト部力 ら た W1 記累積使用回数を用いて前記習熟度を判定する こ と を特徴とする請 求項 1 に記載の音声対話システム o 5. A use count unit for counting the cumulative use count of a user's input using the speech recognition based on the input voice signal is provided. , The judgment unit obtains W1 from the use frequency force The spoken dialogue system according to claim 1, wherein the proficiency level is determined using the cumulative number of times of use.
6 - 入力 された前記音声信号に基づいて前記音声認識を利用 した前 記ュ —ザ一音声入力の使用頻度を計算する使用頻度計算部を備え、 前記習熟度判定部が、 前記使用頻度計算部から得た前記使用頻度を 用レ、て前記習熟度を判定する こ と を特徴とする請求項 1 に記載の音 尸対話システ ム。  6-a use frequency calculating unit that calculates the use frequency of the voice input based on the input voice signal using the voice recognition, wherein the proficiency level determination unit includes the use frequency calculation unit 2. The sound dialogue system according to claim 1, wherein the proficiency level is determined by using the use frequency obtained from the user.
7 • 入力 された前記音声信号に基づいて前記音声認識を利用 した前 記ュ一ザ一音声の発声速度を計算する発声速度計算部を備え、 前記 習熟度判定部が、 前記発声速度計算部から得た前記ユーザーの発声  7 • a utterance speed calculation unit that calculates the utterance speed of the user's single voice using the voice recognition based on the input voice signal, wherein the proficiency level determination unit determines the utterance speed from the utterance speed calculation unit The utterance of the user obtained
· - 速度を基に前記習熟度を判定する と を特徴とする請求項 1 に記載 の 声対話システ ム。  ·-The voice interaction system according to claim 1, wherein the proficiency level is determined based on speed.
8 - 入力 された前記音声信号に基づいて前記システム側音声に応答 した目 IJ §己ユーザー音声の内容が正しい応答内容に どれだけ類似 して いるかを表す類似度を使って累積平均類似度を計算する累積平均類 似度計算部を備え、 前記習熟度判定部が、 前記累積平均類似度計算 部から得た前記累積平均類似度を用いて前記習熟度を判定する こ と を特徴とする請求項 1 に記載の音声対言舌シス テム。  8-Eye responding to the system voice based on the input voice signal IJ § Calculate cumulative average similarity using similarity that indicates how similar the content of the user's voice is to the correct response A cumulative average similarity calculation unit that performs the calculation, wherein the proficiency determination unit determines the proficiency using the cumulative average similarity obtained from the cumulative average similarity calculation unit. The speech tongue system described in 1.
9 - 入力 された前記音声信号に基づいて前記システム側音声に応答 した目 IJ記ユーザ一音声の内容が前記システ ム側音声の内容を どれだ け正確に認識してな されたか否かを表す認識率を使って累積平均認 識率を計算する累積平均認識率計算部を備え、前記習熟度判定部力 記累積平均認識率計算部から得た前記累積平均認識率を用いて前 記習熟度を判定する こ と を特徴とする請求項 1 に記載の音声対話シ ステム。 1 0 • 記習熟度判定部にて前記習熟度が所定値よ り 低い と判定さ れた場口 に 刖記類似度または 5し 識率を決定するため の閾値を 下げる う に閾値を変更する閾値変更部を備えたこ と を特徴とする9-Eye responding to the system-side voice based on the input voice signal Indicates how accurately the contents of the user's voice have been recognized by the contents of the system-side voice. A cumulative average recognition rate calculation unit that calculates a cumulative average recognition rate using the recognition rate; and a proficiency determination unit. The voice interaction system according to claim 1, wherein the determination is made. 1 0 • Change the threshold value to lower the threshold value for determining the similarity or 5 recognition rate at the entrance where the proficiency level is determined to be lower than the predetermined value by the proficiency level determination unit. It has a threshold changing unit.
5冃求項 8 ίこ §C ¾,の音声对目舌システム。 5 Requirement 8 C §C ¾, a speech tongue system.
1 1 • 記習熟度判定部は IU記ュ ' ザ に対して 記音声出力部 が出力する刖記システム側 古  1 1 • The learning proficiency judgment unit is used by the recording system output by the recording output unit to the IU user.
曰 尸 の内容の 味を加味して刖記 熟度 を判定する こ と を特徴とす 求項 1 に記載の 曰 対話システム。 The conversation system according to claim 1, characterized in that the ripeness is determined in consideration of the taste of the contents of the conversation.
1 2 • 入力 された前記音声信号に基づレ、て話者が siである力 の R9¾ を行ラ 話者認識部を備え、 ¾リ記習熟度判定部が 記話者判定部で ¾ 識したュ ザ一ごと に目 IJ記習熟度を判定する こ と を特徴とする an求 項 1 に記載の音声対話システム o 1 2 • Based on the input voice signal, perform R9¾ of the power with the speaker being si. The speaker recognition unit is provided. The speaker proficiency judgment unit is recognized by the speaker judgment unit. The voice dialogue system described in item 1 characterized by determining the eye IJ proficiency level for each user
1 3 • 記音声出力部からュ ザ に対し出力される刖記システム 側 曰 尸 の内容が変化したと さ、 変化した内容に応 じて刖記ュ一ザ一 が発 する と予測される内容の辞書へ辞 を切 替える こ と を特徴 とするロ冃求項 1 に目 載の音声対話システム  1 3 • When the contents of the recording system output to the user from the recording output unit change, the contents that the user is expected to emit in response to the changed contents Spoken dialogue system described in claim 1 characterized by switching words to a dictionary
 Mountain
1 4 • 記マイ ク ロホンから入力 された 臼 号から flj記音尸 出 力部が出力 した刖 §己ンステム側曰 声の出力相当信号分を除去する音 尸応答除去部を備えたこ と を特徴とする a* 1 4 • The flj sound output unit outputs from the mortar signal input from the microphone. The sound filter response remover that removes the signal equivalent to the output of the voice from the system is characterized. A *
ロ冃求項 1 に記載の音声対話 システム  B. Spoken dialogue system described in claim 1
1 5 • 声出力咅 からュ ' ~ザ に対してシステム側 曰 尸 を出力可能 であ り ιυ目己
Figure imgf000046_0001
声出力部が出力 した IU記システム側 尸に つて前 記ュ ザ —が発声した ザ 声をマィ ク 口 ホンで 声信号に変 換し BU記マイ ク ロ ホンへ入力 された目 U記ュ ' ~ザ 曰 尸 を音声 部で 尸 B¾ S或 "9 る と と もに IU記システム側音尸 に J心答する前記ュ
1 5 • It is possible to output the system message from the voice output terminal to the user.
Figure imgf000046_0001
The voice output by the voice output unit is converted into a voice signal by the microphone through the voice output by the user described above on the side of the IU recording system output by the voice output unit, and the voice input by the microphone to the BU recording microphone. ~ The voice is written in B 音 声 S or "9" and the UU system system voice
1  1
ザ 声力 BU記マイ ク 口 ホンによ り 換された目リ記曰 声信号に基 づいて前記ユーザーの音声対話の習熟度を判定した後に、 前記判定 した習熟度に応じて前記システム側音声の出力を変更する こ と を特 徴とする音声対話方法。 The voice power BU microphone Mic mouth And determining the proficiency level of the user's voice dialogue, and then changing the output of the system-side voice according to the determined proficiency level.
PCT/JP2004/008772 2004-06-16 2004-06-16 Voice dialog system and voice dialog method WO2005124738A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/008772 WO2005124738A1 (en) 2004-06-16 2004-06-16 Voice dialog system and voice dialog method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/008772 WO2005124738A1 (en) 2004-06-16 2004-06-16 Voice dialog system and voice dialog method

Publications (1)

Publication Number Publication Date
WO2005124738A1 true WO2005124738A1 (en) 2005-12-29

Family

ID=35509947

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/008772 WO2005124738A1 (en) 2004-06-16 2004-06-16 Voice dialog system and voice dialog method

Country Status (1)

Country Link
WO (1) WO2005124738A1 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02250099A (en) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd Speech recognition system
JPH1020884A (en) * 1996-07-04 1998-01-23 Nec Corp Speech interactive device
JP2000194386A (en) * 1998-12-24 2000-07-14 Omron Corp Voice recognizing and responsing device
JP2001282284A (en) * 2000-03-31 2001-10-12 Denso Corp Voice recognition device
JP2001296890A (en) * 2000-04-12 2001-10-26 Auto Network Gijutsu Kenkyusho:Kk On-vehicle equipment handling proficiency discrimination device and on-vehicle voice outputting device
JP2003091299A (en) * 2001-07-13 2003-03-28 Honda Motor Co Ltd On-vehicle voice recognition device
JP2004151562A (en) * 2002-10-31 2004-05-27 Seiko Epson Corp Method for controlling voice interaction and voice interaction control device
JP2004163541A (en) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp Voice response device

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02250099A (en) * 1989-03-23 1990-10-05 Matsushita Refrig Co Ltd Speech recognition system
JPH1020884A (en) * 1996-07-04 1998-01-23 Nec Corp Speech interactive device
JP2000194386A (en) * 1998-12-24 2000-07-14 Omron Corp Voice recognizing and responsing device
JP2001282284A (en) * 2000-03-31 2001-10-12 Denso Corp Voice recognition device
JP2001296890A (en) * 2000-04-12 2001-10-26 Auto Network Gijutsu Kenkyusho:Kk On-vehicle equipment handling proficiency discrimination device and on-vehicle voice outputting device
JP2003091299A (en) * 2001-07-13 2003-03-28 Honda Motor Co Ltd On-vehicle voice recognition device
JP2004151562A (en) * 2002-10-31 2004-05-27 Seiko Epson Corp Method for controlling voice interaction and voice interaction control device
JP2004163541A (en) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp Voice response device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISOBE T. ET AL, THE ACOUSTICAL SOCIETY OF JAPAN (ASJ), 25 September 1996 (1996-09-25), pages 31 - 32, XP002996278 *

Similar Documents

Publication Publication Date Title
KR100383353B1 (en) Speech recognition apparatus and method of generating vocabulary for the same
CN111524534B (en) Voice analysis method, system, device and storage medium
WO2015151157A1 (en) Device and method for understanding user intent
US20190013008A1 (en) Voice recognition method, recording medium, voice recognition device, and robot
US20090220926A1 (en) System and Method for Correcting Speech
JP2000194386A (en) Voice recognizing and responsing device
KR101836430B1 (en) Voice recognition and translation method and, apparatus and server therefor
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP2004333543A (en) System and method for speech interaction
US10143027B1 (en) Device selection for routing of communications
JP2010197644A (en) Speech recognition system
JP2004163541A (en) Voice response device
JP2003177779A (en) Speaker learning method for speech recognition
Batlouni et al. Mathifier—Speech recognition of math equations
JP2001125584A (en) Method and device for detection of stammering
JP2009116075A (en) Speech recognition device
JP2011053312A (en) Adaptive acoustic model generating device and program
US11172527B2 (en) Routing of communications to a device
KR20150049449A (en) Apparatus for evaluating pronunciation of language and recording medium for method using the same
WO2005124738A1 (en) Voice dialog system and voice dialog method
KR20150014235A (en) Apparatus and method for automatic interpretation
KR101487007B1 (en) Learning method and learning apparatus of correction of pronunciation by pronunciation analysis
US11043212B2 (en) Speech signal processing and evaluation
JP3277579B2 (en) Voice recognition method and apparatus
JP2005157166A (en) Apparatus and method for speech recognition, and program

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP