WO2017085815A1 - 困惑状態判定装置、困惑状態判定方法、及びプログラム - Google Patents

困惑状態判定装置、困惑状態判定方法、及びプログラム Download PDF

Info

Publication number
WO2017085815A1
WO2017085815A1 PCT/JP2015/082437 JP2015082437W WO2017085815A1 WO 2017085815 A1 WO2017085815 A1 WO 2017085815A1 JP 2015082437 W JP2015082437 W JP 2015082437W WO 2017085815 A1 WO2017085815 A1 WO 2017085815A1
Authority
WO
WIPO (PCT)
Prior art keywords
period
utterance
voice
state determination
call
Prior art date
Application number
PCT/JP2015/082437
Other languages
English (en)
French (fr)
Inventor
太郎 外川
紗友梨 香村
猛 大谷
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2015/082437 priority Critical patent/WO2017085815A1/ja
Priority to CN201580084621.5A priority patent/CN108352169B/zh
Priority to JP2017551446A priority patent/JP6544439B2/ja
Publication of WO2017085815A1 publication Critical patent/WO2017085815A1/ja
Priority to US15/980,226 priority patent/US10679645B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/428Arrangements for placing incoming calls on hold
    • H04M3/4285Notifying, informing or entertaining a held party while on hold, e.g. Music On Hold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to a puzzle state determination device, a puzzle state determination method, and a program.
  • an unskilled operator may be in a state of confusion due to customer complaints or the like, and it may be difficult to take an appropriate response.
  • the intention of the speaker is determined based on the prosody change of the call voice. For example, in this technique, when the duration of an utterance is short and the fundamental frequency is increased, it is detected that the speaker is suspected, that is, the speaker may be in a confused state.
  • an object of the present invention is to improve the determination accuracy of a user's confused state.
  • the question utterance detection unit detects the question utterance included in the user's voice
  • the frequency acquisition unit calculates the frequency of the question utterance, which is the number of question utterances detected by the question utterance detection unit per unit time. Get within the call hold period.
  • the state determination unit determines that the user is in a confused state when the frequency of the question utterance acquired by the frequency acquisition unit is equal to or higher than the first threshold.
  • the puzzle state determination device 10 includes, for example, a question utterance detection unit 11, a frequency acquisition unit 12, and a state determination unit 13.
  • the questionable utterance detection unit 11, the frequency acquisition unit 12, and the state determination unit 13 are connected to each other.
  • the questionable utterance detection unit 11 detects the questionable utterance included in the user's voice.
  • the frequency acquisition unit 12 acquires the frequency of question utterances, which is the number of question utterances detected by the question utterance detection unit 11 within the call hold period, per unit time within the call hold period.
  • the state determination unit 13 determines that the user is in a confused state when the frequency of the question utterance acquired by the frequency acquisition unit 12 is equal to or higher than the first threshold.
  • the puzzle state determination device 10 may be, for example, a personal computer that can be connected to a fixed phone, a smartphone, or a mobile phone, or a dedicated device, or may be a part of a fixed phone, a smartphone, a mobile phone, or the like. Also good.
  • the puzzle state determination apparatus 10 includes a CPU (Central Processing Unit) 21, a primary storage unit 22, a secondary storage unit 23, an external interface 24, an audio signal receiving unit 25, and a microphone (microphone) 26.
  • the CPU 21, the primary storage unit 22, the secondary storage unit 23, the external interface 24, the audio signal reception unit 25, the microphone 26, the speaker 27, and the hold button 28 are connected to each other via a bus 29.
  • External devices are connected to the external interface 24, and the external interface 24 controls transmission / reception of various information between the external device and the CPU 21.
  • the microphone 26 receives the voice of the user side, for example, the voice including the utterance of the operator of the call center using the confusion state determination device 10 and converts it into a voice signal.
  • the microphone 26 is shown to be included in the puzzle state determination device 10, but the present embodiment is not limited to this.
  • the microphone 26 may be, for example, a microphone of a communication device such as a telephone connected to the puzzle state determination device 10, or may be an external microphone connected via the external interface 24.
  • the speaker 27 converts the voice of the other party, for example, the voice including the utterance of the customer who uses the call center, or the voice signal representing the hold melody, that is, the musical tone.
  • the speaker 27 is shown to be included in the puzzle state determination device 10, but the present embodiment is not limited to this.
  • the speaker 27 may be, for example, a speaker of a telephone device such as a telephone connected to the puzzle state determination device 10 or may be an external speaker connected via the external interface 24.
  • the hold button 28 When the hold button 28 is in the on state, the CPU 21 holds the call, and allows the call when it is in the off state.
  • the hold button is shown to be included in the puzzle state determination device 10, but the present embodiment is not limited to this.
  • the hold button 28 may be, for example, a hold button of a call device such as a telephone connected to the puzzle state determination device 10. In this case, the phone CPU holds the call or enables the call.
  • the voice signal receiving unit 25 receives a voice signal representing the voice of the other party of the call transmitted through a telephone line or an Internet line.
  • the primary storage unit 22 is a volatile memory such as a RAM (Random Access Memory).
  • the secondary storage unit 23 is a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the secondary storage unit 23 stores, for example, a puzzle state determination program 23A.
  • the puzzle state determination program 23A may be read from a storage medium such as a CD-ROM or DVD via the external interface 24, or may be received from an external server.
  • the CPU 21 reads the puzzle state determination program 23 ⁇ / b> A from the secondary storage unit 23 and develops it in the primary storage unit 22.
  • the CPU 21 operates as the questionable utterance detection unit 11, the frequency acquisition unit 12, and the state determination unit 13 illustrated in FIG. 1 by executing the puzzle state determination program 23 ⁇ / b> A.
  • the user of the puzzle state determination device 10 is, for example, a call center operator.
  • the puzzle state determination apparatus 10 determines whether the operator, that is, the user is in a puzzle state.
  • the puzzle state determination device 10 acquires a user's utterance with the microphone 26.
  • the puzzle state determination device 10 determines that the call is on hold in block 31 and detects the user's question utterance within the call hold period in block 32.
  • the puzzle state determination apparatus 10 obtains the frequency of the questioned utterance at block 33, and determines whether the user is in a puzzled state based on the frequency of the questioned utterance at block 34.
  • the confused state determination device 10 When it is determined that the user is in a confused state, the confused state determination device 10 notifies the screen of a terminal such as the user's administrator that the user is in a confused state, for example. Thereby, an administrator etc. can perform a user's support appropriately.
  • FIG. 4 shows an example of the puzzle state determination process performed by the puzzle state determination device 10.
  • step 101 the CPU 21 sets 0 to a counter Q that counts the number of questionable utterances (hereinafter also referred to as questionable utterance counter Q) and a register L that stores a call hold period (hereinafter also referred to as call hold period register L).
  • step 102 the CPU 21 sets 0 to a flag U (hereinafter also referred to as “speech segment flag U”) indicating whether or not the speech segment has been passed, that is, whether or not a speech has been performed.
  • a flag U hereinafter also referred to as “speech segment flag U”
  • step 103 the CPU 21 determines whether or not the call is on hold. For example, when the hold button 28 is on, the CPU 21 determines that the call is on hold. If the determination in step 103 is negative, the CPU 21 returns to step 101.
  • step 104 the CPU 21 acquires a call holding period. Specifically, the time length tf for one frame is added to the call hold period register L.
  • the time length tf for one frame is, for example, 20 milliseconds.
  • step 105 the CPU 21 receives an audio signal for one frame.
  • the audio signal is an audio signal corresponding to the audio received by the microphone 26, that is, the audio generated on the user side, and is temporarily stored in the primary storage unit 22.
  • step 106 the CPU 21 determines whether or not the period accumulated in the call hold period register L exceeds a predetermined third threshold (hereinafter also referred to as a hold period threshold). If the determination in step 106 is negative, the CPU 21 returns to step 103. On the other hand, if the determination in step 106 is affirmative, the CPU 21 determines that it is a call hold period, and proceeds to step 107.
  • the hold period threshold may be, for example, 30 seconds.
  • the CPU 21 determines whether or not the voice represented by the voice signal received in step 105 is the voice of the utterance section.
  • the utterance section is a section including the user's utterance. For example, when the power or signal-to-noise ratio of the voice signal received in step 105 exceeds a predetermined value, it is determined that the voice represented by the voice signal is an utterance section including not only background noise but also the user's utterance. To do.
  • step 107 If the determination in step 107 is affirmed, the CPU 21 sets 1 to the speech segment flag U in step 108. In step 109, the CPU 21 acquires the fundamental frequency of the audio signal.
  • the autocorrelation of the audio signal is calculated, and the time when the shift time is positive and the autocorrelation value is maximized at the minimum position is set as the basic period pr as illustrated in FIG. .
  • the fundamental frequency is obtained by dividing the sampling frequency Fs by the fundamental period pr.
  • Basic frequency Fs / pr (1)
  • the sampling frequency Fs is, for example, 8,000 Hz.
  • Step 107 the CPU 21 determines in step 110 whether or not the speech segment flag U is 1. If the determination in step 110 is negative, that is, if the utterance section flag U is 0, the CPU 21 returns to step 103 because there is no utterance for determining whether the utterance is a questionable utterance.
  • step 110 determines whether the determination in step 110 is affirmative. If the determination in step 110 is affirmative, the CPU 21 in step 111, as will be described later, asks if the utterance represented by the voice signal received in step 105 and stored in the primary storage unit 22, that is, the voice in the utterance section, is questioned. It is determined whether or not it is an utterance. If the determination in step 111 is negative, the CPU 21 returns to step 102.
  • the CPU 21 adds 1 to the question utterance counter Q in step 112, and acquires the frequency of question utterances, which is the number of question utterances per unit time, in step 113. .
  • step 114 the CPU 21 determines whether or not the frequency of the questioned utterance is equal to or higher than a predetermined first threshold value (hereinafter also referred to as a confusion threshold value).
  • a predetermined first threshold value hereinafter also referred to as a confusion threshold value.
  • step 114 determines in step 115 that the user is in a confused state, and proceeds to step 117.
  • the CPU 21 determines in step 116 that the user is not in a confused state, and proceeds to step 117.
  • step 117 the CPU 21 determines whether or not a call is in progress. When the determination in step 117 is affirmed, the CPU 21 returns to step 102. When the determination in step 117 is negative, the CPU 21 ends the puzzle state determination process. Note that the order of steps in FIG. 4 is an example, and the present embodiment is not limited to the order of steps in FIG. The same applies to the following embodiments.
  • step 111 it is determined whether or not the utterance represented by the voice signal received in step 105 and stored in the primary storage unit 22 is a questionable utterance. For example, in Japanese, it is common to raise the fundamental frequency at the end of an interrogative utterance. Therefore, for example, when the fundamental frequency of the audio signal is increased during a predetermined period at the end of the utterance section, it is determined that the utterance is an utterance.
  • a straight line sl that approximates the fundamental frequency in the predetermined period te at the end of the utterance interval is acquired by the least square method, and the slope of the straight line sl is positive.
  • a predetermined second threshold hereinafter also referred to as question utterance threshold
  • the predetermined period te at the end of the utterance section may be 1 second, for example. Note that after the determination in step 111 is completed, the audio signal received in step 105 and stored in the primary storage unit 22 may be deleted.
  • step 114 it is determined whether or not the frequency of the question utterance is equal to or greater than the confusion threshold.
  • the confusion threshold may be a constant value, but may be set to decrease as the call hold period increases as illustrated in FIG.
  • the call holding period When the user is in a confused state, the call holding period generally becomes longer in order to eliminate the cause of the confused state or simply to struggle to deal with it. Therefore, when the call holding period is long, it is estimated that the user is likely to be in a confused state even if the frequency of question utterances is relatively low.
  • the questioned utterance included in the user's voice is detected, the frequency of the questioned utterance, which is the number of questioned utterances detected during the call holding period, is acquired, and the frequency of the acquired questioned utterance is equal to or greater than the confusion threshold. In this case, it is determined that the user is in a confused state.
  • the frequency of the questioned utterance within the call hold period is acquired, and when the frequency is equal to or higher than the confusion threshold, it is determined that the user is in the confusion state, thereby improving the determination accuracy of the user's confusion state. It is possible to improve.
  • the confusion threshold is changed so as to become smaller as the call holding period becomes longer.
  • the call holding period generally becomes longer in order to eliminate the cause of the confused state or simply to struggle to deal with it. Therefore, when the call holding period is long, it is estimated that the user is likely to be in a confused state even if the frequency of question utterances is relatively low. Therefore, it is possible to improve the determination accuracy of the user's confusion state by changing the confusion threshold so that it becomes smaller as the call holding period becomes longer.
  • the voice in the utterance period is detected as the question utterance.
  • the slope of the fundamental frequency of the voice at the end of the utterance period is larger than the question utterance threshold, it is possible to improve the determination accuracy of the user's confused state by detecting the voice during the utterance period as the question utterance. .
  • the secondary storage unit 23 includes a phrase storage unit 23B.
  • An example of a predetermined phrase included in the phrase storage unit 23B is shown in FIG.
  • the predetermined phrase is “( ⁇ ) is (?)”, “( ⁇ ) Isn't it (?)”, “( ⁇ ) Kana (?)”, And “( ⁇ ) It is a phrase commonly used at the end of question sentences, such as
  • step 111 of FIG. 4 the CPU 21 recognizes an utterance included at the end of the utterance section, and determines whether or not the predetermined utterance included in the phrase storage unit 23 ⁇ / b> B is included in the utterance. Is determined to be an interrogative utterance. The end of the utterance section is within a predetermined period from the end of the utterance section.
  • Whether or not any of the predetermined words is included in the utterance is determined by, for example, converting the utterance into text, and matching the text of the predetermined word included in the word storage unit 23B with the converted text. It may be done. Moreover, you may perform by matching with the audio
  • the utterance includes the predetermined phrase when the similarity between the feature vectors, the distance between the feature vectors, or the feature vector appearance probability between any of the predetermined phrases included in the phrase storage unit 23B is higher than a predetermined value. You may judge.
  • FIG. 9 shows an example of Japanese
  • the present embodiment is not limited to Japanese and can be applied to other languages.
  • examples of predetermined phrases included in the phrase storage unit 23B are “doesn't it (?)”, “Don't they (?)”, “Isn't it (?)”. And “aren't they (?)”, Etc., for example, in Chinese.
  • a phrase included at the end of a question utterance that frequently appears in the corpus may be registered in the phrase storage unit 23B as a predetermined phrase.
  • a user or an administrator may register a word / phrase included at the end of the question utterance frequently used by the user as a predetermined word / phrase in the word / phrase storage unit 23B.
  • this embodiment may be applied to the first embodiment. That is, when the slope of the fundamental frequency of the voice at the end of the utterance period is larger than the questionable utterance threshold, and when a predetermined word is included at the end of the utterance period, the voice of the utterance period is set as the question utterance. It may be detected.
  • a questioned utterance included in the user's voice is detected, the frequency of the questioned utterance detected within the call holding period is acquired, and the user is in a confused state when the frequency of the acquired questioned utterance is equal to or higher than the confusion threshold It is determined that
  • the frequency of the question utterance within the call holding period is acquired within the period, and when the frequency is equal to or higher than the confusion threshold, it is determined that the user is in the confusion state, thereby It is possible to improve the determination accuracy.
  • a predetermined word / phrase when a predetermined word / phrase is included at the end of the utterance period, the voice during the utterance period is detected as a question utterance.
  • a question utterance includes a predetermined word at the end. Therefore, in the present embodiment, when a predetermined word or phrase is included at the end of the utterance period, it is possible to improve the determination accuracy of the user's confused state by detecting the voice during the utterance period as the question utterance.
  • FIG. 10 shows an example of a predetermined phrase included in the phrase storage unit 23B of FIG. 8 in the third embodiment.
  • the predetermined phrase is “what”, “why”, “why”, “what”, and the like, which are generally used at the beginning of the question sentence.
  • step 111 of FIG. 4 the CPU 21 recognizes the utterance included at the beginning of the utterance section, and determines whether or not the utterance includes any of the predetermined words included in the phrase storage unit 23B. Is determined to be an interrogative utterance. The beginning of the utterance section is within a predetermined period from the start end of the utterance section.
  • Whether or not any of the predetermined words is included in the utterance is determined by, for example, converting the utterance into text, and matching the text of the predetermined word included in the word storage unit 23B with the converted text. It may be done. Moreover, you may perform by matching with the audio
  • the utterance includes the predetermined word / phrase when the similarity between the feature vectors, the distance between feature vectors, or the feature vector appearance probability of any of the predetermined words / phrases included in the word / phrase storage unit 23B is higher than a predetermined value. You may judge.
  • FIG. 10 shows an example of Japanese
  • this embodiment is not limited to Japanese and can be applied to other languages.
  • examples of the predetermined phrase included in the phrase storage unit 23B are “What”, “Where”, “Why”, “How”, and the like. Street.
  • a phrase included in the beginning of a question utterance that frequently appears in the corpus may be registered in the phrase storage unit 23B as a predetermined phrase.
  • the user or administrator may register the phrase included in the beginning of the question utterance often used by the user as the predetermined phrase in the phrase storage unit 23B.
  • this embodiment may be applied to at least one of the first embodiment and the second embodiment. That is, the utterance period when the slope of the fundamental frequency of the speech at the end of the utterance period is larger than the questionable utterance threshold and when at least one of the beginning and end of the utterance period includes a predetermined word or phrase May be detected as a question utterance.
  • a questioned utterance included in the user's voice is detected, the frequency of the questioned utterance detected within the call holding period is acquired, and the user is in a confused state when the frequency of the acquired questioned utterance is equal to or higher than the confusion threshold It is determined that
  • the frequency of the questioned utterance within the call hold period is acquired, and when the frequency is equal to or higher than the confusion threshold, it is determined that the user is in the confusion state, thereby improving the determination accuracy of the user's confusion state. It is possible to improve.
  • a predetermined word or phrase when a predetermined word or phrase is included at the beginning of the utterance period, the voice during the utterance period is detected as a question utterance.
  • a question utterance includes a predetermined word at the beginning. Therefore, in this embodiment, when a predetermined word is included at the beginning of the utterance period, it is possible to improve the determination accuracy of the user's confused state by detecting the voice during the utterance period as the question utterance.
  • an audio signal received by the audio signal receiving unit 25 is used as illustrated in FIG.
  • the CPU 21 determines that the call is on hold.
  • silent means, for example, a case where the signal-to-noise ratio of the audio signal is smaller than a predetermined value. This is because, during the call holding state, the voice generated on the other party side, that is, the speech of the other party and the background noise on the other party side are blocked to the user.
  • the signal-to-noise ratio of the voice signal is less than 10 dB, for example, it may be determined that the call is on hold.
  • the power of the audio signal received by the audio signal receiving unit 25 is smaller than a predetermined value, it may be determined that there is no sound.
  • this embodiment may be applied to at least one of the first to third embodiments. That is, also in this embodiment, at least one of the case where the slope of the fundamental frequency of the speech at the end of the utterance period is larger than the questionable utterance threshold and the case where a predetermined word / phrase is included in at least one of the beginning and end of the utterance period In this case, the voice during the utterance period may be detected as the question utterance.
  • a questioned utterance included in the user's voice is detected, the frequency of the questioned utterance detected within the call holding period is acquired, and the user is in a confused state when the frequency of the acquired questioned utterance is equal to or higher than the confusion threshold It is determined that
  • the frequency of the questioned utterance within the call hold period is acquired, and when the frequency is equal to or higher than the confusion threshold, it is determined that the user is in the confusion state, thereby improving the determination accuracy of the user's confusion state. It is possible to improve.
  • the call holding period is detected based on an audio signal representing the voice of the other party.
  • the silence period in which the silence period in the voice of the other party is longer than the hold period threshold is detected as the call hold period. This is because during the call hold period, the voice generated on the other party side, that is, the speech of the other party and the background noise on the other party side are blocked for the user. Therefore, it is possible to improve the determination accuracy of the user's confused state by detecting the silence period in which the silence period in the voice of the other party is longer than the hold period threshold as the call hold period.
  • an audio signal received by the audio signal receiving unit 25 is used as illustrated in FIG.
  • the CPU 21 determines whether or not the sound represented by the sound signal received by the sound signal receiving unit 25 is a musical sound. This is because music such as a hold melody is generally played during the call hold period.
  • Whether or not it is a musical tone is determined based on, for example, the density of the sound.
  • the waveform representing the power of the voice signal representing the musical sound is smoother than the waveform of the power of the voice signal representing the utterance.
  • the density of the voice including the musical sound is equal to the density of the voice including the utterance. High compared.
  • step 103 the audio signal received by the audio signal receiving unit 25 is accumulated for a predetermined period of time before determining whether or not the call is on hold. Then, using the accumulated audio signal, You may make it perform determination.
  • the predetermined period is, for example, 1 second.
  • this embodiment may be applied to at least one of the first to third embodiments. That is, also in this embodiment, at least one of the case where the slope of the fundamental frequency of the speech at the end of the utterance period is larger than the questionable utterance threshold and the case where a predetermined word / phrase is included in at least one of the beginning and end of the utterance period In this case, the voice during the utterance period may be detected as the question utterance.
  • a questioned utterance included in the user's voice is detected, the frequency of the questioned utterance detected within the call holding period is acquired, and the user is in a confused state when the frequency of the acquired questioned utterance is equal to or higher than the confusion threshold It is determined that
  • the frequency of the questioned utterance within the call hold period is acquired, and when the frequency is equal to or higher than the confusion threshold, it is determined that the user is in the confusion state, thereby improving the determination accuracy of the user's confusion state. It is possible to improve.
  • the call holding period is detected based on an audio signal representing the voice of the other party.
  • a musical tone period in which the musical tone period in the voice of the other party is longer than the holding period threshold is detected as the call holding period. This is because music such as a hold melody is generally played during the call hold period. Therefore, it is possible to improve the determination accuracy of the user's confused state by detecting a tone period in which the tone period in the voice of the other party is longer than the hold period threshold as the call hold period.
  • a confusion threshold value for determining whether or not the user is in a confusion state is set based on the frequency of question utterances acquired in the past call holding period.
  • the secondary storage unit 23 includes a question utterance frequency storage unit 23 ⁇ / b> C that accumulates the frequency of question utterances acquired in the past call holding period.
  • the CPU 21 calculates the confusion threshold used in step 114 based on the question utterance frequency stored in the question utterance frequency storage unit 23C. Specifically, for example, as shown in Expression (3), a value obtained by multiplying the average value Fave of the questionable utterance frequency accumulated in the questionable utterance frequency storage unit 23C by a predetermined value Ca may be used as the confusion threshold.
  • Puzzle threshold Fave * Ca
  • the average value Fave of the question utterance frequency the median value or the minimum value of the question utterance frequency may be used, or instead of multiplying the predetermined value, a predetermined value is added. Also good.
  • this embodiment may be applied to at least one of the first to fifth embodiments. That is, also in this embodiment, at least one of the case where the slope of the fundamental frequency of the speech at the end of the utterance period is larger than the questionable utterance threshold and the case where a predetermined word / phrase is included in at least one of the beginning and end of the utterance period In this case, the voice during the utterance period may be detected as the question utterance. Also in this embodiment, a silence period in which the silence period in the other party's voice is longer than the hold period threshold may be detected as the call hold period, and a tone in which the tone period in the other party's voice is longer than the hold period threshold The period may be detected as a call holding period.
  • a questioned utterance included in the user's voice is detected, the frequency of the questioned utterance detected within the call holding period is acquired, and the user is in a confused state when the frequency of the acquired questioned utterance is equal to or higher than the confusion threshold It is determined that
  • the frequency of the question utterance within the call hold period is acquired within the call hold period, and when the frequency is equal to or higher than the confusion threshold, it is determined that the user is in the confusion state. It is possible to improve the state determination accuracy.
  • the confusion threshold is calculated based on the frequency of question utterances acquired during the previous call hold period.
  • the frequency of question utterances acquired in the past call hold period is accumulated, and when calculating the confusion threshold based on the frequency of question utterances acquired in the past call hold period, It becomes possible to set a confusion threshold suitable for the characteristic. Therefore, it is possible to improve the determination accuracy of the user's confused state.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

疑問発話検出部は、ユーザの音声に含まれる疑問発話を検出し、頻度取得部は、疑問発話検出部で通話保留期間内に検出した疑問発話の単位時間毎の数である前記疑問発話の頻度を取得し、状態判定部は、頻度取得部で取得した疑問発話の頻度が第1閾値以上である場合にユーザが困惑状態であると判定する。

Description

困惑状態判定装置、困惑状態判定方法、及びプログラム
 本発明は、困惑状態判定装置、困惑状態判定方法、及びプログラムに関する。
 例えば、コールセンターでオペレータが顧客と通話している間に、顧客の苦情等により、未熟なオペレータが困惑状態に陥り、適切な対応を行うことが困難となる場合がある。このような場合に、熟練オペレータが困惑状態に陥った未熟なオペレータを支援するために、オペレータが困惑状態に陥ったか否かの判定に適用可能な技術が存在する。当該技術では、通話音声の韻律変化に基づいて、発話者の意図を判定する。例えば、当該技術では、発話持続時間が短く、基本周波数が上昇した場合、発話者が疑いを抱いていること、即ち、発話者が困惑状態に陥っている可能性があることを検出する。
特開2007-079363号公報 特開平04-255900号公報 特開2000-66691号公報 特開2008-134557号公報 国際公開2009/145192号公報
南憲治、「ひとり言の心理的機能」、帝塚山大学現代生活学部紀要、2014年2月、10号、頁85~93
 しかしながら、発話持続時間が短く、基本周波数が上昇する発話は、オペレータが通常の通話において顧客に質問する場合にも存在する(例えば、「故障ですか?」または「如何でしょうか?」等)。従って、上記技術では、オペレータ、即ち、ユーザが困惑状態に陥っているか否かを適切に検出することが困難な場合がある。
 1つの側面として、本発明は、ユーザの困惑状態の判定精度を向上させることを目的とする。
 1つの態様では、疑問発話検出部は、ユーザの音声に含まれる疑問発話を検出し、頻度取得部は、疑問発話検出部で検出した疑問発話の単位時間毎の数である疑問発話の頻度を通話保留期間内に取得する。また、状態判定部は、頻度取得部で取得した疑問発話の頻度が第1閾値以上である場合にユーザが困惑状態であると判定する。
 1つの側面として、ユーザの困惑状態の判定精度を向上させる、という効果を有する。
第1実施形態に係る困惑状態判定装置の要部機能の一例を示すブロック図である。 第1実施形態に係る困惑状態判定装置のハードウェアの構成の一例を示すブロック図である。 第1実施形態に係る困惑状態判定処理の一例の概要を説明するためのブロック図である。 第1実施形態に係る困惑状態判定処理の一例を示すフローチャートである。 第1実施形態に係る基本周波数を取得する処理を説明するための概念図である。 第1実施形態に係る基本周波数の傾きを取得する処理を説明するための概念図である。 第1実施形態に係る第1閾値を設定する処理を説明するための概念図である。 第2実施形態に係る困惑状態判定装置のハードウェアの構成の一例を示すブロック図である。 第2実施形態に係る語句記憶部に記憶される語句の一例を示す概念図である。 第3実施形態に係る語句記憶部に記憶される語句の一例を示す概念図である。 第4実施形態に係る困惑状態判定処理の一例の概要を説明するためのブロック図である。 第6実施形態に係る困惑状態判定装置のハードウェアの構成の一例を示すブロック図である。
[第1実施形態]
 以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。
 一例として図1に困惑状態判定装置10を示す。困惑状態判定装置10は、例えば、疑問発話検出部11、頻度取得部12、及び状態判定部13を含む。疑問発話検出部11、頻度取得部12、及び状態判定部13は、相互に接続されている。
 疑問発話検出部11は、ユーザの音声に含まれる疑問発話を検出する。頻度取得部12は、疑問発話検出部11で通話保留期間内に検出した疑問発話の単位時間毎の数である疑問発話の頻度を通話保留期間内に取得する。状態判定部13は、頻度取得部12で取得した疑問発話の頻度が第1閾値以上である場合にユーザが困惑状態であると判定する。
 困惑状態判定装置10は、例えば、固定電話、スマートフォン、又は携帯電話などに接続可能なパーソナルコンピュータ、もしくは専用装置であってもよいし、固定電話、スマートフォン、又は携帯電話などの一部であってもよい。
 困惑状態判定装置10は、一例として図2に示すように、CPU(Central Processing Unit)21、一次記憶部22、二次記憶部23、外部インターフェイス24、音声信号受信部25、マイク(マイクロフォン)26、スピーカ27、及び保留ボタン28を備えている。CPU21、一次記憶部22、二次記憶部23、外部インターフェイス24、音声信号受信部25、マイク26、スピーカ27、及び保留ボタン28は、バス29を介して相互に接続されている。
 外部インターフェイス24には、外部装置が接続され、外部インターフェイス24は、外部装置とCPU21との間の各種情報の送受信を司る。
 マイク26は、ユーザ側の音声、例えば、困惑状態判定装置10を利用するコールセンターのオペレータの発話を含む音声を受け取り、音声信号に変換する。なお、図2では、マイク26が困惑状態判定装置10に含まれるように示しているが、本実施形態はこれに限定されない。マイク26は、例えば、困惑状態判定装置10に接続される電話などの通話装置のマイクであってもよいし、外部インターフェイス24を介して接続される外付けのマイクであってもよい。
 スピーカ27は、通話相手側の音声、例えば、コールセンターを利用する顧客の発話を含む音声、又は保留メロディ即ち楽音を表す音声信号を音声に変換する。なお、図2では、スピーカ27が困惑状態判定装置10に含まれるように示しているが、本実施形態はこれに限定されない。スピーカ27は、例えば、困惑状態判定装置10に接続される電話などの通話装置のスピーカであってもよいし、外部インターフェイス24を介して接続される外付けのスピーカであってもよい。
 保留ボタン28がオン状態である場合、CPU21は、通話を保留し、オフ状態である場合通話を可能とする。なお、図2では、保留ボタンが困惑状態判定装置10に含まれるように示しているが、本実施形態はこれに限定されない。保留ボタン28は、例えば、困惑状態判定装置10に接続される電話などの通話装置の保留ボタンであってもよく、この場合、電話のCPUが通話を保留し、又は、通話を可能とする。
 音声信号受信部25は、電話回線又はインターネット回線などを通じて送信される通話相手側の音声を表す音声信号を受信する。
 一次記憶部22は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部23は、例えば、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)などの不揮発性のメモリである。二次記憶部23は、例えば、困惑状態判定プログラム23Aを記憶している。なお、困惑状態判定プログラム23Aは、外部インターフェイス24を介して、CD-ROM又はDVDなどの記憶媒体から読み込まれてもよいし、外部サーバから受信されてもよい。
 CPU21は、二次記憶部23から困惑状態判定プログラム23Aを読み出して一次記憶部22に展開する。CPU21は、当該困惑状態判定プログラム23Aを実行することで、図1に示す疑問発話検出部11、頻度取得部12、及び状態判定部13として動作する。
 次に、困惑状態判定装置10によって実施される困惑状態判定処理の概要を説明する。困惑状態判定装置10のユーザは、例えば、コールセンターのオペレータである。オペレータが顧客との通話において、顧客からの質問の答えに窮するなどの場合、オペレータが困惑状態に陥り、適切な対応を行えない可能性が生じる。困惑状態判定装置10は、オペレータ、即ち、ユーザが困惑状態であるか否か判定する。
 図3に例示するように、困惑状態判定装置10は、マイク26でユーザの発話を取得する。困惑状態判定装置10は、保留ボタン28がオン状態である場合、ブロック31で通話保留状態であると判定し、ブロック32で通話保留期間内のユーザの疑問発話を検出する。困惑状態判定装置10は、ブロック33で、疑問発話の頻度を取得し、ブロック34で、疑問発話の頻度に基づいて、ユーザが困惑状態であるか否か判定する。
 ユーザが困惑状態であると判定された場合、困惑状態判定装置10は、例えば、ユーザが困惑状態であることを当該ユーザの管理者などの端末の画面に報知する。これにより、管理者などはユーザのサポートを適切に行うことが可能となる。
 次に、本実施形態の作用として、困惑状態判定装置10によって実施される困惑状態判定処理について説明する。図4は、困惑状態判定装置10によって実施される困惑状態判定処理の一例を示す。
 例えば、ユーザが困惑状態判定装置10に接続されている通話装置を操作して、通話相手との通話を開始することによって、図4の困惑状態判定処理が開始される。ステップ101で、CPU21は、疑問発話の数をカウントするカウンタQ(以下、疑問発話カウンタQともいう。)及び通話保留期間を保存するレジスタL(以下、通話保留期間レジスタLともいう。)に0を設定する。ステップ102で、CPU21は、発話区間を通過したか否か、即ち、発話が行われたか否かを示すフラグU(以下、発話区間フラグUともいう。)に0を設定する。
 ステップ103で、CPU21は、通話保留状態であるか否かを判定する。CPU21は、例えば、保留ボタン28がオン状態である場合に、通話保留状態であると判断する。ステップ103の判定が否定された場合、CPU21は、ステップ101に戻る。
 一方、ステップ103の判定が肯定された場合、ステップ104で、CPU21は、通話保留期間を取得する。詳細には、通話保留期間レジスタLに1フレーム分の時間長tfを加算する。1フレーム分の時間長tfは、例えば、20ミリ秒である。
 ステップ105で、CPU21は、1フレーム分の音声信号を受信する。当該音声信号は、マイク26で受け取られた音声、即ち、ユーザ側で発生した音声に対応する音声信号であり、一次記憶部22に一時的に保存される。
 ステップ106で、CPU21は、通話保留期間レジスタLに累算された期間が所定の第3閾値(以下、保留期間閾値ともいう。)を越えているか否か判定する。ステップ106の判定が否定された場合、CPU21は、ステップ103に戻る。一方、ステップ106の判定が肯定された場合、CPU21は、通話保留期間であると判定し、ステップ107に進む。保留期間閾値は、例えば、30秒であってよい。
 ステップ107で、CPU21は、ステップ105で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。発話区間とは、ユーザの発話を含む区間である。例えば、ステップ105で受信した音声信号のパワー又は信号対雑音比が所定値を越える場合、当該音声信号で表される音声が、背景雑音だけでなく、ユーザの発話を含む発話区間であると判定する。
 ステップ107の判定が肯定された場合、CPU21は、ステップ108で、発話区間フラグUに1を設定する。ステップ109で、CPU21は、音声信号の基本周波数を取得する。
 詳細には、例えば、音声信号の自己相関を算出し、図5に例示するように、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期prとする。式(1)に示すように、サンプリング周波数Fsを基本周期prで除算することによって基本周波数は取得される。
  基本周波数=Fs/pr  …(1)
サンプリング周波数Fsは、例えば、8,000Hzである。
 CPU21は、ステップ103に戻り、ステップ103~ステップ109の処理を繰り返す。一方、ステップ107の判定が否定されると、CPU21は、ステップ110で、発話区間フラグUが1であるか否か判定する。ステップ110の判定が否定された場合、即ち、発話区間フラグUが0である場合、疑問発話であるか否か判定する発話が存在しないため、CPU21は、ステップ103に戻る。
 ステップ110の判定が肯定された場合、CPU21は、ステップ111で、後述するように、ステップ105で受信し、一次記憶部22に保存された音声信号が表す発話、即ち、発話区間の音声が疑問発話であるか否か判定する。ステップ111の判定が否定された場合、CPU21は、ステップ102に戻る。
 一方、ステップ111の判定が肯定された場合、CPU21は、ステップ112で、疑問発話カウンタQに1を加算し、ステップ113で、単位時間毎の疑問発話の数である疑問発話の頻度を取得する。詳細には、式(2)に示すように、疑問発話カウンタQでカウントされた疑問発話の数を通話保留期間レジスタLに保存されている通話保留期間で除算することによって疑問発話の頻度を取得する。
  疑問発話の頻度=Q/L  …(2)
 ステップ114で、CPU21は、疑問発話の頻度が所定の第1閾値(以下、困惑閾値ともいう)以上であるか否か判定する。なお、困惑閾値については、後述する。
 ステップ114の判定が肯定された場合、CPU21は、ステップ115で、ユーザが困惑状態であると判定し、ステップ117に進む。一方、ステップ114の判定が否定された場合、CPU21は、ステップ116で、ユーザが困惑状態ではないと判定し、ステップ117に進む。
 ステップ117で、CPU21は、通話中であるか否か判定する。ステップ117の判定が肯定された場合、CPU21は、ステップ102に戻る。ステップ117の判定が否定された場合、CPU21は、困惑状態判定処理を終了する。なお、図4のステップの順序は一例であり、本実施形態は、図4のステップの順序に限定されない。以下の実施形態についても同様である。
 次に、ステップ111の判定の一例について説明する。ステップ111では、ステップ105で受信し、一次記憶部22に保存された音声信号が表す発話が疑問発話であるか否か判定する。例えば、日本語では、疑問発話の末尾の基本周波数を上昇させて発声することが一般的である。従って、例えば、発話区間の末尾の所定期間において、音声信号の基本周波数が上昇している場合、疑問発話であると判定する。
 詳細には、例えば、図6に例示するように、最小二乗法により、発話区間の末尾の所定期間teにおける基本周波数に近似する直線slを取得し、当該直線slの傾きが正であり、かつ、所定の第2閾値(以下、疑問発話閾値ともいう。)より大きい場合に疑問発話であると判定する。発話区間の末尾の所定期間teは、例えば、1秒であってよい。なお、ステップ111の判定が終了した後、ステップ105で受信し、一次記憶部22に保存された音声信号は、消去されてもよい。
 次に、ステップ114の判定で使用される困惑閾値の一例について説明する。ステップ114では、疑問発話の頻度が困惑閾値以上であるか否か判定する。困惑閾値は、一定の値であってもよいが、図7に例示するように、通話保留期間が長くなるに従って、小さくなるように設定してもよい。ユーザが困惑状態である場合、困惑状態の原因を解消するため、あるいは、単に対応に苦慮して、一般的に通話保留期間は長くなる。従って、通話保留期間が長い場合、疑問発話の頻度が相対的に少なくても、ユーザが困惑状態である可能性が高いと推定される。
 本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の数である疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。
 人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 また、本実施形態では、困惑閾値は、通話保留期間が長くなるに従って小さくなるように変更される。ユーザが困惑状態である場合、困惑状態の原因を解消するため、あるいは、単に対応に苦慮して、一般的に通話保留期間は長くなる。従って、通話保留期間が長い場合、疑問発話の頻度が相対的に少なくても、ユーザが困惑状態である可能性が高いと推定される。従って、通話保留期間が長くなるに従って、小さくなるように困惑閾値を変更することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 また、本実施形態では、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合に、発話期間の音声を疑問発話として検出する。例えば、日本語では、疑問発話の末尾の基本周波数を上昇させて発声することが一般的である。従って、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合に、発話期間の音声を疑問発話として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
[第2実施形態]
 次に、開示の技術の実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
 第2実施形態では、疑問発話を検出する際に、所定の語句が発話の末尾に含まれる場合に疑問発話であると判定する。第2実施形態では、図8に例示するように、二次記憶部23が語句記憶部23Bを含む。語句記憶部23Bに含まれる所定の語句の一例を図9に示す。所定の語句は、例えば、日本語であれば、「(~)ですか(?)」、「(~)だよね(?)」、「(~)かな(?)」、及び「(~)だっけ(?)」、など、疑問文の末尾に一般的に用いられる語句である。
 CPU21は、図4のステップ111で、発話区間の末尾に含まれる発話を認識し、当該発話に語句記憶部23Bに含まれる所定の語句の何れかが含まれているか否かを判定し、判定が肯定された場合に、発話が疑問発話であると判定する。発話区間の末尾とは、発話区間の終端から所定の期間内である。
 発話に所定の語句の何れかが含まれているか否かの判定は、例えば、発話をテキストに変換し、語句記憶部23Bに含まれる所定の語句のテキストと、変換した当該テキストとのマッチングにより行われてもよい。また、音響モデルを用いて生成された語句記憶部23Bに含まれる所定の語句を表す音声データと発話の音声データとのマッチングにより行われてもよい。
 また、語句記憶部23Bに含まれる所定の語句の何れかと発話との特徴ベクトル間距離、又は特徴ベクトル出現確率などの類似度が所定値よりも高い場合に、発話が当該所定の語句を含むと判定してもよい。
 なお、図9では、日本語の例を示したが、本実施形態は、日本語に限定されず、他の言語に対しても適用可能である。
 英語であれば、例えば、語句記憶部23Bに含まれる所定の語句の一例は、「doesn't it(?)」、「don't they(?)」、「isn't it(?)」及び「aren't they(?)」などであり、中国語であれば、例えば、以下の通りである。
Figure JPOXMLDOC01-appb-M000001
 なお、例えば、コーパスでの出現頻度が高い疑問発話の末尾に含まれる語句を、所定の語句として、語句記憶部23Bに登録してもよい。また、ユーザ(又は、管理者)が、当該ユーザがよく使用する疑問発話の末尾に含まれる語句を、所定の語句として、語句記憶部23Bに登録してもよい。
 なお、本実施形態は、第1実施形態に適用されてもよい。即ち、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の末尾に所定の語句を含む場合、の少なくとも一方の場合に、発話期間の音声を疑問発話として検出してもよい。
 本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。
 人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を期間内に取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 本実施形態では、発話期間の末尾に所定の語句を含む場合に、発話期間の音声を疑問発話として検出する。一般的に、疑問発話は、末尾に所定の語句を含む。従って、本実施形態では、発話期間の末尾に所定の語句を含む場合に、発話期間の音声を疑問発話として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
[第3実施形態]
 次に、開示の技術の実施形態の一例である第3実施形態を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については説明を省略する。
 第3実施形態では、疑問発話を検出する際に、所定の語句が発話の冒頭に含まれる場合に疑問発話であると判定する。第3実施形態で、図8の語句記憶部23Bに含まれる所定の語句の一例を図10に示す。所定の語句は、例えば、日本語であれば、「何で」、「なぜ」、「どうして」、及び「何が」、など、疑問文の冒頭に一般的に用いられる語句である。
 CPU21は、図4のステップ111で、発話区間の冒頭に含まれる発話を認識し、当該発話に語句記憶部23Bに含まれる所定の語句の何れかが含まれているか否かを判定し、判定が肯定された場合に、発話が疑問発話であると判定する。発話区間の冒頭とは、発話区間の開始端から所定の期間内である。
 発話に所定の語句の何れかが含まれているか否かの判定は、例えば、発話をテキストに変換し、語句記憶部23Bに含まれる所定の語句のテキストと、変換した当該テキストとのマッチングにより行われてもよい。また、音響モデルを用いて生成された語句記憶部23Bに含まれる所定の語句を表す音声データと発話の音声データとのマッチングにより行われてもよい。
 なお、語句記憶部23Bに含まれる所定の語句の何れかと発話との特徴ベクトル間距離、又は特徴ベクトル出現確率などの類似度が所定値よりも高い場合に、発話が当該所定の語句を含むと判定してもよい。
 なお、図10では、日本語の例を示したが、本実施形態は、日本語に限定されず、他の言語に対しても適用可能である。
 英語であれば、例えば、語句記憶部23Bに含まれる所定の語句の一例は、「What」、「Where」、「Why」及び「How」などであり、中国語であれば、例えば、以下の通りである。
Figure JPOXMLDOC01-appb-M000002
 なお、例えば、コーパスでの出現頻度が高い疑問発話の冒頭に含まれる語句を、所定の語句として、語句記憶部23Bに登録してもよい。また、ユーザ(又は、管理者)が、当該ユーザがよく使用する疑問発話の冒頭に含まれる語句を、所定の語句として、語句記憶部23Bに登録してもよい。
 なお、本実施形態は、第1実施形態及び第2実施形態の少なくとも一方に適用されてもよい。即ち、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。
 本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。
 人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 本実施形態では、発話期間の冒頭に所定の語句を含む場合に、発話期間の音声を疑問発話として検出する。一般的に、疑問発話は、冒頭に所定の語句を含む。従って、本実施形態では、発話期間の冒頭に所定の語句を含む場合に、発話期間の音声を疑問発話として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
[第4実施形態]
 次に、開示の技術の実施形態の一例である第4実施形態を説明する。第1実施形態~第3実施形態と同様の構成及び作用については説明を省略する。
 第4実施形態では、通話保留状態であるか否かを判定する際に、図11に例示するように、音声信号受信部25によって受信される音声信号を使用する。
 CPU21は、図4のステップ103で、例えば、音声信号受信部25によって受信される音声信号が表す音声が無音である場合、通話保留状態であると判定する。ここで、無音である、とは、例えば、音声信号の信号対雑音比が所定値より小さい場合である。通話保留状態である間は、通話相手側で発生する音声、即ち、通話相手の発話及び通話相手側の背景雑音は、ユーザに対して遮断されるためである。
 なお、音声信号の信号対雑音比が、例えば、10dB未満である場合に、通話保留状態であると判定してもよい。また、音声信号受信部25によって受信される音声信号のパワーが所定値より小さい場合に、無音であると判定してもよい。
 なお、本実施形態は、第1実施形態~第3実施形態の少なくとも何れかに適用されてもよい。即ち、本実施形態でも、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。
 本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。
 人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 本実施形態では、通話相手の音声を表す音声信号に基づいて通話保留期間を検出する。また、本実施形態では、通話相手の音声における無音期間が保留期間閾値よりも長い無音期間を通話保留期間として検出する。通話保留期間内は、通話相手側で発生する音声、即ち、通話相手の発話及び通話相手側の背景雑音は、ユーザに対して遮断されるためである。従って、通話相手の音声における無音期間が保留期間閾値よりも長い無音期間を通話保留期間として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
[第5実施形態]
 次に、開示の技術の実施形態の一例である第5実施形態を説明する。第1実施形態~第4実施形態と同様の構成及び作用については説明を省略する。
 第5実施形態では、通話保留状態であるか否かを判定する際に、図11に例示するように、音声信号受信部25によって受信される音声信号を使用する。
 CPU21は、図4のステップ103で、例えば、音声信号受信部25によって受信される音声信号で表される音声が楽音であるか否かを判定する。通話保留期間内は、保留メロディなどの楽音の再生が、一般的に、行われるためである。
 楽音であるか否かは、例えば、音の疎密度に基づいて判定する。楽音を表す音声信号のパワーを表す波形は、発話を表す音声信号のパワーの波形と比較して滑らかであり、当該波形を正規化すると、楽音を含む音声の密度は発話を含む音声の密度と比較して高い。
 なお、ステップ103で、通話保留状態であるか否かの判定を行う前に、所定期間、音声信号受信部25によって受信される音声信号を蓄積した後、蓄積した音声信号を用いてステップ103の判定を行うようにしてもよい。所定の期間は、例えば、1秒である。
 なお、本実施形態は、第1実施形態~第3実施形態の少なくとも何れかに適用されてもよい。即ち、本実施形態でも、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。
 本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。
 人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 本実施形態では、通話相手の音声を表す音声信号に基づいて通話保留期間を検出する。また、本実施形態では、通話相手の音声における楽音期間が保留期間閾値よりも長い楽音期間を通話保留期間として検出する。通話保留期間内は、保留メロディなどの楽音の再生が、一般的に、行われるためである。従って、通話相手の音声における楽音期間が保留期間閾値よりも長い楽音期間を通話保留期間として検出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
[第6実施形態]
 次に、開示の技術の実施形態の一例である第6実施形態を説明する。第1実施形態~第5実施形態と同様の構成及び作用については説明を省略する。
 第6実施形態では、困惑状態であるか否かを判定するための困惑閾値を、過去の通話保留期間において取得された疑問発話の頻度に基づいて設定する。第6実施形態では、図12に例示するように、二次記憶部23は、過去の通話保留期間において取得された疑問発話の頻度を蓄積する疑問発話頻度記憶部23Cを含む。
 CPU21は、例えば、図4のステップ103で通話保留状態ではないと判定され、かつ、ステップ113で疑問発話の頻度を取得している場合、当該疑問発話の頻度を疑問発話頻度記憶部23Cに蓄積する。CPU21は、ステップ114で使用する困惑閾値を、疑問発話頻度記憶部23Cに蓄積されている疑問発話頻度に基づいて算出する。詳細には、例えば、式(3)に示すように、疑問発話頻度記憶部23Cに蓄積されている疑問発話頻度の平均値Faveに所定値Caを乗算した値を困惑閾値としてもよい。
  困惑閾値=Fave*Ca
なお、疑問発話頻度の平均値Faveに代えて、疑問発話頻度の中央値、又は最小値などを使用してもよいし、所定値を乗算することに代えて、所定値を加算するようにしてもよい。
 なお、本実施形態は、第1実施形態~第5実施形態の少なくとも何れかに適用されてもよい。即ち、本実施形態でも、発話期間の末尾における音声の基本周波数の傾きが疑問発話閾値より大きい場合、及び、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合、の少なくとも何れかの場合に、発話期間の音声を疑問発話として検出してもよい。また、本実施形態でも、通話相手の音声における無音期間が保留期間閾値よりも長い無音期間を通話保留期間として検出してもよいし、通話相手の音声における楽音期間が保留期間閾値よりも長い楽音期間を通話保留期間として検出してもよい。
 本実施形態では、ユーザの音声に含まれる疑問発話を検出し、通話保留期間内に検出した疑問発話の頻度を取得し、取得した疑問発話の頻度が困惑閾値以上である場合にユーザが困惑状態であると判定する。
 人間は、困惑状態に陥ると、独り言を発することが多い。しかしながら、通話中の疑問発話は、通話相手に対して行った質問であるのか、独り言であるのか、判別が困難である。また、一般的には、通話相手への配慮から通話中に独り言を発することは少ない。従って、本実施形態では、通話保留期間内の疑問発話の頻度を通話保留期間内に取得し、当該頻度が困惑閾値以上である場合にユーザが困惑状態であると判定することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。
 本実施形態では、困惑閾値は、過去の通話保留期間において取得された疑問発話の頻度に基づいて算出される。過去の通話保留期間において取得された疑問発話の頻度に基づいて困惑閾値を算出することにより、ユーザの困惑状態の判定精度を向上させることを可能とする。また、ユーザ毎に、過去の通話保留期間において取得された疑問発話の頻度を蓄積し、当該過去の通話保留期間において取得された疑問発話の頻度に基づいて困惑閾値を算出する場合、ユーザ固有の特性に適した困惑閾値を設定することが可能となる。従って、ユーザの困惑状態の判定精度を向上させることを可能とする。

Claims (24)

  1.  通話音声の入力を受け付ける音声受付部と、
     通話音声の通話保留期間内における疑問発話を検出し、前記通話保留期間内に検出した前記疑問発話の頻度を算出し、前記算出した前記疑問発話の頻度が第1閾値以上である場合にユーザが困惑状態であると判定する制御部と、
     を含む困惑状態判定装置。
  2.  前記制御部は、前記第1閾値を前記通話保留期間が長くなるに従って小さくなるように変更する、
     請求項1に記載の困惑状態判定装置。
  3.  前記制御部は、前記第1閾値を過去の通話保留期間において取得された前記疑問発話の頻度に基づいて算出する、
     請求項1に記載の困惑状態判定装置。
  4.  前記制御部は、発話期間の末尾における音声の基本周波数の傾きが第2閾値より大きい場合に、前記発話期間の音声を疑問発話として検出する、
     請求項1~請求項3の何れか1項に記載の困惑状態判定装置。
  5.  前記制御部は、発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合に、前記発話期間の音声を疑問発話として検出する、請求項1~請求項4の何れか1項に記載の困惑状態判定装置。
  6.  前記制御部は、通話相手の音声を表す音声信号に基づいて前記通話保留期間を検出する、
     請求項1~請求項5の何れか1項に記載の困惑状態判定装置。
  7.  前記制御部は、前記通話相手の音声を表す音声信号に含まれる無音期間が第3閾値よりも長い前記無音期間を前記通話保留期間として検出する、
     請求項6に記載の困惑状態判定装置。
  8.  前記制御部は、前記通話相手の音声を表す音声信号に含まれる楽音期間が第3閾値よりも長い前記楽音期間を前記通話保留期間として検出する、
     請求項6に記載の困惑状態判定装置。
  9.  コンピュータが、
     ユーザの音声に含まれる疑問発話を検出し、
     通話保留期間内に検出した前記疑問発話の単位時間毎の数である前記疑問発話の頻度を取得し、
     取得した前記疑問発話の頻度が第1閾値以上である場合に前記ユーザが困惑状態であると判定する、
     困惑状態判定方法。
  10.  前記第1閾値は、前記通話保留期間が長くなるに従って小さくなるように変更される、
     請求項9に記載の困惑状態判定方法。
  11.  前記第1閾値は、過去の通話保留期間において取得された前記疑問発話の頻度に基づいて算出される、
     請求項9に記載の困惑状態判定方法。
  12.  発話期間の末尾における前記音声の基本周波数の傾きが第2閾値より大きい場合に、前記発話期間の音声を疑問発話として検出する、
     請求項9~請求項11の何れか1項に記載の困惑状態判定方法。
  13.  発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合に、前記発話期間の音声を疑問発話として検出する、請求項9~請求項11の何れか1項に記載の困惑状態判定方法。
  14.  前記コンピュータは、
     通話相手の音声を表す音声信号に基づいて前記通話保留期間を検出する、
     ことをさらに含む、
     請求項9~請求項13の何れか1項に記載の困惑状態判定方法。
  15.  前記通話相手の音声を表す音声信号に含まれる無音期間が第3閾値よりも長い前記無音期間を前記通話保留期間として検出する、
     請求項14に記載の困惑状態判定方法。
  16.  前記通話相手の音声を表す音声信号に含まれる楽音期間が第3閾値よりも長い前記楽音期間を前記通話保留期間として検出する、
     請求項14に記載の困惑状態判定方法。
  17.  ユーザの音声に含まれる疑問発話を検出し、
     通話保留期間内に検出した前記疑問発話の単位時間毎の数である前記疑問発話の頻度を取得し、
     取得した前記疑問発話の頻度が第1閾値以上である場合に前記ユーザが困惑状態であると判定する、
     困惑状態判定処理をコンピュータに実行させるためのプログラム。
  18.  前記第1閾値は、前記通話保留期間が長くなるに従って小さくなるように変更される、
     請求項17に記載のプログラム。
  19.  前記第1閾値は、過去の通話保留期間において取得された前記疑問発話の頻度に基づいて算出される、
     請求項17に記載のプログラム。
  20.  発話期間の末尾における前記音声の基本周波数の傾きが第2閾値より大きい場合に、前記発話期間の音声を疑問発話として検出する、
     請求項17~請求項19の何れか1項に記載のプログラム。
  21.  発話期間の冒頭及び末尾の少なくとも一方に所定の語句を含む場合に、前記発話期間の音声を疑問発話として検出する、請求項17~請求項19の何れか1項に記載のプログラム。
  22.  前記困惑状態判定処理は、
     通話相手の音声を表す音声信号に基づいて前記通話保留期間を検出する、
     ことをさらに含む、
     請求項17~請求項21の何れか1項に記載のプログラム。
  23.  前記通話相手の音声を表す音声信号に含まれる無音期間が第3閾値よりも長い前記無音期間を前記通話保留期間として検出する、
     請求項22に記載のプログラム。
  24.  前記通話相手の音声を表す音声信号に含まれる楽音期間が第3閾値よりも長い前記楽音期間を前記通話保留期間として検出する、
     請求項22に記載のプログラム。
PCT/JP2015/082437 2015-11-18 2015-11-18 困惑状態判定装置、困惑状態判定方法、及びプログラム WO2017085815A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2015/082437 WO2017085815A1 (ja) 2015-11-18 2015-11-18 困惑状態判定装置、困惑状態判定方法、及びプログラム
CN201580084621.5A CN108352169B (zh) 2015-11-18 2015-11-18 困惑状态判定装置、困惑状态判定方法、以及程序
JP2017551446A JP6544439B2 (ja) 2015-11-18 2015-11-18 困惑状態判定装置、困惑状態判定方法、及びプログラム
US15/980,226 US10679645B2 (en) 2015-11-18 2018-05-15 Confused state determination device, confused state determination method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/082437 WO2017085815A1 (ja) 2015-11-18 2015-11-18 困惑状態判定装置、困惑状態判定方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/980,226 Continuation US10679645B2 (en) 2015-11-18 2018-05-15 Confused state determination device, confused state determination method, and storage medium

Publications (1)

Publication Number Publication Date
WO2017085815A1 true WO2017085815A1 (ja) 2017-05-26

Family

ID=58718644

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/082437 WO2017085815A1 (ja) 2015-11-18 2015-11-18 困惑状態判定装置、困惑状態判定方法、及びプログラム

Country Status (4)

Country Link
US (1) US10679645B2 (ja)
JP (1) JP6544439B2 (ja)
CN (1) CN108352169B (ja)
WO (1) WO2017085815A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7380006B2 (ja) 2019-09-26 2023-11-15 サクサ株式会社 電話システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10938867B2 (en) * 2018-12-03 2021-03-02 Avaya Inc. Automatic on hold communication session state management in a contact center

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2007004000A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The コールセンターにおけるオペレータ業務支援システム
WO2012120656A1 (ja) * 2011-03-08 2012-09-13 富士通株式会社 通話支援装置、通話支援方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP2000066691A (ja) 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6804670B2 (en) * 2001-08-22 2004-10-12 International Business Machines Corporation Method for automatically finding frequently asked questions in a helpdesk data set
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
JP2004252668A (ja) 2003-02-19 2004-09-09 Fujitsu Ltd コンタクトセンタ運用管理プログラム、装置および方法
EP1649419A4 (en) * 2003-08-29 2007-04-25 Siemens Med Solutions Health CUSTOMER SUPPORT SYSTEM
US20050108094A1 (en) * 2003-11-18 2005-05-19 Philippe Hugron Method for making a decision according to customer needs
JP4354299B2 (ja) 2004-02-27 2009-10-28 富士通株式会社 事例検索プログラム、事例検索方法及び事例検索装置
US20060206818A1 (en) * 2005-03-10 2006-09-14 Epson America Inc. Dynamic frequently asked question system
JP4587854B2 (ja) 2005-03-23 2010-11-24 東京電力株式会社 感情解析装置、感情解析プログラム、プログラム格納媒体
JP4677548B2 (ja) 2005-09-16 2011-04-27 株式会社国際電気通信基礎技術研究所 パラ言語情報検出装置及びコンピュータプログラム
CN101496011B (zh) * 2006-11-09 2011-08-03 松下电器产业株式会社 内容检索装置
JP2008134557A (ja) 2006-11-29 2008-06-12 Fujitsu Ltd 携帯端末装置
US8014512B2 (en) * 2007-04-18 2011-09-06 International Business Machines Corporation Method and system for user interaction within a queue
WO2009145192A1 (ja) 2008-05-28 2009-12-03 日本電気株式会社 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
US20150095267A1 (en) * 2013-09-30 2015-04-02 Avaya Inc. Techniques to dynamically generate real time frequently asked questions from forum data
US20160225273A1 (en) * 2015-01-29 2016-08-04 Xerox Corporation Methods and systems for evaluating user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2007004000A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The コールセンターにおけるオペレータ業務支援システム
WO2012120656A1 (ja) * 2011-03-08 2012-09-13 富士通株式会社 通話支援装置、通話支援方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7380006B2 (ja) 2019-09-26 2023-11-15 サクサ株式会社 電話システム

Also Published As

Publication number Publication date
CN108352169B (zh) 2022-06-24
JPWO2017085815A1 (ja) 2018-09-13
US20180261238A1 (en) 2018-09-13
US10679645B2 (en) 2020-06-09
CN108352169A (zh) 2018-07-31
JP6544439B2 (ja) 2019-07-17

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
US20200227071A1 (en) Analysing speech signals
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US9196247B2 (en) Voice recognition method and voice recognition apparatus
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
JP6078964B2 (ja) 音声対話システム及びプログラム
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US8473282B2 (en) Sound processing device and program
JP5716595B2 (ja) 音声補正装置、音声補正方法及び音声補正プログラム
EP2806415B1 (en) Voice processing device and voice processing method
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2015161718A (ja) 発話検出装置、発話検出方法及び発話検出プログラム
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JP7113719B2 (ja) 発話末タイミング予測装置およびプログラム
JP4745837B2 (ja) 音響分析装置及びコンピュータプログラム、音声認識システム
US11195545B2 (en) Method and apparatus for detecting an end of an utterance
JP2870421B2 (ja) 話速変換機能を有する補聴器

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15908755

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017551446

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15908755

Country of ref document: EP

Kind code of ref document: A1