CN108352169A - 困惑状态判定装置、困惑状态判定方法、以及程序 - Google Patents

困惑状态判定装置、困惑状态判定方法、以及程序 Download PDF

Info

Publication number
CN108352169A
CN108352169A CN201580084621.5A CN201580084621A CN108352169A CN 108352169 A CN108352169 A CN 108352169A CN 201580084621 A CN201580084621 A CN 201580084621A CN 108352169 A CN108352169 A CN 108352169A
Authority
CN
China
Prior art keywords
speech
mentioned
during
sound
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580084621.5A
Other languages
English (en)
Other versions
CN108352169B (zh
Inventor
外川太郎
中山纱友梨
大谷猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN108352169A publication Critical patent/CN108352169A/zh
Application granted granted Critical
Publication of CN108352169B publication Critical patent/CN108352169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/428Arrangements for placing incoming calls on hold
    • H04M3/4285Notifying, informing or entertaining a held party while on hold, e.g. Music On Hold
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

疑问发言检测部检测包含于用户的声音的疑问发言,频率获取部获取由疑问发言检测部在通话保留期间内检测出的疑问发言的每个单位时间的数目亦即上述疑问发言的频率,状态判定部在频率获取部获取的疑问发言的频率在第一阈值以上的情况下判定为用户是困惑状态。

Description

困惑状态判定装置、困惑状态判定方法、以及程序
技术领域
本发明涉及困惑状态判定装置、困惑状态判定方法、以及程序。
背景技术
例如,在呼叫中心操作人员与顾客进行通话的期间,有由于顾客的投诉等,而不熟练的操作人员陷入困惑状态,难以进行适当的应对的情况。在这样的情况下,熟练操作人员为了支援陷入困惑状态的不熟练的操作人员,存在能够应用于操作人员是否陷入困惑状态的判定的技术。在该技术中,基于通话声音的韵律变化,判定发言者的意图。例如,在该技术中,在发言持续时间较短,且基本频率上升的情况下,检测出有发言者抱有疑问,即、发言者陷入困惑状态的可能性。
专利文献1:日本特开2007-079363号公报
专利文献2:日本特开平04-255900号公报
专利文献3:日本特开2000-66691号公报
专利文献4:日本特开2008-134557号公报
专利文献5:国际公开2009/145192号公报
非专利文献1:南宪治,“自言自语的心理功能”,帝塚山大学现代生活学部纪要,2014年2月,10号,页85~93
然而,在操作人员在通常的通话中对顾客进行询问的情况下也存在发言持续时间较短,且基本频率上升的发言(例如,“出故障了吗?”或者“怎么样?”等)。因此,在上述技术中,有难以适当地检测操作人员,即、用户是否陷入困惑状态的情况。
发明内容
作为一个侧面,本发明的目的在于提高用户的困惑状态的判定精度。
在一个方式中,疑问发言检测部检测包含于用户的声音的疑问发言,频率获取部在通话保留期间内获取疑问发言检测部检测出的疑问发言的每个单位时间的数目亦即疑问发言的频率。另外,状态判定部在频率获取部获取的疑问发言的频率在第一阈值以上的情况下判定为用户是困惑状态。
作为一个侧面,具有提高用户的困惑状态的判定精度这样的效果。
附图说明
图1是表示第一实施方式所涉及的困惑状态判定装置的主要部分功能的一个例子的框图。
图2是表示第一实施方式所涉及的困惑状态判定装置的硬件的构成的一个例子的框图。
图3是用于说明第一实施方式所涉及的困惑状态判定处理的一个例子的概要的框图。
图4是表示第一实施方式所涉及的困惑状态判定处理的一个例子的流程图。
图5是用于说明第一实施方式所涉及的获取基本频率的处理的示意图。
图6是用于说明第一实施方式所涉及的获取基本频率的斜率的处理的示意图。
图7是用于说明第一实施方式所涉及的设定第一阈值的处理的示意图。
图8是表示第二实施方式所涉及的困惑状态判定装置的硬件的构成的一个例子的框图。
图9是表示第二实施方式所涉及的语句存储部所存储的语句的一个例子的示意图。
图10是表示第三实施方式所涉及的语句存储部所存储的语句的一个例子的示意图。
图11是用于说明第四实施方式所涉及的困惑状态判定处理的一个例子的概要的框图。
图12是表示第六实施方式所涉及的困惑状态判定装置的硬件的构成的一个例子的框图。
具体实施方式
[第一实施方式]
以下,参照附图对公开的技术的实施方式的一个例子进行详细说明。
作为一个例子图1示出困惑状态判定装置10。困惑状态判定装置10例如包含疑问发言检测部11、频率获取部12、以及状态判定部13。疑问发言检测部11、频率获取部12、以及状态判定部13相互连接。
疑问发言检测部11检测包含于用户的声音的疑问发言。频率获取部12在通话保留期间内获取由疑问发言检测部11在通话保留期间内检测出的疑问发言的每个单位时间的数目亦即疑问发言的频率。状态判定部13在频率获取部12获取的疑问发言的频率在第一阈值以上的情况下判定为用户为困惑状态。
困惑状态判定装置10例如既可以是能够与固定电话、智能手机或者移动电话等连接的个人计算机,或专用装置,也可以是固定电话、智能手机或者移动电话等的一部分。
困惑状态判定装置10作为一个例子如图2所示,具备CPU(Central ProcessingUnit:中央处理器)21、一次存储部22、二次存储部23、外部接口24、声音信号接收部25、麦克风(Microphone)26、扬声器27、以及保留按钮28。CPU21、一次存储部22、二次存储部23、外部接口24、声音信号接收部25、麦克风26、扬声器27、以及保留按钮28经由总线29相互连接。
在外部接口24连接有外部装置,外部接口24负责外部装置与CPU21之间的各种信息的发送接收。
麦克风26接受用户侧的声音,例如包含利用困惑状态判定装置10的呼叫中心的操作人员的发言的声音,并转换为声音信号。此外,在图2中,示出麦克风26包含于困惑状态判定装置10,但本实施方式并不限定于此。麦克风26例如也可以是与困惑状态判定装置10连接的电话等通话装置的麦克风,也可以是经由外部接口24连接的外置的麦克风。
扬声器27将表示通话对象侧的声音,例如表示包含利用呼叫中心的顾客的发言的声音,或者保留旋律即乐音的声音信号转换为声音。此外,在图2中,示出扬声器27包含于困惑状态判定装置10,但本实施方式并不限定于此。扬声器27例如也可以是与困惑状态判定装置10连接的电话等通话装置的扬声器,也可以是经由外部接口24连接的外置的扬声器。
在保留按钮28为接通状态的情况下,CPU21保留通话,在断开状态的情况下能够进行通话。此外,在图2中,示出了保留按钮包含于困惑状态判定装置10,但本实施方式并不限定于此。保留按钮28例如也可以是与困惑状态判定装置10连接的电话等通话装置的保留按钮,该情况下,电话的CPU保留通话,或者,使通话成为可能。
声音信号接收部25接收通过电话线路或者网络线路等发送的表示通话对象侧的声音的声音信号。
一次存储部22例如是RAM(Random Access Memory:随机存储器)等易失性存储器。二次存储部23例如是HDD(Hard Disk Drive:硬盘驱动器),或者SSD(Solid State Drive:固盘)等非易失性的存储器。二次存储部23例如存储困惑状态判定程序23A。此外,困惑状态判定程序23A也可以经由外部接口24从CD-ROM或者DVD等存储介质读入,也可以从外部服务器接收。
CPU21从二次存储部23读出困惑状态判定程序23A并展开在一次存储部22。CPU21通过执行该困惑状态判定程序23A,作为图1所示的疑问发言检测部11、频率获取部12、以及状态判定部13进行动作。
接下来,对由困惑状态判定装置10实施的困惑状态判定处理的概要进行说明。困惑状态判定装置10的用户例如是呼叫中心的操作人员。在操作人员与顾客的通话中,难以应对来自顾客的询问的答复等情况下,操作人员陷入困惑状态,产生不能够进行适当的应对的可能性。困惑状态判定装置10判定操作人员即用户是否为困惑状态。
如图3所例示那样,困惑状态判定装置10利用麦克风26获取用户的发言。困惑状态判定装置10在保留按钮28为接通状态的情况下,利用模块31判定为通话保留状态,并利用模块32检测通话保留期间内的用户的疑问发言。困惑状态判定装置10利用模块33获取疑问发言的频率,并利用模块34,基于疑问发言的频率判定用户是否为困惑状态。
在判定为用户是困惑状态的情况下,困惑状态判定装置10例如将用户为困惑状态的情况报告给该用户的管理者等的终端的画面。由此,管理者等能够适当地进行用户的支持。
接下来,作为本实施方式的作用,对由困惑状态判定装置10实施的困惑状态判定处理进行说明。图4示出由困惑状态判定装置10实施的困惑状态判定处理的一个例子。
例如,用户操作与困惑状态判定装置10连接的通话装置,开始与通话对象的通话,从而开始图4的困惑状态判定处理。在步骤101,CPU21在对疑问发言的数目进行计数的计数器Q(以下,也称为疑问发言计数器Q。)以及保存通话保留期间的寄存器L(以下,也称为通话保留期间寄存器L。)设定0。在步骤102,CPU21对表示是否通过了发言区间,即、表示是否进行了发言的标志U(以下,也称为发言区间标志U。)设定0。
在步骤103,CPU21判定是否为通话保留状态。CPU21例如在保留按钮28为接通状态的情况下,判断为通话保留状态。在否定了步骤103的判定的情况下,CPU21返回到步骤101。
另一方面,在肯定了步骤103的判定的情况下,在步骤104,CPU21获取通话保留期间。详细而言,在通话保留期间寄存器L加上一帧的时间长tf。一帧的时间长tf例如是20毫秒。
在步骤105,CPU21接收一帧的声音信号。该声音信号是与麦克风26接受的声音,即、在用户侧产生的声音对应的声音信号,暂时保存于一次存储部22。
在步骤106,CPU21判定在通话保留期间寄存器L累计的期间是否超过规定的第三阈值(以下,也称为保留期间阈值。)。在否定了步骤106的判定的情况下,CPU21返回到步骤103。另一方面,在肯定了步骤106的判定的情况下,CPU21判定为通话保留期间,并进入步骤107。保留期间阈值例如可以是30秒。
在步骤107,CPU21判定在步骤105接收的声音信号所表示的声音是否是发言区间的声音。发言区间是包含用户的发言的区间。例如,在步骤105中接收的声音信号的功率或者信噪比超过规定值的情况下,判定为该声音信号所表示的声音在不仅包含背景噪音,还包含用户的发言的发言区间。
在肯定了步骤107的判定的情况下,CPU21在步骤108对发言区间标志U设定1。在步骤109,CPU21获取声音信号的基本频率。
详细而言,例如,计算声音信号的自相关,如图5所例示,将位移时间为正,并且,在最小的位置自相关值极大的时间设为基本周期pr。如式(1)所示,通过将取样频率Fs除以基本周期pr来获取基本频率。
基本频率=Fs/pr…(1)
取样频率Fs例如为8,000Hz。
CPU21返回到步骤103,反复步骤103~步骤109的处理。另一方面,若否定了步骤107的判定,则CPU21在步骤110,判定发言区间标志U是否为1。在否定了步骤110的判定的情况下,即、在发言区间标志U为0的情况下,由于不存在判定是否为疑问发言的发言,所以CPU21返回到步骤103。
在肯定了步骤110的判定的情况下,CPU21在步骤111,如后述那样,判定在步骤105接收并保存于一次存储部22的声音信号表示的发言,即、发言区间的声音是否是疑问发言。在否定了步骤111的判定的情况下,CPU21返回到步骤102。
另一方面,在肯定了步骤111的判定的情况下,CPU21在步骤112,对疑问发言计数器Q加上1,在步骤113,获取每个单位时间的疑问发言的数目亦即疑问发言的频率。详细而言,如式(2)所示,通过将疑问发言计数器Q所计数的疑问发言的数目除以保存在通话保留期间寄存器L的通话保留期间来获取疑问发言的频率。
疑问发言的频率=Q/L…(2)
在步骤114,CPU21判定疑问发言的频率是否在规定的第一阈值(以下,也称为困惑阈值)以上。此外,后述困惑阈值。
在肯定了步骤114的判定的情况下,CPU21在步骤115,判定为用户是困惑状态,并进入步骤117。另一方面,在否定了步骤114的判定的情况下,CPU21在步骤116,判定为用户不是困惑状态,并进入步骤117。
在步骤117,CPU21判定是否为通话中。在肯定了步骤117的判定的情况下,CPU21返回到步骤102。在否定了步骤117的判定的情况下,CPU21结束困惑状态判定处理。此外,图4的步骤的顺序是一个例子,本实施方式并不限定于图4的步骤的顺序。以下的实施方式也相同。
接下来,对步骤111的判定的一个例子进行说明。在步骤111中,判定在步骤105接收并保存于一次存储部22的声音信号表示的发言是否是疑问发言。例如,在日语中,一般而言使疑问发言的末尾的基本频率上升来进行发言。因此,例如,在发言区间的末尾的规定期间,声音信号的基本频率上升的情况下,判定为疑问发言。
详细而言,例如,如图6所例示的那样,通过最小二乘法,获取发言区间的末尾的规定期间te的近似于基本频率的直线sl,在该直线sl的斜率为正,并且,比规定的第二阈值(以下,也称为疑问发言阈值。)大的情况下判定为疑问发言。发言区间的末尾的规定期间te例如可以是一秒。此外,在步骤111的判定结束之后,也可以消除在步骤105接收,并保存于一次存储部22的声音信号。
接下来,对步骤114的判定所使用的困惑阈值的一个例子进行说明。在步骤114中,判定疑问发言的频率是否在困惑阈值以上。困惑阈值虽然也可以为固定的值,但也可以如图7所例示的那样,设定为随着通话保留期间变长而变小。在用户为困惑状态的情况下,为了消除困惑状态的原因,或者,仅是苦思应对,一般而言通话保留期间变长。因此,在通话保留期间较长的情况下,即使疑问发言的频率相对较少,也推断为用户为困惑状态的可能性较高。
在本实施方式中,检测用户的声音所包含的疑问发言,获取在通话保留期间内检测出的疑问发言的数目亦即疑问发言的频率,并在获取的疑问发言的频率在困惑阈值以上的情况下判定为用户是困惑状态。
如果人陷入困惑状态,则发出自言自语的情况较多。然而,难以辨别通话中的疑问发言是对通话对象进行的询问,还是自言自语。另外,一般而言,出于对通话对象的考虑而在通话中发出自言自语的情况较少。因此,在本实施方式中,通过获取通话保留期间内的疑问发言的频率,并在该频率在困惑阈值以上的情况下判定为用户是困惑状态,能够提高用户的困惑状态的判定精度。
另外,在本实施方式中,困惑阈值被变更为随着通话保留期间变长而变小。在用户为困惑状态的情况下,为了消除困惑状态的原因,或者,仅是苦思应对,一般而言通话保留期间变长。因此,在通话保留期间较长的情况下,即使疑问发言的频率相对较少,也推断为用户为困惑状态的可能性较高。因此,通过以随着通话保留期间变长而变小的方式变更困惑阈值,能够提高用户的困惑状态的判定精度。
另外,在本实施方式中,在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况下,将发言期间的声音作为疑问发言来检测。例如,在日语中,一般而言使疑问发言的末尾的基本频率上升来进行发言。因此,通过在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况下,将发言期间的声音作为疑问发言来检测,能够提高用户的困惑状态的判定精度。
[第二实施方式]
接下来,对作为公开的技术的实施方式的一个例子的第二实施方式进行说明。对与第一实施方式相同的构成以及作用省略说明。
在第二实施方式中,在检测疑问发言时,在发言的末尾包含规定的语句的情况下判定为疑问发言。在第二实施方式中,如图8所例示的那样,二次存储部23包含语句存储部23B。语句存储部23B所包含的规定的语句的一个例子如图9所示。若为日语,则规定的语句例如是“(~)ですか(?)”、“(~)だよね(?)”、“(~)かな(?)”、以及“(~)だっけ(?)”等一般在疑问句的末尾所使用的语句。
CPU21在图4的步骤111,识别发言区间的末尾所包含的发言,判定该发言是否包含语句存储部23B所包含的规定的语句的任意一个,在肯定了判定的情况下,判定为发言是疑问发言。发言区间的末尾是距离发言区间的终端规定的期间内。
例如也可以将发言转换为文本,并通过语句存储部23B所包含的规定的语句的文本与转换后的该文本的匹配来进行发言是否包含规定的语句的任意一个的判定。另外,也可以通过使用声学模型生成的表示语句存储部23B所包含的规定的语句的声音数据与发言的声音数据的匹配来进行判定。
另外,也可以在语句存储部23B所包含的规定的语句的任意一个与发言的特征向量间距离,或者特征向量出现概率等的相似度比规定值高的情况下,判定为发言包含该规定的语句。
此外,虽然在图9中,示出了日语的例子,但本实施方式并不限定于日语,也能够应用于其它的语言。
若为英语,则例如语句存储部23B所包含的规定的语句的一个例子是“doesn't it(?)”,“don't they(?)”,“isn't it(?)”以及“aren't they(?)”等,若为汉语,则例如如以下那样。
【式1】
吗、吧、啊、以及没有等
此外,例如,也可以将在语料库的出现频率较高的疑问发言的末尾所包含的语句作为规定的语句,登记在语句存储部23B。另外,也可以是用户(或者,管理者)将该用户经常使用的疑问发言的末尾所包含的语句作为规定的语句,登记在语句存储部23B。
此外,本实施方式也可以应用于第一实施方式。即,也可以在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况、以及在发言期间的末尾包含规定的语句的情况的至少一方的情况下,将发言期间的声音作为疑问发言检测。
在本实施方式中,检测用户的声音所包含的疑问发言,获取在通话保留期间内检测出的疑问发言的频率,并在获取的疑问发言的频率在困惑阈值以上的情况下判定为用户是困惑状态。
如果人陷入困惑状态,则发出自言自语的情况较多。然而,难以辨别通话中的疑问发言是对通话对象进行的询问,还是自言自语。另外,一般而言,出于对通话对象的考虑而在通话中发出自言自语的情况较少。因此,在本实施方式中,通过在期间内获取通话保留期间内的疑问发言的频率,并在该频率在困惑阈值以上的情况下判定为用户是困惑状态,能够提高用户的困惑状态的判定精度。
在本实施方式中,在发言期间的末尾包含规定的语句的情况下,将发言期间的声音作为疑问发言检测。一般而言,疑问发言在末尾包含规定的语句。因此,在本实施方式中,通过在发言期间的末尾包含规定的语句的情况下,将发言期间的声音作为疑问发言检测,能够提高用户的困惑状态的判定精度。
[第三实施方式]
接下来,对作为公开的技术的实施方式的一个例子的第三实施方式进行说明。对与第一实施方式以及第二实施方式相同的构成以及作用省略说明。
在第三实施方式中,在检测疑问发言时,在发言的开头包含规定的语句的情况下判定为疑问发言。在第三实施方式中,图8的语句存储部23B所包含的规定的语句的一个例子如图10所示。若为日语,则规定的语句例如是“何で”、“なぜ”、“どうして”、以及“何が”等,一般在疑问句的开头所使用的语句。
CPU21在图4的步骤111,识别发言区间的开头所包含的发言,判定该发言是否包含语句存储部23B所包含的规定的语句的任意一个,并在肯定了判定的情况下,判定为发言是疑问发言。发言区间的开头是距离发言区间的开端规定的期间内。
例如也可以将发言转换为文本,并通过语句存储部23B所包含的规定的语句的文本与转换后的该文本的匹配来进行发言是否包含规定的语句的任意一个的判定。另外,也可以通过使用声学模型生成的表示语句存储部23B所包含的规定的语句的声音数据与发言的声音数据的匹配来进行判定。
此外,也可以在语句存储部23B所包含的规定的语句的任意一个与发言的特征向量间距离,或者特征向量出现概率等的相似度比规定值高的情况下,判定为发言包含该规定的语句。
此外,虽然在图10中,示出了日语的例子,但本实施方式并不限定于日语,也能够应用于其它的语言。
若为英语,则例如语句存储部23B所包含的规定的语句的一个例子是“What”、“Where”、“Why”、以及“How”等,若为汉语,则例如如以下那样。
【式2】
什么、哪里、为什么、以及怎么等
此外,例如,也可以将在语料库的出现频率较高的疑问发言的开头所包含的语句作为规定的语句,并登记在语句存储部23B。另外,也可以是用户(或者,管理者)将该用户经常使用的疑问发言的开头所包含的语句作为规定的语句,并登记在语句存储部23B。
此外,本实施方式也可以应用于第一实施方式以及第二实施方式的至少一方。即,也可以在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况、以及发言期间的开头以及末尾的至少一方包含规定的语句的情况的至少任意一种情况下,将发言期间的声音作为疑问发言检测。
在本实施方式中,检测包含于用户的声音的疑问发言,获取在通话保留期间内检测到的疑问发言的频率,并在获取的疑问发言的频率在困惑阈值以上的情况下判定为用户是困惑状态。
如果人陷入困惑状态,则发出自言自语的情况较多。然而,难以辨别通话中的疑问发言是对通话对象进行的询问,还是自言自语。另外,一般而言,出于对通话对象的考虑而在通话中发出自言自语的情况较少。因此,在本实施方式中,通过获取通话保留期间内的疑问发言的频率,并在该频率在困惑阈值以上的情况下判定为用户是困惑状态,能够提高用户的困惑状态的判定精度。
在本实施方式中,在发言期间的开头包含规定的语句的情况下,将发言期间的声音作为疑问发言检测。一般而言,疑问发言在开头包含规定的语句。因此,在本实施方式中,通过在发言期间的开头包含规定的语句的情况下,将发言期间的声音作为疑问发言检测,能够提高用户的困惑状态的判定精度。
[第四实施方式]
接下来,对作为公开的技术的实施方式的一个例子的第四实施方式进行说明。对与第一实施方式~第三实施方式相同的构成以及作用省略说明。
在第四实施方式中,在判定是否为通话保留状态时,如图11所例示的那样,使用由声音信号接收部25接收的声音信号。
CPU21在图4的步骤103,例如在由声音信号接收部25接收的声音信号所表示的声音为无声的情况下,判定为通话保留状态。这里,无声例如是指声音信号的信噪比比规定值小的情况。这是因为在通话保留状态的期间,对用户截断在通话对象侧产生的声音,即、通话对象的发言以及通话对象侧的背景噪音。
此外,也可以在声音信号的信噪比例如小于10dB的情况下,判定为通话保留状态。另外,也可以在由声音信号接收部25接收的声音信号的功率比规定值小的情况下,判定为无声。
此外,本实施方式也可以应用于第一实施方式~第三实施方式的至少任意一个。即,在本实施方式中,也可以在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况、以及在发言期间的开头以及末尾的至少一方包含规定的语句的情况的至少任意一种情况下,将发言期间的声音作为疑问发言检测。
在本实施方式中,检测包含于用户的声音的疑问发言,获取在通话保留期间内检测到的疑问发言的频率,并在获取的疑问发言的频率在困惑阈值以上的情况下判定为用户是困惑状态。
如果人陷入困惑状态,则发出自言自语的情况较多。然而,难以辨别通话中的疑问发言是对通话对象进行的询问,还是自言自语。另外,一般而言,出于对通话对象的考虑而在通话中发出自言自语的情况较少。因此,在本实施方式中,通过获取通话保留期间内的疑问发言的频率,并在该频率在困惑阈值以上的情况下判定为用户是困惑状态,能够提高用户的困惑状态的判定精度。
在本实施方式中,基于表示通话对象的声音的声音信号来检测通话保留期间。另外,在本实施方式中,将通话对象的声音中的无声期间比保留期间阈值长的无声期间作为通话保留期间检测。这是因为在通话保留期间内,对用户截断在通话对象侧产生的声音,即、通话对象的发言以及通话对象侧的背景噪音。因此,通过将通话对象的声音中的无声期间比保留期间阈值长的无声期间作为通话保留期间检测,能够提高用户的困惑状态的判定精度。
[第五实施方式]
接下来,对作为公开的技术的实施方式的一个例子的第五实施方式进行说明。对与第一实施方式~第四实施方式相同的构成以及作用省略说明。
在第五实施方式中,在判定是否为通话保留状态时,如图11所例示的那样,使用由声音信号接收部25接收的声音信号。
CPU21在图4的步骤103,例如判定由声音信号接收部25接收的声音信号所表示的声音是否是乐音。这是因为在通话保留期间内一般进行保留旋律等乐音的播放。
例如基于声音的疏密度判定是否为乐音。示出表示乐音的声音信号的功率的波形与表示发言的声音信号的功率的波形相比较更平滑,若使该波形均一化,则包含乐音的声音的密度与包含发言的声音的密度相比较高。
此外,也可以在步骤103进行是否为通话保留状态的判定之前,在规定期间,积蓄由声音信号接收部25接收的声音信号后,使用积蓄的声音信号进行步骤103的判定。规定的期间例如是一秒。
此外,本实施方式也可以应用于第一实施方式~第三实施方式的至少任意一个。即,在本实施方式中,也可以在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况、以及在发言期间的开头以及末尾的至少一方包含规定的语句的情况的至少任意一种情况下,将发言期间的声音作为疑问发言检测。
在本实施方式中,检测包含于用户的声音的疑问发言,获取在通话保留期间内检测到的疑问发言的频率,并在获取的疑问发言的频率在困惑阈值以上的情况下判定为用户是困惑状态。
如果人陷入困惑状态,则发出自言自语的情况较多。然而,难以辨别通话中的疑问发言是对通话对象进行的询问,还是自言自语。另外,一般而言,出于对通话对象的考虑而在通话中产生自言自语的情况较少。因此,在本实施方式中,通过获取通话保留期间内的疑问发言的频率,并在该频率在困惑阈值以上的情况下判定为用户是困惑状态,能够提高用户的困惑状态的判定精度。
在本实施方式中,基于表示通话对象的声音的声音信号检测通话保留期间。另外,在本实施方式中,将通话对象的声音中的乐音期间比保留期间阈值长的乐音期间作为通话保留期间检测。这是因为在通话保留期间内一般进行保留旋律等乐音的播放。因此,通过将通话对象的声音中的乐音期间比保留期间阈值长的乐音期间作为通话保留期间检测,能够提高用户的困惑状态的判定精度。
[第六实施方式]
接下来,对作为公开的技术的实施方式的一个例子的第六实施方式进行说明。对与第一实施方式~第五实施方式相同的构成以及作用省略说明。
在第六实施方式中,基于在过去的通话保留期间中获取的疑问发言的频率设定用于判定是否为困惑状态的困惑阈值。在第六实施方式中,如图12所例示的那样,二次存储部23包含积蓄在过去的通话保留期间中获取的疑问发言的频率的疑问发言频率存储部23C。
CPU21例如在图4的步骤103判定为不是通话保留状态,并且,在步骤113获取到疑问发言的频率的情况下,将该疑问发言的频率积蓄于疑问发言频率存储部23C。CPU21基于疑问发言频率存储部23C所积蓄的疑问发言频率计算在步骤114使用的困惑阈值。详细而言,例如,如式(3)所示,也可以将对积蓄于疑问发言频率存储部23C的疑问发言频率的平均值Fave乘以规定值Ca后的值作为困惑阈值。
困惑阈值=Fave*Ca
此外,也可以代替疑问发言频率的平均值Fave,而使用疑问发言频率的中值,或者最小值等,也可以代替乘以规定值,而加上规定值。
此外,本实施方式也可以应用于第一实施方式~第五实施方式的至少任意一个。即,在本实施方式中,也可以在发言期间的末尾的声音的基本频率的斜率比疑问发言阈值大的情况、以及在发言期间的开头以及末尾的至少一方包含规定的语句的情况的至少任意一种情况下,将发言期间的声音作为疑问发言检测。另外,在本实施方式中,也可以将通话对象的声音中的无声期间比保留期间阈值长的无声期间作为通话保留期间检测,也可以将通话对象的声音中的乐音期间比保留期间阈值长的乐音期间作为通话保留期间检测。
在本实施方式中,检测包含于用户的声音的疑问发言,获取在通话保留期间内检测到的疑问发言的频率,并在获取的疑问发言的频率在困惑阈值以上的情况下判定为用户是困惑状态。
如果人陷入困惑状态,则发出自言自语的情况较多。然而,难以辨别通话中的疑问发言是对通话对象进行的询问,还是自言自语。另外,一般而言,出于对通话对象的考虑而在通话中发出自言自语的情况较少。因此,在本实施方式中,通过在通话保留期间内获取通话保留期间内的疑问发言的频率,并在该频率在困惑阈值以上的情况下判定为用户是困惑状态,能够提高用户的困惑状态的判定精度。
在本实施方式中,基于在过去的通话保留期间获取的疑问发言的频率计算困惑阈值。通过基于在过去的通话保留期间获取的疑问发言的频率计算困惑阈值,能够提高用户的困惑状态的判定精度。另外,在对每个用户,积蓄在过去的通话保留期间获取的疑问发言的频率,并基于该在过去的通话保留期间获取的疑问发言的频率计算困惑阈值的情况下,能够设定适合用户固有的特性的困惑阈值。因此,能够提高用户的困惑状态的判定精度。

Claims (24)

1.一种困惑状态判定装置,包含:
声音接受部,其接受通话声音的输入;以及
控制部,其检测通话声音的通话保留期间内的疑问发言,计算在上述通话保留期间内检测到的上述疑问发言的频率,并在上述计算出的上述疑问发言的频率在第一阈值以上的情况下判定为用户是困惑状态。
2.根据权利要求1所述的困惑状态判定装置,其中,
上述控制部将上述第一阈值变更为随着上述通话保留期间变长而变小。
3.根据权利要求1所述的困惑状态判定装置,其中,
上述控制部基于在过去的通话保留期间获取的上述疑问发言的频率来计算上述第一阈值。
4.根据权利要求1~3中任意一项所述的困惑状态判定装置,其中,
上述控制部在发言期间的末尾的声音的基本频率的斜率比第二阈值大的情况下,将上述发言期间的声音作为疑问发言检测。
5.根据权利要求1~4中任意一项所述的困惑状态判定装置,其中,
上述控制部在发言期间的开头以及末尾的至少一方包含规定的语句的情况下,将上述发言期间的声音作为疑问发言检测。
6.根据权利要求1~5中任意一项所述的困惑状态判定装置,其中,
上述控制部基于表示通话对象的声音的声音信号来检测上述通话保留期间。
7.根据权利要求6所述的困惑状态判定装置,其中,
上述控制部将包含于表示上述通话对象的声音的声音信号的无声期间比第三阈值长的上述无声期间作为上述通话保留期间检测。
8.根据权利要求6所述的困惑状态判定装置,其中,
上述控制部将包含于表示上述通话对象的声音的声音信号的乐音期间比第三阈值长的上述乐音期间作为上述通话保留期间检测。
9.一种困惑状态判定方法,其中,
计算机进行以下处理:
检测包含于用户的声音的疑问发言;
获取在通话保留期间内检测到的上述疑问发言的每个单位时间的数目亦即上述疑问发言的频率;
在获取的上述疑问发言的频率在第一阈值以上的情况下判定为上述用户是困惑状态。
10.根据权利要求9所述的困惑状态判定方法,其中,
上述第一阈值被变更为随着上述通话保留期间变长而变小。
11.根据权利要求9所述的困惑状态判定方法,其中,
基于在过去的通话保留期间获取的上述疑问发言的频率来计算上述第一阈值。
12.根据权利要求9~11中任意一项所述的困惑状态判定方法,其中,
在发言期间的末尾的上述声音的基本频率的斜率比第二阈值大的情况下,将上述发言期间的声音作为疑问发言检测。
13.根据权利要求9~11中任意一项所述的困惑状态判定方法,其中,
在发言期间的开头以及末尾的至少一方包含规定的语句的情况下,将上述发言期间的声音作为疑问发言检测。
14.根据权利要求9~13中任意一项所述的困惑状态判定方法,还包含:
上述计算机基于表示通话对象的声音的声音信号来检测上述通话保留期间。
15.根据权利要求14所述的困惑状态判定方法,其中,
将包含于表示上述通话对象的声音的声音信号的无声期间比第三阈值长的上述无声期间作为上述通话保留期间检测。
16.根据权利要求14所述的困惑状态判定方法,其中,
将包含于表示上述通话对象的声音的声音信号的乐音期间比第三阈值长的上述乐音期间作为上述通话保留期间检测。
17.一种程序,用于使计算机执行困惑状态判定处理,该困惑状态判定处理是以下处理:
检测包含于用户的声音的疑问发言;
获取在通话保留期间内检测到的上述疑问发言的每个单位时间的数目亦即上述疑问发言的频率;
在获取的上述疑问发言的频率在第一阈值以上的情况下判定为上述用户是困惑状态。
18.根据权利要求17所述的程序,其中,
上述第一阈值被变更为随着上述通话保留期间变长而变小。
19.根据权利要求17所述的程序,其中,
基于在过去的通话保留期间获取的上述疑问发言的频率来计算上述第一阈值。
20.根据权利要求17~19中任意一项所述的程序,其中,
在发言期间的末尾的上述声音的基本频率的斜率比第二阈值大的情况下,将上述发言期间的声音作为疑问发言检测。
21.根据权利要求17~19中任意一项所述的程序,其中,
在发言期间的开头以及末尾的至少一方包含规定的语句的情况下,将上述发言期间的声音作为疑问发言检测。
22.根据权利要求17~21中任意一项所述的程序,其中,
上述困惑状态判定处理还包含:
基于表示通话对象的声音的声音信号来检测上述通话保留期间。
23.根据权利要求22所述的程序,其中,
将包含于表示上述通话对象的声音的声音信号的无声期间比第三阈值长的上述无声期间作为上述通话保留期间检测。
24.根据权利要求22所述的程序,其中,
将包含于表示上述通话对象的声音的声音信号的乐音期间比第三阈值长的上述乐音期间作为上述通话保留期间检测。
CN201580084621.5A 2015-11-18 2015-11-18 困惑状态判定装置、困惑状态判定方法、以及程序 Active CN108352169B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/082437 WO2017085815A1 (ja) 2015-11-18 2015-11-18 困惑状態判定装置、困惑状態判定方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN108352169A true CN108352169A (zh) 2018-07-31
CN108352169B CN108352169B (zh) 2022-06-24

Family

ID=58718644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580084621.5A Active CN108352169B (zh) 2015-11-18 2015-11-18 困惑状态判定装置、困惑状态判定方法、以及程序

Country Status (4)

Country Link
US (1) US10679645B2 (zh)
JP (1) JP6544439B2 (zh)
CN (1) CN108352169B (zh)
WO (1) WO2017085815A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10938867B2 (en) * 2018-12-03 2021-03-02 Avaya Inc. Automatic on hold communication session state management in a contact center
JP7380006B2 (ja) 2019-09-26 2023-11-15 サクサ株式会社 電話システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206818A1 (en) * 2005-03-10 2006-09-14 Epson America Inc. Dynamic frequently asked question system
US20080260138A1 (en) * 2007-04-18 2008-10-23 Yen-Fu Chen Method and system for user interaction within a queue
CN101496011A (zh) * 2006-11-09 2009-07-29 松下电器产业株式会社 内容检索装置
WO2012120656A1 (ja) * 2011-03-08 2012-09-13 富士通株式会社 通話支援装置、通話支援方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP2000066691A (ja) 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6804670B2 (en) * 2001-08-22 2004-10-12 International Business Machines Corporation Method for automatically finding frequently asked questions in a helpdesk data set
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2004252668A (ja) 2003-02-19 2004-09-09 Fujitsu Ltd コンタクトセンタ運用管理プログラム、装置および方法
CN1842811A (zh) * 2003-08-29 2006-10-04 西门子医疗健康服务公司 客户服务支持系统
US20050108094A1 (en) * 2003-11-18 2005-05-19 Philippe Hugron Method for making a decision according to customer needs
JP4354299B2 (ja) 2004-02-27 2009-10-28 富士通株式会社 事例検索プログラム、事例検索方法及び事例検索装置
JP4587854B2 (ja) 2005-03-23 2010-11-24 東京電力株式会社 感情解析装置、感情解析プログラム、プログラム格納媒体
JP2007004000A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The コールセンターにおけるオペレータ業務支援システム
JP4677548B2 (ja) 2005-09-16 2011-04-27 株式会社国際電気通信基礎技術研究所 パラ言語情報検出装置及びコンピュータプログラム
JP2008134557A (ja) 2006-11-29 2008-06-12 Fujitsu Ltd 携帯端末装置
US8589152B2 (en) 2008-05-28 2013-11-19 Nec Corporation Device, method and program for voice detection and recording medium
US20150095267A1 (en) * 2013-09-30 2015-04-02 Avaya Inc. Techniques to dynamically generate real time frequently asked questions from forum data
US20160225273A1 (en) * 2015-01-29 2016-08-04 Xerox Corporation Methods and systems for evaluating user

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060206818A1 (en) * 2005-03-10 2006-09-14 Epson America Inc. Dynamic frequently asked question system
CN101496011A (zh) * 2006-11-09 2009-07-29 松下电器产业株式会社 内容检索装置
US20080260138A1 (en) * 2007-04-18 2008-10-23 Yen-Fu Chen Method and system for user interaction within a queue
WO2012120656A1 (ja) * 2011-03-08 2012-09-13 富士通株式会社 通話支援装置、通話支援方法

Also Published As

Publication number Publication date
JP6544439B2 (ja) 2019-07-17
CN108352169B (zh) 2022-06-24
JPWO2017085815A1 (ja) 2018-09-13
US20180261238A1 (en) 2018-09-13
WO2017085815A1 (ja) 2017-05-26
US10679645B2 (en) 2020-06-09

Similar Documents

Publication Publication Date Title
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
US20200227071A1 (en) Analysing speech signals
US6321197B1 (en) Communication device and method for endpointing speech utterances
US20190115032A1 (en) Analysing speech signals
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
RU2439716C2 (ru) Детектирование автоответчика путем распознавания речи
JP2020009463A (ja) デジタルアシスタントのためのボイストリガ
CN110300001A (zh) 会议音频控制方法、系统、设备及计算机可读存储介质
CN105118522B (zh) 噪声检测方法及装置
CN103262517B (zh) 指示在呼叫中存在瞬态噪声的方法及其装置
US20110066433A1 (en) System and method for personalization of acoustic models for automatic speech recognition
CN110473539A (zh) 提升语音唤醒性能的方法和装置
CN110517670A (zh) 提升唤醒性能的方法和装置
CN110335593A (zh) 语音端点检测方法、装置、设备及存储介质
CN111031329B (zh) 一种用于管理音频数据的方法、设备和计算机存储介质
KR101698369B1 (ko) 사용자 음성 신호를 이용하는 정보 제공 장치 및 정보 제공 방법
US9443537B2 (en) Voice processing device and voice processing method for controlling silent period between sound periods
US10403289B2 (en) Voice processing device and voice processing method for impression evaluation
US20220068297A1 (en) Audio level estimator assisted false awake abatement systems and methods
CN108352169A (zh) 困惑状态判定装置、困惑状态判定方法、以及程序
JP2015082093A (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
CN110197663B (zh) 一种控制方法、装置及电子设备
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
JP6394103B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN112435441B (zh) 睡眠检测方法和可穿戴电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant