CN114566187B - 操作包括电子装置的系统的方法、电子装置及其系统 - Google Patents

操作包括电子装置的系统的方法、电子装置及其系统 Download PDF

Info

Publication number
CN114566187B
CN114566187B CN202111415483.8A CN202111415483A CN114566187B CN 114566187 B CN114566187 B CN 114566187B CN 202111415483 A CN202111415483 A CN 202111415483A CN 114566187 B CN114566187 B CN 114566187B
Authority
CN
China
Prior art keywords
speaker
representation
session
emotion
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111415483.8A
Other languages
English (en)
Other versions
CN114566187A (zh
Inventor
弗洛里安·艾本
安诺斯·赫尔普兰德
阿里·厄兹基尔
克里斯蒂安·利勒隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GN Audio AS
Original Assignee
GN Audio AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GN Audio AS filed Critical GN Audio AS
Publication of CN114566187A publication Critical patent/CN114566187A/zh
Application granted granted Critical
Publication of CN114566187B publication Critical patent/CN114566187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/40Aspects of automatic or semi-automatic exchanges related to call centers
    • H04M2203/401Performance feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/555Statistics, e.g. about subscribers but not being call statistics

Abstract

公开了具有会话后表示的系统、电子装置和相关方法,特别是操作包括电子装置的系统的方法,该方法包括获得第一会话的包括第一音频信号的一个或多个音频信号;基于第一音频信号确定第一说话者的第一说话者度量数据,第一说话者度量数据包括第一主要说话者度量数据;检测第一会话的终止;根据检测到第一会话的终止,基于第一说话者度量数据确定第一会话后表示;并且经由电子装置的接口输出第一会话后表示。

Description

操作包括电子装置的系统的方法、电子装置及其系统
技术领域
本公开涉及语音处理和相关工具和方法以及系统,具体用于分析、监控和/或评估一个或多个说话者的语音,说话者例如,呼叫者和/或呼叫的坐席代表和/或电话会话或会议(例如,在线会议)的一个或多个参与者。因此,提供了一种系统、一种电子装置和相关方法,特别是操作包括电子装置的系统的方法。
背景技术
现今,人们之间的交互越来越多地发生在远距离和虚拟的地方,例如,经由电话、电话会议等。然而,在电话的每一方,彼此讲话的人可能很难仅仅通过听讲话来理解对方的情绪或情感。
例如,几乎所有的支持和售后服务都是在发起和/或应答呼叫的呼叫中心坐席代表与被联系的潜在客户或因各种问题联系呼叫中心坐席代表的客户之间通过电话进行的。在呼叫中心、支持中心或联络中心工作的呼叫中心坐席代表会为一项有时单调重复的工作而苦恼。这对坐席代表来说是一种消极的体验,但它也会导致更差的语气表现,进而降低电话另一端客户的满意度,平均而言,通话时间会更长。接了很多个小时的电话后,可能很难记得电话的另一端有一个人渴望得到帮助以解决问题。
发明内容
因此,需要对会话具有改进反馈的系统、电子装置和操作系统的方法。
公开了一种操作包括电子装置和/或服务器装置的系统的方法,该电子装置包括接口、处理器和存储器,该方法包括:获得包括第一会话的第一音频信号的一个或多个音频信号;基于第一音频信号确定第一说话者的第一说话者度量数据,第一说话者度量数据包括第一主要说话者度量数据;检测第一会话的终止;根据检测到第一会话的终止,基于第一说话者度量数据确定第一会话后表示;并且例如从服务器装置向电子装置和/或经由电子装置的接口输出第一会话后表示。
此外,公开了一种电子装置,该电子装置包括处理器、存储器和接口,其中,处理器被配置为执行根据本公开的方法的步骤。
还公开了一种电子装置,包括处理器、存储器和接口,其中,处理器被配置为获得第一会话期间可选地包括第一音频信号的一个或多个音频信号;可选地,基于第一音频信号确定第一说话者的第一说话者度量数据,第一说话者度量数据包括第一主要说话者度量数据;可选地,检测第一会话的终止,并且根据检测到第一会话的终止,基于第一说话者度量数据确定第一会话后表示;并且可选地,例如,从服务器装置向电子装置和/或经由接口输出第一会话后表示。输出第一会话后表示可以包括从服务器装置接收第一会话后表示,并且输出(例如,显示)第一会话后表示。
还公开了一种包括服务器装置和电子装置的系统,其中,电子装置是根据本公开的电子装置。
还公开了一种服务器装置,包括接口、一个或多个处理器和存储器,一个或多个处理器可以被配置为执行本文公开的任何方法的至少一部分。例如,可以在服务器装置处确定说话者度量数据、检测会话的终止和/或确定会话后表示。例如,可以在服务器装置处确定会话后表示。会话后表示可以经由电子装置发送到电子装置,用于输出,例如,显示。
本公开的优点在于,通过提供会话后表示,例如,在会话之后,用户可以在会话(例如,通话)之后或者在会话/通话之间,立即看到或者被告知他/她的表现和/或与一个或多个度量相关的会话结果,例如,情感、语气和/或第一说话者外观。此外,用户可以获得关于他/她的表现或会话结果的更好的反馈。用户可以在会话之后,例如,在工作日之后,在会话之间(例如,在每个会话之间或者在一系列会话之间),在会话之前,例如,在开始工作日之前,获得反馈。用户可以是查看和/或评价一个或多个其他用户的一个或多个会话和/或培训会话的管理者。会话后表示可以提供用户表现的游戏化。会话后表示例如可以增加用户对他/她的工作的参与度,例如,通过能够可视化表现的提高。这可以是可视化用户自身表现的提高和/或考虑到其他用户(例如,同一公司或团队中的用户)的表现。会话后表示可以例如增加用户的动机,并给出更好表现的奖励或激励因素。用户可以提高他/她的说话能力,例如,通过与消极说话者保持积极/良好的语气来提高白天的一致性,避免不良的语音表现,例如,中断、长时间停顿、单调和/或语速。
本公开的优点在于,说话者/用户能够监控/评估会话、客户和/或会议,进而允许说话者/用户适应或调整说话者的语音,例如,语音的语气,以提高他/她在会话期间和/或未来会话中的表现。这可以改善说话者的呈现结果和/或说话者与一个或多个其他说话者之间的会话或会议的结果。本公开还可以为用户提供及时提高他们的技能和/或能力的发展路径或领域,例如,帮助用户达到和/或提高他们的关键绩效度量(KPI)。说话者可以进一步提高对会话和/或另一说话者的理解,例如,更好地掌握另一说话者的情感。说话者/用户例如能够看到顾客/呼叫者何时在最近一次会话/呼叫或一连串的会话/呼叫中突然改变,例如,从负面的说话者状态变为正面的说话者状态。
此外,本公开通过以增加的细节水平显示一个或多个说话者表示来提供改进的呼叫或会话反馈和监控。此外,本公开减少了从另一说话者获得外观数据的需要,例如,通过请求来自另一说话者的同意,这又可以提供更有效的呼叫/会话,并增加另一说话者(例如,顾客或呼叫者)的用户体验。
此外,本公开通过大量增加可用说话者表示的粒度和种类来提供更具表现力和改进的化身支持,这又允许说话者表示的改进表示和更具体的反馈和/或个性化。通过提供改进的说话者表示,说话者/用户可以在会话或会议中具有增加的参与度,例如,关于他/她的工作和/或考虑到另一说话者的增加的参与度。例如,在会话之后具有会话后表示的优点可以在于,电子装置的用户可以在会话(例如,呼叫)之后立即看到或被告知他/她的表现或与情感、语气和/或第一说话者外观(appearance)相关的会话结果。此外,电子装置的用户可以获得关于他/她的表现或会话结果的更好的反馈。会话后表示可以提供用户表现的游戏化(gamification)。会话后表示例如可以增加用户在他/她的工作的参与度,例如,通过能够可视化表现的提高。第一说话者表示可以提供第一说话者的人格化、第一说话者的肖像、第一说话者的身材、第一说话者的素描图和/或第一说话者的游戏化。
附图说明
通过参照附图对本发明的示例性实施例的以下详细描述,本发明的上述和其他特征和优点对于本领域技术人员来说将变得显而易见,其中:
图1示意性地示出了根据本公开的包括服务器装置和电子装置的示例性系统;
图2A和图2B是根据本公开的示例性方法的流程图;
图3示意性地示出了根据本公开的示例性电子装置;
图4示意性地示出了根据本公开的包括服务器装置和电子装置的示例性系统;以及
图5示意性示出了根据本公开的示例性数据结构。
具体实施方式
下文将参考相关附图描述各种示例性实施例和细节。应当注意,附图可以按比例绘制,也可以不按比例绘制,并且在所有附图中,相似结构或功能的元件由相同的附图标记表示。还应当注意,附图仅旨在便于实施例的描述。它们不是对本发明的详尽描述,也不是对本发明范围的限制。此外,所示实施例不需要具有所示的所有方面或优点。结合特定实施例描述的方面或优点不一定限于该实施例,并且可以在任何其他实施例中实践,即使没有如此示出,或者如果没有如此明确描述。
公开了一种操作包括电子装置的系统的方法。该系统可以可选地包括服务器装置,该服务器装置包括接口、一个或多个处理器和存储器。服务器装置可以配置在云上,例如,云网络。该系统可以是用于监控、处理和/或分析一个或多个音频信号的系统,例如,一个或多个音频信号包括一个或多个说话者讲话的音频信号,例如,独白或会话,例如,会议会话、视频/电话会议会话或呼叫,例如,电话或VoIP呼叫。该系统可以是用于监控、处理和/或分析一个或多个音频信号的系统,例如,一个或多个音频信号是两个或多个人/说话者之间的会话,例如,电话或会议中的会话。该系统可以例如包括或充当呼叫中心系统,用于监控、处理和/或分析一个或多个音频信号,例如,两个或多个人之间的会话,例如,呼叫中心系统的坐席代表与客户或呼叫者之间的电话呼叫。该系统可以被配置为在一个或多个电子装置之间使用边缘处理。该方法和/或系统的不同操作和/或步骤可以在不同的装置上执行,例如,在电子装置和/或服务器装置上。
该电子装置包括接口、处理器和存储器。电子装置例如可以是或包括移动电话,例如,智能手机;计算机,例如,膝上型计算机或PC,或平板计算机。电子装置例如可以是用户装置,例如,移动电话或计算机,其被配置为在用户和一个或多个人之间执行呼叫。电子装置可以被配置为获得第一音频输入,诸如来自用户和另一个人之间的呼叫的第一音频输入。例如,电子装置可以充当呼叫坐席代表装置,其中,用户可以是坐席代表,例如,呼叫中心的坐席代表,例如,支持呼叫中心、售后呼叫中心、营销呼叫中心、接待呼叫中心、销售呼叫中心,或者员工工作的重要部分是与客户进行会话的公司。电子装置例如可以是用户装置,例如,移动电话或计算机,其被配置为记录来自第一说话者的第一音频输入,例如,记录第一说话者说话或讲话。电子装置可以被配置为获得一个或多个音频信号,例如,生成包括第一音频信号的一个或多个音频信号。第一音频信号可以基于第一音频输入。
该方法包括获得一个或多个音频信号,也表示为AS_i,i=1,2,…N,其中,N是说话者/音频信号的数量,该一个或多个音频信号包括第一会话的第一音频信号,也表示为AS_1。第一会话可以是第一语音通信。第一音频信号可以表示第一会话的第一说话者的第一语音/话音。第一说话者可以是例如包括第一会话的电话会话或会议(例如,第一会话发生的地方)中的呼叫者、坐席代表或第一参与者。一个或多个音频信号可选地包括第二音频信号,表示为AS_2。第二音频信号可以表示第一会话的第二说话者的第二语音/话音。第二说话者可以是例如包括第一会话的电话会话或会议(例如,第一会话发生的地方)中的呼叫者、坐席代表人、采访者或第二参与者。
获得一个或多个音频信号可以包括获得一个或多个音频输入,例如,第一音频输入。换言之,第一音频信号可以基于第一音频输入。可以从用户和另一个人之间的呼叫或会话(例如,第一呼叫或第一会话)中获得第一音频信号。第一说话者可以是在第一呼叫和/或第一会话期间说话/讲话最多的人。第一说话者可以是在第一呼叫和/或第一会话期间说话的第一人。第一说话者可以是用户可能想要其表示的感兴趣的人,例如,第一说话者表示。可以从记录来自第一说话者的第一音频输入的电子装置获得第一音频信号,例如,电子装置记录第一说话者说话或讲话。获得一个或多个音频信号可以包括生成一个或多个音频信号,包括第一音频信号。第一音频信号可以基于第一音频输入。第一音频信号可以包括第一说话者音频信号。第一音频信号可以是坐席代表音频信号或呼叫者音频信号,第二音频信号是另一个。
该方法包括确定说话者度量数据,也标示为SPMD。确定说话者度量数据SPMD可以包括基于第一音频信号确定第一说话者的第一说话者度量数据,也标示为SPMD_1。换言之,说话者度量数据SPMD可以包括指示第一说话者的第一说话者度量数据SPMD_1和/或指示第二说话者的第二说话者度量数据SPMD_2。说话者度量数据SPMD可以包括随时间的一个或多个说话者度量,例如,随时间的一个或多个第一说话者度量(SPMD_1)和/或随时间的一个或多个第二说话者度量(SPMD_2)。换言之,确定说话者度量数据SPMD可以包括例如在会话期间确定随时间的一个或多个说话者度量SM。确定第一说话者度量数据SPMD_1可以包括例如在第一会话期间确定随时间的一个或多个第一说话者度量SPM_1。
确定第一说话者度量数据SPMD_1可以包括确定第一主要说话者度量数据,也表示为SPMD_1_1。确定第一主要说话者度量数据SPMD_1_1可以包括例如在第一会话期间确定随时间的一个或多个第一主要说话者度量SPM_1_1。换言之,第一说话者度量数据SPMD_1可以包括第一主要说话者度量数据SPMD_1_1。此外,第一说话者度量数据可以包括或指示包括一个或多个第一主要说话者度量的一个或多个第一主要说话者度量数据SPMD_1_1、包括一个或多个第一次要说话者度量的第一次要说话者度量数据SPMD_1_2、以及包括一个或多个第一三级说话者度量的第一三级说话者度量数据SPMD_1_3。
在一个或多个示例性方法中,第一主要说话者度量数据是情感度量数据。确定第一主要说话者度量数据SPMD_1_1可以包括确定情感度量数据,也表示为SMD。在一个或多个示例性方法中,确定第一主要说话者度量数据SPMD_1_1可以包括确定一个或多个第一情感度量,也表示为SM_1_i,i=1,2,…,M,其中,M是第一情感度量的数量。换言之,情感度量数据SMD可以包括例如在第一会话内和/或期间随时间的一个或多个第一情感度量。
情感度量表示说话者的情感状态。第一说话者度量数据可以包括一个或多个第一情感参数,例如,包括在情感度量数据SMD中。一个或多个第一情感参数可以基于一个或多个第一情感度量。例如,情感度量数据SMD可以指示或包括第一情感参数,该第一情感参数是说话者在会话张的平均情感和/或会话的情感结果(例如,当会话终止时说话者的整体情感状态)。情感度量可以包括情感类型标识符、情感等级和置信度分数中的一个或多个。
一个或多个第一情感度量(例如,SM_1_1和/或SM_1_2)指示第一说话者状态,即第一说话者的一个或多个第一情感状态,并且可以基于第一音频信号和/或第二音频信号。一个或多个第一情感度量SM_1_i可以包括指示第一说话者状态的一个或多个参数。
一个或多个第一情感度量SM_1_i可以包括第一主要情感度量,也表示为SM_1_1,其指示第一说话者的主要情感状态。换言之,SM_1_1可以指示第一说话者的主要情感。SM_1_1可以指示第一说话者在时间上的支配情感状态和/或第一情感状态。主要情感状态可能是失望、无聊、害怕、悲伤、消极、非常消极、沮丧、恐惧、恐慌、犹豫、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、快乐、满足、高亢、满意、放松、精力充沛、热情、有服务意识、乐于助人、感兴趣和快乐。在一个或多个示例性方法/系统中,可以从情感状态的主要组中选择第一说话者的主要情感状态。
第一情感度量SM_1_i可以包括第一情感类型标识符,也表示为ST_ID_1_i,其中,i是索引,i=1,2,…H,其中,H是第一情感类型标识符的数量。换言之,确定一个或多个第一情感度量SM_1_i可以包括确定第一情感类型标识符ST_ID_1_i,例如,第一主要情感度量SM_1_1的第一主要情感类型标识符ST_ID_1_1。情感类型标识符指示说话者的情感状态。
情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或值,例如,整数。例如,可以分别从同一组情感类型标识符或不同组情感类型标识符中选择ST_ID_1_i。例如,可以从情感类型标识符的主要组中选择ST_ID_1_1,和/或可以从情感类型标识符的次要组中选择ST_ID_1_2。情感类型标识符的主要组可以不同于或相同于情感类型标识符的次要组。情感类型标识符的主要组和情感类型标识符的次要组可以共享一个或多个(例如,多个)情感类型标识符。
在一个或多个示例性方法中,第一主要情感度量SM_1_1包括从情感类型标识符的主要组ST_ID_SET_1中选择的第一主要情感类型标识符ST_ID_1_1,其中,ST_ID_SET_1包括多个情感类型标识符,例如,包括至少三个、四个、五个或更多个情感类型标识符。
在一个或多个示例性方法中,情感类型标识符的主要组ST_ID_SET_1由下式给出:
ST_ID_SET_1={1,2,3,4,5},
其中,“1”表示情感,例如,“非常消极”,“2”表示情感,例如,“消极”,“3”表示情感,例如,“中立”,可选的“4”表示情感,例如,“积极”,可选的“5”表示情感,例如,“非常积极”。
在一个或多个示例性方法中,情感类型标识符的主要组ST_ID_SET_1由下式给出:
ST_ID_SET_1={“非常消极”、“消极”、“中立”、“积极”、“非常积极”}
例如,其中,“非常消极”和/或“非常积极”是可选的。
在一个或多个示例性方法中,情感类型标识符的主要组ST_ID_SET_1由下式给出:
ST_ID_SET_1={1,2,3,4,5},
其中,“1”表示情感,例如,“生气”,“2”表示情感,例如,“低能量”,“3”表示情感,例如,“正常能量”,可选的“4”表示情感,例如,“友好、投入、精力充沛”,可选的“5”表示情感,例如,“高度投入”。
情感类型标识符的组(例如,情感类型标识符的主要组和/或情感类型标识符的次要组)可以包括至少三个或至少四个不同情感类型标识符,例如,五个、六个、七个、八个、九个或更多个情感类型标识符。换言之,每种情绪或情感类型都可能有相应的ST_ID_1_i。例如,第一主要情感度量SM_1_1可以包括第一主要情感类型标识符ST_ID_1_1,其指示或对应于主要情感状态或第一说话者状态为“积极”。
第一情感度量SM_1_i可以包括情感等级,也表示为SL_1_i,i=1,2,…,O,其中,O是情感等级的数量。换言之,确定SM_1_i可以包括确定SL_1_i,例如,确定SM_1_1可以包括确定第一主要情感等级SL_1_1。情感等级SL_1_i可以指示第i种情感类型的等级。换言之,SL_1_i可以表示第i种情感类型的程度。例如,当ST_ID_1_1对应于第一说话者状态“积极”时,第一主要情感等级SL_1_1可以指示或对应于情感“积极”的程度,例如,以例如从0到1或从1到10的级别,或者从“低”、“中”和“高”中选择。换言之,情感度量的情感等级可以是一个衡量标准,例如,从0到1或从1到10。
第一情感度量SM_1_i可以包括置信度分数,分别表示为SCS_1_i,i=1,2,…,P,其中,P是置信度分数的数量。换言之,确定SM_1_i可以包括确定第一置信度分数SCS_1_i,例如,确定第一主要情感度量SM_1_1可以包括确定第一主要置信度分数SCS_1_1。情感度量的置信度分数可以指示所确定的情感度量(例如,情感类型标识符和/或情感等级)正确的分数或概率,例如,情感状态或情感类型(由情感度量的情感类型标识符标识)。例如,SCS_1_1=0.88可以表示所确定的ST_ID_1_1(例如,为“积极”)是正确的概率为88%。
确定指示第一说话者状态的一个或多个第一情感度量可以包括从第一音频信号中提取一个或多个说话者特征,例如,其中,一个或多个第一情感度量基于一个或多个说话者特征。一个或多个说话者特征可以包括副语言特征。一个或多个说话者特征可以例如包括说话者音调特征、说话者语调特征、说话者功率或音量特征、说话者音高特征、说话者语音质量特征、语言特征、声学特征和/或说话者声谱带能量特征。声谱带能量特征可以包括指示给定频率下的信号能量水平的声谱图的各个仓。
语言特征可以包括特定的情感相关词,例如,肯定和/或否定单词。可以基于音频信号的文本抄本来确定语言特征。可以由人类注释者或使用自动语音识别(语音到文本)算法或服务获得文本抄本。语言特征可以包括深度神经网络(例如,BERT变换器网络或其他序列到序列自动编码器)的嵌入特征。
在一个或多个示例性方法中,可以基于机器学习ML模型(例如,ML模型的输出)来确定一个或多个第一情感度量。ML模型的输入可以是说话者特征或音频信号本身。ML模型可以包括线性回归模型、支持向量机、决策树分类器(例如,随机森林XGBoost)、高斯混合模型、隐马尔可夫模型和/或神经网络。神经网络可以例如包括线性前馈层、卷积层、递归层和关注层中的一个或多个。ML模型可以包括一个或多个说话者特征的加权。例如,ML模型可以将例如说话者语调和/或语音质量映射到情感度量/类型、情感等级和/或情感置信度分数。ML模型可以包括100,000个参数到1,000,000个参数范围内的参数,例如,500,000到1,000,000个参数。ML模型可以包括5层到20层范围内的层,例如,10层到15层。
已知ML模型的示例可以是:“www.researchgate.net/publication/222431291_Emotional_speech_recogniti on_Resources_features_and_methods”、“https://mediatum.ub.tum.de/doc/1523509/1523509.pdf”和“https://www.researchgate.net/publication/319565810_End-to-end_learning_for_dimensional_emotion_recognition_from_physiological_signals”。
例如,可以从说话者语调度量得到情感度量,也表示为S,其可以是基频F0/音高的标准化方差的和(例如,通过与在音频输入上确定的因子相乘而从0到1的范围调整,例如,训练音频输入,作为ML模型的训练数据的F0方差的范围的倒数)。例如,可以从说话者语调度量S中得到情感度量,该度量可以是信号强度的标准化(范围为0-1)方差。例如,为了确定情感“高亢”和情感“未高亢”,可以将例如1.0的阈值应用于S,其中,当S高于或等于1.0时检测到高亢,而当S低于1.0时检测到未高亢。此外,可以为情感“高亢”或“未高亢”确定或获得情感等级,例如,在0-1的范围内,其中,S可以除以2(例如,作为总和一部分的说话者特征的数量)。此外,可以基于标准化F0方差和/或标准化信号强度方差的数值差的绝对值来确定或获得情感置信度分数。
ML模型可以基于例如呼叫的记录来训练,其中,验证者或监管者(例如,心理学家和/或人类监管者)已经为情感度量分配了情感标识符/标签,例如,基于他们自己的主观尽力判断,和/或为说话者特征分配了说话者特征标签。可以通过信号处理算法和/或作为另一ML模型的输出以算法的方式确定说话者特征。一个或多个第一情感度量可以由ML模型来推断。ML模型的输入可以包括一个或多个声学特征,例如,响度和/或音高特征。音调特征可以用ML模型来确定,并且例如可以消极音调或积极音调。此外,ML模型的输入可以包括声谱图,即(深层)神经网络的潜在(隐藏层激活)表示。ML模型的输入可以包括静态特征向量(“标记”),例如,平均值、方差、斜率、峰值距离、调制声谱。ML模型的输入可以包括逐帧(低水平)声学特征,例如,声音的音高、能量水平、声谱参数(梅尔频率倒谱系数MFCC;例如,logMelSpec)、声谱统计(斜率、滚降点)、语音声谱包络特征(例如,共振峰、谐波、谐波与共振峰之比)和/或语音质量度量,例如,谐波噪声比HNR、抖动和/或扰动。
在一个或多个示例性方法中,一个或多个第一情感度量SM_1_i包括也表示为SM_1_2的第一次要情感度量,其指示第一说话者的次要情感状态。
次要情感状态可能不同于主要情感状态。换言之,SM_1_2可以指示第一说话者的次要情感。SM_1_2可以是比第一说话者的主要情感状态更不占优势的情感状态和/或在时间上次要的情感状态。次要情感状态可能是失望、无聊、害怕、悲伤、消极、沮丧、恐惧、恐慌、犹豫、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、快乐、满足、高亢、满意、放松、精力充沛、热情、有服务意识、乐于助人、感兴趣和快乐中的一种。
在一个或多个示例性方法/系统中,可以从情感状态的次要组中选择第一说话者的次要情感状态。
第一情感度量SM_1_i可以包括第一情感类型标识符,也表示为ST_ID_1_i,其中,i是索引。换言之,确定一个或多个第一情感度量SM_1_i可以包括确定第一情感类型标识符ST_ID_1_i,例如,第一次要情感度量SM_1_2的第一次要情感类型标识符ST_ID_1_2。情感类型标识符指示说话者的情感状态。
情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或值,例如,整数。例如,可以分别从相同或不同情感类型标识符组中选择ST_ID_1_i。例如,可以从情感类型标识符的次要组中选择ST_ID_1_2。
在一个或多个示例性方法中,第一次要情感度量SM_1_2包括从情感类型标识符ST_ID_SET_2的次要组中选择的第一次要情感类型标识符ST_ID_1_2,其中,ST_ID_SET_2包括多个情感类型标识符,例如,包括至少三个、四个、五个或更多个情感类型标识符。
在一个或多个示例性方法中,情感类型标识符ST_ID_SET_2的次要组由下式给出:
ST_ID_SET_2={1,2,3,4,5},
其中,“1”表示情感,例如,“非常消极”,“2”表示情感,例如,“消极”,“3”表示情感,例如,“中立”,可选的“4”表示情感,例如,“积极”,可选的“5”表示情感,例如,“非常积极”。
在一个或多个示例性方法中,情感类型标识符ST_ID_SET_2的次要组由下式给出:
ST_ID_SET_2={“非常消极”、“消极”、“中立”、“积极”、“非常积极”}
例如,其中,“非常消极”和/或“非常积极”是可选的。
在一个或多个示例性方法中,情感类型标识符ST_ID_SET_2的次要组由下式给出:
ST_ID_SET_2={1,2,3,4,5},
其中,“1”表示情感,例如,“生气”,“2”表示情感,例如,“低能量”,“3”表示情感,例如,“正常能量”,可选的“4”表示情感,例如,“友好、投入、精力充沛”,可选的“5”表示情感,例如,“高度投入”。
情感类型标识符组(例如,情感类型标识符的主要组和/或情感类型标识符的次要组)可以包括至少三个或至少四个不同的情感类型标识符,例如,五个、六个、七个、八个、九个或更多个情感类型标识符。换言之,每种情绪或情感类型都可能有相应的ST_ID_1_i。例如,第一次要情感度量SM_1_2可以包括第一次要情感类型标识符ST_ID_1_2,其指示或对应于次要情感状态或第一说话者状态为“积极”。
第一情感度量SM_1_i可以包括情感等级,也表示为SL_1_i,i=1,2,…,O,其中,O是情感等级的数量。换言之,确定SM_1_i可以包括确定SL_1_i,例如,确定SM_1_2可以包括确定第一次要情感等级SL_1_2。情感等级SL_1_i可以指示第i种情感类型的等级。换言之,SL_1_i可以表示第i种情感类型的程度。例如,当ST_ID_1_2对应于第一说话者状态“积极”时,第一次要情感等级SL_1_2可以指示或对应于情感“积极”的程度,例如,以例如从0到1或从1到10的等级,或者从“低”、“中”和“高”中选择。换言之,情感度量的情感等级可以是一个衡量标准,例如,从0到1或从1到10。
第一情感度量SM_1_i可以包括置信度分数,分别表示为SCS_1_i,i=1,2,…,P,其中,P是置信度分数的数量。换言之,确定SM_1_i可以包括确定第一置信度分数SCS_1_i,例如,确定第一次要情感度量SM_1_2可以包括确定第一次要置信度分数SCS_1_2。情感度量的置信度分数可以指示所确定的情感度量(例如,情感类型标识符和/或情感等级)正确的分数或概率,例如,情感状态或情感类型(由情感度量的情感类型标识符标识)。例如,SCS_1_2=0.88可以表示所确定的ST_ID_1_2(例如,为“积极”)是正确的概率为88%。
该方法包括检测会话的终止,例如,第一会话的终止。换言之,该方法包括检测语音的终止。检测第一会话的终止可以包括检测第一说话者和/或第二说话者说话或讲话的终止。第一会话的终止例如可以是呼叫的终止、句子的终止或独白的终止。检测会话的终止可以包括检测长于例如5秒、10秒、30秒或1分钟的暂停。检测会话的终止可以包括检测用户输入、一个或多个说话者与另一个人通话、呼叫挂断和/或日历数据。
在一个或多个示例性方法中,该方法包括根据检测到第一会话的终止,基于第一说话者度量数据确定第一会话数据。在一个或多个示例性方法中,该方法包括将第一会话数据发送到系统的服务器装置。
在一个或多个示例性方法中,该方法包括:根据检测到第一会话的终止,将第一会话数据(例如,说话者记录)存储在存储器中。在一个或多个示例性方法中,第一会话数据包括指示一个或多个第一说话者度量数据的第一说话者,例如,第一主要说话者度量数据、第一次要说话者度量数据和/或第一三级说话者度量数据。
在一个或多个示例性方法中,第一说话者度量数据包括作为外观度量数据的第一三级说话者度量数据。确定第一说话者度量数据SPMD_1可以包括确定第一三级说话者度量数据,也表示为SPMD_1_3。换言之,第一说话者度量数据SPMD_1可以包括第一三级说话者度量数据SPMD_1_3。确定第一三级说话者度量数据SPMD_1_3可以包括确定外观度量数据,也表示为AMD。
在一个或多个示例性方法中,确定第一三级说话者度量数据SPMD_1_3可以包括确定一个或多个第一外观度量,也表示为AM_1_i,i=1,2,Q,其中,Q是第一说话者的或与第一说话者相关联的第一外观度量的数量。换言之,外观度量数据AMD可以包括例如在第一会话中随时间的一个或多个第一外观度量。在一个或多个示例性方法中,第一化身基于第一三级说话者度量数据。
外观度量表示说话者的外观。第一说话者度量数据可以包括一个或多个第一外观参数,例如,包括在外观度量数据AMD中。一个或多个第一外观参数可以基于一个或多个第一外观度量。例如,外观度量数据AMD可以指示或包括第一外观参数,该第一外观参数是说话者在会话期间的平均外观和/或会话的外观结果(例如,当会话终止时说话者的整体外观)。外观度量数据AMD可以指示说话者在会话中的平均外观。外观度量可以包括外观标识符、外观等级和置信度分数中的一个或多个,并且可以例如基于第一音频信号和/或第二音频信号来指示第一说话者的外观。确定一个或多个第一外观度量可以包括例如基于存储在数据库中的与第一说话者相关的信息从数据库中检索第一外观度量。一个或多个第一外观度量AM_1_i可以包括指示第一说话者的外观的一个或多个参数。一个或多个第一外观度量AM_1_i包括指示第一说话者的主要外观的第一主要外观度量,也表示为AM_1_1,和/或指示第一说话者的次要外观的第一次要外观度量,也表示为AM_1_2。
换言之,AM_1_1可以指示第一说话者的主要身体外观。AM_1_1可以选自性别度量(例如,女/女性、男/男性或无性别)、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听力能力度量、方言度量、健康度量(例如,呼吸状况、言语缺陷和/或说话障碍)、性格度量(例如,外向或内向的人)和理解能力度量(例如,基于年龄度量、健康度量和/或性别度量)。当一个老人在听会话有困难时,或者一个外国人对口语不适应时,理解能力度量可能是重要的。理解能力度量可以向用户提供指示,例如,他/她应该说得更慢和更清楚。
第一外观度量AM_1_i可以包括第一外观标识符,也表示为A_ID_1_i,其中,i是第i个第一外观度量的索引,i=1,2,…I,其中,I是第一外观标识符的数量。第一外观标识符可以指示性别度量、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听觉能力度量和理解能力度量之一。换言之,确定AM_1_i可以包括确定A_ID_1_i,包括第一主要外观度量AM_1_1的第一主要外观标识符A_ID_1_1和/或第一次要外观度量AM_1_2的第一次要外观标识符A_ID_1_2。
外观标识符例如可以是对应于特定外观度量、外观类型和/或外观类别的标签、数字或值,例如,整数。例如,A_ID_1_i可以从一组外观类型中选择,例如,一组外观类型包括性别、身高、体重、高度、年龄、语言、语言能力、听觉能力和理解能力中的一个或多个。外观度量标识符可以是映射到和/或指示外观度量类型的标签或数字。
在一个或多个示例性方法中,第一主要外观度量AM_1_1包括可选地从外观标识符的主要组A_ID_SET_1中选择的第一主要外观标识符A_ID_1_1,其中,A_ID_SET_1包括多个外观标识符,例如,包括至少三个、四个、五个或更多情感类型标识符。在一个或多个示例性方法中,第一主要外观度量AM_1_1是性别度量,即第一主要度量标识符A_ID_1_1指示性别,例如,A_ID_1_1=“性别”或A_ID_1_1=1,其可以经由表格映射到性别。
在一个或多个示例性方法中,第一次要外观度量AM_1_2包括可选地从外观标识符A_ID_SET_2的次要组中选择的第一次要外观标识符A_ID_1_2,其中,A_ID_SET_2包括多个外观标识符,例如,包括至少三个、四个、五个或更多个外观标识符。在一个或多个示例性方法中,第一次要外观度量AM_1_2是年龄度量,即第一次要度量标识符A_ID_1_2指示年龄,例如,A_ID_1_2=“年龄”或A_ID_1_2=2,其可以经由表格映射到年龄。
外观标识符组可以包括两个或至少三个或至少四个不同的外观标识符,例如,五个、六个、七个、八个、九个或更多个外观标识符。例如,第一主要外观度量AM_1_1可以包括指示或对应于第一说话者的主要外观的第一主要外观标识符A_ID_1_1,主要外观例如为性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。例如,第一次要外观标识符A_ID_1_2可以指示或对应于第一说话者的第一次要外观,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。第一次要外观标识符可选地不同于第一主要外观标识符。
第一外观度量AM_1_i可以包括外观等级,也表示为AL_1_1_i,i=1,2,…,R,其中,R是外观等级的数量。换言之,确定AM_1_i可以包括确定AL_1_i,例如,确定AM_1_1可以包括确定第一主要外观等级AM_1_1。第一外观等级AL_1_1_i可以指示由外观标识符A_ID_1_i指示的外观度量AM_1_i的等级、值、范围或标签。换言之,第一外观等级AL_1_1_i可以指示第一外观度量AM_1_i的等级、值、范围或标签。例如,当A_ID_1_1对应于第一说话者的第一主要外观是“性别”时,第一主要外观等级AL_1_1可以指示或对应于“男性”、“女性”或可选的“不分性别”。例如,当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观度量是“高”时,第一次要外观等级AL_1_2可以指示或对应于“矮”、“中等”或“高”。例如,当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观为“身高”时,第一次要外观等级AL_1_2可以指示或对应于“小于160厘米”、“在160厘米和185厘米之间”或“高于185厘米”。
例如,当第一外观标识符(例如,第一三级外观标识符A_ID_1_3)对应于第一说话者的第一外观度量,例如,第一三级外观度量AM_1_3是“年龄”时,第一三级外观等级AL_1_3可以指示或对应于年龄范围,例如,“小于20岁”、“20-40岁”、“40-60岁”或“大于60岁”或年龄标签,例如,“年轻”、“中年”或“老年”。
第一外观度量AM_1_i可以包括置信度分数,也表示为ACS_1_i,i=1,2,…,S,其中,S是置信度分数的数量。换言之,确定第一外观度量AM_1_i可以包括确定第一外观置信度分数ACS_1_i,例如,确定第一主要外观度量AM_1_1可以包括确定第一主要外观置信度分数ACS_1_1。外观度量AM_1_i的第一外观置信度分数ACS_1_i可以指示所确定的第一外观度量AM_1_i(例如,第一外观等级AL_1_1_i)正确的分数或概率,例如,外观度量或外观等级正确。例如,ACS_1_1=0.95可以表示确定的AL_1_1为“男性”是正确的概率为95%。
确定指示第一说话者的一个或多个第一外观度量可以包括从第一音频信号中提取一个或多个说话者外观特征。一个或多个说话者外观特征可以例如包括说话者音调特征、说话者语调特征、说话者功率特征、说话者音高特征、说话者语音质量特征、说话者速率特征、语言特征、声学特征和/或说话者声谱带能量特征。
声谱带能量特征可以包括指示给定频率下的信号能量水平的声谱图的各个仓。
语言特征可以包括特定的外观相关单词,例如,积极的和/或消极的单词。可以基于音频信号的文本抄本来确定语言特征。可以由人类注释者或使用自动语音识别(语音到文本)算法或服务获得文本抄本。语言特征可以包括深度神经网络(例如,BERT变换器网络或其他序列到序列自动编码器)的嵌入特征。
在一个或多个示例性方法中,可以基于机器学习ML模型(例如,ML模型的输出)来确定一个或多个第一外观度量。一个或多个第一外观度量可以由ML模型来推断。ML模型可以包括线性回归模型、支持向量机、决策树分类器(例如,随机森林XGBoost)、高斯混合模型、隐马尔可夫模型和/或神经网络。神经网络可以例如包括线性前馈层、卷积层、递归层和关注层中的一个或多个。ML模型可以包括一个或多个说话者特征的加权。例如,ML模型可以将例如说话者语调和/或语音质量映射到情感度量/类型、情感等级和/或情感置信度分数。ML模型可以包括100,000个参数到1,000,000个参数范围内的参数,例如,500,000到1,000,000个参数。ML模型可以包括5层到20层范围内的层,例如,10层到15层。
ML模型可以基于例如呼叫的记录来训练,其中,验证者或监管者(例如,人类监管者)已经为情感度量分配了情感标识符/标签,和/或为说话者特征分配了说话者特征标签。可以通过信号处理算法以算法的方式确定说话者特征。一个或多个第一外观度量可以由ML模型来推断。ML模型的输入可以包括音频数据,例如,存储在匹配一个或多个外观度量(例如,外观标签)的已知音频数据的数据库中的音频数据。外观标签可以包括由人和/或基本事实指定的标签,例如,护照或社会登记的年龄或身高。例如,音频数据输入可以包括呼叫、电视节目和/或电影演员等的记录。
ML模型的输入可以包括一个或多个声学特征,例如,音调特征。音调特征例如可以是消极音调或积极音调。此外,ML模型的输入可以包括声谱图,即(深层)神经网络的潜在(隐藏层激活)表示。ML模型的输入可以包括静态特征向量(“鉴别性标记(fingerprint,图谱特性)”),例如,平均值、方差、斜率、峰值距离、调制声谱。ML模型的输入可以包括逐帧(低水平)的声学特征,例如,声音的音高、能量水平、声谱参数(梅尔频率倒谱系数MFCC;例如,logMelSpec)、声谱统计(斜率、滚降点)、语音声谱包络特征(例如,共振峰、谐波、谐波与共振峰之比)和/或语音质量度量,例如,谐波噪声比HNR、抖动和/或扰动。例如,与一个或多个外观度量(例如,身体外观)相关的声学特征可以包括与声道长度相关的元音共振峰的比率。例如,声学特征可以涉及一个或多个外观度量,例如,身体尺寸、语音质量特征,例如,与年龄相关的HNR、抖动和/或扰动(例如,对于越高的年龄,越多的呼吸、越多的抖动),音高可以与性别相关(例如,男性可以具有低于150Hz的音高,女性可以具有高于150Hz的音高)。此外,声学特征可以例如包括语言和方言特征的音素清单/直方图,和/或例如年龄和/或性别的平均声谱包络特征。
在一个或多个示例性方法中,一个或多个第一外观度量AM_1_i包括指示第一说话者的次要外观的第一次要外观度量,也表示为AM_1_2。
第一外观度量AM_1_i可以包括第一外观标识符,也表示为A_ID_1_i,其中,i是第i个第一外观度量的索引。第一外观标识符可以指示性别度量、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听觉能力度量和理解能力度量之一。换言之,确定AM_1_i可以包括确定A_ID_1_i,包括第一次要外观度量AM_1_2的第一次要外观标识符A_ID_1_2。
在一个或多个示例性方法中,第一次要外观度量AM_1_2包括可选地从外观标识符的次要组A_ID_SET_1中选择的第一次要外观标识符A_ID_1_2,其中,A_ID_SET_1包括多个外观标识符,例如,包括至少三个、四个、五个或更多情感类型标识符。在一个或多个示例性方法中,第一次要外观度量AM_1_2是性别度量,即第一次要度量标识符A_ID_1_2指示性别,例如,A_ID_1_2=“性别”或A_ID_1_2=1,其可以经由表格映射到性别。
在一个或多个示例性方法中,第一次要外观度量AM_1_2包括可选地从外观标识符的次要组A_ID_SET_2中选择的第一次要外观标识符A_ID_1_2,其中,A_ID_SET_2包括多个外观标识符,例如,包括至少三个、四个、五个或更多个外观标识符。在一个或多个示例性方法中,第一次要外观度量AM_1_2是年龄度量,即第一次要度量标识符A_ID_1_2指示年龄,例如,A_ID_1_2=“年龄”或A_ID_1_2=2,其可以经由表格映射到年龄。
外观标识符组可以包括两个或至少三个或至少四个不同的外观标识符,例如五个、六个、七个、八个、九个或更多个外观标识符。例如,第一次要外观度量AM_1_2可以包括指示或对应于第一说话者的次要外观的第一次要外观标识符A_ID_1_2,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。例如,第一次要外观标识符A_ID_1_2可以指示或对应于第一说话者的第一次要外观,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。第一次要外观标识符可选地不同于第一次要外观标识符。
第一外观度量AM_1_i可以包括外观等级,也表示为AL_1_i,i=1,2,…,R,其中,R是外观等级的数量。换言之,确定AM_1_i可以包括确定AL_1_i,例如,确定AM_1_2可以包括确定第一次要外观等级AM_1_2。第一外观等级AL_1_i可以指示由外观标识符A_ID_1_i所指示的外观度量AM_1_i的等级、值、范围或标签。换言之,第一外观等级AL_1_i可以指示第一外观度量AM_1_i的等级、值、范围或标签。例如,当A_ID_1_2对应于第一说话者的第一次要外观是“性别”时,第一次要外观等级AL_1_2可以指示或对应于“男性”、“女性”或可选地“不分性别”。例如,当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观度量是“高”时,第一次要外观等级AL_1_2可以指示或对应于“矮”、“中等”或“高”。例如,当第一次要外观标识符A_ID_1_2对应于第一说话者的第一次要外观为“高”时,第一次要外观等级AL_1_2可以指示或对应于“小于160厘米”、“在160厘米和185厘米之间”或“高于185厘米”。
例如,当第一外观标识符(例如,第一三级外观标识符A_ID_1_3)对应于第一说话者的第一外观度量,例如,第一三级外观度量AM_1_3是“年龄”时,第一三级外观等级AL_1_3可以指示或对应于年龄范围,例如,“小于20岁”、“20-40岁”、“40-60岁”或“大于60岁”,或年龄标签,例如,“年轻”、“中年”或“老年”。
第一外观度量AM_1_i可以包括置信度分数,也表示为ACS_1_i,i=1,2,…,S,其中,S是置信度分数的数量。换言之,确定第一外观度量AM_1_i可以包括确定第一外观置信度分数ACS_1_i,例如,确定第一次要外观度量AM_1_2可以包括确定第一次要外观置信度分数ACS_1_2。外观度量AM_1_i的第一外观置信度分数ACS_1_i可以指示所确定的第一外观度量AM_1_i(例如,第一外观等级AL_1_1_i)正确(例如,外观度量或外观等级正确)的分数或概率。例如,ACS_1_2=0.95可以表示确定的AL_1_2是“男性”正确的概率为95%。
一个或多个第一情感度量和一个或多个第一外观度量可以是第一说话者度量数据的一部分。第一说话者度量数据也可以表示为坐席代表度量数据和/或呼叫者度量数据。
该方法包括:根据检测到第一会话的终止,基于说话者度量数据SPMD确定会话后表示,也表示为PCR,例如,基于第一说话者度量数据SPMD_1确定第一会话后表示,也称为PCR_1。
在一个或多个示例性方法中,确定会话后表示PCR包括基于说话者度量数据SPMD确定说话者表示,也表示为SR。说话者表示可以指示被分析的片段,例如,语音片段或话语。例如,语音活动检测模块可以识别话语/语音的一个或多个片段并丢弃噪声。片段可以是例如至少5秒或至少10秒的语音片段。语音活动检测模块可以检测长于例如400ms、500ms或1秒的暂停。当发生暂停时,当另一说话者开始说话时,或者当片段达到定义的最大长度(例如,最多8秒)时,这可以指示语音片段的结束,此时可以检测语音片段。对于每个语音片段,可以确定一个或多个情感度量和/或一个或多个外观度量。换言之,确定第一会话后表示PCR_1包括基于第一说话者度量数据SPMD_1确定第一说话者表示,也表示为SR_1。第一说话者表示可以基于第一主要说话者度量数据SPMD_1_1、第一次要说话者度量数据SPMD_1_2和第一三级说话者度量数据SPMD_1_3中的一个或多个。在一个或多个示例性方法中,确定会话后表示包括确定一组或多组说话者表示,例如,包括第一组说话者表示、第二组说话者表示和/或第三组说话者表示。根据本公开,一组说话者表示可以包括一个或多个说话者表示。不同组的说话者表示可以组合不同的说话者表示,使得可以根据用户想要看到的内容向他/她提供各种表示。用户因此可以在该组说话者表示之间改变,例如,向用户显示指示不同反馈的不同说话者表示。例如,一组或多组说话者表示可以体现为转盘(走马灯,轮播,carousel),该转盘包括用户可以在其间切换的一组或多组说话者表示。换言之,用户可以在显示器上的不同视图或用户界面之间切换。
换言之,确定第一会话后表示PCR_1包括基于第一主要说话者度量数据SPMD_1_1确定第一主要说话者表示,也表示为SR_1_1。
在一个或多个示例性方法中,该方法包括在会话后表示PCR中包括说话者表示SR。换言之,该方法包括将第一说话者表示SR_1包括在第一会话后表示PCR_1中。换言之,该方法包括将第一主要说话者表示SR_1_1包括在第一会话后表示PCR_1中。第一会话后表示PCR_1可以包括一个或多个说话者表示,例如,第一说话者表示SR_1、第一主要说话者表示SR_1_1、第一次要说话者表示SR_1_2、第一三级说话者表示SR_1_3、第一四级说话者表示SR_1_4、第二说话者表示SR_2、第二主要说话者表示SR_2_1、第二次要说话者表示SR_2_2、第二三级第三说话者表示SR_2_3和第二四级说话者表示SR_2_1中的一个或多个。
在一个或多个示例性方法中,第一主要说话者表示SR_1_1包括基于第一主要说话者度量数据SPMD_1_1的第一化身。
在一个或多个示例性方法中,第一主要说话者表示SR_1_1基于第一三级说话者度量数据SPMD_1_3。
换言之,该方法包括基于第一主要说话者度量数据SPMD_1_1和/或第一三级说话者度量数据SPMD_1_3来确定第一主要说话者表示,也表示为SR_1_1。
换言之,该方法包括基于第一主要情感度量SM_1_1和/或第一主要外观度量AM_1_1来确定第一主要说话者表示SR_1_1。确定SR_1_1可以包括基于SM_1_1和AM_1_1生成第一主要说话者表示SR_1_1。可以基于公众和/或顾客注册来确定第一说话者表示。例如,对于反复出现的呼叫者/客户,第一主要情感度量SM_1_1和/或第一主要外观度量AM_1_1可以在多次呼叫/会话中被细化(refine,精炼),例如,听到的声音越多,获得的音频数据越多,并且可以越确信地确定说话者是例如男性。一个或多个情感和/或外观度量可以是已知的,例如,来自社交注册的年龄和/或先前会话中的情感状态。一个或多个已知的情感和/或外观度量可以用于提高说话者表示的确定的准确性和/或用于确定说话者表示。
因此,确定第一会话后表示可以包括基于第一音频信号,例如,基于第一主要说话者度量数据SPMD_1_1、第一次要说话者度量数据SPMD_1_2和/或第一三级说话者度量数据SPMD_1_3,来确定SR_1_1、SR_1_2、SR_1_3、SR_1_4和SR_1_5中的一个或多个。
第一说话者表示也可以被表示为第一会话或者在第一会话期间,例如,最近一次会话或呼叫的第一人表示。
第一主要说话者表示可以指示在第一会话(例如,坐席代表和呼叫者之间的最后呼叫)期间第一说话者状态和/或第一说话者的外观。
换言之,第一说话者表示(例如,第一主要说话者表示)可以是在第一说话者和第二说话者之间的第一会话(例如,电话呼叫)期间第一说话者的平均说话者表示,例如,包括平均第一化身。第一说话者表示可以指示或反映第一说话者的中等、平均(例如,加权平均)和/或中间情感、语气和/或外观。例如,第一说话者表示(例如,第一主要说话者表示SR_1_1)可以是第一说话者的平均身体和情感表示。
例如,在会话之后具有会话后表示的优点可以在于,电子装置的用户可以在会话(例如,呼叫)之后立即看到或被告知他/她的表现或与情感、语气和/或第一说话者外观相关的会话结果。此外,电子装置的用户可以获得关于他/她的表现或会话结果的更好的反馈。会话后表示可以提供用户表现的游戏化。会话后表示例如可以增加用户对他/她的工作的参与度,例如,通过能够可视化表现的提高。第一说话者表示可以提供第一说话者的拟人化(personification,人格化)、第一说话者的肖像、第一说话者的身材、第一说话者的素描和/或第一说话者的游戏化。
第一说话者表示可以包括声音表示,例如,听觉反馈和/或音频图标。
该方法包括经由电子装置的接口输出第一会话后表示。
在一个或多个示例性方法中,输出第一会话后表示可以包括经由电子装置的接口输出第一说话者表示SR_1。输出第一会话后表示PCR_1可以包括显示指示会话后表示的第一用户界面。在一个或多个示例性方法中,输出第一会话后表示PCR_1可以包括经由电子装置的接口输出第一主要说话者表示SR_1_1、第一次要说话者表示SR_1_2、第一三级说话者表示SR_1_3和第一四级说话者表示SR_1_4中的一个或多个。
输出第一说话者表示SR_1可以包括显示指示第一说话者表示的第一用户界面。
用户界面可以包括一个或多个(例如,多个)用户界面对象。例如,第一用户界面可以包括一个或多个第一用户界面对象,例如,第一主要用户界面对象和/或第一次要用户界面对象。用户界面对象在本文可以指在电子装置的接口(例如,显示器)上显示的对象的图形表示。用户界面对象可以是用户交互式的,或者可由用户输入选择。例如,图像(例如,图标)、按钮和文本(例如,超链接)均可选地构成用户界面对象。用户界面对象可以形成控件的一部分。控件可以被视为用户可以使用的小应用程序。
在一个或多个示例性方法中,第一说话者度量数据包括第一次要说话者度量数据,也表示为SPMD_1_2。确定第一次要说话者度量数据SPMD_1_2可以包括例如在第一会话期间确定随时间的一个或多个第一次要说话者度量SM_1_2。换言之,第一说话者度量数据SPMD_1可以包括第一次要说话者度量数据SPMD_1_2。
在一个或多个示例性方法中,该方法包括基于第一说话者度量数据SPMD_1,例如,基于第一次要说话者度量数据SPMD_1_2,确定第一次要说话者表示SR_1_2,并且将第一次要说话者表示SR_1_2包括在第一会话后表示PCR_1中。
在一个或多个示例性方法中,第一说话者表示SR_1(例如,第一次要说话者表示SR_1_2)基于历史第一说话者度量数据SPMD_1,例如,第一次要说话者度量数据SPMD_1_2。术语“历史第一说话者度量数据”可以理解为基于一个或多个历史或先前会话或呼叫的第一说话者度量数据。
在一个或多个示例性方法中,第一次要说话者表示SR_1_2包括X个历史会话的表示,例如,基于历史会话的历史第一次要说话者度量数据的第一会话之前或包括第一会话。例如,X可以是过去的或历史的会话的数量,例如,X=5。第一次要说话者表示SR_1_2包括第一说话者的最近五次会话的表示,例如,坐席代表和/或呼叫者的最近五次呼叫。可替代地或额外地,第一次要说话者表示SR_1_2包括用户/说话者团队的最近五次会话的表示,例如,以为了用户能够将他/她的表现与其队友进行比较。第一次要说话者表示SR_1_2可以包括表示第一说话者(例如,呼叫者和/或坐席代表)的第一会话(例如,最近一次会话)已经是一天中最好的会话、一周中最好的会话、一个月中最好的会话和/或一年中最好的会话的表示。换言之,第一次要说话者表示SR_1_2可以包括指示第一会话是第一说话者(例如,呼叫者和/或坐席代表)在某个时间段内具有最佳表现(例如,最佳会话分数)的会话的表示。
在一个或多个示例性方法中,第一次要说话者度量数据SPMD_1_2是音调度量数据,也表示为TMD。确定第一次要说话者度量数据SPMD_1_2可以包括确定音调度量数据。在一个或多个示例性方法中,确定第一次要说话者度量数据SPMD_1_2可以包括确定一个或多个第一音调度量,也表示为TM_1_i,i=1,2,…,m,其中,m是第一音调度量的数量。换言之,音调度量数据TMD可以包括随时间(例如,在第一会话期间)的一个或多个第一音调度量。
音调度量表示说话者的音调。第一说话者度量数据可以包括一个或多个第一音调参数,例如,包括在音调度量数据TMD中。一个或多个第一音调参数可以基于一个或多个第一音调度量。例如,音调度量数据TMD可以指示或包括第一音调参数,该第一音调参数是会话期间说话者的平均音调和/或会话的音调结果(例如,当会话终止时说话者的总音调)。音调度量数据TMD可以指示会话中说话者的平均音调。音调度量数据TMD可以包括一个或多个语音度量。换言之,音调度量数据可以包括一个或多个语音度量,例如,中断、过度讲话、长时间停顿、高或低语速、高或低语调、说话者扭转或突然改变(例如,将顾客从否定转向肯定或相反)和/或响应性。音调度量数据可以包括事件的计数,例如,一个或多个度量的计数。
在一个或多个示例性方法中,第一说话者表示是呼叫者表示。第一说话者表示可以是第一参与者表示,例如,在诸如会议等会话中或期间。第一说话者表示可以是第一说话者表示,例如,在讲话或演讲中或期间。呼叫者表示可以是呼叫诸如支持呼叫中心等呼叫中心的人的表示。
在一个或多个示例性方法中,第一说话者表示是坐席代表表示。坐席代表表示可以是在诸如支持呼叫中心等呼叫中心应答呼叫的坐席代表(代表人,agent)的表示。
在一个或多个示例性方法中,确定第一说话者表示SR_1,例如,确定第一说话者表示SR_1的第一主要说话者表示SR_1_1包括:确定一个或多个第一特征F_1_i,i=1,…,K,其中,K是第一特征的数量。一个或多个第一特征可以包括第一主要说话者表示SR_1_1的第一主要特征(也表示为F_1_1)和/或第一次要特征(也表示为F_1_2)。第一特征的数量L可以是2、3、4、5或更多。第一主要说话者表示SR_1_1可以是或包括第一化身、第一表情符号、第一笑脸、第一图标、第一图像、第一动画和/或第一视觉图形表示模拟。
在一个或多个示例性方法中,确定第一主要说话者表示SR_1_1包括基于第一主要说话者度量数据SPMD_1_1,例如,第一主要情感度量SM_1_1和/或基于第一三级说话者度量数据SPMD_1_3,例如,第一主要外观度量AM_1_1,确定第一化身的第一主要特征(也表示为F_1_1)和/或第一次要特征(也表示为F_1_2)。可选地,第一说话者表示(例如,第一说话者表示SR_1的第一主要说话者表示SR_1_1)包括第一化身。确定SR_1(例如,确定SR_1_1)可以包括基于一个或多个情感度量,例如,第一情感度量,确定一个或多个特征,例如,第一特征。确定SR_1(例如,确定SR_1_1)可以包括基于一个或多个情感度量(例如,第一情感度量)和/或一个或多个外观度量,确定一个或多个特征,例如,第一特征。确定SR_1(例如,确定SR_1_1)可以包括基于SM_1_1和/或AM_1_1来确定F_1_1。换言之,第一说话者表示SR_1(例如,第一主要说话者表示SR_1_1)可以基于一个或多个第一特征,例如,基于F_1_1和F_1_2。
第一主要特征F_1_1可以指示第一主要说话者度量数据SPMD_1_1,例如,第一主要情感度量SM_1_1。换言之,F_1_1可以指示由SM_1_1指示的主要情感状态。例如,当由SM_1_1指示的主要情感状态是消极的时,F_1_1可以指示消极特征,例如,消极的(否定的)眼睛或消极的(否定的)嘴巴。
可以从特征列表和/或特征类别中选择F_1_1。可以从一组特征中选择或选取F_1_1,例如,一组特征类型,并且可以为该组特征类型的每个特征类型分配数字或值。
诸如第一化身的第一主要表示可以指示第一说话者的主要情感状态。第一化身可以是第一说话者的实时身体和/或情感表示。第一化身可以是面部表情的表示,该面部表情指示说话者的情感状态和/或第一说话者的外观。术语“表示(representation,表征,表现)”可以被理解为化身、笑脸、表情符号、表情图标、肖像、拟人化、素描、动画、视觉图形表示模拟和身材中的一个或多个。第一主要表示(例如,第一化身)可以是表示第一说话者的一个或多个情感或情感状态和/或第一说话者的一个或多个外观的一个或多个第一特征的总和。第一主要表示(例如,第一化身)可以包括至少一个特征、至少两个特征、至少五个特征、至少十个特征。
在一个或多个示例性方法中,第一主要特征F_1_1选自嘴特征、眼睛特征、鼻子特征、前额特征、眉毛特征、头发特征、耳朵特征、胡须特征、肤色特征、性别特征、脸颊特征、配饰(accessory)特征、皮肤特征、身体特征、躯干特征、腿特征、身高特征、脚特征和头部尺寸特征。
第一特征F_1_i(例如,F_1_1)可以包括特征标识符,也表示为F_ID_i,i=1,2,…L,其中,L是特征标识符的数量。换言之,确定第一主要表示的一个或多个第一特征可以包括确定第一主要特征的第一主要标识符F_ID_1_1。
特征标识符(例如,第一特征的特征标识符)例如可以是数字、值,例如,整数,或者对应于或指示特征类型的标签。例如,可以从一组特征类型中选择F_ID_1_i,并且可以为该组特征类型中的每个特征类型分配数字或值。该组特征类型可以包括至少五种不同的特征类型,例如,L=5,至少十种不同的特征类型,例如,L=10,或者至少二十种特征类型,例如,L=20。例如,第一特征类型标识符F_ID_1可以指示或对应于特征类型“眼睛”、“嘴”、“鼻子”、“前额”、“眉毛”、“头发”、“耳朵”、“胡须”、“性别”、“脸颊”、“配饰”、“皮肤”、“身体”或“头部尺寸”。
第一特征F_1_i(例如,F_1_1)可以包括特征等级,也表示为FL_i,i=1,2,…F,其中,F是特征等级的数量。换言之,确定第一主要表示的一个或多个第一特征可以包括确定第一主要特征的第一主要特征等级FL_1_1。第一特征等级FL_1_i可以指示例如如由特征标识符F_ID_1_i指示的第一特征F_1_i的等级、值、范围或标签。换言之,第一特征等级FL_1_i可以指示第一特征F_1_i的等级、值、范围或标签。例如,当F_ID_1_1对应于第一说话者的第一特征是“头部尺寸”时,第一主要特征等级FL_1_1可以指示或对应于“男性头部尺寸”、“女性头部尺寸”或可选的“男女通用头部尺寸”,例如,基于一个或多个情感度量和/或一个或多个外观度量。第一特征F_1_i(例如,F_1_1)可以包括多个特征等级,也表示为F_1_i_j。因此,第一特征可以基于多个度量,例如,情感度量和外观度量。例如,具有特征标识符F_ID_1_2=“眼睛”的第一特征(例如,F_1_2)可以包括第一特征等级FL_1_2_1=“愤怒”和FL_1_2_2=“女性”,这又允许第一说话者表示的眼睛特征指示愤怒的女性。
在一个或多个示例性方法/系统中,确定一个或多个第一特征F_1_i基于一个或多个第一情感度量和/或一个或多个第一外观度量,例如,从其映射。
确定第一主要说话者表示可以包括例如基于第一特征、第一情感度量和第一外观度量中的一个或多个从化身库中选择第一化身。确定第一主要说话者表示可以包括构建和/或生成包括一个或多个第一特征图标的第一化身,可选地,其中,一个或多个第一特征图标(例如,每个第一特征图标)基于一个或多个第一特征。换言之,确定第一主要说话者表示可以包括可选地基于第一特征、第一情感度量和第一外观度量中的一个或多个从第一特征图标库中选择第一特征图标,并且将第一特征图标包括在第一主要说话者表示中,例如,第一化身中。
在一个或多个示例性方法中,确定第一说话者表示SR_1(例如,确定第一主要说话者表示SR_1_1)包括:基于第一主要情感度量SM_1_1和/或基于第一主要外观度量AM_1_1来确定第一主要说话者表示SR_1_1(例如,第一化身)的第一次要特征F_1_2。
确定SR_1可以包括基于SM_1_1和/或AM_1_1来确定F_1_2。在一个或多个示例性方法中,确定SR_1可以包括基于SM_1_1、SM_1_2、AM_1_1和/或AM_1_2来确定F_1_2。
第一次要特征F_1_2可以指示第一主要外观度量AM_1_1。换言之,F_1_2可以指示由AM_1_1指示的主要外观。例如,当由AM_1_1指示的主要外观是“老”时,F_1_2可以指示老的特征,例如,有皱纹的眼睛或有皱纹的嘴。
可以从特征列表和/或特征类别中选择F_1_2。可以从一组特征(例如,一组特征类型)中选择或选定F_1_2,并且可以为该组特征类型的每个特征类型分配数字或值。
在一个或多个示例性方法中,第一次要特征不同于第一主要特征,并且选自嘴特征、眼睛特征、鼻子特征、前额特征、眉毛特征、头发特征、耳朵特征、胡须特征、肤色特征、性别特征、脸颊特征、配饰特征、皮肤特征、身体特征、躯干特征、腿特征、身高特征、脚特征和头部尺寸特征。
第一特征F_1_i(例如,F_1_2)可以包括特征标识符,也表示为F_ID_i,i=1,2,…L。换言之,确定第一主要表示的一个或多个第一特征可以包括确定第一次要特征的第一次要标识符F_ID_1_2。
特征标识符(例如,第一特征的特征标识符)例如可以是数字、值,例如,整数,或者对应于或指示特征类型的标签。例如,可以从一组特征类型中选择F_ID_1_i,并且可以为该组特征类型中的每个特征类型分配数字或值。该组特征类型可以包括至少五种不同的特征类型,例如,L=5,至少十种不同的特征类型,例如,L=10,或者至少二十种特征类型,例如,L=20。例如,第一特征类型标识符F_ID_1可以指示或对应于特征类型“眼睛”、“嘴”、“鼻子”、“前额”、“眉毛”、“头发”、“耳朵”、“胡须”、“性别”、“脸颊”、“配饰”、“皮肤”、“身体”或“头部尺寸”。
第一特征F_1_i(例如,F_1_2)可以包括特征等级,也表示为FL_i,i=1,2,…F。换言之,确定第一主要表示的一个或多个第一特征可以包括确定第一次要特征的第一次要特征等级FL_1_2。第一特征等级FL_1_i可以指示例如由特征标识符F_ID_1_i指示的第一特征F_1_i的等级、值、范围或标签。换言之,第一特征等级FL_1_i可以指示第一特征F_1_i的等级、值、范围或标签。例如,当F_ID_1_2对应于第一说话者的第一特征是“头部尺寸”时,第一次要特征等级FL_1_2可以指示或对应于“男性头部尺寸”、“女性头部尺寸”或可选的“男女通用头部尺寸”,例如,基于一个或多个情感度量和/或一个或多个外观度量。第一特征F_1_i(例如F_1_2)可以包括多个特征等级,也表示为F_1_i_j。因此,第一特征可以基于多个度量,例如,情感度量和外观度量。例如,具有特征标识符F_ID_1_2=“眼睛”的第一特征(例如F_1_2)可以包括第一特征等级FL_1_2_1=“愤怒”和FL_1_2_2=“女性”,这又允许第一说话者表示的眼睛特征指示愤怒的女性。
在一个或多个示例性方法中,确定第一会话后表示包括基于第一说话者度量数据SPMD_1确定第一三级说话者表示,也表示为SR_1_3,并且将第一三级说话者表示SR_1_3包括在第一会话后表示PCR_1中。
在一个或多个示例性方法中,第一三级说话者表示指示第一说话者在第一会话期间的情感分布。
在一个或多个示例性方法中,第一三级说话者表示SR_1_3包括例如在第一会话期间第一说话者和/或第二说话者的情感分布的表示。确定第一三级说话者表示SR_1_3可以基于第一主要说话者度量数据SPMD_1_1,例如,作为情感度量数据SMD,基于第一次要说话者度量数据SPMD_1_2,例如,作为音调度量数据TMD,和/或基于第一三级说话者度量数据SPMD_1_3,例如,作为外观度量数据AMD。第一三级说话者表示SR_1_3可以包括第一说话者的一个或多个第一情感类型标识符ST_ID_1_i的情感分布的表示,例如,一个或多个第一说话者状态,和/或第二说话者的一个或多个第一情感类型标识符ST_ID_2_i,例如,一个或多个第二说话者状态。
换言之,第一三级说话者表示SR_1_3可以包括表示第一会话的持续时间或第一说话者在第一会话期间说话的持续时间的表示,在此期间,第一说话者具有一个或多个第一情感类型标识符ST_ID_1_i。情感分布可以是例如在第一会话持续时间的86%期间,第一说话者具有“非常消极”的第一说话者状态,在第一会话持续时间的14%期间,第一说话者具有“消极”的第一说话者状态,在第一会话持续时间的0%期间,第一说话者具有“中立”的第一说话者状态,在第一会话持续时间的0%期间,第一说话者具有“积极”的第一说话者状态。第一三级说话者表示SR_1_3可以包括说话者的扭转或突然改变的表示(例如,将顾客从否定转为肯定,反之亦然)。
第一三级说话者表示SR_1_3可以包括第一说话者的一个或多个第一情感等级SL_1_i和/或第二说话者的一个或多个第一情感等级SL_2_i的情感分布的表示。
第一三级说话者表示SR_1_3可以包括第一说话者的一个或多个第一置信度分数SCS_1_1和/或第二说话者的一个或多个第二置信度分数SCS_2_1的情感分布的表示。
在一个或多个示例性方法中,确定第一会话后表示包括基于第一说话者度量数据SPMD_1确定第一四级说话者表示SR_1_4,并将第一四级说话者表示SR_1_4包括在第一会话后表示PCR_1中。在一个或多个示例性方法中,第一四级说话者表示SR_1_4指示第一说话者的会话分数,例如,在第一会话期间的通话分数。
在一个或多个示例性方法中,第一四级说话者表示SR_1_4包括例如在第一会话期间第一说话者和/或第二说话者的会话分数的表示,例如,平均会话分数。确定第一四级说话者表示SR_1_4可以基于例如作为情感度量数据SMD的第一主要说话者度量数据SPMD_1_1,基于第一次要说话者度量数据SPMD_1_2(例如,作为音调度量数据TMD),和/或基于第一三级说话者度量数据SPMD_1_3(例如,作为外观度量数据AMD)。换言之,所确定的第一主要说话者度量数据SPMD_1_1、第一次要说话者度量数据SPMD_1_2和/或第一三级说话者度量数据SPMD_1_3可用于确定(例如,转换)会话分数。可以基于满足或不满足一个或多个标准的一个或多个度量来确定会话分数。会话分数可以是0到20、0到10或0到5之间的分数。会话分数可以包括小数点后的一位、两位或三位数字。第一四级说话者表示SR_1_4可以包括表示第一会话(例如,最近一次会话)的会话分数是第一说话者和/或第二说话者(例如,呼叫者和/或坐席代表)当天最佳会话分数、一周最佳会话分数、一月最佳会话分数和/或一年最佳会话分数的表示。换言之,第一四级说话者表示SR_1_4可以包括指示第一会话是第一说话者和/或第二说话者(例如,呼叫者和/或坐席代表)在特定时间段内具有最佳表现(例如,最佳会话分数)的会话的表示。第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级颜色。例如,当会话分数在第一范围内时,第一颜色可以被分配给第一四级说话者表示SR_1_4。
第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级尺寸。例如,当会话分数在第一范围内时,第一尺寸可以被分配给第一四级说话者表示SR_1_4。第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级高度。例如,当会话分数在第一范围内时,第一高度可以被分配给第一四级说话者表示SR_1_4。第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级动画。例如,当会话分数是一天中最好时,第一动画可以被分配给第一四级说话者表示SR_1_4。
在一个或多个示例性方法中,一个或多个音频信号包括第二音频信号,也表示为AS_2。在一个或多个示例性方法中,获得一个或多个音频信号包括获得第二音频信号。第二音频信号可以表示第二说话者的第二语音/话语。第二说话者可以是呼叫者、坐席代表或电话会话或会议的第二参与者。
获得一个或多个音频信号可以包括获得一个或多个音频输入,例如,第二音频输入。换言之,第二音频信号可以基于第二音频输入。可以从用户和另一个人之间的呼叫或会话(例如,第一呼叫或第一会话)中获得第二音频信号。第二说话者可以是在第一呼叫和/或第一会话期间说话/讲话第二多的人。第二说话者可以是在第一呼叫和/或第一会话期间说话的第二个人。第二说话者可以是与感兴趣的人说话的人,例如,是第一说话者。第二说话者可以是想要第一说话者的表示(例如,第一说话者表示)的用户。可以从记录来自第二说话者的第二音频输入的电子装置获得第二音频信号,例如,电子装置记录第二说话者说话或讲话。获得一个或多个音频信号可以包括生成一个或多个音频信号,包括第二音频信号。第二音频信号可以基于第二音频输入。第二音频信号可以包括第二说话者音频信号。第二音频信号可以是坐席代表音频信号或呼叫者音频信号,第二音频信号是另一个。
在一个或多个示例性方法中,该方法包括基于第二音频信号确定第二说话者的第二说话者度量数据,也表示为SPMD_2。在一个或多个示例性方法中,第二说话者度量数据SPMD_2包括第二主要说话者度量数据SPMD_2_1。在一个或多个示例性方法中,第一会话后表示PCR_1基于第二说话者度量数据SPMD_2。确定第二主要说话者度量数据SPMD_2_1可以包括确定随时间(例如,在第一会话期间)的一个或多个第二主要说话者度量SM_2_1。换言之,第二说话者度量数据SPMD_2可以包括第二主要说话者度量数据SPMD_2_1。此外,第二说话者度量数据可以包括或指示包括一个或多个第二主要说话者度量的一个或多个第二主要说话者度量数据SPMD_2_1、包括一个或多个第二次要说话者度量的第二次要说话者度量数据SPMD_2_2以及包括一个或多个第二三级说话者度量的第二三级说话者度量数据SPMD_2_3。
在一个或多个示例性方法中,第二主要说话者度量数据SPMD_2_1是情感度量数据。作为情感度量数据的第一主要说话者度量数据的描述也可以应用于作为情感度量数据的第二主要说话者度量数据。
在一个或多个示例性方法中,第二主要说话者表示包括基于第二主要说话者度量数据的第二化身。第二主要说话者表示可选地基于第二说话者的第二音频信号,并且可以是主要说话者表示,例如,如关于第一主要说话者表示所描述的。换言之,对第一主要说话者表示的描述也可以适用于第二主要说话者表示。
确定第二主要说话者度量数据SPMD_2_1可以包括确定情感度量数据,也表示为SMD。在一个或多个示例性方法中,确定第二主要说话者度量数据SPMD_2_1可以包括确定一个或多个第二情感度量,也表示为SM_2_i,i=1,2,…,A,其中,A是第二情感度量的数量。换言之,情感度量数据SMD可以包括随时间(例如,在第一会话期间)的一个或多个第二情感度量SM_2。
一个或多个第二情感度量(例如,SM_2_1和/或SM_2_2)指示第二说话者状态,即第二说话者的一个或多个第一情感状态,并且可以基于第一音频信号和/或第二音频信号。一个或多个第二情感度量SM_2_i可以包括指示第二说话者状态的一个或多个参数。
一个或多个第二情感度量SM_2_1包括指示第二说话者的主要情感状态的第二主要情感度量,也表示为SM_2_1。
换言之,SM_2_1可以指示第二说话者的主要情感。SM_2_1可以指示第二说话者在时间上的支配情感状态和/或第二情感状态。主要情感状态可能是失望、无聊、害怕、悲伤、消极、非常消极、沮丧、恐惧、恐慌、犹豫、不满意、生气、惊讶、担心、疑惑、不理解、思考、中立、积极、非常积极、高兴、友好、自信、兴奋、快乐、满足、兴奋、满意、放松、精力充沛、热情、有服务意识、乐于助人、感兴趣和快乐中之一。在一个或多个示例性方法/系统中,可以从情感状态的主要组中选择第二说话者的主要情感状态。
第二情感度量SM_2_i可以包括第二情感类型标识符,也表示为ST_ID_2_i,i=1,2,…B,其中,B是第二情感类型标识符的数量,其中,i是索引。换言之,确定一个或多个第二情感度量SM_2_i可以包括确定第二情感类型标识符ST_ID_2_i,例如,第二主要情感度量SM_2_1的第二主要情感类型标识符ST_ID_2_1。情感类型标识符指示说话者的情感状态。
情感类型标识符例如可以是对应于特定情感(状态)、情感类型和/或情感类别的标签、数字或值,例如,整数。例如,可以分别从相同或不同情感类型标识符组中选择ST_ID_2_i。例如,可以从情感类型标识符的主要组中选择ST_ID_2_1,和/或可以从情感类型标识符的次要组中选择ST_ID_2_2。情感类型标识符的主要组可以与情感类型标识符的次要组不同或相同。情感类型标识符的主要组和情感类型标识符的次要组可以共享一个或多个(例如,多个)情感类型标识符。
在一个或多个示例性方法中,第二主要情感度量SM_2_1包括从情感类型标识符的主要组ST_ID_SET_1中选择的第二主要情感类型标识符ST_ID_2_1,其中,ST_ID_SET_1包括多个情感类型标识符,例如,包括至少三个、四个、五个或更多个情感类型标识符。
在一个或多个示例性方法中,情感类型标识符的主要组ST_ID_SET_1由下式给出:
ST_ID_SET_1={1,2,3,4,5},
其中,“1”表示情感,例如,“非常消极”,“2”表示情感,例如,“消极”,“3”表示情感,例如,“中立”,可选的“4”表示情感,例如,“积极”,可选的“5”表示情感,例如,“非常积极”。
在一个或多个示例性方法中,情感类型标识符的主要组ST_ID_SET_1由下式给出:
ST_ID_SET_1={“非常消极”、“消极”、“中立”、“积极”、“非常积极”}
例如,其中,“非常消极”和/或“非常积极”是可选的。
在一个或多个示例性方法中,情感类型标识符的主要组ST_ID_SET_1由下式给出:
ST_ID_SET_1={1,2,3,4,5},
其中,“1”表示情感,例如,“生气”,“2”表示情感,例如,“低能量”,“3”表示情感,例如,“正常能量”,可选的“4”表示情感,例如,“友好、投入、精力充沛”,可选的“5”表示情感,例如,“高度投入”。
情感类型标识符组(例如,情感类型标识符的主要组和/或情感类型标识符的次要组)可以包括至少三个或至少四个不同的情感类型标识符,例如,五个、六个、七个、八个、九个或更多个情感类型标识符。换言之,每种情感或情感类型都可能有相应的ST_ID_2_i。例如,第二主要情感度量SM_2_1可以包括第二主要情感类型标识符ST_ID_2_1,其指示或对应于主要情感状态或第二说话者状态为“积极”。
第二情感度量SM_2_i可以包括情感等级,也表示为SL_2_i,i=1,2,…,C,其中,C是情感等级的数量。换言之,确定SM_2_i可以包括确定SL_2_i,例如,确定SM_2_1可以包括确定第二主要情感等级SL_2_1。情感等级SL_2_i可以指示第i种情感类型的等级。换言之,SL_2_i可以表示第i种情感类型的程度。例如,当ST_ID_2_1对应于第二说话者状态“积极”时,第二主要情感等级SL_2_1可以指示或对应于情感“积极”的程度,例如,以例如从0到1或从1到10的等级,或者从“低”、“中”和“高”中选择。换言之,情感度量的情感等级可以以尺度的方式衡量,例如,从0到1或从1到10。
第二情感度量SM_2_i可以包括置信度分数,分别表示为SCS_2_i,i=1,2,…,C,其中,C是置信度分数的数量。换言之,确定SM_2_i可以包括确定第二置信度分数SCS_2_i,例如,确定第二主要情感度量SM_2_1可以包括确定第二主要置信度分数SCS_2_1。情感度量的置信度分数可以指示所确定的情感度量(例如,情感类型标识符和/或情感等级)正确的分数或概率,例如,情感状态或情感类型(由情感度量的情感类型标识符标识)正确的分数或概率。例如,SCS_2_1=0.88可以表示所确定的ST_ID_2_1例如,为“积极”是正确的概率为88%。
确定指示第二说话者状态的一个或多个第二情感度量可以包括从第二音频信号中提取一个或多个说话者特征,例如,其中,一个或多个第二情感度量基于一个或多个说话者特征。一个或多个说话者特征可以包括副语言特征。一个或多个说话者特征可以例如包括说话者音调特征、说话者语调特征、说话者功率或音量特征、说话者音高特征、说话者语音质量特征、语言特征、声学特征和/或说话者声谱带能量特征。声谱带能量特征可以包括指示给定频率下的信号能量水平的声谱图的各个仓。
语言特征可以包括特定的情感相关词,例如,肯定和/或否定单词。可以基于音频信号的文本抄本来确定语言特征。可以由人类注释者或使用自动语音识别(语音到文本)算法或服务获得文本抄本。语言特征可以包括深度神经网络(例如,BERT变换器网络或其他序列到序列自动编码器)的嵌入特征。
在一个或多个示例性方法中,可以基于机器学习ML模型(例如,ML模型的输出)来确定一个或多个第一情感度量。ML模型可以包括线性回归模型、支持向量机、决策树分类器(例如,随机森林XGBoost)、高斯混合模型、隐马尔可夫模型和/或神经网络。神经网络可以例如包括线性前馈层、卷积层、递归层和关注层中的一个或多个。ML模型可以包括一个或多个说话者特征的加权。例如,ML模型可以将例如说话者语调和/或语音质量映射到情感度量/类型、情感等级和/或情感置信度分数。ML模型可以包括100,000个参数到1,000,000个参数范围内的参数,例如,500,000到1,000,000个参数。ML模型可以包括5层到20层范围内的层,例如,10层到15层。
可以基于例如呼叫的记录来训练ML模型,其中,验证者或监管者(例如,人类监管者)已经为情感度量分配了情感标识符/标签,和/或为说话者特征分配了说话者特征标签。可以经由信号处理算法以算法的方式确定说话者特征。一个或多个第一情感度量可以由ML模型来推断。ML模型的输入可以包括一个或多个声学特征,例如,音调特征。音调特征例如可以是否定音调或肯定音调。此外,ML模型的输入可以包括声谱图,即(深层)神经网络的潜在(隐藏层激活)表示。ML模型的输入可以包括静态特征向量(“鉴别性标记”),例如,平均值、方差、斜率、峰值距离、调制声谱。ML模型的输入可以包括逐帧(低水平)的声学特征,例如,声音的音高、能量水平、声谱参数(梅尔频率倒谱系数MFCC;例如,logMelSpec)、声谱统计(斜率、滚降点)、语音声谱包络特征(例如,共振峰、谐波、谐波与共振峰之比)和/或语音质量度量,例如,谐波噪声比HNR、抖动和/或扰动。
在一个或多个示例性方法中,一个或多个第二情感度量SM_2_1包括第二次要情感度量(也表示为SM_2_2),其指示第二说话者的次要情感状态。对于第二说话者的第二次要情感度量SM_2_2的描述,可以参考第一说话者的第一次要情感度量SM_1_2的描述。第一说话者的第一次要情感度量SM_1_2的描述也可以应用于第二次要情感度量SM_2_2的描述。
在一个或多个示例性方法中,第二说话者度量数据包括作为外观度量数据的第二三级说话者度量数据。确定第二说话者度量数据SPMD_2可以包括确定第二三级说话者度量数据,也表示为SPMD_2_3。换言之,第二说话者度量数据SPMD_2可以包括第二三级说话者度量数据SPMD_2_3。确定第二三级说话者度量数据SPMD_2_3可以包括确定外观度量数据,也表示为AMD。
在一个或多个示例性方法中,确定第二三级说话者度量数据SPMD_2_3可以包括获得一个或多个第二外观度量,也表示为AM_2_i,i=1,2,…D,其中,D是第二说话者的或与第二说话者相关联的第二外观度量的数量。获得一个或多个第二外观度量可以包括确定一个或多个第二外观度量。换言之,外观度量数据AMD可以包括随时间(例如,在第一会话期间)的一个或多个第二外观度量。在一个或多个示例性方法中,第二化身基于第二三级说话者度量数据。
外观度量指示说话者的外观。外观度量数据AMD可以指示说话者在会话中的平均外观。外观度量可以包括外观标识符、外观等级和置信度分数中的一个或多个,并且可以例如基于第一音频信号和/或第二音频信号来指示第二说话者的外观。获得一个或多个第二外观度量可以包括例如基于存储在数据库中的与第二说话者相关的信息从数据库中检索第二外观度量。当第二说话者是系统的用户/坐席代表时,获得一个或多个第二外观度量可以包括从雇员数据库中检索第二外观度量,例如,数据库包括与雇员的外观相关的信息。可替代地或额外地,例如,作为坐席代表的第二说话者可以自己挑选或选择一个或多个第二主要特征和/或一个或多个第二说话者表示,例如,从第二主要特征和/或第二说话者表示的数据库中挑选或选择。一个或多个第二外观度量AM_2_i可以包括指示第二说话者外观的一个或多个参数。一个或多个第二外观度量AM_2_i包括指示第二说话者的主要外观的第二主要外观度量,也表示为AM_2_1,和/或指示第二说话者的次要外观的第二次要外观度量,也表示为AM_2_2。
换言之,AM_2_1可以指示第二说话者的主要身体外观。AM_2_1可以选自性别度量、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听力能力度量、方言度量、健康度量(例如,呼吸状况、言语缺陷和/或说话障碍)、性格度量(例如,外向或内向的人)和理解能力度量(例如,基于年龄度量、健康度量和/或性别度量)。当一个老人在听会话时有困难,或者一个外国人对讲述的语言不适应时,理解能力度量可能是重要的。理解能力度量可以向用户提供指示,例如,他/她应该说得更慢和更清楚。
第二外观度量AM_2_i可以包括第二外观标识符,也表示为A_ID_2_i,其中,i是第i个第二外观度量的索引。第二外观标识符可以指示性别度量、体重度量、身高度量、年龄度量、语言度量、语言能力度量、听觉能力度量和理解能力度量之一。换言之,确定AM_2_i可以包括确定A_ID_2_i,包括第二主要外观度量AM_2_1的第二主要外观标识符A_ID_2_1和/或第二次要外观度量AM_2_2的第二次要外观标识符A_ID_2_2。
外观标识符例如可以是对应于特定外观度量、外观类型和/或外观类别的标签、数字或值,例如,整数。例如,A_ID_2_i可以从一组外观类型中选择,例如,包括性别、身高、体重、身高、年龄、语言、语言能力、听觉能力和理解能力中的一个或多个。外观度量标识符可以是映射到和/或指示外观度量类型的标签或数字。
在一个或多个示例性方法中,第二主要外观度量AM_2_1包括可选地从外观标识符的主要组A_ID_SET_1中选择的第二主要外观标识符A_ID_2_1,其中,A_ID_SET_1包括多个外观标识符,例如,包括至少三个、四个、五个或更多个情感类型标识符。在一个或多个示例性方法中,第二主要外观度量AM_2_1是性别度量,即第二主要度量标识符A_ID_2_1指示性别,例如,A_ID_2_1=“性别”或A_ID_2_1=1,其可以经由表格映射到性别。
在一个或多个示例性方法中,第二次要外观度量AM_2_2包括可选地从外观标识符的次要组A_ID_SET_2中选择的第二次要外观标识符A_ID_2_2,其中,A_ID_SET_2包括多个外观标识符,例如,包括至少三个、四个、五个或更多个外观标识符。在一个或多个示例性方法中,第二次要外观度量AM_2_2是年龄度量,即第二次要度量标识符A_ID_2_2指示年龄,例如,A_ID_2_2=“年龄”或A_ID_2_2=2,其可以经由表格映射到年龄。
外观标识符组可以包括两个或至少三个或至少四个不同的外观标识符,例如,五个、六个、七个、八个、九个或更多个外观标识符。例如,第二主要外观度量AM_2_1可以包括指示或对应于第二说话者的主要外观的第二主要外观标识符A_ID_2_1,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。例如,第二次要外观标识符A_ID_2_2可以指示或对应于第二说话者的第二次要外观,例如,性别、体重、身高、年龄、语言、语言能力、听觉能力和理解能力之一。第二次要外观标识符可选地不同于第二主要外观标识符。
第二外观度量AM_2_i可以包括外观等级,也表示为AL_1_2_i,i=1,2,…,E,其中,E是外观等级的数量。换言之,确定AM_2_i可以包括确定AL_2_i,例如,确定AM_2_1可以包括确定第二主要外观等级AM_2_1。第二外观等级AL_2_i可以指示由外观标识符A_ID_2_i指示的外观度量AM_2_i的等级、值、范围或标签。换言之,第二外观等级AL_2_i可以指示第二外观度量AM_2_i的等级、值、范围或标签。例如,当A_ID_2_1对应于第二说话者的第二主要外观是“性别”时,第二主要外观等级AL_2_1可以指示或对应于“男性”、“女性”或“男女不分”。例如,当第二次要外观标识符A_ID_2_2对应于第二说话者的第二次要外观度量是“身高”时,第二次要外观等级AL_2_2可以指示或对应于“矮”、“中”或“高”。例如,当第二次要外观标识符A_ID_2_2对应于第二说话者的第二次要外观为“身高”时,第二次要外观等级AL_2_2可以指示或对应于“小于160厘米”、“在160厘米和185厘米之间”或“高于185厘米”。
例如,当第二外观标识符(例如,第二三级外观标识符A_ID_2_3)对应于作为“年龄”的第二说话者的第二外观度量,例如,第二三级外观度量AM_2_3,第二三级外观等级AL_2_3可以指示或对应于年龄范围,例如,“小于20岁”、“20-40岁”、“40-60岁”或“大于60岁”,或年龄标签,例如,“年轻”、“中年”或“老”。
第二外观度量AM_2_i可以包括置信度分数,也表示为ACS_2_i,i=1,2,…,G,其中,G是置信度分数的数量。换言之,确定第二外观度量AM_2_i可以包括确定第二外观置信度分数ACS_2_i,例如,确定第二主要外观度量AM_2_1可以包括确定第二主要外观置信度分数ACS_2_1。外观度量AM_2_i的第二外观置信度分数ACS_2_i可以指示所确定的第二外观度量AM_2_i(例如,第二外观等级AL_1_2_i)正确的分数或概率,例如,外观度量或外观等级正确的分数或概率。例如,ACS_2_1=0.95可以表示确定的AL_2_1是“男性”正确的概率为95%。
确定指示第二说话者的一个或多个第二外观度量可以包括从第二音频信号中提取一个或多个说话者外观特征。一个或多个说话者外观特征可以例如包括说话者音调特征、说话者语调特征、说话者功率特征、说话者音高特征和/或说话者频率特征。
一个或多个第二情感度量和一个或多个第二外观度量可以是第二说话者度量数据的一部分。第二说话者度量数据也可以表示为坐席代表度量数据和/或呼叫者度量数据。
在一个或多个示例性方法中,一个或多个第二外观度量AM_2_1包括第二次要外观度量(也表示为AM_2_2),其指示第二说话者的次要外观。对于第二说话者的第二次要外观度量AM_2_2的描述,可以参考第一说话者的第一次要外观度量AM_1_2的描述。第一说话者的第一次要外观度量AM_1_2的描述也可以适用于第二次要外观度量AM_2_2的描述。
在一个或多个示例性方法中,确定第一会话后表示PCR_1包括基于第二主要说话者度量数据SPMD_2_1确定第二主要说话者表示SR_2_1。在一个或多个示例性方法中,该方法包括将第二主要说话者表示SR_2_1包括在第一会话后表示PCR_1中。换言之,该方法包括将第二主要说话者表示SR_2_1包括在第一会话后表示PCR_1中。在一个或多个示例性方法中,第二主要说话者表示SR_2_1包括基于第二主要说话者度量数据SPMD_2_1的第二化身。在一个或多个示例性方法中,第二主要说话者表示SR_2_1基于第二三级说话者度量数据SPMD_2_3。
换言之,该方法包括基于第二主要情感度量SM_2_1和/或第二外观度量AM_2_1来确定第二主要说话者表示SR_2_1。
第二说话者表示SR_2可以包括第二主要说话者表示,也表示为SR_2_1。确定SR_2_1可以包括基于SM_2_1和AM_2_1生成第二主要说话者表示SR_2_1。
第二说话者表示SR_2可以包括第二次要说话者表示,也表示为SR_2_2。第二说话者表示SR_2可以包括第二三级说话者表示,也表示为SR_2_3。第二说话者表示SR_2可以包括第二四级说话者表示,也表示为SR_2_4。第二说话者表示SR_2可以包括第二五级说话者表示,也表示为SR_2_5。因此,确定第二说话者表示可以包括基于第二音频信号,例如,基于第二主要情感度量SM_2_1、第二主要音调度量TM_2_1和/或第二主要外观度量AM_2_1,来确定SR_2_2、SR_2_3、SR_2_4和SR_2_5中的一个或多个。确定第二说话者表示可以包括基于第二音频信号,例如,基于第二主要情感度量SM_2_1、第二主要音调度量TM_2_1和/或第二主要外观度量AM_2_1,来确定SR_2_2、SR_2_3、SR_2_4和SR_2_5中的一个或多个。
第二说话者表示也可以被表示为第一会话或第一会话(例如,最近一次会话或呼叫)期间的第二人表示。
第二主要说话者表示可以指示在第一会话(例如,坐席代表和呼叫者之间的最后呼叫)期间第二说话者状态和/或第二说话者的外观。
换言之,第二说话者表示(例如,第二主要说话者表示)可以是在第二说话者和第二说话者之间的第一会话(例如,电话呼叫)期间第二说话者的平均说话者表示,例如,包括平均第二化身。第二说话者表示可以指示或反映第二说话者的中等、平均和/或中间情感、语气和/或外观。例如,第二说话者表示(例如,第二主要说话者表示SR_2_1)可以是第二说话者的平均身体和情感表示。
例如,在会话之后具有会话后表示的优点可以在于,电子装置的用户可以在会话(例如,呼叫)之后立即看到或被告知他/她的表现或与情感、语气和/或第二说话者外观相关的会话结果。此外,电子装置的用户可以获得关于他/她的表现或会话结果的更好的反馈。会话后表示可以提供用户表现的游戏化。会话后表示例如可以增加用户对他/她的工作的参与度,例如,通过能够使表现的提高可视化。第二说话者表示可以提供第二说话者的拟人化、第二说话者的肖像、第二说话者的身材、第二说话者的素描和/或第二说话者的游戏化。
第二说话者表示可以包括声音表示,例如,听觉反馈和/或音频图标。
在一个或多个示例性方法中,该方法包括确定第二说话者表示SR_2,例如,确定第二说话者表示SR_2的第二主要说话者表示SR_2_1,包括确定一个或多个第二特征F_2_i,i=1,…,J,其中,J是第二特征的数量。一个或多个第二特征可以包括第二主要说话者表示SR_2_1的第二主要特征(也表示为F_2_1)和/或第二次要特征(也表示为F_2_2)。第二特征的数量L可以是2、3、4、5或更多。第二主要说话者表示S_2_1可以是或包括第二化身、第二表情符号、第二笑脸、第二图标、第二图像。
在一个或多个示例性方法中,确定第二说话者表示SR_2包括基于第二主要情感度量SM_2_1和/或基于第二主要外观度量AM_2_1来确定第二化身的第二主要特征(也表示为F_2_1)和/或第二次要特征(也表示为F_2_2)。可选地,第二说话者表示(例如,第二说话者表示SR_2的第二主要说话者表示SR_2_1)包括第二化身。确定SR_2(例如,确定SR_2_1)可以包括基于一个或多个情感度量(例如,第二情感度量),确定一个或多个特征,例如,第二特征。确定SR_2(例如,确定SR_2_1)可以包括基于一个或多个情感度量(例如,第二情感度量)和/或一个或多个外观度量,确定一个或多个特征,例如,第二特征。确定SR_2(例如,确定SR_2_1)可以包括基于SM_2_1和/或AM_2_1确定F_2_1。换言之,第二说话者表示SR_2(例如,第二主要说话者表示SR_2_1)可以基于一个或多个第二特征,例如,基于F_2_1和F_2_2。
第二主要特征F_2_1可以指示第二主要情感度量SM_2_1。换言之,F_2_1可以指示由SM_2_1指示的主要情感状态。例如,当由SM_2_1指示的主要情感状态是消极时,F_2_1可以指示消极特征,例如,消极的眼睛或消极的嘴巴。
可以从特征列表和/或特征类别中选择F_2_1。可以从一组特征(例如,一组特征类型)中选择和选定F_2_1,并且可以为该组特征类型的每个特征类型分配数字或值。
第二主要表示(例如,第二化身)可以指示第二说话者的主要情感状态。第二化身可以是第二说话者的实时身体和/或情感表示。第二化身可以是面部表情的表示,该面部表情指示说话者的情感状态和/或第二说话者的外观。术语“表示”可以被理解为化身、笑脸、表情符号、表情图示、肖像、拟人、素描和身材中的一个或多个。第二主要表示(例如,第二化身)可以是表示第二说话者的一个或多个情感或情感状态和/或第二说话者的一个或多个外观的一个或多个第二特征的总和。第二主要表示(例如,第二化身)可以包括至少一个特征、至少两个特征、至少五个特征、至少十个特征。
在一个或多个示例性方法中,输出第一会话后表示可以包括经由电子装置的接口输出第二说话者表示SR_2。输出第一会话后表示PCR_1可以包括显示指示会话后表示的第二用户界面。在一个或多个示例性方法中,输出第一会话后表示PCR_1可以包括经由电子装置的接口输出第二主要说话者表示SR_2_1、第二次要说话者表示SR_2_2、第二三级说话者表示SR_3_3和第二四级说话者表示SR_1_4中的一个或多个。
输出第二说话者表示SR_2可以包括显示指示第二说话者表示的第二用户界面。
用户界面可以包括一个或多个(例如,多个)用户界面对象。例如,第二用户界面可以包括一个或多个第二用户界面对象,例如,第二主要用户界面对象和/或第二次要用户界面对象。用户界面对象在本文可以指在电子装置的接口(例如,显示器)上显示的对象的图形表示。用户界面对象可以是用户交互式的,或者可由用户输入选择。例如,图像(例如,图标)、按钮和文本(例如,超链接)都可选地构成用户界面对象。用户界面对象可以形成控件的一部分。控件可以被视为用户可以使用的小应用程序。
在一个或多个示例性方法中,第二说话者度量数据包括第二次要说话者度量数据,也表示为SPMD_2_2。确定第二次要说话者度量数据SPMD_2_2可以包括确定随时间(例如,在第一会话期间)的一个或多个第二次要说话者度量SM_2_2。换言之,第二说话者度量数据SPMD_1可以包括第二次要说话者度量数据SPMD_2_2。
在一个或多个示例性方法中,该方法包括基于第二次要说话者度量数据SPMD_2_2确定第二次要说话者表示SR_2_2,并将第二次要说话者表示SR_2_2包括在第一会话后表示PCR_1中。第二次要说话者表示可选地基于第二说话者的第二音频信号,并且可以是次要说话者表示,例如,如关于第一次要说话者表示所描述的。换言之,对第一次要说话者表示的描述也可以应用于第二次要说话者表示。
在一个或多个示例性方法中,第二次要说话者表示SR_2_2基于历史第二次要说话者度量数据SPMD_2_2。
在一个或多个示例性方法中,第二次要说话者表示SR_2_2包括基于第二次要说话者度量数据的X个历史会话的表示,历史会话例如在第一会话之前或包括第一会话。例如,X是过去或历史会话的数量,例如,X=5。第二次要说话者表示SR_2_2包括第二说话者的最近五次会话的表示,例如,坐席代表和/或呼叫者的最近五次呼叫。第二次要说话者表示SR_2_2可以包括表示第二说话者(例如,呼叫者和/或坐席代表)的第一会话(例如,最近一次会话)已经是一天中最好的会话、一周中最好的会话、一个月中最好的会话和/或一年中最好的会话的表示。换言之,第二次要说话者表示SR_2_2可以包括指示第一会话是第二说话者(例如,呼叫者和/或坐席代表)在某个时间段内具有最佳表现(例如,最佳会话分数)的会话的表示。
在一个或多个示例性方法中,第二次要说话者度量数据SPMD_2_2是音调度量数据,也表示为TMD。确定第二次要说话者度量数据SPMD_2_2可以包括确定音调度量数据。在一个或多个示例性方法中,确定第二次要说话者度量数据SPMD_2_2可以包括确定一个或多个第二音调度量,也表示为TM_2_i,i=1,2,…,m,其中,m是第二音调度量的数量。换言之,音调度量数据TMD可以包括随时间(例如,在第一会话期间)的一个或多个第二音调度量。
音调度量表示说话者的音调。音调度量数据TMD可以指示会话中说话者的平均音调。音调度量数据TMD可以包括一个或多个语音度量。换言之,音调度量数据可以包括一个或多个语音度量,例如,中断、过度讲话、长时间停顿、高或低语速、高或低语调、说话者的扭转或突然改变(例如,将顾客从否定转向肯定或相反)、和/或响应性。音调度量数据可以包括事件的计数,例如,一个或多个度量的计数。
在一个或多个示例性方法中,第二说话者表示是坐席代表表示。坐席代表表示可以是在诸如支持呼叫中心等呼叫中心应答呼叫的坐席代表的表示。
公开了一种电子装置。该电子装置包括处理器、存储器和接口。电子装置(例如,处理器)被配置为执行根据本公开的任何方法。
公开了一种电子装置。该电子装置包括处理器、存储器和接口。处理器被配置为获得第一会话期间的一个或多个音频信号,该一个或多个音频信号包括第一音频信号。
电子装置可以例如包括移动电话、计算机和平板电脑中的一个或多个。电子装置例如可以是用户装置,例如,移动电话或计算机,其被配置为执行用户和另一个人之间的呼叫。电子装置可以被配置为获得第一音频输入,例如,从用户和另一个人之间的呼叫中获得第一音频输入。例如,电子装置可以充当呼叫坐席代表装置,其中,用户可以是坐席代表,例如,呼叫中心的坐席代表,呼叫中心例如为支持呼叫中心、售后呼叫中心、营销呼叫中心或销售呼叫中心。电子装置例如可以是用户装置,例如,移动电话或计算机,其被配置为记录来自第一说话者的第一音频输入,例如,记录第一说话者说话或讲话。电子装置可以被配置为获得一个或多个音频信号,例如,生成包括第一音频信号的一个或多个音频信号。第一音频信号可以基于第一音频输入。
例如,使用处理器的电子装置被配置为基于第一音频信号确定第一说话者的第一说话者度量数据。第一说话者度量数据包括第一主要说话者度量数据。例如,使用处理器的电子装置被配置为确定第一会话的终止。例如,使用处理器的电子装置被配置为根据检测到第一会话的终止,基于第一说话者度量数据来确定第一会话后表示。例如,使用处理器的电子装置被配置为经由接口输出第一会话后表示。
电子装置的接口可以包括第一显示器。可选地,该系统可以包括与电子装置分离的第二接口,例如,第二显示器(例如,侧面(sidewing))。第二接口可以代替电子装置的接口充当显示器。电子装置的第一显示器可以被配置为检测用户输入,例如,第一主要用户输入。用户输入可以包括来自用户的触摸输入,例如,当第一显示器包括触敏显示器时。用户输入可以包括触敏显示器上的触点和/或包含在电子装置中或连接到电子装置的键盘。触敏显示器可以在电子装置和用户之间提供第一用户接口和/或第二用户接口(例如,输入接口)以及输出接口。电子装置的处理器可以被配置为从触敏显示器接收电信号和/或向触敏显示器发送电信号。触敏显示器可以被配置为向用户显示视觉输出,例如,第一说话者表示和/或第二说话者表示。视觉输出可选地包括图形、文本、图标、视频、音频图标及其任意组合(统称为“图形”)。例如,视觉输出的一些、大部分或全部可以被视为对应于用户界面对象。电子装置还可以被配置为输出包括音频输出的第一说话者表示,例如,声音表示、音频图标和/或听觉反馈。
电子装置的处理器可以被配置为在接口(例如,第一显示器)上显示一个或多个用户界面,例如,用户界面画面,包括第一用户界面和/或第二用户界面。用户界面可以包括一个或多个(例如,多个)用户界面对象。例如,第一用户界面可以包括第一主要用户界面对象和/或第一次要用户界面对象。第二用户界面可以包括第二主要用户界面对象和/或第二次要用户界面对象。用户界面可以被称为用户界面画面。
诸如用户输入等输入可以包括触摸(例如,轻击、强制触摸、长按)、点击(例如,鼠标点击)、打字(例如,在键盘上打字)、音频输入(例如,语音助手)和/或接触移动(例如,滑动手势,例如,用于切换)。接触时的移动可以由触敏表面检测到,例如,在电子装置的第一显示器上。因此,第一显示器可以是触敏显示器。第一输入(例如,第一用户输入)可以包括抬起。诸如第一主要用户输入、第二主要用户输入和/或第二次要用户输入等用户输入可以包括触摸和移动,随后是抬起。
公开了一种系统。该系统包括服务器装置和电子装置。电子装置是根据本公开的电子装置。
该系统可以是用于监控、处理和/或分析一个或多个音频信号的系统,例如,作为独白的说话者说话。该系统可以是用于监控、处理和/或分析一个或多个音频信号的系统,例如,两个或多个人之间的会话,例如,电话或会议中的会话。该系统可以例如包括或充当呼叫中心系统,用于监控、处理和/或分析一个或多个音频信号,例如,两个或多个人之间的会话,例如,呼叫中心系统的坐席代表和客户或呼叫者之间的电话呼叫。
应当理解,关于方法的特征描述也适用于电子装置、服务器装置和/或系统中的相应特征。
图1示意性地示出了根据本公开的具有会话后表示的示例性系统,例如系统2。系统2包括电子装置10和可选的服务器装置20。电子装置10包括存储器10A、一个或多个接口10B和处理器10C。服务器装置20包括存储器20A、一个或多个接口20B以及一个或多个处理器20C。用户1A可以使用电子装置10(例如,移动电话或计算机)来执行或接收来自说话者1B(例如,第一说话者)的呼叫。说话者1B可以使用说话者电子装置30与用户1A通信。
电子装置10可以被配置为充当用户装置,用户1A可以使用该用户装置来与说话者1B通信和/或监控呼叫/会话。电子装置/处理器10C被配置为获得包括第一音频信号的一个或多个音频信号(14)。可以从说话者电子装置30获得第一音频信号(22)。可以从服务器装置20例如经由网络40(例如,全球网络,以互联网或电信网络为例)获得第一音频信号(14)。
说话者电子装置30可以被配置为记录来自说话者1B的音频输入32,例如,第一音频输入,例如,记录说话者1B的讲话或会话。说话者电子装置30可以被配置为获得一个或多个音频信号,例如,基于音频输入32生成一个或多个音频信号,一个或多个音频信号包括基于第一音频输入的第一音频信号。说话者电子装置30可以被配置为例如经由网络40向电子装置10发送第一音频信号(22)。说话者电子装置30可以被配置为例如基于用户输入4(例如,用户音频输入)从电子装置10获得一个或多个音频信号(24)。用户输入4可以是用户1A的说话或讲话,例如,电子装置10记录用户1A的说话或讲话。用户1A可以是第一说话者和/或第二说话者。
电子装置/处理器10C被配置为基于第一音频信号确定第一说话者的第一说话者度量数据。
第一说话者度量数据包括指示第一说话者1B的第一主要说话者度量数据。
可选地,一个或多个处理器20C被配置为基于第一音频信号确定第一说话者的第一说话者度量数据。然后,处理器10C可以被配置为例如经由网络40从服务器装置20获得第一说话者度量数据(14)。处理器20C可以被配置为例如经由网络40向电子装置10发送第一说话者度量数据(18)。处理器20C可以被配置为例如经由网络40向电子装置10发送第一说话者度量数据/第二说话者度量数据(18)。
处理器10C可选地被配置为确定第一次要说话者度量数据,例如,第一说话者1B的音调度量数据。第一次要说话者度量数据可以包括指示说话者1B的音调的音调度量数据。
可选地,处理器20C被配置为确定第一次要说话者度量数据。处理器10C然后可以被配置为例如经由网络40从服务器装置20获得第一次要说话者度量数据(14)。处理器20C可以被配置为例如经由网络40向电子装置10发送第一次要说话者度量数据(18)。
处理器10C可选地被配置为确定第一三级说话者度量数据,例如,第一三级说话者度量数据指示第一说话者1B的外观。第一三级说话者度量数据可以包括指示说话者1B的主要外观的第一主要外观度量。
可选地,处理器20C被配置为确定第一三级说话者度量数据。处理器10C然后可以被配置为例如经由网络40从服务器装置20获得第一三级说话者度量数据(14)。处理器20C可以被配置为例如经由网络40向电子装置10发送第一三级说话者度量数据(18)。
处理器10C被配置为检测第一会话的终止,例如,语音的终止,例如,呼叫的终止、结束或保持,并且根据检测到第一会话/语音/呼叫的终止,基于第一说话者度量数据来确定第一会话后表示。处理器10C可以被配置为经由接口10B输出第一会话后表示(6)。
处理器10C可以被配置为根据检测到第一会话的终止,基于第一说话者度量数据来确定第一会话数据。处理器10C可以被配置为向系统2的服务器装置20发送第一会话数据。
处理器10C可以被配置为根据检测到第一会话的终止,在存储器10A中存储第一会话数据,例如,说话者录音。在一个或多个示例性电子装置和/或方法中,第一会话数据包括指示一个或多个第一说话者度量数据的第一说话者录音,第一说话者度量数据例如为第一主要说话者度量数据、第一次要说话者度量数据和/或第一三级说话者度量数据。
可选地,处理器20C被配置为基于第一说话者度量数据来确定第一会话后表示。然后,处理器10C可以被配置为例如经由网络40从服务器装置20获得第一会话后表示(14)。处理器20C可以被配置为例如经由网络40向电子装置10发送第一会话后表示(18)。
电子装置10可以被配置为执行在图2A和图2B公开的任何方法。
处理器10C可选地被配置为执行图2A和图2B中公开的任何操作(例如,S104A、S104B、S108A、S108B、S110A、S112、S112A、S114、S114A中的任何一个或多个)。电子装置的操作可以以可执行逻辑例程(例如,代码行、软件程序等)的形式体现,可执行逻辑例程存储在非暂时性计算机可读介质(例如,存储器10A)上并由处理器10C执行。
处理器20C可选地被配置为执行图2A和图2B中公开的任何操作(例如,S104A、S104B、S108A、S108B、S110A、S112、S112A、S114、S114A中的任何一个或多个)。服务器装置的操作可以以可执行逻辑例程(例如,代码行、软件程序等)的形式体现,可执行逻辑例程存存储在非暂时性计算机可读介质(例如,存储器20A)上并由处理器20C执行。
此外,电子装置10的操作可以被认为是电子装置10被配置为执行的方法。此外,虽然所描述的功能和操作可以用软件实现,但是这种功能也可以通过专用硬件或固件或者硬件、固件和/或软件的某种组合来实现。
图2A和图2B示出了示例性方法的流程图。公开了一种操作包括电子装置的系统的方法100。该电子装置包括接口、处理器和存储器。方法100包括在S102获得一个或多个音频信号,一个或多个音频信号包括例如第一说话者的第一会话的第一音频信号AS_1以及可选地第二说话者的第一会话的第二音频信号AS_2。方法100包括在S104基于一个或多个音频信号AS确定说话者度量数据SPMD。在S104确定说话者度量数据可以包括例如基于AS_1和/或AS_2在S104A确定第一说话者的第一说话者度量数据SPMD_1以及可选地在S104B确定第二说话者的第二说话者度量数据SPMD_2。
方法100包括在S106确定检测到第一会话的终止。在一个或多个示例性方法中,当没有检测到第一会话的终止时,该方法包括重复/重启B。
方法100包括在S108基于说话者度量数据SPMD确定会话后表示PCR。在S108确定会话后表示PCR可以包括基于第一说话者度量数据和/或第二说话者度量数据在S108A确定第一会话后表示PCR_1。在S108A确定第一会话后表示PCR_1可以包括基于第一主要说话者度量数据确定第一主要说话者表示SR_1_1。在S108A确定第一会话后表示PCR_1可以包括在S108B将第一主要说话者表示SR_1_1包括在第一会话后表示PCR_1中。在S108A确定第一会话后表示PCR_1可以包括基于第一说话者度量数据SPMD_1确定第一次要说话者表示SR_1_2。在S108A确定第一会话后表示PCR_1可以包括在S108B将第一次要说话者表示PCR_1包括在第一会话后表示PCR_1中。
在S108A确定第一会话后表示PCR_1可以包括基于第一说话者度量数据SPMD_1确定第一三级说话者表示SR_1_3。在S108A确定第一会话后表示PCR_1可以包括在S108B将第一三级说话者表示SR_1_3包括在第一会话后表示PCR_1中。
在S108A确定第一会话后表示PCR_1可以包括基于第一说话者度量数据SPMD_1确定第一四级说话者表示SR_1_4。在S108A确定第一会话后表示PCR_1可以包括在S108B将第一四级说话者表示SR_1_4包括在第一会话后表示PCR_1中。
在S108A确定第一会话后表示PCR_1可以包括基于第二说话者度量数据SPMD_1确定第二主要说话者表示SR_2_1。在S108A确定第一会话后表示PCR_1可以包括在S108B将第二主要说话者表示SR_2_1包括在第一会话后表示PCR_1中。
方法100包括在S110经由电子装置的接口输出一个或多个会话后表示。在S110输出一个或多个会话后PCR表示可以包括在S110A输出第一会话后表示PCR_1,例如,第一会话后表示PCR_1包括第一主要说话者表示、第一次要说话者表示、第一三级说话者表示、第一四级说话者表示和/或第二主要说话者表示。
在一个或多个示例性方法中,方法100包括根据在S106检测到会话的终止,在S112基于说话者度量数据SPMD确定会话数据CD。在一个或多个示例性方法中,方法100包括根据在S106检测到第一会话的终止,在S112A基于第一说话者度量数据SPMD_1确定第一会话数据CD_1。
在一个或多个示例性方法中,方法100包括在S114将会话数据CD发送到服务器装置。在一个或多个示例性方法中,方法100包括在S114A向服务器装置发送第一会话数据CD_1。
图3示意性地示出了根据本公开的示例性电子装置,例如,电子装置10。在这个示例中,电子装置10是膝上型计算机。电子装置10例如可以是用户(例如,第二说话者)使用的电子装置,例如,用户是呼叫中心或支持呼叫中心的坐席代表。电子装置10被配置为在电子装置的接口10B上(例如,在膝上型计算机的显示器11上)显示包括会话后表示PCR的用户界面。用户界面包括多个用户界面对象。电子装置10将第一会话后表示PCR_1显示为第一用户界面对象PCR_1,例如,具有第一显示区域。电子装置10的用户(例如,作为第二说话者)可以在第一会话之后在他/她的电子装置10上可视化会话后表示PCR_1。会话后表示PCR_1可以向用户(例如,第二说话者/坐席代表)提供关于第二说话者和/或第一说话者(是呼叫者或顾客)的第一会话、最近一次会话和/或历史会话的反馈。第一会话后表示PCR_1包括例如设置在第一主要显示区域中的第一主要说话者表示SR_1_1。第一主要说话者表示SR_1_1基于第一会话的第一音频信号AS_1。第一主要说话者表示SR_1_1基于所确定的第一说话者度量数据SPMD_1,例如,基于第一主要说话者度量数据SPMD_1_1、第一次要说话者度量数据SPMD_1_2和/或第一三级说话者度量数据SPMD_1_3。第一主要说话者表示SR_1_1可以基于情感度量数据、音调度量数据和/或外观度量数据,例如,第一说话者的确定的第一主要情感度量SM_1_1、确定的第一主要音调度量TM_1_1和/或确定的第一主要外观度量AM_1_1。
确定第一主要说话者表示SR_1_1可以基于指示第一说话者状态的确定的第一主要情感度量SM_1_1,例如,从五个不同的情感度量中选择第一情感度量来指示第一说话者状态为消极。确定第一主要说话者表示SR_1_1可以基于指示第一说话者的主要外观的确定的第一主要外观度量AM_1_1,例如,从两个不同的外观度量中选择第一主要外观度量来指示主要外观是男性。因此,确定第一主要说话者表示SR_1_1为消极男性,例如,确定第一化身为消极男性。确定第一主要说话者表示SR_1_1可以包括基于第一主要说话者度量数据,例如,基于第一主要情感度量,确定第一化身的第一主要特征。例如,第一主要情感度量是消极的,第一主要特征(例如,眼睛特征)可以从五种不同类型的眼睛中选择为消极的男性眼睛。例如,第一主要情感度量是消极的,第一次要特征(例如,嘴特征)可以从四种不同类型的嘴中选择为消极的男性嘴。
第一会话后表示PCR_1包括第二主要说话者表示SR_2_1,例如,被设置在第二主要显示区域中。第二主要说话者表示SR_2_1基于确定的第二说话者度量数据SPMD_2,例如,包括第二主要说话者度量数据SPMD_2_1、第二次要说话者度量数据SPMD_2_2和/或第二三级说话者度量数据SPMD_2_3。第二主要说话者表示SR_2_1可以基于情感度量数据、音调度量数据和/或外观度量数据,例如,第二说话者的确定的第二主要情感度量SM_2_1和/或确定的第二主要外观度量AM_2_1。
第二主要说话者表示SR_2_1基于例如第一会话的第二音频信号AS_2。第二主要说话者表示SR_2_1可以基于第二说话者的确定的第二主要情感度量SM_2_1和/或确定的第二主要外观度量AM_2_1。确定第二主要说话者表示SR_2_1可以基于指示第二说话者状态的确定的第二主要情感度量SM_2_1,例如,从四个不同的情感度量中选择第二情感度量来指示第二说话者状态为积极。确定第二主要说话者表示SR_2_1可以基于指示第二说话者的主要外观的确定的第二主要外观度量AM_2_1,例如,从两个不同的外观度量中选择第二主要外观度量来指示主要外观是女性。因此,确定第二主要说话者表示SR_2_1为积极女性,例如,确定第二化身为积极女性。确定第二主要说话者表示可以包括基于第二主要说话者度量数据,例如,基于第二主要情感度量,确定第二化身的第二主要特征。例如,第二主要情感度量是积极的,第二主要特征(例如,眼睛特征)可以从五种不同类型的眼睛中选择为积极的女性眼睛。例如,第二主要情感度量是积极的,第二次要特征(例如,嘴特征)可以从四种不同类型的嘴中选择为积极的女性嘴,例如,微笑化身。第一主要说话者表示SR_1_1和/或第二主要说话者表示SR_2_1可以基于第一音频信号和第二音频信号。第一主要说话者表示SR_1_1和/或第二主要说话者表示SR_2_1可以被确定为第一音频信号和第二音频信号之间的比较。
第一会话后表示PCR_1包括例如设置在第一次要显示区域中的第一次要说话者表示SR_1_2。电子装置10将第一次要说话者表示SR_1_2显示为第一次要用户界面对象SR_1_2,例如,具有第一次要显示区域。
第一次要说话者表示SR_1_2基于历史第一说话者度量数据SPMD_1,例如,基于历史第一主要说话者度量数据SPMD_1_1、历史第一次要说话者度量数据SPMD_1_2和/或历史第一三级说话者度量数据SPMD_1_3。第一次要说话者表示SR_1_2包括历史会话(例如,历史呼叫)的表示。换言之,第一次要说话者表示SR_1_2包括最近五次会话的表示,例如,在第一会话之前或者包括作为最近一个会话的第一会话。第一次要说话者表示SR_1_2包括第一说话者的最近五次会话的表示,例如,第一说话者的“最近五次呼叫”。在图3中,第一次要说话者表示SR_1_2包括条形形式的表示,其中,每个条形表示第一说话者的呼叫的通话分数。第一次要说话者表示SR_1_2包括指示最近五次通话分数的平均值的基线。基线具有与基线水平层级相关联的基线值,该基线值指示基于最近五次呼叫的平均通话分数。基线值具有4.2的值,表明基于第一说话者的最近五次呼叫确定的平均通话分数已经被确定为4.2。第一条形(当从SR_1_2的左侧开始时)指示与第一条形相关联的呼叫具有高于基线的通话分数,即具有高于4.2的通话分数。第二条形指示与第二条形相关联的呼叫具有高于基线的通话分数,即具有高于4.2的通话分数。第三条形指示与第三条形相关联的呼叫具有低于基线的通话分数,即具有低于4.2的通话分数。第四条形指示与第四条形相关联的呼叫具有低于基线的通话分数,即具有低于4.2的通话分数。不显示第四条形,这表示与第四条形关联的呼叫的通话分数为0。第五条形指示与第五条形相关联的呼叫具有低于基线的通话分数,即具有低于4.2的通话分数。第五条形表示在第一四级说话者表示SR_1_4中显示的通话分数的条形表示,通话分数为0.3。
可选地(图3中未示出),第一次要说话者表示SR_1_2可以包括指示第一说话者(例如,呼叫者和/或坐席代表)的第一会话(例如,最近一次会话)已经是一天中的最佳会话、一周中的最佳会话、一月中的最佳会话和/或一年中的最佳会话的表示。换言之,第一次要说话者表示SR_1_2可以包括指示第一会话是第一说话者(例如,呼叫者和/或坐席代表)在某个时间段内具有最佳表现(例如,最佳会话分数)的会话的表示。
例如,当最近一次会话是一天/一周/一月中最佳的会话时,电子装置10然后可以将第一次要说话者表示SR_1_2显示为动画的第一次要用户界面对象SR_1_2,例如,包括烟火动画、聚会动画和/或充气瓶动画。第一次要说话者表示SR_1_2还可以包括例如向第一说话者指示最近一次会话是与第二说话者(例如,特定的第二说话者)的最佳会话的文本。
第一会话后表示PCR_1可以包括例如设置在第二次要显示区域中的第二次要说话者表示SR_2_2。电子装置10将第二次要说话者表示SR_2_2显示为第二次要用户界面对象SR_2_2,例如,具有第二次要显示区域。
第二次要说话者表示SR_2_2基于历史第二说话者度量数据SPMD_2,例如,基于历史第二主要说话者度量数据SPMD_2_1、历史第二次要说话者度量数据SPMD_2_2和/或历史第二三级说话者度量数据SPMD_2_3。第二次要说话者表示SR_2_2包括历史会话(例如,历史呼叫)的表示。换言之,第二次要说话者表示SR_2_2包括最近五次会话的表示,例如,在第一会话之前或者包括作为最后一个会话的第一会话。第二次要说话者表示SR_2_2包括第二说话者的最近五次会话的表示,例如,第二说话者的“最近五次呼叫”。在图3中,第二次要说话者表示SR_2_2包括条形形式的表示,其中,每个条形表示第二说话者的呼叫的通话分数。第二次要说话者表示SR_2_2包括表示最近五次通话分数的平均值的基线。基线具有与基线水平层级相关联的基线值,该基线值指示基于最近五次呼叫的平均通话分数。基线值的值为4,指示基于第二说话者的最近五次呼叫确定的平均通话分数已经被确定为4。第一条形(当从SR_2_2的左侧开始时)指示与第一条形相关联的呼叫具有高于基线的通话分数,即具有高于4的通话分数。第二条形指示与第二条形相关联的呼叫具有高于基线的通话分数,即具有高于4的通话分数。第三条形指示与第三条形相关联的呼叫具有低于基线的通话分数,即具有低于4的通话分数。第四条形指示与第四条形相关联的呼叫具有低于基线的通话分数,即具有低于4的通话分数。不显示第四条形,这表示与第四条形关联的呼叫的通话分数为0。第五条形指示与第五条形相关联的呼叫具有低于基线的通话分数,即具有低于4的通话分数。第五条形表示在第二四级说话者表示SR_2_4中显示的通话分数的条形表示,通话分数为3.4。
可选地(图3中未示出),第二次要说话者表示SR_2_2可以包括指示第二说话者(例如,呼叫者和/或坐席代表)的第一会话(例如,最近一次会话)已经是一天中的最佳会话、一周中的最佳会话、一月中的最佳会话和/或一年中的最佳会话的表示。换言之,第二次要说话者表示SR_2_2可以包括指示第一会话是第二说话者(例如,呼叫者和/或坐席代表)在某个时间段内具有最佳表现(例如,最佳会话分数)的会话的表示。
例如,当最近一次会话是一天/一周/一月中最佳的会话时,电子装置10然后可以将第二次要说话者表示SR_2_2显示为动画的第二次要用户界面对象SR_2_2,例如,包括烟火动画、聚会动画和/或充气瓶动画。第二次要说话者表示SR_2_2还可以包括例如向第二说话者(例如,作为坐席代表)指示最近一次会话是第二说话者的一天/一周/一月中的最佳会话的文本。第二次要说话者表示SR_2_2还可以包括例如向第二说话者(例如,作为坐席代表)指示最近一次会话是与第一说话者/呼叫者(例如,特定的第一说话者/呼叫者)的最佳会话的文本。
第一会话后表示PCR_1包括例如设置在第一三级显示区域中的第一三级说话者表示SR_1_3。电子装置10将第一三级说话者表示SR_1_3显示为第一三级用户界面对象SR_1_3,例如,具有第一三级显示区域。
第一三级说话者表示SR_1_3基于所确定的第一说话者度量数据SPMD_1。第一三级说话者表示SR_1_3可以基于第一主要说话者度量数据SPMD_1_1,例如,作为情感度量数据SMD,基于第一次要说话者度量数据SPMD_1_2,例如,作为音调度量数据TMD,和/或基于第一三级说话者度量数据SPMD_1_3,例如,作为外观度量数据AMD。
第一三级说话者表示SR_1_3可以基于情感度量数据、音调度量数据和/或外观度量数据,例如,第一说话者的确定的第一主要情感度量SM_1_1、第一说话者的确定的第一主要音调度量TM_1_1和/或第一说话者的确定的第一主要外观度量AM_1_1。
第一三级说话者表示SR_1_3指示第一说话者在第一会话期间的情感分布。
第一三级说话者表示SR_1_3包括例如第一说话者在第一会话期间的情感分布的表示。第一三级说话者表示SR_1_3可以包括第一说话者的一个或多个第一情感类型标识符ST_ID_1_i的情感分布的表示,例如,一个或多个第一说话者状态。
换言之,第一三级说话者表示SR_1_3可以包括指示第一会话的持续时间或第一说话者在第一会话期间说话的持续时间的表示,在此期间第一说话者具有一个或多个第一情感类型标识符ST_ID_1_i。在图3中,第一三级说话者表示SR_1_3包括第一说话者在第一会话期间的情感分布的条形形式的表示。每个条形指示第一说话者的第一情感类型标识符的分布或水平,例如,第一说话者的第一说话者状态。
情感分布可以是例如在第一会话持续时间的86%期间,第一说话者的第一说话者状态为“非常消极”。因此,与第一说话者状态“非常消极”相关联的第一条形具有对应于值86%的大小。在第一会话持续时间的14%中,第一说话者的第一说话者状态为“消极”。因此,与第一说话者状态“消极”相关联的第二条形具有对应于值14%的大小。在第一会话持续时间的0%期间,第一说话者的第一说话者为“中立”状态。因此,与第一说话者状态“中立”相关联的第三条形具有对应于值0%的大小,即该条形几乎不存在。在第一会话持续时间的0%期间,第一说话者的第一说话者状态为“积极”。因此,与第一说话者状态“积极”相关联的第四条形具有对应于值0%的大小,即该条形几乎不存在。
第一三级说话者表示可以基于第一音频信号和第二音频信号。第一三级说话者表示可以被确定为第一音频信号和第二音频信号之间的比较。第一会话后表示可以包括第二说话者的第二三级说话者表示SR_2_3。第二三级说话者表示可选地基于第二说话者的第二音频信号,并且可以是三级说话者表示,例如,如关于第一三级说话者表示所述。换言之,对第一三级说话者表示的描述也可以适用于第二三级说话者表示。
第一会话后表示PCR_1包括例如设置在第一四级显示区域中的第一四级说话者表示SR_1_4。电子装置10将第一四级说话者表示SR_1_4显示为第一四级用户界面对象SR_1_4,例如,具有第一四级显示区域。
第一四级说话者表示SR_1_4基于所确定的第一说话者度量数据SPMD_1。第一四级说话者表示SR_1_4可以基于第一主要说话者度量数据SPMD_1_1,例如,作为情感度量数据SMD,基于第一次要说话者度量数据SPMD_1_2,例如,作为音调度量数据TMD,和/或基于第一四级说话者度量数据SPMD_1_3,例如,作为外观度量数据AMD。
第一四级说话者表示SR_1_4可以基于情感度量数据、音调度量数据和/或外观度量数据,例如,第一说话者的确定的第一主要情感度量SM_1_1、确定的第一主要音调度量TM_1_1和/或确定的第一主要外观度量AM_1_1。
第一四级说话者表示SR_1_4表示第一说话者例如在第一会话期间的会话分数,例如,通话分数。第一四级说话者表示SR_1_4包括第一说话者例如在第一会话期间的的会话分数(例如,平均会话分数)的表示。会话分数可以是0到20、0到10或0到5之间的分数。会话分数可以包括小数点后的一位、两位或三位数字。在图3中,在第一四级说话者表示SR_1_4中显示的会话分数包括小数点后的一位数字。第一四级说话者表示SR_1_4包括会话分数或通话分数的数字表示,其中,所显示的会话分数具有10中的数字0.3。第一四级说话者表示SR_1_4可以包括指示例如第一说话者的第一会话(例如,最近一次会话)的会话分数已经是一天中的最佳会话分数、一周中的最佳会话分数、一个月中的最佳会话分数和/或一年中的最佳会话分数的表示(未示出)。换言之,第一四级说话者表示SR_1_4可以包括指示第一会话是第一说话者在某个时间段内具有最佳表现(例如,最佳会话分数)的会话的表示。第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级颜色。例如,当会话分数在第一范围内时,第一颜色可以被分配给第一四级说话者表示SR_1_4。
第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级尺寸。例如,当会话分数在第一范围内时,第一尺寸可以被分配给第一四级说话者表示SR_1_4。第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级高度。例如,当会话分数在第一范围内时,第一高度可以被分配给第一四级说话者表示SR_1_4。在图3中,小数点之前的数字(例如,SR_1_4中的“0”)的尺寸大于小数点之后的数字(例如,SR_1_4中的“3”)的尺寸。
第一四级说话者表示SR_1_4可以包括基于一个或多个说话者度量数据的第一四级动画(未示出)。例如,当会话分数是一天中最好的时,第一动画可以被分配给第一四级说话者表示SR_1_4。
第一四级说话者表示SR_1_4可以基于第一音频信号和第二音频信号。第一会话后表示可以包括第二说话者的第二四级说话者表示SR_2_4。第二四级说话者表示可选地基于第二说话者的第二音频信号,并且可以是四级说话者表示,例如,如关于第一四级说话者表示所述。换言之,第一四级说话者表示的描述也可以应用于第二四级说话者表示。
第一会话后表示PCR_1可以包括例如设置在第一五级显示区域中的第一五级说话者表示SR_1_5。电子装置10将第一五级说话者表示SR_1_5显示为第一五级用户界面对象SR_1_5,例如,具有第一五级显示区域。在图3中,第一五级说话者表示SR_1_5是指示第一说话者表示和第二说话者表示的一个或多个标签的公共说话者表示。第一五级说话者表示SR_1_5可以向电子装置10的用户提供关于在显示器11上显示哪些表示的指示。第一五级说话者表示SR_1_5包括第一四级说话者表示SR_1_4和第二四级说话者表示SR_2_4的第一标签是“通话分数”。第一五级说话者表示SR_1_5包括第一三级说话者表示SR_1_3和第二三级说话者表示SR_2_3的第二标签是“情感分布”。第一五级说话者表示SR_1_5包括第一次要说话者表示SR_1_2和第二次要说话者表示SR_2_2的第三标签是“最近5次呼叫”。
说话者表示SR_1_1、SR_2_1在图3中用来自“www.iconfinder.com/UsersInsights”的表示举例说明。
图4示意性地示出了根据本公开的具有说话者表示的示例性系统,例如,系统2。系统2类似于图1所示的系统,但是其中,用户1A和说话者或说话者组1C置于例如同一房间或同一地点。用户1A和说话者1C可以主持会议,例如,讨论会、物理会议或工作面试。电子装置10(例如,接口10B)可以包括或连接到麦克风,用户1A和/或说话者1C可以经由该麦克风说话,以提供音频输入32。
可选地,说话者电子装置30可以包括麦克风,说话者1C可以对着麦克风说话,以提供音频输入32。说话者电子装置30可以例如经由接口10B本地连接到电子装置10。该连接可以是有线连接或无线连接,例如,蓝牙等。说话者电子装置30可以经由连接(例如,接口10B)向电子装置10发送一个或多个音频信号(22),一个或多个音频信号包括第一音频信号。说话者电子装置30可以经由连接从电子装置10获得/接收一个或多个音频信号(24)。
图5示意性示出了根据本公开的示例性数据结构。说话者度量数据SPMD包括第一说话者度量数据SPMD_1。第一说话者度量数据SPMD_1包括第一主要说话者度量数据SPMD_1_1。第一主要说话者度量数据SPMD_1_1可选地包括情感度量数据SMD。第一说话者度量数据SPMD_1可选地包括第一次要说话者度量数据SPMD_1_2。第一次要说话者度量数据SPMD_1_2可选地包括音调度量数据TMD。第一说话者度量数据SPMD_1可选地包括第一三级说话者度量数据SPMD_1_3。第一三级说话者度量数据SPMD_1_3可选地包括外观度量数据AMD。
说话者度量数据SPMD可选地包括第二说话者度量数据SPMD_2。第二说话者度量数据SPMD_1可选地包括第二主要说话者度量数据SPMD_2_1。第二主要说话者度量数据SPMD_2_1可选地包括情感度量数据SMD。第二说话者度量数据SPMD_2可选地包括第二次要说话者度量数据SPMD_2_2。第二次要说话者度量数据SPMD_2_2可选地包括音调度量数据TMD。第二说话者度量数据SPMD_2可选地包括第二三级说话者度量数据SPMD_2_3。第二三级说话者度量数据SPMD_2_3可选地包括外观度量数据AMD。
术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“三级”等的使用并不意味着任何特定的顺序,而是用来标识各个元素。此外,术语“第一”、“第二”、“第三”、“第四”、“主要”、“次要”、“三级”等的使用不表示任何顺序或重要性,而术语“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“三级”等用于区分一个元素和另一元素。注意“第一”、“第二”、“第三”和“第四”、“主要”、“次要”、“三级”等词在此处和其他地方仅用于标记目的,并不旨在表示任何特定的空间或时间顺序。
存储器可以是缓冲器、闪存、硬盘驱动器、可移动介质、易失性存储器、非易失性存储器、随机存取存储器(RAM)或其他合适的装置中的一个或多个。在典型的设置中,存储器可以包括用于长期数据存储的非易失性存储器和用作处理器的系统存储器的易失性存储器。存储器可以通过数据总线与处理器交换数据。存储器可以被认为是非暂时性计算机可读介质。
存储器可以被配置为在存储器的一部分中存储信息(例如,指示一个或多个音频信号、一个或多个情感度量、一个或多个外观度量、说话者表示、情感度量数据和/或外观度量数据的信息)。
此外,标记第一元素并不意味着存在第二元素,反之亦然。
可以理解,图1至图5包括用实线示出的一些模块或操作以及用虚线示出的一些模块或操作。包含在实线中的模块或操作是包含在最广泛的示例实施例中的模块或操作。虚线中包含的模块或操作是示例性实施例,其可以包含在实线示例性实施例的模块或操作中或者是其一部分,或者是除了实线示例性实施例的模块或操作之外可以采用的其他模块或操作。应当理解,这些操作不需要按照所呈现的顺序来执行。此外,应当理解,不是所有的操作都需要执行。示例性操作可以以任何顺序和任何组合来执行。
应当注意,词语“包括”不一定排除存在除了列出的那些之外的其他元件或步骤。
应当注意,元件前面的词语“一个(a)”或“一(an)”不排除存在多个这样的元件。
还应当注意,任何附图标记都不限制权利要求的范围,示例性实施例可以至少部分地通过硬件和软件来实现,并且几个“装置”、“单元”或“设备”可以由同一硬件项目来表示。
在方法步骤过程的一般上下文中描述本文描述的各种示例性方法、装置和系统,其在一个方面可以通过计算机程序产品来实现,该计算机程序产品包含在计算机可读介质中,包括由联网环境中的计算机执行的计算机可执行指令,例如,程序代码。计算机可读介质可以包括可移动和不可移动存储装置,包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字多功能盘(DVD)等。通常,程序模块可以包括执行指定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文公开的方法的步骤的程序代码的示例。这种可执行指令或相关数据结构的特定序列表示用于实现在这种步骤或过程中描述的功能的相应动作的示例。
尽管已经示出和描述了特征,但是应当理解,它们并不旨在限制所要求保护的发明,并且对于本领域技术人员来说显而易见的是,在不脱离所要求保护的发明的精神和范围的情况下,可以进行各种改变和修改。因此,说明书和附图被认为是说明性的,而不是限制性的。要求保护的发明旨在覆盖所有替代、修改和等同物。
附图标记列表
1A用户、第二说话者
1B说话者、第一说话者、呼叫者
1C说话者、说话者组
2 系统
4 用户输入
6说话者表示、用户输出
10电子装置
10A存储器
10B 一个或多个接口
10C 处理器
11 显示器
12 发送
14 获得
16 获得
18发送
20 服务器装置
20A存储器
20B 接口
20C 一个或多个处理器
22发送
24获得
30说话者电子装置
32说话者输入、音频输入
40网络
AS音频信号
A_ID外观标识符
A_ID_1第一外观标识符
A_ID_1_1第一主要外观标识符
A_ID_1_2第一次要外观标识符
A_ID_1_3第一三级外观标识符
A_ID_2_1第二主要外观标识符
A_ID_2_2第二次要外观标识符
A_ID_2_3第二三级外观标识符
A_ID_SET外观标识符组
A_ID_SET_1外观标识符的主要组
A_ID_SET_2外观标识符的次要组
ACS外观置信度分数
ACS_1第一外观置信度分数
ACS_1_1第一主要外观置信度分数
ACS_1_2第一次要外观置信度分数
ACS_2第二外观置信度分数
ACS_2_1第二主要外观置信度分数
AL外观等级
AL_1第一外观等级
AL_1_1第一主要外观等级
AL_1_2第一次要外观等级
AL_1_3第一三级外观等级
AL_2_1第二主要外观等级
AL_2_2第二次要外观等级
AL_2_3第二三级外观等级
AS_1第一音频信号
AS_2第一音频信号
AM外观度量
AM_1第一外观度量
AM_1_1第一主要外观度量
AM_1_2第一次要外观度量
AM_1_3第一三级外观度量
AM_2_1第二主要外观度量
AM_2_2第二次要外观度量
AM_2_3第二三级外观度量
F_1第一特征
F_1_1第一主要特征
F_1_2第一次要特征
F_2第二特征
F_2_1第二主要特征
F_2_2第二次要特征
F_ID特征标识符
F_ID_1特征类型标识符
F_ID_1_1第一主要特征标识符
F_ID_1_2第一次要特征标识符
FL特征等级
FL_1_1第一主要特征等级
FL_1_2第一次要特征等级
PCR会话后表示
PCR_1第一会话后表示
SCS置信度分数
SCS_1第一置信度分数
SCS_1_1第一主要置信度分数
SCS_1_2第一次要置信度分数
SCS_2_1第二主要置信度分数
SL情感等级
SL_1_1第一主要情感等级
SL_1_2第一次要情感等级
SL_2_1第二主要情感等级
SM情感度量
SM_1第一情感度量
SM_1_1第一主要情感度量
SM_1_2第一次要情感度量
SM_2第二情感度量
SM_2_1第二主要情感度量
SM_2_2第二次要情感度量
ST_ID_1_1第一主要情感类型标识符
ST_ID_1_2第一次要情感类型标识符
ST_ID_2_1第二主要情感类型标识符
ST_ID_2_2第二次要情感类型标识符
ST_ID_SET_1情感类型标识符的主要组
ST_ID_SET_2情感类型标识符的次要组
SMD 情感度量数据
SPMD 说话者度量数据
SPMD_1第一说话者度量数据
SPMD_1_1第一主要说话者度量数据
SPMD_1_2第一次要说话者度量数据
SPMD_1_3第一三级说话者度量数据
SPMD_2第二说话者度量数据
SPMD_2_1第二主要说话者度量数据
SR说话者表示
SR_1第一说话者表示
SR_1_1第一主要说话者表示
SR_1_2第一次要说话者表示
SR_1_3第一三级说话者表示
SR_1_4第一四级说话者表示
SR_1_5第一五级说话者表示
SR_1_6第一六级说话者表示
SR_1_7第一七级说话者表示
SR_1_8第一八级说话者表示
SR_2第二说话者表示
SR_2_1第二主要说话者表示
SR_2_2第二次要说话者表示
SR_2_3第二三级说话者表示
SR_2_4第二四级说话者表示
SR_2_5第二五级说话者表示
SR_2_6第二六级说话者表示
SR_2_7第二七级说话者表示
SR_2_8第二八级说话者表示
ST_ID情感类型标识符
ST_ID_1第一情感类型标识符
ST_ID_1_1第一主要情感类型标识符
ST_ID_1_2第一次要情感类型标识符
ST_ID_SET情感类型标识符组
ST_ID_SET_1情感类型标识符的主要组
ST_ID_SET_2情感类型标识符的次要组
100操作包括电子装置的系统的方法
S102 获得音频信号
S104 确定说话者度量数据
S104A确定第一说话者度量数据
S104B确定第二说话者度量数据
S106 检测会话的终止
S108 确定会话后表示
S108A确定第一会话后表示
S108B在第一会话后表示中包括说话者表示
S110输出会话后表示
S110A输出第一会话后表示
S112确定会话数据
S112A确定第一会话数据
S114向服务器发送会话数据
S114A向服务器发送第一会话数据
B重复、重启

Claims (16)

1.一种操作包括电子装置的系统的方法(100),所述电子装置包括接口、处理器和存储器,所述方法包括:
获得(S102)包括第一会话的第一音频信号(AS_1)的一个或多个音频信号(AS);
基于所述第一音频信号(AS_1)确定(S104A)第一说话者(1B)的第一说话者度量数据(SPMD_1),所述第一说话者度量数据(SPMD_1)包括第一主要说话者度量数据(SPMD_1_1),其特征在于,所述第一主要说话者度量数据(SPMD_1_1)是情感度量数据(SMD),以及所述方法(100)包括;
检测所述第一会话的终止(S106);
根据检测到所述第一会话的终止,基于所述第一说话者度量数据(SPMD_1)确定(S108A)第一会话后表示,其中,所述第一会话后表示指示在所述第一会话期间所述第一说话者的表现和/或所述第一会话的会话结果;并且
经由所述电子装置的所述接口输出所述第一会话后表示(PCR_1)(S110A),其中,输出所述第一会话后表示(PCR_1)(S110A)包括显示指示所述第一会话后表示(PCR_1)的第一用户界面。
2.根据权利要求1所述的方法(100),其中,确定第一会话后表示(PCR_1)(S108A)包括:基于所述第一主要说话者度量数据(SPMD_1_1)确定第一主要说话者表示(SR_1_1);并且将所述第一主要说话者表示(SR_1_1)包括在所述第一会话后表示(PCR_1)中。
3.根据权利要求2所述的方法(100),其中,所述第一主要说话者表示(SR_1_1)包括基于所述第一主要说话者度量数据(SPMD_1_1)的第一化身。
4.根据权利要求1-3中任一项所述的方法(100),其中,所述第一说话者度量数据(SPMD_1)包括第一次要说话者度量数据(SPMD_1_2),并且其中,所述方法(100)包括基于所述第一说话者度量数据(SPMD_1)确定第一次要说话者表示(SR_1_2),并且将所述第一次要说话者表示(SR_1_2)包括在所述第一会话后表示(PCR_1)中。
5.根据权利要求4所述的方法(100),其中,所述第一次要说话者表示(SR_1_2)基于历史第一说话者度量数据。
6.根据权利要求4所述的方法(100),其中,所述第一次要说话者度量数据(SPMD_1_2)是音调度量数据。
7.根据权利要求1-3中任一项所述的方法(100),其中,确定第一会话后表示(PCR_1)(S108A)包括:基于第一说话者度量数据(SPMD_1)确定第一三级说话者表示(SR_1_3),并将所述第一三级说话者表示(SR_1_3)包括在所述第一会话后表示(PCR_1)中。
8.根据权利要求7所述的方法(100),其中,所述第一三级说话者表示(SR_1_3)指示所述第一说话者(1B)在所述第一会话期间的情感分布。
9.根据权利要求1-3中任一项所述的方法(100),其中,确定第一会话后表示(PCR_1)(S108A)包括:基于第一说话者度量数据(SPMD_1)确定第一四级说话者表示(SR_1_4),并将所述第一四级说话者表示(SR_1_4)包括在所述第一会话后表示(PCR_1)中。
10.根据权利要求1-3中任一项所述的方法(100),其中,所述第一说话者度量数据(SPMD_1)包括作为外观度量数据(AMD)的第一三级说话者度量数据(SPMD_1_3),并且其中,所述第一主要说话者表示(SR_1_1)基于所述第一三级说话者度量数据(SPMD_1_3)。
11.根据权利要求1-3中任一项所述的方法(100),所述一个或多个音频信号(AS)包括第二音频信号(AS_2),其中,所述方法(100)包括基于所述第二音频信号(AS_2)确定第二说话者(1A)的第二说话者度量数据(SPMD_2),所述第二说话者度量数据(SPMD_2)包括第二主要说话者度量数据(SPMD_2_1),并且其中,所述第一会话后表示(PCR_1)基于所述第二说话者度量数据(SPMD_2)。
12.根据权利要求11所述的方法(100),其中,确定第一会话后表示(PCR_1)包括:基于所述第二说话者度量数据(SPMD_2)确定第二主要说话者表示(SR_2_1),并且将所述第二主要说话者表示(SR_2_1)包括在所述第一会话后表示(PCR_1)中。
13.根据权利要求12所述的方法(100),其中,所述第二主要说话者度量数据(SPMD_2_1)是情感度量数据(SMD),并且其中,所述第二主要说话者表示(SR_2_1)包括基于所述第二主要说话者度量数据(SPMD_2_1)的第二化身。
14.根据权利要求1-3中任一项所述的方法(100),其中,所述方法(100)包括:根据检测到所述第一会话的终止,基于所述第一说话者度量数据(SPMD_1)来确定(S112A)第一会话数据(CD_1),并将所述第一会话数据(CD_1)发送到(S114A)服务器装置(20)。
15.一种电子装置(10),包括处理器(10C)、存储器(10A)和接口(10B),其中,所述处理器(10C)被配置为:
获得第一会话期间的一个或多个音频信号(AS),所述一个或多个音频信号包括第一音频信号(AS_1);
基于所述第一音频信号(AS_1)确定第一说话者(1B)的第一说话者度量数据(SPMD_1),所述第一说话者度量数据(SPMD_1)包括第一主要说话者度量数据(SPMD_1_1),其特征在于,所述第一主要说话者度量数据(SPMD_1_1)是情感度量数据(SMD),所述处理器(10C)被配置为;
检测所述第一会话的终止,并且
根据检测到所述第一会话的终止,基于所述第一说话者度量数据(SPMD_1)确定第一会话后表示(PCR-1),其中,所述第一会话后表示指示在所述第一会话期间所述第一说话者的表现和/或所述第一会话的会话结果;并且
经由所述接口(10B)输出所述第一会话后表示(PCR_1),其中,输出所述第一会话后表示(PCR_1)包括显示指示所述第一会话后表示(PCR_1)的第一用户界面。
16.一种包括服务器装置(20)和电子装置(10)的系统(2),其中,所述电子装置是根据权利要求15所述的电子装置(10)。
CN202111415483.8A 2020-11-27 2021-11-25 操作包括电子装置的系统的方法、电子装置及其系统 Active CN114566187B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DKPA202070796A DK180951B1 (en) 2020-11-27 2020-11-27 System with post-conversation representation, electronic device, and related methods
DKPA202070796 2020-11-27

Publications (2)

Publication Number Publication Date
CN114566187A CN114566187A (zh) 2022-05-31
CN114566187B true CN114566187B (zh) 2023-08-22

Family

ID=78770468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111415483.8A Active CN114566187B (zh) 2020-11-27 2021-11-25 操作包括电子装置的系统的方法、电子装置及其系统

Country Status (4)

Country Link
US (1) US11790887B2 (zh)
EP (1) EP4006903A1 (zh)
CN (1) CN114566187B (zh)
DK (1) DK180951B1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240105208A1 (en) * 2022-09-19 2024-03-28 SubStrata Ltd. Automated classification of relative dominance based on reciprocal prosodic behaviour in an audio conversation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430858A (zh) * 2015-03-20 2017-12-01 微软技术许可有限责任公司 传送标识当前说话者的元数据
CN111445906A (zh) * 2020-02-28 2020-07-24 深圳壹账通智能科技有限公司 基于大数据的语音生成方法、装置、设备及介质
CN111986702A (zh) * 2020-07-31 2020-11-24 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7222075B2 (en) 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
WO2014061015A1 (en) 2012-10-16 2014-04-24 Sobol Shikler Tal Speech affect analyzing and training
US9521258B2 (en) * 2012-11-21 2016-12-13 Castel Communications, LLC Real-time call center call monitoring and analysis
US9047871B2 (en) 2012-12-12 2015-06-02 At&T Intellectual Property I, L.P. Real—time emotion tracking system
WO2014107141A1 (en) * 2013-01-03 2014-07-10 Sestek Ses Ve Iletişim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Şirketi Speech analytics system and methodology with accurate statistics
US20150106091A1 (en) 2013-10-14 2015-04-16 Spence Wetjen Conference transcription system and method
US9947342B2 (en) 2014-03-12 2018-04-17 Cogito Corporation Method and apparatus for speech behavior visualization and gamification
US10158758B2 (en) 2016-11-02 2018-12-18 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs at call centers
US20180122368A1 (en) * 2016-11-03 2018-05-03 International Business Machines Corporation Multiparty conversation assistance in mobile devices
US10601995B2 (en) 2017-11-17 2020-03-24 Cogito Corporation Systems and methods for communication routing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107430858A (zh) * 2015-03-20 2017-12-01 微软技术许可有限责任公司 传送标识当前说话者的元数据
CN111445906A (zh) * 2020-02-28 2020-07-24 深圳壹账通智能科技有限公司 基于大数据的语音生成方法、装置、设备及介质
CN111986702A (zh) * 2020-07-31 2020-11-24 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法

Also Published As

Publication number Publication date
DK202070796A1 (en) 2022-06-03
EP4006903A1 (en) 2022-06-01
DK180951B1 (en) 2022-08-10
CN114566187A (zh) 2022-05-31
US20220172704A1 (en) 2022-06-02
US11790887B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
US10706873B2 (en) Real-time speaker state analytics platform
US9501743B2 (en) Method and apparatus for tailoring the output of an intelligent automated assistant to a user
US9691296B2 (en) Methods and apparatus for conversation coach
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
US20150348538A1 (en) Speech summary and action item generation
US20080240379A1 (en) Automatic retrieval and presentation of information relevant to the context of a user's conversation
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
US20220199080A1 (en) Voice coaching system and related methods
US20220019746A1 (en) Determination of transcription accuracy
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
US20230154457A1 (en) Communication System And Related Methods
CN114566187B (zh) 操作包括电子装置的系统的方法、电子装置及其系统
CN115314595A (zh) 具有会话后评估的系统、电子装置和相关方法
KR101891495B1 (ko) 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치
KR102605178B1 (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
JP7152453B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
US20220172711A1 (en) System with speaker representation, electronic device and related methods
Suzuki et al. VFep: 3D Graphic Face Representation Based on Voice-based Emotion Recognition
CN109559760A (zh) 一种基于语音信息的情感分析方法及系统
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
US20240153397A1 (en) Virtual meeting coaching with content-based evaluation
WO2023135939A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20240153398A1 (en) Virtual meeting coaching with dynamically extracted content
CN118014084A (zh) 一种基于大语言模型的多模态交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant