CN114974250A - 通信会话质量的基于词的表示 - Google Patents

通信会话质量的基于词的表示 Download PDF

Info

Publication number
CN114974250A
CN114974250A CN202210166330.2A CN202210166330A CN114974250A CN 114974250 A CN114974250 A CN 114974250A CN 202210166330 A CN202210166330 A CN 202210166330A CN 114974250 A CN114974250 A CN 114974250A
Authority
CN
China
Prior art keywords
endpoint
participant
communication session
words
inconsistency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210166330.2A
Other languages
English (en)
Inventor
S·乔普德卡
P·Y·德奥勒
N·达加
V·C·马图拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Management LP
Original Assignee
Avaya Management LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Management LP filed Critical Avaya Management LP
Publication of CN114974250A publication Critical patent/CN114974250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开涉及通信会话质量的基于词的表示。本文公开的技术使用户能够通知词不一致性以指示会话质量。在特定实施例中,一种方法包括,在由第一参与者操作的第一端点和由第二参与者操作的第二端点之间的通信会话期间,基于由第一端点捕获以包括在通信会话中的声音来确定由第一参与者在一时间段期间说出的词的第一数量。该方法还包括基于在第二端点处经由通信会话接收的音频来确定由第一参与者在该时间段期间说出的词的第二数量。在确定第一数量与第二数量之间存在不一致性后,该方法包括将不一致性通知第一参与者和第二参与者中的至少一个。

Description

通信会话质量的基于词的表示
背景技术
在现代通信会话(例如,音频/视频会议)期间,提供关于通信会话的事实的信息可供主持人或其他参与者使用。该信息可以包括参与者列表、谁在讲话的指示、谁处于静音的指示,和/或网络统计信息(诸如流传输比特率)。网络统计信息可以被用于了解通信会话的服务质量(QoS)。但是,对于可能没有关于网络拓扑、传输协议等的信息的大多数用户来说,网络统计信息对于让用户确定存在网络问题可能没有用处。事实上,典型的用户可能最关心他们所说的词是否被通信会话中的其他参与者正确听到。在无法从网络统计信息中推断问题的情况下,讲话的用户可能不得不求助于向其他参与者提出问题,诸如“每个人都能听到我吗?”,如果发生问题,其他参与者甚至可能连这也听不到。
发明内容
本文公开的技术使用户能够通知词不一致以指示会话质量。在特定实施例中,一种方法包括,在由第一参与者操作的第一端点和由第二参与者操作的第二端点之间的通信会话期间,基于由第一端点捕获以包括在通信会话中的声音来确定由第一参与者在一时间段期间说出的词的第一数量。该方法还包括基于在第二端点处经由通信会话接收的音频来确定由第一参与者在该时间段期间说出的词的第二数量。在确定第一数量与第二数量之间存在不一致性后,该方法包括将不一致性通知第一参与者和第二参与者中的至少一个。
在一些实施例中,该方法包括将关于第一数量和第二数量的信息呈现给第一参与者。
在一些实施例中,该方法包括从第二端点接收指示第二数量的消息,并且在接收到该消息之后,将第二数量与第一数量进行比较以确定不一致性。
在一些实施例中,不一致性包括第一数量与第二数量之间的差异大于词的阈值数量。
在一些实施例中,该方法包括生成由第一参与者说出的词的文本转录并将该文本转录传送到第二端点以呈现给第二参与者。在那些实施例中,该方法可以包括基于在第二端点处接收到的音频来接收由第一参与者说出的词的第二文本转录并向第一参与者呈现第二文本转录中相对于文本转录遗漏的词的指示。
在一些实施例中,向第一参与者和第二参与者中的至少一个通知不一致性包括经由第二端点向第二参与者呈现指示少于第一参与者说出的所有词正在为第二参与者再现的警报。
在一些实施例中,该方法包括经由第二端点呈现将第二数量与第一数量相关的度量。
在一些实施例中,该方法包括基于经由通信会话在促进通信会话的服务器处接收到的音频确定由第一参与者在该时间段期间说出的词的第三数量并且,响应于确定第一数量与第三数量之间存在第二不一致性,向第一参与者通知第一端点和服务器之间存在问题。
在一些实施例中,该方法包括在第二端点处监视音频中的分组遗漏并且确定分组遗漏满足分组遗漏阈值。在那些实施例中,确定第一数量和确定第二数量响应于确定分组遗漏满足分组遗漏阈值而发生。
在另一个实施例中,提供了一种装置,其具有一个或多个计算机可读存储介质以及与该一个或多个计算机可读存储介质可操作地耦合的处理系统。存储在一个或多个计算机可读存储介质上的程序指令在被处理系统读取和执行时指示处理系统在由第一参与者操作的第一端点和由第二参与者操作的第二端点之间的通信会话期间,基于由第一端点捕获以包括在通信会话中的声音来确定由第一参与者在一时间段期间说出的词的第一数量。程序指令还指示处理系统基于在第二端点处经由通信会话接收到的音频来确定在该时间段期间由第一参与者说出的词的第二数量。在确定第一数量与第二数量之间存在不一致性后,程序指令指示处理系统将不一致性通知第一参与者和第二参与者中的至少一个。
附图说明
图1图示了用于使用在会话中说出的词来表示通信会话质量的实施方式。
图2图示了使用在会话中说出的词来表示通信会话质量的操作。
图3图示了用于使用在会话中说出的词来表示通信会话质量的操作场景。
图4图示了用于使用在会话中说出的词来表示通信会话质量的实施方式。
图5图示了用于使用在会话中说出的词来表示通信会话质量的操作场景。
图6图示了用于使用在会话中说出的词来表示通信会话质量的另一个操作场景。
图7图示了用于使用在会话中说出的词来表示通信会话质量的显示系统。
图8图示了使用在会话中说出的词来表示通信会话质量的操作。
图9图示了用于使用在会话中说出的词来表示通信会话质量的计算体系架构。
具体实施方式
本文提供的示例使通信会话的端点能够向其用户提供关于用户的词是否正在被通信会话中的其他参与者听到的信息。例如,如果用户说出的词没有呈现给在通信会话的另一个端点处的另一个用户,那么可以向该用户呈现向该用户通知那个事实的通知。在接收到通知后,考虑到他们的词没有全部被听到,用户至少可以停止讲话,但也可以开始排除他们的词没有被听到的原因。用户不需要依赖其他用户的反应或可能无法理解的网络统计信息来推断他们的词没有被通信会话中的其他人听到。
图1图示了用于使用在会话中说出的词来表示通信会话质量的实施方式100。实施方式100包括通信会话系统101、端点102和端点103。用户122操作端点102并且用户123操作端点103。端点102和通信会话系统101通过通信链路111通信。端点103和通信会话系统101通过通信链路112通信。通信链路111-112被示为直接链路,但可以包括中间系统、网络和/或设备。
在操作中,端点102和端点103可以各自分别是电话、平板计算机、膝上型计算机、台式计算机、会议室系统或能够连接到由通信会话系统促成的通信会话的某种其它类型的计算设备101。通信会话系统101促进两个或更多个端点(诸如端点102和端点103)之间的通信会话。在一些示例中,可以省略通信会话系统101以支持端点102和端点103之间的对等通信会话。通信会话可以是仅音频(例如,语音呼叫)或者还可以至少包括视频成分(例如,视频呼叫)。在通信会话期间,用户122和用户123能够通过他们各自的端点102和103捕获他们的语音并在通信会话上传送语音来彼此讲话或向彼此交谈讲话。
图2图示了使用在会话中说出的词来表示通信会话质量的操作200。在操作200中,用户122和用户123是在端点102和端点103之间建立的通信会话的参与者。操作200是在通信会话期间端点102和103中的一个或两者在用户122说出的词的数量与最终由端点103呈现给用户123的词的数量不一致时可以如何通知它们各自的用户122和123的示例。在操作200中,端点102基于由端点102捕获以包括在通信会话中的声音131来确定用户122在一时间段期间说出的词的数量(201)。声音131由端点102处理成音频132,该音频132通过通信会话从端点102传送。在一些示例中,可以在音频132上使用语音到文本算法(例如,自然语言处理(NLP)算法)以识别从声音131捕获的词,然后对该时间段中的词进行计数以达到词的数量。在其它示例中,可以训练或以其它方式配置算法来对音频132中所说的词的数量进行计数,而不必识别实际的词(例如,通过识别词之间的语音变化和/或停顿)。在音频132内测量时间段(例如,在音频132中的时间戳之间),以便端点102和端点103之间的时延或时钟差异不会造成端点102使用与端点103不同的时段。该时间段可以是任何长度的时间并且可以以时间单位(例如,秒)或以词为单位测量。该时间段可以是对词进行计数的一系列时段(例如,顺序的5秒时段)中的一个。在一些示例中,时间段是始终从当前时间向后延伸的滚动时间段(例如,最后5秒或最后10个词),或者可以在定义的起点之间测量,诸如建立会话的时间,以及当前时间。在一些情况下,滚动时间段可以被设置为足够长的持续时间,从而可以避免假阳性,同时仍然能够相对快速地向用户通知不一致性。例如,如果时间段被设置为一秒,那么即使在不存在不一致性的情况下,处理/计数词的数量时即使出现一个错误也可能指示不一致。同样,用户可能不关心是否在这里和那里遗漏了一个词,而是可能想知道词是否一直被丢弃。
在通过通信会话接收到音频132之后,端点103从音频132确定用户122在该时间段期间说出的词的数量(202)。在这个示例中,音频132在其到端点103的路径上通过通信会话系统101,但是在其它示例中,音频132的路径可以跳过通信会话系统101。端点103可以以与端点102处理上述音频132以确定词的数量相同的方式处理音频132,但是端点103有可能以不同的方式(例如,使用不同的算法)确定词的数量。在一些示例中,该算法可以识别出词是不可理解的(例如,音频132切断了中间词)并且不计数那个词。在那些示例中,如果在端点102处使用了类似的算法,那么在端点102处确定的数量也不会在其计数中包括此类词。同样,如果词在端点102处可理解但在端点103处不可理解,那么它将被包括在端点102处的计数中但不包括在端点103处的计数中。
在确定由端点102确定的词的数量与由端点103确定的词的数量之间存在不一致性后,用户122和用户123中的一个或两者都被通知不一致性(203)。如果数量被比较但不匹配或不在预定阈值内(例如,彼此的量或百分比),那么可能存在不一致性。例如,阈值可以指示,如果由端点103确定的数量不是由端点102确定的数量的至少90%,那么触发用户通知。可以在通信会话系统101、端点102或端点103处确定不一致性。因此,由端点102和端点103中的一个或两者确定的数量可以被传送到执行不一致性确定的系统。例如,如果端点102确定不一致性,那么端点103会将它确定的数量在消息中传送到端点102,以与由端点102确定的数量进行比较。如果在除实际向其用户呈现用户通知的端点以外的系统处确定了不一致性,那么通知用户包括将指示不一致性的消息传送到端点,这触发端点呈现用户通知。类似地,应当理解的是,操作200可以完全在实施方式100中的系统(即,端点102/103和通信会话系统101)之一中执行,或者操作200可以跨系统分布。在一个系统执行操作200的示例中,那么确定步骤可以包括操作执行系统通过从实际计数来自音频132的词的数量的另一个系统接收指示词的数量(例如,端点102接收来自端点103的词的数量)的消息来确定词的数量。
用户通知可以简单地向用户122和/或用户123指示少于由端点102从用户122捕获的所有词的词正由端点103向用户123呈现。用户通知可以是端点102/103的显示屏上的图形、端点102/103上的灯元件(例如,发光二极管)的照明、可听警报(例如,音调、音调模式、语音消息等)、振动警报,或用户接口可以通知用户的某种其它方式–包括它们的组合。在一些示例中,通知可以包括关于不一致性的附加信息,诸如指示在该时间段(或某个其它时间段,诸如整个会话)期间没有在端点103处呈现的词的数量或指示没有呈现的特定词。例如,端点102和端点103可以各自生成被计数的词的文本转录,比较这两个转录以从端点103的转录中识别遗漏的词,然后呈现端点102的转录,带有端点103的记录中遗漏哪些词的指示(例如,突出显示)。这种在端点103处的转录呈现将向用户123通知在端点103的音频132的呈现中遗漏的用户122说出的词,但如果由端点102呈现,那么对用户122也可以是有益的。
有利地,当诸如网络问题之类的某事使得从用户122捕获的词未被呈现给用户123时,用户122和用户123中的一个或两者得到通知。在一些示例中,操作200也可以在相反的方向上执行(即,对由端点103捕获并作为音频传送到端点102以供呈现的声音)。同样,操作200可以在通信会话中用多于两个端点执行。例如,如果第三端点在通信会话中,那么第三端点将类似于上述示例中的端点102执行。如果确定了不一致性,那么向用户122和第三端点的用户中的一个或两者通知不一致性。在那个示例中,用户123可能不会被通知两个其它系统之间的不一致性,但是可以存在用户123会发现信息有用并因此被通知的情况。
图3图示了使用在会话中说出的词来表示通信会话质量的操作场景300。操作场景300是操作200的一个示例,具有关于端点102和端点103正在执行的步骤的附加细节。端点102在步骤1处捕获声音131以创建音频132。端点102可以使用内置麦克风来捕获声音131、连接到端点102的有线或无线外围麦克风或一些其它类型的(一个或多个)麦克风来捕获声音131。声音131至少包括来自用户122的讲话音,但也可以包括其它声音,诸如背景噪声。端点102在步骤2处通过与端点103的通信会话传送音频132。在步骤3处,端点102还用语言处理算法处理音频132,以识别和对用户122在音频132中说出的词计数。步骤2和3可以在声音131被捕获时实时发生。照此,音频132可以作为通信会话上实时用户通信的一部分从端点102流传输到端点103。
由于在步骤4处端点103接收到音频132,因此端点103在步骤5处向用户123播放音频132。在步骤6处,端点103还用语言处理算法处理音频132以识别和计数用户122在音频132中说出的词,这生成词计数301。在步骤7处将词计数301发送到端点102。步骤4-7都可以实时发生,以便端点103可以用词计数301不断更新端点102。在一些情况下,在根据接收到的新音频132确定新的词计数301之前,在一时间段期间(例如,会话的5秒增量)对所有词进行计数后,可以传送词计数301。
在步骤8处接收到词计数301后,端点102在步骤9处将词计数301与在步骤3中计数的词的数量(这将表示音频132内相同时间段期间的词的数量)进行比较。如果端点102经由比较确定两个计数之间存在不一致性,那么端点102在步骤10处向用户122呈现关于不一致性的通知302。虽然在这个示例中端点103不通知用户123,但在其它示例中,端点102可以向端点103传送指示不一致性的消息,并且端点103可以向用户123呈现类似于通知302的通知。而且,由于在第一时间段期间可能不存在不一致,因此应当理解的是,可以在随后的时间段执行步骤1-9,直到在移动到步骤10之前识别出不一致性。
图4图示了用于使用在会话中说出的词来表示通信会话质量的实施方式400。实施方式400包括通信会话系统401、端点402-406和通信网络407。通信网络407包括一个或多个局域网和/或广域计算网络,包括互联网,通信会话系统401和端点402-406在其上。端点402-406可以各自包括电话、膝上型计算机、台式工作站、平板计算机、会议室系统或某种其它类型的用户可操作计算设备。通信会话系统401可以是音频/视频会议服务器、分组电信服务器、基于web的呈现服务器或促进端点之间的用户通信会话的某种其它类型的计算系统。端点402-406可以各自执行客户端应用,该客户端应用使端点402-406能够连接到由通信会话系统401促成的通信会话并提供与其相关联的特征,诸如本文所述的词不一致性通知。
在这个示例中,呈现者端点406由作为由通信会话系统401促成的通信会话的呈现参与者的用户操作。呈现参与者可以是通信会话的主持人,可以是指定的呈现者(例如,可以正在共享他们的屏幕或以其它方式呈现信息),可以只是当前的发言者,或者被认为在通信会话期间当前正在呈现。照此,在一些情况下,呈现者端点可以根据当前在通信会话中讲话的人(或谁是指定的呈现者)而改变,而在其它情况下,呈现者端点可以在整个通信会话期间是静态的。
图5图示了用于使用在会话中说出的词来表示通信会话质量的操作场景500。在这个示例中,通信会话系统401比较由端点402-406中的每一个和通信会话系统401本身确定的词计数,以确定在任何参与者端点402-405处的音频是否不包括在呈现者端点406处从呈现参与者捕获的词。比较每个节点处的词计数使通信会话系统401能够更好地查明导致词遗漏的问题存在于何处。
操作场景500开始于呈现者端点406在步骤1处捕获声音501,以生成音频502以作为端点402-406之间的通信会话上的实时用户通信进行传送。根据音频502,呈现者端点406在预定义的时间段期间对音频502中说出的词进行计数,以在步骤2处创建词计数526,其指示在该时间段期间计数的词的数量。在步骤3处,词计数526和音频502都被传送到通信会话系统401。音频502通过通信会话实时传送,而词计数526可以在音频502的带外消息中的时间段完成后传送。在步骤4处,通信会话系统401通过通信会话将音频502实时传递到参与者端点402-405。在接收到音频502之后,参与者端点402-405在步骤5处确定其自己在音频502中说出的词的相应词计数522-525,并且通信会话系统401在步骤6处确定其自己在音频502中说出的词的词计数521。应当理解的是,词计数521-525都是在音频502内与词计数526相同的时间段期间确定的。虽然未示出,但应当理解的是,作为正在进行的通信会话的一部分,参与者端点402-405还向它们各自的用户实时播放音频502。
通信会话系统401在步骤7处从参与者端点402-405接收词计数522-525。通信会话系统401然后比较词计数522-526以确定词计数526与词计数522-525中的任何一个之间是否存在不一致性。如上所述,如果词计数甚至比词计数526少一个词就存在不一致性,或者可以存在符合不一致性的条件之前要求词计数与之前的词计数526相差更多(例如,5个词)的较大阈值。基于哪些词计数不一致,通信会话系统401能够识别在哪两个系统之间发生了可能造成不一致性的事情(例如,网络问题)。例如,如果通信会话系统401确定仅在词计数525与词计数526之间存在不一致,那么通信会话系统401确定通信会话系统401与确定词计数525的参与者端点405之间的某事使得音频502在参与者端点405处播放时遗漏词。在另一个示例中,如果通信会话系统401确定在所有词计数522-525与词计数526之间都存在不一致性,那么在通信会话系统401与所有参与者端点402-405之间或者在呈现者端点406与通信会话系统401之间的某事造成遗漏的词。在这种情况下,由于通信会话系统401还确定词计数521,因此,如果词计数521与词计数526之间存在不一致性,那么通信会话系统401确定通信会话系统401与呈现者端点406之间的某事造成遗漏的词。可替代地,如果在词计数521与词计数526之间没有发现不一致性,那么通信会话系统401确定通信会话系统401与参与者端点402-405之间的某事造成词计数526与词计数522-525之间的不一致性(例如,如果音频502由通信会话系统401转码,那么该转码可能存在问题)。
在确定哪些系统之间存在不一致性之后,通信会话系统401在步骤9处传送一个或多个连接警报503,以呈现给接收连接警报503之一的端点402-406的用户。在这个示例中,连接警报503不仅向(一个或多个)用户通知词不一致性,而且还向用户通知在通信路径中的何处造成不一致性。例如,如果确定通信会话系统401与参与者端点405之间的某事造成参与者端点405处的音频502中计数的词的不一致性,那么连接警报503将向用户指示某事正在造成词在通信会话系统401和参与者端点405之间的连接上丢失。虽然警报503被称为连接警报503,但应当理解的是,除了连接警报503之间的网络连接以外的因素可以造成遗漏的词。
可以将连接警报503提供给所有端点402-406或提供给端点402-406的选定子集,诸如在所确定的不一致性的任一端上的端点,其将是呈现者端点406和参与者端点402-405中的一个或多个。优选地,总是向呈现者端点406通知不一致性,使得呈现者端点406的呈现用户可以知道一个或多个用户没有听到正在说的所有内容。然后,呈现者可以根据谁或有多少用户没有听到正在说的所有内容而选择继续发言或在继续发言之前等待。在交谈的另一端,通知参与者端点402-405之一的用户他们遗漏正在说出的词允许用户潜在地解决问题,或者如果必要,要求呈现者重复他们自己。通知可能没有遇到遗漏的词的其他用户也可以有益于通知那些用户在另一端点处可能需要由呈现者解决的问题,这将影响他们在通信会话中的体验。
知道问题在哪里造成可以帮助用户排除可能造成问题的原因。例如,如果在确定词计数525与词计数521之间有不一致性时向参与者端点405提供连接警报503,那么参与者端点405的用户将经由连接警报503被告知他们没有被呈现由呈现者在呈现者端点406处说出的所有词以及他们与通信会话(即,与通信会话系统401)的连接存在问题是原因。如果没有这些知识,用户可能会认为遗漏词问题是由呈现者端点406与通信会话的连接造成的。因此,连接警报503有利地向端点402-406的用户提供关于确定的词计数不一致性的更多信息,从而可以采取适当的动作。
图6图示了用于使用在会话中说出的词来表示通信会话质量的操作场景600。操作场景600是个示例,其中生成文本转录以指示在端点402-406之间的通信会话上接收的音频中遗漏了由呈现者端点406处的呈现用户说出的哪些词。操作场景600开始于呈现者端点406在步骤1处捕获声音601,以生成音频602以作为端点402-406之间的通信会话上的实时用户通信进行传送。呈现者端点406在步骤2处从音频602生成转录626。转录626的生成可以使用语音到文本算法来执行并且可以实时执行(即,当词被捕获时)。在以上示例中,可以生成转录,以便可以从生成的转录对词进行计数,这也可以出于类似原因在操作场景600中执行,虽然未讨论。虽然上述示例在计数其中的词之后可以不对转录做任何事情,但是在这个示例中转录626在步骤3处以消息的形式被传送到通信会话系统401。在步骤3处,音频602也通过通信会话实时传送到通信会话系统401。转录626也可以被实时传送(例如,每个词都在其被算法识别出时被传送)或可以以某种其它增量被传送(例如,以与用于词计数的时间段对应的增量或以某个其它增量)。
在步骤4处,音频602和转录626都从通信会话系统401传送到参与者端点402-405。音频602被实时传送,并且转录626在它从呈现者端点406被接收到的相同间隔中被传送,这也可以是实时的。在接收到音频602后,参与者端点402-405在步骤5处生成相应的转录622-625。转录622-625可以使用与用于生成转录626相同的算法来生成,并且可以在参与者端点402-405在音频602中接收和播放词时实时生成。在步骤6处,将转录626的词与转录622-625中的每一个中的词进行比较,以识别可能从转录622-625中的一个或多个中遗漏的词。例如,如果转录626包括与音频602内的特定时间对应的词“action”并且参与者端点402生成的转录622不包括与音频602的该特定时间相关联的词“action”(例如,是完全遗漏的或由于音频质量下降而无法确定的),那么“action”这个词就是遗漏的词。不是将词与其相关联的时间戳进行比较以确定词遗漏,而是参与者端点402可以从遗漏的词周围的词中识别遗漏的词。在上面的示例中,转录626可以包括句子“you need to take action on thismatter”,而转录622包括“you need to take on this matter”。参与者端点402将识别出转录622直接从“take”移动到“on”,而在两者之间遗漏了“action”。也可以使用识别转录之间的差异的其它方式。
不管怎样,如果从转录622-625之一中遗漏了词,那么假设该词遗漏,因为它没有包括在接收到的音频602中。照此,在步骤7,参与者端点402-405将遗漏的词(如果有的话)呈现给它们各自的用户。可以仅呈现遗漏的词或可以呈现转录626,同时在呈现中指示转录626中的哪些词没有在音频602中被接收(例如,可以从接收的音频602听到的词可以以一种颜色显示而遗漏的词以另一种颜色显示或以某种其它方式突出显示)。在一个示例中,当在通信会话期间接收到更多的转录626时,转录626可以由参与者端点402-405呈现为滚动的词的垂直列或水平地跨越显示器。优选地,转录626被足够快地接收,使得其中的词的呈现与音频602的从其生成转录626的显示部分的部分基本上实时地显示。在一些情况下,如果可以基本实时地识别遗漏的词,那么当由确定词遗漏的参与者端点402-405之一播放时,合成语音可以被用于将遗漏的词插入音频602中。不管遗漏的词如何呈现,向参与者端点402-405的用户呈现遗漏的词都为用户提供了除简单地指示词遗漏之外的附加信息(即,在接收到的音频602的词中存在不一致性)。
图7图示了用于使用在会话中说出的词来表示通信会话质量的显示系统700。显示系统700包括显示器711和相机721。显示器711可以是阴极射线管(CRT)、液晶显示器(LCD)、发光二极管显示器(LED)或能够呈现下述图像的某种其它类型的显示器。相机721包括用于捕获观看显示器711的参与者的视频的光学器件和图像传感器。虽然未示出,但显示系统700可以是用于本文别处描述的端点的显示系统。
显示器711正在显示连接到参与者702-706之间的视频通信会话的客户端应用的示例图形用户界面(GUI),如参与者列表734中所示。参与者702正在操作显示系统700的端点。GUI还示出了参与者窗口731-733和结束通话按钮741,当按下时,该按钮将显示系统700处的参与者从通信会话中移除。参与者706的实时视频在参与者窗口731中示出,该窗口大于参与者窗口732和参与者窗口733,因为参与者706当前正在讲话。参与者窗口732示出了参与者703的实时视频,并且参与者窗口733示出了参与者704的实时视频。可以不显示通信会话中剩余参与者的视频,因为那些参与者不是最近的三个发言者之一、那些参与者没有启用视频,或出于某种其它原因。
在这个示例中,已确定参与者706说出的词的数量与从在显示系统700的端点处接收的参与者706的音频呈现的词的数量之间的不一致性。不一致性可以由显示系统700的端点确定或者可以由另一个端点或系统确定。为了将不一致性通知参与者702,GUI在参与者窗口731中呈现通知735。通知735是视觉警报,其指示当在参与者702的端点处呈现词时,词正在从参与者706的讲话中被丢弃。在一些示例中,通知735还可以指示网络路径中造成丢弃的词的位置。例如,如果只有参与者702正在经历丢弃的词而其它参与者没有,那么通知735可以指示丢弃的词是由参与者702的端点造成的(例如,端点与通信会话的连接)而不是其它东西,诸如参与者706与通信会话的连接。在一些示例中,通知735可以指示有多少词被丢弃,可以指示从其确定不一致性的时间段(例如,最后10秒),或关于不一致性的一些其它信息。
与通知735类似的通知也可以显示在由参与者706操作的端点处。在那些示例中,通知还可以指示参与者702-705中的哪一个正在经历丢弃的词。如果所有参与者702-705都在经历丢弃的词,那么通知可以指示参与者706的端点正在造成丢弃的词(例如,端点与通信会话的连接可能存在问题)。
图8图示了使用在会话中说出的词来表示通信会话质量的操作800。在一些示例中,操作800发生在操作200之前。在操作端点103中,端点103监视接收到的音频132的分组丢失(801)。在监视期间,端点103确定分组丢失是否满足分组丢失的阈值量(802)。分组丢失的阈值量优选地被设置为当音频132在端点103处被呈现时可能导致词遗漏的丢失量。例如,偶尔从音频132丢失一个或两个分组可能不足以影响用户123是否没有被呈现词。照此,阈值被设置为与每单位时间丢失的大量分组(例如,在最后5秒内丢失的分组的数量)对应。
理想情况下,因为通信会话没有连接问题,所以在监视时确定的分组丢失永远不会满足阈值。但是,如果端点103确定已经满足分组丢失的阈值量,那么执行操作200,以便当音频132在端点103处呈现时可以通知用户122和/或用户123分组丢失是否导致遗漏的词(803)。为了触发操作200,端点103或者直接或者通过通信会话系统101至少通知端点102应当执行操作200。该通知确保端点102和端点103都知道执行它们所需的步骤。可以在满足阈值之后对生成/接收的音频132执行操作200。在一些示例中,可以对音频132的丢失的分组满足分组丢失阈值的部分执行操作200。在那些示例中,可以存储(例如,在端点103处缓冲或高速缓存)音频132的至少确定分组丢失的部分,以便可以在操作200期间的步骤202处确定音频132的那个部分中的词的数量。端点102处的音频132的对应部分将同样被存储,从而也可以在那里确定词的数量。
有利地,在操作200之前执行操作800是在分组丢失满足阈值之后才需要使用用于计数词的资源(例如,存储器空间、处理周期等)。一旦执行了操作200,端点103检测到的分组丢失就以用户可以更容易理解的术语表达给用户122和/或用户123,而无需知道分组丢失会导致什么。即,不是简单地通知用户122和/或用户123所确定的分组丢失正在发生(在一些示例中也可以这样做),而是通知用户122和/或用户123用户实际上正在体验的分组丢失(即,词被遗漏/丢弃)的后果。
应当理解的是,虽然上面在端点103执行方法步骤的上下文中解释了操作800,但操作800也可以至少部分地在端点102或通信会话系统101中执行。例如,端点102或通信会话系统101可以指示端点102监视分组丢失(801),然后可以通过从端点103接收满足阈值的通知或接收从端点103丢失的分组的数量以便端点102或通信会话系统101可以确定是否满足阈值,来确定分组丢失满足阈值(802)。端点102或通信会话系统101随后将在确定满足阈值后触发操作200的执行(803)。
图9图示了用于使用在会话中说出的词来表示通信会话质量的计算体系架构900。计算体系架构900是用于通信会话系统101/401以及端点102、103和402-406的示例计算体系架构,但是系统101-103和401-406可以使用替代配置。计算体系架构900包括通信接口901、用户接口902和处理系统903。处理系统903链接到通信接口901和用户接口902。处理系统903包括处理电路系统905和存储操作软件907的存储器设备906。
通信接口901包括通过通信链路进行通信的组件,诸如网卡、端口、RF收发器、处理电路系统和软件,或一些其它通信设备。通信接口901可以被配置为通过金属、无线或光学链路进行通信。通信接口901可以被配置为使用TDM、IP、以太网、光网络、无线协议、通信信令或某种其它通信格式——包括它们的组合。
用户接口902包括与用户交互的组件。用户接口902可以包括键盘、显示屏、鼠标、触摸板或一些其它用户输入/输出装置。在一些示例中可以省略用户接口902。
处理电路系统905包括微处理器和其它电路系统,其从存储器设备906检索和执行操作软件907。存储器设备906包括计算机可读存储介质,诸如盘驱动器、闪存驱动器、数据存储电路系统或某种其它存储器装置。在任何示例中,存储器设备906的存储介质都不会被认为是传播的信号。操作软件907包括计算机程序、固件或某种其它形式的机器可读处理指令。操作软件907包括不一致性模块908。操作软件907还可以包括操作系统、实用程序、驱动程序、网络接口、应用或某种其它类型的软件。当由处理电路系统905执行时,操作软件907指示处理系统903操作如本文所述的计算体系架构900。
特别地,在由第一参与者操作的第一端点和由第二参与者操作的第二端点(任一者都可以是计算体系架构900)之间的通信会话期间,不一致性模块908指示处理系统903基于由第一端点捕获以包括在通信会话中的声音来确定由第一参与者在一时间段期间说出的词的第一数量,并基于在第二端点处经由通信会话接收的音频来确定由第一参与者在该时间段期间说出的词的第二数量。在确定第一数量与第二数量之间存在不一致时,不一致性模块908指示处理系统903将不一致性通知第一参与者和第二参与者中的至少一个。
本文包括的描述和附图描绘了(一个或多个)要求保护的发明的具体实施方式。为了教导发明性原理,一些常规方面已被简化或省略。此外,可以认识到这些实施方式的一些变化落入本发明的范围内。还可以认识到的是,上述特征可以以各种方式组合以形成多种实施方式。因此,本发明不限于上述具体实施方式,而仅受权利要求及其等同物的限制。

Claims (10)

1.一种方法,包括:
在由第一参与者操作的第一端点和由第二参与者操作的第二端点之间的通信会话期间:
基于由第一端点捕获以包括在通信会话中的声音来确定由第一参与者在一时间段期间说出的词的第一数量;
基于在第二端点处经由通信会话接收的音频来确定由第一参与者在所述时间段期间说出的词的第二数量;以及
在确定第一数量与第二数量之间存在不一致性后,将不一致性通知给第一参与者和第二参与者中的至少一个。
2.如权利要求1所述的方法,包括:
从第二端点接收指示第二数量的消息;以及
在接收到该消息之后,将第二数量与第一数量进行比较以确定不一致性。
3.如权利要求1所述的方法,其中不一致性包括第一数量与第二数量之间的差异大于词的阈值数量。
4.如权利要求1所述的方法,包括:
生成由第一参与者说出的词的文本转录;
基于在第二端点处接收到的音频来接收由第一参与者说出的词的第二文本转录;以及
向第一参与者呈现第二文本转录中相对于所述文本转录遗漏的词的指示。
5.如权利要求1所述的方法,包括:
基于经由通信会话在促进通信会话的服务器处接收到的音频确定由第一参与者在所述时间段期间说出的词的第三数量;以及
响应于确定第一数量与第三数量之间存在第二不一致性,向第一参与者通知第一端点和服务器之间存在问题。
6.一种装置,包括:
一个或多个计算机可读存储介质;
处理系统,与所述一个或多个计算机可读存储介质可操作地耦合;以及
程序指令,存储在所述一个或多个计算机可读存储介质上,程序指令在被处理系统读取和执行时,指示处理系统:
在由第一参与者操作的第一端点和由第二参与者操作的第二端点之间的通信会话期间:
基于由第一端点捕获以包括在通信会话中的声音来确定由第一参与者在一时间段期间说出的词的第一数量;
基于在第二端点处经由通信会话接收到的音频来确定在该时间段期间由第一参与者说出的词的第二数量;以及
在确定第一数量与第二数量之间存在不一致性后,将不一致性通知给第一参与者和第二参与者中的至少一个。
7.如权利要求6所述的装置,其中程序指令指示处理系统:
从第二端点接收指示第二数量的消息;以及
在接收到该消息之后,将第二数量与第一数量进行比较以确定不一致性。
8.如权利要求6所述的装置,其中不一致性包括第一数量与第二数量之间的差异大于词的阈值数量。
9.如权利要求6所述的装置,其中程序指令指示处理系统:
生成由第一参与者说出的词的文本转录;
基于在第二端点处接收到的音频来接收由第一参与者说出的词的第二文本转录;以及
向第一参与者呈现第二文本转录中相对于所述文本转录遗漏的词的指示。
10.如权利要求6所述的装置,其中程序指令指示处理系统:
基于经由通信会话在促进通信会话的服务器处接收到的音频确定由第一参与者在该时间段期间说出的词的第三数量;以及
响应于确定第一数量与第三数量之间存在第二不一致性,向第一参与者通知第一端点和服务器之间存在问题。
CN202210166330.2A 2021-02-23 2022-02-23 通信会话质量的基于词的表示 Pending CN114974250A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/182,512 2021-02-23
US17/182,512 US11870835B2 (en) 2021-02-23 2021-02-23 Word-based representation of communication session quality

Publications (1)

Publication Number Publication Date
CN114974250A true CN114974250A (zh) 2022-08-30

Family

ID=82901127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210166330.2A Pending CN114974250A (zh) 2021-02-23 2022-02-23 通信会话质量的基于词的表示

Country Status (3)

Country Link
US (1) US11870835B2 (zh)
JP (1) JP2022128594A (zh)
CN (1) CN114974250A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11870835B2 (en) * 2021-02-23 2024-01-09 Avaya Management L.P. Word-based representation of communication session quality
WO2024072583A1 (en) * 2022-09-29 2024-04-04 Microsoft Technology Licensing, Llc Conferencing session quality monitoring

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7058566B2 (en) * 2001-01-24 2006-06-06 Consulting & Clinical Psychology, Ltd. System and method for computer analysis of computer generated communications to produce indications and warning of dangerous behavior
DE60228716D1 (de) * 2001-07-05 2008-10-16 Koninkl Philips Electronics Nv Verfahren zum bereitstellen von kontoinformation und system zum aufschreiben von diktiertem text
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US8392186B2 (en) * 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9031222B2 (en) * 2011-08-09 2015-05-12 Cisco Technology, Inc. Automatic supervisor intervention for calls in call center based upon video and/or speech analytics of calls
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US9620128B2 (en) * 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
CN105027198B (zh) * 2013-02-25 2018-11-20 三菱电机株式会社 语音识别系统以及语音识别装置
US9563693B2 (en) * 2014-08-25 2017-02-07 Adobe Systems Incorporated Determining sentiments of social posts based on user feedback
KR20180084394A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
US20190204998A1 (en) * 2017-12-29 2019-07-04 Google Llc Audio book positioning
JP7047626B2 (ja) * 2018-06-22 2022-04-05 コニカミノルタ株式会社 会議システム、会議サーバ及びプログラム
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11102353B2 (en) * 2019-05-07 2021-08-24 Avaya Inc. Video call routing and management based on artificial intelligence determined facial emotion
US11669860B2 (en) * 2019-12-11 2023-06-06 Google Llc Methods, systems, and media for automated compliance determination of content items
US11562731B2 (en) * 2020-08-19 2023-01-24 Sorenson Ip Holdings, Llc Word replacement in transcriptions
US11328732B2 (en) * 2020-09-16 2022-05-10 International Business Machines Corporation Generating summary text compositions
US11929074B2 (en) * 2021-02-11 2024-03-12 Dell Products L.P. Automatically generating a meeting summary for an information handling system
US11870835B2 (en) * 2021-02-23 2024-01-09 Avaya Management L.P. Word-based representation of communication session quality

Also Published As

Publication number Publication date
US11870835B2 (en) 2024-01-09
JP2022128594A (ja) 2022-09-02
US20220272141A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
EP2901669B1 (en) Near-end indication that the end of speech is received by the far end in an audio or video conference
US7719975B2 (en) Method and system for communication session under conditions of bandwidth starvation
US9451582B2 (en) Controlling delivery of notifications in real-time communications based on communication channel state
US9509953B2 (en) Media detection and packet distribution in a multipoint conference
US8121277B2 (en) Catch-up playback in a conferencing system
JP5103734B2 (ja) 遠隔会議のためのステータスを提供するシステム
CN114974250A (zh) 通信会话质量的基于词的表示
US20130321156A1 (en) Method and apparatus for providing an intelligent mute status reminder for an active speaker in a conference
WO2019099397A1 (en) System and methods for testing a video conference call using a virtual assistant
JP5363588B2 (ja) 受信オーディオデータをビデオデータと同期させるための装置及び方法
EP2973559B1 (en) Audio transmission channel quality assessment
US8786659B2 (en) Device, method and computer program product for responding to media conference deficiencies
CN105991854B (zh) 一种智能终端上VoIP电话会议可视化的系统及方法
US20220319537A1 (en) Detection of audio issues on a communication session from video analysis
JP2010074494A (ja) 会議支援装置
WO2022060349A1 (en) Indications of received audio quality of calls
JP2020036225A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20220068287A1 (en) Systems and methods for moderating noise levels in a communication session
US11595462B2 (en) In-call feedback to far end device of near end device constraints
JP2010226377A (ja) 遠隔会議支援装置、及び方法
US11750409B2 (en) Computer-implemented method of performing a WebRTC-based communication and collaboration session and WebRTC-based communication and collaboration platform
JP2008048058A (ja) ネットワークボックス

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination