CN116686045A - 在没有完整转录本的情况下的端到端口语理解 - Google Patents
在没有完整转录本的情况下的端到端口语理解 Download PDFInfo
- Publication number
- CN116686045A CN116686045A CN202180054079.4A CN202180054079A CN116686045A CN 116686045 A CN116686045 A CN 116686045A CN 202180054079 A CN202180054079 A CN 202180054079A CN 116686045 A CN116686045 A CN 116686045A
- Authority
- CN
- China
- Prior art keywords
- slu
- model
- data
- intent
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000008569 process Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000013526 transfer learning Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 24
- 230000006978 adaptation Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- UKGJZDSUJSPAJL-YPUOHESYSA-N (e)-n-[(1r)-1-[3,5-difluoro-4-(methanesulfonamido)phenyl]ethyl]-3-[2-propyl-6-(trifluoromethyl)pyridin-3-yl]prop-2-enamide Chemical compound CCCC1=NC(C(F)(F)F)=CC=C1\C=C\C(=O)N[C@H](C)C1=CC(F)=C(NS(C)(=O)=O)C(F)=C1 UKGJZDSUJSPAJL-YPUOHESYSA-N 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000011049 filling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- DGLFSNZWRYADFC-UHFFFAOYSA-N chembl2334586 Chemical compound C1CCC2=CN=C(N)N=C2C2=C1NC1=CC=C(C#CC(C)(O)C)C=C12 DGLFSNZWRYADFC-UHFFFAOYSA-N 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
一种训练口语理解(SLU)模型的方法和系统,包括接收自然语言训练数据,该自然语言训练数据包括(i)一个或多个语音记录,以及(ii)每个对应语音记录的一组语义实体和/或意图。对于每个语音记录,从对应语义实体和/或总体意图中提取一个或多个实体标签和对应值以及一个或多个意图标签。基于对应语音记录的一个或多个实体标签和对应值以及一个或多个意图标签来训练口语理解(SLU)模型,而无需对应语音记录的转录本。
Description
技术领域
本公开总体上涉及计算机系统,并且更具体地涉及被配置为从口语音频数据提取含义的计算机系统。
背景技术
近年来,口语理解(SLU)和自动语音识别(ASR)已经在各种应用中变得日益突出,包括但不限于交互式口语会话系统和理解代理-客户对话的呼叫中心分析。ASR是计算机科学和计算语言学的跨学科子领域,其提供使得能够通过计算机识别口语的技术和方法。它结合了计算机科学、语言学和计算机工程领域的知识和研究。ASR将语音转换成文本(例如,单词)。相反,SLU将语音转换成含义(例如,语义注释的文本)。用于语音识别的训练模型通常涉及包括其转录本的语音数据的语料库。
发明内容
根据各种实施例,提供了用于训练口语理解(SLU)模型的计算设备、非暂时性计算机可读存储媒质和方法。在训练阶段期间,接收针对每个对应语音记录包括(i)一个或多个语音记录以及(ii)一组语义实体和/或总体意图的自然语言训练数据。对于每个语音记录,从对应语义实体和/或总体意图中提取一个或多个实体标签和对应值以及一个或多个意图标签。基于对应语音记录的一个或多个实体标签和对应值以及一个或多个意图标签来训练口语理解(SLU)模型,而无需语义实体具有对应音频语音记录的转录本。
在一个实施例中,语义实体不按口语顺序。语义实体可以按字母顺序。
在一个实施例中,提取和训练是基于基于注意力的编码器-解码器神经网络模型的。
在一个实施例中,自然语言训练数据基于不同类型的训练数据的组合。
在一个实施例中,执行预处理对齐以将语义实体对齐为口语顺序。
在一个实施例中,训练数据基于用户和帮助用户执行任务的管理员之间的交易数据。
在一个实施例中,训练数据包括交易数据的记录,该交易数据包括实体包。
在一个实施例中,一个或多个实体标签和对应值以及一个或多个意图标签的提取是通过神经网络处理进行的。在各种实施例中,可以使用连接机制时间分类(CTC)、递归神经网络换能器(RNN-T)、以及基于注意力的编码器-解码器神经网络模型。
在一个实施例中,训练涉及转移学习,该转移学习包括在ASR模型上初始化口语(SLU)模型。
在一个实施例中,在活动阶段期间,接收包括音频语音记录而没有音频语音记录的转录本的原始口语数据。应用经训练的SLU模型来识别原始口语数据的含义,其中该含义包括原始口语的意图和语义实体。应用SLU模型来识别口语中的总体意图和语义实体。
由于将计算限制到减小的相关数据池中,节省了对执行动作的计算设备上的计算需求以及存储库中的训练数据量,从而提供了更高效的计算平台。
这些和其他特征将从以下对其说明性实施例的详细描述中变得显而易见,其中描述应结合附图阅读。
附图说明
附图是说明性实施例。它们没有示出所有实施例。附加地或替代地,可使用其他实施例。可省略可能显而易见或不必要的细节以节省空间或用于更有效说明。一些实施例可用附加的部件或步骤和/或不用示出的所有部件或步骤来实践。当在不同的附图中出现相同的数字时,它指代相同或相似的部件或步骤。
图1示出了与说明性实施例一致的用于在没有完整转录本的情况下的端到端口语理解的系统的示例性架构。
图2示出了用于确定话语的含义的训练数据的示例。
图3A提供了使用连接机制时间分类和基于注意力的模型对语音输入的实体包插槽填充F1分数的评估的汇总表。
图3B提供了对具有加性街道噪声的语音输入实体包插槽填充F1分数的汇总表。
图3C显示了用于训练ASR模型的数据量如何影响最终F1分数的表格,该ASR模型用于初始化SLU训练。
图4示出了使用ASR模型的话语的注意力图。
图5示出了按口语顺序使用SLU的话语的注意力图。
图6示出了按字母顺序使用SLU的话语的注意力图。
图7A和图7B分别呈现了与说明性实施例一致的在训练阶段和活动阶段期间的端到端口语理解系统的说明性过程。
图8提供了计算机硬件平台的功能框图图示,计算机硬件平台可以用于实现可以托管语义实体注释引擎的具体配置的计算设备。
图9描绘了与说明性实施例一致的云计算环境。
图10描绘了与说明性实施例一致的抽象模型层。
具体实施方式
综述
在以下详细描述中,通过示例的方式阐述了许多具体的细节以提供对相关教导的透彻理解。然而,应当显而易见的是,可以在没有此类细节的情况下进行实践。在其他情况下,已经在没有细节的情况下以相对较高的层级描述了众所周知的方法、程序、部件和/或电路,以避免不必要地模糊本教导的各方面。
本公开总体上涉及自动训练模型从而以计算高效的方式理解口语的系统和计算机化方法。口语理解(SLU)的显著方面涉及插槽填充的概念,其中通过使用语义实体标签来表示口语话语的含义。本文的教导提供了将语音输入直接转换成语义实体的端到端(E2E)口语理解系统。在一个方面,与传统的方法相比,本文所讨论的E2E SLU模型可以在语义实体注释上训练,而无需逐字转录本。训练这样的模型是非常有用的,因为它可以大幅地降低数据收集的计算复杂度。在各种实施例中,通过调整最初用于训练语音识别的模型来提供两种类型的这种语音至实体模型,即连接机制时间分类(CTC)模型和基于注意力的编码器-解码器模型。鉴于本文所讨论的实验涉及语音输入,这些系统正确地识别语义实体标签和表示语义实体值的单词两者。申请人已经确定,与在完整转录本上训练相比,在仅针对实体进行训练时,存在可忽略的退化。在一个实施例中,实体被重新排序,从而在语音至实体包F1分数中仅实现约2%的退化。
本文的教导在端到端(E2E)口语理解(SLU)框架提供语音输入,将语音作为输入并返回实体标签(在本文中有时被称为语义实体注释)和值。在一个方面,当前系统的经训练的SLU模型用于理解所讲内容的含义是有作用的。与需要逐字准确度的自动语音识别(ASR)相比,当前SLU对每个单词或者甚至如何说出(例如,实体的顺序、单词选择等)不是非常敏感,只要保留了话语的含义即可。因此,当前SLU系统可能不需要逐字转录本形式的训练数据,逐字转录本形式的训练数据对于新的领域的获取和处理是耗时且计算昂贵的。
SLU系统传统上是将语音转换成文本自动语音识别(ASR)系统接着是解释文本的含义的自然语言理解(NLU)系统的级联。相比之下,在一个实施例中,E2E SLU系统将语音输入直接处理成含义,而不经过中间文本转录本。在一个实施例中,本文的教导可以使用与话语的口语顺序不匹配的一组(或包)实体来训练E2E SLU系统。这种来自实体的特定顺序的自由度可以使得系统能够在来自例如与交易数据配对的客户与管理员的通话的语音数据上进行训练。在各种实施例中,交易数据可以由计算设备自动提供或由人类代理产生。例如,考虑聊天机器人或人类代理帮助客户端进行诸如航班预约的任务,产生包括一组实体的交易记录。该记录可作为用于训练模型的弱监督,该模型用于理解话语的含义。当由人类执行时,语音数据的准确的逐字转录本通常涉及5-10个实时,更不用说用于标记实体的附加成本。相比之下,包括实体包的交易记录是在通过人还是聊天机器人帮助客户的过程期间获取的,并且都没有附加的成本。通过在无需转录本的情况下在训练中使用语音记录和实体包,存在技术改进,即数据收集的计算复杂度和成本大幅地减少,而训练数据量有所改进,从而改进了执行口语的分析的计算设备的准确度。本文所描述的技术可以以多种方式实现。下面参考以下附图提供示例性实现。
示例架构
图1示出了与说明性实施例一致的用于在没有完整转录本的情况下的端到端口语理解的系统的示例架构100。架构100可以包括一个或多个会话实体101(1)至101(N),其可以通过网络106借助于发送和接收电子数据包105(1)至105(N)的方式来参与彼此的会话。会话实体通常是个人(例如,人类用户),但是也可包括被配置为与人类用户通信的聊天机器人。电子数据包105(1)至105(N)在本文中有时被称为口语数据或简单的语音输入。口语数据包括原始语音数据(例如,语音记录)。在一些实施例中,口语数据还包括一组实体,稍后更详细地讨论。
架构100还可包括历史数据存储库112,该历史数据存储库用于提供可用于训练语音识别模型的训练数据113。架构100包括托管SLU 103的口语理解(SLU)服务器116。存在允许各种用户设备102(1)至101(N)彼此通信并且允许口语数据被获取并存储在历史数据存储库112处的网络。网络106可以是但不限于局域网(“LAN”)、虚拟专用网络(“VPN”)、蜂窝网络、因特网、或其组合。例如,网络106可以包括通信地耦合到专用网络(有时被称为内联网)的移动网络,该专用网络提供各种辅助服务,诸如与各种数据库、潜在参与者、互联网和云120的通信。
出于讨论的目的,附图中出现了不同的用户/计算设备,以表示可由用户(例如,101(1)至102(N))使用以通过网络106通信的客户端设备的一些示例。现今,用户设备通常采取便携式手持机、智能电话、平板电脑、个人数字助理(PDA)和智能手表的形式,虽然用户设备可以以其他形式因素实现,包括消费、医疗和商业电子设备。
历史数据存储库112被配置成存储和维护训练数据113的大集合,其包括与各种用户之间的先前对话有关的数据,SLU引擎103可以从中学习。例如,历史数据存储库112可提供与已被成功分割及其含义被识别和标记的会话有关的训练数据。在一个实施例中,训练数据113作为数据的语料库,SLU103可以从中学习以创建和/或训练口语理解模型,然后该口语理解模型可以用来评估一个或多个实体102(1)至102(N)之间的会话的含义而无需其转录本。
在一个实施例中,在口语理解系统的训练阶段期间,通过网络106从一个或多个用户设备102(1)至102(N)获取口语数据105(1)至105(N)。在各种实施例中,可以由在SLU服务器116上运行的SLU引擎103或者直接由历史数据存储库112执行获取。在一个实施例中,可以由云120上的分布式计算架构来执行获取。口语数据(例如,105(1)至105(N))包括(i)音频语音记录和(ii)一组语义实体和/或意图。
在一个实施例中,口语数据的语义实体和/或意图不包括音频语音记录的转录本。在其他实施例中,转录本可以在被存储在历史数据存储库112中之前或稍后从历史数据存储库112接收数据时被过滤出(例如,由SLU引擎103过滤)。换言之,实体标签/值和意图标签是从语义实体提取的,而无需语音记录的逐字转录本。例如,从书面转录本(如果提供的话)中提取实体标签/值和意图标签,并且去除除了实体标签/值和意图标签之外的词语。
在预定的间隔或者触发事件时,SLU引擎103接收训练数据113,它可以使用该训练数据113来训练SLU模型而无需语音记录的逐字转录本,从而大幅地减少历史数据量以及SLU服务器116的计算开销。然后经训练的SLU模型可以被SLU 103引擎在活动阶段期间使用,以促进理解语音记录的含义。下面将更详细地讨论这些特征中的每一个。
将会理解的是,由SLU 103接收的训练数据113和电子数据包105(1)至105(N)的庞大数量可能为托管SLU 103的SLU服务器116的计算资源提供技术挑战,包括SLU服务器116的处理时间和存储器资源。对此,在一个实施例中,SLU 103被配置为过滤超出实体标签和意图标签的范围的话语。例如,诸如无关紧要的短语(例如,不连贯的或无关紧要的,诸如“uhm”、“ahh”、“let me think”、“like”等)之类的话语(在本文中被称为不被交互定义的话语)以及不与实体标签或意图标签直接有关的其他术语由SLU引擎103去除。通过这种方式,实现了节省SLU服务器116和/或历史数据库112的有价值的计算和存储资源的技术效果。由于将计算限制到减小的相关数据池中,对SLU服务器116的计算需求得以节省,从而提供了更高效的计算平台。
虽然通过示例的方式说明历史数据存储库112和SLU服务器116以及计算设备102(1)至102(N)在不同的平台上,但是将理解的是,在不同的实施例中,这些平台可以被组合。在其他实施例中,这些计算平台中的一个或多个可以由虚拟机或软件容器形式的虚拟计算设备来实现,虚拟机或软件容器托管在云120中,从而提供用于处理和存储的弹性架构。稍后将更详细地讨论云。
示例语义实体
现在参考图2,图2示出了用于确定话语的含义(即意图和语义实体标签和值)的训练数据200的示例。对于语音识别,训练数据通常是成对的话语(例如,语音记录)和逐字转录本,如在图2的示例中的转录本210中所示。为了训练可以执行意图分类和语义插槽填充的SLU模型,这样的句子通常进一步被标记为意图和语义实体,如示例220中所示。换言之,已知的方法通常使用转录本加上意图和语义实体标签220。
相比之下,SLU引擎103被配置为训练仅与语义实体配对的语音。如本文所使用的,语义实体包括配对的标签-值。例如,“toloc.city_name”是标签,并且“Boston”是语义实体的值。对此,示例230显示了以自然口语顺序呈现用于训练的语义实体。更具体地,示例230与示例220的不同之处在于,不是语义实体的一部分的单词被排除了。语义实体可以被认为是更显著的关键词。应注意的是,这并不意味着其他词语(被排除的)不携带任何含义。例如,“from”和“to”用于确定城市是目的地城市还是出发城市。在我们的经训练的SLU模型中,这样的单词将不被输出,但是对应于那些单词的语音信号将帮助模型输出正确的语义实体标签。类似地,示例230与示例220的不同之处在于,不存在可能与确定意图相关的某些显著单词(例如,“want a flight”)。SLU引擎能够仅用意图标签(“O-INT-flight”)进行训练。
在一个实施例中,语义实体不需要按口语顺序输出,而可以是任意的或任何预定的顺序。在示例240中,语义实体不是按口语顺序给出的,而是根据实体标签名称按字母顺序排序。这模拟了语义框架或实体包的概念,其中实体的顺序不影响其含义:{{fromloc.city name:RENO}、{stoploc.city name:LAS VEGAS}、{toloc.city name:DALLAS}}。
ASR模型到SLU系统中的适配示例
在各种实施例中,因为存在可以转录SLU数据的不同方式,所以本文呈现了不同方法来训练SLU系统。从预先经训练的ASR模型开始,下面讨论架构以解释当用于对各种SLU数据进行建模时两种不同类型的E2E模型如何表现。每个可能的训练过程可以采用以下模块中的一个或多个。
在一个实施例中,使用ASR模型适配到域数据的(ASR-SLU适配)模块。鉴于现成的ASR模型可能在声学上不同于SLU数据的数据上训练,初始步骤是适配ASR系统。例如,ASR模型的参数适于在ASR的任务中(即语音转录成单词)对域数据执行地更好。仅使用逐字转录本的动作使模型适于SLU域数据中存在的新的声学条件、单词和语言构造。在模型适配中,可以使用原始通用ASR数据(GP-ASR)和域数据两者来提供比仅适配域数据更好的ASR输出单元的覆盖率。例如,该覆盖率可以与由ASR建模的词汇或单元集合(例如,电话、字符、单词等)有关,其中的一些可能不出现在域数据中。通过使用大量的通用数据来改进覆盖率。
在一个实施例中,使用联合ASR和SLU模型训练(例如,联合ASR+SLU)。实体标签与完整转录本一起被引入训练流水线中。该模块是课程学习的形式,其将现成的ASR模型逐渐修改为成熟的SLU模型。与传统的方法不同,该模型现在被训练为除了通常的字形或语音输出标志之外还输出非声学实体标志。对于GP-ASR数据,目标仅是字形/语音标志,而对于SLU域数据,目标还包括实体标签。虽然该模块是训练最终SLU模型的自然进展,但是如果足够的SLU资源可用,则可以跳过它。
在一个实施例中,使用SLU模型微调(例如,微调SLU)。在该最终模块中,来自上文所讨论的第一或第二模块的模型仅在SLU数据上进行微调以创建最终SLU模型。如前所述,最终SLU模型所要识别的语义实体可以采取不同的形式:在完整转录本内,实体仅按口语顺序,或者实体仅按字母顺序。
示例训练端到端SLU模型
使用上文所述的训练过程,在各种实施例中,提供了尝试直接识别语音中的实体的端到端SLU系统的两个变体,而无需中间的文本生成和基于文本的实体检测。作为示例,可以使用可以是来自联盟的公共可用的语料库的数据库,同时将理解的是也可以使用其他数据。
在一个实施例中,SLU数据和评估指标方法与标准训练和测试集合一起使用。仅作为说明性示例而非限制性,使用来自一个数据集中的A类(即上下文无关的)训练数据的4978个训练话语以及来自其他数据集的893个测试话语。
在本示例中,4976个训练话语包括来自355个说话者的9.64小时的音频。893个测试话语包括来自55个说话者的1.43小时的音频。为了更好地训练所提出的E2E模型,可以使用速度/节奏扰动创建附加的语料库副本。在数据增强之后的最终训练语料库是140小时的音频数据。用F1分数测量插槽填充性能。当使用语音输入而不是文本时,可能出现单词错误。F1分数规定插槽标签和值都是正确的。例如,如果参考是toloc.cityname:NewYork,而解码输出是toloc.cityname:York,则SLU引擎计数假否定和假肯定两者。在一个实施例中,仅产生正确的插槽标签是不够的:对于正被识别的语义实体值(York)的部分没有给出“部分信用”。该评分可以忽略实体的顺序,并且因此适用于“实体包”情况。
在一个实施例中,使用基于连接机制时间分类(CTC)的SLU模型。为了允许SLU模型独立于外部语言模型来处理实体和对应值,可以在通用ASR数据上构造单词CTC模型。仅作为示例而非限制,可使用300小时的预定的类型的数据,诸如开关板(SWB-300)数据。如本领域中已知的,SWB-300是用于语音识别的现成的公共数据。在各种实施例中,不同的训练方法可以用于训练基于CTC的SLU模型。
第一实验假定针对SLU数据的逐字转录本和实体标签都是可用的。对此,使用上文所述的所有三个训练模块。作为示例而非限制,ASR-SLU适配步骤可以如下执行。ASR模型的估计了18324个单词目标和空白符号的分数的输出层被替换为估计18642个单词/实体目标和空白的分数的随机初始化的输出层。剩余的6个LSTM层(每个方向具有640个单元)和具有256个单元的完全连接瓶颈层的权重保持相同。然后该模型在300小时的第一类型数据(诸如SWBGP-ASR数据)和140小时的第二类型的数据(诸如干净的第二类型的数据)的组合数据集上训练。注意的是,在该步骤中,虽然输出层具有用于实体标签的单元,但是训练目标仅是单词。在联合ASR+SLU步骤中,实体标签被引入到训练转录本中,并且联合ASR-SLU模型在SWB+SLU数据上训练,从来自ASR-SLU适配步骤的最终权重开始。在第三和最终微调SLU步骤中,联合ASR-SLU模型仅在140小时的SLU数据上进行微调。
图3A提供了使用CTC和基于注意力的模型的对语音输入的实体包插槽填充F1分数的评估的汇总表。在图3A的表中的实验[1A]中,在干净的测试数据上评估实验[1A]的完整转录本模型。鉴于SLU模型是单词CTC模型,在解码时不使用外部语言模型(LM);相反,采用输出的简单贪婪解码。该初始模型对于正确地检测实体标签及其值具有91.7的F1分数。
在实验[2A]中,利用完整逐字转录本以及实体标签的开发了类似SLU模型,但是ASR-SLU适配模块和联合ASR+SLU适配模块被跳过。该模型用预先经训练的SWB ASR模型初始化,并且SLU模型被直接训练。该模型也实现了91.7F1分数,从而表明可能不总是需要课程学习步骤。
在图3A的下一组实验中,针对训练过程分析了逐字转录本的重要性。在实验[1A]的联合ASR+SLU模块之后,在实验[3A]中,SLU模型被训练成仅识别在口语顺序中语义实体标签及其值。观察到,在口语顺序语义实体上训练的模型(没有完整的逐字逐句转录本)学习忽略信号中不是实体值的单词,同时仅保留语义实体值及其标签。该SLU模型执行略好于[1A]中的完整转录本模型。
该实验在实验[4A]中通过完全去除在训练过程中使用转录本而扩展。该SLU模型在用预先经训练的ASR模型初始化之后,被直接训练来识别实体标签及其值,而无需任何课程学习步骤或逐字转录本。表300A指示模型在性能上略有下降,但是与基线系统保持一致。
最后,SLU系统在识别按字母顺序排序的实体标签及其值的更加困难的任务上训练。在实验[1A]的联合ASR+SLU模块之后,在实验[5A]中,训练仅识别语义实体标签及其值的SLU模型,但是现在按字母顺序。
在实验[6A]中,训练与[5A]类似的模型,但是没有任何课程学习步骤。例如,课程学习步骤涉及在完整转录本上预先训练ASR模型并使用该模型来初始化SLU模型。在这一任务上,CTC模型的性能显著下降,因为它不能从不按口语顺序重新排序的目标中有效地学习。通过课程学习步骤,[5A]中的结果更好,但是仍比基线差。评估基于注意力的SLU模型
在一个实施例中,用于SLU的注意力模型是用为标准开关板ASR任务开发的ASR模型来初始化的。该模型使用编码器-解码器架构,其中编码器是使用批量归一化、剩余连接和线性瓶颈层的8层长短期记忆网络(LSTM)堆栈。解码器对在字符上估计的字节对编码(BPE)单元的序列进行建模,并且包括2个单向LSTM层。一个是专用的类似语言模型的部件,其仅对嵌入的预测符号序列进行操作,而另一个联合地处理声学和符号信息。在一个示例中,解码器应用附加的、位置感知的注意力,并且每层具有768个单向LSTM节点。利用各种正则化技术(包含SpecAugment、序列-噪声注入、速度-节奏增强和各种随机失活方法)可使用该单头序列到序列模型来引起高级语音识别性能。
为了识别实体,遵循上文讨论的模块,ASR模型类似于CTC模型被适配。与使用单词单元的CTC模型相比,在一个实施例中,注意力模型使用更小的库存(例如,600个BPE)单元并依赖于解码器LSTM来建模更长的序列——基于注意力的模型具有固有的长跨度语言模型。在初始ASR模型在开关板上训练之后,随后的适配和转移学习步骤仅使用没有任何开关板数据的数据。因为注意力模型在子单词水平操作,并且出现在转录本中的所有新单词可以使用这些子单词单元来建模,所以在第一ASR-SLU适配步骤中不需要输出和嵌入层的扩展。为了简单起见,跳过联合ASR+SLU模块,并且SLU引擎可以直接进入到微调SLU模块,其中,解码器的输出层和嵌入层用语义实体标签进行扩展。对应于语义实体标签的softmax层和嵌入权重被随机初始化,而对应于softmax层和嵌入层中的先前已知符号的所有其他参数(包括权重)从ASR模型中被复制。不具有词汇外的单词,子单词水平模型可能非常适合于用上面讨论的“以自然口语顺序的实体”示例230直接开始适配过程。在本示例中,所有适配步骤使用5个训练时期。
在实验[6A]中,图3A的表显示了对于基于注意力的SLU模型的插槽填充F1分数。在实验[1A]中,在开关板300h上训练的基于注意力的ASR模型首先在干净的数据上适配以创建特定域的ASR模型。在测试集合上,使用基本SWB-300模型的单词错误率(WER)是约7.9%,其在适配之后改进为0.6%。然后该ASR模型被用作用于转移学习的初始模型以创建SLU模型。F1分数与CTC模型的分数是相当的。
在图3A中的表的实验[2A]中,ASR适配步骤被跳过并且SWB-300ASR模型被直接用于初始化SLU模型训练。在这种情况下,F1分数没有退化。无论模型是用通用SWB-300ASR模型(WER=7.9%)初始化还是用域适配ASR模型(WER=0.6%)初始化,在SLU性能上没有差异。
在图3A中的表的实验[4A]考虑了训练转录质量或细节的影响。在本示例中,使用仅包括按口语顺序([4A])的实体的转录本,获取基本上类似于使用表3A的实验[1A]的完整转录本的F1分数。当训练转录本包括按字母顺序(即可能与口语顺序不同)的实体时,实验[6A]表明F1分数存在2%的退化,即从92.9至90.9。该结果比CTC模型的结果(73.5)好得多,反映了基于注意力的模型的重新排序功能。如前所述,添加如图3A的实验[3A]和[5A]中提供的具有逐字转录本的ASR模型适配的额外步骤几乎不产生差异。
现在,参考图4至图6,这些图分别显示了三种不同的注意力模型对于话语“Iwould like to make a reservation for a flight to Denver from Philadelphia onthis coming Sunday”的注意力图。更具体地,图4示出了使用ASR模型的话语的注意力图;图5示出了按口语顺序使用SLU的话语的注意力图;以及图6示出了按字母顺序使用SLU的话语的注意力图。
如图5所示,对话语的注意力很大程度上与在与语义实体中的关键词的BPE单元对应的音频信号的连续部分的注意力呈单调性。存在反映跳过非实体单词的间隙。
如图6所示,对话语的注意力是分段单调的,其中单调区域覆盖关键词内的BPE单元。由于语义实体以不同于口语顺序的顺序给出,所以该图显示了模型如何将语音信号的正确部分与语义实体相关联起来。此外,在大约2秒处,注意力给给予短语“make areservation”,该短语预测句子的总体意图“flight”。
现在参考图3B,其提供了针对具有加性的街道噪声(5dB SNR)的语音输入的实体包插槽填充F1分数的汇总表300B。更具体地,将有噪声的语料库用作SLU数据集,并且重复在图3A的背景下进行的基于CTC的实验。这组实验用训练和测试中的实际噪声为训练过程引入了附加的可变性。此外,它增加了转移模型和目标域之间的声学失配。在图3A的表300A中观察到的CTC模型的总体趋势也在图3B的表300B中观察到:(a)基于ASR转录本的课程训练是有效的;以及(b)能够按口语顺序很好地识别实体标签,但是当语义实体顺序不同时性能可能更差。在如[2B]中的实验中,SLU数据与ASR数据之间的失配影响仅用失配的预训练模型来初始化并且没有其他适配步骤的模型的性能。与匹配条件下的性能结果相比,噪声失真通常导致这些系统的性能下降。
如图3B的表300B的示例中所示,对于更详细地基于注意力的SLU模型,当在完整转录本上训练的模型(例如,[1B]F1=92.0)与按字母顺序在实体上训练的模型([6B]F1=87.7%)比较时,F1分数存在4.3%的绝对退化。虽然这是性能的下降,但它大幅度上好于([6B]F1=68.5)的CTC结果。与干净的语音条件相比,可以得出关于ASR适配的效用的不同结论。当适配的ASR模型而不是基本SWB-300模型用于初始化SLU模型训练时,F1分数有大约1%的改进。在有噪声的测试集合上,使用基础SWB-300模型导致WER=60%,而在有噪声的数据上适配的ASR模型提供WER=5%。显著地,由于使用这两种非常不同的ASR模型来初始化SLU模型训练,最终模型的F1分数差异仅达到1%。
图3C显示了用于训练用于初始化SLU训练的ASR模型的数据量如何影响最终F1分数的表300C。表300C显示了针对干净(即非噪声)语音按口语顺序在实体上训练的基于注意力的SLU模型的结果。在图3C的示例中,对于初始ASR模型,使用2000h而不是300h将F1分数改进了大约1%。这可能是由于该模型对于未看见数据增加的鲁棒性:该测试集合上的未适配的WER是3.1%(SWB2000h)对7.9%(SWB300h)。相比之下,当SLU模型直接从头训练(例如,从随机参数训练,而不从预训练的ASR模型初始化)时,实验提供了约F1=78.1。当SLU数据有限时,这些实验表明在广泛范围的语音数据上的ASR预训练的重要性,不一定与最终SLU任务相关。
因此,本文的教导表明,可以在没有逐字转录本的情况下成功地构造各种E2E SLU模型。基于本文的教导,类似的结果可以用基于神经网络的其他E2E SLU模型获取,包括其他序列转导模型诸如RNN-T(递归神经网络换能器)和基于变换器的模型。在一个方面,使用预训练的声学模型和课程学习来训练这些系统。使用干净和有噪声的数据版本,解释实体顺序和声学失配对这些系统的性能的影响。本文所讨论的E2E系统是在没有逐字转录本的情况下训练的,并且即使在其中实体不一定按口语顺序给出的转录本上进行训练,也能够可靠地预测实体。本教导提供了用于在实际设置中训练更好的SLU系统的有用见解,其中完整转录本通常不可用于训练,并且最终SLU系统将部署在噪声的声学环境中。虽然我们已经呈现了在一个类型的训练数据(图2中的210、220、230、240)上训练SLU的实施例的细节,但是还可以在不同类型的训练数据(210、220、230、240)的组合上训练SLU。
示例过程
利用示例架构100和图3A至图3C的不同训练方法的前述综述,现在考虑示例过程的高水平讨论可能是有帮助的。为此,图7A和图8A呈现了与说明性实施例得分别在训练阶段和活动阶段期间的端到端口语理解系统的说明性过程700和760一致。过程700和760被示为逻辑流程图中的方框的集合,其表示可在硬件、软件或其组合中实现的操作的序列。在软件环境中,方框表示当由一个或多个处理器执行时执行所述操作的计算机可执行指令。总体来说,计算机可执行指令可以包括执行功能或实现抽象数据类型的例程、程序、对象、部件、数据结构等。在每个过程中,描述操作的顺序不旨在被解释为限制,并且任何数量的所描述的方框可以任何顺序组合和/或并行执行以实现该过程。出于讨论的目的,参考图1的架构100描述过程700和760。
图7A的过程700表示口语理解系统的训练阶段。在方框702,通过网络106从一个或多个用户设备102(1)至102(N)中获取口语数据105(1)。口语数据(例如,105(1)至105(N))包括(i)音频语音记录和(ii)每个对应语音记录的一组语义实体和/或总体意图。在一个实施例中,语义实体不包括音频语音记录的转录本。在其他实施例中,在被存储在历史数据存储库112中之前或者稍后在从历史数据存储库112接收到数据时,转录本被过滤出(例如,由SLU引擎103)。换言之,从语义实体提取实体标签/值和意图标签而无需语音记录的逐字转录本。例如,从书面转录本(如果提供的话)中提取实体标签/值和意图标签,并且去除除了实体标签/值和意图标签之外的术语。
在方框706,口语数据被存储在存储库中,该存储库可以是SLU服务器的存储器和/或历史数据存储库112。
在方框708,SLU引擎103从存储库112接收历史数据113作为训练数据。训练数据的每个语义实体不需要包括对应音频语音记录的转录本。在各种实施例中,训练数据的接收可以在预定的间隔或在触发事件(诸如在数据存储库112中可用的新口语数据的阈值数量)时进行。
在方框710,基于历史数据的实体标签/值和意图标签来训练SLU模型。显著地,训练不需要包括对应口语的逐字转录本。
在活动阶段期间,经训练的SLU模型可以用于确定口语的含义,如以下通过示例的方式所讨论的。
在方框762,SLU引擎103通过网络106从用户设备(例如,102(1))接收原始口语数据。
在方框764,经训练的SLU模型用于识别原始口语数据的一个或多个语义实体和/或意图,而无需音频语音记录的转录本。在一个实施例中,音频语音记录和原始口语数据的语义实体和/或意图集合存储在历史数据存储库中,而没有其转录本。以此方式,训练集合可以被连续地改进,同时避免存储对话的对SLU模型的训练来说不足够显著的参数。
示例计算机平台
如以上所讨论的,如图1中所示,并且根据图7A和7B的过程700和760,与训练SLU模型和确定话语的含义有关的功能可以使用经由无线或有线通信连接用于数据通信的一个或多个计算设备来执行。图8提供了可以用于实现可以托管SLU引擎840的特定配置的计算设备的计算机硬件平台800的功能方框图说明。具体地,图8示出了可以用于实现适当配置的服务器(诸如图1的SLU服务器116)的网络或托管计算机平台800。
计算机平台800可以包括连接到系统总线802的中央处理单元(CPU)804、硬盘驱动器(HDD)806、随机存取存储器(RAM)和/或只读存储器(ROM)808、键盘810、鼠标812、显示器814和通信接口816。
在一个实施例中,HDD 806具有包括存储能够以本文所描述的方式执行各种处理的程序(诸如SLU引擎840)的功能。SLU引擎840可以具有配置为执行不同功能的各种模块,诸如在图1和其他背景下论述的那些模块。例如,可存在用于获取在用户与管理员和/或聊天机器人之间的会话的会话模块842。可存在用于将语音内容转换成文本的文本处理模块844。可存在过滤模块,该过滤模块用于提取书面转录本(如果提供的话)中的实体标签和意图标签并且去除所有其他术语。可存在意图适配模块848,其用于将按随机或字母顺序的语义实体转换成口语顺序,以用于进一步处理。可存在ASR-SLU适配模块850和/或ASR+SLU适配模块852以执行本文所描述的功能。可以存在微调模块854,其用于与ASR-SLU适配模块850和/或ASR+SLU适配模块852协作,以对模型进行微调以创建最终SLU模型。可存在意图模块856,其用于在活动阶段期间确定话语的意图,而不需要话语的转录本。
虽然模块842至856在图8中被示为HDD 806的一部分,但是在一些实施例中,这些模块中的一个或多个可以在计算设备800的硬件中实现。例如,本文所讨论的模块可以以部分硬件和部分软件的形式来实现。即图8中所示的SLU引擎840的部件中的一个或多个部件可以以具有晶体管、二极管、电容器、电阻器、电感器、变容二极管和/或忆阻器的电子电路的形式来实现。换言之,SLU引擎840可以用执行本文所描述的特定任务和功能的一个或多个专门设计的电子电路来实现。
在一个实施例中,可以存储用于将系统作为Web服务器进行操作的程序。在一个实施例中,HDD806可以存储包括一个或多个库软件模块的执行的应用,该库软件模块在有或没有虚拟机的辅助的情况下、用脚本语言或以另一方式执行。
示例云平台
如以上所讨论的,与管理一个或多个客户端域的合规性有关的功能可以包括云200(参见图1)。应当理解的是,虽然本公开包括关于云计算的详细描述,但是本文所述的教导的实现不限于云计算环境。相反,本公开的实施例能够结合现在已知的或稍后开发的任何其他类型的计算环境来实现。
云计算是服务传递的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,可配置计算资源可以以最小的管理精力或与该服务的提供者的交互来快速提供和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以根据需要自动单方面地提供计算功能,诸如服务器时间和网络存储,而不需要与服务的提供者进行人类交互。
广泛的网络访问:功能可通过网络获得并且通过标准机制访问,该标准机制促进异构薄客户端平台或厚客户端平台(例如,移动电话、笔记本电脑和PDA)的使用。
资源池:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需求被动态地指派和重新指派。存在位置独立性的感觉,因为消费者总体上不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象水平(例如,国家、州或数据中心)指定位置。
快速弹性:可以快速和弹性地提供功能,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于提供的功能通常貌似是无限的,并且可以在任何时间以任何数量购买。
测量的服务:云系统通过在适当服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象水平处利用计量功能来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所使用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的功能是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的薄客户端接口从各种客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用功能的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的功能是将消费者创建的或获取的应用部署到云基础设施上,该应用是使用由提供者支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是具有对所部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的功能是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,该软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选网络部件(例如,主机防火墙)的可能有限的控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于内部或外部。
社区云:云基础设施被若干组织共享并支持具有共享的关注点(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于内部或外部。
公共云:使云基础设施可用于公众或大型工业组,并且由出售云服务的组织拥有。
混合云:云基础设施是两个或更多个云(私有、社区或公共)的组合,这些云保持独特的实体但通过标准化或使数据和应用能够移植的专有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点的网络的基础设施。
现在参考图9,描绘了说明性云计算环境900。如图所示,云计算环境900包括由云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点910,本地计算设备例如个人数字助理(PDA)或蜂窝电话954A、台式计算机954B、笔记本电脑954C和/或汽车计算机系统954N。节点910可以彼此通信。它们可以在一个或多个网络中,诸如如上文所述的私有云、社区云、公共云或混合云、或其组合中进行物理或虚拟分组(未显示)。这允许云计算环境950提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解的是,图9中所示的计算设备954A-N的类型旨在仅是说明性的,并且计算节点910和云计算环境950可通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
现在参考图10,示出了由云计算环境950(图9)提供的一组功能抽象层。应提前理解的是,图10中所示的部件、层和功能仅旨在是说明性的,并且本公开的实施例不局限于此。如所描绘的,提供了以下层和对应功能:
硬件和软件层1060包括硬件和软件部件。硬件部件的示例包括:大型机1061;基于RISC(精简指令集计算机)架构的服务器1062;服务器1063;刀片式服务器1064;存储设备1065;以及网络和网络部件1066。在一些实施例中,软件部件包括网络应用服务器软件1067和数据库软件1068。
虚拟化层1070提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器1071;虚拟存储1072;虚拟网络1073,包括虚拟私有网络;虚拟应用和操作系统1074;以及虚拟客户端1075。
在一个示例中,管理层1080可以提供以下描述的功能。资源提供1081提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价1082在云计算环境内利用资源时提供成本跟踪,并为这些资源的消耗开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户1083为消费者和系统管理员提供对云计算环境的访问。服务水平管理1084提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行1085提供云计算资源的预安排和采购,根据SLA预期云计算资源的未来要求。
工作负载层1090提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:地图和导航1091;软件开发和生命周期管理1092;虚拟教室教育传递1093;数据分析处理1094;交易处理1095和SLU引擎1096,如本文所讨论的。
结论
已经出于说明的目的呈现了本教导的各种实施例的描述,但并不旨在详尽或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下,许多修改和变体对于本领域普通技术人员来说将是显而易见的。本文使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解本文公开的实施例。
虽然上文已描述了被视为最佳状态和/或其他示例的内容,但应理解的是,可在其中进行各种修改,且本文所公开的主题可在不同形式和示例中实现,且教导可应用于许多应用中,本文仅描述了其中的一些应用。所附权利要求旨在要求落入本教导的真实范围内的任何和所有应用、修改和变体。
本文已经讨论的部件、步骤、特征、对象、益处和优点仅是说明性的。它们以及与其有关的讨论都不旨在限制保护范围。虽然本文已经讨论了各种优点,但是将理解的是,并非所有实施例都必须包括所有优点。除非另外说明,否则在本说明书(包括在所附权利要求书中)中阐述的所有测量、值、评分、位置、幅值、大小、以及其他规范都是近似的、不确切的。它们旨在具有与它们有关的功能以及与它们所属领域惯用的功能相一致的合理范围。
还构想了许多其他实施例。这些实施例包括具有更少的、附加的和/或不同的部件、步骤、特征、对象、益处和优点的实施例。这些实施例还包括部件和/或步骤被不同地安排和/或排序的实施例。
本文中参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述本公开的各方面。应当理解的是,流程图图示和/或框图的每个方框以及流程图图示和/或框图中各方框的组合,可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给适当配置的计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储媒质中,这些指令可以指导计算机、可编程数据处理装置、和/或其他设备以某种方式工作,从而其中存储有指令的计算机可读存储媒质包括制造品,该制造品包括实现流程图和/或框图中的一个或多个方框中指定的功能/动作的各方面的指令。
计算机可读程序指令也可以加载到计算机、其他可编程数据处理装置、或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中指定的功能/动作。
本文图中的调用流程、流程图和框图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可表示指令的模块、分段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代的实现中,方框中标注的功能可以不按图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个方框实际上可以基本上同时执行,或者这些方框有时可以按相反的顺序执行。也要注意的是,框图和/或流程图图示中的每个方框、以及框图和/或流程图图示中的方框的组合,可以用执行指定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
虽然已经结合示例性实施例描述了上文,但是应当理解的是,术语“示例性的”仅意味着作为示例,而非最佳或者最优。除了以上直接说明的之外,已经说明或示出的任何内容都不旨在或不应该被解释为导致向公众奉献任何部件、步骤、特征、对象、益处、优点或等效物,无论它是否在权利要求中陈述。
应当理解的是,本文所使用的术语和表达具有对应的相应查询和研究领域所赋予的这些术语和表达的普通含义,除非本文另外阐述了具体含义。诸如第一和第二等之类的关系术语可仅用来将一个实体或动作与另一实体或动作区分开来,而不必要求或暗示这些实体或动作之间的任何实际关系或顺序。术语“包括(comprises)”、“包括(comprising)”或其任何其他变体旨在覆盖非排他性的包括,从而包括一系列元件的过程、方法、物品或装置不仅仅包括那些元件,而且还可以包括未明确列出的或对此类过程、方法、物品或装置固有的其他元件。在没有进一步限制的情况下,由“一个(a)”或“一个(an)”开始的元件不排除在包括该元件的过程、方法、物品或装置中存在附加的相同元件。
提供本公开的摘要以允许读者快速确定本技术公开的本质。在理解其不用于解释或限制权利要求的范围或含义的情况下提交。此外,在以上详细描述中,可以看出,出于精简本公开的目的,各种特征在各种实施例中被组合在一起。本公开的方法不应被解释为反映所要求保护的实施例具有比每个权利要求中明确叙述的更多的特征的意图。相反,如以下权利要求所反映的,发明主题在于少于单个公开的实施例的所有特征。因此,以下权利要求由此纳入详细描述中,其中每个权利要求作为单独的权利要求主题而独立存在。
Claims (20)
1.一种计算设备,包括:
处理器;
网络接口,其耦合到所述处理器以能够通过网络进行通信;
引擎,其被配置为执行动作,所述动作包括,在训练阶段期间:
通过所述网络接收自然语言训练数据,所述自然语言训练数据包括(i)一个或多个语音记录,以及(ii)每个对应语音记录的一组语义实体和/或总体意图;
对于每个语音记录,从所述对应语义实体和/或总体意图中提取(i)一个或多个实体标签和对应值,以及(ii)一个或多个意图标签;和
基于所述对应语音记录的所述一个或多个实体标签和对应值以及一个或多个意图标签来训练口语理解(SLU)模型,而无需所述对应语音记录的转录本。
2.根据权利要求1所述的计算设备,其中所述语义实体不按口语顺序。
3.根据权利要求2所述的计算设备,其中所述语义实体按字母顺序。
4.根据权利要求2所述的计算设备,其中所述自然语言训练数据基于不同类型的训练数据的组合。
5.根据权利要求2所述的计算设备,其中所述引擎还被配置为执行动作,所述动作包括执行预处理对齐以将所述语义实体对齐为口语顺序。
6.根据权利要求1所述的计算设备,其中所述训练数据基于用户和帮助所述用户执行任务的管理员之间的交易数据。
7.根据权利要求1所述的计算设备,其中所述训练数据包括交易数据的记录,所述交易数据包括实体包。
8.根据权利要求1所述的计算设备,其中所述一个或多个实体标签和对应值、以及所述一个或多个意图标签的提取是通过神经网络处理进行的,所述神经网络包括连接机制时间分类(CTC)、递归神经网络换能器(RNN-T)、或基于注意力的编码器-解码器神经网络中的至少一个。
9.根据权利要求1所述的计算设备,其中所述训练涉及转移学习,所述转移学习包括用自动语音识别(ASR)模型来初始化所述SLU模型。
10.根据权利要求1所述的计算设备,其中所述SLU引擎还被配置为执行动作,所述动作包括,在活动阶段期间:
接收包括音频语音记录而没有所述音频语音记录的转录本的原始口语数据;和
使用经训练的SLU模型来识别所述原始口语数据的含义,其中所述含义包括所述原始口语的意图和语义实体。
11.一种有形地体现计算机可读程序代码的非暂时性计算机可读存储媒质,所述计算机可读程序代码具有计算机可读指令,所述计算机可读指令在被执行时使计算机设备执行训练口语理解(SLU)模型的方法,所述方法包括:
接收自然语言训练数据,所述自然语言训练数据包括(i)一个或多个语音记录,以及(ii)每个对应语音记录的一组语义实体和/或总体意图;
对于每个语音记录,从所述对应语义实体和/或总体意图中提取(i)一个或多个实体标签和对应值,以及(ii)一个或多个意图标签;和
基于所述对应语音记录的所述一个或多个实体标签和对应值以及所述一个或多个意图标签来训练口语理解(SLU)模型,而无需所述对应语音记录的转录本。
12.根据权利要求11所述的非暂时性计算机可读存储媒质,其中所述语义实体不按口语顺序。
13.根据权利要求12所述的非暂时性计算机可读存储媒质,其中所述自然语言训练数据基于不同类型的训练数据的组合。
14.根据权利要求13所述的非暂时性计算机可读存储媒质,所述方法还包括执行预处理对齐以将所述语义实体对齐为口语顺序。
15.根据权利要求11所述的非暂时性计算机可读存储媒质,其中所述训练数据基于用户与帮助所述用户执行任务的管理员之间的交易数据。
16.根据权利要求11所述的非暂时性计算机可读存储媒质,其中所述训练数据包括交易数据的记录,所述交易数据包括实体包。
17.根据权利要求11所述的非暂时性计算机可读存储媒质,其中所述一个或多个实体标签和对应值、以及所述一个或多个意图标签的提取是通过神经网络处理进行的,所述神经网络包括连接机制时间分类(CTC)、递归神经网络换能器(RNN-T)或基于注意力的编码器-解码器神经网络中的至少一个。
18.根据权利要求11的非暂时性计算机可读存储媒质,其中所述训练涉及转移学习,所述转移学习包括用自动语音识别(ASR)模型来初始化所述SLU模型。
19.根据权利要求11所述的非暂时性计算机可读存储媒质,所述方法还包括,在活动阶段期间:
接收包括音频语音记录而没有所述音频语音记录的转录本的原始口语数据;和
使用经训练的SLU模型来识别所述原始口语数据的含义,其中所述含义包括所述原始口语的意图和语义实体。
20.一种计算机实现的方法,包括:
接收自然语言训练数据,所述自然语言训练数据包括(i)一个或多个语音记录,以及(ii)每个对应语音记录的一组语义实体和/或总体意图;
对于每个语音记录,从所述对应语义实体和/或总体意图中提取(i)一个或多个实体标签和对应值,以及(ii)一个或多个意图标签;和
基于所述对应语音记录的所述一个或多个实体标签和对应值以及一个或多个意图标签来训练口语理解(SLU)模型,而无需所述对应语音记录的转录本。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/021,956 US11929062B2 (en) | 2020-09-15 | 2020-09-15 | End-to-end spoken language understanding without full transcripts |
US17/021,956 | 2020-09-15 | ||
PCT/CN2021/108871 WO2022057452A1 (en) | 2020-09-15 | 2021-07-28 | End-to-end spoken language understanding without full transcripts |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116686045A true CN116686045A (zh) | 2023-09-01 |
Family
ID=80626962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180054079.4A Pending CN116686045A (zh) | 2020-09-15 | 2021-07-28 | 在没有完整转录本的情况下的端到端口语理解 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11929062B2 (zh) |
JP (1) | JP2023541651A (zh) |
CN (1) | CN116686045A (zh) |
DE (1) | DE112021004829T5 (zh) |
GB (1) | GB2614208A (zh) |
WO (1) | WO2022057452A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220319494A1 (en) * | 2021-03-31 | 2022-10-06 | International Business Machines Corporation | End to end spoken language understanding model |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249637A1 (en) * | 2003-06-04 | 2004-12-09 | Aurilab, Llc | Detecting repeated phrases and inference of dialogue models |
US7742911B2 (en) * | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
US8185399B2 (en) * | 2005-01-05 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method of providing an automated data-collection in spoken dialog systems |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7574358B2 (en) | 2005-02-28 | 2009-08-11 | International Business Machines Corporation | Natural language system and method based on unisolated performance metric |
CN101370026B (zh) * | 2007-08-17 | 2011-05-18 | 华为技术有限公司 | 多媒体会话的媒体流增加方法和用户设备及应用服务器 |
US20090132252A1 (en) | 2007-11-20 | 2009-05-21 | Massachusetts Institute Of Technology | Unsupervised Topic Segmentation of Acoustic Speech Signal |
US20110307252A1 (en) * | 2010-06-15 | 2011-12-15 | Microsoft Corporation | Using Utterance Classification in Telephony and Speech Recognition Applications |
US20130317818A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Rochester | Systems and Methods for Captioning by Non-Experts |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
US20150294590A1 (en) * | 2014-04-11 | 2015-10-15 | Aspen Performance Technologies | Neuroperformance |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US11106683B2 (en) * | 2017-08-25 | 2021-08-31 | Accenture Global Solutions Limited | System architecture for interactive query processing |
US11081106B2 (en) * | 2017-08-25 | 2021-08-03 | Microsoft Technology Licensing, Llc | Contextual spoken language understanding in a spoken dialogue system |
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
US11514333B2 (en) * | 2018-04-30 | 2022-11-29 | Meta Platforms, Inc. | Combining machine-learning and social data to generate personalized recommendations |
US10679613B2 (en) * | 2018-06-14 | 2020-06-09 | Accenture Global Solutions Limited | Spoken language understanding system and method using recurrent neural networks |
US11194974B2 (en) * | 2018-08-09 | 2021-12-07 | Nec Corporation | Teaching syntax by adversarial distraction |
US11170761B2 (en) * | 2018-12-04 | 2021-11-09 | Sorenson Ip Holdings, Llc | Training of speech recognition systems |
CA3134607A1 (en) * | 2019-03-28 | 2020-10-01 | Liveperson, Inc. | Dynamic message processing and aggregation of data in messaging |
US11615785B2 (en) * | 2019-05-10 | 2023-03-28 | Robert Bosch Gmbh | Speech recognition using natural language understanding related knowledge via deep feedforward neural networks |
CN110287283B (zh) | 2019-05-22 | 2023-08-01 | 中国平安财产保险股份有限公司 | 意图模型训练方法、意图识别方法、装置、设备及介质 |
US10635751B1 (en) * | 2019-05-23 | 2020-04-28 | Capital One Services, Llc | Training systems for pseudo labeling natural language |
US11475883B1 (en) * | 2019-05-29 | 2022-10-18 | Amazon Technologies, Inc. | Natural language dialog scoring |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
US20210086070A1 (en) * | 2019-09-24 | 2021-03-25 | Nvidia Corporation | Voice command interface for video games |
WO2021072013A1 (en) * | 2019-10-08 | 2021-04-15 | Pricewaterhousecoopers Llp | Intent-based conversational knowledge graph for spoken language understanding system |
CN110853626B (zh) | 2019-10-21 | 2021-04-20 | 成都信息工程大学 | 基于双向注意力神经网络的对话理解方法、装置及设备 |
CN110838288B (zh) | 2019-11-26 | 2022-05-06 | 杭州博拉哲科技有限公司 | 一种语音交互方法及其系统和对话设备 |
US11615239B2 (en) * | 2020-03-31 | 2023-03-28 | Adobe Inc. | Accuracy of natural language input classification utilizing response delay |
US11934403B2 (en) * | 2020-05-18 | 2024-03-19 | Salesforce, Inc. | Generating training data for natural language search systems |
US11531822B1 (en) * | 2020-06-30 | 2022-12-20 | Amazon Technologies, Inc. | Training models and using the trained models to indicate staleness of content items |
US11574637B1 (en) * | 2020-09-08 | 2023-02-07 | Amazon Technologies, Inc. | Spoken language understanding models |
-
2020
- 2020-09-15 US US17/021,956 patent/US11929062B2/en active Active
-
2021
- 2021-07-28 CN CN202180054079.4A patent/CN116686045A/zh active Pending
- 2021-07-28 GB GB2305141.0A patent/GB2614208A/en active Pending
- 2021-07-28 WO PCT/CN2021/108871 patent/WO2022057452A1/en active Application Filing
- 2021-07-28 JP JP2023516841A patent/JP2023541651A/ja active Pending
- 2021-07-28 DE DE112021004829.5T patent/DE112021004829T5/de active Pending
Also Published As
Publication number | Publication date |
---|---|
US11929062B2 (en) | 2024-03-12 |
GB2614208A (en) | 2023-06-28 |
DE112021004829T5 (de) | 2023-06-29 |
WO2022057452A1 (en) | 2022-03-24 |
GB202305141D0 (en) | 2023-05-24 |
JP2023541651A (ja) | 2023-10-03 |
US20220084508A1 (en) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019347734B2 (en) | Conversational agent pipeline trained on synthetic data | |
US10593333B2 (en) | Method and device for processing voice message, terminal and storage medium | |
CN106796787B (zh) | 在自然语言处理中使用先前对话行为进行的语境解释 | |
US9818409B2 (en) | Context-dependent modeling of phonemes | |
Eyben et al. | openSMILE:) The Munich open-source large-scale multimedia feature extractor | |
US9460088B1 (en) | Written-domain language modeling with decomposition | |
US11580959B2 (en) | Improving speech recognition transcriptions | |
US9594744B2 (en) | Speech transcription including written text | |
US11443227B2 (en) | System and method for cognitive multilingual speech training and recognition | |
US20200143799A1 (en) | Methods and apparatus for speech recognition using a garbage model | |
US11605385B2 (en) | Project issue tracking via automated voice recognition | |
US9972308B1 (en) | Splitting utterances for quick responses | |
US11151996B2 (en) | Vocal recognition using generally available speech-to-text systems and user-defined vocal training | |
US8401855B2 (en) | System and method for generating data for complex statistical modeling for use in dialog systems | |
GB2604675A (en) | Improving speech recognition transcriptions | |
CN116601648A (zh) | 备选软标签生成 | |
US20220188525A1 (en) | Dynamic, real-time collaboration enhancement | |
CN116686045A (zh) | 在没有完整转录本的情况下的端到端口语理解 | |
CN109979458A (zh) | 基于人工智能的新闻采访稿自动生成方法及相关设备 | |
Oyucu et al. | Web Service-Based Turkish Automatic Speech Recognition Platform | |
US20220319494A1 (en) | End to end spoken language understanding model | |
US11889168B1 (en) | Systems and methods for generating a video summary of a virtual event | |
US20230081306A1 (en) | Training end-to-end spoken language understanding systems with unordered entities | |
US20230103102A1 (en) | Closed caption content generation | |
CN114283810A (zh) | 改进语音识别转录 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |