CN110379420A - 语言理解系统对声学环境的动态适应 - Google Patents
语言理解系统对声学环境的动态适应 Download PDFInfo
- Publication number
- CN110379420A CN110379420A CN201910180591.8A CN201910180591A CN110379420A CN 110379420 A CN110379420 A CN 110379420A CN 201910180591 A CN201910180591 A CN 201910180591A CN 110379420 A CN110379420 A CN 110379420A
- Authority
- CN
- China
- Prior art keywords
- classifier
- language
- dynamic
- model
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003044 adaptive effect Effects 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000003068 static effect Effects 0.000 claims abstract description 50
- 230000004044 response Effects 0.000 claims abstract description 20
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 26
- 238000003860 storage Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 230000000712 assembly Effects 0.000 description 10
- 238000000429 assembly Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000005303 weighing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000003990 capacitor Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- FARHYDJOXLCMRP-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-1-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]pyrazol-3-yl]oxyacetic acid Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(N1CC2=C(CC1)NN=N2)=O)OCC(=O)O FARHYDJOXLCMRP-UHFFFAOYSA-N 0.000 description 1
- MUTDXQJNNJYAEG-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-3-(dimethylamino)pyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(=O)N1CC2=C(CC1)NN=N2)N(C)C MUTDXQJNNJYAEG-UHFFFAOYSA-N 0.000 description 1
- QEZGRWSAUJTDEZ-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-3-(piperidine-1-carbonyl)pyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(=O)N1CC2=C(CC1)NN=N2)C(=O)N1CCCCC1 QEZGRWSAUJTDEZ-UHFFFAOYSA-N 0.000 description 1
- PQVHMOLNSYFXIJ-UHFFFAOYSA-N 4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-1-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]pyrazole-3-carboxylic acid Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(N1CC2=C(CC1)NN=N2)=O)C(=O)O PQVHMOLNSYFXIJ-UHFFFAOYSA-N 0.000 description 1
- MKYBYDHXWVHEJW-UHFFFAOYSA-N N-[1-oxo-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propan-2-yl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(C(C)NC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 MKYBYDHXWVHEJW-UHFFFAOYSA-N 0.000 description 1
- NIPNSKYNPDTRPC-UHFFFAOYSA-N N-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 NIPNSKYNPDTRPC-UHFFFAOYSA-N 0.000 description 1
- JAWMENYCRQKKJY-UHFFFAOYSA-N [3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-ylmethyl)-1-oxa-2,8-diazaspiro[4.5]dec-2-en-8-yl]-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]methanone Chemical compound N1N=NC=2CN(CCC=21)CC1=NOC2(C1)CCN(CC2)C(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F JAWMENYCRQKKJY-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及语言理解系统对声学环境的动态适应。提供了用于使语言理解系统动态适应于声学环境的技术。实现根据实施例的技术的方法包括响应于在音频流中或在音频流之前识别出语音唤醒关键短语而生成触发。该触发用于将处理模式从自适应模式切换到查询识别模式。该方法还包括在查询识别模式期间对音频流执行自动语音识别,以识别域内查询。该方法还包括将静态语言理解分类器和动态语言理解分类器都应用于识别出的域内查询。静态语言理解分类器采用静态语义模型,并且动态语言理解分类器采用动态语义模型。该方法还包括基于静态语言理解分类器和动态语言理解分类器的结果来确定与识别出的域内查询相关联的意图。
Description
技术领域
本公开涉及语言理解系统对声学环境的动态适应。
背景技术
口语理解系统通常将音频语音查询转换为机器可理解的用户意图,然后可由给定的计算平台对用户意图进行操作。这些系统使用模型进行语音识别和语言理解。通常在从代表性声学环境模拟或收集的数据上训练这些模型。对用于训练的声学环境的选择可以对语言理解系统的准确性具有重大影响。遗憾的是,该训练方式存在许多缺点。首先,它假设用于训练的声学环境将与操作期间的声学环境匹配。其次,它假设操作期间的声学环境是稳定的。然而,在现实世界使用中,这些假设经常是无效的,导致生成次优的模型。尝试生成可以涵盖所有用例的模拟模型训练数据将是耗时、昂贵且不切实际的。因此,系统在可用的相对有限的训练数据上进行训练。因此,当声学环境变化超出所使用的训练模型的范围时,语言理解准确性趋于降低,导致不令人满意的用户体验。
附图说明
随着以下具体实施方式的进行并且在参考附图之后,所要求保护的主题的实施例的特征和优点将而变得显而易见,在附图中相似的数字描述相似的部分。
图1是根据本公开的某些实施例配置的动态自适应语言理解系统的框图。
图2是示出根据本公开的某些实施例配置的动态自适应语言理解系统的实施方式的流程图。
图3是根据本公开的某些实施例配置的自适应口语理解分类器电路的框图。
图4是示出根据本公开的某些实施例配置的动态自适应语言理解系统的实施方式的更详细的流程图。
图5A和图5B是根据本公开的某些实施例的针对变化的声学环境的分类误差与自适应过程的曲线图。
图6是示出根据本公开的某些实施例的语言理解系统的动态自适应方法的流程图。
图7是示意性地示出根据本公开的某些实施例的被配置为执行具有对声学环境的动态适应的语言理解的计算平台的框图。
尽管以下具体实施方式将参考说明性实施例进行,但是其许多替换、修改和变化鉴于本公开将是显而易见的。
具体实施方式
通常,本公开提供了用于使语言理解系统动态适应于变化的声学环境的技术。语言理解系统执行语音识别,以将音频信号变换为一系列识别出的词,然后基于那些识别出的词来估计说话者的意图。然而,声学环境可以包括随时间变化的背景噪声和其他话语/对话,其不针对语言理解系统并且可以不利地影响语言理解系统对来自系统的讲话者或用户的实际查询做出响应的性能。所公开的技术采用静态和动态分类器的组合,其输出被内插,以基于接收到的音频语音信号来估计用户的意图。静态分类器采用预训练的语义模型,而动态分类器采用自适应语义模型,该自适应语义模型可以基于由语音识别引擎在系统操作期间生成的假设而被连续地或周期性地更新。识别假设可以与域外话语和背景噪声以及域内用户查询相关联。通过自适应地更新语义模型,提高了动态分类器的能力,并且因此提高了语言理解系统在变化的环境中区分域外数据与域内查询的能力。
所公开的技术可以例如在计算系统或者可由这样的系统执行或可由这样的系统以其他方式控制的软件产品中实现,但是其他实施例将是显而易见的。该系统或产品被配置为基于声学环境中的变化来动态地改编语言理解系统所使用的语义模型。根据实施例,实现这些技术的方法包括响应于在音频流中识别出语音唤醒关键短语而生成触发。该触发用于将系统的处理模式从自适应模式切换到查询识别模式。在查询识别模式中,对音频流执行自动语音识别以识别域内查询(例如,指导语言理解系统所采取的动作的命令,或者将由语言理解系统回答的问题)。该方法还包括将静态语言理解分类器和动态语言理解分类器都应用于识别出的域内查询。静态语言理解分类器采用静态语义模型,并且动态语言理解分类器采用动态语义模型。该方法还包括用动态语言理解分类器的结果对静态语言理解分类器的结果进行内插,以确定与识别出的域内查询相关联的意图。此外,在自适应模式期间对音频流执行自动语音识别,以生成与拒绝类相关联的音频事件的假设,该拒绝类包括与域外话语和背景噪声相关联的音频。这些假设用于更新动态语义模型。在一些实施例中,还可以基于识别出的域内查询来更新动态语义模型。
如将认识到,与依赖于基于预定义声学环境的模型训练的现有方法相比,通过提供对用户语音的意图的更准确的识别和理解,本文描述的技术可以允许改善的对语言理解系统的用户体验。所公开的技术可以在广泛范围的平台上实现,这些平台包括膝上型计算机、平板计算机、智能电话、工作站、视频会议系统、游戏系统、智能家居控制系统和低功率嵌入式DSP/CPU系统或设备。此外,在一些实施例中,可以完全在本地平台上处理数据以满足隐私和安全要求/约束。这些技术还可以以硬件或软件或其组合来实现。
图1是根据本公开的某些实施例配置的动态自适应语言理解系统100的框图。语言理解系统100被示出为包括语音唤醒(WOV)电路102,自动语音识别(ASR)电路106,自适应语音语言理解(SLU)分类器电路110,以及控制系统应用114。如将在下面更详细地解释的,还示出了WOV模型104(供WOV电路102使用),声学和语言模型108(供ASR电路106使用),以及语义模型112(供自适应SLU分类器电路110使用)。在一些实施例中,如下面结合图7更详细地描述的,可以在计算或通信平台上托管(host)语言理解系统100和一个或多个输入/输出元件。
在高层次,语言理解系统100被配置为接收音频信号120,其包括来自系统用户的语音查询(也称为“域内”数据),并且还可包括背景噪声和其他语音或会话话语(也称为“域外”数据)。音频信号120可以由麦克风或麦克风阵列(例如,配置用于波束成形)或任何其他合适的音频捕获设备提供。
WOV电路102被配置为检测关键短语(例如,“你好计算机”),其通过状态信号122触发ASR电路106,以识别语音查询,例如,“你好计算机,打开灯”。如将在下面更详细地描述的,状态信号122还通过切换处理模式来控制语义模型适应过程。控制系统应用114被配置为基于说话者的意图128来执行动作,说话者的意图128如由自适应SLU分类器电路110基于由ASR电路106生成的假设124来估计。例如,命令“锁门”可以导致伴随有通过适当的控制系统硬件锁门的动作的来自系统的音频确认,诸如“现在锁门”。
在一些实施例中,可以使用其他合适的技术来生成触发和状态信号,例如,检测到用户正在看设备,检测到用户已经拿起设备,或者检测到用户已经按下按钮(例如,按键通话按钮)等。出于本文描述的实施例的目的,可以将检测到这些动作中的任何动作或其他适当事件视为等同于识别出语音唤醒关键短语的唤醒事件。
图2是示出根据本公开的某些实施例配置的动态自适应语言理解系统的事件和控制流程的流程图200。最初,该系统被示出为处于自适应阶段202。在自适应模式期间,ASR电路106为与拒绝类(例如,背景噪声和域外话语)相关联的音频事件生成假设220。这些假设被传递到自适应SLU分类器电路110以供在更新动态语义模型112b时使用,如将在下面更详细地解释的。当WOV电路102检测到WOV关键短语(例如,“你好计算机”或某一其他选中的关键短语)时,触发210被发送到ASR 106并且系统转换到查询识别模式204。ASR然后识别域内查询(例如,“打开灯”)并将该识别230传递到自适应SLU分类器电路110,以确定与识别出的域内查询相关联的意图。然后将意图240传递到控制系统应用114以执行与该意图相关联的动作。在确定意图之后,将触发250发送回WOV电路以重新开始对另一个关键短语的搜索,并且系统转换回自适应模式202。
在一些实施例中,可以基于系统或托管平台的功率预算将自适应模式限制到选定的时间段。例如,可以将自适应设置为每N秒仅发生一次或仅在语音查询识别之前/之后发生。在一些实施例中,可以通过对声学环境中的变化的检测(例如电视关闭并且烹饪/厨房声音开始)或通过一些其他事件检测来触发自适应。ASR结果可以存储在存储器中直到需要时(例如当自适应更新被触发或安排执行时)为止。
图3是根据本公开的某些实施例配置的自适应口语理解分类器电路110的框图。自适应SLU分类器电路110被示出为包括静态语言理解分类器电路302,动态语言理解分类器电路304,内插电路306,以及自适应更新电路308。
静态语言理解分类器电路302被配置为基于识别出的域内查询和相关联的假设124来生成第一意图估计。静态语言理解分类器电路302采用静态语义模型112a,并且例如在将系统供应给用户之前被预先训练。
动态语言理解分类器电路304被配置为基于识别出的域内查询和相关联的假设124来生成第二意图估计。动态语言理解分类器电路304采用动态语义模型112b,这些动态语义模型112b利用预先训练或随机化的值而被初始化然后在操作期间被更新,如下所述。在一些实施例中,鉴于本公开,静态和动态分类器电路可被实现为深度神经网络、递归神经网络、条件随机场、支持向量机或其他合适的机制。
分类器电路对与ASR提供的假设相关联的特征向量进行操作。在一些实施例中,特征向量可以包括词袋(Bag of Words)特征。动态语言理解分类器电路304还可以对由ASR提供的声学置信度测量进行操作。尽管语音识别器通常负责在所有可能性中寻找最佳识别的搜索路径,但是ASR电路106可被配置为通过将搜索空间中的最佳路径与所有其他可能路径进行比较以计算词已被说出的概率来生成声学置信度。在一些实施例中,可以通过将搜索空间限制到最佳结果的子集来接近该概率,以提高效率。
在一些实施例中,声学置信度测量还可以包括附加信息,包括例如能量水平、音高水平(pitch level)和在传统语音识别器所提供的特征中通常不被使得可见的其他韵律(prosodic)信息(例如,音调,重音,节奏,等等)。这些类型的声学置信度测量通常仅在运行时可用,因此通常不能在为静态分类器提供预训练模型时使用。
内插电路306被配置为基于第一意图估计和第二意图估计的组合来确定与识别出的域内查询相关联的意图128。在一些实施例中,可以根据下式使用线性内插来计算意图128:
P(意图|查询)=λP1(意图|查询)+(1-λ)P2(意图|查询)
影响权重λ可以被调整以更加强调静态分类器项P1或自适应分类器项P2,并且可被用于避免过度拟合或重置系统。在一些实施例中,内插电路306可以采用对数线性内插或类约束内插,其可以限制对诸如高噪声环境或语义类之类的异常情况的自适应/更新影响。
在一些实施例中,内插电路还被配置为响应于确定与识别出的查询相关联的意图而将处理模式从查询识别模式切换回自适应模式。
自适应更新电路308被配置为基于与拒绝类中的音频事件相关联的ASR假设124来更新动态语义模型112b,并且在一些实施例中,基于与识别出的域内查询相关联的假设来更新动态语义模型112b。在一些实施例中,假设可以包括词概率以及声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。在一些实施例中,使用随机梯度下降优化来动态更新语义模型,但是鉴于本公开可以采用其他已知技术。自适应更新可被配置为通过使用最近识别出的语音查询或通过使用由域内生成模型提供的模拟的域内数据来自动地平衡域外(拒绝标记的)数据与域内数据的学习。用于该目的的域内数据通常应具有大的交叉熵损失值,以避免可能类似于域外数据的域内数据之间的混淆。不需要正则化过程,但是可以在一些实施例中使用正则化过程来使自适应更新过程平滑。
在一些实施例中,可以例如从控制系统应用114、另一应用或任何其他合适的源提供自适应控制310。这些控制可包括上述的影响权重λ,以及被配置为给每个自适应更新的影响加权的学习速率R。例如,如果预期缓慢变化的环境,则使用较低的R值,而如果预期快速变化的环境,则使用较高的R值。值“R=0”将导致模型无更新。此外,在一些实施例中,可以向控制系统应用114(或其他合适的应用)提供反馈以指示语言理解系统是处于自适应模式202还是查询识别模式204,或者等效地,WOV电路102是在侦听关键短语还是等待被重新触发。
在一些实施例中,可以通过使神经网络权重随机化以便以相对平等的方式重新分配网络输出层来重置自适应更新电路308,这将使动态分类器输出对内插结果的影响无效。
图4是示出根据本公开的某些实施例配置的动态自适应语言理解系统的事件和控制流程的更详细的流程图400。流程图400详述了流程图200中呈现的细节。
最初,如前所述,系统被示出处于自适应阶段202。在自适应模式期间,ASR电路106为与拒绝类相关联的音频事件生成假设220。这些假设被传递到自适应SLU分类器电路110的自适应更新电路308,以供在更新动态语义模型112b时使用。
当WOV电路102检测到WOV关键短语(例如,“你好计算机”)时,触发210被发送到ASR106并且系统转换到查询识别模式204。ASR然后识别出域内查询(例如,“打开灯”)。识别假设和相关信息被传递231到静态分类器电路302,并且还传递233到动态分类器电路304。这些分类器分别生成第一意图估计410和第二意图估计420,其被传递到内插电路306以用于确定改进的意图估计。
识别假设和相关信息还被从ASR传递232到自适应更新电路308,以进一步更新动态语义模型112b以改进对域内查询的识别并确保在该域内数据和通过上述传送220提供的域外数据之间平衡学习过程。在自适应更新电路308和动态分类器电路304之间共享430更新后的模型。
然后,如前所述,将改进的意图估计传递240到控制系统应用114,以执行与意图相关联的动作。在确定意图之后,将触发250发送回WOV电路以重新开始对另一个关键短语的搜索,并且系统转换回自适应模式202。
图5A和图5B是根据本公开的某些实施例的针对表示变化的声学环境的数据集的分类误差与自适应过程的曲线图。数据集510表示包括音乐和/或歌声的声学环境,如将例如通过在背景中播放的电视或无线电广播产生。数据集520表示包括与要识别的查询不同的背景会话和说话者语音的声学环境。因此,数据集510和520提供域外信号。相比之下,数据集530提供旨在被识别和采取行动的域内语音查询。
曲线图中的每个点是对给定数据集的1000个话语的识别/分类性能的评估(例如,在查询识别模式204期间)。水平轴对应于从-48到48标记的自适应更新步骤,其中在自适应步骤0处切换自适应数据(例如,在自适应模式202期间提供的域外数据)。垂直轴示出分类误差(例如,0.7对应于70%),因此较低的误差与较好的性能相关联。曲线图上最左侧的点是基线(例如,在开始自适应过程之前),并且可以看出,分类误差由于自适应而随时间降低。
图5A示出了首先使用数据集510(在步骤-48到0上)执行自适应然后使用数据集520(在步骤0到+48上)执行自适应的结果。可以看出,510数据的分类误差在适应数据集510(图的左半部分)时减小,然后随着自适应切换到数据集520(图的右半部分)而趋于平稳。类似地,520数据的分类误差在适应数据集510(图的左半部分)时保持相对平稳,并且随着自适应切换到数据集520(图的右半部分)而减小。
为了比较,图5B示出了当自适应被反转时(也就是说当首先使用数据集520(在步骤-48到0上)执行自适应然后使用数据集510(在步骤0到+48上)执行自适应时)的结果。如所预期的,520数据的分类误差在适应数据集520(图的左半部分)时减小,然后随着自适应切换到数据集510(图的右半部分)而趋于平稳。类似地,510数据的分类误差在适应数据集520(图的左半部分)时保持相对平稳,并且随着自适应切换到数据集510(图的右半部分)而减小。
两个曲线图(图5A和图5B)示出了对域内分类530的有限影响(低于0.02%误差)。换句话说,域内语音查询的分类误差仍然相当低并且不受自适应过程的影响,而域外信号的分类误差被显著降低。这些结果表明,根据声学环境进行更好训练的模型实现了更高的分类准确性,从而导致改善的用户体验。在这两种情况下,都以0.5的影响权重和0.1的学习速率进行这些实验。
方法
图6是示出根据本公开的某些实施例的用于使语言理解系统动态适应于声学环境的示例方法600的流程图。可以看出,该示例方法包括多个阶段和子过程,其顺序可以因实施例而异。然而,当在总体上考虑时,这些阶段和子过程形成根据本文公开的某些实施例的语言理解系统的动态自适应的过程。如上所述,可以例如使用图1和图3中示出的系统架构来实现这些实施例。然而,如鉴于本公开将是显而易见的,在其他实施例中可以使用其他系统架构。为此,图6中示出的各种功能与其他图中示出的特定组件的相关性并非旨在暗示任何结构和/或使用限制。而是,其他实施例可包括例如不同的集成度,其中多个功能由一个系统有效地执行。例如,在替代实施例中,具有解耦子模块的单个模块可以用于执行方法600的所有功能。因此,取决于实施方式的粒度,其他实施例可具有更少或更多的模块和/或子模块。在其他实施例中,所描绘的方法可以实现为包括一个或多个非暂时性机器可读介质的计算机程序产品,这一个或多个非暂时性机器可读介质当由一个或多个处理器执行时使该方法被执行。鉴于本公开,许多变化和替代配置将是显而易见的。
如图6所示,在一个实施例中,用于语言理解系统的动态自适应的方法600通过在操作610响应于在音频流中识别出语音唤醒关键短语而生成触发来开始。该触发可用于将系统处理模式从自适应模式切换到查询识别模式。接下来,在操作620,在查询识别模式期间对音频流执行自动语音识别,以识别域内查询。
在操作630,将静态语言理解分类器应用于识别出的域内查询。静态语言理解分类器采用静态语义模型。在操作640,将动态语言理解分类器应用于识别出的域内查询。动态语言理解分类器采用动态语义模型。
在操作650,利用动态语言理解分类器的结果对静态语言理解分类器的结果进行内插,以确定与识别出的域内查询相关联的意图。在一些实施例中,响应于确定与识别出的域内查询相关联的意图,可以将处理模式从查询识别模式切换回自适应模式。
当然,在一些实施例中,如先前结合系统所描述的,可以执行附加操作。例如,可以在自适应模式期间对音频流执行自动语音识别,以生成与拒绝类相关联的音频事件的假设,并且可以基于所生成的假设来更新动态语义模型。拒绝类可包括与域外话语和/或背景噪声相关联的音频。在一些实施例中,还可以基于识别出的域内查询来更新动态语义模型。在一些实施例中,所生成的假设包括声学置信水平、能量水平、音高水平和/或韵律信息。
示例系统
图7示出了根据本公开的某些实施例配置的用于执行具有对声学环境的动态适应的语言理解的示例系统700。在一些实施例中,系统700包括计算平台710,其可以托管或以其他方式并入个人计算机、工作站、服务器系统、智能家居管理系统、膝上型计算机、超膝上型计算机、平板计算机、触摸板、便携式计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话和PDA、智能设备(例如,智能电话或智能平板计算机)、移动互联网设备(MID)、消息传送设备、数据通信设备、可穿戴设备、嵌入式系统等。在某些实施例中可以使用不同设备的任何组合。
在一些实施例中,平台710可以包括以下各项的任何组合:处理器720,存储器730,动态自适应语言理解系统100,网络接口740,输入/输出(I/O)系统750,用户界面760,控制系统应用114,以及存储系统770。还可以看出,还提供了总线和/或互连792,以允许上面列出的各种组件和/或未示出的其他组件之间的通信。平台710可以通过网络接口740耦合到网络794,以允许与其他计算设备、平台、要控制的设备或其他资源进行通信。鉴于本公开,未在图7的框图中反映的其他组件和功能将是显而易见的,并且将会认识到,其他实施例不限于任何特定的硬件配置。
处理器720可以是任何合适的处理器,并且可包括一个或多个协处理器或控制器(诸如音频处理器、图形处理单元或硬件加速器),以协助与系统700相关联的控制和处理操作。在一些实施例中,处理器720可被实现为任何数量的处理器核心。处理器(或处理器核心)可以是任何类型的处理器,例如微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列或者被配置为执行代码的其他设备。处理器可以是多线程核心,这在于它们每个核心可包括多于一个硬件线程上下文(或“逻辑处理器”)。处理器720可被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中,处理器720可被配置为x86指令集兼容处理器。
可以使用包括例如闪存和/或随机存取存储器(RAM)在内的任何合适类型的数字存储装置来实现存储器730。在一些实施例中,存储器730可包括本领域技术人员已知的各种层的存储器层级和/或存储器高速缓存。存储器730可被实现为易失性存储器设备,诸如但不限于RAM、动态RAM(DRAM)或静态RAM(SRAM)设备。存储系统770可被实现为非易失性存储设备,诸如但不限于以下各项中的一个或多个:硬盘驱动器(HDD),固态驱动器(SSD),通用串行总线(USB)驱动器,光盘驱动器,磁带驱动器,内部存储设备,附加存储设备,闪存,电池备份同步DRAM(SDRAM),和/或网络可访问存储设备。在一些实施例中,当多个硬盘驱动器被包括时,存储装置770可以包括提高对有价值的数字介质的存储性能增强保护的技术。
处理器720可被配置为执行操作系统(OS)780,其可包括任何合适的操作系统,诸如Google Android(谷歌公司,山景城,加利福尼亚州),Microsoft Windows(微软公司,雷德蒙德,华盛顿州),Apple OS X(苹果公司,库比蒂诺,加利福尼亚州),Linux,或者实时操作系统(RTOS)。如鉴于本公开将认识到的,本文提供的技术可以在不考虑结合系统700提供的特定操作系统的情况下实现,因此也可以使用任何合适的现有或随后开发的平台来实现。
网络接口电路740可以是任何适当的网络芯片或芯片组,其允许计算机系统700的其他组件和/或网络794之间的有线和/或无线连接,从而使系统700能够与其他本地和/或远程的计算系统、服务器、基于云的服务器和/或其他资源进行通信。有线通信可符合现有(或尚待开发)的标准,例如以太网。无线通信可符合现有(或尚待开发)的标准,例如包括LTE(长期演进)的蜂窝通信、无线保真(Wi-Fi)、蓝牙和/或近场通信(NFC)。示例性无线网络包括但不限于无线局域网、无线个域网、无线城域网、蜂窝网和卫星网。
I/O系统750可以被配置为在各种I/O设备和计算机系统700的其他组件之间进行接合。I/O设备可包括但不限于用户接口760和控制系统应用114。用户接口760可包括诸如麦克风(或麦克风阵列)、扬声器、显示元件、触摸板、键盘和鼠标等的设备(未示出)。I/O系统750可包括被配置为执行对用于在显示元件上渲染的图像的处理的图形子系统。例如,图形子系统可以是图形处理单元或视觉处理单元(VPU)。模拟或数字接口可用于通信地耦合图形子系统和显示元件。例如,接口可以是以下各项中的任何一种:高清晰度多媒体接口(HDMI),DisplayPort,无线HDMI,和/或使用无线高清晰度兼容技术的任何其他合适的接口。在一些实施例中,图形子系统可以集成到处理器720或平台710的任何芯片组中。
将会认识到,在一些实施例中,系统700的各种组件可被组合或集成在片上系统(SoC)架构中。在一些实施例中,组件可以是硬件组件、固件组件、软件组件或者硬件、固件或软件的任何合适组合。
如前所述,语言理解系统100被配置为提供具有对声学环境的动态适应的语言理解,用于改进的意图识别和对用户命令的响应。如上所述,语言理解系统100可包括图1和图3中示出的任何或所有的电路/组件。这些组件可以结合各种合适的软件和/或硬件来实现或者以其他方式与各种合适的软件和/或硬件结合使用,这些软件和/或硬件被耦合到平台710或以其他方式形成平台710的一部分。这些组件可以附加地或替代地结合用户I/O设备结合来实现或者以其他方式与用户I/O设备结合使用,这些用户I/O设备能够向用户提供信息以及从用户接收信息和命令。
在一些实施例中,如在图7的示例实施例中示出,这些电路可以安装在系统700的本地。或者,系统700可以在客户端-服务器布置中实现,其中使用诸如JavaScript小应用程序之类的小应用程序或其他可下载的模块或子模块组将与这些电路相关联的至少一些功能提供给系统700。响应于来自客户端计算系统的访问具有该客户端计算系统的用户所感兴趣的资源的给定服务器的请求,可以实时提供这种远程可访问的模块或子模块。在这样的实施例中,服务器可以是网络794本地的或者通过一个或多个其他网络和/或通信信道而远程耦合到网络794。在某些情况下,对给定网络或计算系统上的资源的访问可能需要诸如用户名、密码之类的凭证,和/或需要遵守任何其他合适的安全机制。
在各种实施例中,系统700可被实现为无线系统、有线系统或两者的组合。当被实现为无线系统时,系统700可包括适合于通过无线共享介质进行通信的组件和接口,诸如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等。无线共享介质的示例可包括无线频谱的部分,诸如射频频谱等。当被实现为有线系统时,系统700可包括适合于通过有线通信介质进行通信的组件和接口,诸如输入/输出适配器,用于将输入/输出适配器与对应的有线通信介质连接的物理连接器,网络接口卡(NIC),盘控制器,视频控制器,音频控制器,等等。有线通信介质的示例可包括电线、电缆金属引线、印刷电路板(PCB)、背板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。
可以使用硬件元件、软件元件或两者的组合来实现各种实施例。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如,晶体管,电阻器,电容器,电感器等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。确定是否使用硬件元件和/或软件元件实现实施例可以根据任何数量的因素而变化,这些因素诸如是期望的计算速率、功率水平、热容差、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束。
可以使用表达“耦合”和“连接”以及它们的派生词来描述一些实施例。这些术语并非旨在作为彼此的同义词。例如,可以使用术语“连接”和/或“耦合”来描述一些实施例,以表明两个或更多个元件彼此直接物理接触或直接电接触。然而,术语“耦合”还可意味着两个或更多个元件彼此不直接接触,但仍然彼此协作或交互。
本文公开的各种实施例可以以各种形式的硬件、软件、固件和/或专用处理器来实现。例如,在一个实施例中,至少一个非暂时性计算机可读存储介质具有在其上编码的指令,这些指令当由一个或多个处理器执行时使本文公开的动态自适应语言理解方法中的一个或多个被实现。可以使用合适的编程语言(诸如C,C++,面向对象的C,Java,JavaScript,Visual Basic.NET,初学者的通用符号指令代码(BASIC))对指令进行编码,或者使用自定义或专有指令集对指令进行编码。指令可以以有形地体现在存储器设备上并且可以由具有任何合适架构的计算机执行的一个或多个计算机软件应用和/或小应用程序的形式提供。在一个实施例中,系统可以被托管在给定网站上并且例如使用JavaScript或另一合适的基于浏览器的技术来实现。例如,在某些实施例中,系统可以利用由可经由网络794访问的远程计算机系统提供的处理资源。在其他实施例中,本文公开的功能可以并入其他基于语音的软件应用,例如汽车控制/导航、智能家居管理、娱乐和机器人应用。本文公开的计算机软件应用可包括任何数量的不同模块、子模块或不同功能的其他组件,并且可以向其他组件提供信息或从其他组件接收信息。例如,这些模块可以用于与输入和/或输出设备(诸如显示屏、触敏表面、打印机和/或任何其他合适的设备)进行通信。鉴于本公开,未在图示中反映的其他组件和功能将是显而易见的,并且将认识到,其他实施例不限于任何特定的硬件或软件配置。因此,在其他实施例中,与图7的示例实施例中包括的子组件相比,系统700可以包括附加的、更少的或替代的子组件。
上述非暂时性计算机可读介质可以是用于存储数字信息的任何合适的介质,诸如硬盘驱动器、服务器、闪存和/或随机存取存储器(RAM)或者存储器的组合。在替代实施例中,本文公开的组件和/或模块可以用硬件来实现,硬件包括诸如现场可编程门阵列(FPGA)之类的门级逻辑,或者可选地,诸如专用集成电路(ASIC)之类的特定用途半导体。其他实施例可以用具有多个用于接收和输出数据的输入/输出端口以及多个用于执行本文公开的各种功能的嵌入式例程的微控制器来实现。将显而易见的是,可以使用硬件、软件和固件的任何合适组合,并且其他实施例不限于任何特定系统架构。
一些实施例可例如使用机器可读介质或物品来实现,该机器可读介质或物品可存储指令或指令集,该指令或指令集如果由机器执行则可使该机器根据实施例执行方法和/或操作。这样的机器可包括例如任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、进程等,并且可使用硬件和/或软件的任何合适的组合来实现。机器可读介质或物品可包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元,诸如存储器、可移动或不可移动介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、光盘可记录(CD-R)存储器、光盘可重写(CD-RW)存储器、光盘、磁介质、磁光介质、可移动的存储卡或磁盘、各种类型的数字通用盘(DVD)、磁带、盒式磁带等。指令可包括使用任何合适的高级、低级、面向对象、可视化、编译和/或解释的编程语言来实现的任何合适类型的代码,诸如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
除非另有明确说明,否则可以认识到,诸如“处理”、“计算”、“核算”、“确定”等术语是指计算机或计算系统或类似的电子计算设备的动作和/或过程,其将被表示为计算机系统的寄存器和/或存储器单元内的物理量(例如,电子量)的数据操纵和/或变换为被类似地表示为计算机系统的寄存器、存储器单元或其他此类信息存储传输或显示器内的物理实体的其他数据。实施例不限于该上下文。
如在本文的任何实施例中使用的术语“电路”或“电路系统”是功能性的,并且可以例如单独地或以任何组合包括硬连线电路、诸如包括一个或多个单独指令处理核心的计算机处理器之类的可编程电路、状态机电路和/或存储由可编程电路执行的指令的固件。该电路可包括处理器和/或控制器,其被配置为执行一个或多个指令以执行本文描述的一个或多个操作。指令可被体现为例如应用、软件、固件等,其被配置为使电路执行任何上述操作。软件可被体现为在计算机可读存储设备上记录的软件包、代码、指令、指令集和/或数据。软件可被体现或实现为包括任何数量的进程,并且进程继而可被体现或实现为以分层方式包括任何数量的线程等。固件可被体现为在存储器设备中硬编码(例如,非易失性)的代码、指令或指令集和/或数据。电路可以共同地或单独地体现为形成更大系统的一部分的电路,例如,集成电路(IC),专用集成电路(ASIC),片上系统(SoC),台式计算机,膝上型计算机,平板计算机,服务器,智能电话等。其他实施例可被实现为由可编程控制设备执行的软件。在这种情况下,术语“电路”或“电路系统”旨在包括软件和硬件的组合,诸如可编程控制设备或能够执行软件的处理器。如本文所述,可以使用硬件元件、软件元件或其任何组合来实现各种实施例。硬件元件的示例可包括处理器,微处理器,电路,电路元件(例如,晶体管,电阻器,电容器,电感器等),集成电路,专用集成电路(ASIC),可编程逻辑器件(PLD),数字信号处理器(DSP),现场可编程门阵列(FPGA),逻辑门,寄存器,半导体器件,芯片,微芯片,芯片组等。
本文已经阐述了许多具体细节以提供对实施例的透彻理解。然而,普通技术人员将理解,可以在没有这些具体细节的情况下实践这些实施例。在其他情况下,没有详细描述公知的操作、组件和电路,以免模糊实施例。可以认识到,本文公开的具体结构和功能细节可以是代表性的,并不一定限制实施例的范围。此外,尽管已经用结构特征和/或方法动作专用的语言描述了本主题,但是将会理解,所附权利要求书中定义的主题不一定限于本文描述的具体特征或动作。而是,本文描述的具体特征和动作被公开为实现权利要求的示例形式。
进一步的示例实施例
以下示例涉及进一步的实施例,根据这些实施例,许多排列和配置将是显而易见的。
示例1是一种由处理器实现的方法,用于使语言理解系统动态适应于声学环境,该方法包括:由基于处理器的系统响应于在音频流中或在该音频流之前识别出语音唤醒关键短语而生成触发,该触发用于将处理模式从自适应模式切换到查询识别模式;由基于处理器的系统在查询识别模式期间对音频流执行自动语音识别,以识别域内查询;由基于处理器的系统将静态语言理解分类器应用于识别出的域内查询,该静态语言理解分类器采用静态语义模型;由基于处理器的系统将动态语言理解分类器应用于识别出的域内查询,该动态语言理解分类器采用动态语义模型;以及由基于处理器的系统基于静态语言理解分类器的结果和动态语言理解分类器的结果来确定与识别出的域内查询相关联的意图。
示例2包括示例1的主题,还包括:在自适应模式期间对音频流执行自动语音识别,以生成与拒绝类相关联的音频事件的假设;以及基于所生成的假设来更新动态语义模型。
示例3包括示例1或2的主题,其中,拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频。
示例4包括示例1-3中任一项的主题,其中,所生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
示例5包括示例1-4中任一项的主题,其中,动态语义模型的更新还包括执行随机梯度下降优化。
示例6包括示例1-5中任一项的主题,还包括基于识别出的域内查询来更新动态语义模型。
示例7包括示例1-6中任一项的主题,还包括:响应于确定与识别出的域内查询相关联的意图,将处理模式从查询识别模式切换到自适应模式。
示例8包括示例1-7中任一项的主题,还包括基于预定功率预算将自适应模式限制到选定的时间段。
示例9包括示例1-8中任一项的主题,其中,确定与识别出的域内查询相关联的意图包括:用动态语言理解分类器的结果对静态语言理解分类器的结果进行内插,以确定与识别出的域内查询相关联的意图。
示例10是一种具有对声学环境的动态适应的语言理解系统,该系统包括:语音唤醒电路,用于响应于在音频流中或在该音频流之前识别出语音唤醒关键短语而生成触发,该触发用于将该系统的处理模式从自适应模式切换到查询识别模式;自动语音识别电路,用于在查询识别模式期间对音频流执行语音识别,以识别域内查询;静态语言理解分类器电路,用于基于识别出的域内查询生成第一意图估计,该静态语言理解分类器电路采用静态语义模型;动态语言理解分类器电路,用于基于识别出的域内查询生成第二意图估计,该动态语言理解分类器采用动态语义模型;以及内插电路,用于基于第一意图估计和第二意图估计的组合来确定与识别出的域内查询相关联的意图。
示例11包括示例10的主题,其中,自动语音识别电路还用于在自适应模式期间对音频流执行语音识别,以生成与拒绝类相关联的音频事件的假设;并且其中系统还包括自适应更新电路,用于基于所生成的假设来更新动态语义模型。
示例12包括示例10或11的主题,其中,拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频。
示例13包括示例10-12中任一项的主题,其中,所生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
示例14包括示例10-13中任一项的主题,其中,自适应更新电路还用于执行随机梯度下降优化以更新动态语义模型。
示例15包括示例10-14中任一项的主题,其中,自适应更新电路还用于基于识别出的域内查询来更新动态语义模型。
示例16包括示例10-15中任一项的主题,其中,内插电路还用于响应于确定与识别出的查询相关联的意图而将处理模式从查询识别模式切换到自适应模式。
示例17包括示例10-16中任一项的主题,其中,基于预定功率预算将自适应模式限制到选定的时间段。
示例18是至少一种非暂时性计算机可读存储介质,其具有在其上编码的指令,这些指令当由一个或多个处理器执行时使得执行过程以使语言理解系统动态适应于声学环境,该过程包括:响应于在音频流中或在该音频流之前识别出语音唤醒关键短语而生成触发,该触发用于将处理模式从自适应模式切换到查询识别模式;在查询识别模式期间对音频流执行自动语音识别,以识别域内查询;将静态语言理解分类器应用于识别出的域内查询,该静态语言理解分类器采用静态语义模型;将动态语言理解分类器应用于识别出的域内查询,该动态语言理解分类器采用动态语义模型;以及基于静态语言理解分类器的结果和动态语言理解分类器的结果来确定与识别出的域内查询相关联的意图。
示例19包括示例18的主题,该过程还包括:在自适应模式期间对音频流执行自动语音识别,以生成与拒绝类相关联的音频事件的假设;以及基于所生成的假设来更新动态语义模型。
示例20包括示例18或19的主题,其中,拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频。
示例21包括示例18-20中任一项的主题,其中,所生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
示例22包括示例18-21中任一项的主题,其中,动态语义模型的更新还包括基于识别出的域内查询来执行随机梯度下降优化的操作。
示例23包括示例18-22中任一项的主题,该过程还包括:响应于确定与识别出的域内查询相关联的意图,将处理模式从查询识别模式切换到自适应模式。
示例24包括示例18-23中任一项的主题,该过程还包括:基于预定功率预算将自适应模式限制到选定的时间段。
示例25包括示例18-24中任一项的主题,其中,确定与识别出的域内查询相关联的意图包括:用动态语言理解分类器的结果对静态语言理解分类器的结果进行内插,以确定与识别出的域内查询相关联的意图。
示例26是一种具有对声学环境的动态适应的语言理解系统,该系统包括:用于响应于在音频流中或在该音频流之前识别出语音唤醒关键短语而生成触发的装置,该触发用于将处理模式从自适应模式切换到查询识别模式;用于在查询识别模式期间对音频流执行自动语音识别以识别域内查询的装置;用于将静态语言理解分类器应用于识别出的域内查询的装置,该静态语言理解分类器采用静态语义模型;用于将动态语言理解分类器应用于识别出的域内查询的装置,该动态语言理解分类器采用动态语义模型;以及用于基于静态语言理解分类器的结果和动态语言理解分类器的结果来确定与识别出的域内查询相关联的意图的装置。
示例27包括示例26的主题,还包括:用于在自适应模式期间对音频流执行自动语音识别以生成与拒绝类相关联的音频事件的假设的装置;以及用于基于所生成的假设来更新动态语义模型的装置。
示例28包括示例26或27的主题,其中,拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频。
示例29包括示例26-28中任一项的主题,其中,所生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
示例30包括示例26-29中任一项的主题,其中,用于更新动态语义模型的装置还包括用于执行随机梯度下降优化的装置。
示例31包括示例26-30中任一项的主题,还包括:用于基于识别出的域内查询来更新动态语义模型的装置。
示例32包括示例26-31中任一项的主题,还包括:用于响应于确定与识别出的域内查询相关联的意图而将处理模式从查询识别模式切换到自适应模式的装置。
示例33包括示例26-32中任一项的主题,还包括:用于基于预定功率预算将自适应模式限制到选定的时间段的装置。
示例34包括示例26-33中任一项的主题,其中,确定与识别出的域内查询相关联的意图包括:用于用动态语言理解分类器的结果对静态语言理解分类器的结果进行内插以确定与识别出的域内查询相关联的意图的装置。
本文所已经采用的术语和表达用作描述而非限制的术语,并且在这样的术语和表达的使用中无意排除示出和描述的特征的任何等同物(或其部分),并且认识到在权利要求的范围内各种修改是可能的。因此,权利要求旨在涵盖所有这些等同物。本文已经描述了各种特征、方面和实施例。如本领域技术人员将理解的,特征、方面和实施例易于进行彼此组合以及变化和修改。因此,本公开应被视为包含这样的组合、变化和修改。意图是本公开的范围不受该具体实施方式的限制,而是受所附权利要求的限制。未来提交的要求本申请优先权的申请可以以不同的方式要求保护所公开的主题,并且通常可以包括如在本文中以各种方式公开或以其他方式展示的一个或多个元素的任何集合。
Claims (25)
1.一种由处理器实现的方法,用于使语言理解系统动态适应于声学环境,所述方法包括:
由基于处理器的系统响应于在音频流中或在所述音频流之前识别出语音唤醒关键短语而生成触发,所述触发用于将处理模式从自适应模式切换到查询识别模式;
由所述基于处理器的系统在所述查询识别模式期间对所述音频流执行自动语音识别,以识别域内查询;
由所述基于处理器的系统将静态语言理解分类器应用于识别出的域内查询,所述静态语言理解分类器采用静态语义模型;
由所述基于处理器的系统将动态语言理解分类器应用于所述识别出的域内查询,所述动态语言理解分类器采用动态语义模型;和
由所述基于处理器的系统基于所述静态语言理解分类器的结果和所述动态语言理解分类器的结果来确定与所述识别出的域内查询相关联的意图。
2.如权利要求1所述的方法,还包括:
在所述自适应模式期间对所述音频流执行自动语音识别,以生成与拒绝类相关联的音频事件的假设;和
基于生成的假设来更新所述动态语义模型。
3.如权利要求2所述的方法,其中,所述拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频。
4.如权利要求2所述的方法,其中,所述生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
5.如权利要求2所述的方法,其中,所述动态语义模型的更新还包括执行随机梯度下降优化。
6.如权利要求1-5中任一项所述的方法,还包括基于所述识别出的域内查询来更新所述动态语义模型。
7.如权利要求1-5中任一项所述的方法,还包括:响应于确定与所述识别出的域内查询相关联的意图,将所述处理模式从所述查询识别模式切换到所述自适应模式。
8.如权利要求1-5中任一项所述的方法,还包括基于预定功率预算将所述自适应模式限制到选定的时间段。
9.如权利要求1-5中任一项所述的方法,其中,确定与所述识别出的域内查询相关联的意图包括:用所述动态语言理解分类器的结果对所述静态语言理解分类器的结果进行内插,以确定与所述识别出的域内查询相关联的意图。
10.一种具有对声学环境的动态适应的语言理解系统,所述系统包括:
语音唤醒电路,用于响应于在音频流中或在所述音频流之前识别出语音唤醒关键短语而生成触发,所述触发用于将所述系统的处理模式从自适应模式切换到查询识别模式;
自动语音识别电路,用于在所述查询识别模式期间对所述音频流执行语音识别,以识别域内查询;
静态语言理解分类器电路,用于基于识别出的域内查询生成第一意图估计,所述静态语言理解分类器电路采用静态语义模型;
动态语言理解分类器电路,用于基于所述识别出的域内查询生成第二意图估计,所述动态语言理解分类器采用动态语义模型;和
内插电路,用于基于第一意图估计和第二意图估计的组合来确定与所述识别出的域内查询相关联的意图。
11.如权利要求10所述的系统,其中,所述自动语音识别电路还用于在所述自适应模式期间对所述音频流执行语音识别,以生成与拒绝类相关联的音频事件的假设;并且其中所述系统还包括自适应更新电路,用于基于生成的假设来更新所述动态语义模型。
12.如权利要求11所述的系统,其中,所述拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频。
13.如权利要求11所述的系统,其中,所述生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
14.如权利要求11所述的系统,其中,所述自适应更新电路还用于执行随机梯度下降优化以更新所述动态语义模型。
15.如权利要求10-14中任一项所述的系统,其中,所述自适应更新电路还用于基于所述识别出的域内查询来更新所述动态语义模型。
16.如权利要求10-14中任一项所述的系统,其中,所述内插电路还用于响应于确定与所述识别出的查询相关联的意图而将所述处理模式从所述查询识别模式切换到所述自适应模式。
17.如权利要求10-14中任一项所述的系统,其中,所述自适应模式基于预定功率预算被限制到选定的时间段。
18.一种具有对声学环境的动态适应的语言理解系统,所述系统包括:
用于响应于在音频流中或在所述音频流之前识别出语音唤醒关键短语而生成触发的装置,所述触发用于将处理模式从自适应模式切换到查询识别模式;
用于在所述查询识别模式期间对所述音频流执行自动语音识别以识别域内查询的装置;
用于将静态语言理解分类器应用于识别出的域内查询的装置,所述静态语言理解分类器采用静态语义模型;
用于将动态语言理解分类器应用于所述识别出的域内查询的装置,所述动态语言理解分类器采用动态语义模型;和
用于基于所述静态语言理解分类器的结果和所述动态语言理解分类器的结果来确定与所述识别出的域内查询相关联的意图的装置。
19.如权利要求18所述的系统,还包括:
用于在所述自适应模式期间对所述音频流执行自动语音识别以生成与拒绝类相关联的音频事件的假设的装置;和
用于基于生成的假设来更新所述动态语义模型的装置。
20.如权利要求19所述的系统,其中,所述拒绝类包括与域外话语、或背景噪声、或者域外话语和背景噪声两者相关联的音频;并且其中所述生成的假设包括声学置信水平、能量水平、音高水平和韵律信息中的一个或多个。
21.如权利要求19所述的系统,其中,用于更新所述动态语义模型的装置还包括用于执行随机梯度下降优化的装置。
22.如权利要求18所述的系统,还包括用于基于所述识别出的域内查询来更新所述动态语义模型的装置。
23.如权利要求18-22中任一项所述的系统,还包括用于响应于确定与所述识别出的域内查询相关联的意图而将所述处理模式从所述查询识别模式切换到所述自适应模式的装置。
24.如权利要求18-22中任一项所述的系统,还包括用于基于预定功率预算将所述自适应模式限制到选定的时间段的装置。
25.如权利要求18-22中任一项所述的系统,其中,用于确定与所述识别出的域内查询相关联的意图的装置包括:用于用所述动态语言理解分类器的结果对所述静态语言理解分类器的结果进行内插以确定与所述识别出的域内查询相关联的意图的装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/949,527 US11074249B2 (en) | 2018-04-10 | 2018-04-10 | Dynamic adaptation of language understanding systems to acoustic environments |
US15/949,527 | 2018-04-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110379420A true CN110379420A (zh) | 2019-10-25 |
Family
ID=65229837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910180591.8A Pending CN110379420A (zh) | 2018-04-10 | 2019-03-11 | 语言理解系统对声学环境的动态适应 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11074249B2 (zh) |
CN (1) | CN110379420A (zh) |
DE (1) | DE102019104304B4 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126576A (zh) * | 2020-03-26 | 2020-05-08 | 北京精诊医疗科技有限公司 | 一种深度学习的新型训练策略 |
CN112102832A (zh) * | 2020-09-18 | 2020-12-18 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、服务器和计算机可读存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11257483B2 (en) | 2019-03-29 | 2022-02-22 | Intel Corporation | On-device neural network adaptation with binary mask learning for language understanding systems |
CN112669831B (zh) * | 2019-09-29 | 2022-10-21 | 百度在线网络技术(北京)有限公司 | 语音识别控制方法、装置、电子设备和可读存储介质 |
CN117540829B (zh) * | 2023-10-18 | 2024-05-17 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种知识共享的大语言模型协同优化方法和系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050229228A1 (en) * | 2004-04-07 | 2005-10-13 | Sandeep Relan | Unicast cable content delivery |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9330659B2 (en) | 2013-02-25 | 2016-05-03 | Microsoft Technology Licensing, Llc | Facilitating development of a spoken natural language interface |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US10354655B1 (en) * | 2018-01-10 | 2019-07-16 | Abl Ip Holding Llc | Occupancy counting by sound |
-
2018
- 2018-04-10 US US15/949,527 patent/US11074249B2/en active Active
-
2019
- 2019-02-20 DE DE102019104304.2A patent/DE102019104304B4/de active Active
- 2019-03-11 CN CN201910180591.8A patent/CN110379420A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126576A (zh) * | 2020-03-26 | 2020-05-08 | 北京精诊医疗科技有限公司 | 一种深度学习的新型训练策略 |
CN111126576B (zh) * | 2020-03-26 | 2020-09-01 | 北京精诊医疗科技有限公司 | 一种深度学习的训练方法 |
CN112102832A (zh) * | 2020-09-18 | 2020-12-18 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、服务器和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20190043497A1 (en) | 2019-02-07 |
DE102019104304A1 (de) | 2019-10-10 |
US11074249B2 (en) | 2021-07-27 |
DE102019104304B4 (de) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110379420A (zh) | 语言理解系统对声学环境的动态适应 | |
JP7265003B2 (ja) | ターゲット検出方法、モデル訓練方法、装置、機器及びコンピュータプログラム | |
CN110998567B (zh) | 用于对话语义分析的知识图谱 | |
CN109427333B (zh) | 激活语音识别服务的方法和用于实现所述方法的电子装置 | |
US20190230210A1 (en) | Context recognition in mobile devices | |
CN110400575B (zh) | 通道间特征提取方法、音频分离方法和装置、计算设备 | |
US9992641B2 (en) | Electronic device, server, and method for outputting voice | |
WO2021135577A9 (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
US20220172737A1 (en) | Speech signal processing method and speech separation method | |
WO2017223009A1 (en) | Multi-domain joint semantic frame parsing | |
CN108304388A (zh) | 机器翻译方法及装置 | |
CN109947919A (zh) | 用于生成文本匹配模型的方法和装置 | |
KR20130033378A (ko) | 콘텍스트 감지 및 융합을 위한 방법, 장치 및 컴퓨터 프로그램제품 | |
CN109256147B (zh) | 音频节拍检测方法、装置及存储介质 | |
CN109741735B (zh) | 一种建模方法、声学模型的获取方法和装置 | |
US20190019509A1 (en) | Voice data processing method and electronic device for supporting the same | |
CN109119090A (zh) | 语音处理方法、装置、存储介质及电子设备 | |
US10911910B2 (en) | Electronic device and method of executing function of electronic device | |
US20220020358A1 (en) | Electronic device for processing user utterance and operation method therefor | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN116978368B (zh) | 一种唤醒词检测方法和相关装置 | |
WO2024027246A1 (zh) | 声音信号处理方法、装置、电子设备和存储介质 | |
CN113742460A (zh) | 生成虚拟角色的方法及装置 | |
WO2016189905A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20190066689A1 (en) | Electronic device performing operation using voice command and method of operating electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210709 Address after: California, USA Applicant after: INTEL Corp. Address before: California, USA Applicant before: INTEL IP Corp. |