CN109785828B - 基于用户语音风格的自然语言生成 - Google Patents
基于用户语音风格的自然语言生成 Download PDFInfo
- Publication number
- CN109785828B CN109785828B CN201811315856.2A CN201811315856A CN109785828B CN 109785828 B CN109785828 B CN 109785828B CN 201811315856 A CN201811315856 A CN 201811315856A CN 109785828 B CN109785828 B CN 109785828B
- Authority
- CN
- China
- Prior art keywords
- nlg
- user
- template
- nlg template
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 232
- 238000004891 communication Methods 0.000 claims abstract description 175
- 230000008569 process Effects 0.000 claims abstract description 157
- 238000013528 artificial neural network Methods 0.000 claims abstract description 62
- 230000003068 static effect Effects 0.000 claims abstract description 50
- 230000004044 response Effects 0.000 claims description 25
- 238000010801 machine learning Methods 0.000 description 69
- 238000012549 training Methods 0.000 description 19
- 230000001413 cellular effect Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000008451 emotion Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种生成自然语言生成(NLG)输出的系统和方法,其中,所述方法包括:在客户端设备的麦克风处从用户接收语音信号;基于接收的语音信号确定所请求的通信目标和至少一个输入的通信值;确定使用静态自然语言生成(NLG)模板或动态NLG模板来生成NLG输出,其中使用神经网络NLG模板选择过程来确定是使用静态NLG模板还是动态NLG模板;在确定是使用静态NLG模板还是动态NLG模板之后选择NLG模板;并基于所选择的NLG模板生成NLG输出。
Description
技术领域
本发明涉及基于用户语音的特征或风格而生成自然语言生成(NLG)输出。
背景技术
可以使用自动语音识别(ASR)在客户端设备上控制各种设备功能。例如,车辆包括能够从车辆乘员接收语音、处理该语音以理解语音内容,并然后基于所述语音内容执行某些动作的硬件和软件。车辆或其他客户端设备可以使用硬件和软件来处理在车辆处接收的语音。可以在车辆或客户端设备处生成对ASR输入的响应。
发明内容
根据本发明的一个方面,提供了一种生成自然语言生成(NLG)输出的方法,其中该方法包括:在客户端设备的麦克风处从用户接收语音信号;基于接收的语音信号确定所请求的通信目标和至少一个输入的通信值;确定使用静态自然语言生成(NLG)模板或者动态NLG模板来生成NLG输出,其中使用神经网络NLG模板选择过程来确定是使用静态NLG模板还是动态NLG模板;在确定是使用静态NLG模板还是动态NLG模板之后选择NLG模板;并根据所选择的NLG模板生成NLG输出。
根据各种实施例,该方法可以进一步包括以下特征中的任何一个或这些特征的任何技术上可行的组合:
·识别发送语音信号的用户或可能的用户的步骤;
·基于所识别的用户或可能的用户的历史和/或所识别的用户或可能的用户的档案来执行神经网络NLG模板选择过程;
·基于所识别的用户或可能的用户的历史和/或所识别的用户或可能的用户的档案来选择所选择的NLG模板;
·基于所接收的语音信号、所识别的用户或可能的用户的历史,和/或所识别的用户或可能的用户的档案来识别风格的步骤,并且其中所识别的风格被用在神经网络NLG模板选择过程中;
·当确定将要使用动态NLG模板生成NLG输出时,然后使用NLG模板生成过程生成动态NLG模板的步骤;
·动态NLG模板基于通信目标和一个或多个获得的通信值生成;
·识别发送语音信号的用户或可能的用户的步骤,其中基于与用户或可能的用户相关联的用户信息生成动态NLG模板,并且其中用户信息包括用户历史信息或用户档案信息中的任一个或两者;
·NLG模板生成过程是基于规则的NLG模板生成过程;
·NLG模板生成过程是神经网络NLG模板生成过程;
·步骤:向远程服务器发送通信值请求,其中通信值请求是获得将在NLG输出中使用的并且基于通信目标和输入的通信值的响应通信值的请求;并且接收来自远程服务器的通信值响应,其中通信值响应包括将用于生成NLG输出的响应通信值;
·基于神经网络NLG模板选择过程的先前迭代来调整神经网络NLG模板选择过程的步骤;和/或
·调整步骤还包括基于成组的输入、NLG输出和神经网络NLG模板选择过程的测量成功来调整神经网络NLG模板选择过程,其中该成组的输入包括通信目标、输入的通信值,以及与发送语音信号的用户或可能的用户有关的信息。
根据本发明的另一方面,提供了一种生成自然语言生成(NLG)输出的方法,其中该方法包括:在客户端设备的麦克风处从用户接收语音信号;识别发送语音信号的用户或可能的用户;基于接收的语音信号确定通信目标和至少一个输入的通信值;确定是使用静态NLG模板还是动态NLG模板用于生成NLG输出,其中使用神经网络NLG模板选择过程来确定是使用静态NLG模板还是动态NLG模板,其中神经网络NLG模板选择过程使用人工神经网络来解析成组的输入以选择是使用静态NLG模板还是动态NLG模板来用于生成NLG输出,并且其中该成组的输入包括通信目标、输入的通信值,以及与用户相关联的用户历史或与用户相关联的用户档案;在确定使用静态NLG模板的情况下,然后选择静态NLG模板;当确定使用动态NLG模板时,则生成动态NLG模板;并使用所选择的NLG模板生成NLG输出。
根据各种实施例,该方法可以进一步包括以下特征中的任何一个或这些特征的任何技术上可行的组合:
·成组的输入包括与用户相关联的用户历史和与用户相关联的用户档案;
·神经网络NLG模板选择过程包括成组的潜在的输出,所述输出包括第一NLG模板输出值和第二NLG模板输出值,其中第一NLG模板输出值对应于将使用静态NLG模板来生成NLG输出的概率,并且其中第二NLG模板输出值对应于将使用动态NLG模板来生成NLG输出的概率;
·识别步骤包括使用接收的语音信号来识别用户,并且其中基于所接收的语音信号的所识别的风格、情绪和/或方言确定使用静态NLG模板或动态NLG模板;
·生成动态NLG模板和/或基于所接收的语音信号的所识别的风格、情绪和/或方言来选择静态NLG模板;
·使用机器学习NLG模板生成过程来生成动态NLG模板,并且其中机器学习NLG模板生成过程使用与在神经网络NLG模板选择过程中使用的机器学习技术不同的机器学习技术;和/或
·不同的机器学习技术是一种基于规则的方法,该方法包括在生成动态NLG模板时需要遵循的成组的预定义规则。
附图说明
在下文中将结合附图描述本发明的一个或多个实施例,其中相同的附图标记表示相同的元件,并且其中:
图1是描述能够利用本文公开的方法的通信系统的实施例的框图;
图2是描绘自动语音识别(ASR)系统的实施例的框图;
图3是生成自然语言生成(NLG)输出的方法的实施例的流程图;以及
图4是描绘可以在机器学习NLG过程或应用中使用的神经网络模型的实施例的框图。
具体实施方式
下面描述的系统和方法提供使用机器学习NLG过程来生成自然语言生成(NLG)输出,该机器学习NLG过程至少在一些实施例中可以在使用静态(或预定义)NLG模板和使用动态NLG模板之间进行选择。可以选择NLG模板,使得所选择的NLG模板适合于特定用户、特定ASR输入和/或其组合。自然语言生成(NLG)是指生成自然语言输出的过程,该输出将来自机器的语句、查询或问题和/或其他意图传达给用户。在许多情况下,NLG模板用于生成NLG输出。机器学习NLG模板选择过程可以作为机器学习NLG过程的一部分来执行。NLG模板选择过程是使用机器学习技术选择使用静态或动态NLG模板的过程。可以基于某些用户信息、通信目标或意图和/或各种其他信息来选择NLG模板,如下所述。
如本文所使用的那样,“NLG模板”是包括一个或多个输入字段的预制或预定义短语、句子和/或语句的集合,其中可以基于期望或预期输出来放置特定值或词。此外,如本文所使用的那样,“NLG输出”是基于自然语言的任何输出,并且至少在一些情况下,可以使用扬声器(即,可听NLG输出)可听地发送或者以视觉方式呈现、诸如呈现包括文本字符(例如,字母数字字符)的文本表示的方式。并且,如本文所使用的那样,机器学习NLG过程是使用机器学习技术来选择NLG模板、生成NLG模板和/或生成NLG输出的过程,因此,至少在一些实施例中,可以包括机器学习NLG模板选择过程。当使用神经网络模型时,NLG过程可以被称为神经网络NLG过程(对于机器学习NLG子过程也是如此)。
如下面将更详细讨论的那样,机器学习NLG过程可以包括各种过程(或“子过程”),其包括NLG模板选择过程、NLG模板生成过程和/或NLG输出生成过程。NLG模板选择过程是选择用于生成NLG输出的NLG模板的过程,其可以包括基于通信目标、接收的语音的风格、用户档案、用户历史和/或各种其他因素在静态模板和动态模板之间进行选择。当确定动态模板用于生成NLG输出时,可以执行NLG生成过程。NLG输出生成过程是使用所选择的和/或生成的NLG模板生成NLG输出的过程。
在一些情况中,NLG模板选择过程可以确定使用静态NLG模板,该静态NLG模板是预定义的NLG模板,使得某些通信目标被映射到预定义的NLG模板化输出。并且,在其他实施例中,NLG模板选择过程可以确定使用动态NLG模板,其是在NLG模板选择过程之后的时间使用机器学习NLG模板生成过程至少部分地生成的NLG模板,并且至少在一些实施例中,可以基于从各种预定义或静态NLG模板导出某些模板化输出。当选择静态NLG模板时,可以立即执行NLG输出生成过程(即,使用NLG模板生成NLG输出的过程)。当确定将在NLG输出生成过程中使用动态NLG模板时,则可以使用NLG模板生成过程来生成动态NLG模板。可以基于从接收的语音信号识别的通信目标、接收的语音信号的风格(或其他属性)、接收的语音信号的情绪、接收的语音的特征和/或基于用户档案或历史来生成动态NLG模板。这允许生成动态NLG模板,其适合于匹配通信风格以便改善用户体验。
例如,动态NLG模板可以适合于特定用户和/或可以基于来自给定用户的ASR输入来生成、更新或修改。并且,在某些实施例中,当用户重复使用相同的通信目标和相同或相似的风格或情绪来查询ASR系统时,可以保存动态NLG模板以加速未来的NLG过程。例如,代替生成相同的动态NLG模板,可以保存动态NLG模板,并且稍后,当确定使用时,可以从存储器中调用动态NLG模板,从而避免重新生成动态NLG模板。应当理解,当以这样的方式保存动态NLG模板时,使其成为静态NLG模板。此外,机器学习NLG过程(和子过程)可以使用各种机器学习技术(包括人工神经网络)来在NLG模板之间进行选择和/或更新或修改NLG模板。
在一个实施例中,神经网络自然语言生成(NLG)模板选择过程可用于基于所接收的语音信号的风格(或情绪)和基于所接收的语音信号识别的通信目标来选择NLG模板。在一种情况下,第一用户可以以啰嗦的和拉长的方式进行说话,并且因此,可以使用神经网络NLG模板选择过程来选择详细的NLG模板,当用于NLG时该模板导致啰嗦或拉长的响应。例如,当用户或用户的语音被识别为健谈的或详细的时,可以使用NLG模板来生成NLG输出,该输出导致健谈的的或详细的输出;在一个情况中,当用户说:“你好,ASR系统,请告诉我当前位置的天气”,系统可能会回应:“你好,用户1,今天天气阴天,最高温度43华氏度和最低温度31华氏度”。在另一种情况下,第二个用户可以使用非常少的词,因此,NLG模板将被定制得更直接并且达到可以通过神经网络NLG模板选择过程来选择的程度。在此,可以选择产生以下输出的NLG模板:“阴天,高43,低31”。神经网络NLG模板选择过程可以基于用户语音的风格或情绪选择静态模板或者可以选择使用动态NLG模板。在后一种情况下,可以执行NLG模板生成过程以基于用户语音的风格或情绪生成动态NLG模板。
继续参考前两个示例,第一个NLG模板(详细的NLG模板)使用了一个模板化的句子,该句子适合于提供天气信息:“今天的天气具有最高温度的华氏度和最低温度的华氏度。”第二个NLG模板(直接NLG模板)使用模板化短语,该短语也适用于提供天气信息:“,高,低。”在此,“”是整体天气状况的占位符或输入字段,例如阴天、晴天、部分阴天等,“”是白天的高温,“”是白天的低温。此外,第一个用户说“你好,ASR系统”,并且因此,使用第一个NLG模板的机器学习NLG过程在NLG输出的开头附加了“你好”语句以匹配ASR输入。占位符或输入字段可以在短语或句子中保留可以插入响应通信值的位置。例如,low_temp的响应通信值可以是“31”,并且使用任一模板,可以将响应通信值插入到输入字段中。在一个实施例中,第一模板可以是静态模板,其被配置为当通信目标提供本地天气时以及当用户或用户的语音是详细的时候使用。在另一个实施例中,NLG过程可以确定不存在用于响应第一用户的适当静态模板,并且因此,可以基于来自第一用户的接收语音信号的详细的性质和/或其他信息、例如通信目标来形成动态模板。
包括上面讨论的子过程的机器学习NLG过程可以被实现为可以在各种不同的客户端设备上执行的计算机可执行应用,所述设备包括手持式移动设备(例如,智能电话)、家庭自动化设备(例如,诸如AmazonTM AlexaTM 和GoogleTM Home之类的智能个人助理)、车辆和/或可以接收语音、连接到远程计算机网络并且被配置为实现本文所讨论的机器学习NLG过程或应用的任何设备。在特定实施例中,车辆可以用作客户端设备以接收和执行机器学习NLG过程。在其他实施例中,机器学习NLG过程可以在远程设施处执行,该远程设施可以访问更多资源(例如,更多数据)和/或可以具有更高的处理能力。机器学习NLG过程(包括机器学习NLG模板选择过程)可以基于许多输入,所述输入包括用户历史、用户档案、通信目标和通信值。
参考图1,示出了包括通信系统10并且可以用于实现本文公开的方法的操作环境。通信系统10通常包括具有车身控制模块(BCM)26和无线通信设备30的车辆12、全球导航卫星系统(GNSS)卫星60的星座、一个或多个无线载波系统70、陆地通信网络76、计算机78、远程设施80和个人移动设备90。应当理解,所公开的方法可以与任何数量的不同系统一起使用,并且不具体限于本文示出的操作环境。而且,系统10的架构、构造、设置及其各个组件和一般操作在本领域中通常是已知的。因此,以下段落仅简要概述了一个这样的通信系统10;然而,本文未示出的其他系统也可以采用所公开的方法。
无线载波系统70可以是任何合适的蜂窝电话系统。载波系统70显示为包括蜂窝塔72;然而,载波系统70可以包括以下组件中的一个或多个(例如,取决于蜂窝技术):蜂窝塔、基站收发信机站、移动交换中心、基站控制器、演进节点(例如,eNodeB)、移动性管理实体(MME)、服务和PGN网关等,以及用于将无线载波系统70与陆地网络76连接或将无线载波系统与用户设备(例如,可包括车辆12中的远程信息处理设备的UE)连接所需的任何其他网络组件。载波系统70可以实现任何合适的通信技术,所述通信技术包括GSM/GPRS技术、CDMA或CDMA2000技术、LTE技术等。通常,无线载波系统70、它们的组件、它们的组件的布置、组件之间的交互等在本领域中通常为已知的。
除了使用无线载波系统70之外,可以使用呈卫星通信形式的不同无线载波系统来提供与车辆的单向或双向通信。这可以使用一个或多个通信卫星(未示出)和上行链路发送站(未示出)来完成。单向通信可以是例如卫星无线电服务,其中节目内容(新闻、音乐等)由上行链路发送站接收,打包以便上载,并然后发送到卫星,该卫星向用户广播节目。例如,双向通信可以是使用一个或多个通信卫星的卫星电话服务以中继车辆12和上行链路发送站之间的电话通信。如果使用的话,除了无线载波系统70之外或代替无线载波系统70,可以使用该卫星电话。
陆地网络76可以是传统的陆基电信网络,所述路基电信网络连接到一个或多个陆线电话并将无线载波系统70连接到远程设施80。例如,陆地网络76可以包括公用交换电话网(PSTN),例如用于提供硬接线电话、分组交换数据通信和因特网基础架构的公用交换电话网。陆地网络76的一个或多个段可以通过使用标准有线网络、光纤或其他光学网络、电缆网络、电力线,诸如无线局域网(WLAN)的其他无线网络或提供宽带无线接入(BWA)的网络或其任何组合来实现。
计算机78(仅示出一个)可以是通过诸如因特网的私人或公用网络可访问的许多个计算机中的一些。每个这样的计算机78可以是可以执行语音处理和/或机器学习NLG过程的至少一部分的客户端设备。其他这样的可访问计算机78可以是例如:服务中心计算机,其中可以从车辆上载诊断信息和其他车辆数据;由车辆所有者或其他用户用于访问或接收车辆数据或建立或配置用户偏好或控制车辆功能等目的的客户端计算机;汽车共享服务器,其协调来自请求使用车辆的多个用户的注册作为汽车共享服务的一部分;或者通过与车辆12、远程设施80或两者通信来向第三方资源库或从第三方资源库提供车辆数据或其他信息。计算机78还可以用于提供诸如DNS服务之类的因特网连接,或者用作使用DHCP或其他合适的协议来向车辆12分配IP地址的网络地址服务器。
远程设施80可以被设计为通过使用一个或多个电子服务器向车辆电子设备20和移动设备90提供许多不同的系统后端功能。例如,远程设施80可以部分地用于促进或协调在车辆12与一个或多个客户端设备(例如移动设备90或计算机78)之间发送的信息。在一个实施例中,远程设施80可以提供语音识别服务,其可以包括从客户端设备接收语音信号并使用语音识别系统处理接收的语音信号。另外或替代性地,远程设施80可以包括一个或多个交换机、服务器、数据库、现场顾问,以及自动语音应答系统(VRS),所有这些都是本领域已知的。远程设施80可以包括这些各种组件中的任何一个或全部,并且优选地,各种组件中的每一个经由有线或无线局域网彼此耦联。远程设施80可以经由连接到陆地网络76的调制解调器接收和发送数据。
远程设施80还可以包括一个或多个数据库,所述数据库可以存储帐户信息,例如用户认证信息、车辆标识符、档案记录、行为模式、语音识别和/或NLG信息(包括NLG模板数据库中的NLG模板),以及其他相关的用户信息。如本文所使用的那样,语音识别和/或NLG信息包括可用于训练语音识别或NLG系统的信息,例如下面详细讨论的机器学习NLG过程。在一些实施例中,远程设施80可以执行NLG过程的一个或多个步骤和/或可以通过例如向正在执行NLG过程的客户端设备提供有用信息来补充NLG过程。数据传输也可以由无线系统进行,例如IEEE802.11x、GPRS等。本领域技术人员将理解,尽管在所示实施例中仅描绘了一个远程设施80和一个计算机78,但是可以使用许多远程设施80和/或计算机78。
个人移动设备90是移动设备,并且可以包括:实现蜂窝电信和短程无线通信(SRWC)以及其他移动设备应用的硬件、软件和/或固件。如本文所使用的那样,个人移动设备是能够进行SRWC的移动设备,其可由用户携带,并且其中设备的可携带性至少部分地取决于用户,例如可穿戴设备(例如,智能手表)、可植入设备或手持设备(例如,智能手机、平板电脑,膝上型计算机)。如本文所使用的那样,短程无线通信(SRWC)设备是能够进行SRWC的设备。个人移动设备90可以是客户端设备,并且可以包括处理器和存储器(例如,被配置为与处理器一起操作的非暂时性计算机可读介质)以用于存储软件、固件等。个人移动设备的处理器和存储器可以启用各种软件应用程序92,其可以由用户(或制造商)预先安装或安装(例如,具有软件应用程序或图形用户界面(GUI))。
移动设备应用程序92的一种实施方式可以使用语音识别技术来接收语音和处理接收的语音,其中一些技术可以包括生成自然语言生成(NLG)响应。在一些实施例中,移动设备90可以是执行机器学习NLG过程的客户端设备。例如,移动设备90可以包括麦克风,该麦克风使得能够接收由一个或多个用户生成的语音波。在特定实施例中,可以根据下面讨论的神经网络NLG过程在移动设备处执行NLG模板选择。在一些实施例中,应用程序92或另一移动设备应用程序可包括图形用户界面(GUI),该图形用户界面允许用户输入凭证、提交用于授权和/或认证的凭证、连接到车辆12、查看车辆状态信息、请求待执行的车辆功能,和/或配置一个或多个车辆设置。移动设备90可以根据一种或多种SRWC技术或有线连接、例如使用通用串行总线(USB)电缆的连接与无线通信设备30通信。尽管示出了单个移动设备90,但是通信10可以包括多个移动设备90。
在所示实施例中,车辆12被描绘为乘用车,但是应当理解,所述车辆包括摩托车、卡车、运动型多用途车辆(SUV)、休闲车(RV)、海洋船只、飞机等也可以使用的任何其他车辆。一些车辆电子设备20总体上在图1中示出并且包括全球导航卫星系统(GNSS)模块22、发动机控制单元(ECU)24、车身控制模块(BCM)26、可被配置为执行机器学习NLG过程和/或语音识别处理的无线通信设备30、其他车辆系统模块(VSM)42以及许多其他组件和设备。可以连接一些或所有不同的车辆电子设备以通过一个或多个通信总线(例如总线44)彼此通信。通信总线44使用一个或多个网络协议为车辆电子设备提供网络连接。合适的网络连接的示例包括控制器区域网络(CAN)、面向媒体的系统传输(MOST)、本地互连网络(LIN)、局域网(LAN)以及其他适当的连接,例如以太网或其他符合已知的ISO、SAE和IEEE标准和规范的连接,仅举几例。
车辆12可以包括作为车辆电子设备20的一部分的多个车辆系统模块(VSM),例如GNSS模块22、ECU24、BCM 26、无线通信设备30和车辆用户界面52-58,如将在下文中详细描述的那样。车辆12还可以包括位于整个车辆中的呈电子硬件组件形式的其他VSM 42,其可以从一个或多个传感器接收输入并使用所感测的输入来执行诊断、监控、控制、报告和/或其他功能。每个VSM 42可以经由通信总线44连接到其他VSM,并且可以被编程为运行车辆系统和子系统诊断测试。一个或多个VSM 42可以周期性地或偶尔地更新其软件或固件,并且在一些实施例中,这种车辆更新可以是通过陆地网络76和通信设备30从计算机78或远程设施80接收的空中(OTA)更新。如本领域技术人员所理解的那样,上述VSM仅是可以在车辆12中使用的一些模块的示例,因为许多其他模块也是可能的。
全球导航卫星系统(GNSS)模块22从GNSS卫星的星座接收无线电信号。在一个实施例中,GNSS模块22可以是全球定位系统(GPS)模块,其可以从GPS卫星60的星座接收GPS信号。根据这些信号,模块22可以确定车辆位置,该车辆位置可以使车辆确定其是否处于已知位置、如家或工作场所。此外,GNSS模块22可以将该位置数据(例如,地理坐标)提供给无线通信设备30,该无线通信设备然后可以使用该数据来识别已知位置、例如车辆操作者的家或工作场所。另外,GNSS模块22可用于向车辆操作者提供导航和其他位置相关的服务。导航信息可以在显示器58(或车辆内的其他显示器)上呈现,或者可以口头呈现、例如在提供逐个转弯导航时完成。可以使用专用车载导航模块(其可以是GNSS模块22的一部分)来提供导航服务,或者可以通过安装在车辆中的远程信息处理单元来完成一些或所有导航服务,其中将位置信息发送到远程位置以用于向车辆提供导航地图、地图注释(兴趣点、餐馆等)、路线计算等。位置信息可以提供给远程设施80或其他远程计算机系统、例如计算机78以用于其他目的,例如车队管理和/或用于汽车共享服务。而且,新的或更新的地图数据可以经由车辆远程信息处理单元从远程设施80下载到GNSS模块22。
车辆电子设备20还包括为车辆乘员提供提供和/或接收信息的多个车辆用户界面,所述车辆用户界面包括按钮52、音频系统54、麦克风56和视觉显示器58。如本文所使用的那样,术语“车辆用户界面”广泛地包括任何合适形式的电子设备,其包括硬件和软件组件,其位于车辆上并且使车辆用户能够与车辆的组件通信或通过车辆的组件进行通信。按钮52允许手动用户输入通信设备30以提供其他数据、响应或控制输入。音频系统54向车辆乘员提供音频输出,并且可以是专用的独立系统或主要车辆音频系统的一部分。根据本文所示的特定实施例,音频系统54可操作地耦联到车辆总线44和娱乐总线(未示出),并且可以提供AM、FM和卫星无线电、CD、DVD和其他多媒体功能。该功能可以与信息娱乐模块一起提供或独立于信息娱乐模块提供。麦克风56向无线通信设备30提供音频输入,以使驾驶员或其他乘员能够通过无线载波系统70提供语音命令和/或进行免提呼叫,并且其可以使用语音识别技术进行处理,如更多下面所讨论的那样。麦克风56可以利用本领域已知的人机界面(HMI)技术连接到机载自动语音处理单元。视觉显示器或触摸屏58优选地是图形显示器、例如仪表板上的触摸屏或从挡风玻璃反射的抬头显示器,并且可用于提供多种输入和输出功能。还可以使用各种其他车辆用户界面,如图1的界面仅是一种特定实施方式的示例。
车身控制模块(BCM)26在图1的示例性实施例中示出为电耦联至通信总线44。在一些实施例中,BCM 26可以与中央堆栈模块(CSM)集成或者是其一部分和/或与无线通信设备30集成。或者,BCM和CSM可以是通过总线44彼此连接的独立设备。BCM 26可以包括处理器和/或存储器,其可以类似于无线通信设备30的处理器36和存储器38,如下所述。BCM 26可以与无线通信设备30和/或一个或多个车辆系统模块(例如GNSS 22、音频系统54或其他VSM42)通信。BCM 26的处理器和存储器可用于指导或执行一个或多个车辆操作,所述车辆操作包括例如控制中央锁定、空调、电动后视镜,控制车辆点火或主原动机(例如,发动机、主推进系统),和/或控制各种其他车辆模块。BCM 26可以从无线通信设备30接收数据,并且随后将数据发送到一个或多个车辆模块。
另外,BCM 26可以提供与车辆状态或某些车辆部组件或系统相对应的信息。例如,BCM可以向无线通信设备30提供指示车辆点火装置是否打开的信息、车辆当前所处的档位(即档位状态),和/或关于车辆的其他信息。BCM 26可用于确定一个或多个车辆状态,例如车辆是否通电、车辆电池的电池电量和/或其他车辆状态。这些各种车辆状态可以通过无线通信设备30获得并且用作机器学习NLG过程中的输入。例如,车辆可以识别出现在车辆内或附近的某些移动设备90,并且基于先前的用户设置或配置,车辆可以确定特定移动设备的存在指示特定用户靠近或在车辆处的高概率。该指示可以用于识别特定用户,使得车辆可以生成、选择和/或使用NLG模板来生成NLG输出。
无线通信设备30能够通过短程无线通信(SRWC)传送数据,并且在一些实施例中,能够通过蜂窝网络通信传送数据。如图1的示例性实施例中所示,无线通信设备30包括SRWC电路32、蜂窝芯片组34、处理器36、存储器38以及天线40和50。在一些实施例中,无线通信设备30可以被具体配置为执行本文公开的方法的至少一部分。在一个实施例中,无线通信设备30可以是独立模块,或者在其他实施例中,设备30可以作为一个或多个其他车辆系统模块的一部分并入或包括在内,例如中央堆栈模块(CSM)、BCM 26、信息娱乐模块、远程信息处理单元、主机单元和/或网关模块。在一些实施例中,设备30可以实现为安装在车辆中的OEM安装(嵌入式)或售后市场设备。
无线通信设备30可以被配置为根据一个或多个无线协议进行无线通信,所述协议包括短程无线通信(SRWC),诸如IEEE802.11协议、Wi-FiTM、WiMAXTM、ZigBeeTM、Wi-FidirectTM、蓝牙TM、蓝牙TM低功耗(BLE)或近场通信(NFC)中的任何一种。如本文所使用的那样,蓝牙TM指的是任何蓝牙TM技术,诸如蓝牙低功耗TM(BLE)、蓝牙TM 4.1、蓝牙TM 4.2、蓝牙TM5.0和可以开发的其他蓝牙TM技术。如本文所使用的那样,Wi-FiTM或Wi-FiTM技术指的是任何Wi-FiTM技术,例如IEEE802.11b/g/n/ac或任何其他IEEE802.11技术。短程无线通信电路32使无线通信设备30能够发送和接收SRWC信号、例如BLE信号。SRWC电路可以允许设备30连接到另一个SRWC设备。另外,在一些实施例中,无线通信设备可以包含蜂窝芯片组34,从而允许设备经由一个或多个蜂窝协议、例如蜂窝载波系统70所使用的协议来进行通信。
无线通信设备30可以使车辆12能够经由分组交换数据通信与一个或多个远程网络通信。可以通过使用经由路由器或调制解调器连接到陆地网络的非车辆无线接入点来执行该分组交换数据通信。当用于诸如TCP/IP的分组交换数据通信时,通信设备30可以配置有静态IP地址,或者可以被设置为从网络上的另一设备(例如路由器)或从网络地址服务器自动接收分配的IP地址。
还可以通过使用可以由设备30访问的蜂窝网络来执行分组交换数据通信。通信设备30可以经由蜂窝芯片组34通过无线载波系统70传送数据。在这样的实施例中,无线电传输可以用于与无线载波系统70建立通信信道、例如语音信道和/或数据信道,以便可以通过信道发送和接收语音和/或数据传输。数据可以通过数据连接发送、例如通过数据信道上的分组数据传输,或者使用本领域已知的技术通过语音信道进行发送。对于涉及语音通信和数据通信的组合服务,系统可以通过语音信道利用单个呼叫,并根据需要在语音信道上的语音和数据传输之间进行切换,这可以使用本领域技术人员已知的技术来完成。应当理解,移动设备90可以包括蜂窝芯片组和/或可以用于分组交换数据通信的其他通信装置。
处理器36可以是能够处理电子指令的任何类型的设备,所述设备包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(ASIC)。它可以是仅用于通信设备30,或者可以与其他车辆系统共享的专用处理器。处理器36执行各种类型的数字式存储指令、例如存储在存储器38中的软件或固件程序,这使得设备30能够提供各种各样的服务。例如,至少在一个实施例中,处理器36可以执行程序或处理数据以执行本文所讨论的方法的至少一部分,其可以包括使用神经网络模型执行NLG模板选择和/或生成。存储器38可以包括RAM、其他临时供电存储器、任何非暂时性计算机可读介质(例如,EEPROM),或存储执行本文所讨论的各种外部设备功能所需的一些或全部软件的任何其他电子计算机介质。
在一个实施例中,无线通信设备30可以在车辆处于通电状态时和车辆处于断电状态时运行。如本文所使用的那样,“通电状态”是这样的车辆的状态,其中车辆的点火或主推进系统通电,并且如本文所使用的那样,“断电状态”是这样的车辆的状态,其中车辆的点火或主推进系统未通电。无线通信设备30的操作或状态可以由另一车辆系统模块控制、例如通过BCM 26或由信息娱乐模块控制。在通电状态下,无线通信设备30可以始终保持“接通”或从车辆电池或其他电源供电。在断电状态下,无线通信设备30可以保持在低功率模式或者可以周期性地供电,使得设备30可以被唤醒并执行操作。
现在转向图2,示出了ASR系统210的说明性架构,其可用于实现当前公开的方法。尽管下面针对车辆12的无线通信设备30讨论ASR系统210,但是ASR系统210可以合并到任何客户端设备中,例如上面讨论的那些包括移动设备90和计算机78的客户端设备。与ASR系统210类似或相同的ASR系统可以合并到一个或多个远程语音处理服务器中,其包括位于远程设施80的一个或多个服务器。通常,车辆乘员与自动语音识别(ASR)系统进行口头交互以用于以下一个或多个基本目的:训练系统以理解车辆乘员的特定语音;存储离散语音,例如口头名称标签或口头控制字、比如数字或关键字;或者为任何合适的目的识别车辆乘员的语音,例如语音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等。通常,ASR从人类语音中提取声学数据,将声学数据与存储的子词数据进行比较和对比,选择可以与其他所选子词级联的适当子词,并输出级联的子词或词以用于后处理,例如口述或转录、地址簿拨号、存储到存储器、训练ASR模型或适配参数等。另外,至少在一些实施例中,ASR系统可用于执行机器学习NLG过程的至少一部分,其包括基于所选择的NLG模板选择NLG模板和/或生成NLG输出。
ASR系统通常是本领域技术人员已知的,并且图2仅示出了一个特定说明性ASR系统210。系统210包括用于接收语音的设备、例如车辆麦克风56,以及声学接口33、例如具有模数转换器的无线通信设备30的声卡以将语音数字化为声学数据。系统210还包括诸如车辆存储器38的存储器,以用于存储声学数据并存储语音识别软件和数据库,以及诸如车辆处理器36的用于处理声学数据的处理器。处理器与存储器一起工作并结合以下模块:一个或多个前端处理器或预处理器软件模块212,以用于将语音的声学数据流解析为诸如声学特征的参数表示;用于解码声学特征的一个或多个解码器软件模块214,以产生对应于输入语音发声的数字子词或字输出数据;以及一个或多个后处理器软件模块276,以用于使用来自解码器模块214的输出数据用于任何合适的目的。
系统210还可以从任何其他合适的音频源31接收语音,该语音可以如实线所示直接与预处理器软件模块212通信,或者通过声学接口33与其间接通信。音频源31可以包括例如电话音频源、例如语音邮件系统,或任何类型的其他电话服务。
一个或多个模块或模型可以用作解码器模块214的输入。首先,语法和/或词典模型278可以提供管理哪些词可以在逻辑上跟随其他词以形成有效句子的规则。从广义上讲,语法可以定义系统210在任何给定ASR模式中的任何给定时间所期望的词汇量。例如,如果系统210处于用于训练命令的训练模式,则语法模型278可以包括系统210已知和使用的所有命令。在另一示例中,如果系统210处于主菜单模式,则活动语法模型278可以包括系统210期望的所有主菜单命令,诸如呼叫、拨号、退出、删除、目录等。其次,声学模型280帮助选择对应于来自预处理器模块212的输入的最可能的子词或词。第三,词模型222和句子/语言模型224在将所选择的子词或词放入词或句子上下文中时提供规则、语法和/或语义。而且,句子/语言模型224可以定义系统210在任何给定时间在任何给定ASR模式下期望的句子范围,和/或可以提供规则等,从而控制哪些句子可以在逻辑上跟随其他句子以形成有效的持续语音。
根据替代性的说明性实施例,ASR系统210中的一些或全部可以驻留在远离车辆12的位置(例如计算机78或远程设施80)中的计算设备上并且使用计算设备进行处理。例如,语法模型、声学模型等可以存储在远程设施80中的服务器和/或数据库之一的存储器中,并且被传送到车辆无线通信设备30以用于车载语音处理。类似地,可以使用远程设施80中的远程服务器之一的处理器来处理语音识别软件。换句话说,ASR系统210可以驻留在无线通信设备30中、以任何期望的方式分布在计算机78/远程设施80和车辆12上,和/或驻留在计算机78或远程设施80处。
首先,从人类语音中提取声学数据,其中车辆乘员对着麦克风56说话,麦克风56将发声转换成电信号并将这些信号传送到声学接口33。麦克风56中的声音响应元件将乘员的语音发声捕获为气压的变化,并将发声转换成模拟电信号(例如直流或电压)的相应变化。声学接口33接收首先被采样的模拟电信号,使得模拟信号的值在离散的时刻被捕获,并且然后被量化,使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说,声学接口33将模拟电信号转换为数字电子信号。数字数据是二进制位,其被缓冲在无线通信设备30的存储器38中,并且然后由无线通信设备30的处理器36处理,或者可以在它们最初由处理器36实时接收时进行处理。
其次,预处理器模块212将连续的数字语音数据流转换为离散的声学参数序列。更具体地,处理器36执行预处理器模块212以将数字语音数据分段成重叠的语音或声学帧、例如10-30毫秒(ms)的持续时间。这些帧对应于声学子词,例如音节、半音节、音素、双音素、音素集等。预处理器模块212还执行语音分析以从每个帧内从乘员的语音中提取声学参数、例如时变特征向量。乘员语音中的发声可以表示为这些特征向量的序列。例如,并且如本领域技术人员所知,可以提取特征向量,并且可以包括例如可以通过执行帧的傅里叶变换而获得的声音音调、能量分布、频谱属性和/或倒谱系数,并且使用余弦变换去相关化声学谱。将覆盖特定语音持续时间的声学帧和相应参数级联成待解码的未知语音测试模式。
第三,处理器执行解码器模块214以处理每个测试模式的传入特征向量。解码器模块214也称为识别引擎或分类器,并使用存储的已知语音参考模式。与测试模式一样,参考模式被定义为相关声学帧和相应参数的级联。解码器模块214将待识别的子词测试模式的声学特征向量与存储的子词参考模式进行比较和对比,评估其间的差异或相似性的大小,并最终使用决策逻辑来选择与所识别的子词最佳匹配的子词。通常,最佳匹配子词是对应于存储的已知参考模式的子词,该参考模式与通过本领域技术人员已知的各种技术中的任何技术确定的测试模式具有最小不相似性或最高概率以分析和识别子词。这些技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器,例如隐马尔可夫模型(HMM)引擎。
HMM引擎对于本领域技术人员而言是已知的,其用于产生声学输入的多个语音识别模型假设。在最终识别和选择识别输出时考虑假设,该识别输出表示通过语音的特征分析对声学输入的最可能的正确解码。更具体地,HMM引擎生成呈“N最佳”子词模型假设列表的形式的的统计模型,所述子词模型假设列表根据HMM计算的置信度值或给定的一个或另一个子词的观察到的声学数据的序列的概率进行排序,例如通过贝叶斯定理的应用。
对于给定的声学特征向量的观察序列,贝叶斯HMM过程识别对应于最可能的发声或子词序列的最佳假设,并且其置信度值可取决于多种因素,所述因素包括与传入的声学数据相关联的声学信噪比。HMM还可以包括称为对角高斯混合的统计分布,其产生每个子词的每个观察到的特征向量的似然性分数,所述分数可以用于对N最佳假设列表重新排序。HMM引擎还可以识别和选择其模型的似然性分数最高的子词。
以类似的方式,可以级联用于子词序列的各个HMM以建立单个或多个词HMM。此后,可以生成并进一步评估单个或多个词参考模式和相关参数值的N最佳列表。
在一个示例中,语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量,从而生成参考模式的N最佳列表。如本文所使用的那样,术语参考模式可与模型、波形、模板、富集型信号模型、范例、假设或其他类型的参考互换。参考模式可以包括表示一个或多个词或子词的一系列特征向量,并且可以基于特定的说话者、说话风格和可听的环境条件。本领域技术人员将认识到,参考模式可以通过ASR系统的适当参考模式训练生成并存储在存储器中。本领域技术人员还将认识到,可以操纵存储的参考模式,其中参考模式的参数值基于参考模式训练和ASR系统的实际使用之间的语音输入信号的差异进行调整。例如,基于来自不同车辆的乘员或不同的声学条件的有限量的训练数据,可以调整针对一个车辆乘员或某些声学条件训练的一组参考模式并将其保存为用于不同车辆乘员或不同声学条件的另一组参考模式。换句话说,参考模式不一定是固定的,并且可以在语音识别期间进行调整。
使用词汇表语法和任何合适的解码器算法和声学模型,处理器从存储器访问解释测试模式的若干参考模式。例如,处理器可以生成N最佳词汇表结果或参考模式的列表以及相应的参数值,并将其存储到存储器。说明性参数值可以包括词汇表的N最佳列表和相关联的分段持续时间、似然性分数、信噪比(SNR)值等中的每个参考模式的置信度分数。可以通过参数值的下降量来排序词汇表的N最佳列表。例如,具有最高置信度分数的词汇表参考模式是第一个最佳参考模式,依此类推。一旦建立了一串识别的子词,它们就可用于构造具有来自词模型222的输入的词并用来自语言模型224的输入构造句子。
最后,后处理器软件模块276接收来自解码器模块214的输出数据以用于任何合适的目的。在一个示例中,后处理器软件模块276可以从作为识别的语音的单个或多个词参考模式的N最佳列表中识别或选择所述参考模式中的一个。在另一示例中,后处理器模块276可用于将声学数据转换成与ASR系统或其他车辆系统的其他方面一起使用的文本或数字。在进一步的示例中,后处理器模块276可用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器276可用于训练解码器模块214的声学模型,或训练预处理器模块212的适配参数。
至少在一些实施例中,ASR系统还可以与自然语言生成(NLG)系统合并,该系统可以执行本文所讨论的机器学习NLG过程。在其他实施例中,机器学习NLG过程可以是单独模块的一部分和/或可以使用不同的组件或系统来执行。而且,NLG过程可以在不同位置和/或使用不同组件来执行。在一个实施例中,车辆或其他客户端设备可用于执行整个NLG过程,或者在另一实施例中,远程服务器或设施可用于执行整个NLG过程。在其他实施例中,客户端设备和远程服务器或设施的组合可用于执行NLG过程。例如,可以在远程设施80处执行NLG模板的选择,而可以在车辆或其他客户端设备处执行NLG模板的生成和/或使用NLG模板生成NLG输出。如本领域技术人员根据下面的讨论将理解的那样,存在各种其他实施例。
并且,从下面的讨论中也可以明显看出,ASR系统和/或机器学习NLG应用可以包括在客户端设备(例如,车辆12或移动设备90)中,和/或包括在服务器设备(例如,位于远程设施80处的服务器)中。至少根据一些实施例,位于远程服务器处的ASR系统可以包括更多处理能力,以及可以用于提供比位于客户端设备处的ASR系统更强大的ASR系统的更多语音识别信息;然而,如本领域技术人员将理解的那样,存在其他实施例。
机器学习NLG过程或其部分可以在计算机可读介质中包含的计算机程序产品(或“应用程序”)中实现,并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用的指令。该计算机程序产品可以包括一个或多个软件程序,该软件程序由源代码中的程序指令、目标代码、可执行代码或其他格式组成;一个或多个固件程序;或硬件描述语言(HDL)文件;和任何程序相关的数据。数据可以包括数据结构、查找表或任何其他合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、组件和/或类似物。计算机程序可以在一台计算机上或在彼此通信的多台计算机上执行。
程序可以体现在计算机可读介质上,该计算机可读介质可以是非暂时性的并且可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括计算机系统存储器,例如RAM(随机存取存储器)、ROM(只读存储器);半导体存储器,例如EEPROM(可擦除、可编程ROM)、EEPROM(电可擦除、可编程ROM)、闪存;磁盘、光盘或磁带;和/或等等。计算机可读介质还可以包括计算机到计算机的连接,例如,当通过网络或另一通信连接(有线、无线或其组合)传输或提供数据时。上述示例的任何组合也包括在计算机可读介质的范围内。因此,应该理解,该方法可以至少部分地由能够执行与所公开方法的一个或多个步骤相对应的指令的任何电子制品和/或设备来执行。另外,ASR系统或其部分可以体现在计算机程序产品中,其类似于可以体现机器学习NLG过程的计算机程序产品。
现在转向图3,示出了生成自然语言生成(NLG)输出的方法300的实施例。方法300通常可用于接收语音信号,使用机器学习NLG模板选择过程确定是使用静态NLG模板还是动态NLG模板,并使用选定的NLG模板生成NLG输出。机器学习NLG模板选择过程可以导致确定使用动态模板,并且在这种情况下,可以执行NLG模板生成过程以创建动态NLG模板。然后,在根据需要选择和/或生成NLG模板之后,至少在一些实施例中,可以使用所选择的NLG模板生成NLG输出。关于方法300的特定实施例,讨论了神经网络NLG过程,其是使用人工神经网络来执行NLG模板选择过程、NLG模板生成过程和/或NLG输出生成过程的机器学习NLG过程。本领域技术人员将理解,可以使用其他机器学习技术来执行机器学习NLG过程,其包括决策树学习、关联规则学习、深度学习、归纳逻辑编程、聚类、贝叶斯网络以及各种其他。
机器学习NLG过程可以在车辆12中的无线通信设备30的处理器36上实现和/或可以在车辆12的另一个VSM上实现。通过用机器学习NLG应用程序配置设备30,可以在无线通信设备30(或其他VSM)上实现机器学习NLG过程,该应用程序可以是软件和/或固件指令的形式或者是计算机程序产品的一部分。机器学习NLG应用程序可以在远程设施(例如,远程设施80)初始配置和/或编译,并且可以通过使用设置过程或可以在车辆12(或其他客户设备)的销售之前、期间或之后进行的初始制造过程安装在无线设备30(或其他客户端设备)上。在一些实施例中,机器学习NLG模板选择过程可以在远程设施处实现,并且机器学习NLG输出生成过程可以在客户端设备处实现;然而,这仅是一个示例,因为本领域技术人员将根据下面的讨论认识到各种其他实施方式。
至少在一个实施例中,机器学习NLG应用程序最初可以包括成组的计算机指令和成组的初始NLG信息、例如包括包括多个预定义或静态NLG模板的NLG模板信息。机器学习NLG模板选择过程可以以计算机应用程序的形式在客户端设备上实现,因此可以称为机器学习NLG模板选择应用程序。另外,可以为特定用户生成动态NLG模板,并且基于从该用户接收的语音信号和/或基于用户档案,可以更新动态NLG模板以更好地反映适合于特定用户的NLG模板。当客户端设备或通信系统首先识别新用户时,可以基于用户设置选择预定义模板。在随后的机器学习NLG过程迭代期间,NLG模板选择过程可以基于用户的档案和/或用户的历史为用户选择模板,其可以在包括NLG过程的ASR过程期间被保存。可以使用用户的历史选择静态NLG模板或动态NLG,并且当选择动态NLG模板时,可以基于使用的历史、用户的档案和设置、接收的语音信号以及通信目标来来生成动态NLG模板。用户的历史可以包括关于先前机器学习NLG过程迭代(包括与机器学习NLG过程迭代相关联的输入、输出和性能度量)、先前接收的语音信号,以及对先前使用的语音信号(包括风格、情绪、方言和/或语音的特征)的分析的信息。用户的档案可以包括用户先前发送的一种或多种语音信号风格、由用户选择的一种或多种风格,或者与用户的语音有关的其他信息。在一个实施例中,用户的档案可以包括用户倾向于与其他人交谈的典型语音风格。例如,第一用户可以详细地说话,因此,用户档案可以包括对此的指示。
另外,可以为不同类型的用户设计和/或预定义各种NLG模板,所述模板包括:使用完整句子和/或更多啰嗦的短语的详细的NLG模板;使用短语和/或减少量的词的直接NLG模板;正式的NLG模板,其包含使用正式语言的预定义语句或短语;非正式的NLG模板,其包括使用非正式或随意的语言的预定义语句或短语;清晰说话的NLG模板,其可以产生被设计为如此清晰的NLG音频输出,使得例如听力或理解能力受损或低于平均水平的人更有可能解释NLG输出;和/或使用流行的(hip)措辞的新潮NLG模板。可以选择这些预定义模板中的一个用作新用户的起点。用户可以配置他们的用户档案和/或设置以选择起始模板,或者系统可以自动选择其确定最适合用户的模板。
可以使用各种训练信息生成和/或初始训练机器学习NLG应用程序,所述信息包括从机器学习NLG过程的先前迭代收集的信息。在一些实施例中,可以使用各种统计算法来训练神经网络NLG应用程序。可以周期性地更新和/或训练机器学习NLG应用程序,以便改进NLG输出的生成。这可以包括使用先前NLG过程迭代的输入和输出(以及性能指标)作为机器学习NLG过程的训练信息。另外,其他训练信息(例如,输入组及其对应或期望的输出)以及更新的软件/固件指令可以从远程服务器(例如,远程设施80)发送到客户端设备。在一个实施例中,机器学习NLG模板选择过程可以选择静态NLG模板,直到机器学习NLG过程被充分训练,使得可以生成准确反映对应于接收到的语音信号或用户的档案/历史的响应的风格或类型的动态模板。
可以在机器学习NLG应用程序安装在客户端设备上之前和/或在机器学习NLG应用程序被配置为在客户端设备中使用之前执行机器学习NLG过程或应用程序的训练。此外,初始训练可以是使用从先前的NLG模型获得的训练信息(输入、输出和输出的准确性)的监督训练。在其他实施例中,初始训练可以是无监督训练。初始训练可以在远程设施(例如远程设施80)处执行,并且当初始训练完成并且客户端设备准备好配置使用时,可以安装机器学习NLG应用程序。机器学习NLG应用程序可以作为语音识别应用程序的一部分或模块包括在内,并且可以以与上述ASR系统类似的方式执行和/或集成。
在将神经网络用于机器学习NLG过程的实施例中,浅层神经网络或深度神经网络可以用于神经网络NLG过程。如本文所使用的那样,浅层神经网络包括单个隐藏层,而深度神经网络包括多个隐藏层。神经网络的每个层可以包括一个或多个节点,每个节点可以映射到同一隐藏层内的一个或多个其他节点,映射到另一个隐藏层内的一个或多个其他节点,或映射到一个或多个输出节点。
例如,图4描绘了可以在神经网络NLG模板选择过程或应用程序中使用的示例神经网络模型。神经网络模型100包括成组的输入节点102-108、神经网络(或机器学习)输出节点122-124,以及包括节点110-118的隐藏层。该成组的输入节点102-10可以各自对应于不同的输入,其包括通信目标(102)、通信值(104)、用户档案(106)和用户历史(108)。隐藏层(包括节点110-118)可用于将输入映射到适当的输出。神经网络NLG模板选择节点122-124可以对应于NLG模板、诸如静态或预定义NLG模板或动态NLG模板。在一个实施例中,输出122和124可以各自与指示用于使用静态NLG模板(输出122)的后验概率以及用于使用动态NLG模板(输出124)的后验概率的概率或统计度量相关联。模板生成选择过程可以选择具有最高概率的模板。可以在机器学习NLG模板选择过程中使用各种统计模型。另外,尽管参考神经网络NLG模板选择过程讨论了神经网络模型100,但神经网络模型也可以用于其他过程,所述过程包括神经网络NLG模板生成过程和神经网络NLG输出生成过程。
方法300开始于步骤310,其中在客户端设备处接收语音信号。如上所述,客户端设备可以是各种设备之一,所述设备包括车辆12、移动设备90和/或计算机78;然而,使用车辆12作为客户端设备来讨论方法300。车辆12可以使用无线通信设备30处的麦克风56接收语音信号。可以对语音信号进行采样,以便可以由处理器36获得并使用语音信号的数字表示。采样可以在麦克风56、无线通信设备30或车辆12的另一个VSM处执行。一旦接收并采样了语音信号,方法300就继续到步骤320。
在步骤320中,识别发送语音信号的用户或可能的用户。在一个实施例中,根据各种用户的历史来处理所接收的语音信号,并且基于该处理,可以将特定用户识别为发送语音。或者,系统可以确定特定用户发送语音信号的概率,并且当概率高于特定阈值或高于关于其他用户的所有其他概率时,于是系统可以确定用户可能发送了语音信号。这些概率可以基于用户的历史和/或档案,其可以包括与用户的先前的语音信号有关的信息。在特定实施例中,可以生成用于特定用户的语音的指纹并将其用于识别特定用户。
替代性地或另外地,客户端设备(例如车辆)的状态可以用于确定发送了语音信号的用户或可能的用户。在一种情况下,客户端设备可以是属于单个用户的智能手机,并且因此,系统可能倾向于确定用户或可能的用户是智能手机的单个用户并因此发送语音信号。在另一个实施例中,车辆可以通过例如确定哪个钥匙用于启动车辆,车辆的哪个座位被占用,和/或哪个个人移动设备位于车辆中或处于车辆附近来确定车辆中存在哪些用户当前在车辆处。也可以使用其他各种车辆状态。一旦识别出特定用户,方法300就继续到步骤330。
在步骤330中,基于接收的语音信号确定通信目标。如本文所使用的那样,通信目标表示尝试使用所接收的语音信号传送到ASR系统的意图。如上所述,可以通过使用ASR系统210来确定意图。这可以包括执行各种语音识别技术,并且然后使用后处理技术来确定寻求由用户传达的意图。这些后处理技术可以包括使用自然语言理解(NLU)处理技术或可以解释接收的语音信号的对话管理器。一旦通信目标由NLU系统或对话管理器确定,就可以保存通信目标并将其与所识别的用户相关联。
在一些实施例中,可以从接收的语音获得通信值。从接收的语音获得的这些通信值可以称为输入的通信值。如本文所使用的那样,通信值是特定于接收的语音或NLG输出或响应的值/诸如作为NLG输出的主题的那些值(例如,当前温度、用户或商店的地址和名称)。适当的名词、情境或用户特有的特征以及其他动态信息可被视为通信值。例如,用户可能会问“密歇根州的罗亚尔奥克的天气怎么样?”城市名称“罗亚尔奥克”和州名“密歇根”可以被视为通信值,而通信目标是接收与输入的通信值(或密歇根州的罗亚尔奥克)有关的天气信息。可以使用自然语言理解(NLU)系统将通信值识别为包含在接收的语音信号中的独特的或动态的信息。至少在一些实施例中,这些通信值可以用作神经网络NLG模板选择过程的输入,如下面在步骤350中所讨论的那样。另外,如下面将更详细讨论的那样,可以获得通信值用于插入到NLG模板的输入字段中。为插入到NLG模板的输入字段中而获得的这些通信值可以称为响应通信值。方法300继续到步骤340。
在步骤340中,确定是否要生成NLG输出或响应。在一些情况中,ASR系统可以接收语音信号并执行操作,但是可能不需要生成和发送NLG输出,因为例如操作的执行本身就说明了一切-即,执行操作将导致充分地向用户传达了语音被准确地解释的指示和/或导致用户的期望操作。可以通过分析在步骤330中确定的通信目标来确定是否要生成响应。然而,一些通信目标可能需要或由NLG输出或响应补充,例如用户使用语音信号查询系统的那些,并且基于用户使用他们的语音询问问题的事实,可以确定应该或者优选地使用语音将查询结果传达给用户。因此,如果确定要生成NLG输出或响应,则方法300继续到步骤350;否则,方法300结束。
在步骤350中,选择用于生成NLG输出的自然语言生成(NLG)模板。在一些实施例中,使用神经网络NLG模板选择过程来选择NLG模板,其中神经网络NLG模板选择过程使用人工神经网络来解析成组的输入以选择用于生成NLG输出的NLG模板。在执行神经网络NLG模板选择过程之前,可以获得将在神经NLG模板选择过程中使用的成组的输入。该成组的输入可以包括通信目标、与用户相关联的用户历史,或与用户相关联的用户档案。
根据一个实施例,该成组的输入包括通信目标(例如,在步骤330中确定的通信目标),通信值、来自用户的档案的信息和/或来自用户的历史的信息。这些度量中的任何一个或多个可以在到达步骤350时确定,或者可以在先前时间确定并保存在位于客户端设备处的存储器、例如无线通信设备30的存储器38。根据后一种情况,在到达步骤350之后,可以从存储器设备调用将在机器学习NLG过程的成组的输入中使用的一个或多个度量。在一个实施例中,用户的历史可以包括识别先前风格、方言或与先前使用来自用户的语音有关的特征信息的信息。另外,基于从用户接收的语音或由用户配置的其他设置,与用户相关联的风格档案可以用作神经网络模板选择过程的输入。
一旦获得了神经网络NLG模板选择过程的所有输入,就可以执行神经网络NLG模板选择过程。在一些实施例中,神经网络NLG模板选择过程可用于:(i)确定是使用静态NLG模板还是动态NLG模板;(ii)当确定将使用静态NLG模板时,则从多个静态NLG模板中选择静态NLG模板;以及(iii)当确定将使用静态NLG模板时,然后生成动态NLG模板,其可以使用NLG模板生成过程来执行(步骤360)。这些步骤中的任何一个或全部可以在客户端设备、例如车辆12处执行。或者,这些步骤中的任何一个或全部可以在远程服务器(例如,包括在远程设施80处的那些远程服务器)处执行。在一个实施例中,客户端设备可以向位于远程设施80的NLG模板数据库查询与特定用户的交互风格(例如,正式的、非正式的、详细的、直接的和讲话到点的)匹配的预定义或静态NLG模板。可以使用通信目标、用户的风格、来自所接收的语音的通信值和/或将在NLG输出中使用的通信值来查询NLG模板数据库。
在许多实施例中,选择与用户的词汇表、风格、措辞和/或特征匹配的模板。当预定义或静态NLG模板不足以匹配用户的这些属性时,模板选择过程可确定生成并使用动态NLG模板。如果选择使用动态NLG模板,则方法300继续到步骤360;否则,如果将使用预定义或静态NLG模板,则方法300继续到步骤370。
在步骤360中,当确定将使用动态NLG模板来生成NLG输出时,则生成动态NLG模板。这可以包括生成特别是用于通信目标的NLG模板并使用将在NLG输出中使用的确定的风格。在一些实施例中,用于神经网络NLG模板选择过程的成组的输入可以用于用于生成动态NLG模板的神经网络NLG模板生成过程。动态模板可以基于可以根据用户的风格或特征进行修改的预定义或静态NLG模板。例如,如果用户被认为是详细的并且使用特定类型的方言或措辞,则该过程可以以详细的静态NLG模板开始。此后,可以根据用户的特定风格来修改详细的静态NLG模板,以便生成更好地符合用户的风格的动态NLG模板。在其他实施例中,可以使用基于规则的方法而不是神经网络方法来生成动态模板。基于规则的方法可以使用关于某些预定义模板、语音的风格或情绪、用户历史、用户档案、通信目标和/或通信值的成组的预定义规则。可以遵循这些规则以开发动态NLG模板。一旦生成动态NLG模板,方法300就继续到步骤370。
在步骤370中,生成基于所选择的NLG模板的NLG输出。可以通过使用来自所选择的NLG模板的模板化短语或句子来生成NLG输出,并且然后将要传达的通信值插入到所述模板化短语和句子内的某些指定输入字段中。可以获得通信值,并且可以基于用户的风格和/或情绪。可以基于向可以处理请求并返回通信值的远程服务器发送通信值请求来获得通信值。例如,通信值请求可以包括通信目标的指标和包括在所接收的语音信号中的通信值。然后可以查询远程服务器,以便提供满足在接收的语音信号中传达的用户的请求或意图的适当响应(即,通信值响应)。可以接收通信值响应并与所选择的NLG模板一起使用以生成NLG输出。一旦生成NLG输出,就可以使用例如扬声器或其他音频回放设备(例如,车辆12的音频系统54)将NLG输出传送给用户。在其他实施例中,NLG输出可以包括显示在屏幕(例如,车辆12的触摸屏58)上的文本。
如上所述,至少在一些实施例中,神经网络NLG过程和/或应用程序(以及子过程)可以基于先前的迭代进行调整。在一个实施例中,神经网络NLG模板选择过程可以通过保留给定迭代的成组的输入和给定迭代的NLG输出来进行调整。另外,客户端设备可以基于一个或多个性能指标来确定给定迭代的测量成功。性能指标可以包括用于执行语音识别或机器学习NLG过程所花费的时间、将NLG输出的风格或情绪与接收的语音信号的风格或情绪进行匹配的准确性,和/或NLG模板选择和/或生成过程的准确性和/效率的其他指示。在一些实施例中,该成组的输入中的任何一个或多个可以用作性能指标。然后方法300结束。
应理解,前述内容是对本发明的一个或多个实施例的描述。本发明不限于本文所公开的特定实施例,而是仅由下面的权利要求限定。此外,前面描述中包含的语句涉及特定实施例,并且不应被解释为对本发明范围的限制或权利要求中使用的术语的定义,除非以上明确定义术语或短语。对于本领域技术人员来说,各种其他实施例以及对所公开的实施例的各种改变和修改将是显而易见的。所有这些其他实施例、改变和修改旨在落入所附权利要求的范围内。
如在本说明书和权利要求书中所使用的那样,术语“例”、“例如”、“比如”、“诸如”和“等”,以及动词“包含”、“具有”、“包括”以及他们的其他动词形式当与一个或多个组件或其他项目的列表结合使用时,每个都被解释为开放式的,这意味着该列表不被视为排除其他附加组件或项目。其他术语应使用其最广泛的合理含义来解释,除非它们用于需要不同解释的上下文中。此外,术语“和/或”应被解释为包含性的或。作为示例,短语“A、B和/或C”包括:“A”;“B”;“C”;“A和B”;“A和C”;“B和C”;以及“A、B、和C。”。
Claims (10)
1.一种生成自然语言生成NLG输出的方法,其中,所述方法包括:
在客户端设备的麦克风处接收来自用户的语音信号;
基于所接收的语音信号确定所请求的通信目标和至少一个输入的通信值;
确定使用静态自然语言生成NLG模板或动态NLG模板来生成NLG输出,其中使用神经网络NLG模板选择过程来确定是使用静态NLG模板还是动态NLG模板;
在确定是使用静态NLG模板还是动态NLG模板之后选择NLG模板;以及
基于所选择的NLG模板生成NLG输出。
2.根据权利要求1所述的方法,所述方法还包括识别发送所述语音信号的用户或可能的用户的步骤,其中基于所识别的用户或可能的用户的历史和/或所识别的用户或可能的用户的档案来执行所述神经网络NLG模板选择过程。
3.根据权利要求2所述的方法,其中,基于所识别的用户或可能的用户的所述历史和/或所识别的用户或可能的用户的所述档案来选择所选择的NLG模板,并且其中所述方法还包括基于所接收的语音信号、所识别的用户或可能的用户的所述历史,和/或所识别的用户或可能的用户的所述档案来识别风格的步骤,并且其中所识别的风格被用在所述神经网络NLG模板选择过程中。
4.根据权利要求1所述的方法,所述方法还包括以下步骤:当确定要使用动态NLG模板来生成所述NLG输出时,使用NLG模板生成过程来生成所述动态NLG模板。
5.根据权利要求4所述的方法,其中,基于所述通信目标和一个或多个获得的通信值生成所述动态NLG模板,并且其中所述方法还包括识别发送所述语音信号的用户或可能的用户的步骤,其中,所述动态NLG模板基于与所述用户或可能的用户相关联的用户信息生成,并且其中所述用户信息包括用户历史信息或用户档案信息中的任一个或两者。
6.根据权利要求5所述的方法,其中,所述NLG模板生成过程是基于规则的NLG模板生成过程或神经网络NLG模板生成过程。
7.根据权利要求1所述的方法,还包括以下步骤:
向远程服务器发送通信值请求,其中所述通信值请求是用于获得将在所述NLG输出中使用的并且基于所述通信目标和输入的通信值的响应通信值的请求;以及
从所述远程服务器接收通信值响应,其中所述通信值响应包括将在生成所述NLG输出中使用的响应通信值。
8.根据权利要求1所述的方法,所述方法还包括基于所述神经网络NLG模板选择过程的先前迭代来调整所述神经网络NLG模板选择过程的步骤。
9.根据权利要求8所述的方法,其中,所述调整步骤还包括基于成组的输入、所述NLG输出以及所述神经网络NLG模板选择过程的测量成功来调整所述神经网络NLG模板选择过程,其中所述成组的输入包括所述通信目标、所输入的通信值,以及与发送所述语音信号的用户或可能的用户有关的信息。
10.一种生成自然语言生成NLG输出的方法,其中,所述方法包括:
在客户端设备的麦克风处接收来自用户的语音信号;
识别发送所述语音信号的用户或可能的用户;
基于所接收的语音信号确定通信目标和至少一个输入的通信值;
确定是使用静态NLG模板还是动态NLG模板以用于生成NLG输出,其中使用神经网络NLG模板选择过程来确定是使用静态NLG模板还是动态NLG模板,其中所述神经网络NLG模板选择过程使用人工神经网络来解析成组的输入以选择是使用静态NLG模板还是动态NLG模板来用于生成NLG输出,并且其中所述成组的输入包括所述通信目标、所输入的通信值,以及与所述用户相关联的用户历史或与所述用户相关联的用户档案;
在确定使用静态NLG模板的情况下,选择静态NLG模板;
当确定使用动态NLG模板时,生成所述动态NLG模板;以及
使用所选择的NLG模板生成所述NLG输出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/811,204 US10380992B2 (en) | 2017-11-13 | 2017-11-13 | Natural language generation based on user speech style |
US15/811204 | 2017-11-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109785828A CN109785828A (zh) | 2019-05-21 |
CN109785828B true CN109785828B (zh) | 2023-05-23 |
Family
ID=66335771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811315856.2A Active CN109785828B (zh) | 2017-11-13 | 2018-11-06 | 基于用户语音风格的自然语言生成 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10380992B2 (zh) |
CN (1) | CN109785828B (zh) |
DE (1) | DE102018128006B4 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11288328B2 (en) | 2014-10-22 | 2022-03-29 | Narrative Science Inc. | Interactive and conversational data exploration |
US10755053B1 (en) | 2017-02-17 | 2020-08-25 | Narrative Science Inc. | Applied artificial intelligence technology for story outline formation using composable communication goals to support natural language generation (NLG) |
US11954445B2 (en) | 2017-02-17 | 2024-04-09 | Narrative Science Llc | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US11568148B1 (en) | 2017-02-17 | 2023-01-31 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
AU2019207800A1 (en) * | 2018-01-10 | 2020-08-06 | Qrs Music Technologies, Inc. | Musical activity system |
US11023689B1 (en) | 2018-01-17 | 2021-06-01 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service with analysis libraries |
US11182556B1 (en) | 2018-02-19 | 2021-11-23 | Narrative Science Inc. | Applied artificial intelligence technology for building a knowledge base using natural language processing |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US10782986B2 (en) | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11307880B2 (en) * | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US12027161B2 (en) * | 2018-05-01 | 2024-07-02 | Ntt Docomo, Inc. | Dialogue device |
US10963627B2 (en) * | 2018-06-11 | 2021-03-30 | Adobe Inc. | Automatically generating digital enterprise content variants |
US10706236B1 (en) | 2018-06-28 | 2020-07-07 | Narrative Science Inc. | Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system |
WO2020060151A1 (en) * | 2018-09-19 | 2020-03-26 | Samsung Electronics Co., Ltd. | System and method for providing voice assistant service |
US10839167B2 (en) | 2018-12-04 | 2020-11-17 | Verizon Patent And Licensing Inc. | Systems and methods for dynamically expanding natural language processing agent capacity |
US11341330B1 (en) | 2019-01-28 | 2022-05-24 | Narrative Science Inc. | Applied artificial intelligence technology for adaptive natural language understanding with term discovery |
US11854538B1 (en) * | 2019-02-15 | 2023-12-26 | Amazon Technologies, Inc. | Sentiment detection in audio data |
JP2022544984A (ja) | 2019-08-21 | 2022-10-24 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ヒト話者の埋め込みを会話合成に適合させるためのシステムおよび方法 |
US11562744B1 (en) * | 2020-02-13 | 2023-01-24 | Meta Platforms Technologies, Llc | Stylizing text-to-speech (TTS) voice response for assistant systems |
CN111614398B (zh) * | 2020-05-12 | 2021-06-11 | 北京邮电大学 | 基于异或神经网络的调制格式及信噪比识别方法及装置 |
CA3176443A1 (en) | 2020-07-13 | 2022-01-20 | Ai21 Labs | Controllable reading guides and natural language generation |
CN112233671A (zh) * | 2020-08-28 | 2021-01-15 | 广州南方卫星导航仪器有限公司 | 基于方言识别的gnss接收机控制方法、装置、设备及介质 |
EP4229788A4 (en) * | 2020-10-13 | 2024-07-03 | Qualcomm Inc | METHOD AND APPARATUS FOR MANAGING AN ML PROCESSING MODEL |
US12019720B2 (en) * | 2020-12-16 | 2024-06-25 | International Business Machines Corporation | Spatiotemporal deep learning for behavioral biometrics |
WO2023215260A1 (en) * | 2022-05-02 | 2023-11-09 | Ai21 Labs | Reading assistant |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693725A (zh) * | 2011-03-25 | 2012-09-26 | 通用汽车有限责任公司 | 依赖于文本信息语境的语音识别 |
CN103123648A (zh) * | 2011-12-30 | 2013-05-29 | 微软公司 | 在划定区域中呈现丰富的搜索结果 |
WO2016166417A1 (en) * | 2015-04-13 | 2016-10-20 | Equivalentor Oy | Method for generating natural language communication |
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN107329996A (zh) * | 2017-06-08 | 2017-11-07 | 三峡大学 | 一种基于模糊神经网络的聊天机器人系统与聊天方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5239594A (en) * | 1991-02-12 | 1993-08-24 | Mitsubishi Denki Kabushiki Kaisha | Self-organizing pattern classification neural network system |
US20020087311A1 (en) * | 2000-12-29 | 2002-07-04 | Leung Lee Victor Wai | Computer-implemented dynamic language model generation method and system |
US9978365B2 (en) * | 2008-10-31 | 2018-05-22 | Nokia Technologies Oy | Method and system for providing a voice interface |
US8175873B2 (en) * | 2008-12-12 | 2012-05-08 | At&T Intellectual Property I, L.P. | System and method for referring to entities in a discourse domain |
US10540430B2 (en) * | 2011-12-28 | 2020-01-21 | Cbs Interactive Inc. | Techniques for providing a natural language narrative |
US9570064B2 (en) * | 2012-11-08 | 2017-02-14 | Nec Corporation | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program |
US9798799B2 (en) * | 2012-11-15 | 2017-10-24 | Sri International | Vehicle personal assistant that interprets spoken natural language input based upon vehicle context |
US10095692B2 (en) * | 2012-11-29 | 2018-10-09 | Thornson Reuters Global Resources Unlimited Company | Template bootstrapping for domain-adaptable natural language generation |
US9177318B2 (en) * | 2013-04-22 | 2015-11-03 | Palo Alto Research Center Incorporated | Method and apparatus for customizing conversation agents based on user characteristics using a relevance score for automatic statements, and a response prediction function |
US9189742B2 (en) * | 2013-11-20 | 2015-11-17 | Justin London | Adaptive virtual intelligent agent |
US9412358B2 (en) * | 2014-05-13 | 2016-08-09 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
US10573299B2 (en) * | 2016-08-19 | 2020-02-25 | Panasonic Avionics Corporation | Digital assistant and associated methods for a transportation vehicle |
US10019491B1 (en) * | 2017-11-29 | 2018-07-10 | OJO Labs, Inc. | Machine learning of response selection to structured data input |
-
2017
- 2017-11-13 US US15/811,204 patent/US10380992B2/en active Active
-
2018
- 2018-11-06 CN CN201811315856.2A patent/CN109785828B/zh active Active
- 2018-11-08 DE DE102018128006.8A patent/DE102018128006B4/de active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693725A (zh) * | 2011-03-25 | 2012-09-26 | 通用汽车有限责任公司 | 依赖于文本信息语境的语音识别 |
CN103123648A (zh) * | 2011-12-30 | 2013-05-29 | 微软公司 | 在划定区域中呈现丰富的搜索结果 |
WO2016166417A1 (en) * | 2015-04-13 | 2016-10-20 | Equivalentor Oy | Method for generating natural language communication |
CN106547735A (zh) * | 2016-10-25 | 2017-03-29 | 复旦大学 | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 |
CN107329996A (zh) * | 2017-06-08 | 2017-11-07 | 三峡大学 | 一种基于模糊神经网络的聊天机器人系统与聊天方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190147849A1 (en) | 2019-05-16 |
DE102018128006A1 (de) | 2019-05-16 |
US10380992B2 (en) | 2019-08-13 |
DE102018128006B4 (de) | 2022-05-05 |
CN109785828A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785828B (zh) | 基于用户语音风格的自然语言生成 | |
CN110232912B (zh) | 语音识别仲裁逻辑 | |
CN110491414B (zh) | 使用动态可调监听超时的自动语音识别 | |
CN106816149B (zh) | 车辆自动语音识别系统的优先化内容加载 | |
US10083685B2 (en) | Dynamically adding or removing functionality to speech recognition systems | |
US9202465B2 (en) | Speech recognition dependent on text message content | |
US10255913B2 (en) | Automatic speech recognition for disfluent speech | |
CN108447488B (zh) | 增强语音识别任务完成 | |
US20190147855A1 (en) | Neural network for use in speech recognition arbitration | |
US20190122661A1 (en) | System and method to detect cues in conversational speech | |
CN109671424B (zh) | 车辆特征的响应激活 | |
US20180074661A1 (en) | Preferred emoji identification and generation | |
US20120109649A1 (en) | Speech dialect classification for automatic speech recognition | |
US9997155B2 (en) | Adapting a speech system to user pronunciation | |
US20160111090A1 (en) | Hybridized automatic speech recognition | |
US10008205B2 (en) | In-vehicle nametag choice using speech recognition | |
US20180075842A1 (en) | Remote speech recognition at a vehicle | |
US9530414B2 (en) | Speech recognition using a database and dynamic gate commands | |
US9473094B2 (en) | Automatically controlling the loudness of voice prompts | |
US20150255063A1 (en) | Detecting vanity numbers using speech recognition | |
US20160267901A1 (en) | User-modified speech output in a vehicle | |
US10006777B2 (en) | Recognizing address and point of interest speech received at a vehicle | |
US20160307562A1 (en) | Controlling speech recognition systems based on radio station availability | |
CN110430484B (zh) | 通过远程信息处理单元选择和操作移动装置的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |