CN106558307A - 智能对话处理设备、方法和系统 - Google Patents
智能对话处理设备、方法和系统 Download PDFInfo
- Publication number
- CN106558307A CN106558307A CN201610817351.0A CN201610817351A CN106558307A CN 106558307 A CN106558307 A CN 106558307A CN 201610817351 A CN201610817351 A CN 201610817351A CN 106558307 A CN106558307 A CN 106558307A
- Authority
- CN
- China
- Prior art keywords
- user
- language
- processor
- inquiry
- clarification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000005352 clarification Methods 0.000 claims abstract description 91
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 239000000284 extract Substances 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims description 46
- 230000004044 response Effects 0.000 claims description 26
- 238000012790 confirmation Methods 0.000 claims description 22
- 238000013519 translation Methods 0.000 claims description 21
- 238000003672 processing method Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 8
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 27
- 238000007726 management method Methods 0.000 description 26
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000003860 storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000011469 building brick Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种智能对话处理设备、方法和系统。所述智能对话处理设备包括:一个或多个处理器中的语音理解处理器,被配置为基于用户的个性化数据库(DB)使用用户的个人习语来执行对用户的说出的原始语音的理解;一个或多个处理器中的附加询问处理器,被配置为从原始语音提取未被语音理解处理器理解的选择的表达单元,并为用户提供与提取的表达单元关联的澄清询问以澄清提取的表达单元。
Description
本申请要求于2015年9月17日提交到韩国知识产权局的第10-2015-0131861号韩国专利申请的优先权,所述韩国专利申请的全部公开出于所有目的通过引用被包含于此。
技术领域
以下描述涉及一种处理用户的话语的智能对话管理设备和方法。
背景技术
对一般的自动的基于语音的对话代理而言,通过代理的技术能力对自然语言的理解水平很大程度上控制代理的整体交互性能。自动的自然语言理解背后的技术由于说话者在他们的话语中运用的不同的自由度和对语音识别错误的敏感水平等而成为一项挑战。对基于语音的对话代理而言,可在初始的步骤中为了理解来自说话者的最终问题或命令或当响应于这样理解的问题或命令时通过依靠说话者的存储的个人信息来执行个性化。例如,一般可通过代理提示用户登记并存储说话者经常使用的特定词语的标音法。当执行语音识别时,代理随后可在识别期间(例如,在识别可听见的语言或将可听见的语言转换成书面语言期间)实现利用存储的信息作为词典的语言模型。
在这种一般的自动语音识别处理中,只处理新词语的语音信息,例如,只更新可用在识别操作中的声学模型。此外,在这种一般的语音识别处理中,由于缺乏这样的计算机技术,所以当未识别出口头短语的部分时,用户必须从由语言模型(例如,作为基于词语被一起使用的频率的模型)生成的可能对应的词语的显示列表进行选择,或者说话者被要求重复整个口头短语,并且如果仍然未识别出相同的部分,则会将整个口头短语确定为不可识别。因此,基于语音的智能对话代理具有明确地出现在计算机或处理器技术中的问题和缺点(诸如,未识别出口头命令或询问、这样的自动代理低效或失准以及甚至不可用于对话识别)。
发明内容
提供本发明内容从而以简化形式介绍以下在具体实施方式中进一步描述的构思的选择。本发明内容不意图识别要求保护的主题的关键特征或必要特征,也不意图用作帮助确定要求保护的主题的范围。
在一个总体的方面,一种智能对话处理设备包括:一个或多个处理器中的语音理解处理器,被配置为基于用户的个性化数据库(DB)使用用户的个人习语来执行对用户说出的原始语音的理解;一个或多个处理器中的附加询问处理器,被配置为从原始语音提取未被语音理解处理器理解的选择的表达单元,并向用户提供与提取的表达单元关联的澄清询问以澄清提取的表达单元。
语音理解处理器可包括被配置为使用个性化DB计算组成原始语音的每个表达单元的可靠性的可靠性计算器,并且语音理解处理器可基于计算的可靠性使用用户的个人习语来执行对原始语音的理解。
附加询问处理器被配置为:分析原始语音中提取的表达单元的上下文和/或针对提取的表达单元的潜在相关的术语的个性化DB,并基于分析的结果生成语境化澄清询问。
个性化DB可包括以下项中的至少一个:存储多个用户之间公用的语音表达的公用DB;存储用户的个人习语中的各种表达的个人DB;和以本体形式存储公用的语音表达和/或用户的个人习语中的表达的本体DB。
可靠性计算器可对来自公用DB、个人DB和本体DB中的至少两个DB的理解结果施加不同的权重,并随后使用被施加不同的权重的理解结果计算可靠性。
附加询问处理器可基于提取的表达单元和/或询问模板生成澄清询问。
附加询问处理器可包括:被配置为确定提取的表达单元的类别的类别确定器;和被配置为从询问模板DB提取与确定的类别对应的询问模板的模板提取器。
附加询问处理器还可包括:声音提取器,被配置为从原始语音的音频提取与提取的表达单元对应的用户的声音的音频的;附加询问创建器,被配置为通过混合提取的用户的声音的音频与询问模板的生成的声音,来生成澄清询问。
附加询问处理器还可被配置为翻译响应于将提供的澄清询问输出到用户而从用户接收的澄清语音,并且附加询问处理器还可包括被配置为基于澄清语音的翻译的结果在澄清语音中检测与提取的表达单元有关的回答的回答检测器。
附加询问处理器可包括:被配置为向用户做出关于检测到的回答的确认询问的回答确认处理器;和被配置为根据响应于确认询问而从用户接收的确认答复来更新个性化DB的回答个性化处理器。
智能对话处理设备还可包括被配置为确定用户的输入话语是原始语音还是澄清语音。
所述一个或多个处理器中的一个处理器可被配置为:接收通过声音输入器捕获的用户的话语,执行接收到的话语的识别,并将识别的结果提供到语音理解处理器以基于提供的结果执行理解。
智能对话处理设备还可包括:所述一个或多个处理器中的答复处理器,被配置为将澄清询问以自然语言声音的形式提供到用户。
智能对话处理设备还可包括被配置为捕获用户话语的声音输入器。
所述一个或多个处理器中的一个处理器、语音理解处理器和附加询问处理器可以是相同的处理器。
在另一总体的方面,一种智能对话处理方法包括:基于用户的个性化DB使用用户的个人习语来执行对用户说出的原始语音的自动理解,基于所述理解从原始语音提取未被理解的选择的表达单元,并通过自动处理,提供与提取的表达单元关联的澄清询问以澄清提取的表达单元。
理解说出的原始语音的步骤可包括:基于个性化DB,计算组成原始语音的每个表达单元的可靠性;并基于计算的可靠性,使用用户的个人习语来执行对原始语音的理解。
个性化DB可包括以下项中的至少一个:存储多个用户之间公用的语音表达的公用DB;存储用户的个人习语中的各种表达的个人DB;和以本体形式存储公用的语音表达和/或用户的个人习语中的表达的本体DB。
提供澄清询问的步骤可包括:基于提取的表达单元和/或询问模板,生成澄清询问,以输出到用户。
提供澄清询问的步骤可包括:确定提取的表达单元的类别,并从询问模板DB提取与确定的类别对应的询问模板。
提供澄清询问的步骤可包括:从原始语音的音频提取与提取的表达单元对应的用户的声音的音频,通过混合提取的用户的声音的音频与询问模板的生成的声音来生成澄清询问,并输出生成的澄清询问。
提供澄清询问的步骤可包括:翻译响应于将提供的澄清询问输出到用户而从用户接收的澄清语音,并基于澄清语音的翻译的结果在澄清语音中检测与提取的表达单元有关的回答。
提供澄清询问的步骤可包括:生成关于检测到的回答的确认询问,将生成的确认询问呈现给用户,并根据响应于确认询问而从用户接收的确认答复更新个性化DB。
智能对话处理方法还可包括确定用户的输入话语是原始语音还是澄清语音。
执行对说出的原始语音的理解的步骤还可包括从捕获说出的原始语音的远程终端接收说出的原始语音,提供澄清询问的步骤还可包括将澄清询问提供到远程终端以将澄清询问输出到用户。
接收到的说出的原始语音可以是文本形式,并且已经被远程终端的识别器处理器使用识别捕获的说出的原始语音的声学模型和语言模型中的至少一个模型识别出。
智能对话处理方法还可包括:接收通过声音输入器捕获的用户的话语;对接收到的话语执行识别,其中,执行理解的步骤包括使用识别的结果执行理解;并以自然语言声音将澄清询问作为对话语的答复而输出到用户。
在另一总体的方面,一种非暂时性计算机可读存储介质存储当由处理器执行时使得处理器执行这里描述的方法或操作中的任意一个或任意组合的指令。
在另一总体的方面,一种智能对话处理系统包括:一个或多个处理器中的语音识别器处理器,被配置为:接收用户的叙述的初始话语,并执行对接收到的初始话语的识别;一个或多个处理器中的话语处理器,被配置为:基于识别的结果和用户的个性化DB使用用户的个人习语来执行对识别的初始话语的理解,处理与识别的初始话语的理解中未被理解的表达单元关联的澄清询问,并输出澄清询问;和一个或多个处理器中的答复处理器,被配置为使用用于向话语处理器澄清部分初始话语的澄清询问生成对接收到的用户的初始话语的自然语言答复。
语音识别器处理器可使用声学模型和/或语言模型识别接收到的初始话语,并将识别的结果以文本形式提供到话语处理器。
话语处理器可确定表达单元的类别,并通过组合表达单元与对应于确定的类别的询问模板来生成澄清询问。
话语处理器可从初始话语的音频提取与表达单元对应的用户的声音的音频,并通过混合提取的用户的声音的音频与询问模板的生成的声音,来生成澄清询问。
当澄清语音响应于澄清询问而被接收时,话语处理器可从澄清语音检测与表达单元有关的回答,并基于检测到的回答和执行的对初始话语的理解二者提供对初始话语的理解的最终结果。
答复处理器可基于对初始话语的理解的结果从个性化DB提取答复候选,使用提取的答复候选生成自然语言问题,将生成的问题转换成自然语言声音,并提供自然语言声音,以输出到用户。
在另一总体的方面,一种智能对话处理设备包括:处理器,被配置为:基于用户的个性化DB使用用户的个人习语来执行对用户说出的原始语音的第一理解,从原始语音提取在第一理解中未被理解的选择的表达单元,提供与提取的表达单元关联的澄清询问以澄清提取的表达单元,执行对用户响应于澄清询问而说出的澄清语音的第二理解以澄清提取的表达单元,并基于第二理解更新个性化DB,以自动理解包括提取的表达单元的后续的原始语音,而不再需要澄清。
处理器还可被配置为基于第一理解的结果与第二理解的结果的组合控制智能对话处理设备来执行附加操作。
处理器还可被配置为使用声学模型或语言模型中的至少一个模型执行说出的原始语音的识别操作,其中,对说出的原始语音的第一理解可包括在个性化DB中搜索说出的原始语音的识别操作的结果。
第二理解可包括:比较澄清询问与说出的澄清语音的识别的内容,并基于比较的结果,在个性化DB中搜索说出的澄清语音的识别的内容。
智能对话处理设备可以是智能电话或个人助理代理装置,并可包括被配置为存储指令的存储器,其中,处理器还被配置为执行指令以配置处理器来执行第一理解、提取选择的表达单元、提供澄清询问、执行第二理解和更新个性化DB。
从下面的具体实施方式、附图和权利要求,其他特征和方面将是显而易见的。
附图说明
图1示出根据一个或多个实施例的话语处理设备。
图2是示出根据一个或多个实施例的语音理解处理器的框图。
图3A至图3C是示出根据不同的实施例的附加询问处理器的示例的框图。
图4A和图4B是示出根据不同的实施例的示例附加询问处理器的框图。
图5是示出根据一个或多个实施例的话语处理方法的流程图。
图6是示出根据一个或多个实施例的话语处理方法的流程图。
图7是示出根据一个或多个实施例的生成附加询问的示例的流程图。
图8是示出根据一个或多个实施例的生成附加询问的示例的流程图。
图9是示出根据一个或多个实施例的处理附加语音的示例的流程图。
图10是示出根据一个或多个实施例的对话管理设备的框图。
图11是示出根据一个或多个实施例的代理终端的框图。
图12是示出根据一个或多个实施例的对话管理系统的框图。
贯穿附图和具体实施方式,除非另外描述,否则相同的附图参考标号将被理解为表示相同或相似的元件、特征和结构。为了清楚、示出和方便,可能夸大这些元件的相对大小和描绘。
具体实施方式
提供下面具体的描述,以帮助读者获得对这里描述的方法、设备和/或系统的全面的理解。然而,这里描述的方法、设备和/或系统的各种改变、修改和等同物在理解本申请的公开后将是显而易见的。例如,这里描述的操作顺序仅仅是示例,并不限于这里提到的操作顺序,而是除了必然以一定顺序发生的操作以外,可以如在理解本申请的公开后将显而易见地被改变,。此外,为了更加清楚和简明起见,对本领域中众所周知的特征的描述可被省略。
这里描述的特征可以以不同的形式被实现,并不被解释为局限于这里所描述的示例。相反,已经提供这里描述的示例,仅为了示出实现这里描述的方法、设备和/或系统的很多种可能方式中的一些方式,这些方式在理解本申请的公开后将是显而易见的。
图1示出根据一个或多个实施例的话语处理设备。
根据一个或多个实施例的话语处理设备100可以是可使用自动声音代理(例如,基于语音的声音代理)的任意电子装置(诸如,仅作为示例,智能电话、平板PC、台式PC、笔记本PC、医疗保健装置、智能机器人、智能家庭个人助理和可穿戴装置),或包括在所述任意电子装置中。话语处理设备100是硬件并可通过一个或多个处理装置(诸如,一个或多个处理器、计算机或其他处理硬件)来实现。电子装置还可包括进一步支持附加操作和诸如下面进一步讨论的电子装置的能力的硬件元件。此外,这里,智能对话代理(或就是“代理”)可表示诸如在用户与代理之间的智能对话交互中执行音频信息的识别和/或理解操作的计算机或处理装置硬件。
参照图1,例如,话语处理设备100可包括:语音确定器110、语音理解处理器120、附加询问处理器130和个性化数据库(DB)140。这里,语音确定器110、语音理解处理器120、附加询问处理器130和个性化DB 140中的任意一个或任意组合可以是一个或多个处理器或者其他硬件处理装置。此外,在另一实施例中,语音确定器110、语音理解处理器120、附加询问处理器130和个性化DB 140中的任意一个或任意组合可通过这样的一个或多个处理器来实现,这样的一个或多个处理器被使得实现与根据存储在非暂时性可读介质(诸如,话语处理设备100的存储器)上的指令的操作相同的操作。个性化DB 140也可以是存储在两个或更多个不同的数据库中的个性化信息。例如,个性化DB 140可表示一部分包括个性化DB 140而另一部分包括这样的指令的存储器,或者个性化DB 140还可表示除可存储这样的指令的话语处理设备100的任意存储器之外的另一存储器。
当接收或输入用户的话语时,语音确定器110可确定用户的话语是否为“原始语音”(例如,命令、请求或对话语处理设备100的先前初始询问的响应),或确定用户的话语是否为“附加语音”(即,对由话语处理设备100向用户做出的关于这样的原始语音的“附加询问”的响应)。用户的话语可以与用于话语处理设备100执行各种功能的命令(诸如,创建和发送文本、拨号、运行网络浏览器、管理联系人或运行应用)有关。例如,原始语音可以是这样的命令,或者原始语音可以是未响应于话语处理设备100的询问的一些请求,或者原始语音可以是对来自话语处理设备100的问题的命令、请求或回答,所述命令、请求或回答不是为了澄清先前用户的原始语音。例如,原始语音响应可以是对话语处理设备100的是否存在应该被添加到用户的日程表的任何约会的问题的回答,例如,或者问题可以是用户的先前命令的后续,这样询问用户是否想要为约会设置闹钟。然而,如果原始语音的部分未被话语处理设备100理解,或者存在这样的原始语音可能或已经被误解的确定的足够高的可能性,则话语处理设备100可将与原始语音的部分有关的确定的相关选择附加询问提供给用户。用户对该附加询问的响应将会是附加语音。附加询问可与只是用户重复整个原始语音的请求或用户复述整个原始语音的请求不同,而是,附加询问可被确定为与原始语音的相关部分尤为有关或相关,并可试图阐明与未被理解或期望地需要被澄清的原始语音的部分有关的信息。
仅作为示例,为了区分原始语音与附加语音,当在对用户做出附加询问之后的预定长度的时间(例如,5秒)内已经接收到话语时,语音确定器110可确定用户的话语是“附加语音”。此外,当在做出(例如,关于先前原始语音的)附加询问之前,但在已经做出对声音代理(即,话语处理设备100)的激活以生成附加询问之后,接收到用户的话语时,或当在自从做出附加询问之后已经过去示例预定长度的时间之后接收到用户的话语时,语音确定器110可确定话语是原始语音。因此,在这些示例中,这样的预定长度的时间可用于确定用户的话语是原始语音还是附加语音。可适当设置和调节预定长度的时间。可将不同的因素考虑到调节这样的预定长度中,并且仅作为示例,针对不同的情况、上下文、对话或环境可存在不同的预定长度。
在另一示例中,语音确定器110可在做出附加询问之后的预定长度的时间内接收用户的话语的语音识别的结果,分析语音识别结果,并且如果已经分析了语音识别结果,在理解操作中检测到与附加询问有关的关键字,则确定用户的话语是附加语音。例如,如果附加询问是“谁是导演史密斯?”而且用户随后的用户话语是“导演史密斯是约翰史密斯”时,因为在用户的话语中检测到附加询问中的短语“导演史密斯”,所以语音确定器110可确定用户的话语是附加语音。如果用户的话语不包括这样的关键字,或者被另外确定为不对应于附加询问,则语音确定器110可确定用户的话语是原始语音。
然而,用于确定用户的话语是原始语音还是附加语音的实施例不限于上面的示例,而可使用各种额外和/或可选的实施例。
当语音确定器110确定用户的话语是原始语音时,语音理解处理器120例如通过分析原始语音的文本翻译参照个性化DB 140来翻译原始语音,并基于个性化DB 140根据用户的个人习语来执行对原始语音的理解。在这种情况下,如果在个性化DB 140中未找到组成原始语音的多个表达单元中的特定表达单元,则语音理解处理器120可确定未能理解这样的特定表达单元,并因此,未能理解用户的个人习语中的全部原始语音。语音理解处理器120可相应地确定需要或期望与用户的话语中的特定表达单元有关的附加询问。
当语音理解处理器120确定需要或期望附加询问时,附加询问处理器130从用户的原始语音提取针对用户自己的个人习语未能被理解的表达单元,并执行对与提取的表达关联的适当附加询问的处理。
例如,如果输入用户的话语“呼叫导演史密斯”,则语音理解处理器120基于个性化DB 140确定“导演史密斯”实际就是“约翰史密斯”,并随后将用户的原始语音理解为“呼叫约翰史密斯”。例如,在使用个性化DB 140时,语音理解处理器120可针对例如“史密斯”以个性化DB 140的适当格式生成询问,并且个性化DB 140可将结果“约翰史密斯”返回到语音理解处理器120。然而,如果例如由于“史密斯”或“导演史密斯”不存在于个性化DB 140中,因此语音理解处理器120未能确定“导演史密斯”是谁,则语音理解处理器120可确定需要或期望关于“导演史密斯”的附加询问。
此时,从包括表达单元“呼叫”和“导演史密斯”的用户的原始语音,附加询问处理器130可将“导演史密斯”提取作为由于说出的表达将不会或可能不完全被理解而需要或期望附加询问的表达单元。附加询问处理器130基于提取的表达单元“导演史密斯”生成附加询问,并将生成的询问传输或可听见地输出到用户。附加询问处理器130还可例如基于理解的表达单元生成附加询问,因此生成的附加询问与未理解出的表达单元更加相关。
此外,当用户随后响应于附加询问而提供或输入附加话语时,附加询问处理器130处理输入的附加话语,并可随后从原始语音理解之前可能未被理解的表达单元,并随后通过将附加询问的处理结果更新到个性化DB 140来处理语音识别的个性化,以便附加询问的结果可用在未来与说话的用户的对话中,例如,当用户接下来提及“导演史密斯”时,语音理解处理器120可理解这个表达单元。此外,语音理解处理器120现在也可理解全部的用户的初始原始语音并开始控制电子装置初始化呼叫约翰史密斯。
图2是示出根据一个或多个实施例的语音理解处理器的框图。
虽然图2的语音理解处理器200和个性化DB 140可对应于图1的语音理解处理器120和个性化DB 140,但是实施例不限于此。例如,语音理解处理器200可包括语音翻译器210、可靠性计算器220和结果反馈处理器230。
语音翻译器210翻译用户的原始语音。原始语音可在通过语音识别被转换成文本之后被输入。例如,识别可包括诸如通过使用仅作为示例的例如针对语音或发音的声学模型以及例如针对词语与短语之间的连接性的语言模型中的一个或者组合的各种语音识别方法。除指示针对输入的可听见语音的更可能或最可能的识别的这样的模型外,模型也可分别指示针对他们各自的潜在语音识别或词语识别的可能性或分数。语音翻译器210可通过每个句子的语法结构或短语被分析的命名实体识别(NER)和/或语法分析来分析文本形式的原始语音,注意的是实施例不限于这样的分析方法。
此外,语音翻译器210可通过翻译原始语音将原始语音解构成一个或多个表达单元。表达单元表示基于指定的单元从用户的话语划分出的表达。例如,指定的单元可以是(但不限于)词语,并且可将单元预先确定为音位、音节、短语或句子等。例如,如果用户的原始语音是“呼叫导演史密斯”,则语音翻译器210可将语音解构成两个表达单元“呼叫”和“导演史密斯”。
可靠性计算器220还可计算通过语音翻译器210解构的每个表达单元的可靠性。可靠性计算器220可根据实施例实现用在自然语言处理中的各种方法(诸如,句法分析/语义分析和词语嵌入),以计算每个表达单元的可靠性。
在示例中,可靠性计算器220可使用从语音识别操作和个性化DB 140获得的语言模型分数,来计算每个表达单元的可靠性。在这种情况下,如图2所示,个性化DB 140可包括下述DB中的至少一个:公用DB 141、个人DB 142和本体DB 143。这里,公用DB 141可存储多个用户中的公用的语言表达,而个人DB 142可存储每个用户的个人习语中的各种表达。仅作为示例,个人DB 142可存储由作为或装备有话语处理设备100的装置管理的用户的联系人和通信录,以及安装在装置中的应用的列表,注意的是本公开的各方面不限于此。本体DB143可以以本体的形式存储各种语音表达。
在一个示例中,可靠性计算器220可同时地使用公用DB 141、个人DB 142和本体DB143中的两个或更多个DB,以计算每个表达单元的可靠性。
例如,当可靠性计算器220使用公用DB 141和个人DB 142时,可将比来自公用DB141的结果的权重更大的权重分配给来自个人DB 142的结果,以便相比于公用表达,给予每个用户的个人习语更高的重视或可靠性分数。
例如,结果反馈处理器230将原始语音的每个表达单元的计算出的可靠性与预先指定的阈值进行比较,并根据比较的结果,结果反馈处理器230可输出理解的语音的结果(例如,对原始语音的响应),或者附加询问处理器130可处理附加询问。例如,如果原始语音请求某人被呼叫,而且原始语音被理解,则结果反馈处理器230可实现呼叫某人,然而如果原始语音是来自代理的针对信息的请求,则结果反馈处理器230可用对针对信息的请求的响应来响应用户。在实施例中,结果反馈处理器230可例如以相同的形式或通过交替的分句将理解的原始语音重复返回到用户,并请求确认语音理解处理器对原始语音的理解。
因此,当组成原始语音的所有表达单元的计算出的可靠性大于示例预先指定的阈值时,结果反馈处理器230可确定原始语音已被理解,并可随后输出理解的结果。这里,根据实施例,结果反馈处理器230可将理解的结果输出到用户,或将理解的结果提供到另一硬件元件、应用或装置以进行进一步的处理或动作。在另一示例中,即使当原始语音具有可靠性小于预先指定的阈值的一个或多个表达时,只要语音的所有表达的总共可靠性的统计的结果(例如,平均值)大于预先指定的阈值,就可确定已经理解了全部原始语音。然而,本公开的各方面不限于此,使得可根据各种标准确定对附加询问的需要或期望。
例如,如果基于个人DB 142将来自用户的原始语音的“导演史密斯”初始理解为“约翰史密斯”,并且表达“导演史密斯”的计算出的可靠性大于预先指定的阈值,则考虑到用户的个人习语,结果反馈处理器230可对将原始语音“呼叫导演史密斯”理解为“呼叫约翰史密斯”的结果进行自动转送或操作。
图3A至图3C是示出根据一个或多个实施例的附加询问处理器的示例的框图。虽然图3A至图3C的附加询问处理器均可对应于图1的附加询问处理器130,但是实施例不限于此。例如,当语音理解处理器(诸如,图1的语音理解处理器120和图2的语音理解处理器200中的任意一个)确定需要或期望附加询问时,可运行图3A至图3C的附加询问处理器。
参照图3A,例如,附加询问处理器310可包括表达单元提取器311和附加询问创建器312。
响应于通过语音理解处理器做出的为了完全或充分理解用户的原始语音而需要或期望附加询问的确定,表达单元提取器311可例如从组成原始语音的所有表达单元提取未被完全理解或在可用数据库中未找到并且可能需要或期望附加询问以澄清原始语音的一个或多个表达单元。在这种情况下,例如,当这样的语音理解处理器计算标准语音的每个表达单元的可靠性时,表达单元提取器311可基于计算出的可靠性来提取需要或期望各自的附加询问的这样的一个或多个表达单元。
如果存在计算出的可靠性小于设置阈值的若干表达单元,则表达单元提取器311可提取具有更小可靠性的所有这样的表达单元,并且可针对提取到的表达单元得到附加询问。如果针对原始语音的所有表达单元中的不同的相关表达单元期望多个附加询问,诸如当用户的原始语音话语复杂时,则可得到各自的多个附加询问。针对各个提取的预定义的标准可变化并且不限于上面的示例。
例如,在输入用户的话语“将明天三点在位置1与我的朋友的约会标记在我的日程表中”的情况下,如果例如由于关于“位置1”的信息不存在于个人DB 142和公用DB 141两者中,或者信息只存在于公用DB 141中而导致“位置1”表达的可靠性低于阈值,则表达单元提取器311可将“位置1”表达提取作为需要做出附加询问的表达单元。
附加询问创建器312可生成与提取的表达单元关联的附加询问。例如,在上面的提取“位置1”的示例中,附加询问创建器312可通过组合例如“什么是”的附加询问模板与提取到表达单元“位置1”来生成附加询问“什么是位置1”。
在由于与“位置1”相关的特定个人习语不存在于个人DB 142但公用DB 141具有登记为“位置1”的“齐普赛街(Chermside)”而导致“位置1”的可靠性低的另一示例中,附加询问创建器312通过组合附加询问模板“是…?”与存储在公用DB 141中的数据来生成附加询问“‘位置1’是齐普赛街?”。
附加询问创建器312可使用文本转语音(TTS)技术将生成为文本的附加询问转换成自然语言语音询问,并将附加询问可听见地输出到用户。
如上所述,基于关于原始语音中话语处理设备未能理解的表达单元的向用户做出的附加询问,用户可容易识别话语处理设备不能理解他的/她的语音的哪部分,并因此可通过诸如回答“位置1是南岸大学”来利用澄清信息进行回答。
相比之下,如上面所提到,当通过计算或处理技术实现的典型声音代理不能理解用户已经说出的话的部分时,典型声音代理通过输出有声的例如“请再说一次”来请求用户重复或复述用户说过的全部话。典型声音代理不能理解第一话语,并因此将仅重新试图理解用户的原始话语的后续完整的复述。因此,由于用户可能不能够识别声音代理不能理解他的/她的语音的哪部分,所以用户可能从而不能够知道在复述原始话语中改变或者说出原始话语中的哪部分。例如,如果典型声音代理不能理解原始话语中的口语“位置1”,则用户将不知道使用可选择的位置识别信息来不同地表示位置1,并可能保持输入不相关和不能理解的信息。
例如,参照图3B,附加询问处理器320可包括表达单元提取器321、类别确定器323、模板提取器324和附加询问模板DB 325。
当表达单元提取器321提取需要或期望做出附加询问的表达单元时,类别确定器323可确定提取的表达单元的类别。在这种情况下,类别确定器323可通过参照其他理解的组成用户的原始语音的表达单元来确定类别。
例如,在用户的原始语音是“请将明天三点在位置1与我的朋友的约会标记在我的日程表中”,而且“位置1”被提取作为需要或期望做出澄清附加询问的表达单元的情况下,类别确定器323可基于原始语音中的其他表达单元(诸如,表达“3点”、表达“约会”和表达“在(位置)”)推断出“位置1”与位置有关,并且类别确定器323随后可将“位置1”分类为位置。仅作为示例,类别确定器323可考虑在需要澄清的提取的表达之前和/或之后的预定数量的表达以及先前的话语。
当类别确定器323确定需要澄清的提取的表达单元的类别时,模板提取器324可从附加询问模板DB 325提取与确定的类别对应的模板。
例如,如果已经将“位置1”表达分类为位置,则模板提取器324可从附加询问模板DB 325提取与位置有关或对应的合适模板(诸如,“...在哪儿”)。类似地,如果需要澄清的提取的表达单元的类别属于/针对“物体”,则可通过模板提取器324来提取附加询问模板“…是什么”;而如果需要澄清的提取的表达单元的类别属于/针对“人”,则可通过模板提取器324来提取附加询问模板“…是谁”。
因此,当表达单元和相关附加询问模板被提取时,附加询问创建器322可通过将需要澄清的表达单元与合适的模板进行组合来生成具有自然语言对话形式的相应附加询问。例如,附加询问创建器322可通过将表达单元“位置1”与附加询问模板“...在哪儿”进行组合来生成附加询问(诸如,“位置1在哪儿?”)。附加询问创建器322可将文本形式的附加询问转换成语音信号,并可通过声音代理的控制将语音信号可听见地输出到用户。声音代理可以是被专门配置为模仿或模拟话语处理设备或者包括话语处理设备的执行识别原始语音和/或响应用户的终端或装置的单独的处理或其他硬件元件。可选择地,仅作为示例,声音代理可与话语处理设备、终端或装置的一个或多个处理器进行合并,以生成语音信号或者生成并放大语音信号以通过话语处理设备、终端或装置的扬声器输出。
例如,附加询问创建器322可使用关于将被输出的语音的预先指定的语音变化的信息将生成的文本形式的附加询问转换成语音信号。关于将被输出的语音的语音变化的信息可包括说话者的性别(男/女)、年龄、语音的音量、语速和口头语言等。声音代理可使用这样的信息来生成相应的自然声音。
例如,参照图3C,附加询问处理器330可包括表达单元提取器331、附加询问创建器332、类别确定器333、模板提取器334、附加询问模板DB 335和声音提取器336。
在用户的话语的语音识别的过程中,语音识别器可能不能识别未被语言模型定义的词语,而理解操作可使得附加询问被产生以澄清所述词语。在这种情况下,用户可能想要听见语音识别器未能识别的他/她自己的话语的部分。
在理解操作期间,当使用用户的个人习语未能识别表达单元时或当表达单元不存在于个性化DB 140中时,表达单元提取器331可提取需要或期望做出附加询问的表达单元。
类别确定器333可如上所述地确定提取的表达单元的类别,而模板提取器334可针对确定的类别从附加询问模板DB 335提取附加询问模板。在这种情况下,附加询问模板DB335可以以文本形式或声音形式存储附加询问模板。
声音提取器336可提取与例如从用户的原始语音提取的表达单元对应的用户的实际声音。
附加询问创建器332可通过将提取的附加询问模板的声音与用户的提取的实际声音进行混合来生成附加询问。在这种情况下,如果提取的模板是文本形式,则附加询问创建器332可将提取的模板转换成声音信号,并随后将声音模板与用户的实际声音进行混合。
在另一示例中,类别确定器333和模板提取器334可不包括在根据图3C配置的附加询问处理器中。在这种情况下,这样的附加询问处理器的相应的附加询问创建器332可使用预定义的声音模板以生成附加询问,预定义的声音模板可以是简单的语音信号(诸如,“这是什么”)。
图4A和图4B是示出根据一个或多个实施例的示例附加询问处理器的框图。虽然图4A和图4B的附加询问处理器可对应于图1的附加询问处理器130,但是实施例不限于此。例如,响应于对用户的关于用户的原始语音的附加询问(诸如,通过图1和图3A至3C的附加询问处理器中的任意一个生成的附加询问),图4A和图4B的附加询问处理器可分别处理接收到的用户的附加语音。这里,图4A和图4B的附加询问处理器还可分别如上面所讨论地关于图3A至图3C的附加询问处理器中的任意一个或任意组合而被配置,或者结合图3A至图3C的附加询问处理器中的任意一个而被配置,话语处理设备实施例可被配置为单独包括图4A至图4B的这样的附加询问处理器和图3A至图3C的附加询问处理器中的任意一个,再次注意:可选的实施例和配置也是可用的。
例如,参照图4A,附加询问处理器410可包括语音翻译器411、回答检测器412和结果反馈处理器413。
当语音确定器(仅作为示例,诸如,图1的语音确定器110)确定接收的用户的话语响应于话语处理设备的附加询问时,语音翻译器411翻译附加语音。
可基于这样的语音确定器和语音翻译器411的功能将它们分别布置,但根据一个实施例,也可将它们集成在相同的装置中或以相同的配置将它们集成,其中,语音确定器的语音确定可与语音翻译器411的语音翻译同时、在语音翻译器411的语音翻译之前或在语音翻译器411的语音翻译之后发生。
语音翻译器411可使用例如语法分析、语义分析和/或NER技术来翻译用户的附加语音并将附加语音解构成一个或多个表达单元。
回答检测器412可使用对附加询问和相应的附加语音的翻译,从多个解构的表达单元中的一个或多个解构的表达单元检测回答。例如,如果附加询问被确定为与位置或地方有关,则回答检测器412可从附加语音提取与位置或地方有关的表达单元作为回答。此外,在用户说外语(诸如,韩语)的情况下,回答检测器412可从解构的表达单元识别附加语音的例如最终音节,并提取紧接在最终结尾之前的表达单元作为回答。
当从附加语音提取到对附加询问的回答时,结果反馈处理器413可基于先前对原始语音中的其他表达的理解和提取的回答来理解用户的附加语音,并基于对被用户的回答澄清的先前不清楚的表达单元的理解来输出对原始语音的作为结果的理解。
如果在用户的附加语音中没有找到能被构造为回答的表达单元,则结果反馈处理器413可将先前生成的附加询问再次呈现给用户或初始化对话,并根据预先指定的策略重新启动对话。
例如,参照图4B,附加询问处理器420可包括语音翻译器421、回答检测器422、结果反馈处理器423、回答确认处理器424和个性化处理器425。
语音翻译器421、回答检测器422和结果反馈处理器423可翻译用户的附加语音,基于用户的附加语音的翻译的结果检测对通过话语处理设备呈现的附加询问的回答,并鉴于检测到的回答基于对附加语音的理解反馈结果。
在这种情况下,回答确认处理器424可请求用户确认通过回答检测器422检测的翻译/理解的回答是否正确。例如,在与附加询问有关的涉及表达单元“位置1”的检测到的回答是“南岸大学(South Bank)”的情况下,回答确认处理器424可生成确认询问(诸如,“位置1是南岸大学吗?”),并将确认询问呈现给用户。
此外,回答确认处理器424可从用户接收对确认询问的确认答复。在这种情况下,用户可使用安装在话语处理设备100上的物理按钮或触摸按钮等来输入确认信号,或者可输入声音信号(诸如,“是/否”)。用户可使用各种方法(诸如,手势输入)来输入确认答复。
如果用户确认理解的回答正确,则结果反馈处理器423可基于话语处理设备对原始语音的理解输出最终结果。否则,结果反馈处理器423可再次提出相同的附加询问(即,先前生成的附加询问)或初始化和重新启动对话。可选择地,例如,可修改附加询问修改以使用不同的模板,并再次呈现给用户。
个性化处理器425可确定当前说话者是新用户还是登记用户。如果确定当前说话者是新用户,则个性化处理器425可通过请求用户输入用户信息并随后在个人DB 142或针对特定用户的新的个人DB 142中接收并登记用户信息来执行个性化处理。
此外,当用户确认对附加询问的回答正确时,个性化处理器425可通过使用与附加询问关联的表达单元以及回答二者更新个人DB 142,来针对说话的用户执行个性化处理。因此,在这样非限制的实施例中并仅作为示例,通过确认回答被正确地理解,个性化处理器425可对改变或更新用户的个人DB 142更有把握。
因此,在这种情况下,个性化处理器425可使用澄清的表达单元和/或关于附加询问的确认回答来以一种形式(例如,实体-关系-实体的三重形式或使用词语/句子嵌入方法的向量形式)生成可被存储在个人DB 142中的条目。然后,个性化处理器425可将生成的条目存储在个人DB 142中。此时,个人DB 142的数据结构可改变,而不限于特定的数据结构。
图5是示出根据一个或多个实施例的话语处理方法的流程图。
参照图5,如在510中所述,当输入用户的原始语音时,话语处理设备(诸如,这里讨论的非限制的话语处理设备或相应元件或装置中的任意一个或任意组合)可基于个性化DB使用用户的个人习语理解原始语音。此时,仅作为示例,个性化DB可包括个人DB和公用DB,其中,个人DB存储每个用户的个人习语中的各种表达,而公用DB存储多个用户之间公用的语音表达。个性化DB也可包括本体DB。话语处理设备可使用将用户的个人习语存储为字典的个人DB,以便它可理解个人习语。因此,用户可针对特定的关键字或频繁使用的功能设置别名、快捷命令或命令组合,以便在与话语处理设备的对话期间可使用它们。
此后,如在520中所述,如果话语处理设备未能理解用户的原始语音,则设备可提取需要或期望做出附加询问的表达单元。例如,话语处理设备可提取在语音识别的过程中未能被识别的表达单元,未能被识别的以原因在于:特定的表达单元先前未被定义在语言模型中,或表达单元是可识别的然而却因为未在个人DB中找到该表达单元而被确定为未被理解。
然后,在530,话语处理设备可处理与期望澄清的提取的表达单元有关的附加询问。例如,话语处理设备可生成少于用户的整个原始语音的包含提取的表达单元的附加询问,并通过例如以声音形式将生成的附加询问呈现给用户,向用户请求与不能够被理解的表达单元有关的答复。此外,响应于接收到这样对附加询问的答复,设备可从与设备未能理解的表达单元有关的答复检测回答,并随后可使用检测到的回答最终理解用户的原始语音。设备可更新个性化DB,因此设备可在用户的下一原始语音或附加语音中自动理解澄清过的表达。
在示例中,如在540中所述,一旦话语处理设备通过对附加询问的处理理解用户的语音(例如,全部的原始语音),那么设备就可如上面所讨论地将理解的结果反馈给用户。
图6是示出根据一个或多个实施例的话语处理方法的流程图。
参照图6,如在610中所述,话语处理设备(诸如,这里讨论的非限制的话语处理设备或相应元件或装置中的任意一个或任意组合)接收用户的话语作为输入,并如在620中所述,确定话语是原始语音还是响应于话语处理设备的附加询问而做出的附加语音。在这种情况下,例如,用于确定用户的话语是否为附加语音的标准可变。例如,可确定,在做出这样的附加询问之后的预定长度的时间内输入的话语是附加语音。
然后,如在630中所述,如果在620确定用户的话语是原始语音,则可基于个性化DB来翻译原始语音。仅作为示例,个性化DB可以是包括一个或多个个人DB、公用DB和本体DB的任意组合的数据库。在对用户的话语的翻译中,各种技术(诸如,仅作为示例,语法分析、语义分析和/或NER)可用于翻译用户的语音。
此外,如在620中所述的对用户的话语是否为附加语音的确定以及如在630中所述的对用户的语音的翻译可同时执行,或者可基于对用户的语音的翻译的结果做出附加语音确定。
此后,在640,基于翻译的结果、来自语音识别的语言模型分数和个性化DB计算组成原始语音的每个表达单元的可靠性。例如,在用户的原始语音是“将在位置1的约会标记在日程表中”的情况下,如果针对“位置1”表达单元的语言模型分数高,但是未在针对特定用户的个性化DB中找到关于“位置1”的信息,则“位置1”表达的计算出的可靠性可能非常低。
此时,针对每个表达单元,话语处理设备可将不同的权重分配给各个语言模型分数、公用DB和个人DB的结果,或调节分配的权重,使得如果用户的表达单元的个人习语存在于个人DB中,则特定的表达单元可具有最高的可靠性结果。
在650,话语处理设备将每个表达单元的计算出的可靠性与例如阈值进行比较,并且如果表达单元的所有可靠性都大于阈值,则确定已经理解用户的全部原始语音。然后,在690,例如,话语处理设备可将理解的结果反馈给用户。例如,可立即执行相应命令,可将理解出的话语与话语被理解的确认指示一起或将理解出的话语与用于确认全部理解的确认询问一起重复给用户,或者可基于对用户的话语的理解对用户的理解出的话语做出一些其他答复。
如在650中所述,如果一个或多个表达单元(其中,每个表达单元具有低于示例阈值的计算出的可靠性)出现在原始语音中,则可确定为了原始语音的澄清需要或期望附加询问。仅作为示例,如在660中所述,可提取将需要或期望做出附加询问的所有的这样的表达单元或者具有最低可靠性的一个表达单元。
如在670中所述,当在660提取将需要或期望做出附加询问的表达单元时,使用提取的表达单元生成附加询问,并将其呈现给用户。将参照图7和图8对这样的附加询问的生成进行更加详细地描述。
当用户的话语如在610中所述那样响应于附加询问而输入到话语处理设备时,如在620中所述,设备确定输入话语是否为附加语音。
如在680中所述,当确定用户的话语是附加语音时,话语处理设备处理与被期望澄清的提取的表达单元有关的附加语音,并因而理解附加语音。然后,在示例中,如在690中所述,话语处理设备可将对整个原始语音的理解的结果反馈给用户,将参照图9对其做出详细地描述。
图7是示出根据一个或多个实施例的生成附加询问的示例的流程图。仅作为示例,虽然图7的附加询问的示例生成可对应于图6的操作670,但是实施例不限于此。在一个或多个实施例中,当例如用户的原始语音的一部分未被理解时,可诸如通过这里讨论的非限制的话语处理设备或相应元件或装置中的任意一个或任意组合来执行附加询问的生成。
如在710中所述,当诸如在图6的660中所述,提取需要或期望做出附加询问的表达单元时,话语处理设备可确定是否通过考虑提取的表达单元的多个可用类别中确定的类别来做出附加询问。当可以时,关于提取的表达单元的类别是否应该在做出附加询问中被考虑的确定可在制造例如装备有所述设备的装置的时候预先确定,或可由用户稍后改变。
在720,如果确定应该考虑类别,则话语处理设备可例如通过对接近提取的表达单元的其他表达单元执行语法分析/语义分析或者基于时间上相关的话语或表达,将提取的表达单元的类别识别为例如位置、人、事物等中的一个。
然后,在730,话语处理设备可从附加询问DB提取与识别的类别对应的询问模板。例如,如果类别是“人”,则提取的模板可以是诸如“...是谁?”的询问有关人的句子或短语。
如果在710确定不应该考虑表达单元的类别,则可使用诸如“...是什么”的预先指定的简单模板和一般模板中的一个模板。
在740,可通过将提取的表达单元与模板进行组合来生成附加询问。
在750,话语处理设备例如将生成的附加询问转换成自然语言声音询问,并如在760中所述,将声音询问输出到用户。此时,在示例中,如果以声音形式将模板存储在附加询问模板DB中,则只有提取的表达单元可被转换成声音,并且之后作为结果的声音与声音模板进行混合,从而创建组合的自然语言声音询问。
图8是示出根据一个或多个实施例的生成附加询问的示例的流程图。仅作为示例,虽然图8的附加询问的示例生成可对应于图6的操作670,但是实施例不限于此。在一个或多个实施例中,可诸如通过这里讨论的非限制的话语处理设备或相应元件或装置中的任意一个或任意组合使用输入的用户的话语的实际声音来执行附加询问的生成。
当由于表达单元在用户的话语的执行的语音识别的过程中尚未被识别出,或由于表达单元不存在于个性化DB中而导致话语处理设备未能理解有声的表达单元时,诸如在图6的660中所述,设备提取需要或期望做出附加询问的表达单元。仅作为示例,个性化DB可以是包括一个或多个个人DB、公用DB和本体DB的任意组合的数据库。如在810中所述,一旦提取了表达单元,话语处理设备就可从用户的原始语音提取与针对附加询问的提取到的表达单元有关的用户的实际声音。
此外,如在820中所述,话语处理设备可确定是否通过考虑提取的表达单元的确定的类别来做出附加询问。
执行操作810和操作820的顺序不限于图8中示出的顺序,也可同时或以相反的顺序执行这些操作。
然后,在830,如果确定应该在做出附加询问中考虑提取到的表达单元的类别,则话语处理设备可通过对接近提取的表达单元的其他表达单元执行例如语法分析/语义分析,或者基于时间上相关的话语或表达,将提取的表达单元的类别识别为例如位置、人、事物等中的一个。
此后,在840,话语处理设备可从附加询问DB提取与识别的类别对应的询问模板。在这种情况下,附加询问模板DB可以以文本形式和/或声音形式存储附加询问模板。
如果在820确定不应该考虑类别,则可使用诸如“...是什么”的预先指定的简单模板和一般模板中的一个模板,其中,可从附加询问DB提取例如将被用作默认模板的简单模板或一般模板。
在850,如果提取的模板是文本模板,则如在850中所述,可例如使用TTS将模板转换成声音信号。
然后,如在860中所述,话语处理设备可通过将例如来自原始语音以及与提取的表达单元有关的提取的用户的实际声音与转换的声音模板二者进行混合,来生成附加询问;如在870中所述,话语处理设备随后可将作为结果的组合的声音询问呈现给用户。
图9是示出根据一个或多个实施例的处理附加语音的示例的流程图。仅作为示例,虽然图9的附加询问的示例处理可对应于图6的操作680,但是实施例不限于此。在一个或多个实施例中,诸如通过这里讨论的非限制的话语处理设备或相应元件或装置中的任意一个或任意组合,可在对用户做出附加询问后执行附加询问的生成以处理用户的附加语音。
如在910中所述,话语处理设备可翻译用户的输入的有声的附加语音,并如在920中所述从附加语音检测对用户做出的与设备需要/期望澄清或先前未能理解的表达单元有关的附加询问的回答。此时,当以文本形式生成用户的附加语音的执行的语音识别的结果时,话语处理设备可使用各种文本识别技术(诸如,语法分析和NER)翻译附加语音。
因此,在示例中,如在930中所述,当在附加语音中检测到对附加询问的回答时,设备可将关于检测到的回答是否正确的确认询问呈现给用户,并且设备可随后接收、识别和翻译用户对确认询问的答复。
可生成确认询问作为声音询问,并随后通过声音代理将其呈现给用户,确认询问也可以以声音形式转送用户对确认询问的答复。然而,确认询问和相应答复的形式不限于上面的描述,从而文本形式的确认询问可输出到包括在这里讨论的装置或终端中的显示器或者输出到这里讨论的装置或终端的显示器,并且用户可以以例如包括有声的、文本的或通过动作的各种方式输入确认答复。
然后,如在940中所述,话语处理设备基于接收到的确认答复确定用户是否已经指示用户对检测到的回答满意。如果确定用户对检测到的回答满意,则如在950中所述,设备可执行个性化处理以更新关于澄清的表达单元的个性化DB,并可如在960中所述理解用户的原始语音,这可包括执行相应的命令、检索相应的信息或与理解出的原始语音一致的其他操作。如果用户对检测到的回答不满意,则话语处理设备可将先前生成的附加询问再次呈现给用户,或可如在970中所述,初始化和重新启动对话。
在示例中,话语处理设备还确定用户是否已经被登记在个人DB中。如果确定用户是登记用户,而且在940中用户对检测到的回答满意,则设备可通过在个人DB中更新做出附加询问的表达单元以及与表达单元有关的回答,来执行个性化处理。如果确定用户不是登记用户,则设备可请求用户输入用户信息,然后将用户信息登记在个人DB中或者登记在生成的或初始化的其他个人DB中,并随后执行针对该个人DB的个性化处理。
例如,话语处理设备可使用澄清的表达单元和/或关于附加询问的确认回答来以一种形式(例如,实体-关系-实体的三重形式或使用词语/句子嵌入方法的向量形式)生成可被存储在个人DB中的条目。就这一点而言,个人DB的相应的数据结构可改变,而不限于特定的数据结构。
图10是示出根据一个或多个实施例的对话管理设备的框图。
图10中示出的对话管理设备管理智能对话。例如,对话管理设备可以是,或者使用这里讨论的话语处理设备(诸如,图1的话语处理设备和图3A至图4B的附加询问处理器)中的任意一个或任意组合。在这里,对话管理设备或方法分别与智能对话管理设备或方法同义,这两者分别与对话处理设备或方法或者智能对话处理设备或方法同义。对话管理设备1000可以是装备有声音代理的装置或被安装在装备有声音代理的装置中,或者可以是装备有这样的声音代理的装置和云服务器二者,或被安装在装备有这样的声音代理的装置和云服务器二者中,从而管理这样的智能对话。
参照图10,例如,对话管理设备1000可包括语音识别器1010、话语处理器1020和答复处理器1030。
语音识别器1010可通过语音识别操作将从声音代理转送的用户的话语转换成文本,并输出文本。例如,可将文本存储在对话管理设备1000的存储器中,或直接提供给话语处理器1020。语音识别器1010或声音代理也可将用户的话语存储在存储器中。可根据实施例将语音识别器1010配置为声音代理的元件。
语音识别器1010可使用先前建立的声学模型和语言模型识别语音,并因此将文本形式的识别操作的结果、声学模型分数和语言模型分数转送到话语处理器1020。
话语处理器1020可处理从语音识别器1010传递或从存储器获得的文本形式的用户的话语,并基于用户的语音的个性化表现执行对用户的语音的理解操作。
话语处理器1020可确定传递的用户的话语是原始语音还是附加语音。如果确定用户的话语是原始语音,则话语处理器1020例如基于对话管理设备1000的个性化DB将表达单元(诸如,别名和快捷命令)转换成用户个性化的合适表达,并将转换的结果传递到答复处理器1030或将转换的结果存储在存储器中。仅作为示例,个性化DB可以是包括一个或多个个人DB、公用DB和本体DB的任意组合的数据库。
如果由于例如表达单元不存在于个性化DB中而导致话语处理器1020未能理解用户的原始语音中的特定的表达单元,则话语处理器1020可生成关于特定的表达单元的附加询问,并通过声音代理以有声的形式将附加询问输出到用户。
在这种情况下,话语处理器1020可计算原始语音的每个表达单元的可靠性,基于各个计算出的可靠性确定每个表达单元是否需要或期望附加询问,并提取可能需要或期望做出各自附加询问的一个或多个表达单元。
在示例中,一旦对可能需要澄清的表达单元执行提取,话语处理器1020就可使用原始语音中的其他表达单元确定提取的表达单元的类别;从附加询问模板DB提取对应于确定的类别的附加询问模板;并随后使用提取的附加询问模板和提取的表达单元生成附加询问。
在示例中,一旦对可能需要澄清的表达单元执行提取,话语处理器1020就可例如从存储的原始语音提取与从用户的话语提取的表达单元关联的用户的实际声音,并通过将提取的用户的实际声音与声音模板进行混合生成附加询问。
此外,当话语处理器1020从语音识别器1010接收到用户的附加语音的语音识别结果时,话语处理器1020可从接收到的语音识别结果检测对附加询问的回答,并通过使用检测到的回答更新针对用户的个人DB,来执行针对用户的个性化处理。因此,随着表达单元的澄清,话语处理器1020可理解表达单元,并可完全理解最初接收到的用户的原始语音。
在示例中,当在理解了表达单元之后,从话语处理器1020将对用户的原始语音的理解的结果转送到到答复处理器1030时,或在通过话语处理器1020作出对用户的原始语音的理解的结果的替代的指示之后,答复处理器1030可例如基于个性化DB生成将被提供给用户的合适的答复,并将生成的答复呈现给用户。此时,在一个或多个实施例中,答复处理器1030可将生成的答复转换成自然语言声音信号,并将声音信号传输到声音代理以将答复输出到用户。
在这种情况下,答复处理器1030可基于与将被输出的声音的预先指定的语音变化有关的信息,将答复转换成自然语言声音。例如,与将被输出的声音的语音变化有关的信息可包括说话者的性别(男/女)、范围、语音的音量、语速和口头语言等。
答复处理器1030可基于对从话语处理器1020以逻辑的形式传递的原始语音的理解,生成对例如个性化DB的询问语句或指令,以诸如通过搜索例如公用DB或个人DB来搜索个性化DB。然后,答复处理器1030可执行询问语句并从个性化DB获得必要信息。答复处理器1030可使用获得的必要信息生成一个或多个答复候选。此外,如果需要,答复处理器1030可执行对生成的答复候选进行理解和翻译的处理,并使用翻译结果生成将被呈现给用户的最终答复。
例如,如果将用户的话语“告诉我导演史密斯的电话号码”输入作为原始语音,则话语处理器1020可基于用户的个人DB将话语理解为“告诉我约翰史密斯的电话号码”。在示例中,话语处理器1020可通过答复处理器1030将理解的结果反馈给用户。基于对话语的理解,答复处理器1030可搜索存储在装置中的用户的个人DB(诸如,用户的电话簿),并发现约翰史密斯的电话号码是“+81-010-1234-5678”。然后,答复处理器1030可生成相应的答复(例如,“约翰史密斯的电话号码是+81-010-1234-5678”),并将答复转送到声音代理以输出到用户。
图11是示出根据一个或多个实施例的例如作为或装备有对话管理设备的代理终端的框图。
如在图11中所示的代理终端1100可以是装备有声音代理的装置,也可以是智能电话、平板PC、台式PC、笔记本PC、医疗保健装置、智能机器人和可穿戴设备等。
参照图11,并仅作为示例,图10的对话管理设备1000可装备在诸如由语音识别器1120、话语处理器1130和答复处理器1140表示的代理终端1100中,并可管理声音代理与用户之间的智能对话。因此,如在图11中示出,代理终端1100可包括声音输入器1110、语音识别器1120、话语处理器1130、答复处理器1140和答复输出器1150。
在这种情况下,声音输入器1110和答复输出器1150可以是声音代理的硬件元件,并可分别包括例如麦克风和扬声器。此外,仅作为示例并注意到可选实施例是可用的,语音识别器1120、话语处理器1130和答复处理器1140可对应于图1的对话管理设备,因此将省略其进一步详细的描述。
声音输入器1110接收由用户输入的话语声音。例如,声音输入器1100可通过嵌入在代理终端中的麦克风接收用户的声音。声音输入器1100可将例如从用户接收的声音信号转换成数字信号,并在例如逐个音频帧的基础上将数字信号转送到语音识别器1120。声音输入器1100可运行以检测和捕获例如上面讨论的任何其他原始语音或附加语音。
语音识别器1120可将用户的话语声音转换成文本,并将话语文本传递到话语处理器1130。
话语处理器1130可理解用户的话语文本,并对可能需要或期望澄清的特定的表达单元做出附加询问。此外,当话语处理器1130理解用户的全部语音时,话语处理器1130可将对用户的话语的理解的合适结果转送到答复处理器1140。例如,如果用户针对特定人的电话号码的请求被理解,则由答复处理器1140提供的合适的结果可以是那个特定人的电话号码的信息。如果用户的语音是命令(诸如,呼叫特定人的请求),则答复处理器1140还可启动将由代理终端1100执行的一些其他操作。
因此,答复处理器1140可基于对用户的语音的理解的结果生成对用户的答复,将答复转换成自然语言声音,并随后将作为结果的声音答复转送到答复输出器1150。
答复输出器1150可将从答复处理器1140接收的答复输出到用户。例如,答复输出器1150(或答复处理器1140)可诸如通过声音代理如上面所讨论地运行以实现或控制其他操作或命令和/或将其他答复或询问中的任意一个输出到用户。
图12是示出根据一个或多个实施例的对话管理系统的框图。
参照图12,可以以分布式的方式将对话管理系统的元件布置在代理终端1210和云服务器1220中。例如,可以以分布式的方式将图10的对话管理系统布置在代理终端1210和云服务器1220中。
例如,参照图12,对话管理系统可包括代理终端1210和云服务器1220。可选择地,对话管理系统可包括代理终端1210和云服务器1220二者之一。声音输入器1211、语音识别器1212、答复输出器1214、话语处理器1222和答复处理器1223可与例如图11的声音输入器1110、语音识别器1120、答复输出器1150、话语处理器1130和答复处理器1140类似地运行,从而将只对它们简单做出描述。
如图所示,代理终端1210可包括作为声音代理的硬件元件的声音输入器1211和答复输出器1214以及声音识别器1212和终端通信器1215。
代理终端1210可响应于用户针对对话的请求而激活声音输入器1211的麦克风,或可在检测到通过声音输入器1211的有声语音时自动运行。当输入用户的话语声音信号时,声音输入器1211可将输入的声音信号转换成诸如音频数据帧形式的数字信号,并将数字信号转送到语音识别器1212。语音识别器1212可通过识别用户的话语产生文本形式的识别结果,并请求终端通信器1215将产生的识别结果传输到处理话语的云服务器1220。
终端通信器1215可在通过通信硬件模块连接的通信网络中搜索云服务器1220,请求与该云服务器1220的通信连接,并当实现通信连接时,将例如包含文本形式的用户的话语的语音识别结果、相应的声学模型分数和相应的语言模型分数从语音识别器1212传输到云服务器1220。此时,如果终端通信器1215未能在当前通信网络中找到云服务器1220,则终端通信器1215可控制另一通信模块来访问另一通信网络,并建立与云服务器1220的通信。这里,仅作为示例,网络通信可以是短程无线通信(诸如,WiFi、近场通信(NFC)、和等)或移动通信(诸如,3G长期演进(LTE)通信、4G长期演进(LTE)通信和5G长期演进(LTE)通信);但是本公开的各方面不限于此。此外,代理终端1210可装备有被配置为实现这样的通信协议的一个或多个通信硬件模块。终端通信器1215随后可侦听或等待来自云服务器1220的响应。
当终端通信器1215从服务器通信器1221接收到与用户的话语有关的可包括指示用户的话语表示了什么相关命令的信息的答复时,答复输出器1214可基于接收的信息执行相关操作,接收的信息可包括由云服务器1220生成的通过答复输出器1214输出到用户的特定答复。
云服务器1220的服务器通信器1221例如从终端通信器1215接收语音识别结果,并将语音识别结果转送到话语处理器1222。此时,当接收到语音识别结果时,话语处理器1222如上所述使用个性化DB针对用户的话语执行理解操作,并将理解操作的结果转送到答复处理器1223。例如,答复处理器1223可基于理解操作的结果生成将被呈现给用户的答复,并控制服务器通信器1221来将生成的答复转送到代理终端1210的终端通信器1215。生成的答复可以是与理解操作的结果一致的附加询问、确认询问或其他答复。
根据一个或多个公开的实施例的话语处理技术和对话技术不限于上面的描述,并可以各种方式进行修改。例如,可做出修改,使得例如包括语音处理器、话语处理器和答复处理器的对话管理设备的所有组件被安装在一个或多个云服务器中以处理来自代理终端的请求。作为另一示例,代理终端和云服务器均可包括这样的对话管理设备,并且代理终端可选择性地使用代理终端或云服务器二者之一,以针对用户的话语执行相应的语音识别、话语处理和答复处理中的任意一个或任意组合。
仅作为示例,在一个或多个实施例中,基于语音的智能对话实现可提供对话管理,所述对话管理能够建立说话者的词语或短语之间的语意连接,并可请求口头短语的未识别出的部分的选择性的澄清。这里讨论的一个或多个基于语音的智能对话方法和代理实施例可因此也通过额外和/或可选的方面或可选地通过额外和/或可选的方面,向尝试与这样的智能对话代理交互的用户提供更有效、精确和/或可操作的自动交互,并因此提高计算技术和解决针对实现自动对话代理的这样的计算技术的一个或多个问题。
执行本申请中描述的操作的图1至图4B和图10至图12中的语音确定器110、语音理解处理器120、附加询问处理器130、个性化数据库140、语音翻译器210、可靠性计算器220、结果反馈处理器230、表达单元提取器311、附加询问创建器312、表达单元提取器321、附加询问创建器322、类别确定器323、模板提取器324、附加询问模板DB 325、表达单元提取器331、附加询问创建器332、类别确定器333、模板提取器334、附加询问模板DB 335、声音提取器336、语音翻译器411、回答检测器412、结果反馈处理器413、语音翻译器421、回答检测器422、结果反馈处理器423、回答确认处理器424、个性化处理器425、语音识别器1010、话语处理器1020、答复处理器1030、声音输入器1110、语音识别器1120、话语处理器1130、答复处理器1140、答复输出器1150、声音输入器1211、语音识别器1212、答复输出器1214、终端通信器1215、服务器通信器1221、话语处理器1222和答复处理器1223通过被配置为执行本申请中描述的由硬件组件执行的操作的硬件组件来实现。在适当情况下,可用于执行本申请中描述的操作的硬件组件的示例包括控制器、传感器、扬声器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、天线、有线或无线通信接口以及被配置为执行本申请中描述的操作的任意其它电子组件。在其他示例中,通过计算硬件(例如,通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的多个硬件组件中的一个或多个硬件组件。可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以获得期望结果的任意其他装置或装置的组合)来实现处理器或计算机。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。硬件组件也可响应于指令或软件的执行而访问、操控、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述,但在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或包括二者。例如,可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来实现单个硬件组件或者两个或更多个硬件组件。可通过一个或多个处理器或者一个处理器和一个控制器来实现一个或多个硬件组件,并可通过一个或多个其他处理器或者另一个处理器和另一个控制器来实现一个或多个其他硬件组件。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件,或者实现两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任意一个或多个,其示例包括单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理和多指令多数据(MIMD)多处理。
通过计算硬件(例如,通过一个或多个处理器或计算机)来执行图5至图9中示出的执行本申请中描述的操作的方法,其中,计算硬件被实现为如上所述执行指令或软件,以执行由方法执行的本申请中描述的操作。例如,可通过单个处理器或者两个或更多个处理器或者一个处理器和一个控制器来执行单个操作或者两个或更多个操作。可通过一个或多个处理器或者一个处理器和一个控制器来执行一个或多个操作,并可通过一个或多个其他处理器或者另一个处理器和另一个控制器来执行一个或多个其他操作。一个或多个处理器或者一个处理器和一个控制器可执行单个操作,或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并且执行如上面描述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或计算机如机器或专用计算机那样操作,以执行由硬件组件执行的操作和如上面描述的方法。在一个示例中,指令或软件包括直接由一个或多个处理器或计算机执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用翻译器执行的更高级代码。可基于附图中示出的框图和流程图以及说明书中的相应描述,使用任何编程语言编写指令或软件,说明书公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。
用于控制计算硬件(例如,一个或多个处理器或计算机)实现硬件组件并且执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件以及数据结构被可记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和任意其他装置,所述任意其他装置被配置为以非暂时性的方式存储指令或软件和任何相关联的数据、数据文件以及数据结构,并将指令或软件以及任何相关联的数据、数据文件以及数据结构提供给一个或多个处理器或计算机,以使一个或多个处理器或计算机能够执行所述指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件以及数据结构被分布在联网的计算机系统上,使得指令和软件以及任何相关联的数据、数据文件以及数据结构通过一个或多个处理器或计算机以分布式的方式被存储、访问和执行。
虽然本公开包括特定示例,但是在理解本申请的公开后将清楚的是:在不脱离权利要求和它们的等同物的精神和范围的情况下,可对这些示例进行形式和细节上的各种改变。在此描述的示例应仅在描述意义上考虑,而非为了限制的目的。在每个示例中的特征或方面的描述将被视为可被应用于其它示例中的相似特征或方面。如果以不同的顺序执行描述的技术,和/或如果描述的系统、架构、装置或电路中的组件以不同方式被组合和/或被其它组件或其等同物替代或补充,则可实现合适的结果。因此,本公开的范围并非由具体实施方式限定,而是由权利要求和它们的等同物所限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在本公开中。
Claims (31)
1.一种智能对话处理设备,所述智能对话处理设备包括:
一个或多个处理器中的语音理解处理器,被配置为基于用户的个性化数据库DB使用用户的个人习语来执行对用户说出的原始语音的理解;和
一个或多个处理器中的附加询问处理器,被配置为从原始语音提取未被语音理解处理器理解的选择的表达单元,并向用户提供与提取的表达单元关联的澄清询问以澄清提取的表达单元。
2.如权利要求1所述的智能对话处理设备,其中,语音理解处理器包括:可靠性计算器,被配置为使用个性化DB计算组成原始语音的每个表达单元的可靠性,并且
语音理解处理器基于计算的可靠性使用用户的个人习语来执行对原始语音的理解。
3.如权利要求2所述的智能对话处理设备,其中,附加询问处理器被配置为:分析原始语音中提取的表达单元的上下文和/或针对提取的表达单元的潜在相关的术语的个性化DB,并基于分析的结果生成语境化澄清询问。
4.如权利要求2所述的智能对话处理设备,其中,个性化DB包括以下项中的至少一个:
公用DB,存储多个用户之间公用的语音表达;
个人DB,存储用户的个人习语中的各种表达;和
本体DB,以本体形式存储公用的语音表达和/或用户的个人习语中的表达。
5.如权利要求4所述的智能对话处理设备,其中,可靠性计算器对来自公用DB、个人DB和本体DB中的至少两个DB的理解结果施加不同的权重,并随后使用被施加不同的权重的理解结果计算可靠性。
6.如权利要求1所述的智能对话处理设备,其中,附加询问处理器基于提取的表达单元和/或询问模板生成澄清询问。
7.如权利要求6所述的智能对话处理设备,其中,附加询问处理器包括:类别确定器,被配置为确定提取的表达单元的类别;和模板提取器,被配置为从询问模板DB提取与确定的类别对应的询问模板。
8.如权利要求6所述的智能对话处理设备,其中,附加询问处理器还包括:声音提取器,被配置为从原始语音的音频提取与提取的表达单元对应的用户的声音的音频,以及
附加询问创建器,被配置为通过混合提取的用户的声音的音频与询问模板的生成的声音,来生成澄清询问。
9.如权利要求1所述的智能对话处理设备,其中,附加询问处理器还被配置为翻译响应于将提供的澄清询问输出到用户而从用户接收的澄清语音,并且附加询问处理器还包括:回答检测器,被配置为基于澄清语音的翻译的结果在澄清语音中检测与提取的表达单元有关的回答。
10.如权利要求9所述的智能对话处理设备,其中,附加询问处理器还包括:回答确认处理器,被配置为向用户做出关于检测到的回答的确认询问;和回答个性化处理器,被配置为根据响应于确认询问而从用户接收的确认答复来更新个性化DB。
11.如权利要求9所述的智能对话处理设备,其中,还包括:语音确定器,被配置为确定用户的输入话语是原始语音还是澄清语音。
12.如权利要求1所述的智能对话处理设备,其中,所述一个或多个处理器中的一个处理器被配置为:接收通过声音输入器捕获的用户的话语,执行对接收到的话语的识别,并将识别的结果提供到语音理解处理器以基于提供的结果执行理解。
13.如权利要求12所述的智能对话处理设备,还包括:所述一个或多个处理器中的答复处理器,被配置为将澄清询问以自然语言声音的形式提供到用户。
14.一种智能对话处理方法,所述智能对话处理方法包括:
基于用户的个性化DB,使用用户的个人习语来执行对用户说出的原始语音的自动理解;
基于所述理解从原始语音提取未被理解的选择的表达单元;并
通过自动处理,提供与提取的表达单元关联的澄清询问,以澄清提取的表达单元。
15.如权利要求14所述的智能对话处理方法,其中,理解说出的原始语音的步骤包括:基于个性化DB,计算组成原始语音的每个表达单元的可靠性;并基于计算的可靠性,使用用户的个人习语来执行对原始语音的理解。
16.如权利要求15所述的智能对话处理方法,其中,个性化DB包括以下项中的至少一个:
公用DB,存储多个用户之间公用的语音表达;
个人DB,存储用户的个人习语中的各种表达;和
本体DB,以本体形式存储公用的语音表达和/或用户的个人习语中的表达。
17.如权利要求14所述的智能对话处理方法,其中,提供澄清询问的步骤包括:基于提取的表达单元和/或询问模板,生成澄清询问,以输出到用户。
18.如权利要求17所述的智能对话处理方法,其中,提供澄清询问的步骤包括:确定提取的表达单元的类别,并从询问模板DB提取与确定的类别对应的询问模板。
19.如权利要求17所述的智能对话处理方法,其中,提供澄清询问的步骤包括:从原始语音的音频提取与提取的表达单元对应的用户的声音的音频,通过混合提取的用户的声音的音频与询问模板的生成的声音来生成澄清询问,并输出生成的澄清询问。
20.如权利要求14所述的智能对话处理方法,其中,提供澄清询问的步骤包括:翻译响应于将提供的澄清询问输出到用户而从用户接收的澄清语音,并基于澄清语音的翻译的结果在澄清语音中检测与提取的表达单元有关的回答。
21.如权利要求20所述的智能对话处理方法,其中,提供澄清询问的步骤包括:生成关于检测到的回答的确认询问,将生成的确认询问呈现给用户,并根据响应于确认询问而从用户接收的确认答复更新个性化DB。
22.如权利要求20所述的智能对话处理方法,其中,还包括:
确定用户的输入话语是原始语音还是澄清语音。
23.如权利要求14所述的智能对话处理方法,
其中,执行对说出的原始语音的理解的步骤还包括从捕获说出的原始语音的远程终端接收说出的原始语音,并且
其中,提供澄清询问的步骤还包括将澄清询问提供到远程终端以将澄清询问输出到用户。
24.如权利要求23所述的智能对话处理方法,其中,接收的说出的原始语音是文本形式,并且已经被远程终端的识别器处理器使用识别捕获的说出的原始语音的声学模型和语言模型中的至少一个模型识别。
25.如权利要求14所述的智能对话处理方法,还包括:
接收通过声音输入器捕获的用户的话语;
对接收到的话语执行识别,其中,执行理解的步骤包括使用识别的结果执行理解;并且
以自然语言声音将澄清询问作为对话语的答复而输出到用户。
26.一种智能对话处理系统,包括:
一个或多个处理器中的语音识别器处理器,被配置为:接收用户的叙述的初始话语,并执行对接收到的初始话语的识别;
一个或多个处理器中的话语处理器,被配置为:基于识别的结果和用户的个性化DB使用用户的个人习语来执行对识别的初始话语的理解,处理与识别的初始话语的理解中未被理解的表达单元关联的澄清询问,并输出澄清询问;和
一个或多个处理器中的答复处理器,被配置为使用用于向话语处理器澄清部分初始话语的澄清询问生成对接收到的用户的初始话语的自然语言答复。
27.如权利要求26所述的智能对话处理系统,其中,语音识别器处理器使用声学模型和/或语言模型识别接收到的初始话语,并将识别的结果以文本形式提供到话语处理器。
28.如权利要求26所述的智能对话处理系统,其中,话语处理器确定表达单元的类别,并通过组合表达单元与对应于确定的类别的询问模板来生成澄清询问。
29.如权利要求28所述的智能对话处理系统,其中,话语处理器从初始话语的音频提取与表达单元对应的用户的声音的音频,并通过混合提取的用户的声音的音频与询问模板的生成的声音,来生成澄清询问。
30.如权利要求28所述的智能对话处理系统,其中,当澄清语音响应于澄清询问而被接收时,话语处理器从澄清语音检测与表达单元有关的回答,并基于检测到的回答和执行的对初始话语的理解二者提供对初始话语的理解的最终结果。
31.如权利要求26所述的智能对话处理系统,其中,答复处理器基于对初始话语的理解的结果从个性化DB提取答复候选,使用提取的答复候选生成自然语言问题,将生成的问题转换成自然语言声音,并提供自然语言声音,以输出到用户。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150131861A KR20170033722A (ko) | 2015-09-17 | 2015-09-17 | 사용자의 발화 처리 장치 및 방법과, 음성 대화 관리 장치 |
KR10-2015-0131861 | 2015-09-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106558307A true CN106558307A (zh) | 2017-04-05 |
Family
ID=56888975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610817351.0A Pending CN106558307A (zh) | 2015-09-17 | 2016-09-12 | 智能对话处理设备、方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170084274A1 (zh) |
EP (1) | EP3144931A1 (zh) |
JP (1) | JP2017058673A (zh) |
KR (1) | KR20170033722A (zh) |
CN (1) | CN106558307A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN109286861A (zh) * | 2017-07-19 | 2019-01-29 | 美的智慧家居科技有限公司 | 智能设备的信息查询方法、装置及其设备 |
CN109286540A (zh) * | 2017-07-19 | 2019-01-29 | 美的智慧家居科技有限公司 | 智能设备的控制方法、装置及其设备 |
CN110021290A (zh) * | 2018-01-08 | 2019-07-16 | 上海西门子医疗器械有限公司 | 医疗系统和用于医疗系统的实时语言转换方法 |
CN110047467A (zh) * | 2019-05-08 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、存储介质及控制终端 |
CN110096583A (zh) * | 2019-05-09 | 2019-08-06 | 苏州思必驰信息科技有限公司 | 多领域对话管理系统及其构建方法 |
CN110785763A (zh) * | 2017-10-03 | 2020-02-11 | 谷歌有限责任公司 | 用户可编程的自动化助理 |
CN110875032A (zh) * | 2018-08-31 | 2020-03-10 | 国立大学法人京都大学 | 语音交互系统和方法、程序、学习模型生成装置和方法 |
CN110880319A (zh) * | 2018-09-06 | 2020-03-13 | 丰田自动车株式会社 | 语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质 |
CN111048088A (zh) * | 2019-12-26 | 2020-04-21 | 北京蓦然认知科技有限公司 | 一种多应用程序的语音交互方法和装置 |
CN111149107A (zh) * | 2017-09-28 | 2020-05-12 | 甲骨文国际公司 | 使自主代理能够区分问题和请求 |
CN111587419A (zh) * | 2018-02-23 | 2020-08-25 | 三星电子株式会社 | 电子装置及其控制方法 |
WO2023040658A1 (zh) * | 2021-09-18 | 2023-03-23 | 华为技术有限公司 | 语音交互方法及电子设备 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180060328A (ko) * | 2016-11-28 | 2018-06-07 | 삼성전자주식회사 | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 |
KR101965880B1 (ko) * | 2017-03-30 | 2019-04-04 | 엘지전자 주식회사 | 음성 인식 방법 |
KR20180118470A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
CN107395467B (zh) * | 2017-06-21 | 2021-08-17 | 北京小米移动软件有限公司 | 智能家居的初始化方法及装置 |
CN107507615A (zh) * | 2017-08-29 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 界面智能交互控制方法、装置、系统及存储介质 |
KR102479026B1 (ko) * | 2017-09-27 | 2022-12-20 | 한국전자통신연구원 | MPEG IoMT 환경에서의 질의응답 시스템 및 방법 |
KR102420280B1 (ko) * | 2017-10-30 | 2022-07-13 | 엘지전자 주식회사 | 이동 단말기 |
KR101987915B1 (ko) * | 2017-12-22 | 2019-06-12 | 주식회사 솔트룩스 | 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템 |
KR102532300B1 (ko) * | 2017-12-22 | 2023-05-15 | 삼성전자주식회사 | 어플리케이션 실행 방법 및 이를 위한 장치 |
US20210064640A1 (en) * | 2018-01-17 | 2021-03-04 | Sony Corporation | Information processing apparatus and information processing method |
KR102085788B1 (ko) * | 2018-02-21 | 2020-03-06 | 오명탁 | 고객 상담 서비스 시스템 및 방법 |
KR102630662B1 (ko) * | 2018-04-02 | 2024-01-30 | 삼성전자주식회사 | 어플리케이션 실행 방법 및 이를 지원하는 전자 장치 |
JP7327536B2 (ja) * | 2018-06-12 | 2023-08-16 | トヨタ自動車株式会社 | 車両用コクピット |
KR20200094839A (ko) | 2019-01-23 | 2020-08-10 | 삼성전자주식회사 | 사용자 입력에 대한 피드백 정보를 제공하는 전자 장치 및 그 동작 방법 |
KR20200094853A (ko) | 2019-01-25 | 2020-08-10 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
KR20210008696A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
CN114174972B (zh) | 2019-07-19 | 2024-05-17 | 谷歌有限责任公司 | 用于复杂应用gui的自动化助理控制的压缩口头话语 |
US20210065691A1 (en) * | 2019-08-29 | 2021-03-04 | Microsoft Technology Licensing, Llc | Automatic speech sensitivity adjustment feature |
JP7230752B2 (ja) | 2019-09-25 | 2023-03-01 | トヨタ自動車株式会社 | 情報処理方法および情報処理装置 |
JP7058305B2 (ja) * | 2020-07-10 | 2022-04-21 | ソフトバンク株式会社 | 情報処理装置、音声出力方法、音声出力プログラム |
KR102431369B1 (ko) * | 2020-09-24 | 2022-08-10 | 서울시립대학교 산학협력단 | 대화형 인공지능을 이용한 코딩 방법 및 장치 |
CN112562734B (zh) * | 2020-11-25 | 2021-08-27 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN113449093B (zh) * | 2021-07-08 | 2024-04-16 | 京东科技控股股份有限公司 | 智能应答方法、装置和电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
DE10262239B4 (de) * | 2002-09-18 | 2011-04-28 | Infineon Technologies Ag | Digitales Signalübertragungsverfahren |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
KR101922744B1 (ko) * | 2011-03-31 | 2018-11-27 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 위치-기반 대화 해석 기법 |
JP6316744B2 (ja) * | 2011-04-12 | 2018-04-25 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 埋め込み3dモデリング |
US8935277B2 (en) * | 2012-03-30 | 2015-01-13 | Sap Se | Context-aware question answering system |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
US10741182B2 (en) * | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
-
2015
- 2015-09-17 KR KR1020150131861A patent/KR20170033722A/ko unknown
-
2016
- 2016-09-07 US US15/258,281 patent/US20170084274A1/en not_active Abandoned
- 2016-09-08 EP EP16187722.0A patent/EP3144931A1/en not_active Withdrawn
- 2016-09-12 CN CN201610817351.0A patent/CN106558307A/zh active Pending
- 2016-09-14 JP JP2016179328A patent/JP2017058673A/ja active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109286861A (zh) * | 2017-07-19 | 2019-01-29 | 美的智慧家居科技有限公司 | 智能设备的信息查询方法、装置及其设备 |
CN109286540A (zh) * | 2017-07-19 | 2019-01-29 | 美的智慧家居科技有限公司 | 智能设备的控制方法、装置及其设备 |
CN111149107B (zh) * | 2017-09-28 | 2023-08-22 | 甲骨文国际公司 | 使自主代理能够区分问题和请求 |
CN111149107A (zh) * | 2017-09-28 | 2020-05-12 | 甲骨文国际公司 | 使自主代理能够区分问题和请求 |
US11887595B2 (en) | 2017-10-03 | 2024-01-30 | Google Llc | User-programmable automated assistant |
CN110785763A (zh) * | 2017-10-03 | 2020-02-11 | 谷歌有限责任公司 | 用户可编程的自动化助理 |
US11276400B2 (en) | 2017-10-03 | 2022-03-15 | Google Llc | User-programmable automated assistant |
CN110785763B (zh) * | 2017-10-03 | 2021-02-19 | 谷歌有限责任公司 | 自动化助理实现的方法和相关存储介质 |
CN110021290A (zh) * | 2018-01-08 | 2019-07-16 | 上海西门子医疗器械有限公司 | 医疗系统和用于医疗系统的实时语言转换方法 |
US11709655B2 (en) | 2018-02-23 | 2023-07-25 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
CN111587419A (zh) * | 2018-02-23 | 2020-08-25 | 三星电子株式会社 | 电子装置及其控制方法 |
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN110875032A (zh) * | 2018-08-31 | 2020-03-10 | 国立大学法人京都大学 | 语音交互系统和方法、程序、学习模型生成装置和方法 |
CN110875032B (zh) * | 2018-08-31 | 2023-10-10 | 国立大学法人京都大学 | 语音交互系统和方法、程序、学习模型生成装置和方法 |
CN110880319A (zh) * | 2018-09-06 | 2020-03-13 | 丰田自动车株式会社 | 语音交互装置、语音交互装置的控制方法以及存储程序的非暂时性记录介质 |
CN110047467B (zh) * | 2019-05-08 | 2021-09-03 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、存储介质及控制终端 |
CN110047467A (zh) * | 2019-05-08 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、存储介质及控制终端 |
CN110096583A (zh) * | 2019-05-09 | 2019-08-06 | 苏州思必驰信息科技有限公司 | 多领域对话管理系统及其构建方法 |
CN111048088A (zh) * | 2019-12-26 | 2020-04-21 | 北京蓦然认知科技有限公司 | 一种多应用程序的语音交互方法和装置 |
WO2023040658A1 (zh) * | 2021-09-18 | 2023-03-23 | 华为技术有限公司 | 语音交互方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20170084274A1 (en) | 2017-03-23 |
KR20170033722A (ko) | 2017-03-27 |
JP2017058673A (ja) | 2017-03-23 |
EP3144931A1 (en) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106558307A (zh) | 智能对话处理设备、方法和系统 | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
CN108831439B (zh) | 语音识别方法、装置、设备和系统 | |
US9633657B2 (en) | Systems and methods for supporting hearing impaired users | |
KR102201937B1 (ko) | 후속 음성 쿼리 예측 | |
CN1655235B (zh) | 基于话音特征自动标识电话呼叫者 | |
US11093110B1 (en) | Messaging feedback mechanism | |
EP3655863A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
CN110998720A (zh) | 话音数据处理方法及支持该方法的电子设备 | |
US20140365200A1 (en) | System and method for automatic speech translation | |
US20220148572A1 (en) | Server supported recognition of wake phrases | |
US11302329B1 (en) | Acoustic event detection | |
US11151996B2 (en) | Vocal recognition using generally available speech-to-text systems and user-defined vocal training | |
US11605387B1 (en) | Assistant determination in a skill | |
KR102060775B1 (ko) | 음성 입력에 대응하는 동작을 수행하는 전자 장치 | |
EP3679570A1 (en) | Named entity pronunciation generation for speech synthesis and speech recognition | |
KR20210042523A (ko) | 전자 장치 및 이의 제어 방법 | |
CN112567718A (zh) | 响应用户语音执行包括呼叫的任务的电子装置及操作方法 | |
US11756538B1 (en) | Lower latency speech processing | |
KR20190032557A (ko) | 음성 기반 통신 | |
US12008988B2 (en) | Electronic apparatus and controlling method thereof | |
US20210327415A1 (en) | Dialogue system and method of controlling the same | |
JP5901694B2 (ja) | 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム | |
Pahwa et al. | Speech recognition system: A review | |
Choudhary et al. | Process speech recognition system using artificial intelligence technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170405 |