CN110858481B - 用于处理用户语音话语的系统和用于操作该系统的方法 - Google Patents
用于处理用户语音话语的系统和用于操作该系统的方法 Download PDFInfo
- Publication number
- CN110858481B CN110858481B CN201910725656.2A CN201910725656A CN110858481B CN 110858481 B CN110858481 B CN 110858481B CN 201910725656 A CN201910725656 A CN 201910725656A CN 110858481 B CN110858481 B CN 110858481B
- Authority
- CN
- China
- Prior art keywords
- user
- service domain
- domain
- processor
- selected service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000004044 response Effects 0.000 claims abstract description 54
- 230000009471 action Effects 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 description 95
- 235000016213 coffee Nutrition 0.000 description 90
- 235000013353 coffee beverage Nutrition 0.000 description 90
- 239000002775 capsule Substances 0.000 description 68
- 238000004891 communication Methods 0.000 description 62
- 238000007726 management method Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 16
- 235000013550 pizza Nutrition 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 235000013361 beverage Nutrition 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 244000299461 Theobroma cacao Species 0.000 description 1
- 235000009470 Theobroma cacao Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000015114 espresso Nutrition 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003155 kinesthetic effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种用于处理用户语音话语的系统和用于操作该系统的方法。所述系统包括至少一个存储器以及被可操作地连接到所述存储器的至少一个处理器。所述存储器可存储当被执行时使得所述处理器执行以下操作的指令:从用户接收选择至少一个域的输入并且将所述输入存储在所述存储器中,至少部分地基于关于在所述输入被存储之后接收到的用户话语的数据识别所述话语,当所述话语不包括域名时,确定所述话语是否与已选定域相应,以及当所述话语与所述已选定域相应时,通过使用所述已选定域处理所述话语以产生响应。
Description
技术领域
本公开涉及一种用于识别用户语音话语并且根据识别的用户语音话语执行功能的系统以及用于操作该系统的方法。
背景技术
现代电子装置(诸如智能电话和平板个人计算机(PC))已经变得普及,并且近来已经逐渐地增加对能够识别用户的语音话语并且执行指定功能的电子装置的使用。识别用户的语音话语的系统可执行连接到系统的电子装置的功能,并且可与第三方服务提供商互相配合并提供与第三方服务提供商相关的功能。
以上信息作为背景信息被呈现仅用于帮助对本公开的理解。至于任何以上内容是否可应用为针对本公开的现有技术,尚未做出决定,也未做出断言。
发明内容
本公开的各方面在于解决至少上述的问题和/或缺点并提供至少以下描述的优点。因此,本公开的一方面在于提供一种识别用户的语音话语的系统,该系统根据在用户的语音话语中包括的特定词语或短语执行指定的动作。例如,当用户的语音话语包括唤醒词语时,电子装置可执行用于接收另外的用户语音话语的准备动作。
作为另一示例,当用户的语音话语包括指示特定服务提供系统(例如,服务域名)的关键词时,所述系统可执行与所述该服务提供系统相关的功能。在这种情况下,该系统可通过使用所述用户语音话语的其余内容确定用户的意图并且提供与特定服务域相关的服务。
然而,当用户的语音话语不包括特定服务域名时,存在所述电子装置将通过使用与所述用户的意图不匹配的服务域来提供服务的可能性。这是因为,即使所述电子装置可通过使用所述用户语音话语确定用户想要执行的服务的类型,所述类型的服务也可通过单个服务域或多个服务域被提供。
另外的方面将在下面的描述中被部分地阐明,并且部分地通过该描述将是显而易见的,或者可通过呈现的实施例的实施可被理解。
根据本公开的一方面,当识别所述用户的语音话语的系统已经识别出不包括服务域名的语音话语时,所述系统可通过使用由用户已选定服务域处理识别的语音话语。
根据本公开的另一方面,识别所述用户的语音话语的系统可从用户接收对特定服务域的选择并且可训练自然语言理解模型,所述自然语言理解模型被用于处理所述用户语音话语,使得可通过使用不包括服务域名的语音话语向用户提供期望的服务。
根据本公开的另一方面,提供了一种设备。该设备包括至少一个存储器以及被可操作地连接到所述存储器的至少一个处理器。所述存储器存储当被执行时使得所述处理器执行以下操作的指令:从用户接收选择至少一个域的输入,在所述输入之后,接收用户话语,从所述用户话语识别内容,当所述内容不包括业务实体时,确定所述内容是否与所述至少一个域相应,并且当所述内容与所述至少一个域相应时,通过使用所述至少一个域来处理所述内容以产生响应。
根据本公开的另一方面,提供了一种操作设备的方法。所述方法包括以下操作:从用户接收选择至少一个域的输入,在所述输入之后,接收用户话语,从所述用户话语识别内容,当所述内容不包括业务实体时,确定所述内容是否与所述至少一个域相应,并且当所述内容与所述至少一个域相应时,通过使用所述至少一个域来处理所述内容以产生响应。
根据各种实施例的电子装置的优点在于:当支持多个服务域的语音话语处理系统使用服务域指定话语策略时,即使没有服务域被指定,语音话语也可针对由用户预先已选定服务域被处理,从而增加语音话语处理系统的意图识别性能并且提高用户的可用性和便利性。
从结合附图公开了本公开的各种实施例的以下详细的描述中,本公开的其他方面、优点和显著特征对于本领域的普通技术人员而言将是显而易见的。
附图说明
通过以下结合附图的详细描述,本公开的特定实施例的以上及其他方面、特征和优点将更清楚,其中:
图1是示出根据本公开的实施例的集成智能系统的框图;
图2是示出根据本公开的实施例的数据库(DB)中的存储的关于概念与动作之间的关系的信息的类型的示图;
图3是示出本公开的实施例的显示用于通过智能应用处理接收到的语音输入的屏幕的用户终端的示图;
图4是根据本公开的各种实施例的网络环境内的电子装置的框图;
图5是示出根据本公开的实施例的语音话语处理系统的动作的示图;
图6是示出根据本公开的实施例的语音话语处理系统的动作的示图;
图7是示出根据本公开的实施例的用于基于已选定服务域处理用户语音话语的电子装置的主要组件的示图;
图8是示出根据本公开的实施例的用于基于已选定服务域处理用户语音话语的服务器的主要组件的示图;
图9示出根据本公开的实施例的语音话语处理系统的处理用户语音话语的方法;
图10示出根据本公开的实施例的语音话语处理系统的基于用户意图执行至少一个功能的方法;
图11示出根据本公开的实施例的语音话语处理系统的基于已选定服务域执行至少一个功能的方法;
图12示出根据本公开的实施例的语音话语处理系统的处理用户语音话语的方法;
图13示出根据本公开的实施例的语音话语处理系统的训练已选定服务域自然语言理解(NLU)模型的方法;
图14示出根据本公开的实施例的语音话语处理系统的检测将指定服务域配置为已选定服务域的用户输入的方法;
图15示出根据本公开的实施例的用于检测将特定的服务域配置为已选定服务域的用户输入的方法。
图16A、图16B、图16C和图16D示出根据本公开的实施例的用于处理用户语音话语的用户界面;
图17A、图17B和17C示出根据本公开的实施例的用于处理用户语音话语的用户界面;以及
图18示出根据本公开的实施例的用于处理用户语音话语的用户界面。
贯穿附图,相同的附图标号将被理解为表示相同的部件、组件和结构。
具体实施方式
提供参照附图的以下描述以帮助对由权利要求及其等同物所限定的本公开的各种实施例的全面理解。以下描述包括各种具体细节以帮助理解,但这些具体细节应被看做仅仅示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可对这里描述的各种实施例做出各种改变和修改。此外,为了清楚和简明,可省略对公知功能和构造的描述。
以下描述及权利要求中使用的术语或词语不限于书面含义,但仅被发明人用于使得能够清楚并且一致地理解本公开。因此,对于本领域的普通技术人员应当显而易见的是,本公开的各种实施例的以下描述被提供仅用于说明的目的而不是用于限制由所附权利要求及其等同物限定的本公开的目的。
将理解的是,除非上下文另外清楚地指出,否则单数形式“一”、“一个”和“所述”包括复数形式。因此,例如,参考“组件表面”包括参考一个或更多个这样的表面。
图1是示出根据本公开的实施例的集成智能系统的框图。
参照图1,根据实施例的集成智能系统10可包括用户终端100、智能服务器200和服务服务器300。
实施例中的用户终端100可以是能够连接到互联网的终端装置(或电子装置),并且可以是例如移动电话、智能电话、个人数字助理(PDA)、膝上型计算机、电视机(TV)、家用电器、可穿戴装置、头戴式显示器(HMD)或智能扬声器。
根据示出的实施例,用户终端100可包括通信接口110、麦克风120、扬声器130、显示器140、存储器150和处理器160。列举的组件可被可操作地连接到彼此或被电连接到彼此。
实施例中的通信接口110可被连接到外部装置并且被配置为发送/接收数据。实施例中的麦克风120可接收声音(例如,用户话语)并且可将该声音转换成电信号。实施例中的扬声器130可将电信号输出为声音(例如,语音)。实施例中的显示器140可被配置为显示图像或视频。实施例中的显示器140也可显示执行的应用(也成为称为应用程序)的图形用户界面(GUI)。
实施例中的存储器150可存储客户端模块151、软件开发工具包(SDK)153和多个应用155。客户端模块151和SDK 153可构成用于执行通用功能的(针对解决方案程序的)架构。此外,客户端模块151或SDK 153可构成用于处理语音输入的架构。
实施例中的存储在存储器150中的多个应用155可以是用于执行指定功能的程序。根据实施例,多个应用155可包括第一应用155_1和第二应用155_2。根据实施例,多个应用155中的每一个可包括用于执行指定功能的多个动作。例如,应用可包括通知应用、消息应用和/或日程应用。根据实施例,可通过处理器160运行多个应用155以便相继执行所述多个动作中的至少一些动作。
实施例中的处理器160可控制用户终端100的总体动作。例如,处理器160可被电连接到通信接口110、麦克风120、扬声器130和显示器140以便执行指定的动作。
实施例中的处理器160也可运行存储在存储器150中的程序以便执行指定的功能。例如,处理器160可执行客户端模块151或SDK 153中的至少一个以便执行用于处理语音输入的后续动作。例如,处理器160可通过SDK 153控制多个应用155的动作。已经被描述为客户端模块151或SDK 153的动作的后续动作可以是通过处理器160的运行而产生的动作。
实施例中的客户端模块151可接收语音输入。例如,客户端模块151可接收与通过麦克风120感测的语音话语相应的语音信号。客户端模块151可将接收的语音输入发送到智能服务器200。客户端模块151可将关于用户终端100的状态的信息连同接收的语音输入发送到智能服务器200。状态信息可以是例如关于应用的运行状态的信息。
实施例中的客户端模块151可接收与接收到的语音输入相应的结果。例如,当智能服务器200计算与接收到的语音输入相应的结果时,客户端模块151可接收与接收到的语音输入相应的结果。客户端模块151可在显示器140上显示接收到的结果。
实施例中的客户端模块151可接收与接收到的语音输入相应的计划。客户端模块151可根据计划在显示器140上显示执行应用的多个动作的结果。客户端模块151可在显示器上后续地显示例如执行多个动作的结果。作为另一示例,用户终端100可在显示器上显示执行多个动作的结果的仅一部分(例如,最后一个动作的结果)。
根据实施例,客户端模块151可从智能服务器200接收对于获得计算与语音输入相应的结果所需的信息的请求。根据实施例,响应于请求,客户端模块151可将必需的信息发送到智能服务器200。
实施例中的客户端模块151可根据计划将关于执行多个动作的结果的信息发送到智能服务器200。智能服务器200可通过使用结果信息确认接收到的语音输入已经被正确地处理。
实施例中的客户端模块151可包括语音识别模块。根据实施例,客户端模块151可通过语音识别模块识别执行有限的功能的语音输入。例如,客户端模块151可执行用于处理语音输入的智能应用以通过指定的输入(例如,“醒来!”)执行生物式动作。
实施例中的智能服务器200可通过通信网络从用户终端100接收与用户语音输入相关的信息。根据实施例,智能服务器200可将与接收到的语音输入相关的数据改变为文本数据。根据实施例,智能服务器200可基于文本数据产生用于执行与用户语音输入相应的任务的计划。
根据实施例,可通过人工智能(AI)系统产生计划。AI系统可以是基于规则的系统或者可以是基于神经网络的系统(例如,前馈神经网络(FNN)或循环神经网络(RNN))。可选地,AI系统可以是上述系统的组合或者与上述系统不同的系统。根据实施例,可从预定义的一组计划选择计划或者可响应于用户请求实时产生计划。例如,AI系统可从多个预定义的计划选择至少一个计划。
实施例中的智能服务器200可将遵从产生的计划的结果发送到用户终端100,或者可将产生的计划发送到用户终端100。根据实施例,用户终端100可显示遵从计划的结果。根据实施例,用户终端100可显示根据计划执行动作的结果。
实施例中的智能服务器200可包括前端210、自然语言平台220、胶囊数据库(DB)230、执行引擎240、终端用户接口250、管理平台260、大数据平台270或分析平台280。
实施例中的前端210可接收从用户终端100接收的语音输入。前端210可发送与语音输入相应的响应。
根据实施例,自然语言平台220可包括自动语音识别(ASR)模块221、自然语言理解(NLU)模块223、计划器模块225、自然语言产生(NLG)模块227或文本转语音(TTS)模块229。
实施例中的ASR模块221可将从用户终端100接收的语音输入转换为可包括用于执行动作的命令的文本数据。实施例中的NLU模块223可通过使用语音输入的文本数据识别用户的意图(例如,用户意在将执行的动作)。例如,NLU模块223可通过执行语法分析或语义分析识别用户的意图。实施例中的NLU模块223可通过使用词素或短语的语言特征(例如,语法元素)识别从语音输入提取的词语的含义,并且可将识别的词语的含义与意图相匹配,从而确定用户的意图。
实施例中的计划器模块225可通过使用用户的意图和参数产生计划。根据实施例,计划器模块225可基于用户的意图确定执行任务所需的多个域。计划器模块225可基于用户的意图分别确定包括在多个域中的多个动作。根据实施例,计划器模块225可确定执行多个动作所需的参数或者通过执行所述多个动作而输出的结果值。可以以指定的格式(或分类)将参数和结果值确定为概念。因此,计划可包括根据用户意图确定的多个动作以及多个概念。计划器模块225可按照逐步的方式(或分层地)确定多个动作与多个概念之间的关系。例如,计划器模块225可基于所述多个概念确定执行基于用户意图确定的多个动作的顺序。换句话说,计划器模块225可确定基于执行多个动作所需的参数执行所述多个动作的顺序和通过执行所述多个动作而输出的结果。因此,计划器模块225可产生包括关于所述多个动作和所述多个概念之间的关联(例如,本体论)的信息的计划。计划器模块225可通过使用在存储概念与动作之间的关系的集合的胶囊(capsule)DB 230中存储的信息来产生计划。
实施例中的NLG模块227可将指定的信息改变为文本类型。被改变为文本类型的信息可属于自然语言话语类型。实施例中的TTS模块229可将文本类型信息改变为语音类型信息。
根据实施例,也可通过用户终端100实现自然语言平台220的部分功能或全部的功能。
胶囊DB 230可存储关于多个概念与动作之间的关系的信息,其中,所述多个概念与动作与多个域相应。实施例中的胶囊可包括在计划中包括的多个动作对象(或动作信息)和概念对象(或概念信息)。根据实施例,胶囊DB 230可以以概念动作网络(CAN)类型存储多个胶囊。根据实施例,所述多个胶囊可被存储在包括在胶囊DB 230中的函数注册表中。
胶囊DB 230可包括存储确定与语音输入相应的计划所需的策略信息的策略注册表。当存在与语音输入相应的多个计划时,策略信息可包括用于确定一个计划的参考信息。根据实施例,胶囊DB 230可包括存储关于后续动作的信息的后续注册表,其中,所述后续动作用于在指定的情况下向用户提议后续动作。所述后续动作可包括例如后续话语。根据实施例,胶囊DB 230可包括存储关于通过用户终端100输出的信息的布局的信息的布局注册表。根据实施例,胶囊DB 230可包括存储在胶囊信息中包括的词汇信息的词汇注册表。根据实施例,胶囊DB 230可包括存储关于与用户的对话(交互)的信息的对话注册表。胶囊DB230可通过开发者工具更新存储的对象。例如,开发者工具可包括用于更新动作对象或概念对象的函数编辑器。开发者工具可包括用于更新词汇的词汇编辑器。开发者工具可包括用于产生并注册用于确定计划的策略的策略编辑器。开发者工具可包括用于产生与用户的对话的对话编辑器。开发者工具可包括能够激活后续的对象并编辑提供提示的后续话语的后续编辑器。可基于当前配置的对象、用户的偏好或环境条件确定后续对象。在实施例中,也可在用户终端100内实现胶囊DB 230。
实施例中的执行引擎240可通过使用产生的计划计算结果。终端用户接口250可将计算的结果发送到用户终端100。因此,用户终端100可接收结果并且将接收到的结果提供给用户。实施例中的管理平台260可管理智能服务器200使用的信息。实施例中的大数据平台270可收集用户的数据。实施例中的分析平台280可管理智能服务器200的服务质量(QoS)。例如,分析平台280可管理智能服务器200的组件以及智能服务器200的组件的处理速率(或效率)。
实施例中的服务服务器300可将指定的服务(例如,订餐或酒店预订)提供给用户终端100。根据实施例,服务服务器300可以是由第三方管理的服务器并且可包括多个服务,诸如,胶囊提供商(CP)服务A 301、CP服务B 302和CP服务C 303。实施例中的服务服务器300可将用于产生与接收到的语音输入相应的计划的信息提供给智能服务器200。在胶囊DB230中可存储提供的信息。此外,服务服务器300可将关于遵从计划的结果的信息提供给智能服务器200。
在上述的集成智能系统10中,用户终端100可响应于用户输入将各种智能服务提供给用户。用户输入可包括例如通过物理按钮的输入和触摸输入或者语音输入。
在实施例中,用户终端100可通过在用户终端100中存储的智能应用(或语音识别应用)提供语音识别服务。在这种情况下,用户终端100例如可识别通过麦克风接收到的用户话语或者语音输入,并且可将与识别的语音输入相应的服务提供给用户。
在实施例中,用户终端100可基于接收到的语音输入单独地或者连同智能服务器和/或服务服务器执行指定的动作。例如,用户终端100可运行与接收到的语音输入相应的应用并且可通过运行的应用执行指定动作。
在实施例中,当用户终端100连同智能服务器200和/或服务服务器300提供服务时,用户终端可通过使用麦克风120感测用户话语,并且可产生与感测到的用户话语相应的信号(或语音数据)。用户终端可通过使用通信接口110将语音数据发送到智能服务器200。
响应于从用户终端100接收到的语音输入,根据实施例的智能服务器200可产生用于执行与语音输入相应的任务的计划或者根据计划执行动作的结果。计划可包括例如用于执行与用户的语音输入相应的任务的多个动作以及与所述多个动作相关的多个概念。概念可与被输入以执行所述多个动作的参数的定义或者通过执行所述多个动作而输出的结果值的定义相应。计划可包括关于多个动作与多个概念之间的关联的信息。
实施例中的用户终端100可通过使用通信接口110接收响应。用户终端100可通过使用扬声器130输出在用户终端100内产生的语音信号,或者可通过使用显示器140输出在用户终端100内产生的图像。
图2是示出根据本公开的实施例的DB中的存储的关于概念与动作之间的关系的信息的类型的示图。
参照图2,智能服务器200的胶囊DB(例如,胶囊DB 230)可以以CAN类型存储胶囊。胶囊DB可以以CAN类型存储用于处理与用户的语音输入相应的任务的动作和针对动作的参数。
胶囊DB可存储与多个域(应用)分别相应的多个胶囊(胶囊A 408和胶囊B 404)。根据实施例,一个胶囊(例如,胶囊A 408)可与一个域(例如,位置(地理位置)或应用)相应。此外,一个胶囊可与用于执行关于与胶囊相关的域的功能的至少一个服务提供商(例如,第一CP 402、第二CP 403、第三CP 406或第四CP 405)相应。根据实施例,一个胶囊可包括用于执行指定功能的至少一个动作410和至少一个概念412。
自然语言平台220可通过使用在胶囊DB中存储的胶囊来产生用于执行与接收到的语音输入相应的任务。例如,自然语言平台的计划器模块225可通过使用存储在胶囊DB中的胶囊来产生计划。例如,可通过使用胶囊A408中的动作4011和动作4013以及概念4012和概念4014以及胶囊B 404中的动作4041和概念4042产生计划407。
图3是示出根据本公开的实施例的由用户终端使用的通过智能应用处理接收的语音输入的屏幕的示图。
参照图3,用户终端100可通过智能服务器200执行用于处理用户输入的智能应用。根据实施例,如果用户终端100识别出指定的语音输入(例如,“醒来!”)或者通过硬件键(例如,专用的硬件键)接收到输入,则用户终端100可执行用于处理语音输入的智能应用。例如,用户终端100可在日程应用正在执行的同时执行智能应用。根据实施例,用户终端100可在显示器140上显示与智能应用相应的对象(例如,图标)311。根据实施例,用户终端100可接收从用户话语产生的语音输入。例如,用户终端100可接收语音输入“通知我本周的日程”。根据实施例,用户终端100可在显示器上显示智能应用的GUI 313(例如,输入窗口),其中,在所述GUI 313上显示接收到的语音输入的文本数据。
根据实施例,用户终端100可显示包括与接收到的语音输入相应的结果的屏幕320。例如,用户终端100可接收与接收的用户输入相应的计划并且可根据计划在显示器上显示“本周的日程”。
图4是示出根据本公开的实施例的网络环境400中的电子装置401的框图。
参照图4,网络环境400包括与图1中示出的用户终端100相应的电子装置401。
网络环境400中的电子装置401可经由第一网络498(例如,短距离无线通信网络)与电子装置493进行通信,或者经由第二网络499(例如,长距离无线通信网络)与电子装置493或服务器495进行通信。根据实施例,电子装置401可经由服务器495与电子装置491进行通信。根据实施例,电子装置401可包括处理器420、存储器430、输入装置450、声音输出装置455、显示装置460、音频模块470、传感器模块476、接口477、触觉模块479、相机模块480、电力管理模块488、电池489、通信模块490、用户识别模块(SIM)496或天线模块497。在一些实施例中,可从电子装置401中省略所述部件中的至少一个(例如,显示装置460或相机模块480),或者可将一个或更多个其它部件添加到电子装置401中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块476(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置460(例如,显示器)中。
处理器420可运行例如软件(例如,程序440)来控制电子装置401的与处理器420连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器420可将从另一部件(例如,传感器模块476或通信模块490)接收到的命令或数据加载到易失性存储器432中,对存储在易失性存储器432中的命令或数据进行处理,并将结果数据存储在非易失性存储器434中。根据实施例,处理器420可包括主处理器421(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器421在操作上独立的或者相结合的辅助处理器423(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器)。另外地或者可选择地,辅助处理器423可被适配为比主处理器421耗电更少,或者被适配为专用于特定功能。可将辅助处理器423实现为与主处理器421分离,或者实现为主处理器421的部分。
在主处理器421处于未激活(例如,睡眠)状态时,辅助处理器423(而非主处理器421)可控制与电子装置401的部件之中的至少一个部件(例如,显示装置460、传感器模块476或通信模块490)相关的功能或状态中的至少一些,或者在主处理器421处于激活状态(例如,运行应用)时,辅助处理器423可与主处理器421一起来控制与电子装置401的部件之中的至少一个部件(例如,显示装置460、传感器模块476或通信模块490)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器423(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器423相关的另一部件(例如,相机模块480或通信模块490)的部分。
存储器430可存储由电子装置401的至少一个部件(例如,处理器420或传感器模块476)使用的各种数据。所述各种数据可包括例如软件(例如,程序440)以及针对与其相关的命令的输入数据或输出数据。存储器430可包括易失性存储器432和非易失性存储器434。
可将程序440作为软件存储在存储器430中,并且程序440可包括例如操作系统(OS)442、中间件444或应用446。
输入装置450可从电子装置401的外部(例如,用户)接收将由电子装置401的其它部件(例如,处理器420)使用的命令或数据。输入装置450可包括例如麦克风、鼠标或键盘。
声音输出装置455可将声音信号输出到电子装置401的外部。声音输出装置455可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置460可向电子装置401的外部(例如,用户)视觉地提供信息。显示装置460可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置460可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块470可将声音转换为电信号,反之亦可。根据实施例,音频模块470可经由输入装置450获得声音,或者经由声音输出装置455或与电子装置401直接(例如,有线)连接或无线连接的外部电子装置(例如,电子装置493)的耳机输出声音。
传感器模块476可检测电子装置401的操作状态(例如,功率)或电子装置401外部的环境状态(例如,用户的状态或环境的温度),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块476可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口477可支持将用来使电子装置401与外部电子装置(例如,电子装置493)直接(例如,有线)或无线连接的一个或更多个指定协议。根据实施例,接口477可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端478可包括连接器,其中,电子装置401可经由所述连接器与外部电子装置(例如,电子装置493)物理连接。根据实施例,连接端478可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块479可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块479可包括例如电机、压电元件或电刺激器。
相机模块480可捕获静止图像或运动图像。根据实施例,相机模块480可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块488可管理对电子装置401的供电。根据实施例,可将电力管理模块488实现为例如电力管理集成电路(PMIC)的至少部分。
电池489可对电子装置401的至少一个部件供电。根据实施例,电池489可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块490可支持在电子装置401与外部电子装置(例如,电子装置491、电子装置493或服务器495)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块490可包括能够与处理器420(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块490可包括无线通信模块492(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块494(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。通信模块可经由第一网络498(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络499(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为多个组件(例如,多个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块492可使用存储在SIM 496中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络498或第二网络499)中的电子装置401。
天线模块497可将信号或电力发送到电子装置401的外部(例如,外部电子装置)或者从电子装置401的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块497可包括一个或更多个天线,并且,可由例如通信模块490(例如,无线通信模块492)从所述一个或更多个天线中选择适合于在通信网络(诸如第一网络498或第二网络499)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块490和外部电子装置之间发送或接收信号或电力。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络499连接的服务器495在电子装置401和外部电子装置491之间发送或接收命令或数据。电子装置491和电子装置493中的每一个可以是与电子装置401相同类型的装置,或者是与电子装置401不同类型的装置。根据实施例,将在电子装置401运行的全部操作或一些操作可在外部电子装置491、外部电子装置493或495中的一个或更多个运行。例如,如果电子装置401应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置401可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置401除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置401。电子装置401可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是应被理解为包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。将理解的是,与项目相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器436或外部存储器438)中的可由机器(例如,电子装置401)读取的一个或更多个指令的软件(例如,程序440)。例如,在处理器的控制下,所述机器(例如,电子装置401)的处理器(例如,处理器420)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。
图5是示出根据本公开的实施例的语音话语处理系统的动作的示图。
参照图5,语音话语处理系统500可包括电子装置401和服务器530。在实施例中,图5中示出的电子装置401可与图4中示出的电子装置401或者图1中示出的用户终端100相应,并且服务器530可与图1中示出的智能服务器200相应。
在实施例中,电子装置401可通过使用包括在电子装置401中的麦克风(未示出;例如,图1的麦克风120)接收用户的语音话语。例如,电子装置401可接收与用户的语音话语相应的语音信号数据(例如,“在连锁店A为我订购咖啡”或“在星巴克订购意式浓缩咖啡”)。
在实施例中,电子装置401可将关于已经被接收到的用户语音话语的数据发送到服务器530,并且可从服务器530接收关于对语音话语的响应的信息。例如,当电子装置401已经将关于语音话语(诸如“在连锁店A为我订购咖啡”)的数据发送到服务器530时,电子装置401可从服务器530接收关于对咖啡订单的响应的信息(例如,指示连锁店A已经成功接收了咖啡订单的响应信息)。在这种情况下,可通过由服务器530处理关于语音话语的数据或者通过由服务器530执行与另一服务器的另外的数据通信来产生关于对语音话语的响应的信息。例如,可通过由服务器530执行与服务提供商A服务器515的另外的数据通信来产生关于对咖啡订单的响应的信息。
在实施例中,电子装置401可包括用于处理关于语音话语的数据的至少一个组件(或模块,诸如ASR模块)。在这种情况下,电子装置401也可通过执行与独立于服务器530的另一服务器(该服务器与服务器530不同)的数据通信(或者通过绕过服务器530)来接收关于对语音话语的响应的信息。
在实施例中,服务器530可通过使用关于从电子装置401接收到的语音话语的数据产生关于对所述语音话语的响应的信息。服务器530可通过分析关于语音话语的数据获得信息,并且可基于获得的数据执行与另一服务器的数据通信,从而产生响应信息。
在实施例中,结合对关于语音话语的数据进行分析,服务器530可确认语音话语是否包括标识出合法的业务实体的明确的服务域(例如,业务实体的名称)。例如,服务器530可确认语音话语(“在连锁店A为我订购咖啡”)包括明确的服务域名(例如,“连锁店A”)。
在实施例中,服务域可区分提供给用户的服务的类型以便执行与在用户话语中包括的用户意图相应的功能或者可区分服务提供商(或者提供的主体)。例如,服务域可与相应于特定服务的胶囊(在下文中,称为“服务胶囊”)相关。服务域可与相应于咖啡订购服务的服务胶囊(例如,图2中示出的胶囊A408)相关。作为另一示例,服务域也可与提供与服务胶囊相关的服务的至少一个服务提供商相关。例如,服务域也可与提供与胶囊A408相关的服务的至少一个服务提供商(例如,第一CP 402)相关。
在实施例中,服务域名可以是指示特定服务域的关键词。例如,服务域名可以是“星巴克”或“麦咖啡”。
例如,第一服务域可被安装在服务器530中(或存储在服务器530中),并且可与由第三服务提供商(例如,咖啡连锁公司A)管理的第一应用(或第一服务胶囊)相应。第一服务域的服务域名可以是第三方服务提供商(例如,“A”)的名称或第一应用(或第一服务胶囊)的名称。
作为另一示例,第二服务域可被默认地安装在服务器530中(或存储在服务器530中),并且可与由电子装置401的制造商(或用户已经签约的通信公司)管理的第二应用(例如,画廊)(或第二服务胶囊)相应。第二服务域的服务域名可以是第二应用(或第二服务胶囊)的名称。
作为另一示例,第三服务域可与第三服务胶囊相应,其中,所述第三服务胶囊由管理用户语音识别系统(例如,Siri或Bixby)的第三服务提供商提供,并且与特定主题(例如,导航)相应。第三服务域的服务域名可以是能够代表特定主题的关键词(例如,路径查找)。在这种情况下,多个服务域(或服务胶囊或应用)可与所述特定主题相关。
在实施例中,可基于不同的服务域提供大体上相同的服务。例如,咖啡连锁公司A的咖啡订购服务可通过安装在电子装置401中的应用被提供,但也可不依靠安装在电子装置401中的应用的运行被提供。例如,电子装置401可从电子装置401外部(例如,从安装了第一应用的服务器530)接收提供服务所需的数据(例如,用户界面数据),并且可基于接收到的数据提供服务。
在实施例中,可在电子装置401中或在外部装置(例如,服务器530)中存储关于一个或更多个服务域的信息。例如,关于特定服务域的信息可包括以下项中的至少一个:特定服务域(例如,星巴克)所属的类别(咖啡或饮料)、可基于特定服务域提供给用户的服务的列表(咖啡订购(轻松订购或Siren order)和我自己的菜单)、可提供给用户的服务的常用主题或关于特定服务域是否已经被配置为已选定服务域的信息。
在实施例中,服务器530可通过使用关于语音话语的数据的至少一部分确定用户语音话语的意图和特定参数。例如,服务器530可通过使用关于语音话语的除了明确的服务域名(“连锁店A”)之外的其余部分(“为我订购咖啡”)的数据确定用户语音话语的意图(“订购”)和特定参数(“订购目标=咖啡”)。在实施例中,结合对用户语音话语的意图和参数进行确定,可使用关于与明确的服务域名相应的服务域的信息,其中,所述明确的服务域名包括在关于语音话语的数据中。例如,电子装置401可通过使用与相应于明确的服务域名的服务域相应的NLU模块确定用户语音话语的意图和所述参数。
在实施例中,当关于语音话语的数据包括明确的服务域名时,服务器530可通过使用关于与包括的服务域名相应的服务域的信息、用户的语音话语的意图和特定参数中的至少一个来执行至少一个功能。例如,当关于语音话语的数据包括明确的服务域名(例如,“连锁店A”)时,服务器530可通过使用与包括的服务域名相应的第一服务域(例如,第一应用)(或者通过使用关于第一服务域的信息)访问服务提供商A服务器515,并且可将用于订购咖啡的信息发送到被访问的服务提供商A服务器515。服务器530可通过使用从被访问的服务器515接收到的信息产生响应信息,并且可将所述响应信息发送到电子装置401。服务提供商A服务器515可将订单信息发送到连锁店A服务器510(例如,与咖啡连锁店A的特定线下实体店相应的服务器)。服务提供商B服务器525也可将订单信息发送到连锁店B服务器520。电子装置401可执行图5中示出的至少一个服务器530的动作。
图6是示出根据本公开的实施例的用户话语处理系统的动作的示图。参照图6,语音话语处理系统600可包括电子装置401和服务器530。在实施例中,图6中示出的电子装置401可与图5中示出的电子装置401相应。
在实施例中,电子装置401可通过使用包括在电子装置401中的麦克风(未示出;例如,图1的麦克风120)接收用户的语音话语。例如,电子装置401可接收与用户的语音话语相应的模拟语音信号数据(例如,“为我订购咖啡”)。
在实施例中,电子装置401可将关于接收到的用户语音话语的数据发送到服务器530,并且可从服务器530接收关于对语音话语的响应的信息。
在实施例中,服务器530可通过使用(或分析)关于语音话语的数据来产生并发送响应信息,并且结合对关于语音话语的数据进行分析,可确认语音话语是否包括明确的服务域名。例如,服务器530可确认语音话语(“为我订购咖啡”)不包括明确的服务域名。
在实施例中,当语音话语不包括明确的服务域名时,服务器530可执行指定的动作。例如,因为语音话语不包括服务域名,所以服务器530可将命令发送到电子装置401以便输出指示不能提供用户期望的服务的消息。作为另一示例,服务器530可预测服务域。服务器530可基于在关于语音话语的数据中包括的词语(或关键词)的类型、词语的组合和词语使用的类型中的至少一个确定服务域。例如,服务器530可基于在关于语音话语的数据中包括的词语(例如,“咖啡”和“订购”)和词语使用的类型(例如,“为我订购”)中的至少一个从能够提供咖啡订购服务的多个服务域(例如,由咖啡连锁公司A管理的第一服务胶囊和咖啡连锁公司B管理的第四服务胶囊)确定服务域(例如,由咖啡连锁公司B管理的第四服务胶囊)。
在实施例中,服务器530可通过使用获得的语音识别字符数据中的至少一部分和关于由服务器530确定的一个服务域的信息执行至少一个功能。例如,当语音话语不包括明确的服务域名时,服务器530可通过使用由服务器530确定的服务域(例如,由咖啡连锁店B管理的第四服务胶囊)访问服务提供商B服务器525,可产生用于订购咖啡的信息,并且可将该信息发送到被访问的服务提供商B服务器525。
如果由服务器530确定的一个服务域(例如,由咖啡连锁店B管理的第四服务胶囊)与用户期望的服务域(例如,由咖啡连锁公司A管理的第一服务胶囊)不同,可能执行用户不期望的功能。
当语音话语不包括明确的服务域名时,为了防止执行这样的用户不期望的功能,服务器530可基于用户预先选择或确定的服务域(在下文中,称为“已选定服务域”)处理用户语音话语。例如,用户可针对特定功能(例如,饮料等)产生标识出已选定服务域的设置。
可通过电子装置401执行图6中示出的服务器530的至少一个动作。例如,可通过电子装置401执行在图6中示出为由服务器530执行的动作中的一些动作,并且服务器530可执行其余动作。
图7是示出根据本公开的实施例的用于基于已选定服务域处理用户语音话语的电子装置的主要组件的示图。
参照图7,现将描述根据实施例的用于基于已选定服务域处理用户语音话语的系统。在示出的实施例中,图7的电子装置401可与图5中示出的电子装置401或者图1中示出的用户终端100相应,并且图7的服务器530可与图5中示出的服务器530相应。
在示出的实施例中,电子装置401可包括处理器710、通信接口720、存储器730和显示器740。在实施例中,处理器710可被电子地或者可操作地连接到通信接口720、存储器730和显示器740。处理器710可控制通信接口720、存储器730和显示器740并且可控制电子装置401的整体和总体动作。在实施例中,处理器710可包括AI客户端712和功能执行管理单元714。
在实施例中,AI客户端712可控制与用户的交互。例如,AI客户端712可结合对语音话语进行识别以及提供与识别的语音话语相应的服务来控制与用户的交互。在实施例中,AI客户端712可与图1中示出的客户端模块151相应。
在实施例中,功能执行管理单元714可执行需要由用户终端(例如,电子装置401)执行的功能(或动作)以便提供与用户的语音话语相应的服务。
例如,当服务器530处理关于语音话语的数据时,功能执行管理单元714可控制通信接口720发送关于语音话语的数据。功能执行管理单元714可基于从服务器530接收到的响应信息(或者根据从服务器530接收的命令)执行至少一个功能。当语音话语不包括明确的服务域名时,功能执行管理单元714可基于关于被用于产生响应信息的服务域(例如,已选定服务域)的信息另外地执行至少一个功能。例如,基于指示连锁店A已经成功地接收了咖啡订单的响应信息的接收,功能执行管理单元714可控制显示器740显示上述内容。
作为另一示例,当电子装置401处理关于语音话语的数据时,功能执行管理单元714可执行安装在电子装置中的至少一个应用,或者可执行与存储在电子装置401中或者在外部装置(例如,胶囊DB(例如,图2的胶囊DB230))中的服务胶囊相关的至少一个功能。例如,功能执行管理单元714可识别包括明确的服务域名的用户语音话语(“在连锁店A为我订购咖啡”),可确定由咖啡连锁公司A管理的第一服务胶囊,并且可执行在第一服务胶囊中存储的咖啡订购功能。
作为另一示例,当功能执行管理单元714已经识别出(“为我订购咖啡”)不包括明确的服务域名的用户语音话语时,功能执行管理单元714例如可如在图8的实施例中一样确定预先指定的已选定服务域(例如,由咖啡连锁公司A管理的第一服务胶囊),并且可执行在第一服务胶囊中存储的咖啡订购功能以便基于确定的已选定服务域处理用户语音话语。
功能执行管理单元714可管理需要由用户终端(例如,电子装置401)执行的功能以便提供与用户语音话语相应的服务。在实施例中,功能执行管理单元714可被包括在服务器530中而不是电子装置401中。
在实施例中,通信接口720可电子装置401使用以与外部装置(例如,服务器530)进行通信。图7中示出的通信接口720可与图1中示出的通信接口110相应。在实施例中,存储器730可包括易失性存储器和/或非易失性存储器。存储器730可与图1中示出的存储器150相应。在实施例中,存储器730可存储关于通过使用用户语音话语提供的至少一个服务的历史的信息(例如,时间信息、提供的服务的类型和关于与提供的服务相应的服务域的信息)。
在实施例中,存储器730可存储可从历史信息(例如,关于基于特定服务域被提供服务的次数或频率的信息)产生的统计信息。
在实施例中,存储器730可存储关于已选定服务域的信息。在实施例中,已选定服务域可以是由用户预先指定的服务域使得该服务域稍后将被用于处理不包括服务域名的用户语音话语。例如,存储器730可存储关于基于用户的输入确定的至少一个已选定服务域的信息。例如,存储器730可存储关于已选定服务域(诸如“画廊”、“股票”和“咖啡连锁公司A”)的信息。作为另一示例,存储器730可存储关于不考虑用户的输入而已经确定的一个或更多个已选定服务域的信息。
在实施例中,存储器730可存储与已选定服务域相应的NLU模型或者与不相应于已选定服务域的服务域相应的NLU模型。
在实施例中,存储器730可根据用户或用户账户存储上述多条信息中的至少一条信息。
在实施例中,显示器740可视觉地向用户提供信息。显示器740可以是能够从用户接收触摸输入的触摸屏显示器。图7中示出的显示器740可与图1中示出的显示器140相应。
在实施例中,当识别出不包括服务域名的用户语音话语(例如,“为我订购咖啡”)时,显示器740可在处理器710的控制下显示支持咖啡订购服务的一个或更多个服务域列表连同诸如“请选择期望的服务域”的消息。
在另一实施例中,当识别出不包括服务域名的用户语音话语(例如,“为我订购咖啡”)时,显示器740可在处理器710的控制下显示诸如“将通过使用已选定服务域服务C订购咖啡”或者“已经通过使用已选定服务域服务C订购了咖啡”的消息。
图8是示出根据本公开的实施例的用于基于已选定服务域处理用户语音话语的服务器的主要组件的示图。
参照图8,服务器530可与图5中示出的服务器530相应。在实施例中,服务器530可包括处理器810、通信接口820和存储器830。服务器530可将通信接口820用于与外部装置(例如,图5的电子装置401)进行通信。例如,服务器530可通过使用通信接口820从电子装置401接收关于用户的语音话语的数据。作为另一示例,服务器530可将语音信号数据转化为文本数据,并且可确定转换为的文本数据是否包括明确的服务域名。当不包括明确的服务域名时,服务器530可基于通过将语音话语输入到用于确定已选定服务域或用户意图的单独的模块(在下文中,称为“已选定服务域NLU模块836”)获得的置信分值来确定已选定服务域。服务器530可基于确定的已选定服务域产生响应信息,并且可通过使用通信接口820将产生的响应信息发送到电子装置401。
在实施例中,存储器830可存储与一个或更多个服务域分别相应的NLU模型831至835。参照图8,存储器830被示出为存储与N个服务域分别相应的NLU模型,并且N可以是等于或大于1的自然数。NLU模型可包括信息的集合或信息的结构,其中,信息的集合或信息的结构用于根据相应的服务域确定用户语音话语的意图和参数的分析。
在实施例中,NLU模型(例如,831至835)中的至少一些模型(例如,831至833)可与已选定服务域分别相应。在这种情况下,NLU模型831至835中的其余模型834和835可以不与任何已选定服务域相应(或者可与非已选定服务域相应)。
在实施例中,第三方服务提供商可产生或指定至少一个NLU模型的至少一部分。因此,可由第一NLU模型处理的用户语音话语也可由第二NLU模型相同地(或类似地)处理。例如,诸如“为我订购咖啡”的用户语音话语可由与咖啡连锁公司A相应的第一NLU模型或者与咖啡连锁公司B相应的第二NLU模型相同地处理。通过包括在话语处理单元811中的至少一个组件(例如,服务域指定话语处理单元812)可去除这样的不同服务域之间的语音话语处理的混乱。
在实施例中,一个NLU模型(例如,第一服务域NLU模型831)可包括意图确定模型和参数确定模型中的至少一个模型。
在实施例中,当NLU模型使用基于规则的算法时,NLU模型可包括规则信息和指定的词语的列表。在另一实施例中,当NLU模型使用基于统计的算法时,NLU模型可包括相应的统计模型(例如,神经网络模型、隐马尔可夫模型或有限状态转换器)。
在实施例中,一个NLU模型可与一个服务域相应,或者可与一个或更多个服务域相应。
在实施例中,存储器830可存储区别于NLU模型831至835的单独的模型(例如,用于确定已选定服务域或用户意图的已选定服务域NLU模型836)。已选定服务域NLU模型836可包括域确定模型、意图确定模型或参数确定模型中的至少一个模型。一个已选定服务域NLU模型830可与多个NLU模型831至833相应,并且所述多个NLU模型831至833中的每一个可与不同的已选定服务域相应。
在实施例中,存储器830可存储关于明确的服务域名的信息。处理器810可基于存储在胶囊DB中的服务胶囊(例如,图2的胶囊DB 230)的列表和安装在电子装置401中的应用的列表存储关于服务域名的信息。
在实施例中,存储器830可存储关于已选定服务域的信息。例如,存储器830可存储关于基于用户的输入确定的一个或更多个已选定服务域的信息。作为另一示例,存储器830可存储关于不考虑用户的输入而确定的一个或更多个已选定服务域的信息。
在实施例中,存储器830可存储多个客户端装置(例如,电子装置401)的标识信息或者相应的用户的账户信息。
在实施例中,存储器830可存储关于通过使用用户语音话语被提供至少一个服务的历史的信息或者可从历史信息获得的统计信息。
在实施例中,存储器830可根据用户(或用户账户)存储上述多条信息中的至少一条信息。
在实施例中,处理器810可包括话语处理单元811、已选定服务域管理单元815和已选定服务域NLU模型训练单元816。
在实施例中,话语处理单元811可按照指定的顺序或者按照指定的类型处理用户的语音话语。在实施例中,话语处理单元811可包括服务域指定话语处理单元812、已选定服务域话语处理单元813和特殊话语处理单元814。
在实施例中,服务域指定话语处理单元812可确认用户的语音话语(例如,语音识别文本数据)是否包括明确的服务域名,并且当用户的语音话语包括明确的服务域名时,可基于与明确的服务域名相应的服务域(或者,与服务域相应的NLU模型)处理用户的语音话语。例如,当用户的语音话语(“在连锁店A为我订购咖啡”或者“给我看昨天在画廊拍的照片”)包括明确的服务域名(“连锁店A”或者“画廊”)时,服务域指定话语处理单元812可通过使用与包括的服务域名相应的服务域的NLU模型来解释(或理解)用户的语音话语,并且可确定与用户的语音话语相关的意图(“订购”)和与意图相应的参数(“订购目标=咖啡”)。服务域指定话语处理单元812可基于确定的意图和参数产生响应信息,并且可通过通信接口820将产生的响应信息发送到电子装置401。在实施例中,服务域指定话语处理单元812可使用正常的自然语言处理方法。
在实施例中,服务域指定话语处理单元812可基于预先指定的统计规则处理用户的语音话语。例如,当用户的语音话语包括明确的服务域名时,但当用户的语音话语不与预先指定的统计规则相应时,服务域指定话语处理单元812可以不基于与明确的服务域名相应的服务域处理用户的语音话语。例如,预先指定的语法规则可包括“在<服务域名><说出的命令>”、“用<服务域名><说出的命令>”、“打开<服务域名>并且<说出的命令>”以及“请求<服务域名>以<说出的命令>”。服务域指定话语处理单元812可加载与<服务域名>相应的服务域的NLU模型并且可基于加载的NLU模型(或者通过使用加载的NLU模型中包括的意图确定模型或者参数确定模型)确定用户的意图和参数,从而处理<说出的命令>。
在实施例中,当用户的语音话语不包括明确的服务域名时,已选定服务域话语处理单元813可基于通过向用于确定已选定服务域的单独的模型(已选定服务域NLU模型836)输入语音输入而获得的置信分值来处理用户的语音话语。
例如,已选定服务域话语处理单元813可基于通过将语音话语输入到已选定服务域NLU模型830获得的置信分值来确定已选定服务域以处理用户的语音话语,并且可基于确定的已选定服务域处理用户的语音话语。已选定服务域话语处理单元813可通过使用包括在已选定服务域NLU模型836中的域确定模型来确定已选定服务域。已选定服务域话语处理单元813可通过使用通过将语音话语输入到基于深度神经网络(DNN)实现的域确定模型而获得的置信分值来确定已选定服务域。已选定服务域话语处理单元813可从一个或更多个已选定服务域确定已经获得了等于或高于指定值的置信分值的已选定服务域作为用于处理用户的语音话语的已选定服务域,并且已选定服务域话语处理单元813可基于确定的已选定服务域处理用户的语音话语。
作为另一示例,正如稍后将更详细描述的,已选定服务域话语处理单元813基于通过将语音话语输入到已选定服务域NLU模型836而获得的置信分值,通过绕过确定用于处理用户的语音话语的已选定服务域的动作来确定与语音话语相应的意图和参数以处理用户的语音话语。
在实施例中,当用户的语音话语不包括明确的服务域名时,并且当不能基于已选定服务域处理用户的语音话语时,特殊话语处理单元814可响应于用户的语音话语执行指定的动作。
在实施例中,特殊话语处理单元814可基于非已选定服务域处理不包括明确的服务域名并且不能基于已选定服务域被处理的语音话语。特殊话语处理单元814可基于由电子装置401的设计者的目标或语音话语处理系统指定的命令或命令规则处理语音话语。
例如,特殊话语处理单元814可在输出错误消息之前确定用户语音话语是否与不相应于已选定服务域的服务域(在下文中,称为非已选定服务域或普通服务域)中的至少一部分相应。当用户语音话语与普通服务域中的至少一部分相应时,特殊话语处理单元814可通过使用普通服务域的NLU模型处理用户语音话语,并且可产生将被提供给用户的响应信息。响应于用户语音话语不与普通服务域中的至少一部分相应的情况,特殊话语处理单元814可将命令发送到电子装置401以便输出错误消息。
例如,特殊话语处理单元814可使用与置信分值相关的方法,其中,置信分值与确定用户语音话语是否与普通服务域中的至少一部分相应有关。例如,当用户发出与普通服务域的NLU相应的用户语音话语时,并且当存在置信分值被确认为等于或高于指定值的一个普通服务域时,特殊话语处理单元814可基于普通服务域的NLU处理用户语音话语。作为另一示例,当存在置信分值被确认为等于或高于预先指定的值的一个普通服务域NLU时,并且当其余的普通服务域NLU的置信分值等于或低于预先指定的第二值时,特殊话语处理单元814可基于置信分值等于或高于第一值的普通服务域的NLU来处理用户语音话语。
在实施例中,特殊话语处理单元814可推荐用户将非已选定服务域中的至少一部分配置为已选定服务域。例如,当用户语音话语与非已选定服务域中的至少一部分相应时,特殊的话语处理单元814可将命令发送到电子装置401以便输出推荐将非已选定服务域中的至少一部分配置为已选定服务域的消息。
在实施例中,服务域指定话语处理单元812、已选定服务域话语处理单元813和特殊话语处理单元814可按照指定的顺序进行操作。例如,服务域指定话语处理单元812可在最初确定用户语音话语是否包括明确的服务域名。响应于由服务域指定话语处理单元812做出用户的语音话语不包括明确的服务域名的确定,已选定服务域话语处理单元813可进行操作。响应于由已选定服务域话语处理单元813做出不能基于已选定服务域处理用户的语音话语的确定,特殊话语处理单元814可进行操作。
在实施例中,已选定服务域管理单元815可管理一个或更多个已选定服务域。在实施例中,在与存储在存储器830中的N个NLU模型831至835相应的N个服务域中可包括已选定服务域。例如,已选定服务域可与M个服务域相应,其中,M个服务域是N个服务域中的一部分(M≤N)。
在实施例中,为了改进语音话语处理系统的意图确定性能,可允许仅指定的数量的已选定服务域。
在实施例中,已选定服务域管理单元815可基于通过通信接口820接收的用户输入数据管理已选定服务域。例如,已选定服务域管理单元815可基于通过通信接口820接收的用户输入数据,将不与已选定服务域相应的服务域(在下文中,称为非已选定服务域)添加为已选定服务域或者可将与已选定服务域相应的服务域添加为非已选定服务域。
在实施例中,已选定服务域管理单元815可管理针对多个用户(或者多个电子装置)中的每一个的已选定服务域。例如,已选定服务域管理单元815可单独地管理与用户A相应的M1个已选定服务域和与用户B相应的M2个已选定服务域。已选定服务域管理单元815可通过使用电子装置401的标识信息或者用户账户信息来管理针对多个用户中的每一个的已选定服务域。
在实施例中,已选定服务域管理单元815可管理用于将非已选定服务域添加为已选定服务域的用户界面以及用于不再配置更多的已选定服务域的用户界面。已选定服务域管理单元815可控制并管理相关动作的流程。
在实施例中,已选定服务域NLU模型训练单元816可训练已选定服务域NLU模型836。例如,已选定服务域NLU模型训练单元816可从已选定服务域管理单元815接收关于已经被新添加为已选定服务域的服务域的信息,并且可从存储器830检索与添加的服务域相应的NLU模型。已选定服务域NLU模型训练单元816可通过使用关于添加的服务域的信息(例如,话语信息、话语规则和词汇词典)训练已选定服务域NLU模型836。已选定服务域NLU模型训练单元816可根据已选定服务域NLU模型836的类型而改变训练方法。例如,当已选定服务域NLU模型836仅包括域确定模型时,已选定服务域NLU模型训练单元816可仅训练域确定模型。
在实施例中,尽管未示出,但是话语处理单元811可包括功能指定话语处理单元(未示出)。在实施例中,在服务域指定话语处理单元812进行操作之后并且在已选定服务域话语处理单元813进行操作之前,功能执行话语处理单元可进行操作。例如,响应于由服务域指定话语处理单元812做出用户的语音话语不包括明确的服务域名的确定,功能指定话语处理单元可进行操作。功能指定话语处理单元可确定不包括明确的服务域名的用户的语音话语是否与功能指定话语相应。在实施例中,功能指定话语可指的是被预先指定为执行在现实世界发生的动作或功能的包括一个或更多个短语(或者一个或更多个词语的组合)的话语。例如,与披萨订购功能相应的功能指定话语可以是包括“递送披萨”、“订购披萨”和“我想要吃披萨”之中的短语的话语。可不考虑用户输入而已经确定了功能指定话语。例如,电子装置401的制造商(或工程师)或者用户语音识别系统的制造商(或工程师)可预先确定功能指定话语。
在实施例中,响应于功能指定处理单元做出用户的语音话语不与功能指定话语相应的确定,已选定服务域话语处理单元813可确定是否可基于已选定服务域处理用户的语音话语。
在实施例中,在电子装置401中可包括在处理器810中包括的组件中的至少一部分或者包括在存储器830中的组件中的至少一部分。例如,当在电子装置401的处理器(例如,图7的处理器710)中包括话语处理单元811时,电子装置401的处理器710可以不将从电子装置401接收的用户的语音话语发送到服务器530,并且可直接地处理该用户的语音话语。例如,当用户的语音话语不包括预先指定的服务域名时,电子装置401的处理器710可确定已选定服务域并且可基于确定的已选定服务域处理用户的语音话语。
图9示出根据本公开的实施例的语音话语处理系统的处理用户语音话语的方法。
参照图9,可通过电子装置(例如,图5的电子装置401)或通过电子装置401的处理器(例如,图7的处理器710)执行方法900。可选地,可通过服务器(例如,图5的服务器530)或通过服务器530的处理器(例如,图8的处理器810)执行图9中示出的操作。可选地,可通过包括电子装置401和服务器530的语音话语处理系统(例如,语音话语处理系统500)执行图9中示出的操作。在以下的描述中将假设通过语音话语处理系统500执行图9中示出的操作。在这种情况下,处理器710或者处理器810可以是执行图9中示出的操作中的至少一个操作的主体。
在实施例中,在操作910,处理器710可识别用户语音话语。例如,处理器710可识别诸如“在连锁店A为我订购咖啡”的用户语音话语。处理器710可从麦克风(例如,图1的麦克风120)接收用户语音话语数据已经被转换成的电子信号。在实施例中,处理器710可将用户语音话语数据发送到服务器530。
在实施例中,处理器810可获取用户语音话语已经被转换成的语音识别文本数据。例如,处理器810可通过使用包括在服务器530中的ASR模块(例如,图1的ASR模块221)来获得语音识别文本数据。
在实施例中,在操作920,处理器810可确认用户语音话语(“在连锁店A为我订购咖啡”)是否包括明确的服务域名(“连锁店A”)。在实施例中,处理器810可通过使用语音识别文本数据和关于存储在存储器(例如,图8的服务器830)中的服务域名的信息来确认用户语音话语是否包括明确的服务域名。
在实施例中,当用户语音话语包括明确的服务域名时(即,操作920中的是),在操作930,处理器810可确定与包括的服务域名(“连锁店A”)相应的服务域(例如,由咖啡连锁公司A管理的第一服务胶囊)的NLU模型。在实施例中,当从用户语音话语检测出两个或更多个明确的服务域名时,处理器810可确定与所述两个或更多个检测到的服务域名分别相应的服务域的NLU模型,并且可从确定的服务域的NLU模型中确定一个NLU模型。例如,处理器810可基于用户偏好以及与除了预先指定的服务域名之外的其余部分的关联从确定的服务域的NLU模型中确定一个NLU模型。
在实施例中,在操作970,处理器810可通过使用确定的NLU模型执行至少一个功能。在实施例中,处理器810可通过使用用户语音话语的至少一部分和确定的NLU模型确定用户的意图,并且可根据确定的意图执行与相应于确定的NLU模型的服务域相关的至少一个功能。例如,当在操作930中确定了与包括在语音话语中的服务域名相应的服务域(例如,连锁公司A的第一服务胶囊)的NLU模型时,处理器810可通过使用确认的NLU模型和用户语音话语的除了服务域名之外的其余部分来确定用户的意图(“订购”)和特定参数(“订购目标=咖啡”),并且可基于确定的意图和参数执行至少一个功能(产生订单信息并且将该订单信息发送到与咖啡连锁公司A相应的服务器)。
在实施例中,当从用户语音话语中未检测出明确的服务域名时(即,操作920中的否),在操作950,处理器810可确认用户语音话语是否与已选定服务域话语相应。在实施例中,已选定服务域可以是由用户预先指定的稍后将被用于处理不包括服务域名的用户语音话语的服务域。在实施例中,处理器810可基于已选定服务域NLU模型836对语音话语(语音信号或文本)进行分析,并且可获得针对每个意图或者每个服务域的置信分值,其中,在已选定服务域中可对所述置信分值进行处理。在另一实施例中,处理器810可将语音话语输入到已选定服务域NLU模型836以获得针对每个意图或每个服务域的置信分值,其中,在已选定服务域中可对所述置信分值进行处理。处理器810可基于置信分值确认用户语音话语是否与已选定服务域话语相应。通过基于包括在已选定服务域NLU模型836中的意图确定模型对语音话语进行分析可获得针对每个意图的置信分值,并且通过基于包括在已选定服务域NLU模型836中的域确定模型对语音话语进行分析可获得针对每个服务域的置信分值。
在实施例中,当用户语音话语不与已选定服务域话语相应时(即,操作950中的否),在操作980,响应于来自服务器530的命令,处理器710可控制输入/输出接口,以便输出指示用户语音话语不能基于任何服务域被处理的消息(在下文中,称为“错误消息”)。例如,处理器701可通过扬声器(例如,图1的扬声器130)输出语音消息或者通过触摸屏显示器(例如,图1的显示器140)视觉上地显示消息。
尽管未示出,但是当用户语音话语与已选定服务域话语不相应时(即,操作950中的否),在操作980,处理器810可在输出错误消息之前确定用户语音话语是否与非已选定服务域(或普通服务域)中的至少一部分相应。处理器710可在普通服务域之中确定用户语音话语所属的服务域,并且可基于包括在确定的服务域中的意图确定模型和参数确定模型确定意图和参数。当在普通服务域中也不能确定用户语音话语所属的服务域时,可显示错误消息(例如,“难以理解的命令”)。
在实施例中,当用户语音话语与已选定服务域话语相应时(即,操作950中的是),在操作960,处理器810可基于确定的已选定服务域或确定的用户意图中的一个执行至少一个功能。处理器810可通过使用在操作950中获得的置信分值确定将被用于处理语音话语的已选定服务域或者与语音话语相关的用户意图,并且可基于确定的已选定服务域或确定的用户意图中的一个执行至少一个功能。例如,当确定与语音话语相关的用户意图是“订购咖啡”时,为了执行“订购咖啡”的意图,处理器810可将订单信息发送到与任意咖啡连锁公司或者根据预先配置的标准确定的咖啡连锁公司相应的服务器。
图10示出根据本公开的实施例的语音话语处理系统的基于用户意图执行至少一个功能的方法。
图10中示出的操作可与图9中示出的操作960或者操作950和操作960的详细的流程图相应。
参照图10,在操作1010,处理器810可确定(或识别)用户的意图,所述用户的意图与基于用户话语中的命令采取的动作相应。如上所述,为了确定用户的语音话语是否与已选定服务域话语相应,处理器810可将语音话语输入到包括在已选定服务域NLU模型836中的意图确定模型。处理器810可基于通过将语音话语输入到意图确定模型获得的置信分值来确定用户的意图。例如,处理器810可通过将语音话语输入到意图确定模型获得与不同的意图分别相应的置信分值,并且可将与等于或高于指定值的置信分值相应的用户意图确定为与语音话语相关的用户意图。
在实施例中,尽管与不同的意图分别相应的多个置信分值之中的最高置信分值可能小于指定值,但处理器810可确定与所述最高置信分值相应的用户意图是与语音话语相关的用户意图。
在另一实施例中,当未确认等于或高于指定值的置信分值时,处理器810可以不进行到操作1020。例如,如图9中的操作980,因为不能够理解语音话语的含义(或意图),所以处理器810可将命令发送到电子装置401以便输出错误消息。作为另一示例,处理器810可尝试基于通过将语音话语输入到域确定模型(而不是意图确定模型)获得的置信分值确定已选定服务域。作为另一示例,处理器810可确认用户的语音话语是否与普通服务域话语(或非已选定服务域话语)相应。在这种情况下,当用户的语音话语不与普通服务域话语相应时,因为不能够理解语音话语的含义,所以处理器810可将命令发送到电子装置401以便输出错误消息。
在另一实施例中,当确认了高于指定值的多个置信分值时,处理器810可将与最高置信分值相应的用户意图确定为与语音话语相关的用户意图,并且可基于以后的用户输入来确定与所述多个置信分值之中的置信分值相应的用户意图是与语音话语相关的用户意图。
在实施例中,当确认的置信分值高于指定值时,处理器810可确定与用户的意图相应的参数。处理器810可通过使用包括在已选定服务域NLU模型836中的参数确定模型来确定参数,并且参数确定模型可以是基于DNN的。在实施例中,可将参数用于特定地限制基于在操作1010确定的用户的意图将被执行的至少一个功能(或将被提供的至少一个服务)。例如,当基于操作1010中的用户的意图将被执行的至少一个功能是“订购咖啡”时,参数可以是咖啡类型(例如,冰美式)、咖啡尺寸(例如,大杯)和其他选项(例如,另外的咖啡浓度)中的至少一项。
在实施例中,在操作1020,处理器810可执行与确定的意图相应的功能。例如,处理器810可执行用于执行确定的意图(“订购咖啡”)的至少一个功能。处理器810可产生订单信息并且将订单信息发送到与任意咖啡连锁公司或根据预先配置的标准确定的咖啡连锁公司(例如,用户近来常去的咖啡连锁公司或者与距用户的当前位置最近的商店相应的咖啡连锁公司)相应的服务器。
在实施例中,处理器810可将关于对用户话语的响应的信息发送到电子装置401。例如,基于在发送订单信息之后接收到的确认消息,处理器810可将指示咖啡订单已被成功下单的响应信息发送到电子装置401。
图11示出根据本公开的实施例的语音话语处理系统的基于已选定服务域执行至少一个功能的方法。
图11中示出的操作可与图9中示出的操作950的详细流程图相应。
参照图11,在操作1110,处理器810可确定已选定服务域。如上所述,为了确定用户的语音话语是否与已选定服务域话语相应,处理器810可将语音话语输入到包括在已选定服务域NLU模型中的域确定模型。处理器810可基于通过将语音话语输入到域确定模型获得的置信分值确定已选定服务域。例如,处理器810可通过将语音话语输入到域确定模型来获得与不同的已选定服务域分别相应的置信分值,并且可将与等于或高于指定值的置信分值相应的已选定服务域确定为将用于处理语音话语的已选定服务域。在实施例中,可基于关于在存储器830中存储的已选定服务域的信息产生域确定模型。
在实施例中,尽管与不同的已选定服务域分别相应的多个置信分值之中的最高置信分值可小于指定值,但处理器810可确定与所述最高置信分值相应的已选定服务域是将被用于处理语音话语的已选定服务域。
在另一实施例中,当未确认出等于或高于指定值的置信分值时,处理器810可以不进行到操作1120。例如,如图9中的操作980,因为不能理解语音话语的含义(或者不存在与语音话语相应的服务域),所以处理器810可将命令发送到电子装置401以便输出错误消息。作为另一示例,处理器810可尝试基于通过将语音话语输入到意图确定模型(而不是域确定模型)获得的置信分值来确定用户的意图。
在另一实施例中,当确认出高于指定值的多个置信分值时,处理器810可将与最高置信分值相应的已选定服务域确定为将用于处理语音话语的已选定服务域,并且可基于用户的以后的输入确定与所述多个置信分值之中的置信分值相应的已选定服务域是将用于处理语音话语的已选定服务域。
在实施例中,在操作1120,处理器810可确定用户的意图。处理器810可基于在操作1110中确定的已选定服务域确定用户的意图。例如,处理器810可通过使用与在操作1110中确定的已选定服务域相应的意图确定模型(或者与在操作1110中确定的已选定服务域相应的NLU模型(例如,包括在第一服务域NLU模型831中的意图确定模型))来确定用户的意图。
在实施例中,在操作1130,处理器810可确定参数。在实施例中,可将参数用于特别地限定基于在操作1120中确定的用户的意图将被执行的至少一个操作(或者将被提供的至少一个服务)。
在实施例中,在操作1130,处理器810可通过使用在操作1110中确定的已选定服务域确定参数。例如,处理器810可通过使用与在操作1110中确定的已选定服务域相应的参数确定模型(或者包括在与在操作1110中确定的已选定服务域相应的NLU模型中的参数确定模型)来确定参数。
在实施例中,处理器810可另外使用操作1130中确定的参数来执行与用户语音话语相关联的至少一个功能。
图12示出根据本公开的实施例的用户语音话语处理系统的处理用户语音话语的方法。
图12中示出的操作可指示可在图9的操作920与操作950之间执行的操作。
参照图12,在操作1210,处理器810可确定用户语音话语是否与功能指定话语相应。在实施例中,功能指定话语可指的是被预先指定为执行特定功能的一个或更多个短语(或一个或更多个词语的组合)。可能已经不考虑用户输入而确定了功能指定话语。例如,与披萨订购功能相应的功能指定话语可以是“为我送披萨”、“为我订购披萨”和“我想要吃披萨”中的一个。也就是说,已经针对指定的命令或命令规则映射了指定的意图。在实施例中,映射或操作1210可通过基于规则的NLU算法被实现,或者通过基于统计的算法(DNN、隐马尔可夫模型(HMM)、决策树、支持向量机(SVM)等)被实现。
在实施例中,当用户语音话语不与功能指定话语相应时(即,操作1210中的否),处理器810可执行操作950。
在实施例中,当用户语音话语与功能指定函数相应时(即,操作1210中的是),在操作1220,处理器710可执行与功能指定命令相应的功能。可选地,处理器810可将命令发送到电子装置401使得处理器710执行与功能指定命令相应的功能。
例如,处理器710可输出诸如“请选择期望的服务(或服务域)”的消息,并且可输出支持披萨订购功能的服务域的列表。处理器710可等待用户的另外的命令。
图13示出根据本公开的实施例的语音话语处理系统的训练已选定服务域NLU模型的方法。
参照图13,方法1300可以是在响应于检测到预先指定的事件将不是已选定服务域的服务域(也统称为非已选定服务域)添加为已选定服务域的处理中执行的操作。可在操作910之前执行图13中示出的操作。图13中示出的操作可独立地构成实施例,或者可在执行图9中示出的操作的同时构成实施例。
尽管将在以下的描述中假设服务器(例如,图8的服务器530)的处理器(例如,图8的处理器810)执行图13中示出的操作中的一些操作,但是电子装置(例如,图7的电子装置401)的处理器(例如,图7的处理器710)也可执行所述一些操作。
在操作1310,处理器710可检测用于将特定服务域配置为已选定服务域的用户输入。
在实施例中,在向用户提供与特定服务域相关的服务时,处理器710可检测用于将特定服务域配置为已选定服务域的用户输入。例如,在通过图形用户界面提供与咖啡连锁店A相关的服务的同时,处理器710可检测与包括在图形用户界面中的特定对象相关的用户输入。
尽管未示出,但是处理器710可不考虑用户输入将特定服务域配置为已选定服务域。例如,基于用户的使用模式(或使用历史),处理器710可不考虑用户输入将特定服务域配置为已选定服务域。作为特定示例,如果在从当前时间起的预定时段内通过与咖啡连锁公司A相关的服务已订购咖啡的次数超过预定的数量,处理器710可将与咖啡连锁公司A有关的服务域选择为已选定服务域。
尽管未示出,但是处理器710可将关于与用户输入相关的特定服务域的数据发送到服务器530。
在操作1320,处理器810可确认是否检测出错误。在实施例中,处理器810可确认特定服务域是否可被配置为已选定服务域,并且,如果特定服务域不能被配置为已选定服务域,则处理器810可确定已经检测出错误。
在实施例中,当已经将属于与特定服务域相同的类别并且可执行与所述特定服务域几乎相同的功能的不同的服务域配置为已选定服务域时,因为不能将所述特定服务域配置为已选定服务域,所以处理器810可确定已经检测出错误。例如,如果在已经将与咖啡连锁公司B相关的服务域配置为已选定服务域的同时检测出用于将与咖啡连锁公司A相关的服务域配置为已选定服务域的用户输入,则处理器810可确定已经检测出错误。作为另一示例,如果在已经将与动态图像流媒体平台Y相关的服务域配置为已选定服务域的同时检测出用于将与动态图像流媒体平台Z相关的服务域配置为已选定服务域的用户输入,则处理器810可确定已经检测出错误。
尽管未示出,但是处理器810可将检测到的错误的内容(例如,错误的原因和如何解决错误)和用于输出检测到的错误的内容的命令发送到电子装置401。
在实施例中,当检测出错误时(即,操作1320中的是),在操作1330,处理器710可在显示器(例如,图1的显示器140)上显示错误消息。处理器710可在错误消息中另外地显示错误的原因以及如何解决错误。例如,如果在已经将与咖啡连锁公司B相关的服务域配置为已选定服务域的同时检测到用于将与咖啡连锁公司A相关的服务域配置为已选定服务域的用户输入,处理器710可在显示器140上显示指示以下内容的错误消息:因为当前将与咖啡连锁公司B相关的服务域配置为已选定服务域,所以不能将与咖啡连锁公司A相关的服务域配置为已选定服务域,并且如果将当前被配置为已选定服务域的与咖啡连锁公司B相关的服务域选择为非已选定服务域,则可将与咖啡连锁公司A相关的服务域配置为已选定服务域。
在实施例中,处理器710可在显示错误消息之后再次执行操作1310。在实施例中,处理器710可显示错误消息并且随后检测用于将特定服务域配置为已选定服务域的用户输入。在另一实施例中,处理器710可接收用于将当前被配置为已选定服务域的与咖啡连锁公司B相关的服务域配置为非已选定服务域并且用于将与咖啡连锁公司A相关的服务域配置为已选定服务域的用户输入。
在实施例中,当没有检测到错误时(即,操作1320中的否),在操作1340,处理器810可获得关于特定服务域的信息。在实施例中,为了训练已选定服务域NLU模型836,处理器810可获得关于与用户输入相关的特定服务域的信息。例如,处理器810可获得关于特定服务域的信息,诸如话语信息、话语规则和词汇词典。例如,处理器810可获得以下信息作为关于与咖啡连锁公司A相关的服务域的信息:关于由咖啡连锁公司A提供的一个或更多个服务的正式名称的信息(例如,我自己的菜单、轻松订购和Siren Order)、一个或更多个菜单的正式名称(例如,冰美式和可可碎片星冰乐)、当由用户说出一个或更多个服务或菜单时使用的名称(即,非正式名称或昵称)以及在用户话语的情况下关于名称由用户说出时如何被使用的各种使用规则。
在实施例中,在操作1350,处理器810可训练已选定服务域NLU模型836。
在实施例中,处理器810可根据已选定服务域NLU模型836的实现的类型而改变训练方法。例如,当已选定服务域NLU模型836仅包括域确定模型时,处理器810可仅训练域确定模型。作为另一示例,当已选定服务域NLU模型836不包括域确定模型但包括意图确定模型(或意图确定模型和参数确定模型)时,可训练意图确定模型(或意图确定模型和参数确定模型)。
在实施例中,处理器810可基于关于在操作1340中获得的特定服务域的信息训练已选定服务域NLU模型836。例如,处理器810可通过使用关于特定服务域(例如,与各种意图、话语规则和词汇词典相应的话语信息)的信息产生与各种意图相应的各种话语样本,并且可通过使用产生的话语样本训练意图确定模型,其中,所述意图确定模型被包括在已选定服务域NLU模型836中并且以DNN类型实现。在这种情况下,意图确定模型具有接收话语样本并确定意图的目的,并且可基于反向传播算法被训练。
在实施例中,当已选定服务域NLU模型836包括域确定模型、意图确定模型和参数确定模型时,可通过更新域确定模型仅产生已选定服务域NLU模型836。在这种情况下,处理器810可产生或收集与特定服务域相应的话语样本,并且可训练基于所述话语样本实现的DNN类型域确定模型。在实施例中,可使用另一类型的模型(诸如,统计模型或规则模型)代替DNN类型。
在实施例中,处理器810可训练已选定服务域NLU模型836以在没有修改的情况下使用一个或更多个已经存在的NLU模型(例如,图8中的第一服务域NLU模型831至第N服务域NLU模型835)。例如,在一个或更多个已经存在的NLU模型831至835中可分别(或按照并行的方式)输入语音话语。一个或更多个已经存在的NLU模型831至835中的每一个可输出用户意图和置信分值,并且已选定服务域NLU模型836可被训练以选择具有最高置信分值的用户意图。在这种情况下,已选定服务域NLU模型836可包括已经输出了选择的用户意图的NLU模型(或NLU模型的组合)。
在实施例中,处理器810可将关于已选定服务域NLU模型836的训练的信息发送到电子装置401。
在实施例中,处理器710可显示与已选定服务域NLU模型836的训练相关的引导消息。例如,在处理器810训练已选定服务域NLU模型836的同时,响应于在操作1310中输出的用户输入,处理器710可显示指示已选定服务域NLU模型836正在被训练的引导消息。
在实施例中,当没有检测到错误时(即,操作1320中的否),在预先指定的时间过去之后(或者在预先指定的时间(例如,凌晨3点)),处理器810可执行操作1340和操作1350。这是因为获得关于特定服务域的信息并且基于获得的信息训练服务域NLU模型836的操作可能花费很长时间。处理器710可显示指示这个事实的引导消息。例如,处理器710可显示指示将在凌晨3点获得关于特定服务域的信息并且已选定服务域NLU模型836将被训练的引导信息。
在实施例中,处理器710可在操作1360中显示训练完成消息。例如,处理器710可显示消息,以便通知完成了已选定服务域NLU模型836的训练,并且稍后将被输入的不包括明确的服务域名的用户话语可基于训练后的已选定服务域NLU模型836被处理。
图14示出根据本公开的实施例的语音话语处理系统的检测用于将特定服务域配置为已选定服务域的用户输入的方法。
图14中示出的操作可与图13中示出的操作1310的详细流程图相应。
参照图14,在操作1410,处理器710可显示服务域列表。在实施例中,处理器710可在显示器140上显示包括多个服务域的服务域列表。
在实施例中,处理器710可根据预定的参考(例如,类别)对所述多个服务域进行分类,并且可显示分类的服务域。例如,处理器710可根据所述多个服务域是否以应用类型被安装在电子装置401中对所述多个服务域进行分类。作为另一示例,处理器710可根据提供的服务的属性(例如,订购或者递送服务)或者提供的服务的内容(例如,在订购或递送服务的情况下的订购或递送的目标)对所述多个服务域进行分类。
在另一实施例中,处理器710可根据预定的标准对所述多个服务域进行排列并且可显示排列的服务域。例如,处理器710可根据在指定的时间间隔期间使用所述多个服务域的次数对所述多个服务域进行排列,并且可显示排列的服务域。
在操作1420,处理器710可检测从显示的列表选择至少一个服务域的用户输入。在另一实施例中,处理器710可接收用于从显示的列表选择至少一个服务域并且将已选定服务域配置为已选定服务域的另外的用户输入。
在另一实施例中,当根据预定的标准对多个服务域进行分类时,处理器710可改变可从已经根据所述预定的标准被分类成相同的类别的一个或更多个服务域中选择的已选定服务域的数量。
例如,当根据多个服务域是否以应用类型被安装在电子装置401中对所述多个服务域进行分类时,处理器710可接收从被分类成相同的类别的一个或更多个服务域中对两个或更多个服务域的选择。
作为另一示例,当根据提供的服务的属性或者提供的服务的内容对多个服务域进行分类时,可从被分类成相同的类别的一个或更多个服务域中仅选择一个服务域。作为特定示例,在检测到用于从被分类成相同的类别(例如,咖啡或饮料)的一个或更多个服务域(例如,与咖啡连锁公司A相关的服务域和与咖啡连锁公司B相关的服务域)中选择一个服务域(例如,与咖啡连锁公司A相关的服务域)的用户输入时,处理器710可控制显示器140使得被分类成相同的类别的所述一个或更多个服务域的其余服务域不能被选择。例如,可控制显示器140禁用用于选择其余服务域的对象。在另一实施例中,可实现实施例使得处理器710允许从被分类成相同的类别的所述一个或更多个服务域选择两个或更多个服务域,并且在图13的操作1320中检测错误。
图15示出根据本公开的实施例的语音话语处理系统的检测用于将特定服务域配置为已选定服务域的用户输入的方法。
图15中示出的操作可与图13中示出的操作1310的详细的流程图相应。
参照图15,在操作1510,处理器710可显示与特定服务域相关的用户界面。处理器710可显示用于提供与特定服务域相应的(相关的)服务的用户界面。处理器710可显示用于提供对特定服务域进行说明的用户界面。例如,处理器710可响应于用户输入运行由咖啡连锁公司A管理的应用,从而显示用于提供与特定服务域相应的服务的界面。作为另一示例,处理器710可从外部(例如,服务器530)接收关于由与咖啡订购有关的咖啡连锁公司A提供的用户界面的数据,并且可显示与接收到的数据相关的用户界面。
在实施例中,与特定服务域相关的用户界面可包括用于将特定服务域配置为已选定服务域的对象。
在操作1520,处理器710可检测关于显示的界面的用户输入。例如,当显示的界面包括用于将特定服务域配置为已选定服务域的对象时,处理器710可检测关于对象的用户输入。
在实施例中,当已经将特定服务域配置为已选定服务域时,对象可将特定服务域配置为非已选定服务域。可选地,界面可包括用于将特定服务域配置为非已选定服务域的另一对象。
图16A、图16B、图16C和图16D示出根据本公开的实施例的用于处理用户语音话语的用户界面。
参照图16A,处理器(例如,图7的处理器710)可在显示器(例如,图1的显示器140)上显示包括多个服务域的服务域列表。在实施例中,处理器710可根据预定的标准对所述多个服务域进行分类,并且可显示分类的服务域。例如,处理器710可根据所述多个服务域是否以应用类型1610被安装在电子装置401中,或者根据提供的服务的属性或内容1620对所述多个服务域进行分类。处理器710可根据相应的线下店是否接近当前的用户位置对所述多个服务域进行分类。处理器710可根据对用户的语音命令统计进行分析的结果对所述多个服务域进行分类。例如,处理器710可根据在指定的时间间隔1630内用户使用所述多个服务域的次数对所述多个服务域进行排列。
在实施例中,处理器710可检测用于从显示的列表挑选至少一个服务域并且将挑选的服务域配置为已选定服务域的用户输入(例如,关于对象“添加”1670的用户输入)。
在实施例中,当根据所述多个服务域是否以应用类型1610被安装在电子装置401中对所述多个服务域进行分类时,处理器710可接收从属于相同的类别的一个或更多个服务域(例如,以应用类型被安装在电子装置401的服务域)选择两个或更多个服务域1611和服务域1612的用户输入。
在实施例中,当根据提供的服务的属性1620对所述多个服务域进行分类时,处理器710可接收从属于相同的类别(例如,订购或递送服务)的一个或更多个服务域中选择两个或更多个服务域1621和服务域1622的用户输入。
在实施例中,当根据在指定的时间间隔内使用所述多个服务域的次数对所述多个服务域进行分类时,处理器710可接收从排列的服务域中选择两个或更多个服务域1631和服务域1632的用户输入。
参照图16B,处理器710可显示包括根据提供的服务的详细内容被分类的多个服务域的服务域列表。例如,响应于关于图16A中的对象“更多”1623的用户输入,处理器710可显示根据提供的服务的详细内容被分类的服务域的列表。
在实施例中,处理器710可根据提供的服务的详细内容将所述多个服务域分类成与咖啡和饮料相应的第一类别1640、与餐馆相应的第二类别1650和与购物相应的第三类别1660。
在实施例中,处理器710可接收从属于第一类别1640的一个或更多个服务域中仅挑选一个服务域1641的用户输入。当接收到挑选一个服务域1641的用户输入时,处理器710可禁用用于挑选其余的服务域的对象1642使得不能挑选其余的服务域。类似地,当处理710接收到从属于第二类别1650的一个或更多个服务域中仅挑选一个服务域1651的用户输入时,处理器710可禁用用于挑选其余的服务域的对象1652和对象1653。
参照图16C,响应于用户输入,处理器(例如,处理器810)可训练已选定服务域NLU模型。在处理器810训练已选定服务域NLU模型836的同时,响应于用于将挑选的服务域添加为已选定服务域的用户输入,处理器710可在显示器(例如,显示器140)上显示引导信息以便指示已选定服务域NLU模型836当前被训练。
参照图16D,处理器710可在显示器140上显示训练完成消息。例如,处理器710可显示指示已经将基于用户的输入的特定服务域配置为已选定服务域的训练完成消息。在实施例中,处理器710可显示另外的引导消息,所述另外的引导消息指示即使特定服务域未被明确地包括在用户话语中,也可提供与特定服务域相关的服务域(或功能)。
图17A、图17B和图17C示出根据本公开的实施例的用于处理用户语音话语的用户界面。
参照图17A,处理器(例如,图7的处理器710)可显示与特定服务域相关的用户界面1710。例如,处理器可显示用于提供(或解释)与咖啡连锁公司A相关的服务的用户界面。
在实施例中,用户界面1710可显示关于可提供的服务的信息以及关于支持的装置和支持的语言的信息。例如,用户界面可显示可提供的服务的列表。作为另一示例,用户界面可显示用于说出可提供的服务的用户话语。
在实施例中,用户界面1710可包括用于将相应的服务域配置为已选定服务域的对象1715。例如,响应于检测到关于对象1715的用户输入,处理器(例如,图8的处理器810)可将与咖啡连锁公司A相应的服务域添加为已选定服务域,并且可训练已选定服务域NLU模型836。
尽管未示出,但是在实施例中,处理器710可显示错误消息。不同于图16,用户在图17中不能查看关于相同的类别中的另一服务域的信息。假设已经将相同的类别中的另一服务域配置为已选定服务域,并且在相应的类别中仅一个服务域可被配置为已选定服务域,如果检测到关于对象1715的用户输入,则处理器710可显示错误消息以便指示不能将与当前被提供的服务相关的服务域配置为已选定服务域。处理器710可显示关于相应的类别中已经被配置为已选定服务域的另一服务域的信息,或者处理器710可从已选定服务域中去除另一服务域并且可询问用户是否将与当前被提供的服务相关的服务域添加为已选定服务域。
参照图17B,在实施例中,响应于关于对象1725的用户输入,用户界面1720可向用户提供与训练已选定服务域NLU模型836有关的引导消息1727。例如,用户界面1720可提供指示存在将与咖啡连锁公司A相应的服务域添加为已选定服务域所需的正在进行操作的引导消息,并且引导消息可包括关于直到完成为止所需的剩余时间的信息。
在实施例中,用户界面1720可包括对象1725。为了通知存在将相应的服务域添加为已选定服务域所需的正在进行的操作,可以赋予对象1725诸如随时间改变颜色的突出显示效果。
参照图17C,在实施例中,处理器710可提供用于提供与特定服务域相关的服务的界面1730。在实施例中,界面1730可以是当已经将相应的服务域添加为已选定服务域时显示的界面。例如,界面1730可包括指示已经将相应的服务域添加为已选定服务域的对象1735。
在实施例中,响应于检测到关于对象1735的用户输入,处理器710可从已选定服务域去除相应的服务域。在这种情况下,处理器710可将对象1735的形状改变成与对象1715的形状相同以便通知用户已经从已选定服务域中去除了相应的服务域。
图18示出根据各种本公开的实施例的用于处理用户语音话语的用户界面。
参照图18,当检测到关于图17的对象1715的用户输入时,可向用户提供图18中示出的用户界面1810。
在实施例中,如上所述,处理器710可显示归因于预先配置的数量限制的错误消息。如上所述,需要将已选定服务域的数量维持在预先配置的值以内以便维持意图识别性能。当检测到关于对象1715的用户输入时,并且当被配置为已选定服务域的域的数量已经达到预定值时,处理器710可显示指示不能添加更多的选定的服务域的错误消息1820。
在实施例中,处理器710可基于用户的话语统计信息推荐从已选定服务域中去除最不常用的服务域。
计算机可读记录介质可包括硬盘、软盘、只读存储器(ROM)、磁性介质(例如,磁带)、光学媒介(例如,致密盘ROM(CD-ROM)、数字多功能盘(DVD)等)、磁光介质(例如,光磁盘)、内部存储器等。指令可包括由编译器生成的代码或者由解释器可执行的代码。根据本公开的编程模块可包括上述组件中的一个或更多个组件或者还可包括其他附加组件,或者可省略上述组件中的一些组件。根据各种实施例的由模块、编程模块或其他元件执行的操作可被顺序地、并行地、重复地或者以启发式的方式被执行。至少一些操作可根据另一顺序被执行,可被省略,或者还可包括其他操作。
虽然已经参照本公开的各种实施例示出并描述了本公开,但是本领域的普通技术人员将理解的是,在不脱离由所附权利要求及其等同物所限定的本公开的精神和范围的情况下,可在形式和细节上对本公开做出各种改变。
Claims (26)
1.一种设备,所述设备包括:
至少一个存储器;以及
至少一个处理器,被可操作地连接到所述至少一个存储器,
其中,所述至少一个存储器存储在被执行时使得所述至少一个处理器执行以下操作的指令:
接收用户话语,
从所述用户话语识别内容;
识别所述内容是否包括指示特定服务域的至少一个关键词,
当所述内容包括所述至少一个关键词时,通过基于特定服务域处理所述内容来产生响应,以及
当所述内容不包括所述至少一个关键词时:
当所述内容与至少一个预先选择的服务域相关联时,通过使用由用户预先选择的所述至少一个预先选择的服务域中的一个处理所述内容来产生响应,并且
当所述内容不与所述至少一个预先选择的服务域相关联时,基于从与所述内容相关的多个服务域中选择的至少一个域来产生响应以提供给用户。
2.如权利要求1所述的设备,其中,当所述指令被执行时,还使得所述至少一个处理器通过使用与多个域相关的第一自然语言理解模型来确定所述内容是否与所述至少一个预先选择的服务域相关联。
3.如权利要求2所述的设备,其中,第一自然语言理解模型包括域确定模型和意图确定模型中的至少一个模型。
4.如权利要求3所述的设备,其中,当所述指令被执行时,还使得所述至少一个处理器执行以下操作:
基于所述域确定模型分析所述内容以确定置信分值,并且
基于所述置信分值,确定所述内容是否与所述至少一个预先选择的服务域相关联。
5.如权利要求4所述的设备,其中,当所述指令被执行时,还使得所述至少一个处理器执行以下操作:
确定与所述至少一个预先选择的服务域相应的第二自然语言理解模型,并且
通过使用第二自然语言理解模型确定用户意图和参数中的至少一个。
6.如权利要求5所述的设备,其中,当所述指令被执行时,还使得所述至少一个处理器执行以下操作:
在接收用户话语之前接收选择所述至少一个预先选择的服务域的输入之后,
训练第一自然语言理解模型。
7.如权利要求6所述的设备,其中,当所述指令被执行时,还使得所述至少一个处理器执行以下操作:
获得与所述至少一个预先选择的服务域相应的规则信息,并且
通过使用所述规则信息训练第二自然语言理解模型。
8.如权利要求1所述的设备,其中,所述至少一个处理器被配置为:接收从根据选择的标准被分类的多个域的列表中选择所述至少一个预先选择的服务域的输入。
9.如权利要求8所述的设备,其中,所述输入与包括在用户界面中的至少一个对象相关,并且
其中,所述用户界面包括用于选择所述至少一个预先选择的服务域的引导以及通过使用所述至少一个预先选择的服务域能够提供给用户的服务。
10.如权利要求1所述的设备,其中,所述设备包括移动终端、固定终端或服务器。
11.如权利要求10所述的设备,其中,所述指令还使得所述至少一个处理器执行以下操作:
当所述内容包括所述至少一个关键词时,确定第一置信分值是否大于与所述至少一个预先选择的服务域中的第一域相关联的第一阈值并且确定第二置信分值是否大于与第二域相关联的第二阈值,并且
当第一置信分值大于第一阈值并且第二置信分值不大于第二阈值时,使用第一域处理所述内容。
12.如权利要求1所述的设备,其中,所述至少一个预先选择的服务域与被提供给用户以执行包括在所述用户话语中的用户意图的服务的类型或者提供所述服务的主体相关。
13.一种用于操作设备的方法,所述方法包括:
接收用户话语;
从所述用户话语识别内容;
识别所述内容是否包括指示特定服务域的至少一个关键词,
当所述内容包括所述至少一个关键词时,通过基于特定服务域处理所述内容来产生响应,以及
当所述内容不包括所述至少一个关键词时:
当所述内容与至少一个预先选择的服务域相关联时,通过使用由用户预先选择的所述至少一个预先选择的服务域中的一个处理所述内容来产生响应,并且
当所述内容不与所述至少一个预先选择的服务域相关联时,基于从与所述内容相关的多个服务域中选择的至少一个域来产生响应以提供给用户。
14.如权利要求13所述的方法,还包括:通过使用与多个域相关的第一自然语言理解模型确定所述内容是否与所述至少一个预先选择的服务域相关联。
15.如权利要求14所述的方法,其中,第一自然语言理解模型包括域确定模型和意图确定模型中的至少一个模型。
16.如权利要求15所述的方法,还包括:
基于所述域确定模型分析所述内容以确定置信分值,以及
基于所述置信分值确定所述内容是否与所述至少一个预先选择的服务域相关联。
17.如权利要求16所述的方法,其中,通过使用所述至少一个预先选择的服务域中的一个处理所述内容的步骤包括:
确定与所述至少一个预先选择的服务域相应的第二自然语言理解模型;以及
通过使用第二自然语言理解模型确定用户意图和参数中的至少一个。
18.如权利要求15所述的方法,还包括:
在接收用户话语之前接收选择所述至少一个预先选择的服务域的输入之后,
训练第一自然语言理解模型。
19.如权利要求18所述的方法,其中,训练第一自然语言理解模型的步骤包括:
获得与所述至少一个预先选择的服务域相应的规则信息;以及
通过使用所述规则信息训练第一自然语言理解模型。
20.如权利要求13所述的方法,还包括:接收从根据选择的标准被分类的多个域的列表中选择所述至少一个预先选择的服务域的输入。
21.如权利要求20所述的方法,
其中,所述输入与包括在用户界面中的至少一个对象相关,并且
所述用户界面包括用于选择所述至少一个预先选择的服务域的引导以及通过使用所述至少一个预先选择的服务域能够提供给用户的服务。
22.如权利要求13所述的方法,还包括:
当所述内容包括所述至少一个关键词时,确定第一置信分值是否大于与所述至少一个预先选择的服务域中的第一域关联的第一阈值并确定第二置信分值是否大于与第二域关联的第二阈值;并且
当第一置信分值大于第一阈值并且第二置信分值不大于第二阈值时,使用第一域处理所述内容。
23.如权利要求13所述的方法,其中,所述至少一个预先选择的服务域与被提供给用户以执行包括在所述用户话语中的用户意图的服务的类型或者提供所述服务的主体相关。
24.如权利要求19所述的方法,其中,训练第一自然语言理解模型的步骤包括:
基于用户历史信息产生训练数据;以及
基于所述规则信息将所述训练数据应用于第一自然语言理解模型。
25.如权利要求13所述的方法,还包括:
当所述内容包括所述至少一个关键词时,
基于与所述至少一个关键词相关联的第一自然语言理解模型确定用户意图和与所述用户意图相关联的参数,以及
基于所述用户意图和所述参数执行动作。
26.如权利要求25所述的方法,还包括从所述至少一个关键词或被指定代表所述至少一个关键词提供所述第一自然语言理解模型的第三方接收所述第一自然语言理解模型。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862715489P | 2018-08-07 | 2018-08-07 | |
US62/715,489 | 2018-08-07 | ||
KR1020180169308A KR20200016774A (ko) | 2018-08-07 | 2018-12-26 | 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법 |
KR10-2018-0169308 | 2018-12-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110858481A CN110858481A (zh) | 2020-03-03 |
CN110858481B true CN110858481B (zh) | 2024-04-30 |
Family
ID=67587398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910725656.2A Active CN110858481B (zh) | 2018-08-07 | 2019-08-07 | 用于处理用户语音话语的系统和用于操作该系统的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11217244B2 (zh) |
EP (1) | EP3608906B1 (zh) |
CN (1) | CN110858481B (zh) |
WO (1) | WO2020032563A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102398649B1 (ko) * | 2017-03-28 | 2022-05-17 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
US11133026B2 (en) * | 2019-01-04 | 2021-09-28 | International Business Machines Corporation | Natural language processor for using speech to cognitively detect and analyze deviations from a baseline |
KR20210033167A (ko) * | 2019-09-18 | 2021-03-26 | 삼성전자주식회사 | 전자장치 및 그 음성인식 제어방법 |
US11930230B2 (en) * | 2019-11-01 | 2024-03-12 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system |
KR20210064594A (ko) * | 2019-11-26 | 2021-06-03 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
JP7347244B2 (ja) * | 2020-01-29 | 2023-09-20 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム及びプログラム |
CN112053688B (zh) * | 2020-08-27 | 2024-03-08 | 海信视像科技股份有限公司 | 一种语音交互方法及交互设备、服务器 |
US11978449B2 (en) | 2021-03-02 | 2024-05-07 | Samsung Electronics Co., Ltd. | Electronic device for processing user utterance and operation method therefor |
US20220309175A1 (en) * | 2021-03-29 | 2022-09-29 | Aipex Technologies, Inc. | Content management techniques for voice assistant |
US11705113B2 (en) * | 2021-06-24 | 2023-07-18 | Amazon Technologies, Inc. | Priority and context-based routing of speech processing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004413A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 扩展数字个人助理动作提供者 |
CN107210033A (zh) * | 2015-01-30 | 2017-09-26 | 微软技术许可有限责任公司 | 基于众包来更新用于数字个人助理的语言理解分类器模型 |
CN107924393A (zh) * | 2015-08-31 | 2018-04-17 | 微软技术许可有限责任公司 | 用于语言理解的分布式服务器系统 |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
WO2009061399A1 (en) * | 2007-11-05 | 2009-05-14 | Nagaraju Bandaru | Method for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis |
US8407049B2 (en) * | 2008-04-23 | 2013-03-26 | Cogi, Inc. | Systems and methods for conversation enhancement |
WO2009157029A1 (en) | 2008-06-25 | 2009-12-30 | Enzo Stancato | Multifunction apparatus for telecommunications |
KR101622111B1 (ko) * | 2009-12-11 | 2016-05-18 | 삼성전자 주식회사 | 대화 시스템 및 그의 대화 방법 |
US9117453B2 (en) * | 2009-12-31 | 2015-08-25 | Volt Delta Resources, Llc | Method and system for processing parallel context dependent speech recognition results from a single utterance utilizing a context database |
US8260615B1 (en) * | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
KR20130124799A (ko) | 2012-05-07 | 2013-11-15 | 고일권 | 스마트 단말에서의 진화형 가상 비서 서비스 시스템 |
US9424840B1 (en) * | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
US9070366B1 (en) * | 2012-12-19 | 2015-06-30 | Amazon Technologies, Inc. | Architecture for multi-domain utterance processing |
EP3008641A1 (en) * | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US9530416B2 (en) * | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
KR20150084304A (ko) | 2014-01-13 | 2015-07-22 | 엘지전자 주식회사 | 이동 단말기 및 그 동작 제어방법 |
KR102300415B1 (ko) * | 2014-11-17 | 2021-09-13 | 주식회사 엘지유플러스 | 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US9959129B2 (en) | 2015-01-09 | 2018-05-01 | Microsoft Technology Licensing, Llc | Headless task completion within digital personal assistants |
US10068568B2 (en) * | 2015-06-01 | 2018-09-04 | Sinclair Broadcast Group, Inc. | Content segmentation and time reconciliation |
KR101751113B1 (ko) | 2015-06-15 | 2017-06-27 | 포항공과대학교 산학협력단 | 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치 |
US10074369B2 (en) * | 2016-09-01 | 2018-09-11 | Amazon Technologies, Inc. | Voice-based communications |
US10679608B2 (en) * | 2016-12-30 | 2020-06-09 | Google Llc | Conversation-aware proactive notifications for a voice interface device |
US10229683B2 (en) * | 2017-03-10 | 2019-03-12 | Soundhound, Inc. | Speech-enabled system with domain disambiguation |
US10418033B1 (en) * | 2017-06-01 | 2019-09-17 | Amazon Technologies, Inc. | Configurable output data formats |
US10572594B2 (en) * | 2017-08-01 | 2020-02-25 | Intuit Inc. | Extracting domain-specific actions and entities in natural language commands recognized based on edition and recognition scores |
-
2019
- 2019-08-07 CN CN201910725656.2A patent/CN110858481B/zh active Active
- 2019-08-07 US US16/534,399 patent/US11217244B2/en active Active
- 2019-08-07 EP EP19190558.7A patent/EP3608906B1/en active Active
- 2019-08-07 WO PCT/KR2019/009849 patent/WO2020032563A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004413A (zh) * | 2014-11-28 | 2017-08-01 | 微软技术许可有限责任公司 | 扩展数字个人助理动作提供者 |
CN107210033A (zh) * | 2015-01-30 | 2017-09-26 | 微软技术许可有限责任公司 | 基于众包来更新用于数字个人助理的语言理解分类器模型 |
CN107924393A (zh) * | 2015-08-31 | 2018-04-17 | 微软技术许可有限责任公司 | 用于语言理解的分布式服务器系统 |
US10032451B1 (en) * | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
Also Published As
Publication number | Publication date |
---|---|
EP3608906A1 (en) | 2020-02-12 |
US11217244B2 (en) | 2022-01-04 |
CN110858481A (zh) | 2020-03-03 |
EP3608906B1 (en) | 2024-05-22 |
WO2020032563A1 (en) | 2020-02-13 |
US20200051560A1 (en) | 2020-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110858481B (zh) | 用于处理用户语音话语的系统和用于操作该系统的方法 | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
US11120792B2 (en) | System for processing user utterance and controlling method thereof | |
US11151995B2 (en) | Electronic device for mapping an invoke word to a sequence of inputs for generating a personalized command | |
CN112639962A (zh) | 处理用户话语的电子设备及其控制方法 | |
CN111640429B (zh) | 提供语音识别服务的方法和用于该方法的电子装置 | |
US10560576B1 (en) | Electronic device for performing task including call in response to user utterance and operation method thereof | |
KR102464120B1 (ko) | 사용자 발화를 처리하는 전자 장치 | |
US20220172722A1 (en) | Electronic device for processing user utterance and method for operating same | |
US11862178B2 (en) | Electronic device for supporting artificial intelligence agent services to talk to users | |
KR20190139489A (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
US10976997B2 (en) | Electronic device outputting hints in an offline state for providing service according to user context | |
KR20200016774A (ko) | 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법 | |
US11341965B2 (en) | System for processing user utterance and operating method thereof | |
CN111902863B (zh) | 用于处理用户语音输入的装置 | |
CN113678119A (zh) | 用于生成自然语言响应的电子装置及其方法 | |
US20200051555A1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US11670294B2 (en) | Method of generating wakeup model and electronic device therefor | |
US11455992B2 (en) | Electronic device and system for processing user input and method thereof | |
US20230095294A1 (en) | Server and electronic device for processing user utterance and operating method thereof | |
US20230214397A1 (en) | Server and electronic device for processing user utterance and operating method thereof | |
US20230186031A1 (en) | Electronic device for providing voice recognition service using user data and operating method thereof | |
KR102642268B1 (ko) | 공유 업무 처리 방법 및 장치 | |
KR20240020141A (ko) | 언어 모델에 기초하여 사용자 발화를 처리하는 방법 및 전자 장치 | |
KR20210111423A (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210224 Address after: Gyeonggi Do Korea Suwon Applicant after: Samsung Electronics Co.,Ltd. Address before: Gyeonggi Do Korea Suwon Applicant before: Samsung Electronics Co.,Ltd. Applicant before: Weifu laboratory Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |