CN114270361A - 用于注册用于语音助理服务的设备的系统和方法 - Google Patents
用于注册用于语音助理服务的设备的系统和方法 Download PDFInfo
- Publication number
- CN114270361A CN114270361A CN202080053916.7A CN202080053916A CN114270361A CN 114270361 A CN114270361 A CN 114270361A CN 202080053916 A CN202080053916 A CN 202080053916A CN 114270361 A CN114270361 A CN 114270361A
- Authority
- CN
- China
- Prior art keywords
- function
- registered
- new device
- functions
- voice assistant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 561
- 230000009471 action Effects 0.000 claims abstract description 132
- 238000004891 communication Methods 0.000 claims description 40
- 238000013473 artificial intelligence Methods 0.000 description 43
- 230000004044 response Effects 0.000 description 32
- 238000001816 cooling Methods 0.000 description 30
- 238000007726 management method Methods 0.000 description 28
- 238000007791 dehumidification Methods 0.000 description 13
- 238000001035 drying Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 238000010792 warming Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000035943 smell Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1073—Registration or de-registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/10—Architectures or entities
- H04L65/1059—End-user terminal functionalities specially adapted for real-time communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种用于注册用于语音助理服务的新设备的系统和方法。由服务器执行的注册用于语音助理服务的新设备的方法包括:将预注册设备的功能与新设备的功能进行比较;基于比较来在新设备的功能中识别与预注册设备的功能相对应的功能;获取与至少一些已识别功能相关的预注册话语数据;基于识别的功能和预注册话语数据为新设备生成行动数据。
Description
技术领域
本公开涉及一种用于注册用于语音助理服务的新设备的系统和方法。
背景技术
随着多媒体和网络技术的发展,已通过设备向用户提供各种服务。特别地,随着语音识别技术的发展,用户能够将他们的语音(例如,话语)说出到语音助理设备中,并且通过服务提供代理接收作为对语音输入的答复的响应消息。
当语音助理服务将要理解来自用户的语音输入中包含的意图时,可以使用人工智能(AI)技术来破译来自用户的语音输入的正确意图,并且也可以使用基于规则的自然语言理解(NLU)。
然而,在提供语音助理服务时,当新设备被添加到包括多个设备的家庭网络环境中时,难以通过考虑新设备的功能来响应于用户的语音输入提供设备控制。特别地,即使在新设备不是预注册有语音助理服务的设备时,也需要在语音助理服务中有效地体现新设备的功能。
发明内容
技术方案
提供了一种用于使用用于语音助理服务的预注册设备的功能来注册新设备的系统和方法。
根据本公开的一方面,提供了一种用于通过组合或删除至少一个预注册设备的功能来注册新设备的功能的系统和方法。
根据本公开的一方面,提供了一种用于使用与预注册设备的功能相关的话语数据来注册新设备的系统和方法。
根据本公开的一方面,提供了一种用于使用预注册设备的话语数据和行动数据来获取与新设备的功能相关的话语数据和行动数据的系统和方法。
根据本公开的一方面,提供了一种用于使用与新设备的功能相关的话语数据和行动数据来生成和更新指定给新设备的语音助理模型的系统和方法。
额外方面将部分地在之后的描述中陈述,并且部分地将从描述中明白,或者可以通过本公开的所呈现实施例的实践获知。
附图说明
从以下结合附图所作的描述中,本公开的某些实施例的上述和其他方面、特征和优点将变得更加显而易见,在附图中:
图1是根据本公开的实施例的用于提供语音助理服务的系统的概念图;
图2展示了根据本公开的实施例的基于预注册设备的功能来注册新设备的语音助理服务器的机制;
图3是展示了根据本公开的实施例的语音助理服务器注册新设备的方法的流程图;
图4是展示了根据本公开的实施例的服务器将预注册设备的功能与新设备的功能进行比较的方法的流程图;
图5A展示了根据本公开的实施例的预注册设备的功能与新设备的功能之间的比较;
图5B展示了根据本公开的实施例的预注册设备的一组功能与新设备的功能之间的比较;
图5C展示了根据本公开的实施例将预注册设备的功能和功能组的组合与新设备的功能进行比较;
图5D展示了根据本公开的实施例的将多个预注册设备的功能和功能组的组合与新设备的功能进行比较;
图5E展示了根据本公开的实施例的删除预注册设备的一些功能并将剩余功能与新设备的功能进行比较;
图6是展示了根据本公开的实施例的语音助理服务器生成与在新设备的功能中与预注册的设备的功能不同的功能相关的话语数据和行动数据的方法的流程图;
图7A展示了根据本公开的实施例的来自语音助理服务器的用于生成与新设备的功能相关的话语数据和行动数据的查询输出;
图7B展示了根据本公开的实施例的用于推荐话语语句以生成与新设备的功能相关的话语数据和行动数据的查询输出;
图8是展示了根据本公开的实施例的语音助理服务器扩展话语数据的方法的流程图;
图9A展示了根据本公开的实施例的从话语数据生成近义话语数据;
图9B展示了根据本公开的实施例的映射到行动数据的代表性话语语句和近义话语数据;
图10A展示了根据本公开的另一实施例的从话语数据生成近义话语数据;
图10B展示了根据本公开的实施例的映射到行动数据的代表性话语语句和近义话语数据;
图11A展示了根据本公开的实施例的话语数据;
图11B展示了根据本公开的另一实施例的话语数据;
图12展示了根据本公开的另一实施例的设备的规范;
图13是根据本公开的实施例的语音助理服务器的框图;
图14是根据本公开的另一实施例的语音助理服务器的框图;
图15是展示了根据本公开的实施例的行动计划管理模型的概念图;
图16展示了根据本公开的实施例的存储在行动计划管理模型中的封装(capsule)数据库;
图17是根据本公开的实施例的物联网(IoT)云服务器的框图;并且
图18是根据本公开的实施例的客户端设备的框图。
具体实施方式
根据本公开的第一方面,提供了一种由服务器执行的注册用于语音助理服务的新设备的方法,方法包括:获取指示预注册设备的第一功能的第一技术规范以及指示新设备的第二功能的第二技术规范;基于第一技术规范和第二技术规范来将预注册设备的第一功能与新设备的第二功能进行比较;基于比较来将与新设备的第二功能匹配的预注册设备的第一功能识别为匹配功能;获取与匹配功能相关的预注册话语数据;基于匹配功能和预注册话语数据来为新设备生成行动数据;并且存储与新设备相关联的预注册话语数据和行动数据,其中行动数据包括与和预注册话语数据相对应的新设备的一系列详细操作相关的数据。
根据本公开的第二方面,提供了一种用于注册用于语音助理服务的新设备的服务器,服务器包括:通信接口;存储器,该存储器存储包括一个或多个指令的程序;以及处理器,该处理器被配置为执行存储在存储器中的程序的一个或多个指令以:获取指示预注册设备的第一功能的第一技术规范以及指示新设备的第二功能的第二技术规范,基于第一技术规范和第二技术规范来将预注册设备的第一功能与新设备的第二功能进行比较;将与新设备的第二功能匹配的预注册设备的第一功能识别为匹配功能;获取与匹配功能相关的预注册话语数据;基于匹配功能和预注册话语数据来为新设备生成行动数据;并且将与新设备相关联的预注册话语数据和行动数据存储在数据库中,并且其中行动数据包括与和预注册话语数据相对应的新设备的一系列详细操作相关的数据。
根据本公开的第三方面,提供了一种其上具有用于计算机执行本公开的第一方面的方法和本公开的第二方面的操作的程序的计算机可读记录介质。
发明模式
现在将参考附图描述本公开的实施例。然而,本公开的实施例可以以多种不同的形式实施,并且不限于本文将讨论的。在附图中,为了清楚起见省略了与描述无关的部分,并且在整个说明书中相同的数字指代相同的元件。
当A被称为“连接”到B时,意思是“直接连接”到B或“电连接”到B,并且可能包括插置在在A与B之间的C。除非另有说明,否则术语“包括(include)(或包括(including))”或“包含(comprise)(或包含(comprising))”是包含性的或开放式的,并且不排除额外的、未列举的要素或方法步骤。
贯穿本公开,表达“a、b或c中的至少一者”指示仅a;仅b;仅c、a和b两者;a和c两者;b和c两者;a、b和c全部,或其变化形式。
根据本公开的实施例的与人工智能(AI)相关的功能通过处理器和存储由处理器执行的计算机可读指令的存储器来实施。可以存在一个或多个处理器。一个或多个处理器可以包括通用处理器,诸如中央处理单元(CPU)、应用处理器(AP)、数字信号处理器(DSP)等,专用图形处理器,诸如图形处理单元(GP)、视觉处理单元(VPU)等,或者专用AI处理器,例如神经处理单元(NPU)。一个或多个处理器可以根据预定义的运算规则或存储在存储器中的AI模型来控制输入数据的处理。当一个或多个处理器为专用AI处理器时,它们可以设计成专门用于处理特定AI模型的硬件结构。
可以通过学习来构建预定义的运算规则或AI模型。具体地,通过学习构建的预定义的运算规则或AI模型是指在通过学习算法通过处理训练数据来训练基本AI模型时构建的用于执行所需功能(或对象)的预定义的运算规则或AI模型。这种学习可以由根据本公开执行AI的设备本身执行,或者由单独的服务器和/或系统执行。学习算法的示例可以包括监督学习、无监督学习、半监督学习或增强学习,但不限于此。
AI模型可以包括多个神经网络层。多个神经网络层中的每一个可以具有多个权重值,并且通过根据前一层的运算结果和多个权重值的运算来执行神经网络计算。可以通过AI模型的学习结果来优化分配给多个神经网络层的多个权重值。例如,可以在学习过程期间更新多个权重值,从而减小或最小化由AI模型获取的损失值或成本值。人工神经网络可以包括例如卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)或深度Q网络,但不限于此。
现在将参考附图描述本公开。
图1是根据本公开的实施例的用于提供语音助理服务的系统的概念图。
参考图1,在本公开的实施例中,用于提供语音助理服务的系统可以包括客户端设备1000、至少一个附加设备2000、语音助理服务器3000和物联网(IoT)云服务器4000。至少一个设备2000可以是在语音助理服务器3000或IoT云服务器4000中预注册的用于语音助理服务的设备。
客户端设备1000可以从用户接收语音输入(例如,话语)。在本公开的实施例中,客户端设备1000可以包括语音识别模块。在本公开的实施例中,客户端设备1000可以包括具有有限语音处理功能的语音识别模块。例如,客户端设备1000可以包括具有检测指定语音输入(例如,诸如“嗨,比克斯比。”、“好吧,谷歌。”等的唤醒输入)的功能或者预处理从某些语音输入中获取的语音信号的功能的语音识别模块。客户端设备1000可以是AI扬声器,但不限于此。在本公开的实施例中,至少一个设备2000中的一些还可以实现为附加客户端设备1000。
至少一个设备2000可以是响应于来自语音助理服务器3000和/或IoT云服务器4000的控制命令执行特定操作的目标受控设备。可以控制至少一个设备2000基于由客户端设备1000接收的用户的语音输入来执行特定操作。在本公开的实施例中,至少一个设备2000中的至少一些可以从客户端设备1000接收控制命令,而无需从语音助理服务器3000和/或IoT云服务器4000接收任何控制命令。因此,至少一个设备2000可以由客户端设备1000、语音助理服务器3000和IoT云服务器4000中的一个或多个基于用户语音来控制。
客户端设备1000可以通过麦克风接收用户的语音输入,并将语音输入转发到语音助理服务器3000。在本公开的实施例中,客户端设备1000可以从接收的语音输入中获取语音信号并将该语音信号转发到语音助理服务器3000。
语音助理服务器3000可以从客户端设备1000接收用户的语音输入,通过解释用户的语音输入根据用户的意图从至少一个设备2000中选择执行操作的目标设备,并且向IoT云服务器4000或将要控制的至少一个目标设备2000提供关于目标设备或将要由目标设备执行的操作的信息。
IoT云服务器4000可以注册和管理关于用于语音助理服务的至少一个设备2000的信息,并将用于语音助理服务的至少一个设备2000的设备信息提供给语音助理服务器3000。至少一个设备2000的设备信息可以是与用于提供语音助理服务的设备有关的信息,并且包括例如设备的标识(ID)信息(设备ID信息)、能力信息、位置信息、以及设备的状态信息。此外,IoT云服务器4000可以从语音助理服务器3000接收关于目标设备和将要由目标设备执行的操作的信息,并向将要控制的至少一个目标设备2000提供用于控制至少一个设备2000的操作的控制信息。
当将新设备2900添加到例如家庭网络以用于语音助理服务时,语音助理服务器3000可以使用至少一个设备2000的预注册的功能、话语数据、以及与话语数据相对应的操作来生成新设备2900的话语数据和行动数据。语音助理服务器3000可以使用新设备2900的话语数据和行动数据来生成或更新将要用于新设备2900的语音助理模型。
话语数据与用户为获取语音助理服务而发出的代表用户的话语的语音相关。话语数据可以用于解释与设备2000的操作相关的用户意图。话语数据可以包括文本形式的话语语句或具有自然语言理解(NLU)模型的输出值形式的话语参数中的至少一种。话语参数可以是从NLU模型输出的数据,可以包括意图和参数。意图可以是通过使用NLU模型解释文本而确定的信息,并且可以指示用户话语的意图。例如,意图可以是指示用户意图或用户请求由将要被控制的至少一个设备2000执行的设备操作的信息。意图可以包括指示用户话语的意图的信息(以下称为意图信息)以及与指示用户意图的信息相对应的数值。数值可以指示文本与指示特定意图或意向的信息相关的概率。当使用NLU模型解释文本的结果是存在指示用户意图的多条信息时,可以将多条意图信息中具有最高数值的一个确定为意图。此外,该参数可以是用于确定与意图相关的设备的详细操作的可变信息。该参数可以是与意图相关的信息,并且可以存在与意图相对应的多种类型的参数。参数可以包括用于确定设备的操作信息的可变信息以及指示文本与可变信息相关的概率的数值。作为使用NLU模型解释文本的结果,可以获取指示参数的多条可变信息。在这种情况下,可以将多条可变信息中,对应于该可变信息具有最高数值的一条确定为参数。
行动数据可以是与特定话语数据相对应的和至少一个设备2000的一系列详细操作相关的数据。例如,行动数据可以包括对应于特定话语数据的与将要由至少一个设备2000执行的详细操作相关的信息、每个详细操作与另一详细操作之间的相关性、以及详细操作的执行顺序。详细操作与另一详细操作之间的相关性可以包括关于在执行一个详细操作以执行该一个详细操作之前要执行的另一详细操作的信息。例如,当将要执行的操作是“播放音乐”时,“开电源”可以是在“播放音乐”操作之前要执行的另一详细操作。行动数据可以包括例如将要由目标设备执行以执行特定操作的功能、功能的执行顺序、执行功能所需的输入值、以及作为执行功能的结果输出的输出值。
当识别出新设备2900时,语音助理服务器3000可以获取新设备2900的功能信息,并且通过将预注册的至少一个设备2000的功能信息与新设备2900的功能信息比较来确定可以与新设备2900的功能相关地使用的预注册话语数据。此外,语音助理服务器3000可以编辑预注册话语数据和对应的功能,并且使用与编辑的话语数据和功能相关的数据来生成行动数据。
至少一个设备2000可以包括智能手机、平板个人计算机(平板PC)、个人计算机(PC)、智能电视(智能TV)、个人数字助理、膝上型计算机、媒体播放器、微型服务器、全球定位系统(GPS)、电子书(e-book)阅读器、数字广播终端、导航、信息亭、MP3播放器、数码相机、以及移动或非移动计算设备,但不限于此。此外,至少一个设备2000可以是诸如配备有通信和数据处理功能的台灯、空调、电视、机器人清洁器、洗衣机、秤、冰箱、机顶盒、家庭自动化控制面板、安全控制面板、游戏机、电子钥匙、摄录像机或电子相框的家用电器。此外,至少一个设备2000可以是诸如手表、眼镜、发带、戒指的可穿戴设备,每个设备都具有通信功能和数据处理功能。然而,不限于此,并且至少一个设备2000可以包括能够通过诸如家庭网络、有线或无线网络或蜂窝数据网络的网络从语音助理服务器3000和/或IoT云服务器4000发送或接收数据的任何类型的设备。
网络可以包括局域网(LAN)、广域网(WAN)、增值网络(VAN)、移动无线电通信网络、卫星通信网络及其任何组合,该网络是允许图1中示出的网络组成实体在彼此之间执行平稳的通信的综合数据通信网络,该网络包括有线互联网、无线互联网和移动无线通信网络。无线通信可以包括任何各种无线通信协议与技术,包括无线LAN(Wi-fi)、蓝牙、低功耗蓝牙、Zigbee、Wi-fi直连(WFD)、超宽带(UWB)、红外数据协会(IrDA)、近场通信(NFC)等,但不限于此。
图2展示了根据本公开的实施例的基于预注册设备的功能来注册新设备的语音助理服务器的机制。
参考图2,当识别新设备2900(例如空调B)时,语音助理服务器3000可以获取空调B的功能和操作信息,该信息指示空调B的功能和空调B的操作。一些功能和操作可以包括温度设置、风扇速度设置、操作调度、湿度设置等。语音助理服务器3000可以将空调B的功能信息与预注册设备2000、空调A和除湿机A的功能信息进行比较。
语音助理服务器3000可以将空调B的功能与空调A的功能和除湿机A的功能进行比较,并且在空调B的功能中识别出与空调A和除湿机A的功能相同或相似的功能。例如,语音助理服务器3000可以在空调B的功能中识别“电源开/关”、“制冷模式开/关”、“除湿模式开/关”、“升温/降温”和“湿度控制”对应于空调A和除湿机A的功能。
语音助理服务器3000可以确定与所识别的功能中的至少一个相对应的话语数据,并生成与所确定的话语数据相对应的行动数据。例如,语音助理服务器3000可以使用与空调A的“电源开”相对应的话语数据“打开电源”、与空调A的“制冷模式开,降温”相对应的话语数据“降低温度”、与空调A的“制冷模式开,升温”相对应的话语数据“升高温度”、与除湿机A的“电源开”相对应的话语数据“打开电源”、以及与除湿机A的“减湿”相对应的话语数据“降低湿度”来生成或编辑与空调B的功能中的至少一项相对应的话语数据。
图3是展示了根据本公开的实施例的由语音助理服务器3000执行的注册新设备的方法的流程图。图12展示了根据本公开的实施例的设备的规范。
在操作S300中,语音助理服务器3000获取关于新设备2900和预注册设备2000的功能的功能信息。当新设备2900被添加到用于语音助理服务的系统时,语音助理服务器3000可以从通过新设备2900或外部来源获取的新设备2900的技术规范中识别由新设备2900所支持的功能,该外部来源诸如新设备2900的制造商或存储设备的技术规范的数据库。例如参考图12,语音助理服务器3000可以从包括设备的标识号、型号或部件号、可执行功能的名称、关于可执行功能的描述、以及关于执行该功能所需的因素的信息的规范中识别由新设备2900所支持的功能。
语音助理服务器3000可以从设备2000的技术规范中识别预注册设备2000的功能。语音助理服务器3000可以从存储在语音助理服务器3000的数据库(DB)中的技术规范中识别设备2000的功能。替代性地,语音助理服务器3000可以接收存储在IoT云服务器4000的数据库中的设备2000的说明书,并从技术规范中识别设备2000的功能。与新设备2900的技术规范类似,预注册设备2000的技术规范可以包括关于设备的标识号、型号或部件号的信息、可执行功能的名称、关于可执行功能的描述、以及关于执行该功能所需的因素的信息。
在操作S310中,语音助理服务器3000可以确定新设备2900的功能是否与预注册设备2000的功能相同或相似。语音助理服务器3000可以通过将预注册设备2000的功能与新设备2900的功能进行比较来识别新设备2900的与预注册设备2000的功能相同或相似的任何功能。
语音助理服务器3000可以从新设备2900的技术规范中识别出指示由新设备2900所支持的功能名称,并且确定识别出的名称是否与由预注册设备2000所支持的功能名称相同或相似。在这种情况下,语音助理服务器3000可以关联地存储关于指示某些功能的名称和近义词的信息,并且基于存储的关于近义词的信息来确定预注册设备2000的功能和新设备2900的功能是否彼此相同或相似。
此外,语音助理服务器3000可以通过参考话语数据来确定功能是否彼此相同或相似。语音助理服务器3000可以使用与预注册设备2000的功能相关的话语数据来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。在这种情况下,语音助理服务器3000可以基于话语数据中包括的单词的含义来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。
语音助理服务器3000可以确定新设备2900的单一功能是否与预注册设备2000的单一功能相同或相似。单一功能可以是指诸如“电源开”、“电源关”、“升温”和“降温”的功能。语音助理服务器3000可以确定新设备2900的一组功能是否与预注册设备2000的一组功能相同或相似。一组功能可以是指一组单一功能的功能组合,例如“电源开+升温”、“降温+减湿”。
当在操作S310中确定预注册设备2000的功能和新设备2900的功能彼此相同或相似时,语音助理服务器3000可以在操作S320中获取与该相同或相似功能相关的预注册话语数据。
语音助理服务器3000可以从数据库中提取与在预注册设备2000的功能中被确定为与新设备2900的功能相同或相似的功能相对应的话语数据。
语音助理服务器3000可以从数据库中提取与在预注册设备2000的功能组中被确定为与新设备2900的功能组相同或相似的功能组相对应的话语数据。
在这种情况下,对应于预注册设备2000的功能的话语数据和对应于预注册设备2000的功能组的话语数据可以在将新设备2900安装或设置到网络之前存储在数据库中。
同时,语音助理服务器3000可以编辑被确定为相同或相似的一个功能和一组功能,并且生成与所编辑功能相对应的话语数据。语音助理服务器3000可以组合被确定为相同或相似的功能并且生成与所组合的功能相对应的话语数据。此外,语音助理服务器3000可以组合被确定为相同或相似的一个功能和一组功能,并且生成与所组合的功能相对应的话语数据。此外,语音助理服务器3000可以删除被确定为相同或相似的一组功能中的一些功能,并且生成与从中删除一些功能的一组功能相对应的话语数据。
语音助理服务器3000可以扩展话语数据。语音助理服务器3000可以通过修改提取或生成的话语数据的表达方式来从提取或生成的话语数据中生成具有相同含义但不同表达的近义话语数据。
在操作S330中,语音助理服务器3000可以基于相同或相似的功能和话语数据为新设备2900生成行动数据。行动数据可以是指示设备的详细操作和详细操作的执行顺序的数据。行动数据可以包括例如详细操作的标识值、详细操作的执行顺序、以及执行详细操作的控制命令,但不限于此。
例如,当与话语数据相对应的功能是单一功能时,语音助理服务器3000可以生成包括表示单一功能的详细操作的行动数据。在另一示例中,当与话语数据相对应的功能是一组功能时,语音助理服务器3000可以生成表示该组中的功能的详细操作以及详细操作的执行顺序。
在操作S340中,语音助理服务器3000可以使用话语数据和行动数据来生成或更新与新设备2900相关的语音助理模型。
语音助理服务器3000可以使用与新设备2900的功能相关的对应于预注册设备2000的功能的话语数据、与新设备2900的功能相关的新生成的话语数据、以及扩展的话语数据和行动数据来生成或更新与新设备2900相关的语音助理模型。语音助理服务器3000可以累积和存储与新设备2900相关的话语数据和行动数据。此外,语音助理服务器3000可以生成或更新概念行动网络(CAN),该网络是包括在行动计划管理模型中的封装类型数据库。
与新设备2900相关的语音助理模型作为用于语音助理服务的模型与新设备2900相关联,该模型确定与用户的语音输入相对应的目标设备将要执行的操作。与新设备2900相关的语音助理模型可以包括例如NLU模型、自然语言生成(NLG)模型和行动计划管理模型。与新设备2900相关的NLU模型是用于考虑到新设备2900的功能,解释用户的输入语音的AI模型,并且与新设备2900相关的NLG模型是用于考虑到新设备2900的功能,生成用于与用户进行对话的自然语言的AI模型。此外,与新设备2900相关的行动计划管理模型是用于考虑到新设备2900的功能,规划由新设备2900执行的操作信息的模型。行动计划管理模型可以基于经解释的用户发出的语音来选择将要由新设备2900执行的详细操作,并且来规划所选择的详细操作的执行顺序。行动计划管理模型可以使用计划结果来获取关于将要由新设备2900执行的详细操作的操作信息。操作信息可以是与设备将要执行的详细操作、详细操作之间的关联、以及详细操作的执行顺序有关的信息。操作信息可以包括例如由新设备2900执行以执行详细操作的功能、功能的执行顺序、执行功能所需的输入值、以及作为执行功能的结果输出的输出值。
当用于新设备2900的语音助理模型已经存在时,语音助理服务器3000可以更新语音助理模型。
语音助理服务器3000可以使用与新设备2900的功能相关的对应于预注册设备2000的功能的话语数据、与新设备2900的功能相关的新生成的话语数据、以及扩展的话语数据和行动数据来生成或更新与新设备2900相关的语音助理模型。
行动计划管理模型可以管理关于多个详细操作的信息和关于多个详细操作之间的关系的信息。多个详细操作中的每一个与另一详细操作之间的相关性可以包括关于在执行一个详细操作以执行该一个详细操作之前要执行的另一详细操作的信息。
在本公开的实施例中,行动计划管理模型可以包括CAN、指示设备的操作以及操作之间的相关性的封装类型数据库。CAN可以包括将要由设备执行以执行特定操作的功能、功能的执行顺序、执行功能所需的输入值、以及作为执行功能的结果输出的输出值,并且可以在包括指示概念和概念之间关系的知识三元组的本体图中实施。
当在操作S310中确定预注册设备2000的功能和新设备2900的功能彼此不相同或相似时,语音助理服务器3000可以在操作S350中针对与预注册设备2000的功能不同的功能请求话语数据和行动数据。语音助理服务器3000可以注册新设备2900的不同功能,并向用户输出查询消息以生成和编辑与该不同功能相关的话语数据。查询消息可以经由客户端设备1000、新设备2900或开发者的设备提供给用户。语音助理服务器3000可以从客户端设备1000、新设备2900或开发者的设备接收用户对查询消息的响应。语音助理服务器3000可以提供用于向客户端设备1000、新设备2900或开发者的设备注册新设备2900的功能的软件开发工具包(SDK)工具。此外,语音助理服务器3000可以向用户的设备2000或开发者的设备提供在新设备2900的功能中与预注册设备2000的功能不同的功能的列表。语音助理服务器3000可以向用户的设备2000或开发者的设备提供与至少一些不同功能相关的推荐的话语数据。
在操作S360中,语音助理服务器3000可以获取话语数据和行动数据。语音助理服务器3000可以使用NLU模型来解释对查询的响应。语音助理服务器3000可以使用经训练以注册功能并生成话语数据的NLU模型来解释用户的响应或开发者的响应。语音助理服务器3000可以基于解释的响应来生成与新设备2900的功能相关的话语数据。语音助理服务器3000可以使用解释的用户响应或解释的开发者的响应来生成与新设备2900的功能相关的话语数据,并且推荐话语数据。语音助理服务器3000可以选择新设备2900的一些功能并且生成与每个选择的功能相关的话语数据。此外,语音助理服务器3000可以选择新设备2900的一些功能并且生成与所选择的功能的组合相关的话语数据。此外,语音助理服务器3000可以从所生成的话语数据中生成具有相同含义但不同表达的近义话语数据。语音助理服务器3000可以使用生成的话语数据来生成行动数据。语音助理服务器3000可以识别与生成的话语数据相关的新设备2900的功能,并且确定所识别的功能的执行顺序以生成与生成的话语数据相对应的行动数据。
图4是展示了根据本公开的实施例的由服务器执行的将预注册设备的功能与新设备的功能进行比较的方法的流程图。
在操作S400中,语音助理服务器3000可以将预注册设备2000的功能与新设备2900的功能进行比较。语音助理服务器3000可以将由新设备2900支持的功能名称与由预注册设备2000支持的功能名称进行比较。在这种情况下,语音助理服务器3000可以存储关于指示某些功能的名称和近义词的信息,并且基于存储的关于近义词的信息来比较预注册设备2000的功能和新设备2900的功能。
此外,语音助理服务器3000可以参考存储在IoT云服务器4000中的话语数据来比较预注册设备2000的功能和新设备2900的功能。语音助理服务器3000可以使用与预注册设备2000的功能相关的话语数据来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。在这种情况下,语音助理服务器3000可以基于话语数据中包括的单词的含义来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。
在操作S405中,语音助理服务器3000可以确定是否存在与预注册设备2900的功能不对应的新设备2900的任何功能。语音助理服务器3000可以确定新设备2900的所有功能是否对应于预注册设备2000的至少一个功能。例如,语音助理服务器3000可以在第一设备2100的功能、第二设备2200的功能和第三设备2300的功能中识别与新设备2900的功能相对应的功能。
当新设备2900的功能名称与预注册设备2000的功能名称相同时,语音助理服务器3000可以确定预注册设备2000的功能对应于新设备2900的功能。
此外,当确定新设备2900的功能名称与预注册设备2000的功能名称相似并且预注册设备2000的功能和新设备2900的功能具有控制设备的相同效果时,语音助理服务器3000可以确定预注册设备2000的功能对应于新设备2900的功能。
在操作S405中,当确定新设备2900的功能对应于预注册设备2000的功能时,语音助理服务器3000可以执行操作S320至S340。语音助理服务器3000可以使用与和新设备2900的功能相对应的预注册设备2000的功能相关的话语数据和行动数据来生成与新设备2900的功能相关的话语数据和行动数据,并且生成或更新用于提供与新设备2900相关的语音助理服务的语音助理模型。
在操作S405中,当确定新设备2900的至少一个功能与预注册设备2000的功能不对应时,语音助理服务器3000可以在操作S410中组合预注册设备2000的功能。
语音助理服务器3000可以组合至少一个设备2000的单一功能。例如,语音助理服务器3000可以组合第一设备2100的第一功能和第一设备2100的第二功能。在另一示例中,语音助理服务器3000可以组合第一设备2100的第一功能和第二设备2200的第三功能。
语音助理服务器3000可以组合至少一个设备2000的一组功能。例如,语音助理服务器3000可以组合第一设备2100的第一组功能和第一设备2100的第二组功能。在另一示例中,语音助理服务器3000可以组合第一设备2100的第一组功能和第二设备2200的第三组功能。
语音助理服务器3000可以组合至少一个设备2000的单一功能和一组功能。例如,语音助理服务器3000可以组合第一设备2100的第一功能和第一设备2100的第一组功能。在另一示例中,语音助理服务器3000可以组合第一设备2100的第一功能和第二设备2200的第三组功能。
语音助理服务器3000可以根据与预注册设备2000的功能相对应的话语数据来组合预注册设备2000的功能。例如,语音助理服务器3000可以从数据库中提取与第一设备2100的第一功能相对应的第一话语数据和与第一设备2100的第二功能相对应的第二话语数据,并且基于第一话语数据和第二话语数据的含义来确定组合第一功能和第二功能。在另一示例中,语音助理服务器3000可以从数据库中提取与和第一设备2100的第一功能相对应的第一话语数据和与第二设备2200的第三功能相对应的第三话语数据,并且基于第一话语数据和第三话语数据的含义来确定组合第一功能和第三功能。
在操作S415中,语音助理服务器3000可以将组合的功能与新设备2900的功能进行比较。语音助理服务器3000可以将组合功能的名称与预注册设备2000所支持的功能的名称进行比较。此外,语音助理服务器3000可以参考存储在IoT云服务器4000中的话语数据来将组合的功能与新设备2900的功能进行比较。
在操作S420中,语音助理服务器3000可以确定新设备2900的任一功能是否与预注册设备2900的功能不对应。当组合功能的名称与预注册设备2000的功能名称相同时,语音助理服务器3000可以确定组合功能对应于新设备2900的功能。
当确定组合功能的名称与预注册设备2000的功能名称相似并且组合功能与新设备2900的功能具有相同目的时,语音助理服务器3000可以确定组合的功能对应于新设备2900的功能。
在操作S420中,当确定新设备2900的功能对应于预注册设备2000的功能时,语音助理服务器3000可以执行操作S320至S340。语音助理服务器3000可以使用与和新设备2900的功能相对应的预注册设备2000的功能相关的话语数据和行动数据以及与组合功能相关的话语数据和行动数据来生成与新设备2900的功能相关的话语数据和行动数据,并且生成或更新用于提供与新设备2900相关的语音助理服务的语音助理模型。
当在操作S420中确定新设备2900的功能对应于预注册设备2000的功能时,语音助理服务器3000可以删除设备2000的一些功能。
语音助理服务器3000可以删除至少一个设备2000的一些单一功能。语音助理服务器3000可以删除被确定为新设备2900不支持的设备2000的任何单一功能。
语音助理服务器3000可以删除至少一个设备2000的一组功能中的一些功能。语音助理服务器3000可以删除被确定为不被新设备2900支持的设备2000的一组功能的任一功能。
语音助理服务器3000可以删除至少一个设备2000的功能组中的一些功能组。语音助理服务器3000可以删除被确定为新设备2900不支持的设备2000的任何一组功能。
在操作S430中,语音助理服务器3000可以将删除之后剩余的设备2000的功能与新设备2900的功能进行比较。语音助理服务器3000可以将删除后的剩余功能的名称与预注册设备2000所支持的功能的名称进行比较。此外,语音助理服务器3000可以参考存储在IoT云服务器4000中的话语数据,以将删除后的剩余功能与新设备2900的功能进行比较。
在操作S435中,语音助理服务器3000可以确定新设备2900的任一功能是否与预注册设备2900的功能不对应。当删除后剩余功能的名称与预注册设备2000的功能名称相同时,语音助理服务器3000可以确定删除后的设备2000的剩余功能对应于新设备2900的功能。
此外,当确定删除后的剩余功能的名称与预注册设备2000的功能的名称相似并且删除后的剩余功能与新设备2900的功能具有相同的目的时,语音助理服务器3000可以确定删除后的剩余功能对应于新设备2900的功能。
在操作S435中,当确定新设备2900的功能对应于预注册设备2000的功能时,语音助理服务器3000可以执行操作S320至S340。语音助理服务器3000可以使用与和新设备2900的功能相对应的预注册设备2000的功能相关的话语数据和行动数据、与组合功能相关的话语数据和行动数据、以及与删除后的剩余功能相关的话语数据和行动数据来生成与新设备2900的功能相关的话语数据和行动数据,并且生成或更新用于提供与新设备2900相关的语音助理服务的语音助理模型。
在操作S435中,当确定新设备2900的任一功能不对应于预注册设备2000的功能时,语音助理服务器3000可以执行操作S350。
虽然操作S400、S410、S415、S425和S430在图4中被示出为顺序执行,但是顺序不限于此。例如,在如在操作S400中将新设备2900的功能与预注册设备2000的功能进行比较之前,预注册设备2000的功能可以如操作S410中那样组合或者如S425中那样删除一些功能以建立数据库。在这种情况下,通过使用数据库,可以在操作S400、S415和S430中将新设备2900的功能与预注册设备2000的功能、预注册设备2000的组合功能、以及在删除之后的剩余功能进行比较,并且可以确定是否新设备2900的任一功能与预注册设备2000的功能不对应。
图5A展示了根据本公开的实施例的预注册设备的功能与新设备的功能之间的比较。
参考图5A,语音助理服务器3000可以比较预注册空调A的功能、预注册除湿机A的功能和新空调B的功能。
例如,新空调B支持的功能可以包括电源开/关、制冷模式开/关、除湿模式开/关、温度设置、升温/降温、湿度设置、增湿/减湿、AI模式开/关等。此外,例如,预注册空调A支持的功能可以包括电源开/关、制冷模式开/关、温度设置、升温/降温等。此外,例如,预注册的除湿机A支持的功能可以包括电源开/关、湿度设置、增湿/减湿等。
语音助理服务器3000可以在新空调B的功能中确定“电源开/关”、“制冷模式开/关”、“温度设置”、“升温/降温”、“湿度设置”和“增湿/减湿”对应于空调A和除湿机A的功能。语音助理服务器3000可以使用与空调A的功能相关的话语数据和与除湿机A的功能相关的话语数据来确定这些功能是否彼此对应。
语音助理服务器3000可以获取与由预注册的空调A提供的每个功能相对应的话语数据“电源开/关”、“制冷模式开/关”、“温度设置”和“升温/降温”,并且获取与由预注册除湿机A提供的每个功能相对应的话语数据“电源开/关”、“湿度设置”和“增湿/减湿”。此外,语音助理服务器3000可以使用匹配的功能和获取的话语数据来生成新空调B的行动数据。
图5B展示了根据本公开的实施例的预注册设备的一组功能与新设备的功能之间的比较。
参考图5B,语音助理服务器3000可以识别预注册空调A的一组功能“制冷模式开+升温”与新空调B的“制冷模式开/关”和“升温/降温”匹配。
语音助理服务器3000可以获取与预注册的空调A的一组功能“制冷模式开+升温”相对应的话语数据“升高温度”。此外,语音助理服务器3000可以使用新空调B的功能“制冷模式开/关”和“升温/降温”以及获取的话语数据“升高温度”来生成用于执行之后是“升温”功能的“制冷模式开”的功能的行动数据。
图5C展示了根据本公开的实施例将预注册设备的功能和功能组的组合与新设备的功能进行比较。
参考图5C,语音助理服务器3000可以识别出预注册空调A的功能“电源开”与预注册空调A的一组功能“制冷模式开+降温”的组合与新空调B的“电源开/关”、“制冷模式开/关”和“升温/降温”匹配。
语音助理服务器3000可以获取与预注册的空调A的功能“电源开”相对应的话语数据“打开电源”,以及与预注册的空调A的一组功能“制冷模式开+降温”相对应的话语数据“降低温度”。此外,语音助理服务器3000可以编辑获取的话语数据。例如,语音助理服务器3000可以从话语数据“打开电源”和“降低温度”生成表示“打开空调”和“降低温度”的话语数据。
此外,语音助理服务器3000可以使用新空调B的“电源开/关”、“制冷模式开/关”和“升温/降温”的功能以及生成的话语数据“打开空调并降低温度”来执行“电源开”功能,然后执行“制冷模式开”功能,然后执行“降温”功能。
图5D展示了根据本公开的实施例的将多个预注册设备的功能和功能组的组合与新设备的功能进行比较。
参考图5D,语音助理服务器3000可以识别以下各项的组合:i)预注册空调A的功能“电源开”;ii)预注册空调A的一组功能“制冷模式开+降温”;以及iii)除湿机A的一组功能“电源开+减湿”与新空调B的“电源开/关”、“制冷模式开/关”、“升温/降温”、以及“增湿/减湿”匹配。
语音助理服务器3000可以获取:i)与预注册的空调A的功能“电源开”相对应的话语数据“打开电源”;ii)与预注册的空调A的一组功能“制冷模式开+降温”相对应的话语数据“降低温度”;以及iii)与预注册的除湿机A的一组功能“电源开+减湿”相对应的话语数据“降低湿度”。此外,语音助理服务器3000可以编辑获取的话语数据。例如,语音助理服务器3000可以从话语数据“打开电源”、“降低温度”和“降低湿度”生成表示“打开空调并降低温度和湿度”的话语数据。
此外,语音助理服务器3000可以使用新空调B的“电源开/关”、“制冷模式开/关”、“升温/降温”、“除湿模式开/关”和“增湿/减湿”的功能,并且使用生成的话语数据“打开空调并降低温度和湿度”以执行功能“电源开”,然后按特定顺序执行功能“制冷模式开”、“降温”、“除湿模式开”和“减湿”。
图5E展示了根据本公开的实施例的删除预注册设备的一些功能并将剩余功能与新设备的功能进行比较。
参考图5E,语音助理服务器3000可以从预注册的空调A的“设置温度为26度+检查温度+AI模式开”的一组功能中删除“设置温度为26度+检查温度”,并获取剩余功能“AI模式开”。此外,语音助理服务器3000可以识别以下各项的组合:i)剩余功能“AI模式开”;以及ii)预注册空调A的功能“电源开”与新空调B的“电源开/关”和“AI模式开/关”匹配。
语音助理服务器3000可以获取与预注册空调A的“电源开”的功能相对应的话语数据“打开电源”。此外,语音助理服务器3000可以从对应于预注册空调A的一组功能“设置温度为26度+检查温度+AI模式开。”的话语数据“在温度26度时打开AI功能”中提取与剩余功能“AI模式开”相对应的话语数据“打开AI功能”。此外,语音助理服务器3000可以从“打开电源”和“打开AI功能”生成表示“打开电源然后打开AI功能”的话语数据。
此外,语音助理服务器3000可以使用新空调B的“电源开/关”和“AI模式开/关”的功能和生成的话语数据“打开电源然后打开AI功能”来生成用于执行“电源开”功能然后执行“AI模式开”的功能的行动数据。
图6是展示了根据本公开的实施例的由语音助理服务器执行的生成与新设备的功能中与预注册设备的功能不同的功能相关的话语数据和行动数据的方法的流程图。
在操作S600中,语音助理服务器3000使用NLG模型来输出用于注册附加功能以及生成或编辑话语数据的查询。语音助理服务器3000可以向用户的设备2000或开发者的设备提供用于注册新设备2900的功能和生成话语数据的图形用户界面(GUI)。开发者的设备可以安装有用于注册新设备的特定SDK,并且通过SDK从语音助理服务器3000接收GUI。
语音助理服务器3000可以向用户、向用户的设备2000或开发者的设备提供引导文本或引导语音数据,以注册新设备2900的功能并生成话语数据。语音助理服务器3000可以使用被训练来注册功能并生成话语数据的NLG模型来生成用于注册附加功能并生成话语数据的查询。
此外,语音助理服务器3000可以向用户的设备2000或开发者的设备提供在新设备2900的功能中与预注册设备2000的功能不同的功能的列表。语音助理服务器3000可以向用户的设备2000或开发者的设备提供与至少一些不同功能相关的推荐的话语数据。
在操作S610中,语音助理服务器3000可以使用NLU模型来解释对查询的响应。语音助理服务器3000可以从用户的设备2000接收用户对查询的响应,或者从开发者的设备接收开发者对查询的响应。语音助理服务器3000可以使用经训练以注册功能并生成话语数据的NLU模型来解释用户的响应或开发者的响应。
此外,语音助理服务器3000可以通过为用户的设备2000提供的GUI从用户的设备2000接收用户的响应输入,或者通过为开发者的设备提供的GUI从开发者的设备接收开发者的响应输入。
在操作620中,语音助理服务器3000基于解释的响应来生成与新设备2900的功能相关的话语数据。语音助理服务器3000可以使用解释的用户响应或解释的开发者的响应来生成与新设备2900的功能相关的话语数据,并且推荐生成的话语数据。语音助理服务器3000可以选择新设备2900的一些功能并且生成与每个选择的功能相关的话语数据。此外,语音助理服务器3000可以选择新设备2900的一些功能并且生成与所选择的功能的组合相关的话语数据。
语音助理服务器3000可以使用用于基于新设备2900的功能的ID和属性来生成话语数据的NLG模型来生成与新设备2900的功能相关的话语数据。例如,语音助理服务器3000可以将表示新设备的功能的ID和属性的数据输入到NLG模型中,以用于生成话语数据并获取从NLG模型输出的话语数据,但不限于此。
语音助理服务器3000可以选择基于用户通过GUI输入的响应和开发者通过GUI输入的响应而生成的话语数据的至少一些部分。此外,语音助理服务器3000可以从所生成的话语数据中生成具有相同含义但不同表达的近义话语数据。
在操作S630中,语音助理服务器3000可以使用生成的话语数据来生成行动数据。语音助理服务器3000可以识别与生成的话语数据相关的新设备2900的功能,并且确定所识别的功能的执行顺序以生成与生成的话语数据相对应的行动数据。生成的行动数据可以匹配话语数据和近义话语数据。
图7A展示了根据本公开的实施例的来自语音助理服务器的用于生成与新设备的功能相关的话语数据和行动数据的查询输出。
参考图7A,语音助理服务器3000可以向用户的设备2000或开发者的设备提供用于接收与是空调的新设备2900的新功能相关的话语语句的查询。例如,可以从用户的设备2000或开发者的设备输出文本或查询语音“说出与自动烘干功能相关的话语语句”。
在另一示例中,语音助理服务器3000可以从用户的设备2000或开发者的设备接收从用户的设备2000或开发者的设备输入的话语语句“去除空调的异味”。
语音助理服务器3000可以将“去除空调的异味”修改为“去除空调的气味”。语音助理服务器3000可以生成与修改的话语语句“去除空调的气味”相对应的行动数据“当前操作关闭+烘干功能开”。
图7B展示了根据本公开的实施例的用于推荐话语语句以生成与新设备的功能相关的话语数据和行动数据的查询输出。
参考图7B,语音助理服务器3000可以向用户的设备2000或开发者的设备提供用于通知作为空调的新设备2900的新功能的文本或语音。例如,语音助理服务器3000可以允许从用户的设备2000或开发者的设备输出文本或语音“自动烘干功能是新功能”。此外,语音助理服务器3000可以生成与新功能、即自动烘干功能相关的推荐话语语句,并且将表示推荐的话语语句的文本或语音提供给用户的设备2000或开发者的设备。例如,语音助理服务器3000可以允许从用户的设备2000或开发者的设备输出查询“我们是否应该注册话语语句“在关闭空调时执行烘干功能?””。
此外,语音助理服务器3000可以从用户的设备2000或开发者的设备接收选择推荐话语语句的输入。
语音助理服务器3000可以生成与推荐的话语语句“在关闭空调时执行烘干功能”相对应的行动数据“检查接收到电源关输入+烘干功能开+空调电源关”
图8是展示了根据本公开的实施例的由语音助理服务器3000执行的扩展话语数据的方法的流程图。
在操作S800中,语音助理服务器3000可以通过将生成的话语数据输入到AI模型来获取与生成的话语数据相关的近义话语数据。语音助理服务器3000可以通过将生成的话语数据输入到被训练来生成与话语数据类似的话语数据的AI模型来获取从AI模型输出的近义话语数据。AI模型可以是例如用话语语句和一组近义话语数据作为学习数据来训练的模型。
例如,如图9A所示,当话语语句“去除空调的气味”被输入到AI模型中时,可以从AI模型输出近义话语数据,诸如“去除空调的异味。”、“空调很臭。”、“它闻起来发霉了。”、“去除霉味”等。输入到AI模型中的话语语句“去除空调的异味”可以被设置为代表性话语语句。可以考虑但不排他地考虑用户的使用频率、语法准确性等来设置代表性话语语句。
此外,例如,如图10A所示,当话语语句“在关闭空调时执行烘干功能”被输入AI模型中时,可以从AI模型输出近义话语数据,诸如“在您关闭空调时执行烘干功能。”、“在您关闭空调时除臭。”、“在关闭空调后除臭。”等。此外,可以将“在关闭空调时执行烘干功能”设置为代表性话语语句。替代性地,可以将从AI模型输出的近义话语数据之一“在您关闭空调时执行烘干功能”设置为代表性话语语句。可以考虑但不排他地考虑用户的使用频率、语法准确性等来设置代表性话语语句。
在操作S810中,语音助理服务器3000可以将行动数据映射到话语数据和近义话语数据。语音助理服务器3000可以将与输入到AI模型中的话语数据相对应的行动数据映射到从AI模型输出的近义话语数据。
例如,如图9B所示,代表性话语语句“去除空调的气味”和近义话语数据“去除空调的异味。”、“空调很臭。”、“它闻起来发霉了。”、“去除霉味”等可以映射到行动数据“当前操作关闭-->烘干功能开”。
此外,例如,如图10B所示,代表性话语语句“在关闭空调时执行烘干功能”和近义话语数据“去除空调的异味。”、“在您关闭空调时除臭。”、“在关闭空调后除臭。”可以映射到行动数据“检查电源关输入的接收-->烘干功能开-->空调电源关。”
图11A展示了根据本公开的实施例的话语数据。
参考图11A,话语数据可以具有文本格式。例如,代表性的话语语句“为我打开电视”和近义话语数据“请打开电视。”、“打开电视。”和“电视打开”可以是话语数据。
图11B展示了根据本公开的另一实施例的话语数据。
参考图11B,话语数据可以包括话语参数和话语语句。话语参数可以是包括意图和参数的NLU模型的输出值。例如,包含在话语数据中的话语参数可以包括意图(行动、功能或命令)“电源开”和参数(对象或设备)“电视”。进一步地,话语数据中包含的话语语句可以包括文本,诸如“为我打开电视。”、“请打开电视。”、“打开电视。”和“电视打开”。尽管在图11B中将话语数据示出为包括话语参数和话语语句,但是不限于此,并且话语数据可以仅包括话语参数。
图13是根据本公开的实施例的语音助理服务器的框图。
参考图13,语音助理服务器3000可以包括通信接口3100、处理器3200和存储装置3300。存储装置3300可以包括第一语音助理模型3310、至少一个第二语音助理模型3320、SDK接口模块3330和数据库(DB)3340。
通信接口3100进行通信以向客户端设备1000、设备2000和IoT云服务器4000发送数据和从其接收数据。例如,通信接口3100可以包括用于与客户端设备1000、设备2000和IoT云服务器4000进行有线或无线通信的一个或多个网络硬件和软件部件。
处理器3200控制语音助理服务器3000的整体操作。例如,处理器3200可以通过将存储在存储装置3300中的程序加载到语音助理服务器3000的存储器中并执行加载的程序来控制语音助理服务器3000的功能。
存储装置3300可以存储用于控制处理器3200的程序,并且存储与新设备2900的功能相关的数据。存储装置3300可以包括至少一种类型的存储介质,包括闪存、硬盘、多媒体卡微型存储器、卡型存储器(例如,安全数字(SD)或极限数字(XD)存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘。
存储在存储装置3300中的程序可以根据功能分类成多个模块,例如分类成第一语音助理模型3310、至少一个第二语音助理模型3320、SDK接口模块3330等。
第一语音助理模型3310是用于通过分析用户的语音输入来确定与用户的意图相关的目标设备的模型。第一语音助理模型3310可以包括自动语音识别(ASR)模型3311、第一NLU模型3312、第一NLG模型3313、设备确定模块3314、功能比较模块3315、话语数据获取模块3316、行动数据生成模块3317和模型更新器3318。
ASR模型3311通过执行ASR将语音信号转换为文本。ASR模型3311可以利用诸如声学模型(AM)或语言模型(LM)的预定义模型来执行将语音信号转换为计算机可读文本的ASR。当从客户端设备110接收到带有噪声的声学信号时,ASR模型3311可以通过从接收到的声学信号中消除噪声来获取语音信号并对优化的语音信号执行ASR。
第一NLU模型3312分析文本并基于分析结果确定与用户意图相关的第一意图。第一NLU模型3312可以是训练来解释文本并获取与文本相对应的第一意图的模型。意图可以是指示包含在文本中的用户的话语的意图的信息。
设备确定模型3314可以使用第一NLU模型3312来执行句法分析或语义分析以从转换后的文本确定用户的第一意图。在本公开的实施例中,设备确定模型3314可以使用第一模型3312将转换后的文本解析为词素、单词或短语的单元,并且使用解析词素、单词或短语的语言特征(例如,句法元素)来推断从解析后的文本中提取的单词的含义。设备确定模型3314可以通过将推断的单词的含义与从第一NLU模型3312提供的预定义意图进行比较来确定与单词的推断含义相对应的第一意图。设备确定模型3314可以基于第一意图确定目标设备的类型。在本公开的实施例中,设备确定模型3314可以通过使用使用第一NLU模型3312获取的第一意图来确定目标设备的类型。设备确定模型3314将解析的文本和目标设备信息提供给第二语音助理模型3320。在本公开的实施例中,设备确定模型3314可以将所确定的目标设备的标识信息(例如,设备ID)与解析的文本一起提供给第二语音助理模型3320。
第一NLG模型3313可以注册新设备2900的功能并生成用于生成或编辑话语数据的查询消息。
功能比较模块3315可以将预注册设备2000的功能与新设备2900的功能进行比较。功能比较模块3315可以确定预注册设备2000的功能是否与新设备2900的功能相同或相似。功能比较模块3315可以识别新设备2900的与预注册设备2000的功能相同或相似的任何功能。
功能比较模块3315可以从新设备2900的技术规范中识别出指示由新设备2900所支持的功能名称,并且确定识别出的名称是否与由预注册设备2000所支持的功能名称相同或相似。在这种情况下,数据库3340可以存储关于指示某些功能的名称和近义词的信息,并且基于存储的关于近义词的信息来确定预注册设备2000的功能和新设备2900的功能是否彼此相同或相似。
此外,功能比较模块3315可以通过参考存储在数据库3340中的话语数据来确定功能是否彼此相同或相似。功能比较模块3315可以使用与预注册设备2000的功能相关的话语数据来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。在这种情况下,功能比较模块3315可以使用第一NLU模型来解释话语数据,并且基于话语数据中包括的单词的含义来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。
功能比较模块3315可以确定预注册设备2000的单一功能是否与新设备2900的单一功能相同或相似。功能比较模块3315可以确定预注册设备2000的一组功能是否与新设备2900的一组功能相同或相似。
话语数据获取模块3316可以获取与新设备2900的功能相关的话语数据。话语数据获取模块3316可以从话语数据数据库3341中提取与预注册设备2000的功能中被确定为与新设备2900的功能相同或相似的功能相对应的话语数据。
话语数据获取模块3316可以从话语数据数据库3341中提取与预注册设备2000的功能组中被确定为与新设备2900的功能相同或相似的功能组相对应的话语数据。在这种情况下,与预注册设备2000的功能相对应的话语数据和与预注册设备2000的功能组相对应的话语数据可以预先存储在话语数据数据库3341中。
话语数据获取模块3316可以编辑被确定为相同或相似的功能或功能组,并且生成与编辑的功能相对应的话语数据。话语数据获取模块3316可以组合被确定为相同或相似的功能并且生成与组合的功能相对应的话语数据。此外,话语数据获取模块3316可以组合被确定为相同或相似的功能和功能组,并且生成与组合的功能相对应的话语数据。此外,话语数据获取模块3316可以删除被确定为相同或相似的功能组中的一些功能,并且生成与从中删除一些功能的功能组相对应的话语数据。
话语数据获取模块3316可以扩展话语数据。话语数据获取模块3316可以通过修改提取或生成的话语数据的表达方式来从提取或生成的话语数据中生成具有相同含义但不同表达的近义话语数据。
话语数据获取模块3316可以使用第一NLG模型3313来输出用于注册附加功能、生成或编辑话语数据的查询。话语数据获取模块3316可以向用户、向用户的设备2000或开发者的设备提供引导文本或引导语音数据,以用于注册新设备2900的功能并生成话语数据。话语数据获取模块3316可以向用户的设备2000或开发者的设备提供在新设备2900的功能中与预注册设备2000的功能不同的功能的列表。话语数据获取模块3316可以向用户的设备2000或开发者的设备提供与至少一些不同功能相关的推荐的话语数据。
话语数据获取模块3316可以使用第一NLU模型3312来解释对查询的响应。话语数据获取模块3316可以基于解释的响应来生成与新设备2900的功能相关的话语数据。话语数据获取模块3316可以使用解释的用户响应或解释的开发者的响应来生成与新设备2900的功能相关的话语数据,并且推荐生成的话语数据。话语数据获取模块3316可以选择新设备2900的一些功能并且生成与每个选择的功能相关的话语数据。话语数据获取模块3316可以选择新设备2900的一些功能并且生成与所选择的功能的组合相关的话语数据。话语数据获取模块3316可以基于新设备2900的功能的标识符和属性使用第一NLG模型3313来生成与新设备2900的功能相关的话语数据。
行动数据生成模块3317可以基于相同或相似的功能和话语数据为新设备2900生成行动数据。例如,当与话语数据相对应的功能是单一功能时,行动数据生成模块3317可以生成包括表示单一功能的详细操作的行动数据。在另一示例中,当与话语数据相对应的功能是功能组时,行动数据生成模块3317可以生成表示该组中的功能的详细操作以及详细操作的执行顺序。行动数据生成模块3317可以使用与新设备2900的新功能相关地生成的话语数据来生成行动数据。行动数据生成模块3317可以识别与话语数据相关的新设备2900的新功能,并且确定所识别的功能的执行顺序以生成与生成的话语数据相对应的行动数据。生成的行动数据可以映射到话语数据和近义话语数据
模型更新器3318可以使用话语数据和行动数据来生成或更新与新设备2900相关的第二语音助理模型3320。模型更新器3318可以使用与和预注册设备2000的功能相对应的新设备2900的功能相关的话语数据、与新设备2900的功能相关的新生成的话语数据、以及扩展的话语数据和行动数据来生成或更新与新设备2900相关的第二语音助理模型3320。模型更新器3318可以累积与新设备2900相关的话语数据和行动数据,并且将结果存储在话语数据数据库3341和行动数据数据库3342中。此外,模型更新器3318可以生成或更新CAN,其是包括在行动计划管理模型3323中的封装类型数据库。
第二语音助理模型3320是针对特定设备的,并且可以确定将要由与用户的语音输入相对应的目标设备执行的操作。第二语音助理模型3320可以包括第二NLU模型3321、第二NLG模型3322和行动计划管理模型3323。语音助理服务器3000可以包括用于每个设备类型的第二语音助理模型3320。
第二NLU模型3321是针对特定设备的NLU模型,以用于分析文本并基于分析结果来确定与用户的意图相关的第二意图。第二NLU模型3321可以考虑到设备的功能来解释用户的输入语音。第二NLU模型3321可以是训练来解释文本并获取与文本相对应的第二意图的模型。
第二NLG模型3322可以是针对特定设备的NLG模型,以用于生成向用户提供语音助理服务所需的查询消息。第二NLU模型3322可以考虑到设备的特定功能生成用于与用户对话的自然语言。
行动计划管理模型3323是针对特定设备的模型,该设备用于与用户的语音输入相对应地确定将要由目标设备执行的操作。行动计划管理模型3323可以考虑到新设备2900的特定功能来规划将要由新设备2900执行的操作信息。
行动计划管理模型3323可以基于经解释的用户发出的语音来选择将要由新设备2900执行的详细操作,并且规划所选择的详细操作的执行顺序。行动计划管理模型3323可以使用计划结果获取关于要由新设备2900执行的详细操作的操作信息。操作信息可以是与设备将要执行的详细操作、详细操作之间的关联、以及详细操作的执行顺序有关的信息。操作信息可以包括例如由新设备2900执行以执行详细操作的功能、功能的执行顺序、执行功能所需的输入值、以及作为执行功能的结果输出的输出值。
行动计划管理模型3323可以管理关于多个详细操作的信息和关于多个详细操作之间的关系的信息。多个详细操作中的每一个与另一详细操作之间的相关性可以包括关于在执行一个详细操作以执行该一个详细操作之前要执行的另一详细操作的信息。
行动计划管理模型3323可以包括CAN、指示设备的操作以及操作之间的相关性的封装格式的数据库。CAN可以包括将要由设备执行以执行特定操作的功能、功能的执行顺序、执行功能所需的输入值、以及作为执行功能的结果输出的输出值,并且可以在包括指示概念以及概念之间的关系的知识三元组的本体图中实施。
SDK接口模块3330可以通过通信接口3100向客户端设备1000或开发者的设备发送数据或从其接收数据。客户端设备1000或开发者的设备其中可以安装有用于注册新设备的特定SDK,并且通过SDK从语音助理服务器3000接收GUI。处理器3200可以通过SDK接口模块3330向用户的设备2000或开发者的设备提供用于注册新设备2900的功能并生成话语数据的GUI。处理器3200可以通过SDK接口模块3330从用户的设备2000接收通过为用户的设备2000提供的GUI输入的用户的响应,或者通过SDK接口模块3330从开发者的设备接收通过为开发者的设备提供的GUI输入的开发者的响应。SDK接口模块3330可以通过通信接口3100向IoT云服务器4000发送数据或从其接收数据。
数据库3340可以存储语音助理服务的各种信息。数据库3340可以包括话语数据数据库3341和行动数据数据库3342。
话语数据数据库3341可以存储与客户端设备1000、设备2000和新设备2900的功能相关的话语数据。
行动数据数据库3342可以存储与客户端设备1000、设备2000和新设备2900的功能相关的行动数据。存储在话语数据数据库中的话语数据和存储在行动数据数据库3342中的行动数据可以相互映射。
图14是根据本公开的另一实施例的语音助理服务器的框图。
参考图14,语音助理服务器3000可以包括第二语音助理模型3320。在这种情况下,第二语音助理模型3320可以包括多个第二NLU模型3324、3325和3326。多个第二NLU模型3324、3325和3326可以是专用于各种类型的设备中的每一个的NLU模型。
图15是展示了根据本公开的实施例的行动计划管理模型的概念图。
参考图15,行动计划基站3323可以包括扬声器CAN 212、移动CAN 214和电视CAN216。
扬声器CAN 212可以包括关于扬声器控制、媒体播放、天气和电视控制的详细操作的信息,并且可以包括以封装格式存储与每个详细操作相对应的概念的行动计划。
移动CAN 214可以包括关于社交网络服务(SNS)、移动控制、地图和提问与回答(Q&A)的详细操作的信息,并且可以包括以封装格式存储与每个详细操作相对应的概念的行动计划。
TV CAN 216可以包括关于购物、媒体播放、教育和电视播放的详细操作的信息,并且可以包括以封装格式存储与每个详细操作相对应的概念的行动计划。在本公开的实施例中,包括在扬声器CAN 212、移动CAN 214和TV CAN 216中的每一个中的多个封装可以存储在功能注册表中,该功能注册表是行动计划管理模型3323中的组成元素。
在本公开的实施例中,在语音助理服务器3000确定与通过利用第二NLU模型解释从语音输入转换的文本而确定的第二意图和参数相对应的详细操作时,行动计划管理模型3323可以包括策略注册表。策略注册表可以包括用于在多个行动计划与文本相关时确定行动计划的参考信息。在本公开的实施例中,行动计划管理模型3323可以包括后续注册表,在该注册表中存储关于后续操作的信息,以在指定情况下向用户建议后续操作。后续操作可以包括例如后续话语。
在本公开的实施例中,行动计划管理模型3323可以包括布局注册表,其中存储由目标设备输出的布局信息。
在本公开的实施例中,行动计划管理模型3323可以包括词汇注册表,其中存储包括在封装信息中的词汇信息。在本公开的实施例中,行动计划管理模型3323可以包括对话注册表,其中存储关于与用户的对话或交互的信息。
图16展示了根据本公开的实施例的存储在行动计划管理模型中的封装数据库。
参考图16,封装数据库存储详细操作和关于与详细操作相对应的概念的关联信息。封装数据库可以以CAN的形式实施。封装数据库可以存储多个封装230、240和250。封装数据库可以存储用于执行与用户的语音输入相关的操作的详细操作、详细操作所需的输入参数、以及以CAN形式输出的结果值。
封装数据库可以存储与每个设备的操作有关的信息。在本公开的实施例中,如图16所示,封装设备可以存储与由特定设备(例如,TV)执行的操作相关的多个封装230、240和250。在本公开的实施例中,封装(例如封装A 230)可以对应于应用。封装可以包括至少一个详细操作和用于执行指定功能的至少一个概念。例如,封装A 230可以包括详细操作231a和与详细操作231a相对应的概念231b,并且封装B 240可以包括多个详细操作241a、242a和243a以及分别对应于详细操作241a、242a和243a的多个概念241b,242b和243b。
行动计划管理模型210可以使用存储在封装数据库中的封装来生成用于执行与用户的语音输入相关的操作的行动计划。例如,行动计划管理模型210可以使用存储在封装数据库中的封装来生成行动计划。例如,行动计划管理模型210可以通过使用封装A 230的详细操作231a和概念231b、封装B240的多个详细操作241a、242a和243a以及多个概念241b、242b和243b中的一些(即操作241a和241b以及概念241b和243b)以及封装C 250的详细操作251a和概念251b来生成与和将要由设备执行的操作相关的行动计划260。当然,可以从封装(230、240、250)的操作和概念当中选择操作和概念的任何组合来生成行动计划260。
图17是根据本公开的实施例的IoT云服务器的框图。
参考图17,IoT云服务器4000可以包括通信接口4100、处理器4200和存储装置4300。存储装置4300可以包括SDK接口模块4310、功能比较模块4320、设备注册模块4330和数据库4340。数据库4340可以包括设备功能数据库4341和行动数据数据库4342。
通信接口4100与客户端设备1000、设备2000和语音助理服务器3000进行通信。通信接口4100可以包括用于与客户端设备1000、设备2000和语音助理服务器3000进行有线或无线通信的一个或多个网络硬件和软件部件。
处理器4200控制IoT云服务器4000的整体操作。例如,处理器4200可以通过将存储在存储装置4300中的程序加载到存储器中并执行加载到存储器中的程序来控制IoT云服务器4000的功能。
存储装置4300可以存储提供对处理器4200的控制的程序,并且存储与设备2000的功能相关的数据。存储装置4300可以包括至少一种类型的存储介质,包括闪存、硬盘、多媒体卡微型存储器、卡型存储器(例如,SD或XD存储器)、RAM、SRAM、ROM、EEPROM、PROM、磁存储器、磁盘和光盘。
存储在存储装置4300中的程序可以根据功能分为多个模块,例如SDK接口模块4310、功能比较模块4320、设备注册模块4330等。
SDK接口模块4310可以通过通信接口4100向语音助理服务器3000发送数据或从其接收数据。处理器4200可以通过SDK接口模块4310向语音助理服务器3000提供设备2000的功能信息。
当IoT云服务器4000中包括功能比较模块4320时,根据客户端-服务器或基于云的模型,功能比较模块4320可以用作语音助理服务器3000的前述功能比较模型3315。
在这种情况下,功能比较模块4320可以将预注册设备2000的功能与新设备2900的功能进行比较。功能比较模块4320可以确定预注册设备2000的功能是否与新设备2900的功能相同或相似。功能比较模块4320可以识别新设备2900的与预注册设备2000的功能相同或相似的任何功能。
功能比较模块4320可以从新设备2900的技术规范中识别出指示由新设备2900所支持的功能名称,并且确定识别出的名称是否与由预注册设备2000所支持的功能名称相同或相似。在这种情况下,数据库4340可以存储关于指示某些功能的名称和近义词的信息,并且基于存储的关于近义词的信息来确定预注册设备2000的功能和新设备2900的功能是否彼此相同或相似。
此外,功能比较模块4320可以通过参考存储在数据库4340中的话语数据来确定功能是否彼此相同或相似。功能比较模块3315可以使用与预注册设备2000的功能相关的话语数据来确定新设备2900的功能是否与预注册设备2000的功能相同或相似。功能比较模块4320可以确定预注册设备2000的单一功能是否与新设备2900的单一功能相同或相似。功能比较模块4320可以确定预注册设备2000的一组功能是否与新设备2900的一组功能相同或相似。
设备注册模块4330可以为语音助理服务注册设备。当识别出新设备2900时,设备注册模块4330可以从语音助理服务器3000接收关于新设备2900的功能的信息,并且将接收的信息注册到数据库4330中。关于新设备2900的功能的信息可以包括例如新设备2900支持的功能、与功能相关的行动数据等,但不限于此。
数据库4340可以存储语音助理服务所需的设备信息。数据库4340可以包括设备功能数据库4341和行动数据数据库4342。设备行动数据数据库4340可以存储客户端设备1000、设备2000和新设备2900的功能信息。功能信息可以包括关于设备功能的ID值以及功能的名称和属性的信息,但不限于此。行动数据数据库4342可以存储与客户端设备1000、设备2000和新设备2900的功能相关的行动数据。
图18是根据本公开的实施例的客户端设备的框图。
参考图18,在本公开的实施例中,客户端设备1000可以包括输入模块1100、输出模块1200、处理器1300、存储器1400和通信接口1500。存储器1400可以包括SDK模块1420。
设备2000可以作为客户端设备1000运行,或者新设备2900可以在预注册之后作为客户端设备1000运行。设备2000或新设备2900也可以包括如图18所示的部件。
输入模块1100是指允许用户输入数据以控制客户端设备1000的硬件和/或软件。例如,输入模块1100可以包括小键盘、弹片开关、(电容式、电阻式、红外检测类型、表面声波类型、积分应变计类型、压电效应类型)触摸板、滚轮、滚轮开关、显示在显示器上的图形用户界面(GUI)、由音频提供给用户的音频用户界面等,但不限于此。
输入模块1100可以接收用户输入以注册新设备2900。
输出模块1200可以输出音频信号、视频信号或振动信号,并且输出模块1210可以包括显示器、声音输出或振动马达中的至少一个。输入模块1100和输出模块1200可以组合成输入/输出接口,诸如用于接收用户输入并向用户显示输出信息的触摸屏显示器。当然,可以提供软件和硬件部件的任何组合来执行客户端设备1000和用户之间的输入/输出功能。
处理器1300控制客户端设备1000的整体操作。例如,处理器1300可以执行从存储器1400加载的程序,以总体上控制用户输入模块1100、输出模块1200、存储器1400、以及通信接口1500。
处理器1300可以向用户请求输入以注册新设备2900的功能。处理器1300可以通过控制SDK模块1420来执行向语音助理服务器300注册新设备2900的操作。
处理器1300可以从语音助理服务器3000接收用于生成和编辑与新设备2900的功能相关的话语数据的查询消息并输出该查询消息。处理器1300可以向用户提供新设备2900的功能当中与预注册设备1300的功能不同的功能的列表。处理器1300可以经由输出模块1200向用户提供与新设备2900的至少一些功能相关的推荐的话语数据。
处理器1300可以经由输入模块1100接收用户对查询消息的响应。处理器1300可以向语音助理服务器3000提供用于生成与新设备2900的功能相关的话语数据和行动数据的用户的响应。
通信接口1500可以包括允许与语音助理服务器3000、IoT云服务器4000、设备2000和新设备2900进行通信的一个或多个硬件和/或软件通信部件。例如,通信接口1500可以包括短程通信模块(红外、WiFi等)、移动通信模块(4G、5G等)和广播接收器。
短程通信模块可以包括蓝牙通信模块、蓝牙低功耗(BLE)通信模块、NFC模块、无线LAN(WLAN)(例如Wi-Fi)、通信模块、Zigbee通信模块、IrDA通信模块、WFD通信模块、UWB通信模块、Ant+通信模块等,但不限于此。
移动通信模块在移动通信网络中将RF信号发射到以下各者中的至少一者或者从以下各者中的至少一者接收RF信号:基站、外部终端或服务器。RF信号可以包括语音呼叫信号、视频呼叫信号或涉及文本/多媒体消息的发送/接收的不同类型的数据。
广播接收器在广播信道上从外侧接收广播信号和/或广播相关信息。广播信道可以包括卫星信道或地面信道。根据实施方式,客户端设备1000可以不包括广播接收器。
存储器1400可以存储用于处理器1300的处理和控制的程序,并且存储输入到设备1000或从设备输出的数据。
存储装置1400可以包括至少一种类型的存储介质,包括闪存、硬盘、多媒体卡微型存储器、卡型存储器(例如,SD或XD存储器)、RAM、SRAM、ROM、EEPROM、PROM、磁存储器、磁盘和光盘。
存储在存储器1400中的程序可以根据功能被分类为多个模块,例如SDK模块1420、UI模块、触摸屏模块、通知模块等。
可以由处理器1300执行SDK模块1420以执行注册新设备2900所需的操作。可以从语音助理服务器300下载SDK模块1420并安装在客户端设备1000中。SDK模块1420可以在客户端设备1000的屏幕上输出用于注册新设备2900的GUI。当客户端设备1000不包括任何显示模块时,SDK模块1420可以允许客户端设备1000输出用于注册新设备2900的语音消息。SDK模块1420可以允许客户端设备1000接收来自用户的响应并将响应提供给语音助理服务器3000。
本公开的实施例可以以包括计算机可执行指令(诸如由计算机执行的程序模块)的计算机可读记录介质的形式来实施。计算机可读记录介质可以是计算机可以访问的任意可用介质,包括易失性介质、非易失性介质、可移动介质和不可移动介质。计算机可读记录介质还可以包括计算机存储介质和通信介质。易失性、非易失性、可移动和不可移动介质可以通过用于存储信息的任意方法或技术来实施,诸如计算机可读指令、数据结构、程序模块或其他数据。通信介质可以包括经调制数据信号的其他数据,诸如计算机可读指令、数据结构或程序模块。
在说明书中,术语“模块”可以是指诸如处理器或电路系统的硬件部件和/或由诸如处理器的硬件部件执行的软件部件。
上文已经描述了本公开的若干实施例,但是本领域普通技术人员将理解和明白,在不脱离本公开的范围的情况下,可以进行各种修改。因此,对于本领域普通技术人员显而易见的是,本公开不限于所描述的本公开的实施例,而是可以不仅包括所附权利要求而且包括等效物。例如,以单数形式描述的元素可以被实施为分布式,并且以分布式形式描述的元素可以被实施为组合。
本公开的范围由所附权利要求限定,并且本领域的普通技术人员应当理解,在不脱离如由所附权利要求书及其等效物限定的本公开的精神和范围的情况下,可以进行各种形式和细节的改变。
Claims (15)
1.一种由服务器执行的注册用于语音助理服务的新设备的方法,所述方法包括:
获取指示预注册设备的第一功能的第一技术规范和指示所述新设备的第二功能的第二技术规范;
基于所述第一技术规范和所述第二技术规范来将所述预注册设备的所述第一功能与所述新设备的所述第二功能进行比较;
基于所述比较来将与所述新设备的所述第二功能匹配的所述预注册设备的所述第一功能识别为匹配功能;
获取与所述匹配功能相关的预注册话语数据;
基于所述匹配功能和所述预注册话语数据为所述新设备生成行动数据;以及
存储与所述新设备相关联的所述预注册话语数据和所述行动数据,
其中所述行动数据包括与对应于所述预注册话语数据的所述新设备的一系列详细操作相关的数据。
2.如权利要求1所述的方法,其中,所述匹配功能在所述预注册设备的所述第一功能与所述新设备的所述第二功能之中具有相同或相似的目的。
3.如权利要求1所述的方法,其中,所述比较包括通过将所述预注册设备的所述第一功能与所述新设备的所述第二功能进行比较来识别与所述新设备的所述第二功能的组合相对应的所述预注册设备的所述第一功能的组合。
4.如权利要求3所述的方法,其中,所述预注册设备包括多个预注册设备,并且
其中,所述比较包括将所述多个预注册设备的功能的组合与所述新设备的所述第二功能的组合进行比较。
5.如权利要求1所述的方法,其中,所述比较包括删除所述预注册设备的一组功能中的功能,并且将所述删除后的剩余功能与所述新设备的所述第二功能进行比较。
6.如权利要求1所述的方法,其中,所述预注册话语数据的所述获取包括:
从数据库中提取与所述匹配功能相对应的话语数据;以及
编辑所述话语数据。
7.如权利要求1所述的方法,还包括:
从所述预注册设备的所述第一功能中识别不同于所述新设备的所述第二功能的不同功能;以及
向客户端设备提供所述不同功能的列表。
8.如权利要求7所述的方法,其中,提供给所述客户端设备的所述不同功能的所述列表由安装在所述客户端设备中的软件开发工具包SDK模块使用,以生成对应于所述不同功能的话语数据。
9.如权利要求1所述的方法,其中,所述预注册话语数据和所述行动数据用于生成或更新特定于所述新设备的语音助理模型。
10.如权利要求1所述的方法,其中,所述预注册话语数据和所述行动数据用于生成或更新本体图,所述本体图包括表示所述新设备的操作和所述操作之间的关系的知识三元组。
11.一种用于注册用于语音助理服务的新设备的服务器,所述服务器包括:
通信接口;
存储器,所述存储器存储程序,所述程序包括一个或多个指令;以及
处理器,所述处理器被配置为执行存储在所述存储器中的所述程序的所述一个或多个指令以控制所述服务器执行如下步骤:
获取指示预注册设备的第一功能的第一技术规范和指示所述新设备的第二功能的第二技术规范,
基于所述第一技术规范和所述第二技术规范来将所述预注册设备的所述第一功能与所述新设备的所述第二功能进行比较,
将与所述新设备的所述第二功能匹配的所述预注册设备的所述第一功能识别为匹配功能,
获取与所述匹配功能相关的预注册话语数据,
基于所述匹配功能和所述预注册话语数据为所述新设备生成行动数据,以及
将与所述新设备相关联的所述预注册话语数据和所述行动数据存储在数据库中,
其中所述行动数据包括与对应于所述预注册话语数据的所述新设备的一系列详细操作相关的数据。
12.如权利要求11所述的服务器,其中,所述匹配功能在所述预注册设备的所述第一功能与所述新设备的所述第二功能中具有相同或相似的目的。
13.如权利要求11所述的服务器,其中,执行所述一个或多个指令的所述处理器被进一步配置为控制所述服务器,通过将所述预注册设备的所述第一功能与所述新设备的所述第二功能进行比较来识别与所述新设备的所述第二功能的组合相对应的所述预注册设备的所述第一功能的组合。
14.如权利要求13所述的服务器,其中,所述预注册设备包括多个预注册设备,并且
其中,执行所述一个或多个指令的所述处理器被进一步配置为控制所述服务器,将所述多个预注册设备的组合与所述新设备的所述第二功能的组合进行比较。
15.一种计算机可读记录介质,具有记录在其上的程序,使得计算机执行如权利要求1所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962879638P | 2019-07-29 | 2019-07-29 | |
US62/879,638 | 2019-07-29 | ||
KR1020190125679A KR20210014053A (ko) | 2019-07-29 | 2019-10-10 | 보이스 어시스턴트 서비스를 위한 디바이스를 등록하는 시스템 및 방법 |
KR10-2019-0125679 | 2019-10-10 | ||
PCT/KR2020/009993 WO2021020877A1 (en) | 2019-07-29 | 2020-07-29 | System and method for registering device for voice assistant service |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114270361A true CN114270361A (zh) | 2022-04-01 |
Family
ID=74228729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080053916.7A Pending CN114270361A (zh) | 2019-07-29 | 2020-07-29 | 用于注册用于语音助理服务的设备的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11695809B2 (zh) |
EP (2) | EP3977445B1 (zh) |
CN (1) | CN114270361A (zh) |
WO (1) | WO2021020877A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI820985B (zh) * | 2022-10-28 | 2023-11-01 | 犀動智能科技股份有限公司 | 物聯網設備整合控制系統及物聯網設備整合控制方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312253A (zh) * | 2018-12-11 | 2020-06-19 | 青岛海尔洗衣机有限公司 | 语音控制方法、云端服务器及终端设备 |
US11223530B2 (en) * | 2019-09-06 | 2022-01-11 | International Business Machines Corporation | Natural language processing in modeling of network device configurations |
US11930230B2 (en) * | 2019-11-01 | 2024-03-12 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system |
KR20210064594A (ko) * | 2019-11-26 | 2021-06-03 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
EP4181120A4 (en) * | 2020-11-25 | 2024-01-10 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE FOR GENERATING A RESPONSE TO A USER INPUTION AND OPERATING METHOD THEREFOR |
US20220269734A1 (en) * | 2021-02-19 | 2022-08-25 | Zebra Technologies Corporation | Intelligent natural language dialogue systems and methods for creating intelligent natural language dialogues for efficient retrieval of items in one or more large databases |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001197379A (ja) | 2000-01-05 | 2001-07-19 | Matsushita Electric Ind Co Ltd | 機器設定装置、機器設定システムおよび機器設定処理プログラムを記録した記録媒体 |
US20030210770A1 (en) * | 2002-05-10 | 2003-11-13 | Brian Krejcarek | Method and apparatus for peer-to-peer voice communication using voice recognition and proper noun identification |
KR100493895B1 (ko) * | 2003-04-17 | 2005-06-10 | 삼성전자주식회사 | 협업 서비스를 위한 홈 네트워크 시스템 및 방법 |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US7953598B2 (en) * | 2007-12-17 | 2011-05-31 | Verizon Patent And Licensing Inc. | Grammar weighting voice recognition information |
US8407057B2 (en) * | 2009-01-21 | 2013-03-26 | Nuance Communications, Inc. | Machine, system and method for user-guided teaching and modifying of voice commands and actions executed by a conversational learning system |
US9213698B1 (en) * | 2011-02-02 | 2015-12-15 | Comindware Ltd. | Unified data architecture for business process management and data modeling |
US9368107B2 (en) * | 2011-04-20 | 2016-06-14 | Nuance Communications, Inc. | Permitting automated speech command discovery via manual event to command mapping |
EP2747077A4 (en) * | 2011-08-19 | 2015-05-20 | Asahi Chemical Ind | VOICE RECOGNITION SYSTEM, RECOGNITION DICTIONARY LOGIC SYSTEM, AND AUDIO MODEL IDENTIFIER SERIES GENERATION DEVICE |
US9443527B1 (en) | 2013-09-27 | 2016-09-13 | Amazon Technologies, Inc. | Speech recognition capability generation and control |
KR102188090B1 (ko) | 2013-12-11 | 2020-12-04 | 엘지전자 주식회사 | 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템 |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
EP3111738B1 (en) * | 2015-07-01 | 2018-09-19 | Kverneland Group Mechatronics BV | Method for controlling operation of an agricultural machine and system |
KR20170049817A (ko) | 2015-10-29 | 2017-05-11 | 주식회사 엘지유플러스 | 홈 네트워크에서 음성 인식을 위한 음성 인식 디바이스 및 그 동작 방법 |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10839795B2 (en) * | 2017-02-15 | 2020-11-17 | Amazon Technologies, Inc. | Implicit target selection for multiple audio playback devices in an environment |
US11183181B2 (en) * | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10572107B1 (en) * | 2017-06-23 | 2020-02-25 | Amazon Technologies, Inc. | Voice communication targeting user interface |
US10546583B2 (en) | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
WO2019128541A1 (en) * | 2017-12-31 | 2019-07-04 | Midea Group Co., Ltd. | Method and system for controlling multiple home devices |
KR102483834B1 (ko) * | 2018-01-17 | 2023-01-03 | 삼성전자주식회사 | 음성 명령을 이용한 사용자 인증 방법 및 전자 장치 |
US10623246B1 (en) * | 2018-03-27 | 2020-04-14 | Amazon Technologies, Inc. | Device configuration by natural language processing system |
KR102228549B1 (ko) * | 2019-06-11 | 2021-03-16 | 엘지전자 주식회사 | 음성 인에이블 디바이스 선택 방법, 음성 인에이블 디바이스 선택 장치 및 이를 제어하는 지능형 컴퓨팅 디바이스 |
US11508365B2 (en) * | 2019-08-19 | 2022-11-22 | Voicify, LLC | Development of voice and other interaction applications |
-
2020
- 2020-07-29 EP EP20847632.5A patent/EP3977445B1/en active Active
- 2020-07-29 CN CN202080053916.7A patent/CN114270361A/zh active Pending
- 2020-07-29 WO PCT/KR2020/009993 patent/WO2021020877A1/en unknown
- 2020-07-29 US US16/942,251 patent/US11695809B2/en active Active
- 2020-07-29 EP EP23167998.6A patent/EP4220631B1/en active Active
-
2023
- 2023-05-05 US US18/313,076 patent/US11979437B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI820985B (zh) * | 2022-10-28 | 2023-11-01 | 犀動智能科技股份有限公司 | 物聯網設備整合控制系統及物聯網設備整合控制方法 |
Also Published As
Publication number | Publication date |
---|---|
EP4220631A1 (en) | 2023-08-02 |
US20210037067A1 (en) | 2021-02-04 |
WO2021020877A1 (en) | 2021-02-04 |
EP3977445A1 (en) | 2022-04-06 |
EP3977445A4 (en) | 2022-08-24 |
EP4220631C0 (en) | 2024-02-28 |
US20230275937A1 (en) | 2023-08-31 |
US11979437B2 (en) | 2024-05-07 |
EP4220631B1 (en) | 2024-02-28 |
EP3977445B1 (en) | 2023-06-07 |
US11695809B2 (en) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3977445B1 (en) | System and method for registering device for voice assistant service | |
US11580964B2 (en) | Electronic apparatus and control method thereof | |
US20200349940A1 (en) | Server for determining target device based on speech input of user and controlling target device, and operation method of the server | |
KR102429436B1 (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
US11393459B2 (en) | Method and apparatus for recognizing a voice | |
US20190318737A1 (en) | Dynamic gazetteers for personalized entity recognition | |
US11721343B2 (en) | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same | |
US20220293102A1 (en) | Electronic apparatus and control method thereof | |
US11468892B2 (en) | Electronic apparatus and method for controlling electronic apparatus | |
US11521619B2 (en) | System and method for modifying speech recognition result | |
US20240129567A1 (en) | Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system | |
US11705110B2 (en) | Electronic device and controlling the electronic device | |
KR20210014053A (ko) | 보이스 어시스턴트 서비스를 위한 디바이스를 등록하는 시스템 및 방법 | |
US20210241771A1 (en) | Electronic device and method for controlling the electronic device thereof | |
KR20200127823A (ko) | 허브 디바이스, 허브 디바이스 및 복수의 디바이스를 포함하는 멀티 디바이스 시스템 및 그 동작 방법 | |
US11893996B1 (en) | Supplemental content output | |
US11769503B2 (en) | Electronic device and method for processing user utterance in the electronic device | |
US20220138427A1 (en) | System and method for providing voice assistant service regarding text including anaphora | |
EP4075296A1 (en) | Electronic device and controlling method of electronic device | |
US20240112676A1 (en) | Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof | |
KR20240020141A (ko) | 언어 모델에 기초하여 사용자 발화를 처리하는 방법 및 전자 장치 | |
KR20210053150A (ko) | 허브 디바이스, 허브 디바이스 및 복수의 디바이스를 포함하는 멀티 디바이스 시스템 및 그 동작 방법 | |
KR20220106406A (ko) | 전자 장치 및 전자 장치의 제어 방법 | |
KR20220117553A (ko) | 전자 장치 및 전자 장치의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |