CN110288987B - 用于处理声音数据的系统和控制该系统的方法 - Google Patents

用于处理声音数据的系统和控制该系统的方法 Download PDF

Info

Publication number
CN110288987B
CN110288987B CN201910144585.7A CN201910144585A CN110288987B CN 110288987 B CN110288987 B CN 110288987B CN 201910144585 A CN201910144585 A CN 201910144585A CN 110288987 B CN110288987 B CN 110288987B
Authority
CN
China
Prior art keywords
module
user
information
processor
user terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910144585.7A
Other languages
English (en)
Other versions
CN110288987A (zh
Inventor
金兑九
朴相勇
朴正煜
鲁大日
张东镐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN110288987A publication Critical patent/CN110288987A/zh
Application granted granted Critical
Publication of CN110288987B publication Critical patent/CN110288987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

提供了一种系统、用户终端以及系统的方法。该系统包括:通信接口;至少一个处理器,所述至少一个处理器可操作地耦接到所述通信接口;以及至少一个存储器,所述至少一个存储器可操作地耦接到所述至少一个处理器,其中,所述至少一个存储器被配置为存储指令,所述指令被配置为使所述至少一个处理器通过所述通信接口从第一外部装置接收声音数据,使用至少一些自动语音识别模块来从所述声音数据获得语音信号和噪声信号,将所述语音信号转换为文本数据,基于至少一些所述噪声信号来确定噪声模式,以及当所述存储器工作时使用所述文本数据和所述噪声模式来确定所述声音数据的域。

Description

用于处理声音数据的系统和控制该系统的方法
技术领域
本公开一般涉及用于处理包括用户的语音或噪声的声音数据的系统和控制该系统的方法,更具体地,涉及一种用于当执行与接收到的语音的内容相对应的功能时,使用关于接收到语音的环境的信息来向用户提供功能的系统。
背景技术
除了使用键盘或鼠标的现有输入方法之外,近来的电子装置可以支持各种输入方法,例如语音输入。例如,诸如智能手机或平板电脑的电子装置可以在已经执行语音识别服务的状态下识别用户输入的语音,并且可以执行对应于语音输入的操作或者提供对应于语音输入的搜索结果。
近来,基于处理自然语言的技术开发了语音识别服务。处理自然语言的技术是一种用于识别用户语音意图并向用户提供适合该意图的结果的技术。
此外,人工智能系统被用作处理自然语言的技术之一。与现有的基于规则的智能系统不同,人工智能系统是一种机器自主进行训练、做出决定并提高智能的系统。人工智能系统可以获得更高的识别率,并且随着系统使用得更多,可以更准确地理解用户的喜好。因此,现有的基于规则的智能系统逐渐被基于深度学习的人工智能系统所取代。
人工智能技术包括机器学习(例如,深度学习)和使用机器学习的元件技术。
机器学习是一种自动识别/训练输入数据特性的算法技术。元件技术是利用机器学习算法(诸如,深度学习)的模拟功能(诸如,人脑的识别和确定)的技术,包括语言理解、视觉理解、推理/预测、知识表达和操作控制等技术领域。
应用人工智能技术的各个领域如下。语言理解是一种用于识别、应用和处理人类语言/字母的技术,包括自然语言处理、机器翻译、对话系统、问答和语音识别/合成。视觉理解是一种识别和处理诸如人的观点之类的事物的技术,包括目标识别、目标跟踪、图像搜索、人物识别、场景理解、空间理解和图像增强。推理预测是一种用于确定、逻辑推断和预测信息的技术,包括基于知识/概率的推理、优化预测、基于偏好的计划和推荐。知识表达是将人类的经验信息作为知识数据进行自动化和处理的技术,包括知识构建(例如,数据生成/分类)和知识管理(例如,数据利用)。操作控制是用于控制车辆的自动驾驶和机器人的运动的技术,并且包括运动控制(例如,导航、碰撞和驾驶)和操纵控制(例如,行为控制)。
在诸如语音识别功能的智能服务中,当接收到语音并且通过识别接收到的语音的内容来执行功能时,可以在不考虑接收到语音的情况下执行该功能。
发明内容
当执行与接收到的语音的内容相对应的功能时,本公开使用关于接收到语音的环境的信息向用户提供功能。
根据本公开的一个方面,提供了一种系统。所述系统包括:通信接口;至少一个处理器,所述至少一个处理器可操作地耦接到所述通信接口;以及至少一个存储器,所述至少一个存储器可操作地耦接到所述至少一个处理器,其中,所述至少一个存储器被配置为存储指令,所述指令被配置为使所述至少一个处理器通过所述通信接口从第一外部装置接收声音数据,使用至少一些自动语音识别模块来从所述声音数据获得语音信号和噪声信号,将所述语音信号转换为文本数据,基于至少一些所述噪声信号来确定噪声模式,以及当所述存储器工作时使用所述文本数据和所述噪声模式来确定所述声音数据的域。
根据本公开的另一方面,提供了一种用户终端。所述用户终端包括:输入模块、存储器以及处理器,其中所述存储器被配置为存储指令,所述指令被配置为使所述处理器通过将包括通过所述输入模块接收到的语音信号和环境声音信号的音频数据应用于使用人工智能算法训练过的训练模型,来生成通过估计所述音频数据的内容而获得的路径规则,其中,所述训练模型被配置为使用从所述环境声音信号获得的所述环境声音信号的模式来生成所述路径规则,并且其中,所述训练模型被配置为通过对使用所述音频数据、所述音频数据的内容、所述音频数据的特性和对应于所述音频数据的路径规则中的至少一个作为训练数据而训练的所述音频数据的内容进行估计,来生成所述路径规则。
根据本公开的另一方面,提供了一种系统的方法。所述方法包括:从第一外部装置接收声音数据;从所述声音数据获得语音信号和噪声信号;将所述语音信号转换为文本数据;基于至少一些所述噪声信号来确定噪声模式;以及使用所述文本数据和所述噪声模式来确定所述声音数据的域。
根据本公开的另一方面,提供了一种用户终端的方法。所述方法包括:接收包括语音和环境声音的音频数据;以及在通过将所述音频数据应用于训练模型来估计所述音频数据的内容而获得所述路径规则的情况下,使用从所述环境声音信号获得的所述环境声音信号的模式来生成路径规则,其中所述训练模型被配置为通过使用所述音频数据、所述音频数据的内容、所述音频数据的特性和对应于所述音频数据的路径规则中的至少一个作为训练数据来估计应用于所述训练模型的所述音频数据的所述内容来生成所述路径规则。
根据本公开的另一方面,提供了一种计算机程序产品,其包括存储有用于在计算机中执行操作的指令的非暂时性计算机可读记录介质。所述操作包括:从第一外部装置接收声音数据;从所述声音数据获得语音信号和噪声信号;将所述语音信号转换为文本数据;基于至少一些所述噪声信号来确定噪声模式;以及使用所述文本数据和所述噪声模式来确定所述声音数据的域。
附图说明
从以下结合附图的描述中,本公开的某些实施例的上述和其他方面、特性和优点将变得更加明显,其中:
图1是根据实施例的集成智能系统的示图;
图2是根据实施例的集成智能系统的用户终端的框图;
图3是根据实施例的用户终端的智能应用程序(app)的执行的示图;
图4是示出根据实施例的智能服务模块的上下文模块收集当前状态的框图;
图5是根据实施例的智能服务模块的建议模块的框图;
图6是根据实施例的集成智能系统的智能服务器的框图;
图7是根据实施例的生成路径规划器模块的路径规则的方法的示图;
图8是示出根据实施例的智能服务模块的角色模块管理关于用户的信息的框图;
图9是示出根据实施例的集成智能系统中使用输入到用户终端的语音和环境声音来执行功能的情况的框图;
图10A是示出根据实施例的集成智能系统中使用输入到用户终端的语音和环境声音来执行功能的情况的框图;
图10B是示出根据实施例的集成智能系统中使用输入到用户终端的语音和环境声音来控制装置的情况的框图;
图11是根据实施例的在集成智能系统中使用输入到用户终端的语音和环境声音来生成路径规则的方法的流程图;
图12是根据一个实施例的生成在智能系统中使用的训练模型的方法的流程图;
图13是示出根据实施例的智能系统中执行智能服务的情况的框图;
图14是示出根据实施例的智能系统中执行智能服务的情况的框图;
图15是根据实施例的在集成智能系统中使用输入到用户终端的音频数据来执行智能服务的方法的流程图;以及
图16是根据实施例的网络环境中的电子装置的框图。
具体实施方式
下面参考附图描述各种实施例。
在描述实施例之前,将描述可以应用的实施例的集成智能系统。
图1是根据一个实施例的集成智能系统10的示图。
参照图1,集成智能系统10可以包括用户终端100、智能服务器200、个性化信息服务器300、建议服务器400和通信网络500。
用户终端100可以通过存储在用户终端100中的app(或应用程序)(例如,闹钟app、消息app或图片(图库)app)向用户提供所需的服务。例如,用户终端100可以通过存储在用户终端100中的智能app(或语音识别app)来执行和驱动不同的app。用户终端100可以接收用于执行不同app并通过用户终端100的智能app执行某个操作的用户输入。例如,可以通过物理按钮、触摸板、语音输入或远程输入来接收用户输入。根据一个实施例,用户终端100可以对应于能够连接到互联网的各种终端装置(或电子装置),诸如,移动手机、智能手机、个人数字助理(PDA)或笔记本电脑。
根据一个实施例,用户终端100可以接收用户的语音作为用户输入。用户终端100可以接收用户的语音,并基于用户的语音生成驱动app的命令。因此,用户终端100可以使用该命令来驱动app。
智能服务器200可以通过通信网络500从用户终端100接收用户语音输入,并且可以将用户语音输入转换为文本数据。在实施例中,智能服务器200可以基于文本数据生成(或选择)路径规则。路径规则可以包括关于用于执行app的功能的动作(或操作)的信息,或者关于执行该动作所必需的参数的信息。此外,路径规则可以包括app的动作序列。用户终端100可以接收路径规则,可以根据路径规则选择app,并且可以在所选app中执行包括在路径规则中的动作。
在本公开中,通常来说,术语“路径规则”可以表示电子装置执行用户请求的任务的状态序列,但不限于此。也就是说,路径规则可以包括关于状态序列的信息。例如,任务可以是智能app提供的任何动作。该任务可以包括生成时间表、向期望的对方发送图片或者提供天气信息。用户终端100可以通过顺序地具有一个或更多个状态(例如,用户终端100的动作状态)来执行任务。
根据一个实施例,可以由基于规则的模型或人工智能(AI)系统提供或生成路径规则。AI系统可以是基于规则的系统、基于神经网络的系统(例如,前馈神经网络(FNN)或递归神经网络(RNN))、它们的组合,或者可以是不同的AI系统。路径规则可以被选择为一组预定义的路径规则,或者可以响应于用户请求而实时生成。例如,AI系统可以选择多个预定义路径规则中的至少一个,或者可以动态地(或实时地)生成路径规则。此外,用户终端100可以使用混合系统以提供路径规则。
根据一个实施例,用户终端100可以执行动作,并且在显示器上显示与已经执行了该动作的用户终端100的状态相对应的画面。例如,用户终端100可以执行该动作,但是可以不在显示器上显示该动作的执行结果。例如,用户终端100可以执行多个动作,并且在显示器上仅显示多个动作中的一些动作的结果。例如,用户终端100可以在显示器上仅显示最后序列的动作的执行结果。例如,用户终端100可以接收用户的输入并在显示器上显示动作的执行结果。
个性化信息服务器300可以包括其中已经存储了用户信息的数据库。例如,个性化信息服务器300可以从用户终端100接收用户信息(例如,上下文信息和app的执行),并将用户信息存储在数据库中。智能服务器200可以通过通信网络500从个性化信息服务器300接收用户信息,并且可以在为用户输入生成路径规则时使用接收到的用户信息。根据一个实施例,用户终端100可以通过通信网络500从个性化信息服务器300接收用户信息,并将接收到的用户信息用作用于管理数据库的信息。
建议服务器400可以包括数据库,在该数据库中,要提供的功能或应用的介绍或关于该功能的信息已经存储在终端内。例如,如果从个性化信息服务器300接收到用户终端100的用户信息,则建议服务器400可以包括用户要使用的功能的数据库。用户终端100可以通过通信网络500从建议服务器400接收关于要提供的功能的信息,并且可以向用户提供该信息。
图2是根据实施例的集成智能系统10的用户终端的框图。
参照图2,用户终端100可以包括输入模块110、显示器120、扬声器130、存储器140和处理器150。用户终端100还可以包括外壳。用户终端100的元件可以安置在外壳中或者可以位于外壳上。用户终端100还可以包括位于外壳内的通信电路。用户终端100可以通过通信电路向智能服务器200发送数据(或信息)和从智能服务器200接收数据(或信息)。
输入模块110可以从用户接收用户输入。例如,输入模块110可以从与其连接的外部装置(例如,键盘或耳机)接收用户输入。例如,输入模块110可以包括与显示器120组合的触摸屏(例如,触摸屏显示器)。例如,输入模块110可以包括位于用户终端100(或用户终端100的外壳)中的硬件键(或物理键)。
输入模块110可以包括能够接收用户的语音作为语音信号的麦克风。例如,输入模块110包括语音输入系统,并且可以通过语音输入系统接收用户的语音作为语音信号。麦克风可以通过例如外壳的一部分(例如,第一部分)来暴露。
显示器120可以显示图像或视频的执行画面和/或app的执行画面。例如,显示器120可以显示app的图形用户界面(GUI)。显示器120可以通过外壳的一部分(例如,第二部分)来暴露。
扬声器130可以输出语音信号。例如,扬声器130可以向外部输出在用户终端100内生成的语音信号。扬声器130可以通过外壳的一部分(例如,第三部分)来暴露。
存储器140可以存储多个app(或应用程序)141(例如,第一app)和143(例如,第二app)。例如,多个app 141和143可以是用于执行与用户输入相对应的功能的程序。存储器140可以存储智能代理145、执行管理器模块147或智能服务模块149。智能代理145、执行管理器模块147和智能服务模块149可以是例如用于处理接收到的用户输入(例如,用户语音)的框架(或应用框架)。
存储器140可以包括用于存储识别用户输入所需的信息的数据库。例如,存储器140可以包括能够存储日志信息的日志数据库。例如,存储器140可以包括能够存储用户信息的角色或数据库。
存储器140存储多个app 141和143。多个app 141和143可以被加载和驱动。例如,存储在存储器140中的多个app 141和143可以由执行管理器模块147加载和驱动。多个app141和143可以包括用于执行功能的执行服务模块141a和143a。多个app 141和143可以通过执行服务模块141a和143a执行多个动作(例如,状态序列)141b和143b(例如,操作1、操作2、操作3……),以便执行功能。也就是说,执行服务模块141a和143a可以由执行管理器模块147启用,并且可以执行多个动作141b和143b。
当app 141和143的动作141b和143b被执行时,根据动作141b和143b的执行的执行状态画面可以显示在显示器120上。例如,执行状态画面可以是动作141b和143b已经完成的状态画面。例如,执行状态画面可以是动作141b和143b的执行已经停止(即,部分着陆)的状态画面(例如,当没有输入动作141b和143b所需的参数时)。
根据一个实施例的执行服务模块141a和143a可以根据路径规则执行动作141b和143b。例如,执行服务模块141a和143a可以由执行管理器模块147启用,从执行管理器模块147接收根据路径规则的执行请求,并且通过响应于执行请求执行动作141b和143b来执行app 141和143的功能。当动作141b和143b的执行完成时,执行服务模块141a和143a可以向执行管理器模块147发送完成信息。
当在app 141和143中执行多个动作141b和143b时,多个动作141b和143b可以顺序地执行。当一个操作(例如,第一app 141的操作1或第二app 143的操作1)的执行完成时,执行服务模块141a和143a可以打开下一个操作(例如,第一app 141的操作2或第二app 143的操作2),并且可以向执行管理器模块147发送完成信息。在这种情况下,打开给定操作可以理解为将给定操作转换为可执行状态或准备执行给定操作。也就是说,当给定的操作未打开时,相应的操作无法执行。当接收到完成信息时,执行管理器模块147可以向执行服务模块141a和143a发送对下一操作(例如,第一app 141的操作2或第二app143的操作2)的执行请求。当执行多个app 141和143时,可以顺序地执行多个app 141和143。例如,当第一app141的最后操作(例如,第一app 141的操作3)的执行完成并且因此接收到完成信息时,执行管理器模块147可以向执行服务模块143a发送对第二app 143的第一操作(例如,第二app143的操作1)的执行请求。
当在app 141和143中执行多个动作141b和143b时,可以在显示器120上分别显示根据多个所执行的动作141b和143b的结果画面。可以在显示器120上仅显示根据多个所执行的动作141b和143b的执行的多个结果画面中的一些。
存储器140可以存储与智能代理145一起运行的智能app(例如,语音识别app)。与智能代理145一起运行的app可以接收用户的语音作为语音信号,并处理该语音。与智能代理145一起运行的app可以由通过输入模块110输入的给定输入(例如,通过硬件键的输入、触摸屏或给定语音输入)来驱动。
存储在存储器140中的智能代理145、执行管理器模块147或智能服务模块149可以由处理器150执行。智能代理145、执行管理器模块147或智能服务模块149的功能可以由处理器150实现。智能代理145、执行管理器模块147和智能服务模块149的功能在下面被描述为处理器150的操作。除了软件之外,存储在存储器140中的智能代理145、执行管理器模块147或智能服务模块149还可以通过硬件来实现。
处理器150可以控制用户终端100的整体操作。例如,处理器150可以控制输入模块110接收用户输入。处理器150可以控制显示器120显示图像。处理器150可以控制扬声器130输出语音信号。处理器150可以控制存储器140执行程序或获取或存储所需信息。
处理器150可以执行存储在存储器140中的智能代理145、执行管理器模块147或智能服务模块149。因此,处理器150可以实现智能代理145、执行管理器模块147或智能服务模块149的功能。
处理器150可以通过执行智能代理145基于作为用户输入而接收到的语音信号来生成驱动app的命令。处理器150可以响应于所生成的命令,通过执行执行管理器模块147来执行存储在存储器140中的app141和143。处理器150可以通过执行智能服务模块149来管理用户的信息,并且可以使用用户的信息来处理用户输入。
处理器150可以通过执行智能代理145将通过输入模块110接收到的用户输入发送到智能服务器200,并且可以通过智能服务器200来处理用户输入。
处理器150可以在通过执行智能代理145将用户输入发送到智能服务器200之前预处理用户输入。为了预处理用户输入,智能代理145可以包括自适应回声消除器(AEC)模块、噪声抑制(NS)模块、端点检测(EPD)模块或自动增益控制(AGC)模块。AEC模块可以消除包括在用户输入中的回声。NS模块可以抑制包括在用户输入中的背景噪声。EPD模块可以检测包括在用户输入中的用户语音的结尾,并且可以使用检测到的结尾找出用户语音存在的部分。AGC模块可以识别用户输入并调整用户输入的音量,使得它适合于处理所识别的用户输入。处理器150可以执行用于性能的所有预处理元件。处理器150可以执行一些预处理元件,以便以低能量来操作。
智能代理145可以执行存储在存储器140中的唤醒识别模块,以便识别来自用户的呼叫。因此,处理器150可以通过唤醒识别模块来识别用户的唤醒命令。当接收到唤醒命令时,处理器150可以执行智能代理145以接收用户输入。唤醒识别模块可以被实现为低能量处理器(例如,包括在音频数据编解码器中的处理器)。当接收到通过硬件键的用户输入时,处理器150可以执行智能代理145。当执行智能代理145时,可以执行与智能代理145一起运行的智能app(例如,语音识别app)。
智能代理145可以包括用于执行用户输入的语音识别模块。处理器150可以通过语音识别模块识别用户输入,以便能够在app中执行动作。例如,处理器150可以通过语音识别模块识别app 141和143中用于执行动作(例如,唤醒命令)的有限用户(语音)输入(例如,语音,诸如当执行相机app时“点击”以执行拍摄动作)。处理器150可以帮助智能服务器200识别可以在用户终端100中通过语音识别模块处理的用户命令,并且可以快速处理该用户命令。用于执行用户输入的智能代理145的语音识别模块可以由app处理器实现。
智能代理145的语音识别模块(包括唤醒模块的语音识别模块)可以使用用于识别语音的算法来识别用户输入。例如,用于识别语音的算法可以是隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间扭曲(DTW)算法中的至少一种。
处理器150可以通过执行智能代理145将用户的语音输入转换为文本数据。例如,处理器150可以通过智能代理145向智能服务器200发送用户的语音,并且可以从智能服务器200接收与用户的语音相对应的文本数据。据此,处理器150可以在显示器120上显示转换后的文本数据。
处理器150可以通过执行智能代理145从智能服务器200接收路径规则。处理器150可以通过智能代理145将路径规则传递给执行管理器模块147。
处理器150可以根据通过执行智能代理145从智能服务器200接收到的路径规则,向智能服务模块149发送执行结果日志。所发送的执行结果日志可以累积在角色模块(或角色管理器)149b的用户的偏好信息中。
处理器150可以通过执行执行管理器模块147从智能代理145接收路径规则,执行app 141和143,并使app 141和143能够执行路径规则中包括的动作141b和143b。例如,处理器150可以通过执行管理器模块147向app 141和143发送用于执行动作141b和143b的命令信息(例如,路径规则信息),并且从app 141和143接收动作141b和143b的完成信息。
处理器150可以通过执行执行管理器模块147来发送命令信息(例如,路径规则信息),以在智能代理145与app 141和143之间执行app 141和143的动作141b和143b。处理器150可以通过执行管理器模块147绑定要根据路径规则来执行的app 141和143,并且可以向app 141和143发送路径规则中包括的动作141b和143b的命令信息(例如,路径规则信息)。例如,处理器150可以通过执行管理器模块147将包括在路径规则中的动作141b和143b顺序地发送到app 141和143,从而根据路径规则顺序地执行app 141和143的动作141b和143b。
处理器150可以通过执行执行管理器模块147来管理app 141和143的动作141b和143b的执行状态。例如,处理器150可以通过执行管理器模块147从app 141和143接收关于动作141b和143b的执行状态的信息。例如,当动作141b和143b的执行状态是部分着陆时(例如,如果还没有接收到动作141b和143b所需的参数),处理器150可以通过执行管理器模块147向智能代理145发送关于部分着陆的信息。处理器150可以请求用户使用通过智能代理145接收到的信息来输入所需信息(例如,参数信息)。例如,当动作141b和143b的执行状态是动作状态时,处理器150可以通过智能代理145从用户接收语音。处理器150可以向智能代理145发送通过执行管理器模块147正在执行的app 141和143以及关于app 141和143的执行状态的信息。处理器150可以通过智能代理145向智能服务器200发送用户语音。处理器150可以通过智能代理145从智能服务器200接收用户语音的参数信息。处理器150可以将通过智能代理145接收到的参数信息传递给执行管理器模块147。执行管理器模块147可以使用接收到的参数信息将动作141b和143b的参数转换为新参数。
处理器150可以通过执行执行管理器模块147向app 141和143发送包括在路径规则中的参数信息。当根据路径规则顺序地执行多个app 141和143时,执行管理器模块147可以将包含在路径规则中的参数信息从一个app发送到另一app。
处理器150可以通过执行执行管理器模块147来接收多个路径规则。处理器150可以通过执行管理器模块147基于用户的语音来选择多个路径规则。例如,如果用户的语音已经通过执行管理器模块147指定某个app 141来执行某个动作141a,但是没有指定另一app143来执行剩余动作143b,则处理器150可以接收多个不同的路径规则,通过这些路径规则来执行相同的app 141(例如,图库app)来执行某个动作141a,并且执行能够执行剩余动作143b的不同app 143(例如,消息app或电报app)。例如,处理器150可以通过执行管理器模块147执行多个路径规则的相同动作141b和143b(例如,连续的相同动作141b和143b)。当执行相同的动作时,处理器150可以在显示器120上显示状态画面,在该状态画面中可以通过执行管理器模块147选择包括在多个路径规则中的不同app 141和143。
智能服务模块149可以包括上下文模块149a、角色模块149b或建议模块149c。
处理器150可以通过执行上下文模块149a从app 141和143收集app 141和143的当前状态。例如,处理器150可以通过执行上下文模块149a来接收指示app 141和143的当前状态的上下文信息,并且通过接收到的上下文信息来收集app 141和143的当前状态。
处理器150可以通过执行角色模块149b来管理使用用户终端100的用户的个人信息。例如,处理器150可以通过执行角色模块149b来收集用户终端100的使用信息和执行结果,并且使用所收集的用户终端100的使用信息和执行结果来管理用户的个人信息。
处理器150可以通过执行建议模块149c来预测用户的意图,并且基于用户的意图向用户推荐命令。例如,处理器150可以通过执行建议模块149c,根据用户的当前状态(例如,时间、地点、情况和app)向用户推荐命令。
图3是根据实施例的用户终端100的智能app的执行的示图。
参照图3,例如,用户终端100接收用户输入,并在与智能代理145一起工作时执行智能app(例如,语音识别app)。
用户终端100可以执行用于通过硬件键112识别语音的智能app。例如,当通过硬件键112接收到用户输入时,用户终端100可以在显示器120上显示智能app的用户界面(UI)121。例如,为了在智能app的UI 121已经显示在显示器120上的状态下输入语音120b,可以触摸智能app的UI 121中的语音识别按钮121a。例如,为了输入语音120b,用户可以通过连续按压硬件键112来输入语音120b。
用户终端100可以执行用于通过麦克风111识别语音的智能app。例如,当通过麦克风111输入指定的语音120a(例如,“起床!”)时,用户终端100可以在显示器120上显示智能app的UI 121。
图4是根据实施例的收集当前状态的智能服务模块149的上下文模块149a的示图。
参照图4,当从智能代理145接收到①上下文请求时,处理器150可以通过上下文模块149a请求②指示app 141和143的当前状态的上下文信息。处理器150可以通过上下文模块149a从app 141和143接收③上下文信息,并且可以向智能代理145发送④上下文信息。
处理器150可以通过上下文模块149a从app 141和143接收多条上下文信息。例如,上下文信息可以是关于最近已经执行的app 141和143的信息。例如,上下文信息可以是关于app 141和143内的当前状态的信息(例如,当用户查看图库中的图片时,关于相应图片的信息)。
除了app 141和143之外,处理器150还可以通过上下文模块149a从装置平台接收指示用户终端100的当前状态的上下文信息。上下文信息可以包括常规上下文信息、用户上下文信息或装置上下文信息。
常规上下文信息可以包括用户终端100的常规信息。在通过装置平台的感测集线器接收到数据之后,可以通过内部算法检查常规上下文信息。例如,常规上下文信息可以包括关于当前空间和时间的信息。例如,关于当前空间和时间的信息可以包括当前时间或关于用户终端100的当前位置的信息。可以通过用户终端100上的时间来检查当前时间。可以通过全球定位系统(GPS)检查关于当前位置的信息。例如,常规上下文信息可以包括关于物理运动的信息。例如,关于物理运动的信息可以包括关于行走、跑步或驾驶的信息。可以通过运动传感器来检查关于物理运动的信息。可以通过运动传感器来检查关于行驶以及跑步的信息,并且可以通过检测车辆内的蓝牙连接来检查乘坐和停车。例如,常规上下文信息可以包括用户活动信息。例如,用户活动信息可以包括关于通勤、购物、旅行等的信息。可以使用关于用户或app已经向数据库注册的地点的信息来检查用户活动信息。
用户上下文信息可以包括关于用户的信息。例如,用户上下文信息可以包括关于用户情绪状态的信息。例如,关于情绪状态的信息可以包括关于用户的快乐、悲伤或愤怒的信息。例如,用户上下文信息可以包括关于用户当前状态的信息。例如,关于当前状态的信息可以包括关于兴趣或意图(例如,购物)的信息。
装置上下文信息可以包括关于用户终端100的状态的信息。例如,装置上下文信息可以包括关于由执行管理器模块147执行的路径规则的信息。例如,装置信息可以包括关于电池的信息。例如,可以通过电池的充电和放电状态来检查关于电池的信息。例如,装置信息可以包括关于连接的装置和网络的信息。例如,可以通过装置所连接的通信接口来检查所连接装置上的信息。
图5是根据实施例的智能服务模块149的建议模块149c的框图。
参照图5,建议模块149c可以包括提示提供模块149c-1、上下文提示生成模块149c-2、条件检查模块149c-3、条件模型模块149c-4、重用提示生成模块149c-5和介绍提示生成模块149c-6。
处理器150可以通过执行提示提供模块149c-1向用户提供提示。例如,处理器150可以通过提示提供模块149c-1接收从上下文提示生成模块149c-2、重用提示生成模块149c-5或介绍提示生成模块149c-6生成的提示,并且可以向用户提供该提示。
处理器150可以通过执行条件检查模块149c-3或条件模型模块149c-4,根据当前状态生成要推荐的提示。处理器150可以通过执行条件检查模块149c-3来接收对应于当前状态的信息,并且可以通过执行条件模型模块149c-4来使用接收到的信息来设置条件模型。例如,处理器150可以通过执行条件模型模块149c-4来检查当将提示提供给用户时的时间、位置、情形和正在使用的app,并且向用户提供提示,该提示很有可能按照最高优先级的顺序在相应的条件下使用。
处理器150可以通过执行重用提示生成模块149c-5,基于使用频率生成要推荐的提示。例如,处理器150可以通过执行重用提示生成模块149c-5来基于用户的使用模式生成提示。
介绍提示生成模块149c-6可以生成向用户介绍新功能或其他用户大量使用的功能的提示。例如,介绍新功能的提示可以包括智能代理145的介绍(例如,操作方法)。
建议模块149c的上下文提示生成模块149c-2、条件检查模块149c-3、条件模型模块149c-4、重用提示生成模块149c-5或介绍提示生成模块149c-6可以包括在个性化信息服务器300中。例如,处理器150可以通过建议模块149c的提示提供模块149c-1从用户个性化信息服务器300的上下文提示生成模块149c-2、重用提示生成模块149c-5或介绍提示生成模块149c-6接收提示,并且可以将接收到的提示提供给用户。
用户终端100可以根据以下一系列的过程来提供提示。例如,当从智能代理145接收到提示提供请求时,处理器150可以通过提示提供模块149c-1向上下文提示生成模块149c-2发送提示生成请求。当接收到提示生成请求时,处理器150可以通过条件检查模块149c-3从上下文模块149a和角色模块149b接收对应于当前状态的信息。处理器150可以将通过条件检查模块149c-3接收到的信息传递到条件模型模块149c-4,并且可以通过条件模型模块149c-4,基于信息在条件中使用提示的可能性很高,将优先级分配给提供给用户的提示。处理器150可以通过上下文提示生成模块149c-2检查条件,并且可以生成对应于当前状态的提示。处理器150可以通过上下文提示生成模块149c-2将生成的提示发送到提示提供模块149c-1。处理器150可以通过提示提供模块149c-1根据指定规则来安排提示,并且可以将提示发送到智能代理145。
处理器150可以通过提示提供模块149c-1生成多个上下文提示,并且可以根据指定规则指定多个上下文提示的优先级。处理器150可以首先通过提示提供模块149c-1向用户提供属于多个上下文提示并且具有更高优先级的上下文提示。
用户终端100可以根据使用频率来建议提示。例如,当从智能代理145接收到提示提供请求时,处理器150可以通过提示提供模块149c-1向重用提示生成模块149c-5发送提示生成请求。当接收到提示生成请求时,处理器150可以通过重用提示生成模块149c-5从角色模块149b接收用户信息。例如,处理器150可以通过重用提示生成模块149c-5接收角色模块149b的用户的偏好信息中包括的路径规则、路径规则中包括的参数、app的执行频率以及关于应用使用的空间和时间的信息。处理器150可以通过重用提示生成模块149c-5生成对应于接收到的用户信息的提示。处理器150可以通过重用提示生成模块149c-5将生成的提示发送到提示提供模块149c-1。处理器150可以通过提示提供模块149c-1安排提示,并且将提示发送到智能代理145。
用户终端100可以建议新功能的提示。例如,当从智能代理145接收到提示提供请求时,处理器150可以通过提示提供模块149c-1向介绍提示生成模块149c-6发送提示生成请求。处理器150可以通过经由介绍提示生成模块149c-6从建议服务器400传递介绍提示提供请求,从而从建议服务器400接收关于要介绍的功能的信息。例如,建议服务器400可以存储关于要介绍的功能的信息。服务运营商可以更新要介绍的功能的提示列表。处理器150可以通过介绍提示生成模块149c-6将生成的提示发送到提示提供模块149c-1。处理器150可以通过提示提供模块149c-1安排提示,并将提示发送到智能代理145。
因此,处理器150可以通过建议模块149c向用户提供从上下文提示生成模块149c-2、重用提示生成模块149c-5或介绍提示生成模块149c-6生成的提示。例如,处理器150可以在app中显示生成的提示,用于通过建议模块149c驱动智能代理145,并且可以通过app从用户接收选择提示的输入。
图6是根据实施例的集成智能系统10的智能服务器200的框图。
参照图6,智能服务器200可以包括自动语音识别(ASR)模块210、自然语言理解(NLU)模块220、路径规划器(PP)模块230、对话管理器(DM)模块240、自然语言生成(NLG)模块250或文本到语音(TTS)模块260。智能服务器200可以包括通信电路、存储器和处理器。处理器可以通过执行存储在存储器中的指令来驱动ASR模块210、NLU模块220、PP模块230、DM模块240、NLG模块250和TTS模块260。智能服务器200可以通过通信电路向用户终端100发送数据(或信息)和从用户终端100接收数据(或信息)。
智能服务器200的NLU模块220或PP模块230可以生成路径规则。
ASR模块210可以将从用户终端100接收到的用户输入转换为文本数据。
ASR模块210可以将从用户终端100接收到的用户输入转换为文本数据。例如,ASR模块210可以包括语音识别模块。语音识别模块可以包括声学模型和语言模型。例如,声学模型可以包括与语音相关的信息。语言模型可以包括单位音素信息和关于单位音素信息的组合的信息。语音识别模块可以使用与语音相关的信息和关于单位音素信息的信息将用户的语音转换为文本数据。例如,关于声学模型和语言模型的信息可以存储在ASR数据库(ASRDB)211中。
NLU模块220可以通过执行语法分析或语义分析来确认用户的意图。在语法分析中,用户输入可以按语法单元(例如,字、短语或语素)分类,并且被分类的输入可以被识别为具有语法单元。语义分析可以使用语义匹配、规则匹配或公式匹配来执行。因此,NLU模块220可以从用户输入获得表示意图所必需的域、意图或参数(或位置)。
NLU模块220可以使用划分为域、意图和确认意图所需的参数(或位置)的匹配规则来确定用户的意图和参数。例如,一个域(例如闹钟)可以包括多个意图(例如,闹钟设置和闹钟释放)。一个意图可以包括多个参数(例如,时间、重复次数和报警声音)。例如,多个规则可以包括一个或更多个基本元件参数。匹配规则可以存储在NLU DB 221中。
NLU模块220可以使用语言特性(例如,语法元素),确认从用户输入中提取的字的含义,例如,语素或短语,并且可以通过将所识别的字的含义与域和意图匹配来确定用户的意图。例如,NLU模块220可以通过计算从用户输入中提取的多少字已经包括在每个域和意图中来确定用户的意图。
NLU模块220可以使用作为确认意图的基础的字来确定用户输入的参数。NLU模块220可以使用NLU DB 221来确定用户的意图,在NLU DB 221中已经存储了用于确认用户输入的意图的语言特性。NLU模块220可以使用个性化语言模型(PLM)来确定用户的意图。例如,NLU模块220可以使用个性化信息(例如,联系人信息列表和音乐列表)来确定用户的意图。例如,个性化语言模型可以存储在NLU DB 221中。不仅是NLU模块220,ASR模块210也可以参考存储在NLU DB 221中的个性化语言模型来识别用户的语音。
NLU模块220可以基于用户输入的意图和参数生成路径规则。例如,NLU模块220可以基于用户输入的意图选择要执行的app,并确定要在所选app中执行的动作。NLU模块220可以确定对应于所确定的动作的参数,并生成路径规则。NLU模块220生成的路径规则可以包括要执行的app、要在app中执行的动作(例如,至少一个状态)以及执行该动作所需的参数。
NLU模块220可以基于用户输入的意图和参数生成单个路径规则或多个路径规则。例如,NLU模块220可以从PP模块230接收对应于用户终端100的路径规则集,并且可以通过将用户输入的意图和参数映射到接收到的路径规则集来确定路径规则。
NLU模块220可以基于用户输入的意图和参数来确定要执行的app、要在app中执行的动作、执行动作所需的参数,并生成单个路径规则或多个路径规则。例如,NLU模块220可以基于使用用户终端100的信息的用户输入的意图,通过以本体或图形模型的形式安排要执行的app和要在app中执行的动作来生成路径规则。生成的路径规则可以通过例如PP模块230存储在路径规则数据库(PR DB)231中。生成的路径规则可以被添加到PR DB 231的路径规则集。
NLU模块220可以从多个生成的路径规则中选择至少一个路径规则。例如,NLU模块220可以从多个路径规则中选择最优路径规则。例如,如果仅基于用户语音指定了一些动作,则NLU模块220可以选择多个路径规则。NLU模块220可以基于来自用户的附加输入来确定多个路径规则中的一个。
根据一个实施例,NLU模块220可以响应于对用户输入的请求向用户终端100发送路径规则。例如,NLU模块220可以向用户终端100发送对应于用户输入的一个路径规则。例如,NLU模块220可以向用户终端100发送对应于用户输入的多个路径规则。例如,如果仅基于用户语音指定了一些动作,则NLU模块220可以生成多个路径规则。
PP模块230可以选择多个路径规则中的至少一个。
PP模块230可以向NLU模块220发送包括多个路径规则的路径规则集。路径规则集的多个路径规则可以以表格的形式存储在连接到PP模块230的PR DB 231中。例如,PP模块230可以将与从智能代理145接收到的用户终端100的信息(例如,操作系统(OS)信息、app信息等)对应的路径规则集发送到NLU模块220。例如,存储在PR DB 231中的表可以通过域或域的版本来存储。
PP模块230可以从路径规则集中选择一个或多个路径规则,并将所选一个或多个路径规则发送到NLU模块220。例如,PP模块230可以通过将用户的意图和参数与对应于用户终端100的路径规则集相匹配来选择一个或多个路径规则,并将所选一个或多个路径规则发送到NLU模块220。
PP模块230可以使用用户的意图和参数生成一个或多个路径规则。例如,PP模块230可以通过基于用户的意图和参数确定要执行的app和要在app中执行的动作来生成一个或多个路径规则。PP模块230可以将生成的一个或多个路径规则存储在PR DB 231中。
PP模块230可以将由NLU模块220生成的路径规则存储在PR DB 231中。生成的路径规则可以被添加到存储在PR DB 231中的路径规则集。
存储在PR DB 231中的表可以包括多个路径规则或多个路径规则集。执行每个路径规则的设备的种类、版本、类型或特性可以被合并到多个路径规则或多个路径规则集中。
DM模块240可以确定NLU模块220识别的用户意图是否清楚。例如,DM模块240可以基于参数的信息是否足够来确定用户的意图是否清楚。DM模块240可以确定NLU模块220识别的参数是否足以执行任务。如果用户的意图不清楚,则DM模块240可以执行反馈以向用户请求所需信息。例如,DM模块240可以执行反馈以请求关于用于确认用户意图的参数的信息。
DM模块240可以包括内容提供者模块。如果基于NLU模块220识别的意图和参数来执行动作,则内容提供者模块可以生成与用户输入相对应的任务的执行结果。DM模块240可以向用户终端100发送由内容提供者模块生成的结果,作为对用户输入的响应。
NLG模块250可以将指定信息转换为文本形式。被转换为文本形式的信息可以是自然语言语音的形式。例如,指定信息可以是关于附加输入的信息、提供对应于用户输入的动作完成的指导的信息、或者提供来自用户的附加输入的指导的信息(例如,用户输入的反馈信息)。被转换为文本形式的信息可以被发送到用户终端100并显示在显示器120上,或者可以被发送到TTS模块260并被转换为语音形式。
TTS模块260可以将文本形式的信息转换为语音形式的信息。TTS模块260可以从NLG模块250接收文本形式的信息,将文本形式的信息转换为语音形式的信息,并将语音形式的信息发送到用户终端100。用户终端100可以向扬声器130输出语音形式的信息。
NLU模块220、PP模块230和DM模块240可以实现为单个模块。例如,NLU模块220、PP模块230和DM模块240可以实现为单个模块,并且可以确定用户的意图和参数,并且生成对应于所确定的用户意图和参数的响应(例如,路径规则)。因此,生成的响应可以被发送到用户终端100。
图7是根据实施例的生成PP模块230的路径规则的方法的示图。
参照图7,NLU模块220可以将app的功能识别为任何一个动作(例如,状态A到状态F),并将其存储在PR DB 231中。例如,NLU模块220可以将路径规则集存储在PR DB 231中,该路径规则集包括标识为任何一个动作(例如,状态)的多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、A-B1-C3-D-E-F和A-B2)。
PP模块230的PR DB 231可以存储用于执行app的功能的路径规则集。路径规则集可以包括多个路径规则,这些路径规则包括多个动作(例如,状态序列)。分别基于输入到多个动作的参数执行的动作可以按顺序排列在多个路径规则中。多个路径规则可以以本体或图形模型形式配置,并存储在PR DB 231中。
NLU模块220可以选择与用户输入和参数的意图相对应的多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、A-B1-C3-D-E-F和A-B2)中的最优路径规则(例如,A-B1-C3-D-F)。
当没有与用户输入完全匹配的路径规则时,NLU模块220可以向用户终端100发送多个规则。例如,NLU模块220可以选择部分对应于用户输入的路径规则(例如,A-B1)。NLU模块220可以选择包括部分对应于用户输入的路径规则(例如,A-B1)的一个或更多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、A-B1-C3-D-E-F和A-B2),并且可以将路径规则发送到用户终端100。
NLU模块220可以基于用户终端100的附加输入来选择多个路径规则中的一个,并且可以将所选路径规则发送到用户终端100。例如,NLU模块220可以响应于用户终端100附加输入的用户输入(例如,选择C3的输入),选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、A-B1-C3-D-E-F和A-B2)中的一个路径规则(例如,A-B1-C3-D-F),并将该一个路径规则发送到用户终端100。
NLU模块220可以确定与通过NLU模块220附加地输入到用户终端100的用户输入(例如,选择C3的输入)相对应的用户的意图和参数,并将确定的用户意图或参数发送到用户终端100。用户终端100可以基于所发送的意图或参数选择多个路径规则(例如,A-B1-C1、A-B1-C2、A-B1-C3-D-F、A-B1-C3-D-E-F和A-B2)中的一个路径规则(例如,A-B1-C3-D-F)。
因此,用户终端100可以基于所选路径规则来完成app 141和143的动作。
当智能服务器200接收到包括不足信息的用户输入时,NLU模块220可以生成部分对应于接收到的用户输入的路径规则。例如,NLU模块220可以向智能代理145发送部分对应的路径规则。处理器150可以通过执行智能代理145来接收路径规则,并将部分对应的路径规则传递给执行管理器模块147。处理器150可以根据通过执行管理器模块147的路径规则来执行第一app141。当通过执行管理器模块147执行第一app141时,处理器150可以向智能代理145发送关于不足参数的信息。处理器150可以通过智能代理145使用关于不足参数的信息向用户请求附加输入。当用户通过智能代理145接收到附加输入时,处理器150可以通过向智能服务器200发送附加输入来处理用户输入。NLU模块220可以基于附加输入的用户输入和参数信息的意图生成添加的路径规则,并将添加的路径规则发送到智能代理145。处理器150可以通过智能代理145将路径规则发送到执行管理器模块147来执行第二app143。
当智能服务器200接收到省略了一些信息的用户输入时,NLU模块220可以向个性化信息服务器300发送用户信息请求。个性化信息服务器300可以向NLU模块220发送存储在角色或数据库中的已经输入了用户输入的用户的信息。NLU模块220可以选择与使用用户信息省略了一些动作的用户输入相对应的路径规则。因此,尽管智能服务器200接收到省略了一些信息的用户输入,但是NLU模块220可以通过请求省略的信息或使用用户信息来接收附加输入,从而确定对应于用户输入的路径规则。
下面的表1示出了根据实施例的与用户请求的任务相关的路径规则的示例性形式。
表1
参考上面的表1,由图1的智能服务器200响应于用户语音(例如,“让图片共享”)生成或选择的路径规则可以包括状态25、26、27、28、29或30中的至少一个。例如,至少一个状态(例如,终端的任何一个动作状态)可以对应于图片app执行(pictureView(25))、图片搜索功能执行(searchView(26))、搜索结果显示画面输出(searchView Result(27))、不包括所选图片的搜索结果显示画面输出(SearchEmptySelectedView(28))、包括至少一个所选图片的搜索结果显示画面输出(SearchSelectedView(29))或app选择画面输出(CrossShare(30))中的至少一个。
路径规则的参数信息可以对应于至少一种状态。例如,参数信息可以包括在SearchSelectedView(29)中。
作为包括状态25、26、27、28和29的序列的路径规则的执行结果,可以执行用户请求的任务(例如“让图片共享!”)。
图8是示出根据实施例的智能服务模块的角色模块149b管理关于用户的信息的框图。
参考图8,处理器150可以通过角色模块149b从app 141和143、执行管理器模块147或上下文模块149a接收用户终端100的信息。处理器150可以通过app 141和143以及执行管理器模块147将作为app的动作的执行结果的结果信息存储在动作日志数据库中。处理器150可以通过上下文模块149a将关于用户终端100的当前状态的信息存储在上下文数据库中。处理器150可以通过角色模块149b从动作日志数据库或上下文数据库接收所存储的信息。例如,存储在动作日志数据库和上下文数据库中的数据可以由分析引擎分析,并传递给角色模块149b。
处理器150可以通过角色模块149b将从app 141和143、执行管理器模块147或上下文模块149a接收到的信息发送到建议模块149c。例如,处理器150可以通过角色模块149b向建议模块149c发送存储在动作日志数据库或上下文数据库中的数据。
处理器150可以通过角色模块149b向个性化信息服务器300发送从app 141和143、执行管理器模块147或上下文模块149a接收到的信息。例如,处理器150可以周期性地通过角色模块149b向个性化信息服务器300发送累积并存储在动作日志数据库或上下文数据库中的数据。
处理器150可以通过角色模块149b向建议模块149c发送存储在动作日志数据库或上下文数据库中的数据。通过角色模块149b生成的用户信息可以存储在角色或数据库中。角色模块149b可以周期性地将存储在角色或数据库中的用户信息发送到个性化信息服务器300。通过角色模块149b发送到个性化信息服务器300的信息可以存储在角色或数据库中。个性化信息服务器300可以使用存储在角色或数据库中的信息推断生成智能服务器200的路径规则所需的用户信息。
使用通过角色模块149b发送的信息推断的用户信息可以包括简档信息或偏好信息。简档信息或偏好信息可以通过用户的账户和累积信息来推断。
简档信息可以包括用户的个人信息。例如,简档信息可以包括用户的人口统计信息。人口统计信息可以包括例如用户的性别和年龄。例如,简档信息可以包括生活事件信息。例如,可以通过将日志信息与生活事件模型进行比较来推断生活事件信息,并且通过分析行为模式来加强生活事件信息。例如,简档信息可以包括兴趣信息。兴趣信息可以包括感兴趣的购物物品和兴趣领域(例如,体育或政治)。例如,简档信息可以包括活动区域信息。活动区域信息可以包括例如关于房屋或工作场所的信息。除了关于地点的信息之外,关于活动区域的信息可以包括关于优先级已经基于累积的访问时间和访问次数被写入的区域的信息。例如,简档信息可以包括活动时间信息。例如,活动时间信息可以包括关于起床时刻、通勤时间和睡眠时间的信息。可以使用活动区域信息(例如,关于房屋和工作场所的信息)来推断关于通勤时间的信息。可以通过用户终端100的未使用时间来推断关于睡眠时间的信息。
偏好信息可以包括用户的偏好级别信息。例如,偏好信息可以包括关于app偏好级别的信息。例如,可以通过app的使用记录(例如,按时间和地点的使用记录)来推断app偏好级别。App的偏好级别可以用于根据用户的当前状态(例如,时间和地点)来确定要执行的app。例如,偏好信息可以包括关于联系人信息偏好级别的信息。例如,可以通过分析联系人信息的联系频率(例如,按时间和地点的通信频率)信息来推断联系人信息偏好级别。联系人信息偏好级别可以用于根据用户的当前状态(例如冗余名称的通信)来确定联系人信息。例如,偏好信息可以包括设置信息。例如,可以通过分析给定设置值的设置频率(例如,按时间和地点设置为设置值的频率)信息来推断设置信息。设置信息可以用于根据用户的当前状态(例如,时间、地点和情况)来设置给定的设置值。例如,偏好信息可以包括地点偏好级别。例如,可以通过给定地点的访问历史(例如,按时间的访问记录)来推断地点偏好等级。地点偏好级别可以用于根据用户的当前状态(例如,时间)来确定访问地点。例如,偏好信息可以包括命令偏好级别。例如,可以通过命令使用频率(例如,按时间和地点的使用频率)来推断命令偏好级别。命令偏好级别可以用于根据用户的当前状态(例如,时间和地点)来确定要使用的命令模式。例如,命令偏好级别可以包括关于用户在当前正在通过分析日志信息执行的app的状态下选择最多的菜单上的信息。
图9是示出根据实施例的集成智能系统10中使用输入到用户终端100的语音和环境声音来执行功能的情况的框图。
参照图9,在步骤①,用户终端100可以接收用户请求音乐播放的命令。例如,用户终端100可以接收用户的语音,以使用输入模块(例如,图1的输入模块110)请求音乐播放。此时,用户终端100还可以接收从用户所在的地点发出的环境声音(例如,噪声和周围声音)以及用户的语音。即,用户终端100可以接收包括语音和环境声音的音频数据(或声音数据)。
例如,用户终端100可以接收乘坐地铁列车时说“播放音乐”的用户的声音。在这种情况下,用户可以通过使用用户终端100请求到目的地的路径来检查地铁的使用指南。此外,用户终端100还可以接收提供地铁内广播的指导下一站的名称的环境声音“下一站是Sadang”。
用户终端100可以识别音频数据的内容,并使用存储在其中的图2的智能代理145来执行相应的功能。在图9中,用户终端100在结合智能服务器200工作时执行功能。
在步骤②,用户终端100可以通过通信网络500向智能服务器200发送接收到的语音和环境声音。
在步骤③,智能服务器200可以使用接收到的语音和环境声音生成路径规则。
智能服务器200的ASR模块210可以从接收到的音频数据获得语音信号和环境声音信号。ASR模块210可以以文本数据的形式转换语音信号和环境声音信号。例如,ASR模块210的语音识别模块可以使用包括在语音信号和环境声音信号中的语音和音素信息以及关于音素信息组合的信息,以文本数据形式来转换接收到的语音信号和环境声音信号。
如果环境声音信号不是语音,ASR模块210可以执行确定环境声音信号的模式的操作。
智能服务器200的NLU模块220可以通过对转换为文本数据的语音信号“播放音乐”执行语法分析或语义分析来确认语音的内容。例如,NLU模块220可以获得接收到的语音的域(例如,音乐)和意图(例如,音乐播放)以及表达意图所必需的参数(例如,音乐文件和无线电信道)。
NLU模块220可以基于用户输入的意图和参数生成一个或多个路径规则。例如,NLU模块220可以选择音乐播放app并生成路径规则以确定要播放的音乐文件。NLU模块220可以选择无线电播放app并生成路径规则以确定要播放的信道。
PP模块230可以选择多个路径规则中的至少一个。
PP模块230可以选择与从用户终端100的图2的智能代理145接收到的用户终端100的信息(例如,app信息)相对应的路径规则,并且可以将所选路径规则发送到NLU模块220。例如,PP模块230可以接收关于用户比无线电app更频繁地使用音乐播放app的信息,并选择路径规则来执行音乐播放app。PP模块230可以将所选路径规则发送到NLU模块220。
智能服务器200可以基于语音的大小来改变路径规则中包括的动作,以请求播放音乐。例如,当接收到的用户的语音的音量与累积的情况相比较小时,智能服务器200可以改变路径规则中包括的动作,使得播放音乐时的音量设置小于用户通常设置的步长。
智能服务器200的NLU模块220可以通过对转换为文本数据的环境声音信号“下一站是Sadang”执行语法分析或语义分析来确认语音的内容。
NLU模块220可以基于用户的意图和分析的环境声音信号生成一个或多个路径规则。例如,NLU模块220可以确认提供下一站的名称的指导的环境声音信号的含义,确认用户终端100已经向用户通知直到目的地的路径的情况,并且生成提供到目的地的剩余地铁站的指导的路径规则。
NLU模块220可以执行地铁线路图app,并生成指示用户移动路径中的剩余地铁站的路径规则。NLU模块220可以执行扬声器并生成路径规则,该路径规则以语音形式提供剩余地铁站的数量的指导。
PP模块230可以选择多个路径规则中的至少一个。
PP模块230可以选择与从用户终端100的图2的智能代理145接收到的用户终端100的信息(例如,app信息)相对应的路径规则,并且可以将所选路径规则发送到NLU模块220。例如,PP模块230可以确认用户终端100将执行音乐播放app,执行扬声器,并选择以语音形式提供剩余地铁站的数量的指导的路径规则。
在步骤④,智能服务器200可以向用户终端100发送所选路径规则。
在步骤⑤,用户终端100可以根据接收到的路径规则执行音乐播放app,并播放所选音乐文件。此外,用户终端100可以基于目的地和当前站的位置计算剩余站的数量,并通过扬声器通知用户剩余站的数量。
如上所述,当根据用户的命令生成路径规则时,根据本公开的实施例的集成智能系统10可以使用利用环境声音(例如,地铁指导意见)生成的环境信息(例如,用户乘坐地铁列车时移动的情况)来生成附加路径规则。
图10A是示出根据实施例的集成智能系统10中使用输入到用户终端100的语音和环境声音来执行功能的情况的框图。
参照图10A,在步骤①,用户终端100可以接收用户请求播放音乐的命令。例如,用户终端100可以接收用户的语音,以使用图1的输入模块110请求播放音乐。此时,用户终端100还可以接收从用户所在的地点发出的环境声音(例如,噪声或周围声音)以及用户的声音。即,用户终端100可以接收包括语音和环境声音的音频数据。
例如,用户终端100可以接收在下雨的地点说“播放音乐”的用户的声音。此外,用户终端100可以接收下雨声音作为用户所处情况的环境声音。
在步骤②,用户终端100可以通过通信网络500向智能服务器200发送接收到的语音和环境声音。
在步骤③,智能服务器200可以使用接收到的语音和环境声音生成路径规则。
智能服务器200的ASR模块210可以从接收到的音频数据中获得语音信号和环境声音信号。ASR模块210可以以文本数据的形式转换语音信号和环境声音信号。ASR模块210可以以文本数据的形式转换已分离出环境声音信号的语音信号。例如,ASR模块210的语音识别模块可以使用包括在接收到的语音信号中的语音和音素信息以及关于音素信息组合的信息,从而以文本数据形式转换接收到的语音信号。
智能服务器200的NLU模块220可以通过对转换为文本数据的语音信号“播放音乐”执行语法分析或语义分析来确认语音的内容。例如,NLU模块220可以获得接收到的语音的域(例如,音乐)和意图(例如,音乐播放)或者表达意图所必需的参数(例如,音乐文件和无线电信道)。
NLU模块220可以基于用户输入的意图和参数生成一个或多个路径规则。例如,NLU模块220可以选择音乐播放app,并生成确定要播放的音乐文件的路径规则。根据一个实施例,NLU模块220可以选择无线电播放app,并生成确定要播放的信道的路径规则。
PP模块230可以选择多个路径规则中的至少一个。
PP模块230可以选择从用户终端100的图2的智能代理145接收的与用户终端100的信息(例如,app信息)相对应的路径规则,并且可以将所选路径规则发送到NLU模块220。例如,PP模块230可以接收关于用户最近播放无线电app的情况的信息,并且可以选择执行无线电app的路径规则。PP模块230可以将所选路径规则发送到NLU模块220。
智能服务器200可以基于请求播放音乐的用户的语音语调来改变路径规则中包括的动作。例如,智能服务器200可以分析接收到的语音并改变路径规则中包括的动作,从而根据用户的情绪(例如,沮丧状态、愉快状态或悲伤状态)不同地设置要播放的音乐文件。
智能服务器200的NLU模块220可以确定(或分析或确认)环境声音信号的模式。例如,NLU模块220可以通过分析环境声音信号的模式来确认用户所在区域正在下雨。
另外,NLU模块220可以使用从用户终端100的图2的智能代理145接收到的用户终端100的信息。例如,NLU模块220可以使用从用户终端100接收到的位置信息和天气信息来提高关于用户所在区域正在下雨的准确性。
NLU模块220可以基于分析出的环境声音信号的模式生成一个或多个路径规则。例如,NLU模块220可以生成提供雨伞准备的指导的路径规则。
NLU模块220可以执行天气app并显示提供雨伞准备的指导的UI。NLU模块220可以执行扬声器并生成提供语音形式的雨伞的指导的路径规则。
PP模块230可以选择多个路径规则中的至少一个。
PP模块230可以选择从用户终端100的图2的智能代理145接收到的与用户终端100的信息(例如,app信息)相对应的路径规则,并且可以将所选路径规则发送到NLU模块220。例如,PP模块230可以确认用户终端100将执行音乐播放app,执行扬声器,并选择路径规则,该路径规则提供语音形式的雨伞准备的指导。
在步骤④,智能服务器200可以向用户终端100发送所选路径规则。
在步骤⑤,用户终端100可以根据接收到的路径规则执行音乐播放app,并播放所选音乐文件。此外,用户终端100可以提供语音形式的雨伞准备的指导。
智能服务器200可以如上所述使用上述ASR模块210和NLU模块220来执行语音信号和环境声音信号的识别,但是本公开不限于此。智能服务器200可以包括分别用于语音信号和环境声音信号的ASR模块210和NLU模块220。
如上所述,根据实施例的集成智能系统10可以在根据用户的命令生成路径规则时,利用环境声音信号的模式生成的环境(例如,下雨的情况)来生成附加路径规则。
图10B是示出根据实施例的集成智能系统10中使用输入到用户终端100的语音和环境声音来控制设备的情况的框图。
参照图10B,在步骤①,用户终端100可以接收请求调低声音的用户的命令。例如,用户终端100可以使用图1的输入模块110接收请求调低声音的用户的语音。此时,用户终端100还可以接收从用户所在的地点发出的环境声音(例如,TV声音或家庭扬声器声音)以及用户的声音。即,用户终端100可以接收包括语音和环境声音的音频数据。
例如,用户终端100可以接收在用户观看电视的地点说“调低声音”的用户的语音。
在步骤②,用户终端100可以通过通信网络500向智能服务器200发送接收到的语音和环境声音。
在步骤③,智能服务器200可以使用接收到的语音和环境声音生成路径规则。
智能服务器200的ASR模块210可以从接收到的音频数据中获得语音信号和环境声音信号。ASR模块210可以以文本数据的形式转换语音信号和环境声音信号。ASR模块210可以以文本数据的形式转换已分离出环境声音信号的语音信号。例如,ASR模块210的语音识别模块可以使用包括在接收到的语音信号中的语音和音素信息以及关于音素信息组合的信息,从而以文本数据形式转换接收到的语音信号。
智能服务器200的NLU模块220可以通过对转换为文本数据的语音信号“调低声音”执行语法分析或语义分析来确认语音的内容。
智能服务器200的NLU模块220可以确定(或分析、确认或识别)环境声音信号的模式。例如,NLU模块220可以通过分析环境声音信号的模式来确认用户位于用户观看电视的地点。
NLU模块220可以使用语音信号的内容和环境声音信号的模式来生成一个或多个路径规则。例如,NLU模块220可以包括深度NLU模块,用于通过组合语音信号的内容和环境声音信号的模式来估计用户的意图。
深度NLU模块可以基于语音信号的内容的分析结果来识别不存在其声音将被降低的对象,并且可以通过分析环境声音信号的模式来估计用户的意图是调低TV 1010的声音。
此外,深度NLU模块可以生成路径规则,该路径规则向已经与用户终端100建立了通信的TV 1010发送信号以调低声音。
PP模块230可以选择多个路径规则中的至少一个。
例如,PP模块230可以选择路径规则,该路径规则向已经与用户终端100建立了通信的TV 1010发送请求调低声音的信号。
在步骤④,智能服务器200可以向用户终端100发送所选路径规则。
在步骤⑤,用户终端100可以根据接收到的路径规则生成控制TV 1010的音量的信号,并且可以发送该信号。
智能服务器200可以使用如上所述的一个ASR模块210以及如上所述的NLU模块220来执行语音信号和环境声音信号的识别,但是本公开不限于此。智能服务器200可以包括分别用于语音信号和环境声音信号的ASR模块210和NLU模块220。
如上所述,根据本公开的实施例的集成智能系统10可以通过组合用户的命令和环境声音信号的模式来生成用户的意图已经被合并到其中的路径规则。此外,根据本公开的实施例的集成智能系统10可以使用用户终端100来控制TV 1010。
图11是根据实施例的使用输入到集成智能系统10中的用户终端的语音和环境声音来生成路径规则的方法的流程图。
参照图11,例如,第一元件1101可以是用户终端100,第二元件1102可以是图1的智能服务器200。或者,例如,第一元件1101可以是通用处理器,第二元件1102可以是人工智能专用处理器。或者,第一元件1101可以是例如至少一个app,并且第二元件1102可以是例如OS。
第二元件1102是比第一元件1101更集成或更专用的元件,或者被配置为具有比第一元件1101更少的延迟、更好的性能或更多的资源。与第一元件1101相比,第二元件1102可以是能够快速处理当生成、更新或应用用于识别包括语音信号和环境声音信号的音频数据的训练模型时所需的大量操作的元件。因此,第一元件1101还可以处理训练模型的生成、更新或应用。
训练模型可以以至少一个硬件集成电路或芯片的形式制造,并安装在电子装置上。例如,训练模型可以以AI专用硬件芯片的形式制造,或者可以被制造为现有通用处理器(例如,中央处理单元(CPU)或应用处理器(AP))或图形专用处理器(例如,图形处理单元(GPU))的一部分,并被安装在上述各种电子装置上。
根据一个实施例,训练模型可以替代例如图6的ASR模块210、NLU模块220、PP模块230、DM模块240、NLG模块250或TTS模块260中的至少一个模块。例如,至少一个上述模块的角色可以由训练模型来执行。训练模型可以包括多个子训练模型并执行上述模块的角色,或者可以包括单个训练模型并执行上述模块的所有角色。
训练模型可以替代例如图2的智能代理145、智能服务模块149或执行管理器模块147中的至少一个。例如,至少一个上述模块的角色可以由训练模型执行。训练模型可以包括多个子训练模型并执行上述模块的角色,或者可以包括单个训练模型并执行上述模块的所有角色。
可以添加执行类似于第二元件1102的功能的第三元件。例如,第二元件1102可以是被配置为在生成、更新或应用被配置为识别音频数据的语音信号的训练模型时执行必要操作的元件。此外,第三元件可以是被配置为在生成、更新或应用被配置为识别音频数据的环境声音信号的训练模型时执行必要操作的元件。然而,本公开不限于上述实施例。
在这种情况下,可以定义用于在第一元件1101与第二元件1102之间发送和接收数据的接口。
例如,可以定义应用程序接口(API),其将训练数据作为因子值(或参数值或传递值)应用于训练模型。API可以被定义为一组子例程或函数,这些子例程或函数可以从用户终端100中定义的协议中提取出来,用于智能服务器200中定义的协议的任何处理。即,可以提供其中可以通过API在一个协议中执行其他协议的操作的环境。
在步骤1110,第一元件1101可以接收音频数据。例如,第一元件1101可以接收用户的语音以及从用户所在的地点生成的语音和环境声音作为音频数据。
在步骤1120,第一元件1101可以请求第二元件1102来估计音频数据的内容。
例如,图9的对应于第一元件1101的用户终端100可以请求图9的对应于第二元件1102的智能服务器200在发送音频数据的同时估计音频数据的内容。
根据实施例,包括在图2的用户终端100中的与第一元件1101相对应的处理器150可以请求包括在图2的用户终端100中的与第二元件1102相对应的智能服务模块149在发送音频数据的同时估计音频数据的内容。
在步骤1130,第二元件1102可以通过将音频数据的语音信号应用于训练模型来估计语音信号的内容。例如,第二元件1102可以使用自动语音识别模块、NLU模块220等来估计语音的内容。
在步骤1140,第二元件1102可以通过将音频数据的环境声音信号应用于训练模型来估计环境信息。例如,第二元件1102可以分别获得用户的语音信号和环境声音信号。此外,包括在第二元件1102中的ASR模块210可以估计除了用户的语音信号之外的包括在环境声音信号中的语音的内容。此外,ASR模块210可以通过估计环境声音信号的模式来估计用户所处的环境。
在步骤1150,第二元件1102可以使用语音信号的内容和环境声音信号的模式来生成路径规则。
在步骤1160,第二元件1102可以将路径规则发送到第一元件1101。第一元件1101可以根据接收到的路径规则执行至少一个app或功能。
图12是根据实施例的生成在集成智能系统10中使用的训练模型的方法的流程图。
参照图12,训练模型可以被配置为估计包括例如语音和环境声音的音频数据的内容,并执行智能服务。
训练模型可以包括例如图6的ASR模块210、NLU模块220、PP模块230、DM模块240、NLG模块250或TTS模块260中的至少一个模块。
训练模型可以包括例如图2的智能代理145、智能服务模块149或执行管理器模块147中的至少一个。
集成智能系统10可以实现被配置为估计语音信号的内容的训练模型和被配置为将环境声音信号的内容或环境声音信号的模式估计为一个模型的训练模型,或者可以单独地实现训练模型。
参照图12,可以执行基于训练数据1210来执行训练训练模型的建模过程1220。在这种情况下,训练数据1210例如可以包括音频数据1212、音频数据的特性(例如,音频数据的波形)1214、音频数据的内容1216以及对应于音频数据的路径规则1218中的至少一个。
训练模型可以识别音频数据1212的类别。例如,第一类别可以是包括碰撞声音(例如,车辆碰撞或建筑物倒塌时发出的噪声)的类别。第二类别可以是包括高音的类别,例如威胁、求助、惊叫或哭泣。第三类别可以包括包括俚语的类别。然而,本公开不限于上述内容。例如,训练模型可以通过聚类输入的音频数据而不指定类别来生成多个聚类。
例如,训练模型可以将音频数据1212的环境声音识别为第一类别或第二类别中的至少一个类别。此外,训练模型可以将音频数据1212的语音识别为第二类别或第三类别中的至少一个类别。
音频数据的特性1214可以是例如音频数据波形的特性。音频数据波形的特性可以指示例如音频数据的大小随时间的高低。
音频数据的内容1216可以指示每个类别的音频数据已经发生的情况。例如,属于第一类别的包括碰撞声音的环境声音可以指示在用户所处的环境中已经发生了事故(例如,车辆碰撞或建筑物倒塌)。属于第二类别的环境声音或声音包括高音,例如威胁、求救、惊叫或哭泣,可以指示用户请求救援的情况。属于第三类别的包括俚语的语音可以指示用户受到他人威胁的情况。
当执行建模过程1220时,建模过程可以估计包括发声环境声音的音频数据的内容,估计用户的状况作为估计出的结果,并且导出被配置为生成相应的路径规则的训练模型1230。
用户终端100的图2的智能服务器200或智能代理145可以通过使用上述训练模型估计音频数据的内容来估计用户的状况,并生成相应的路径规则。
图13是示出根据实施例的集成智能系统10中执行智能服务的情况的框图。
参照图13,当用户终端100的音频数据的大小变化超过了预设范围时,可以存储在接收到的音频数据中给定时间(例如,10到30秒)的音频数据。例如,当接收到大约40dB的音频数据时,在短时间(例如,1至3秒)内接收到接近90dB的音频数据的情况可以是音频数据的大小变化很大的情况,但是本公开不限于此。
当用户终端的移动超过了预设范围时,用户终端100可以在给定时间接收音频数据,并且可以存储接收到的音频数据。例如,当用户终端100通过包括在用户终端100中的加速度传感器、陀螺仪传感器等被识别为在1秒内移动50至70cm或更多时,用户终端100可以在给定时间内存储一些接收到的音频数据。
在步骤①,用户终端100可以接收在车辆碰撞时发生的碰撞声音或者在人摔倒时产生的人的高音的惊叫。用户终端100可以通过包括在图2的智能代理145中的唤醒识别模块接收碰撞声音或高音。为此,唤醒识别模块可以由低能量处理器实现。
由于车辆之间的碰撞而发生碰撞声音或者由于事故而有人大声说话的情况可以是音频数据的大小变化超过了预设范围的情况。因此,用户终端100可以在设定时间内接收和存储音频数据。
当用户摔倒时,用户终端100可以检测到用户终端100在短时间内移动预设距离。在这种情况下,用户终端可以根据用户的摔倒检测用户终端100的移动,在预定时间接收音频数据,并存储接收到的音频数据。
在步骤②,用户终端100可以使用接收到的音频数据生成路径规则。
用户终端100中包括的图2的智能代理145可以估计接收到的音频数据的类别。
图2的智能代理145可以将接收到的音频数据分成语音和环境声音。
例如,图2的智能代理145可以估计当车辆碰撞时发生的环境声音属于包括碰撞声音的第一类别。此外,图2的智能代理145可以估计当人摔倒时发出的声音(例如,高音的惊叫)属于包括高音的第二类别。
图2的智能代理145可以生成对应于每个类别的路径规则。例如,图2的智能代理145可以生成路径规则,该路径规则向预设目标(例如,家庭)发送提供事故发生的通知的消息。
用户终端100可以根据生成的路径规则来执行功能。
在步骤③,用户终端100可以通过通信网络500将接收到的音频数据发送到智能服务器200。
在步骤④,智能服务器200可以估计音频数据的类别。根据一个实施例,智能服务器200可以将接收到的音频数据分成语音和环境声音,并估计各自的类别。例如,智能服务器200的NLU模块220可以估计当车辆碰撞时发生的环境声音属于包括碰撞声音的第一类别。此外,NLU模块220可以估计当人摔倒时发出的语音(例如,高音的惊叫)属于包括高音的第二类别。
NLU模块220可以生成对应于每个类别的路径规则。例如,NLU模块220可以通知事故发生信息的预设目标。
在步骤⑤,智能服务器200可以将事故发生信息发送到由支持紧急救援服务的公司管理的服务器1301(例如,位于事故发生区域附近的消防站或警察局)。智能服务器200可以将事故发生信息发送到提供与交通信息相关的信息的服务器。
在步骤⑥,服务器1301可以基于接收到的信息执行紧急救援服务或更新交通指导信息。此外,智能服务器200可以将事故发生信息发送到位于事故发生区域相邻的位置的各种装置(例如,智能手机和连接的汽车)。
在步骤⑦,智能服务器200可以通过向用户终端100发送根据智能服务器200生成的路径规则执行的操作来向用户提供指导。
图14是示出根据实施例的集成智能系统10中执行智能服务的情况的框图。
参照图14,在步骤①,用户终端100可以接收音频数据。
当接收到预设字或句子时,用户终端100可以在给定时间接收音频数据,并且可以存储接收到的音频数据。
例如,用户终端100可以在接收到预设俚语词的情况下接收到的音频数据中存储给定时间的音频数据。
在步骤②,用户终端100可以通过通信网络500将接收到的音频数据发送到智能服务器200。
在步骤③,智能服务器200可以使用接收到的音频数据生成路径规则。
智能服务器200的ASR模块210可以识别音频数据中的语音和环境声音。ASR模块210可以以文本数据的形式转换所识别的语音。例如,ASR模块210中包括的语音识别模块可以使用接收到的语音中包括的语音和音素信息以及关于音素信息组合的信息,以文本数据的形式转换接收到的语音和环境声音。
智能服务器200的NLU模块220可以通过对文本数据执行语法分析或语义分析来确认语音的内容。
NLU模块220可以基于语音的内容生成一个或多个路径规则。例如,NLU模块220可以生成执行录音app的路径规则。NLU模块220可以生成执行相机app的路径规则。
PP模块230可以选择多个路径规则中的至少一个。
PP模块230可以选择与从用户终端100的图2的智能代理145接收到的用户终端100的信息(例如,app使用信息和终端的姿势信息)相对应的路径规则,并且可以将该路径规则发送到NLU模块220。例如,PP模块230可以接收关于位于诸如包或口袋之类的黑暗环境中的用户的终端的信息,并且可以选择执行录音app的路径规则。PP模块230可以将所选路径规则发送到NLU模块220。
在步骤④,智能服务器200可以向用户终端100发送所选路径规则。
在步骤⑤,用户终端100可以根据接收到的路径规则执行录音app,并开始音频数据录音。
用户终端100可以使用包括在用户终端100中的图2的智能代理145、图2的智能服务模块149和执行管理器模块147来执行上述过程,而无需与智能服务器200一起工作。
图15是根据实施例的在集成智能系统10中使用输入到用户终端的音频数据来执行智能服务的方法的流程图。
参照图15,在步骤1510,第一元件1101可以接收包括语音和环境声音的音频数据。
在步骤1515,第一元件1101可以确认接收到的音频数据是否满足智能服务的自动执行条件。例如,当接收到的音频数据的大小超过了预设值或者接收到预设字或句子时,第一元件1101可以确认满足自动执行条件。此外,当用户终端100短时间移动设定距离或更长时,第一元件1101可以确认满足自动执行条件。
在步骤1520,当满足自动执行智能服务的条件时,第一元件1101可以在设定时间存储音频数据。
在步骤1525,第一元件1101可以确定音频数据将被应用到的训练模型。
对应于第一元件1101的图9的用户终端100可以识别音频数据中包括的语音和环境声音。例如,图9的用户终端100可以将音频数据中包括的碰撞声音识别为环境声音,并将俚语和高音识别为语音。
在步骤1530,当接收到俚语词并且自动执行智能服务时,第一元件1101可以通过将存储的音频数据应用到训练模型来估计存储的音频数据(例如,俚语词)的内容。根据实施例的第一元件1101可以将俚语词转换为文本数据,可以通过对文本数据执行语法分析或语义分析来确认语音的内容,并且可以估计俚语词的类别。
在步骤1535,第一元件1101可以基于俚语词的估计内容和类别生成路径规则。例如,第一元件1101可以生成执行录音app的路径规则。
在步骤1540,第一元件1101可以根据路径规则执行功能。例如,第一元件1101可以执行录音app。
在步骤1545,当接收到碰撞声音或高音的惊叫并且自动执行智能服务时,第一元件1101可以请求第二元件1102来估计音频数据(例如,碰撞声音或高音)。
在步骤1550,第二元件1102可以通过将音频数据应用于训练模型来估计碰撞声音或高音的内容。根据一个实施例的第二元件1102可以估计碰撞声音或高音的类别。
在步骤1555,第二元件1102可以使用估计出的内容来生成路径规则。例如,第二元件1102可以基于碰撞声音或高音的类别来生成路径规则。例如,第二元件1102可以生成向预设目标(例如,消防站、警察局或交通信息中心)通知关于事故发生的信息的路径规则。
在步骤1560,第二元件1102可以根据路径规则来执行功能。例如,第二元件1102可以通知消防站等事故发生。
图16是示出根据各种实施例的网络环境1600中的电子装置1601的框图。参照图16,网络环境1600中的电子装置1601可经由第一网络1698(例如,短距离无线通信网络)与电子装置1602进行通信,或者经由第二网络1699(例如,长距离无线通信网络)与电子装置1604或服务器1608进行通信。根据实施例,电子装置1601可经由服务器1608与电子装置1604进行通信。根据实施例,电子装置1601可包括处理器1620、存储器1630、输入装置1650、声音输出装置1655、显示装置1660、音频模块1670、传感器模块1676、接口1677、触觉模块1679、相机模块1680、电力管理模块1688、电池1689、通信模块1690、用户识别模块(SIM)1696或天线模块1697。在一些实施例中,可从电子装置1601中省略所述部件中的至少一个(例如,显示装置1660或相机模块1680),或者可将一个或更多个其它部件添加到电子装置1601中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块1676(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置1660(例如,显示器)中。
处理器1620可运行例如软件(例如,程序1640)来控制电子装置1601的与处理器1620连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器1620可将从另一部件(例如,传感器模块1676或通信模块1690)接收到的命令或数据加载到易失性存储器1632中,对存储在易失性存储器1632中的命令或数据进行处理,并将结果数据存储在非易失性存储器1634中。根据实施例,处理器1620可包括主处理器1621(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器1621在操作上独立的或者相结合的辅助处理器1623(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器1623可被适配为比主处理器1621耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器1623实现为与主处理器1621分离,或者实现为主处理器1621的部分。
在主处理器1621处于未激活(例如,睡眠)状态时,辅助处理器1623可控制与电子装置1601(而非主处理器1621)的部件之中的至少一个部件(例如,显示装置1660、传感器模块1676或通信模块1690)相关的功能或状态中的至少一些,或者在主处理器1621处于激活状态(例如,运行应用)时,辅助处理器1623可与主处理器1621一起来控制与电子装置1601的部件之中的至少一个部件(例如,显示装置1660、传感器模块1676或通信模块1690)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器1623(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器1623相关的另一部件(例如,相机模块1680或通信模块1690)的部分。
存储器1630可存储由电子装置1601的至少一个部件(例如,处理器1620或传感器模块1676)使用的各种数据。所述各种数据可包括例如软件(例如,程序1640)以及针对与其相关的命令的输入数据或输出数据。存储器1630可包括易失性存储器1632或非易失性存储器1634。
可将程序1640作为软件存储在存储器1630中,并且程序1640可包括例如操作系统(OS)1642、中间件1644或应用1646。
输入装置1650可从电子装置1601的外部(例如,用户)接收将由电子装置1601的其它部件(例如,处理器1620)使用的命令或数据。输入装置1650可包括例如麦克风、鼠标、键盘或数字笔(例如,手写笔)。
声音输出装置1655可将声音信号输出到电子装置1601的外部。声音输出装置1655可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置1660可向电子装置1601的外部(例如,用户)视觉地提供信息。显示装置1660可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置1660可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块1670可将声音转换为电信号,反之亦可。根据实施例,音频模块1670可经由输入装置1650获得声音,或者经由声音输出装置1655或与电子装置1601直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置1602)的耳机输出声音。
传感器模块1676可检测电子装置1601的操作状态(例如,功率或温度)或电子装置1601外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块1676可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口1677可支持将用来使电子装置1601与外部电子装置(例如,电子装置1602)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口1677可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端1678可包括连接器,其中,电子装置1601可经由所述连接器与外部电子装置(例如,电子装置1602)物理连接。根据实施例,连接端1678可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块1679可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块1679可包括例如电机、压电元件或电刺激器。
相机模块1680可捕获静止图像或运动图像。根据实施例,相机模块1680可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块1688可管理对电子装置1601的供电。根据实施例,可将电力管理模块1688实现为例如电力管理集成电路(PMIC)的至少部分。
电池1689可对电子装置1601的至少一个部件供电。根据实施例,电池1689可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块1690可支持在电子装置1601与外部电子装置(例如,电子装置1602、电子装置1604或服务器1608)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块1690可包括能够与处理器1620(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块1690可包括无线通信模块1692(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1694(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络1698(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络1699(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块1692可使用存储在用户识别模块1696中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络1698或第二网络1699)中的电子装置1601。
天线模块1697可将信号或电力发送到电子装置1601的外部(例如,外部电子装置)或者从电子装置1601的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块1697可包括天线,所述天线包括辐射元件,所述辐射元件由形成在基底(例如,PCB)中或形成在基底上的导电材料或导电图案构成。根据实施例,天线模块1697可包括多个天线。在这种情况下,可由例如通信模块1690(例如,无线通信模块1692)从所述多个天线中选择适合于在通信网络(诸如第一网络1698或第二网络1699)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块1690和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另外的组件(例如,射频集成电路(RFIC))可附加地形成为天线模块1697的一部分。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络1699连接的服务器1608在电子装置1601和外部电子装置1604之间发送或接收命令或数据。电子装置1602和电子装置1604中的每一个可以是与电子装置1601相同类型的装置,或者是与电子装置1601不同类型的装置。根据实施例,将在电子装置1601运行的全部操作或一些操作可在外部电子装置1602、外部电子装置1604或服务器1608中的一个或更多个运行。例如,如果电子装置1601应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置1601可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置1601除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置1601。电子装置1601可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器1636或外部存储器1638)中的可由机器(例如,电子装置1601)读取的一个或更多个指令的软件(例如,程序1640)。例如,在处理器的控制下,所述机器(例如,电子装置1601)的处理器(例如,处理器1620)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。
虽然已经参考本公开的某些实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本公开的范围的情况下,可以在形式和细节上进行各种改变。

Claims (9)

1.一种用于处理声音数据的系统,所述系统包括:
通信接口;
至少一个处理器,所述至少一个处理器可操作地耦接到所述通信接口;以及
至少一个存储器,所述至少一个存储器可操作地耦接到所述至少一个处理器,
其中,所述至少一个存储器被配置为存储指令,所述指令被配置为使所述至少一个处理器执行如下操作:
通过所述通信接口从第一外部装置接收声音数据,
使用至少一些自动语音识别模块来从所述声音数据获得语音信号和环境声音信号,
将所述语音信号转换为第一文本数据,并且将所述环境声音信号转换为第二文本数据,
使用所述第一文本数据来确定使所述第一外部装置执行与所述语音信号相关的第一任务的第一状态序列,并且
基于所述第二文本数据来确定使所述第一外部装置执行与所述环境声音信号相关的第二任务的第二状态序列。
2.根据权利要求1所述的系统,其中,所述至少一个存储器还被配置为存储指令,所述指令被配置为使所述至少一个处理器在所述至少一个存储器工作时基于至少一些所述第一文本数据来确定所述声音数据的意图。
3.根据权利要求2所述的系统,其中,所述至少一个存储器还被配置为存储指令,所述指令被配置为使所述至少一个处理器在所述至少一个存储器工作时确定使所述第一外部装置执行与所述语音信号相关的所述第一任务的所述第一状态序列。
4.根据权利要求3所述的系统,其中,所述至少一个存储器还被配置为存储指令,所述指令被配置为使所述至少一个处理器在所述至少一个存储器工作时通过所述通信接口向所述第一外部装置提供所述第一状态序列。
5.根据权利要求3所述的系统,其中,所述至少一个存储器还被配置为存储指令,所述指令被配置为使所述至少一个处理器在所述至少一个存储器工作时确定使第二外部装置执行与所述语音信号相关的所述第一任务的所述第一状态序列。
6.根据权利要求5所述的系统,其中,所述至少一个存储器还被配置为存储指令,所述指令被配置为使所述至少一个处理器在所述至少一个存储器工作时通过所述通信接口向所述第一外部装置提供所述第一状态序列。
7.一种控制用于处理声音数据的系统的方法,所述方法包括:
从第一外部装置接收声音数据;
从所述声音数据获得语音信号和环境声音信号;
将所述语音信号转换为第一文本数据,并且将所述环境声音信号转换为第二文本数据;
使用所述第一文本数据来确定使所述第一外部装置执行与所述语音信号相关的第一任务的第一状态序列,并且
基于所述第二文本数据来确定使所述第一外部装置执行与所述环境声音信号相关的第二任务的第二状态序列。
8.根据权利要求7所述的方法,所述方法还包括基于至少一些所述第一文本数据来确定意图。
9.根据权利要求7所述的方法,所述方法还包括向所述第一外部装置提供所述第一状态序列。
CN201910144585.7A 2018-03-19 2019-02-27 用于处理声音数据的系统和控制该系统的方法 Active CN110288987B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180031472A KR102635811B1 (ko) 2018-03-19 2018-03-19 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
KR10-2018-0031472 2018-03-19

Publications (2)

Publication Number Publication Date
CN110288987A CN110288987A (zh) 2019-09-27
CN110288987B true CN110288987B (zh) 2024-02-06

Family

ID=65903984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910144585.7A Active CN110288987B (zh) 2018-03-19 2019-02-27 用于处理声音数据的系统和控制该系统的方法

Country Status (6)

Country Link
US (1) US11004451B2 (zh)
EP (1) EP3543999A3 (zh)
JP (1) JP7317529B2 (zh)
KR (1) KR102635811B1 (zh)
CN (1) CN110288987B (zh)
WO (1) WO2019182226A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11295603B2 (en) 2011-10-28 2022-04-05 Universal Electronics Inc. System and method for optimized appliance control
US11700412B2 (en) 2019-01-08 2023-07-11 Universal Electronics Inc. Universal voice assistant
US11792185B2 (en) 2019-01-08 2023-10-17 Universal Electronics Inc. Systems and methods for associating services and/or devices with a voice assistant
US11756412B2 (en) 2011-10-28 2023-09-12 Universal Electronics Inc. Systems and methods for associating services and/or devices with a voice assistant
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
US11776539B2 (en) 2019-01-08 2023-10-03 Universal Electronics Inc. Voice assistant with sound metering capabilities
CN114430848A (zh) * 2019-07-05 2022-05-03 Gn 奥迪欧有限公司 一种用于识别一个或多个嘈杂人员的方法和噪声指示器系统
CN112581961A (zh) * 2019-09-27 2021-03-30 百度在线网络技术(北京)有限公司 一种语音信息处理方法及装置
US10798583B1 (en) * 2019-10-07 2020-10-06 Paypal, Inc. Mobile device user detection
EP4018272A1 (en) * 2019-10-14 2022-06-29 Siemens Aktiengesellschaft Artificial intelligence (ai) companions for function blocks in a programmable logic controller (plc) program for integrating ai in automation
KR20210045241A (ko) 2019-10-16 2021-04-26 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령어 공유 방법
CN111081248A (zh) * 2019-12-27 2020-04-28 安徽仁昊智能科技有限公司 一种人工智能语音识别装置
EP4066239A4 (en) * 2019-12-31 2023-01-18 Universal Electronics Inc. VOICE ASSISTANT WITH NOISE MEASUREMENT CAPABILITIES
WO2021165900A1 (en) * 2020-02-21 2021-08-26 Das Mrinmoy Jyoti An automated system to perform desired orchestration activity
KR102400903B1 (ko) * 2020-03-13 2022-05-24 주식회사 코클 오디오 데이터 식별장치
KR20210119181A (ko) 2020-03-24 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11929079B2 (en) * 2020-10-27 2024-03-12 Samsung Electronics Co., Ltd Electronic device for managing user model and operating method thereof
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN113976478A (zh) * 2021-11-15 2022-01-28 中国联合网络通信集团有限公司 矿石检测方法、服务器、终端及系统
WO2024145676A1 (en) * 2022-12-31 2024-07-04 Theai, Inc. Emotional state models and continuous update of emotional states of artificial intelligence characters

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测
CN104969289A (zh) * 2013-02-07 2015-10-07 苹果公司 数字助理的语音触发器
US9432768B1 (en) * 2014-03-28 2016-08-30 Amazon Technologies, Inc. Beam forming for a wearable computer
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
WO2018038379A1 (ko) * 2016-08-26 2018-03-01 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 이의 제어 방법

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040053393A (ko) 2002-12-14 2004-06-24 삼성전자주식회사 이동통신 단말기를 이용한 응급구조 요청방법
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US7490042B2 (en) * 2005-03-29 2009-02-10 International Business Machines Corporation Methods and apparatus for adapting output speech in accordance with context of communication
US8323189B2 (en) 2006-05-12 2012-12-04 Bao Tran Health monitoring appliance
US7792813B2 (en) 2007-08-31 2010-09-07 Microsoft Corporation Presenting result items based upon user behavior
US8311820B2 (en) * 2010-01-28 2012-11-13 Hewlett-Packard Development Company, L.P. Speech recognition based on noise level
WO2012135210A2 (en) 2011-03-31 2012-10-04 Microsoft Corporation Location-based conversational understanding
JP6131249B2 (ja) * 2011-06-19 2017-05-17 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
KR101914708B1 (ko) 2012-06-15 2019-01-14 삼성전자주식회사 서버 및 서버의 제어 방법
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US20140006550A1 (en) 2012-06-30 2014-01-02 Gamil A. Cain System for adaptive delivery of context-based media
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
WO2014050002A1 (ja) 2012-09-28 2014-04-03 日本電気株式会社 クエリ類似度評価システム、評価方法、及びプログラム
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US9236046B2 (en) * 2013-03-14 2016-01-12 Covidien Lp Systems and methods for identifying patient distress based on a sound signal
JP6410491B2 (ja) 2014-06-27 2018-10-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム
KR102169692B1 (ko) * 2014-07-08 2020-10-26 삼성전자주식회사 멀티-코어 프로세서를 포함하는 시스템 온 칩 및 그것의 동적 전력 관리 방법
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
KR102247533B1 (ko) 2014-07-30 2021-05-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
US9799329B1 (en) 2014-12-03 2017-10-24 Amazon Technologies, Inc. Removing recurring environmental sounds
KR101941273B1 (ko) 2014-12-09 2019-04-10 경희대학교 산학협력단 모바일 단말기 기반의 생활 코칭 방법과 모바일 단말기 및 이 방법을 기록한 컴퓨터로 읽을 수 있는 기록 매체
EP3264258A4 (en) 2015-02-27 2018-08-15 Sony Corporation Information processing device, information processing method, and program
JP6584795B2 (ja) 2015-03-06 2019-10-02 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
KR101774236B1 (ko) * 2015-05-22 2017-09-12 한국항공대학교산학협력단 사용자 상황 인지 장치 및 방법
CN104951077A (zh) 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
KR20170000722A (ko) * 2015-06-24 2017-01-03 엘지전자 주식회사 전자기기 및 그의 음성 인식 방법
US20160378747A1 (en) * 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR20170018140A (ko) * 2015-08-05 2017-02-16 한국전자통신연구원 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치
KR20170032114A (ko) * 2015-09-14 2017-03-22 삼성전자주식회사 음성 인식 장치 및 그의 제어방법
US10289381B2 (en) * 2015-12-07 2019-05-14 Motorola Mobility Llc Methods and systems for controlling an electronic device in response to detected social cues
CN107195296B (zh) 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
KR101772156B1 (ko) 2016-07-22 2017-09-12 이풍우 음성 인식 하드웨어 모듈
BR112018073991A2 (pt) * 2016-08-09 2019-02-26 Huawei Technologies Co., Ltd. sistema em chip e dispositivo de processamento
US10360910B2 (en) * 2016-08-29 2019-07-23 Garmin Switzerland Gmbh Automatic speech recognition (ASR) utilizing GPS and sensor data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104969289A (zh) * 2013-02-07 2015-10-07 苹果公司 数字助理的语音触发器
CN104867495A (zh) * 2013-08-28 2015-08-26 德州仪器公司 上下文感知的声音标志检测
US9432768B1 (en) * 2014-03-28 2016-08-30 Amazon Technologies, Inc. Beam forming for a wearable computer
CN107516511A (zh) * 2016-06-13 2017-12-26 微软技术许可有限责任公司 意图识别和情绪的文本到语音学习系统
WO2018038379A1 (ko) * 2016-08-26 2018-03-01 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 이의 제어 방법

Also Published As

Publication number Publication date
JP7317529B2 (ja) 2023-07-31
WO2019182226A1 (en) 2019-09-26
US20190287525A1 (en) 2019-09-19
KR20190109868A (ko) 2019-09-27
KR102635811B1 (ko) 2024-02-13
EP3543999A2 (en) 2019-09-25
US11004451B2 (en) 2021-05-11
EP3543999A3 (en) 2019-11-06
JP2019164345A (ja) 2019-09-26
CN110288987A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110288987B (zh) 用于处理声音数据的系统和控制该系统的方法
US10832674B2 (en) Voice data processing method and electronic device supporting the same
US11670302B2 (en) Voice processing method and electronic device supporting the same
CN108694944B (zh) 通过使用框架生成自然语言表达的方法和设备
US20190019509A1 (en) Voice data processing method and electronic device for supporting the same
CN111919248B (zh) 用于处理用户发声的系统及其控制方法
US20210151052A1 (en) System for processing user utterance and control method thereof
US10560576B1 (en) Electronic device for performing task including call in response to user utterance and operation method thereof
US20220020358A1 (en) Electronic device for processing user utterance and operation method therefor
US11361750B2 (en) System and electronic device for generating tts model
US10976997B2 (en) Electronic device outputting hints in an offline state for providing service according to user context
US11720324B2 (en) Method for displaying electronic document for processing voice command, and electronic device therefor
CN112219235A (zh) 包括处理用户语音的电子设备和控制电子设备上语音识别的方法的系统
KR20190130202A (ko) 전자 장치 및 전자 장치의 기능 실행 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant