CN112912954B - 电子装置及其控制方法 - Google Patents

电子装置及其控制方法 Download PDF

Info

Publication number
CN112912954B
CN112912954B CN201980070239.7A CN201980070239A CN112912954B CN 112912954 B CN112912954 B CN 112912954B CN 201980070239 A CN201980070239 A CN 201980070239A CN 112912954 B CN112912954 B CN 112912954B
Authority
CN
China
Prior art keywords
model
user
speech
voice
completed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980070239.7A
Other languages
English (en)
Other versions
CN112912954A (zh
Inventor
柳映准
陈张浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112912954A publication Critical patent/CN112912954A/zh
Application granted granted Critical
Publication of CN112912954B publication Critical patent/CN112912954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

在本公开中,提供了一种电子装置及其控制方法。本公开的电子装置包括:存储器,其中存储了第一模型和第二模型;以及处理器,被配置为当接收到用户声音时,根据接收到的用户声音的完成来生成对用户声音的响应,该完成是基于第一模型和第二模型而确定的。在此,第一模型使用多个完成的句子的句子结构作为训练数据,并且第二模型使用多个完成的句子和与该多个完成的句子相对应的意图作为训练数据。特别地,第一模型和第二模型可以是根据机器学习、神经网络或深度学习算法中的至少之一而被训练的人工智能模型。

Description

电子装置及其控制方法
技术领域
本公开涉及一种电子装置及其控制方法,并且更具体地,涉及一种用于确定接收到的用户语音是否完成的电子装置及其控制方法。
背景技术
随着语音识别技术的发展,借助语音识别技术的电子装置越来越多。借助语音识别技术的电子装置接收用户发出的语音命令的输入并根据用户语音来执行功能。
为了使电子装置正确地根据用户语音执行功能,电子装置需要接收完成的用户语音。
在现有技术中,为了接收完成的用户语音,已使用了其中用户在按下电子装置的按钮的同时发声的按钮释放方法、其中如果在特定时间段内没有用户的发声则确定发声完成的超时方法等。
在现有技术的这种方法中,如果用户在发声期间未能按下按钮或用户暂时停止发声且在预定的特定时间段内未输入完成形式的发声,则在预定的特定时间段内用户未能按下按钮或发声输入之前,电子装置针对发声输入执行语音识别。在这种情况下,由于用户没有完成发声,因此很可能出现语音识别结果的错误,并因此,用户不得不再次执行相同的发声是不方便的。
发明内容
技术问题
鉴于上述问题而做出本公开,并且本公开的目的在于提供一种基于用户发出的语音的含义来确定用户语音是否完成的电子装置及其控制方法。
技术方案
根据本公开的实施例,提供了一种电子装置,包括:存储器,被配置为存储第一模型和第二模型;以及处理器,被配置为响应于基于第一模型和第二模型而确定的用户语音是否完成来生成对接收到的用户语音的响应,其中,第一模型是使用多个完成的句子的句子结构作为学习数据的模型,以及第二模型是使用多个完成的句子和与该多个完成的句子相对应的意图作为学习数据的模型。
可以基于构成多个完成的句子中的每个完成的句子的至少一个元素的词性来确定句子结构,并且第一模型可以是基于该至少一个元素的词性而被训练的模型,从而根据构成用户语音的元素的词性来确定用户语音是否完成。
第二模型可以是按意图基于构成完成的句子的元素的词性而被训练的模型,从而根据用户语音的意图和构成用户语音的元素的词性来确定用户语音是否完成。
可以根据上下文,使用学习数据来训练第一模型和第二模型,并且处理器可以被配置为通过使用第一模型和第二模型来根据上下文确定用户语音是否完成。
处理器可以被配置为:通过使用从用户语音中获得的信息作为第一模型和第二模型的输入数据,分别从第一模型和第二模型获得指示用户语音是否为完成的句子的信息;以及基于分别从第一模型和第二模型获得的信息来确定用户语音是否完成。
处理器可以被配置为根据基于分别从第一模型和第二模型获得的信息将用户语音确定为完成的句子且用户语音不对应于预定异常句子,确定用户语音完成。
处理器可以被配置为:将用户语音转换成文本;以及基于该文本来获得与用户语音的意图和构成用户语音的元素的词性有关的信息。
处理器可以被配置为:通过使用构成用户语音的句子成分的词性作为第一模型的输入数据来获得与用户语音的句子是否完成相对应的第一输出值;通过使用用户语音的意图和构成用户语音的句子成分的词性作为第二模型的输入数据来获得与用户语音的句子是否完成相对应的第二输出值;以及基于第一输出值和第二输出值来确定用户语音是否完成。
处理器可以被配置为:将第一预定权重应用于第一输出值;将第二预定权重应用于第二输出值;将应用了第一权重的第一输出值与应用了第二权重的第二输出值相加;以及基于相加后的值来确定用户语音是否完成。
处理器可以被配置为基于相加后的值是预定值或更大值且用户语音不对应于预定异常句子来确定用户语音完成。
根据本公开的另一实施例,提供了一种控制电子装置的方法,该方法包括:接收用户语音;通过使用第一模型和第二模型来确定用户语音是否完成;以及响应于基于第一模型和第二模型而确定的接收到的用户语音是否完成来提供对用户语音的响应。
第一模型可以是使用多个完成的句子的句子结构作为学习数据的模型,第二模型可以是使用多个完成的句子和与该多个完成的句子相对应的意图作为学习数据的模型。
可以基于构成多个完成的句子中的每个完成的句子的至少一个元素的词性来确定句子结构,并且第一模型可以是基于该至少一个元素的词性而被训练的模型,从而根据构成用户语音的元素的词性来确定用户语音是否完成。
第二模型可以是按意图基于构成完成的句子的元素的词性而被训练的模型,从而根据用户语音的意图和构成用户语音的元素的词性来确定用户语音是否完成。
可以根据上下文,使用学习数据来训练第一模型和第二模型,并且所述确定可以包括通过使用第一模型和第二模型来根据上下文确定用户语音是否完成。
控制方法还可以包括通过使用从用户语音中获得的信息作为第一模型和第二模型的输入数据来获得指示用户语音是否为完成的句子的信息,并且所述确定可以包括基于分别从第一模型和第二模型获得的信息来确定用户语音是否完成。
所述确定可以包括:根据基于分别从第一模型和第二模型获得的信息将用户语音确定为完成的形式且用户语音不对应于预定异常句子,来确定用户语音完成。
控制方法还可以包括:将用户语音转换成文本;以及基于该文本获得与用户语音的意图和包括在用户语音中的元素的词性有关的信息。
所述确定可以包括:通过使用构成用户语音的句子成分的词性作为第一模型的输入数据来获得与用户语音的句子是否完成相对应的第一输出值;通过使用用户语音的意图和构成用户语音的句子成分的词性作为第二模型的输入数据来获得与用户语音的句子是否完成相对应的第二输出值;以及基于第一输出值和第二输出值来确定用户语音是否完成。
所述确定可以包括:将第一预定权重应用于第一输出值;将第二预定权重应用于第二输出值;将应用了第一权重的第一输出值与应用了第二权重的第二输出值相加;以及基于相加后的值来确定用户语音是否完成。
所述确定可以包括:基于相加后的值是预定值或更大值且用户语音不对应于预定异常句子,来确定用户语音完成。
发明效果
根据上述本公开的各种实施例,通过基于用户发出的语音的含义来确定用户语音尚未完成,用户不需要重复发出先前发出的内容,并因此,增强了用户的便利性。
附图说明
图1A至图1C是示出了根据各种实施例的包括电子装置的系统的示图;
图2是示出了根据实施例的电子装置的配置的框图;
图3是具体示出了根据实施例的电子装置的配置的框图;
图4和图5是示出了根据实施例的电子装置的示图;以及
图6和图7是示出了根据实施例的控制电子装置的方法的流程图。
具体实施例
示例性实施例的详细描述
在简要解释本公开中所使用的术语之后,下面将更详细地描述本公开。
考虑到本公开中的功能,本公开的实施例中所使用的术语已被选择为尽可能广泛使用的通用术语,但是这些术语可以根据本领域技术人员的意图、先例、新技术的出现等而变化。另外,在特定情况下,还可以存在任意选择的术语,在这种情况下,将在本公开的描述中描述其含义。因此,应基于术语本身的含义以及贯穿本公开的内容,而不是术语的简单名称,来限定本公开中所使用的术语。
本公开的实施例可以进行各种改变并包括各种实施例,并且具体实施例将在附图中进行示出并在说明书中详细地进行描述。然而,应理解的是,这不是要限制具体实施例的范围,并且包括了包括在所公开的精神和技术范围中的所有修改、等同物和/或替代物。在描述本公开时,当确定现有技术的详细描述可能不必要地模糊本公开的要点时,可以省略该详细描述。
术语“第一”、“第二”等可以用于描述各种元件,但是这些元件可以不受这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开。
除非另外明确定义,否则单数表达可以包括复数表达。应当理解,诸如“包括”或“由...组成”之类的术语在本文中用于指明特性、数量、步骤、操作、元件、部件或其组合的存在,而不排除其他的特性、数量、步骤、操作、元件、部件或其组合中的一者或多者的存在或添加它们中的一者或多者的可能性。
本公开中的诸如“模块”或“单元”之类的术语可以执行至少一个功能或操作,并且可以被实现为硬件、软件、或者硬件与软件的组合。此外,除了当需要在单独的硬件中实现多个“模块”、“单元”等中的每一个时,这些组件可以集成在至少一个模块中并在至少一个处理器(未示出)中实施。
在下文中,将参考附图详细地描述本公开的实施例,以使本领域技术人员容易地实践实施例。
但是,可以以各种不同的形式来实施本公开,并且不限于本文中所描述的实施例。另外,在附图中,为了清楚地描述本公开,省略了与描述无关的部件,并且贯穿说明书,相同的附图标记用于相同的部件。
在下文中,将参考附图详细地描述本公开的各种实施例。
图1A至图1C是示出了根据各种实施例的包括电子装置的系统的示图。
参考图1A至图1C,系统1000可以包括电子装置100和外部电子装置200。
外部电子装置200可以接收用户语音。为此,外部电子装置200可以包括麦克风。当接收到用户语音信号时,外部电子装置200可以将接收到的用户语音信号发送到电子装置100,并且从电子装置100接收对用户语音信号的响应信息。
为此,电子装置100可以包括对话系统,该对话系统使用人工智能模型来提供对用户语音的响应。
具体地,当接收到用户语音信号时,电子装置100可以执行用户语音信号的预处理,执行用户语音信号的语音识别以将用户语音转换成文本(语音到文本(STT)),并且基于语音识别结果来掌握用户语音的意图和实体。另外,电子装置100可以基于例如来自Web服务器等的自然语言理解结果来获得用于对用户语音的响应的信息,并且基于所获得的信息来获得作为对用户语音的响应信息的自然语言。电子装置100可以将该响应信息发送到外部电子装置200。
为此,电子装置100可以包括自动语音识别(ASR)模块、自然语言理解(NLU)模块、对话管理(DM)模块、自然语言生成(NLG)模块等。
同时,电子装置100可以仅包括以上模块中的一些模块。例如,电子装置100可以仅包括自动语音识别模块,并且仅执行将用户语音转换成文本(语音到文本(STT))的功能。在这种情况下,电子装置100可以将用户语音转换成文本并将转换后的文本发送到用于执行自然语言处理等的另一电子装置(未示出)。另外,可以从该另一电子装置(未示出)接收自然语言处理结果。
电子装置100可以生成对用户语音的响应,并且将其发送到外部电子装置200。此外,外部电子装置200可以提供对用户语音的响应。
例如,外部电子装置200可以通过文本到语音(TTS)技术将接收到的响应信息转换成语音,并且经由外部电子装置200的扬声器输出语音,或者经由外部电子装置200的显示器显示包括对应文本的用户界面。
因此,对话系统可以提供对用户语音的响应,并因此,用户可以执行与外部电子装置200的对话。
同时,电子装置100可以存储用于操作对话系统的人工智能代理。具体地,电子装置100可以使用人工智能代理,以生成自然语言作为对用户语音的响应。人工智能代理是用于提供基于人工智能(AI)的服务(例如,语音识别服务、助手服务、翻译服务、搜索服务等)的专用程序,并且可以执行现有技术(例如,CPU)的通用处理器或单独的AI专用处理器(例如GPU)。特别地,人工智能代理可以控制各种模块。
同时,在图1A中,描述了外部电子装置200提供对用户语音的响应,但是这只是示例。
换言之,如图1B中所示,外部电子装置200可以经由与其连接的另一外部电子装置300提供对用户语音的响应。
具体地,当从电子装置100接收到响应信息时,外部电子装置200可以将接收到的响应信息发送到外部电子装置300。
因此,外部电子装置300可以使用接收到的响应信息,经由外部电子装置300的扬声器或显示器输出对用户语音的响应。
同时,在图1A和图1B中,描述了电子装置100被实现为服务器,但是这只是示例。
换言之,如图1C中所示,电子装置100可以接收用户语音,对接收到的语音执行用户识别,并且提供对用户语音的响应。
换言之,当接收到用户语音时,电子装置100可以预处理用户语音,并且将用户语音转换成用户语音信号。然后,电子装置100可以使用自动语音识别模块将用户语音转换成文本,使用自然语言理解模块来分析用户语音的意图,并且经由自然语言生成模块生成对用户语音的响应。此外,电子装置100可以将所生成的响应输出并提供给用户。
同时,图1C示出了电子装置100是TV,但是这只是示例,并且电子装置100可以被实现为各种类型的电子装置。例如,电子装置100可以被实现为包括显示器、扬声器等的智能电话、扬声器、监视器、空调、冰箱等。
另外,在图1A至图1C中,描述了外部电子装置200接收用户语音,但是这只是示例。例如,外部电子装置200可以接收通过遥控设备(例如,远程控制等)而获得的用户语音。在这种情况下,遥控设备(未示出)可以包括麦克风,以便接收用户语音。
接收到用户语音的遥控设备(未示出)可以将接收到的用户语音(模拟信号)转换成数字信号,并且经由红外通信、诸如蓝牙或Wi-Fi之类的无线通信将转换后的数字信号发送到外部电子装置200。换言之,遥控设备(未示出)可以包括用于与外部电子装置200通信的通信器(未示出),并且外部电子装置200可以包括用于与遥控设备通信的通信器。外部电子装置200可以包括多个通信器,诸如用于与遥控设备(未示出)通信的通信器(例如,蓝牙模块)、用于与服务器(未示出)或另一电子装置(未示出)等通信的通信器(例如,以太网调制解调器,Wi-Fi模块等)。然而,这只是实施例,并且电子装置100可以使用包括Wi-Fi模块的一个通信器与遥控设备(未示出)、服务器(未示出)、以及所述另一电子装置(未示出)通信。
遥控设备(未示出)可以被实现为遥控器、诸如智能电话的移动设备、诸如智能手表的可穿戴设备、定点设备等。特别地,用于控制外部电子装置200的应用可以安装在遥控设备(未示出)上以控制外部电子装置200。
同时,由于用户语音为完成的形式,因此关于用户语音的自然语言理解的程度增加,并因此,用户语音必须为完成的形式,以便电子装置100生成对用户语音的准确响应信息。
为此,根据本公开的实施例的电子装置100可以确定接收到的用户语音是否完成。
具体地,电子装置100可以响应于基于第一模型和第二模型而确定的接收到的用户语音的完成的状态来生成对用户语音的响应。第一模型是使用多个完成的句子的句子结构作为学习数据的模型,第二模型是使用多个完成的句子和与该多个完成的句子相对应的意图作为学习数据的模型。
因此,根据本公开的各种实施例,由于使用了使用完成的句子的句子结构、完成的句子、以及用户意图作为学习数据的第一模型和第二模型,所以在没有单独的组成元件(例如,按钮或定时器)的情况下,可以仅通过用户语音的句子结构或用户意图来确定用户语音是否完成,从而提供对用户语音的适当响应信息。
图2是示出了根据实施例的电子装置的配置的框图。
如图2中所示,电子装置100可以包括存储器110和处理器120。
存储器110可以是用于存储电子装置100的操作所需的各种程序和数据的组成元件。
存储器110可以包括自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块、以及TTS模块,以便针对由电子装置100接收的用户语音信号进行语音识别。
另外,存储器110可以存储第一模型和第二模型。
在这种情况下,处理器120可以使用第一模型和第二模型来确定用户语音是否为完成的形式,并且稍后将参考图3详细地描述这些模型。
处理器120可以控制电子装置100的一般操作。
具体地,处理器120可以对用户语音执行语音识别,并且基于语音识别结果来生成用户语音的响应信息。
在这种情况下,当接收到用户语音时,处理器120可以通过对用户语音执行语音识别将用户语音转换成文本,并且基于语音识别结果来掌握用户语音的意图和实体。另外,处理器120可以基于例如来自Web服务器或搜索引擎的自然语言理解结果来获得对用户语音的响应的信息,并且基于所获得的信息来获得自然语言作为对用户语音的响应信息。
另外,处理器120可以控制电子装置100,从而基于响应信息来提供对用户语音的响应。
具体地,处理器120可以将响应信息发送到外部电子装置(例如,图1A和图1C的外部电子装置200),或者经由电子装置100的扬声器或显示器,基于响应信息来输出对用户语音的响应。
同时,处理器120可以确定用户语音是否完成,并且基于确定结果来生成对用户语音的响应信息。
具体地,当接收到用户语音时,处理器120可以使用存储在存储器110中的第一模型和第二模型来确定用户语音是否完成,并且基于确定结果来生成对用户语音的响应信息。
在这种情况下,处理器120可以使用用户语音作为第一模型和第二模型的输入数据,分别从第一模型和第二模型获得与用户语音是否为完成的句子有关的信息,并且基于分别从第一模型和第二模型获得的信息来确定用户语音是否完成。
因此,如果用户语音完成,则处理器120可以生成对用户语音的响应信息,并且基于所生成的响应信息来提供对用户语音的响应。
然而,如果用户语音未完成,则处理器120可以使用随后输入的语音与先前输入的语音一起来执行与用户语音有关的语音识别,并且向其提供响应,而不是生成对用户语音的响应信息。另外,如果用户语音不对应于完成的状态,则处理器120可以提供用于请求重新发声的响应信息。
如上所述,根据本公开的实施例,电子装置100可以确定用户语音是否完成,并且根据确定结果来提供对用户语音的响应。因此,由于用户可能不会发出相同的句子若干次,因此可以提高用户的便利性。
同时,在下文中,将参考图3详细地描述确定用户语音是否完成的方法。
图3是具体示出了根据实施例的电子装置的配置的框图。
如图3中所示,电子装置100可以包括存储器110、处理器120、通信器130、显示器140、麦克风150、音频输出器160、以及用户输入器170。
存储器110可以存储电子装置100的操作所需的各种程序和数据。
为此,存储器110可以被实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器110可以被处理器120访问,并且可以执行由处理器120对数据的读取、记录、编辑、删除或更新。在本公开中,术语存储器可以包括存储器110、处理器120中的ROM(未示出)和RAM(未示出)、或者安装在电子装置100上的存储卡(未示出)(例如,微型SD卡或存储棒)。
具体地,存储器110可以包括构成对话系统的各种模块。例如,存储器110可以包括自动语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块、TTS模块等。
自动语音识别模块111可以执行与用户语音有关的语音识别。具体地,自动语音识别模块111可以执行将接收到的用户语音转换成文本(语音到文本(STT))的功能。
自然语言理解模块112可以基于语音识别结果来掌握用户语音的含义和意图。为此,自然语言理解模块112可以通过语言学分析、句法分析、含义理解分析等,将包括在用户语音中的非正式语言数据转换成电子装置可以理解的正式语言数据。
对话管理模块(未示出)可以基于例如来自外部服务器等的自然语言理解结果来获得用于提供对用户语音的响应的信息。另外,自然语言生成模块可以基于所获得的信息来获得自然语言作为对用户语音的响应信息。
另外,TTS模块(未示出)可以将所获得的自然语言转换成语音。
同时,在以上示例中,描述了模块被存储在存储器110中作为软件,但是这只是示例,并且模块可以被实现为硬件芯片。
另外,存储器110可以包括第一模型113和第二模型114。在此,第一模型113和第二模型114可以是使用与完成的句子有关的信息作为输入数据而被训练的人工智能模型。
例如,第一模型113和第二模型114可以是基于神经网络的模型。
具体地,可以将第一模型113和第二模型114可以被设计为在计算机上模拟人的大脑结构,并且可以包括多个网络节点,该多个网络节点包括权重并模拟人的神经网络的神经元。多个网络节点可以彼此形成连接以模拟神经元的突触活动,其中,神经元通过突触发送和接收信号。
另外,第一模型113和第二模型114可以包括例如神经网络模型或根据神经网络模型开发的深度学习模型。在深度学习模型中,多个网络节点可以位于彼此不同的深度(或者,层上),并且可以根据卷积连接来发送和接收数据。经训练的人工智能模型的示例可以包括深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN),但是不限于此。
首先,第一模型113可以是使用多个完成的句子的句子结构作为学习数据而训练的模型。可以基于构成多个完成的句子中的每个完成的句子的至少一个元素的词性来确定句子结构。在此,元素可以包括在句子中具有特定含义的一个或多个词。例如,如果完成的句子是“查找浪漫电影”,则对应的句子的元素可以是“查找”、“浪漫”和“电影”。此外,如果完成的句子是“查找汤姆·克鲁斯的电影”,则句子的元素可以是“查找”、“汤姆·克鲁斯的”和“电影”。
在这种情况下,完成的句子的句子结构可以由与构成完成的句子的元素有关的词性标记(POS标记)表示。换言之,词性标记可以指代考虑到元素的含义和上下文,将句子划分成元素单元并对每个元素的词性的信息、上下文、命名的实体、元素的含义信息等进行标记。
元素的词性的信息可以表示与包括在完成的句子中的元素的词性有关的信息(例如,名词、形容词、动词等),上下文可以表示应用了包括元素的完成的句子的设备的状况,命名实体可以表示固有名称,诸如人名、地点、机构等,以及含义信息可以表示元素的上下文含义。
在这种情况下,可以基于构成多个完成的句子中的每个完成的句子的至少一个元素的词性来训练第一模型113,从而根据构成用户语音的元素的词性来确定用户语音是否完成。
具体地,可以通过构成完成的句子的至少一个元素的词性的结构来训练第一模型113。
例如,假设通过完成的形式的句子训练第一模型113,诸如“查找浪漫电影”和“查找汤姆·克鲁斯的电影”。
在这种情况下,可以使用表示“查找浪漫电影”和“查找汤姆·克鲁斯的电影”的句子结构的“查找[ADJ:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GENRE]”作为学习数据来训练第一模型113。
在[ADJ:VIDEO:NE:MOOD]中,“ADJ”可以表示对应元素的词性是形容词,“VIDEO”可以表示包括对应元素的完成的句子可以在视频搜索状况下使用,“NE”可以表示对应元素是命名实体,以及“MOOD”可以表示对应元素可以是与情绪相关的元素。换言之,可以认为[ADJ:VIDEO:NE:MOOD]的对应元素可以是形容词,可以在视频搜索状况下使用,可以是命名实体,并且可以表示与情绪相关的元素。
另外,在[NOUN:VIDEO:NE:GENRE]中,“NOUN”可以表示对应元素的词性是名词,“VIDEO”可以表示包括对应元素的完成的句子可以在视频搜索状况下使用,“NE”可以表示对应元素是命名实体,以及“GENRE”可以表示对应元素是与流派相关的元素。换言之,可以认为[ADJ:VIDEO:NE:MOOD]的对应元素可以是名词“电影”,可以在视频搜索状况下使用,可以是命名实体,并且可以表示与流派相关的元素。
因此,可以关于包括“查找”的完成的句子具有其中在“查找”之后依次设置“形容词”和“名词”的词性的结构,通过诸如“查找浪漫电影”和“查找汤姆·克鲁斯的电影”的“查找[ADJ:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GENRE]”之类的句子结构来训练第一模型113。
同时,在以上示例中,描述了使用句子结构训练第一模型113,在该句子结构中,仅将词性标记为元素的一部分,而不是完成的句子的所有元素,但是这只是实施例。
换言之,可以通过标记到完成的句子的所有元素的词性标记来训练第一模型113。例如,如在以上示例中那样,在“查找浪漫电影”和“查找汤姆·克鲁斯的电影”的情况下,可以表示“[VERB:VIDEO:SEARCH][ADJ:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GENRE]”。在这种情况下,可以关于完成的句子具有其中在“动词”之后依次设置“形容词”和“名词”的词性的结构来训练第一模型113。
同时,可以根据上下文,使用学习数据来训练第一模型113。
本文中的上下文可以指代应用了用户语音的设备的状况。
例如,如果设备(在本文中,设备可以是图1A和图1B中的外部电子装置200或图1C中的电子装置100)存在于视频搜索状况下,也就是说,如果用户通过语音搜索视频,则上下文可以对应于视频搜索上下文。另外,如果用户通过语音控制设备的功能(例如,改变设备的频道或改变音量),则上下文可以包括装置控制上下文。然而,视频搜索上下文和装置控制上下文只是示例,并且根据设备的状况可以存在各种上下文。
在这种情况下,可以使用根据上下文而提供的多个完成的句子的句子结构作为学习数据来训练第一模型113。
例如,可以基于完成的句子“查找浪漫电影”的句子结构来关于视频搜索上下文训练第一模型113。在视频搜索上下文的情况下,可以关于完成的句子具有其中在“查找”之后依次设置“形容词”和“动词”的词性的结构来训练第一模型。另外,可以基于完成的句子“调低音量”的句子结构来关于装置控制上下文训练第一模型113,并且可以关于装置控制上下文具有其中在“调低”之后设置“动词”的词性的结构来训练第一模型113。
换言之,用于每个上下文的完成的句子可以是不同的且对应句子的句子结构可以是不同的,并因此,在本公开的实施例中,第一模型113可以针对每个上下文学习完成的句子的句子结构。
如上所述,第一模型113可以基于构成各种完成的句子的元素的词性来学习完成的句子的句子结构。
同时,第二模型114可以是使用多个完成的句子(或者,语料库)和与多个完成的句子相对应的意图作为学习数据而训练的模型。
具体地,可以基于针对每个意图构成完成的句子的元素的词性来训练第二模型114,从而根据用户语音的意图和构成用户语音的元素的词性来确定用户语音是否完成。在这种情况下,可以通过自然语言理解模块112获得与包含在多个完成的句子中的意图有关的信息。
例如,假设可用作学习数据的多个完成的句子是“查找动作电影”、“查找英雄电影”、“查找美国戏剧”、“查找韩国戏剧”等。
在这种情况下,可以通过自然语言理解模块112,关于“查找动作电影”具有搜索动作电影的意图、“查找英雄电影”具有搜索英雄电影的意图、“查找韩国戏剧”具有搜索韩国戏剧的意图、以及“查找美国戏剧”具有搜索美国戏剧的意图对第二模型114进行训练。
可以关于出于搜索电影的意图而使用句子“查找“A”电影”来训练第二模型114,并且此时,形容词或名词可以位于“A”处。换言之,可以关于出于搜索电影的意图而使用具有[动词][形容词或名词][名词]的元素的句子来训练第二模型114。
以相同的方式,可以关于出于搜索戏剧的意图而使用句子“查找“A”戏剧”来训练第二模型114,并且此时,形容词可以位于“A”。换言之,可以关于出于搜索戏剧的意图而使用具有[动词][形容词][名词]的元素的句子来训练第二模型114。
贯穿这样的训练过程,可以通过用于确定用户语音是否为完成的句子的参考来构造第二模型114。
同时,可以根据上下文,使用学习数据来训练第二模型114。
例如,第二模型114可以被训练为具有使用关于“视频搜索”上下文的多个完成的句子“查找浪漫电影”、“查找儿童电影”、“查找英雄电影”等作为学习数据来确定用户语音是否完成的参考。
可以关于在“视频搜索”上下文中“查找浪漫电影”为[动词][形容词][名词]的形式和“查找儿童电影”为[动词][名词][名词]的形式来训练第二模型114。
第二模型114可以关于在“视频搜索”环境中使用的完成的句子的形式可以在统计上为“[动词][形容词][名词]”和“[动词][名词][名词]”对第二模型114进行训练,并且完成的句子的意图是搜索戏剧或电影。
如上所述,为了训练第一模型113和第二模型114,存储器110可以存储学习数据115。
具体地,存储器110可以包括通过词性标记表示的完成的句子的句子结构数据,以便训练第一模型113,并且可以包括用于训练第二模型114的完成的句子的形式。
另外,学习数据115可以包括完成的句子的句子结构数据或根据上下文的完成的句子,并且处理器120可以使用第一模型和第二模型,根据上下文来确定用户语音是否完成。
同时,可以被更新学习数据115。例如,可以通过反映关于输入用户语音的确定结果来更新学习数据115。
如果用户所发出的用户语音是“查找儿童动画”且第二模型114还没有被充分训练,则在第二模型114中可能没有形成用于确定“查找儿童动画”的形式的用户语音是否完成完成的参考。同时,在第一模型113中,可能形成了用于确定句子结构“查找[NOUN:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GEMRE]”是否为完成的句子的参考。在这种情况下,由于用户语音“查找儿童动画”与句子结构“查找[NOUN:VIDEO:NE:MOOD][NOUN:VIDEO:NE:GEMRE]”匹配,因此第一模型113可以确定用户语音完成。另外,可以基于这样的确定结果来更新学习数据115。换言之,可以将被确定为完成的形式的“查找儿童动画”添加到学习数据115。
在这种情况下,可以将“查找儿童动画”的意图确定为搜索儿童动画的意图,并且可以通过自然语言理解将“查找儿童动画”的上下文确定为对应于“视频搜索”上下文,并因此,可以将句子“查找儿童动画”添加到“视频搜索”上下文中。另外,可以使用更新后的学习数据115来重新训练第二模型114。同时,这只是实施例,并且在一些情况下,可以使用更新后的学习数据115来重新训练第一模型113。
在这种情况下,由于使用更新后的学习数据115来重新训练第一模型113或第二模型114,因此根据学习数据115的更新,第一模型113或第二模型114的确定参考可以变得更清楚。
同时,图3示出了存储器110存储学习数据,但是这只是实施例。换言之,学习数据可以存储在电子装置100中的单独的存储空间中而不是在存储器110中,或者可以存储在单独的电子装置(未示出)中而不是在电子装置100中。
处理器120可以电连接到存储器110以控制电子装置100的一般操作和功能。例如,处理器120可以操作操作系统或应用程序以控制连接到处理器120的硬件或软件元件,并且执行各种数据处理和操作。另外,处理器120可以在易失性存储器上加载和处理从其他元件中的至少一个元件接收的指令或数据,并且将各种数据存储在非易失性存储器中。
为此,处理器120可以被实现为用于执行对应操作的专用处理器(例如,嵌入式处理器)或能够通过执行存储在存储器设备中的一个或多个软件程序来执行对应操作的通用处理器(例如,CPU或应用处理器)。
同时,处理器120可以使用第一模型113和第二模型114来确定用户语音是否完成。
具体地,处理器120可以使用从用户语音中获得的信息作为第一模型113和第二模型114的输入数据,分别从第一模型113和第二模型114获得与用户语音是否为完成的句子有关的信息,并且基于分别从第一模型113和第二模型114获得的信息来确定用户语音是否完成。
与此相关,图4是示出了用于如果输入了“查找动作电影”则确定输入用户语音是否完成的方法的示图。
当输入了用户语音时,处理器120可以通过执行关于用户语音的语音识别将用户语音转换成文本,并且基于该文本来确定用户语音的意图和构成用户语音的句子成分的词性。
例如,当输入了用户语音“查找动作电影”时,处理器120可以使用自动语音识别模块111和自然语言理解模块112来执行关于“查找动作电影”的语音识别。结果是,处理器120可以将用户语音“查找动作电影”转换成文本“查找动作电影”,并且获得指示接收到的用户语音包括“[动词][名词][名词]”的信息,并且用户语音具有基于文本来搜索动作电影的意图。另外,处理器120可以使用包含在用户语音中的意图来获得用户语音的上下文是“视频搜索”。
处理器120可以使用构成用户语音的句子成分的词性作为第一模型113的输入数据来获得与用户语音的句子是否完成相对应的第一输出值,并且通过使用用户语音的意图和构成用户语音的句子成分的词性作为第二模型114的输入数据来获得与用户语音的句子是否完成相对应的第二输出值。处理器120可以基于第一输出值和第二输出值来确定用户语音是否完成。
具体地,处理器120可以通过使用第一模型113来确定用户语音的词性的信息是否与包括在完成的句子的经训练的句子结构中的词性的信息一致,并且相应地确定用户语音是否完成。
在此,第一模型113可以通过将完成的句子的句子结构的训练结果与构成用户语音的元素的词性进行比较,来输出与用户语音的句子是否完成相对应的第一输出值。如果基于完成的句子的句子结构而训练的包括在完成的句子中的词性的布置与用户语音的词性的布置一致,则第一模型113可以获得用于确定用户语音为完成的形式的参考。相反,如果包括在用户语音中的词性的布置与经训练的完成的句子的词性的布置不一致,则第一模型113可以获得用于确定用户语音未完成的参考。
换言之,第一模型113可以输出关于所输入的用户语音的值1或0,这是由于第一模型113可以通过将包括在用户语音中的词性的布置与经训练的完成的句子的词性的布置一一匹配来获得用于确定用户语音是否完成的参考。
例如,如果关于在“查找”之后设置“名词”和“名词”的形式的句子是完成的句子来训练第一模型113,则第一模型113可以获得用于确定用户语音“查找动作电影”的词性的布置“查找[名词][名词]”与经训练的完成的句子的“查找[名词][名词]”一致的参考。
因此,处理器120可以从第一模型113获得表示用户语音为完成的形式的值1。
处理器120可以通过使用第二模型114来确定用户语音的词性的信息是否与经训练的完成的句子的词性的信息一致,并且相应地确定用户语音是否完成。
第二模型114可以通过将完成的句子的训练结果与构成用户语音的元素的词性进行比较,来输出与用户语音的句子是否完成相对应的第二输出值。第二模型114可以输出0到1之间的值,这是由于第二模型114是使用多个完成的句子作为学习数据而统计训练的模型。
如果关于在“视频搜索”上下文中包括“[动词][名词][名词]”的句子很可能为完成的形式对第二模型114进行训练,则第二模型114可以获得用于确定用户语音“查找动作电影”的“查找”与[名词]匹配以及“动作”和“电影”分别与[名词]和[名词]匹配的参考。第二模型114可以根据确定出的可能性来输出0到1之间的值。
处理器120可以基于从第一模型113和第二模型114获得的第一输出值和第二输出值来确定用户语音是否完成。
如果假设当第一输出值与第二输出值之和为1.65或更大时,处理器120确定用户语音完成,则第一模型113输出1,并且第二模型114输出0.8,则第一模型113的第一输出值1与第二模型114的第二输出值0.8之和1.8大于1.65。在这种情况下,处理器120可以确定用户语音完成。
同时,处理器120可以从第一模型113和第二模型114获得输出值,然后另外执行异常程序。
具体地,如果从第一模型和第二模型获得的第一输出值与第二输出值之和为预定阈值或更大且用户语音不对应于预定异常句子,则处理器120可以确定用户语音完成。然而,如果用户语音对应于预定异常句子,则处理器120可以确定用户语音不对应于完成的形式。
为此,存储器110可以预先存储异常句子,并且处理器120可以确定用户语音是否对应于预先存储的异常句子,并且确定用户语音是否完成。
在另一实施例中,处理器120可以通过将不同的权重应用于第一模型113和第二模型114来确定用户语音是否完成。
具体地,处理器120可以将第一预定权重应用于第一输出值,并且将第二预定权重应用于第二输出值,将应用了第一权重的第一输出值与应用了第二权重的第二输出值相加,并且根据相加后的值来确定用户语音是否完成。
更具体地,如果相加后的值为预定阈值或更大,则处理器120可以确定用户语音完成。
如上所述地假设,如果第一输出值与第二输出值之和为1.65或更大,则处理器120确定用户语音完成,第一模型113输出1,并且第二模型114输出0.8。处理器120可以将权重1.5应用于第一模型113,将权重2应用于第二模型114,获得1.5作为应用了权重的第一模型113的第一输出,并且获得1.6作为应用了权重的第二模型114的权重。在这种情况下,由于第一输出值1.5与第二输出值1.6之和3.1大于1.65,则处理器120可以确定用户语音完成。
同时,如果将不同的权重应用于第一模型113和第二模型114,则处理器120还可以另外地执行异常处理。换言之,如果第一模型的第一输出值与第二模型的第二输出值的相加后的值为预定阈值或更大,并且用户语音不对应于预定异常句子,则处理器120可以确定用户语音完成。
当执行异常处理时,处理器120可以通过将不同的权重应用于第一模型、第二模型和异常处理规则来确定用户语音是否完成。
返回图3,通信器130是用于执行电子装置100与外部电子装置(未示出)之间的通信的组成元件。电子装置100可以经由通信器130从外部装置接收用户语音信号。
为此,通信器130可以包括各种通信模块,诸如有线通信模块(未示出)、近场无线通信模块(未示出)、无线通信模块(未示出)等。
在此,有线通信模块可以是通过诸如有线以太网的有线通信方法与外部装置(未示出)通信的模块。近场无线通信模块可以是根据诸如蓝牙(BT)、蓝牙低功耗(BLE)、Zigbee等的近距离无线通信方法在短距离内与外部装置(未示出)通信的模块。另外,无线通信模块可以是根据诸如Wi-Fi、IEEE等的无线通信协议连接到外部网络以与外部装置(未示出)和语音识别服务器(未示出)通信的模块。另外,无线通信模块还可以包括移动通信模块,该移动通信模块被接入到移动通信网络以根据诸如第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)、LTE高级(LTE-A)、5G网络等的各种移动通信标准进行通信。
同时,通信器130不仅可以与外部电子装置(未示出)通信,而且还可以与用于控制外部电子装置(未示出)的遥控设备(即,遥控器(未示出))通信。
例如,通信器130可以根据诸如蓝牙或BLE之类的近场通信方法与遥控设备(未示出)通信,以发送和接收各种数据。
同时,在另一实施例中,电子装置100可以包括接口(未示出),该接口连接到外部装置(未示出)以发送和接收视频/音频信号。该接口可以根据显示端口(DP)、高清多媒体接口(HDMI)、消费电子控制(HDMI-CEC)、红绿蓝(RGB)电缆、通用串行总线(USB)、数字视觉接口(DVI)、雷电接口、组件等的标准来发送/接收信号/数据,并且可以包括与这些标准相对应的至少一个或多个连接器或端子。
显示器140可以在显示区域(或者,显示器)上显示由图像处理器(未示出)处理的图像数据。显示区域可以指代显示器140的暴露于电子装置100的壳体的一个表面的至少一部分。显示器140的该至少一部分可以与柔性显示器的形式的电子装置100的前表面区域、侧表面区域和后表面区域中的至少一个表面区域耦接。柔性显示器可以是可弯曲、可折叠或可卷曲的,而不会通过极薄且柔性的基板受损。
麦克风150可以获得第一用户语音、第二用户语音。麦克风150可以根据从外部接收到的语音或声音来生成电信号。
为此,麦克风可以包括各种元件,诸如用于收集模拟形式的用户语音的麦克风、用于放大收集到的用户语音的放大电路、用于对所放大的用户语音进行采样并将其转换成数字信号的A/D转换电路、用于从转换后的数字信号中去除噪声分量的滤波电路等。
麦克风150可以将所生成的电信号发送到处理器120。处理器120可以通过针对从麦克风150接收的电信号执行语音识别和自然语言处理来确定用户语音的含义、意图等。
特别地,麦克风150可以设置在电子装置100内部,但是这只是实施例,并且麦克风150可以电连接到电子装置100并设置在外部。
音频输出器160不仅可以输出通过执行诸如音频处理器(未示出)的解码、放大或噪声过滤之类的各种处理而获得的各种音频数据,而且还可以输出各种警报或声音消息。特别地,用于输出声音的配置可以被实现为扬声器160,但是这只是实施例,并且该配置可以被实现为能够输出音频数据的输出端子。
用户输入器170可以接收各种用户输入,并且将用户输入发送到处理器120。用户输入器170可以包括例如触摸面板、(数字)笔传感器或键。触摸面板可以使用例如静电型、压敏型、红外型或超声型中的至少一种类型。另外,触摸面板还可以包括控制电路。触摸面板还可以包括触觉层,并且可以向用户提供触觉。(数字)笔传感器可以是例如触摸面板的一部分,或者可以包括用于识别的单独的薄片。键可以包括例如物理按钮、光学键或小键盘。
同时,根据电子装置100的实施方式示例,可以省略图3中所示的电子装置100的构成元件的至少一部分。
例如,如果电子装置100被实现为图1A和图1B中所示的服务器,则由外部电子装置200接收用户语音,并且也从外部电子装置200输出对用户语音的响应,并因此,可以省略图3的显示器140、麦克风150和音频输出器160。
图5是示出了根据实施例的电子装置的示图。
具体地,图5是示出了如果在电子装置100连接到外部电子装置200的同时用户发出语音,则处理器120确定用户语音是否完成,并且外部电子装置200执行根据确定结果而执行的操作的示图。
外部电子装置200可以从用户接收语音。用户语音可以直接输入到外部电子装置200,或者可以经由另一外部电子装置(例如,遥控器等)输入到外部电子装置200。
外部电子装置200可以显示用于接收用户语音的UI。参考图5,可以显示用于请求输入用户语音的文本,或者可以显示麦克风等的图像。
已接收到用户语音的外部电子装置200可以预处理用户语音,以将用户语音转换成用户语音信号,并且使用无线通信模块将用户语音信号发送到电子装置100。
如上所述,参考图4,电子装置100可以使用第一模型113和第二模型114来确定用户语音是否完成。
外部电子装置200可以根据从电子装置100接收的确定结果来确定是否根据用户语音信号执行操作。
如果用户说出“查找动作电影”,并且电子装置100确定用户语音完成,则电子装置100可以将确定结果发送到外部电子装置200。
当从电子装置100接收到指示用户语音完成的信息时,外部电子装置200可以执行与用户语音相对应的控制命令。例如,外部电子装置200可以执行根据用户语音命令来搜索动作电影的功能。
同时,在另一实施例中,假设用户发出“查找”并暂时地停止发声。
在这种情况下,当外部电子装置200接收到语音信号“查找”并将其发送到电子装置100时,电子装置100可以使用第一模型113和第二模型114来确定用户语音未完成。
电子装置100可以将指示用户语音未完成的信号发送到外部电子装置200,并且外部电子装置200可以根据从电子装置100接收的信号连续地显示用于请求输入用户语音的UI。然而,这只是实施例,并且已从电子装置100接收到指示用户语音未完成的信息的外部电子装置200可以通知用户该用户语音未完成。
如果另外输入了用户语音,则电子装置100可以将在“查找”之后另外输入的用户语音确定为与“查找”相关的句子,并且确定在“查找”之后输入的用户语音和包括“查找”的用户语音是否为完成的形式。
如上所述,由于电子装置100确定用户语音是否完成,并且仅当用户语音完成时才执行与用户语音相对应的操作,因此可以解决用户必须在特定条件下或特定时间段内完成发声的不便。
图6是示出了根据实施例的控制电子装置的方法的流程图。
首先,电子装置100可以接收用户语音(S610)。电子装置100可以从外部电子装置200接收用户语音信号,或者直接从用户接收用户语音。
电子装置100可以通过使用第一模型和第二模型来确定用户语音是否完成(S620)。
第一模型可以是使用多个完成的句子的句子结构作为学习数据的模型。
具体地,可以基于构成多个完成的句子中的每个完成的句子的至少一个元素的词性来确定句子结构,并且第一模型可以是基于该至少一个元素的词性而被训练的模型,从而根据构成用户语音的元素的词性来确定用户语音是否完成。
同时,第二模型可以是使用多个完成的句子和包含在该多个完成的句子中的意图作为学习数据而训练的模型。
具体地,第二模型可以是针对每个意图基于构成完成的句子的元素的词性而被训练的模型,从而根据用户语音的意图和构成用户语音的元素的词性来确定用户语音是否完成。
可以根据上下文,使用学习数据来训练第一模型和第二模型。
电子装置100可以使用第一模型和第二模型,来根据上下文确定用户语音是否完成。
同时,电子装置100可以基于文本,将用户语音转换成文本,并且获得与用户语音的意图和包括在用户语音中的元素的词性有关的信息。
另外,电子装置100可以使用从用户语音中获得的信息作为第一模型和第二模型的输入数据,分别从第一模型和第二模型获得关于用户语音是否为完成的句子的信息,并且基于从第一模型和第二模型获得的信息来确定用户语音是否完成。
在这种情况下,如果基于分别从第一模型和第二模型获得的信息来确定用户语音完成且用户语音不对应于预定异常句子,则电子装置100可以确定用户语音完成。
电子装置100可以响应于基于第一模型和第二模型而确定的接收到的用户语音是否完成来生成对用户语音的响应(S630)。
图7是示出了根据实施例的电子装置确定用户语音是否完成的过程的流程图。
电子装置100可以接收用户语音(S710),并且执行关于接收到的用户语音的语音识别(S720)。电子装置100可以将用户语音转换成文本,并且基于该文本来确定用户语音的意图和构成用户语音的句子成分的词性。
电子装置100可以通过使用第一模型113来获得与用户语音的句子是否完成相对应的第一输出值(S730)。具体地,电子装置100可以通过使用构成用户语音的句子成分的词性作为第一模型113的输入数据来获得与用户语音的句子是否完成相对应的第一输出值。
另外,电子装置100可以通过使用第二模型114来获得与用户语音是否完成相对应的第二输出值(S740)。具体地,电子装置100可以通过使用用户语音的意图和构成用户语音的句子成分的词性作为第二模型114的输入数据来获得与用户语音的句子是否完成相对应的第二输出值。
电子装置100可以基于第一输出值和第二输出值来确定用户语音是否完成(S750)。
具体地,电子装置100可以将第一预定权重应用于第一输出值,将第二预定权重应用于第二输出值,将应用了第一权重的第一输出值与应用了第二权重的第二输出值相加,并且基于相加后的值来确定用户语音是否完成。
更具体地,如果相加后的值为预定阈值或更大且用户语音不对应于预定异常句子,则电子装置100可以确定用户语音完成。
可以使用软件、硬件或其组合在计算机或相似设备可读的记录介质中实现上述各种实施例。根据硬件方面的实施方式,可以使用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGAs)、处理器、控制器、微控制器、微处理器、以及用于执行其他功能的电子单元中的至少之一来实现本公开的实施例。在一些情况下,本说明书中所描述的实施例可以被实现为处理器120本身。根据软件方面的实施方式,可以将本说明书中所描述的诸如程序和功能之类的实施例实现为单独的软件模块。这些软件模块中的每个软件模块可以执行本说明书中所描述的一个或多个功能和操作。
用于执行根据以上所描述的本公开的实施例的电子装置的处理操作的计算机指令可以存储在非暂时性计算机可读介质中。当存储在这样的非暂时性计算机可读介质中的计算机指令由特定机器的处理器执行时,计算机指令可以使得特定机器能够执行根据上述实施例的电子装置的处理操作。
工业实用性
-
序列表自由文本
-。

Claims (12)

1.一种电子装置,包括:
存储器,被配置为存储第一模型和第二模型;以及
处理器,被配置为响应于基于所述第一模型和所述第二模型而识别的用户语音是否完成来提供对接收到的用户语音的响应,
其中,所述第一模型是使用多个完成的句子的句子结构作为学习数据的模型,
其中,所述第二模型是使用多个完成的句子和与所述多个完成的句子相对应的意图作为学习数据的模型,
其中,所述处理器被配置为将所述用户语音转换成文本,并且基于所述文本来获得与所述用户语音的意图和构成所述用户语音的元素的词性有关的信息,以及
其中,所述第二模型是通过意图基于构成完成的句子的元素的词性而被训练的模型,从而根据所述用户语音的意图和构成所述用户语音的元素的词性来识别所述用户语音是否完成。
2.根据权利要求1所述的电子装置,其中,基于构成相应的多个完成的句子的至少一个元素的词性来确定所述句子结构,以及
其中,所述第一模型是基于所述至少一个元素的词性而被训练的模型,从而根据构成所述用户语音的元素的词性来识别所述用户语音是否完成。
3.根据权利要求1所述的电子装置,其中,根据上下文,使用所述学习数据来训练所述第一模型和所述第二模型,以及
其中,所述处理器被配置为通过使用所述第一模型和所述第二模型来根据所述上下文识别所述用户语音是否完成。
4.根据权利要求1所述的电子装置,其中,所述处理器被配置为:通过使用从所述用户语音获得的信息作为所述第一模型和所述第二模型的输入数据,分别从所述第一模型和所述第二模型获得指示所述用户语音是否为完成的句子的信息;以及基于分别从所述第一模型和所述第二模型获得的信息来识别所述用户语音是否完成。
5.根据权利要求4所述的电子装置,其中,所述处理器被配置为:根据基于分别从所述第一模型和所述第二模型获得的信息将所述用户语音识别为完成的句子,并且所述用户语音不对应于预定异常句子,来识别所述用户语音完成。
6.根据权利要求1所述的电子装置,其中,所述处理器被配置为:通过使用构成所述用户语音的句子成分的词性作为所述第一模型的输入数据来获得与所述用户语音的句子是否完成相对应的第一输出值;通过使用所述用户语音的意图和构成所述用户语音的句子成分的词性作为所述第二模型的输入数据来获得与所述用户语音的句子是否完成相对应的第二输出值;以及基于所述第一输出值和所述第二输出值来识别所述用户语音是否完成。
7.根据权利要求6所述的电子装置,其中,所述处理器被配置为:将第一预定权重应用于所述第一输出值;将第二预定权重应用于所述第二输出值;将应用了所述第一预定权重的第一输出值与应用了所述第二预定权重的第二输出值相加;以及根据相加后的值来识别所述用户语音是否完成。
8.根据权利要求7所述的电子装置,其中,所述处理器被配置为:基于所述相加后的值是预定值或更大且所述用户语音不对应于预定异常句子,来识别所述用户语音完成。
9.一种控制电子装置的方法,所述方法包括:
接收用户语音;
将所述用户语音转换成文本;
基于所述文本来获得与所述用户语音的意图和所述用户语音中包括的元素的词性有关的信息;
通过使用第一模型和第二模型来识别所述用户语音是否完成;以及
响应于基于所述第一模型和所述第二模型而识别的接收到的用户语音是否完成来生成对所述用户语音的响应,
其中,所述第一模型是使用多个完成的句子的句子结构作为学习数据的模型,
其中,所述第二模型是使用多个完成的句子和与所述多个完成的句子相对应的意图作为学习数据的模型,以及
其中,所述第二模型是通过意图基于构成完成的句子的元素的词性而被训练的模型,从而根据所述用户语音的意图和构成所述用户语音的元素的词性来识别所述用户语音是否完成。
10.根据权利要求9所述的方法,其中,根据上下文,使用所述学习数据来训练所述第一模型和所述第二模型,以及
其中,所述识别包括通过使用所述第一模型和所述第二模型来根据所述上下文识别所述用户语音是否完成。
11.根据权利要求9所述的方法,还包括:
通过使用从所述用户语音中获得的信息作为所述第一模型和所述第二模型的输入数据,来分别从所述第一模型和所述第二模型获得指示所述用户语音是否为完成的句子的信息,
其中,所述识别包括基于分别从所述第一模型和所述第二模型获得的信息来识别所述用户语音是否完成。
12.根据权利要求11所述的方法,其中,所述识别包括:根据基于分别从所述第一模型和所述第二模型获得的信息将所述用户语音识别为完成的形式且所述用户语音不对应于预定异常句子,来确定所述用户语音完成。
CN201980070239.7A 2018-10-31 2019-07-10 电子装置及其控制方法 Active CN112912954B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020180131689A KR20200048976A (ko) 2018-10-31 2018-10-31 전자 장치 및 그 제어 방법
KR10-2018-0131689 2018-10-31
PCT/KR2019/008468 WO2020091187A1 (ko) 2018-10-31 2019-07-10 전자 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
CN112912954A CN112912954A (zh) 2021-06-04
CN112912954B true CN112912954B (zh) 2024-05-24

Family

ID=70462268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980070239.7A Active CN112912954B (zh) 2018-10-31 2019-07-10 电子装置及其控制方法

Country Status (5)

Country Link
US (1) US11893982B2 (zh)
EP (1) EP3836137A4 (zh)
KR (1) KR20200048976A (zh)
CN (1) CN112912954B (zh)
WO (1) WO2020091187A1 (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743A1 (en) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Speech recognition system
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
KR101235694B1 (ko) * 2012-08-14 2013-03-05 다이알로이드(주) 음성인식 시스템 및 그 음성인식 방법
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
KR20170071564A (ko) * 2015-09-03 2017-06-23 구글 인코포레이티드 강화된 스피치 엔드포인팅
CN107679033A (zh) * 2017-09-11 2018-02-09 百度在线网络技术(北京)有限公司 文本断句位置识别方法和装置
KR20180084394A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
JP4425055B2 (ja) 2004-05-18 2010-03-03 日本電信電話株式会社 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
KR100930584B1 (ko) 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JP2011248140A (ja) 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
KR20120132337A (ko) 2011-05-25 2012-12-05 삼성전자주식회사 음성 인식을 이용하는 사용자 인터페이스 제어 장치 및 방법
KR20130134620A (ko) 2012-05-31 2013-12-10 한국전자통신연구원 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
KR102229972B1 (ko) * 2013-08-01 2021-03-19 엘지전자 주식회사 음성 인식 장치 및 그 방법
US10832005B1 (en) * 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
KR20150086086A (ko) 2014-01-17 2015-07-27 삼성전자주식회사 서버 및 이의 음성 인식 결과에 대한 오류 수정 방법
KR102301880B1 (ko) 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
US10192550B2 (en) * 2016-03-01 2019-01-29 Microsoft Technology Licensing, Llc Conversational software agent
US10339918B2 (en) 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US10319250B2 (en) * 2016-12-29 2019-06-11 Soundhound, Inc. Pronunciation guided by automatic speech recognition
KR20190084789A (ko) * 2018-01-09 2019-07-17 엘지전자 주식회사 전자 장치 및 그 제어 방법
WO2020060151A1 (en) * 2018-09-19 2020-03-26 Samsung Electronics Co., Ltd. System and method for providing voice assistant service
US11151332B2 (en) * 2019-03-07 2021-10-19 International Business Machines Business Dialog based speech recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0242743A1 (en) * 1986-04-25 1987-10-28 Texas Instruments Incorporated Speech recognition system
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
WO2008128423A1 (fr) * 2007-04-19 2008-10-30 Shenzhen Institute Of Advanced Technology Système de dialogue intelligent et son procédé de réalisation
CN101604204A (zh) * 2009-07-09 2009-12-16 北京科技大学 智能情感机器人分布式认知技术
CN103207854A (zh) * 2012-01-11 2013-07-17 宋曜廷 中文文本可读性计量系统及其方法
KR101235694B1 (ko) * 2012-08-14 2013-03-05 다이알로이드(주) 음성인식 시스템 및 그 음성인식 방법
KR20170071564A (ko) * 2015-09-03 2017-06-23 구글 인코포레이티드 강화된 스피치 엔드포인팅
KR20180084394A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
CN107679033A (zh) * 2017-09-11 2018-02-09 百度在线网络技术(北京)有限公司 文本断句位置识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dzmitry Bahdanau.et al..End-to-end attention based large vocabulary speech recognition.《2016 IEEE International Conference on Acoustics ,Speech and Signal Processing》.2016,全文. *
Spoken Language Understanding for a Nutrition Dialogue System;Mandy Korpusik,et al.;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;25(7);全文 *
基于语义理解的语音控制技术研究;翁玉茹;《中国优秀硕士学位全文数据库(信息积极辑)》(第11期);全文 *
面向导航的智能对话系统;范雄雄;《中国优秀硕士学位论文全文库(信息科技辑)》;20160315(第3期);全文 *

Also Published As

Publication number Publication date
WO2020091187A1 (ko) 2020-05-07
KR20200048976A (ko) 2020-05-08
EP3836137A1 (en) 2021-06-16
EP3836137A4 (en) 2021-11-17
CN112912954A (zh) 2021-06-04
US11893982B2 (en) 2024-02-06
US20220005467A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
US10832674B2 (en) Voice data processing method and electronic device supporting the same
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
US11790912B2 (en) Phoneme recognizer customizable keyword spotting system with keyword adaptation
US11455989B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
US11626103B2 (en) Methods for natural language model training in natural language understanding (NLU) systems
US11393455B2 (en) Methods for natural language model training in natural language understanding (NLU) systems
US11302319B2 (en) Electronic apparatus and assistant service providing method thereof
KR20190109916A (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
US11315553B2 (en) Electronic device and method for providing or obtaining data for training thereof
US11763690B2 (en) Electronic apparatus and controlling method thereof
US11574127B2 (en) Methods for natural language model training in natural language understanding (NLU) systems
CN112384974A (zh) 电子装置和用于提供或获得用于训练电子装置的数据的方法
US11392771B2 (en) Methods for natural language model training in natural language understanding (NLU) systems
CN112912954B (zh) 电子装置及其控制方法
WO2021173217A1 (en) Methods for natural language model training in natural language understanding (nlu) systems
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof
KR20210094727A (ko) 전자 장치 및 이의 제어 방법
CN116635933A (zh) 包括个性化文本到语音模块的电子装置及其控制方法
CN118116386A (zh) 语音识别方法、装置及电子设备
CN117882132A (zh) 电子设备及其控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant