CN111033610A - 电子装置及语音识别方法 - Google Patents
电子装置及语音识别方法 Download PDFInfo
- Publication number
- CN111033610A CN111033610A CN201880054657.2A CN201880054657A CN111033610A CN 111033610 A CN111033610 A CN 111033610A CN 201880054657 A CN201880054657 A CN 201880054657A CN 111033610 A CN111033610 A CN 111033610A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- voice recognition
- processor
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 42
- 230000006870 function Effects 0.000 claims description 95
- 238000010586 diagram Methods 0.000 description 22
- 230000005236 sound signal Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 229910021417 amorphous silicon Inorganic materials 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229910021420 polycrystalline silicon Inorganic materials 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
使用多个装置中的一个装置选择性地执行语音识别,其中所述多个装置基于所述多个装置的装置信息和从语音识别结果中解析的功能中的至少一个来识别并执行语音识别。由此,在存在能够通过语音识别为用户输入服务的多个装置的环境中,仅单个优选装置实际上对语音输入做出响应并为用户的语音输入提供服务。
Description
技术领域
本公开涉及一种电子装置及语音识别方法。更具体地,本公开涉及一种如下电子装置及语音识别方法,该电子装置从能够进行语音识别的多个电子装置中自动确定要使用语音识别进行控制的电子装置。
背景技术
电子装置是用于根据用户的控制命令执行各种功能的装置。近来,电子装置已经通过诸如键盘、遥控器等的输入装置来接收控制命令的输入。另外,电子装置还采用了语音识别功能,用于通过用户语音来接收控制命令的输入。
已经以各种方式实现语音识别功能。例如,已经实现了如下方法:在用户按下特定按钮的情况下激活语音识别功能的方法,用户说出特定唤醒词(WUW)(例如,Bixby)的方法,以及响应于诸如特定唤醒词(WUW)等的用户输入而激活语音识别功能的方法。
如果在一个空间中存在具有响应于特定唤醒词(WUW)的语音识别功能的多个电子装置,则可以在所有多个电子装置中同时激活语音识别功能。此外,多个电子装置可以各自根据所识别的用户控制命令的语音识别功能单独执行动作。
然而,用户可以通过语音识别来提供命令,以仅在特定装置中执行特定功能。因此,需要这样的一种方法,在该方法中,仅在要根据用户意图由用户控制的装置中才可以根据语音识别功能执行功能。
以上信息仅作为背景信息呈现,以帮助理解本公开。关于以上内容中的任何内容是否可以用作关于本公开的现有技术,没有确定,也没有断言。
发明内容
【技术问题】
本公开的各方面至少可以解决上述问题和/或缺点,并且至少提供以下描述的优点。因此,本公开的一方面可以提供一种电子装置及语音识别方法,该电子装置用于从能够进行语音识别的多个电子装置中自动确定要使用语音识别进行控制的电子装置。
【问题的解决方案】
根据本公开的一方面,提供了一种电子装置,该电子装置包括:通信器;麦克风,被配置为接收语音输入;以及处理器,被配置为执行与通过麦克风接收的语音输入相对应的语音识别,基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个来识别目标装置,并且控制通信器向目标装置发送与语音识别结果相对应的控制命令。
该电子装置还可以包括存储器,该存储器被配置为存储电子装置的装置信息和能够与电子装置通信的第二电子装置的装置信息。处理器可以被配置为基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个,从该电子装置和第二电子装置中识别目标装置。
处理器可以被配置为基于语音识别结果,从该电子装置和第二电子装置中识别与装置信息相对应的目标装置。
处理器可以被配置为基于语音识别结果,根据该电子装置的装置信息和第二电子装置的装置信息来识别能够执行与功能信息相对应的功能的目标装置。
处理器可以被配置为基于多个目标装置能够执行功能,根据所述多个目标装置的历史信息来识别一个目标装置。
处理器可以被配置为基于在所述多个目标装置中的每个目标装置中执行的语音识别历史信息,从所述多个装置中识别一个目标装置。
处理器可以被配置为基于当前时间信息和历史信息,从所述多个装置中识别一个目标装置。
处理器可以被配置为基于多个目标装置能够执行功能,根据预定优先级从所述多个目标装置中识别目标装置。
处理器可以被配置为在预定时间处更新电子装置的装置信息和第二电子装置的装置信息。
处理器可以被配置为基于目标装置是该电子装置,执行与语音识别结果相对应的功能。
处理器可以被配置为基于目标装置是该电子装置且从另一电子装置接收到控制命令,将语音识别结果与接收到的控制命令进行比较并确定是否根据接收到的控制命令另外执行功能。
处理器可以被配置为基于接收到通过麦克风输入的语音中的唤醒词(WUW),对通过麦克风输入的语音执行语音识别。
处理器可以被配置为控制通信器向服务器发送通过麦克风接收的语音输入;并且通过使用从服务器接收的语音的语音识别结果来识别目标装置。
根据本公开的一方面,提供了一种电子装置中的语音识别方法,该方法包括:执行与语音输入相对应的语音识别;基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个来识别目标装置;以及向目标装置发送与语音识别结果相对应的控制命令。
所述识别可以包括:基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个,从该电子装置和能够与该电子装置通信的第二电子装置中识别目标装置。
所述识别可以包括:基于语音识别结果,从该电子装置和第二电子装置中识别与装置信息相对应的目标装置。
所述识别可以包括:基于语音识别结果,根据该电子装置的装置信息和第二电子装置的装置信息来识别能够执行与功能信息相对应的功能的目标装置。
所述识别可以包括:基于多个目标装置能够执行功能,根据该电子装置和所述多个目标装置的历史信息来识别一个目标装置。
所述识别可以包括:基于多个目标装置能够执行功能,根据预定优先级从所述多个目标装置中识别目标装置。
根据本公开的一方面,提供了一种计算机可读记录介质,该计算机可读记录介质被配置为存储用于执行电子装置中的语音识别方法的一个或多个程序,该方法包括:执行与语音输入相对应的语音识别;基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个来识别目标装置;以及向目标装置发送与语音识别结果相对应的控制命令。
【发明的有益效果】
根据以下结合附图公开了本公开的各种实施例的详细描述,本公开的其他方面、优点和显著特征对于本领域技术人员将变得清楚明白。
附图说明
通过以下结合附图的描述,本公开的某些实施例的上述和其他方面以及优点将更加清楚,在附图中:
图1是示出了根据实施例的语音识别系统的配置的示图;
图2是根据实施例的电子装置的框图;
图3是根据实施例的电子装置的详细框图;
图4是示出了多个电子装置之间的语音识别操作的互锁操作的示图;
图5是提供来说明多个电子装置之间的初始设置操作的示图;
图6是示出了多个电子装置中的每个电子装置的预定优先级的示例的示图;
图7是提供来说明通过使用要在语句中控制的信息从多个电子装置中选择要执行语音识别结果的装置的操作的示图;
图8是提供来说明通过使用装置信息从多个电子装置中选择要执行语音识别结果的装置的操作的示图;
图9是提供来说明在多个电子装置中同时执行语音识别的操作的示图;
图10是根据实施例的语音识别方法的流程图;以及
图11是根据实施例的语音识别方法的流程图。
在整个附图中,相同的附图标记用于表示相同的元件。
具体实施方式
本公开可以具有若干实施例,并且可以对这些实施例进行各种修改。在以下描述中,实施例提供有附图及其详细描述。然而,这未必将实施例的范围限制为特定形式。相反,可以采用包括在本说明书的公开构思和技术范围中的修改、等同和替换。在描述实施例时,可以省略关于已知技术的具体描述,以避免使本公开不清楚。
在本公开中,诸如第一和第二等的关系术语可以用于区分一个实体与另一个实体,而不必暗示这些实体之间的任何实际关系或顺序。在本公开的实施例中,诸如第一和第二等的关系术语可以用于区分一个实体与另一个实体,而不必暗示这些实体之间的任何实际关系或顺序。
本文中使用的术语仅旨在说明特定实施例,而不是限制本公开的范围。应当理解,单数形式“一”、“一个”和“该”包括复数指示物,除非上下文另外明确指出。本说明书中的术语“包括”、“包含”、“被配置为”等用于表示存在特征、数量、步骤、操作、元件、部件或其组合,并且它们不应排除组合或添加一个或多个特征、数量、步骤、操作、元件、部件或其组合的可能性。
诸如“ ……中的至少一个”的表达当在元件列表之后时修饰整个元件列表而不修饰列表中的单个元件。例如,表述“a、b和c中的至少一个”和“a、b和/或c中的至少一个”应被理解为仅包括a、仅包括b、仅包括c、包括a和b两者、包括a和c两者、包括b和c两者、或者包括a、b和c的全部。
在本文中公开的实施例中,术语“模块”或“单元”是指执行至少一个功能或操作的元件。“模块”或“单元”可以被实现为硬件、软件或它们的组合。另外,多个“模块”或多个“单元”可以集成到至少一个模块中,并且可以被实现为至少一个处理器,除了应被实现在特定硬件中的“模块”或“单元”之外。
下面,将参考附图详细描述实施例。
图1是示出了根据实施例的语音识别系统的配置的示图。
参考图1,语音识别系统可以包括多个电子装置100-1、100-2和100-3。
多个电子装置100-1、100-2和100-3中的每个电子装置是具有语音识别功能的装置,并且能够根据语音识别结果执行功能。在此,语音识别是指将输入语音的声学信号转换成单词或语句的技术,然后可以对单词或语句进行评估以对应于使电子装置执行其功能的命令。
多个电子装置100-1、100-2和100-3可以具有相似的语音识别功能,因此为了简洁,下面将描述单个电子装置中的操作。
电子装置100可以接收和/或检测用户语音形式的输入,并且对输入语音执行语音识别。详细地,电子装置100可以是当感测到唤醒词(WUW)时执行语音识别的装置。就这点而言,唤醒词(WUW)是激活语音识别功能的触发器。
当感测到唤醒词(WUW)时,电子装置100可以确定是否执行语音识别。详细地,电子装置100可以在另一个电子装置也检测或可能检测唤醒词(WUW)的情况下,检测是否感测到唤醒词(WUW),确定(在感测到唤醒词(WUW)的电子装置中具有最高优先级的)电子装置执行语音识别,并且确定具有较低优先级的电子装置不执行语音识别。
另外,当感测到唤醒词(WUW)时,执行语音识别的电子装置100可以对输入语音执行语音识别,并且确定要在哪个装置中执行根据语音识别结果的命令和/或功能。
电子装置100可以使用各个装置的装置信息、各个装置中的历史信息等来识别要在哪个电子装置中执行功能。稍后将参考图2更详细地描述该确定操作。
另外,电子装置100可以控制所识别的目标装置基于语音识别结果执行命令或执行功能。例如,当确定第一电子装置100-1执行根据语音识别的功能时,第二电子装置100-2和100-3可以向第一电子装置100-1发送根据语音识别的控制命令。另外,第一电子装置100-1可以基于接收到的控制命令和识别出的语音识别结果,自身执行根据语音识别结果的功能。
如上所述,根据实施例的语音识别系统1000可以基于识别结果确定要执行功能的电子装置,并且仅在所确定的电子装置中执行与其相对应的功能。从而,可以执行对应于用户实际意图的操作。
同时,在图1中,描述了在语音识别系统中提供三个电子装置。然而,该系统可以被实现为包括两个电子装置或者四个或更多个电子装置。
另外,在示出的示例中,各个电子装置可以具有不同的类型。然而,在实施方式中,至少两个装置可以具有相同的类型。
在图1中,描述了在多个电子装置中仅在感测到唤醒词(WUW)的电子装置中具有较高优先级的电子装置执行语音识别。然而,在实施方式中,感测到唤醒词(WUW)的电子装置执行语音识别而不管优先级如何,并且与多个电子装置中的其他电子装置共享语音识别结果。
例如,包括在语音识别系统中的各个电子装置可以根据用户的发声位置和周围的噪声输出不同的语音识别结果。因此,为了改善语音识别结果,即为了提高语音识别,可以实现为使得感测到唤醒词(WUW)的所有电子装置都执行语音识别并彼此共享其语音识别结果。
下面将通过上述电子装置的详细配置来更详细地描述上述操作。
图2是根据实施例的电子装置的框图。
参考图2,电子装置100可以包括麦克风110、通信器120和处理器130。电子装置100可以是PC、TV、移动装置、机顶盒、冰箱、洗衣机、微波炉、扬声器等,并且可以是能够执行语音识别功能的任何电子装置。
麦克风110可以接收语音输入。详细地,麦克风110可以接收语音输入并将语音输入转换为能够在电子装置100中处理的语音信号。同时,在示出的示例中,麦克风110可以被安装在电子装置100中。然而,在实施方式中,麦克风可以是电子装置的外部装置。可以实现为使得从外部麦克风接收语音信号。
通信器120被配置为以各种通信方法与各种外部装置通信。详细地,通信器120可以与另一电子装置通信,或者可以通过外部网络(例如,因特网、服务器等)通信。对于该操作,通信器120可以包括Wi-Fi芯片和蓝牙芯片。
例如,通信器120可以与语音识别系统1000中的另一电子装置通信,并且可以通过Wi-Fi芯片与语音识别系统外部的装置通信。同时,在实施方式中,可以通过Wi-Fi芯片与语音识别系统100中的另一电子装置进信。
在电子装置100通过使用外部服务器执行语音识别处理的情况下,通信器120可以向外部服务器发送从麦克风110接收的语音信号,并且从外部服务器接收识别结果。
另外,通信器120可以执行通信以共享包括在语音识别系统中的另一电子装置的装置信息和通信器120所属的电子装置的装置信息。装置信息可以包括能够识别装置的信息,比如装置名称、装置型号名称、装置类型等,还可以包括关于安装在装置中的应用的信息、功能信息(例如,能够在装置中执行的功能)、关于装置中的执行历史的信息(用户在特定时间执行的功能或应用执行历史信息)以及在特定应用中执行的语音识别的结果(通过特定功能按钮的输入仅在相应装置中执行的语音识别)。
另外,当感测唤醒词(WUW)时,通信器120可以向其他电子装置通知是否感测到唤醒词(WUW)。另外,通信器120可以与其他装置共享所识别的语音识别细节。
另外,通信器120可以向所识别的目标装置发送与语音识别结果相对应的控制命令。另外,通信器120可以从另一电子装置接收根据语音识别结果的控制命令。
同时,通信器120可以处于去激活状态或仅麦克风110和处理器130被激活的待机模式,并且当通过麦克风110接收到语音输入时,可以在处理器的控制下激活通信器120。之后,当确定电子装置100不执行针对输入语音的语音识别时,通信器120可以在处理器130的控制下被再次去激活。
另外,通信器120可以通过诸如天线、电缆或端口的有线方法从外部装置接收图像信号、音频信号和关于输入语音的信息,或者可以通过诸如Wi-Fi和蓝牙的无线方法接收图像信号、音频信号和关于其他语音输入的信息。
另外,尽管未在图2中示出,但是根据示例实施例,通信器120还可以包括:USB端口,USB连接器连接到该USB端口;各种外部输入端口,用于连接诸如耳机、鼠标和LAN的各种外部终端;以及DMB芯片,接收和处理DMB(数字多媒体广播)信号。
处理器130控制电子装置100内的整体操作。详细地,电子装置100可以感测能够与电子装置100通信的另一电子装置。为此,处理器130可以控制通信器120感测另一可连接电子装置。
另外,处理器130可以在存储器165中存储关于另一可连接装置的信息。另外,处理器130可以更新在预定时间点存储的其自身的装置信息以及另一电子装置的信息。
就这点而言,预定时间点可以是找到新的可连接装置的时间点,并且可以是在各个装置中改变新功能或应用的时间点。也就是说,在三个电子装置位于语音识别系统中并且然后添加了新装置的情况下,各个装置可以共享上述装置信息或更新共享的数据。
在实施方式中,可以更新发生特定事件的时间点或在周期性时区处预先存储的装置信息。
另外,当输入唤醒词(WUW)时,处理器130可以激活语音识别功能。详细地,在电子装置100的操作模式是睡眠模式的情况下,处理器130可以将电子装置100的操作模式转换为正常模式或其他睡眠模式(更详细地,是可以与另一电子装置进行通信的睡眠模式)。
当输入唤醒词(WUW)时,处理器130可以确定是否执行语音识别。详细地,如果电子装置100在感测到唤醒词(WUW)的装置中具有较低的优先级,则处理器130可以确定不执行语音识别,而如果电子装置100具有最高优先级,则执行语音识别。为此,当感测到唤醒词(WUW)时,通信器130可以与另一电子装置共享是否感测到唤醒词(WUW)。
另外,处理器130可以执行与通过麦克风接收的语音输入相对应的语音识别。处理器130可以使用其自身的语音识别模块来执行语音识别,或者可以通过向外部服务器发送接收到的语音信号并从该服务器接收识别结果来执行语音识别。
另外,处理器130可以基于所执行的语音识别的结果来识别要根据语音识别结果执行功能的目标装置。详细地,处理器130可以通过分析所执行的语音识别的结果来获取关键字(或单词等),并且搜索指定特定装置或功能所必需的关键字。
另外,处理器130可以基于找到的关键字,从包括在语音识别系统1000中的多个电子装置中确定与找到的关键字相对应的装置或能够执行与关键字有关的功能的电子装置。
例如,关键字可以包括识别特定装置的关键字(例如,装置名称、装置类型、装置型号名称),并且处理器130可以基于相应关键字来识别目标装置。
如果不包括能够识别特定装置的关键字,则处理器130可以基于识别功能的关键字来识别目标装置。
如果所获取的关键字包括能够识别特定装置的关键字和能够识别特定功能的关键字二者,则处理器130可以优先将与该特定装置相对应的目标装置识别为候选装置,并验证所确定的候选装置是否能够执行该特定功能。
经过验证,如果候选装置能够执行该特定功能,则处理器130可以将相应候选装置识别为目标装置。
相反,如果候选装置不能执行该特定功能,则处理器130可以将能够执行该特定功能的另一装置识别为目标装置。
在上述过程中找到多个目标装置的情况下,例如在用户说出“打开TV上的XX频道”但语音识别系统中包括多个TV的情况下,处理器130可以基于当前操作状态来控制多个目标装置中的一个目标装置执行语音识别结果。例如,在多个TV中的仅一个TV当前正在输出图像的情况下,处理器130可以识别出当前正在操作的TV是目标装置。
另外,处理器130可以基于用户历史信息来控制多个目标装置中的一个目标装置执行语音识别及与其对应的功能。在这种情况下,如果多个TV中的所有TV都具有再现特定广播的历史,则处理器130可以确定在当前时区用户更频繁使用的装置是目标装置,或者基于要在特定装置中单独执行的语音识别的结果进行确定。
另外,可以基于预定优先级(由装置自动设置的排名)或由用户设置的优先级从多个目标装置中识别一个目标装置。
如果既未获得能够识别特定装置的关键字又未获得能够识别特定功能的关键字,则处理器130可以识别出具有预定较高优先级的装置是目标装置。
另外,处理器130可以向所确定的目标装置发送与语音识别结果相对应的控制命令。详细地,在所识别出的目标装置是另一电子装置的情况下,处理器130可以控制通信器120向该另一电子装置发送与语音识别结果相对应的控制命令。
在识别语音之前电子装置100处于睡眠模式的情况下,处理器130可以控制被转换回到睡眠模式的电子装置的操作。
在所识别出的目标装置是电子装置100本身的情况下,处理器130可以根据语音识别结果执行功能。
另外,处理器130可以确定电子装置100的操作模式。具体地,当接收到TV显示命令或内容显示命令时,处理器130可以确定显示正常图像的操作模式。就这点而言,该操作模式是显示正常图像的操作状态。
电子装置100还可以包括图3中所示的特征。下面参考图3提供对电子装置100的配置的详细描述。
在上述示例中,电子装置100感测唤醒词(WUW),并且仅在电子装置100的优先级高时才执行语音识别功能。然而,在实施方式中,可以执行语音识别功能而不管优先级如何。另外,处理器130可以与另一电子装置共享语音识别结果,并且具有较高优先级的电子装置可以基于共享的语音识别结果执行发送控制命令的功能。
图3是根据实施例的电子装置的详细框图。
参考图3,根据实施例的电子装置100可以包括麦克风110、通信器120、处理器130、广播接收器140、信号分离器145、音频/视频(A/V)处理器150、音频输出155、图像处理器160、存储器165、显示器170和操纵器175。
麦克风110和通信器120与图2中所示的构件相同,为了简洁起见,下面将不再赘述。
广播接收器140以有线或无线方式从广播站或卫星接收广播信号,并且对接收到的广播信号进行解调。具体地,广播接收器140可以通过天线或电缆接收传输流,对信号进行解调,并且输出数字传输流信号。
信号分离器145将从广播接收器140提供的传输流信号划分为图像信号、音频信号和附加信息信号。此外,信号分离器145向A/V处理器150发送图像信号和音频信号。
同时,广播接收器140和信号分离器145是当电子装置100被实现为TV时的配置,因此当电子装置100被配置为监视器时,可以省略广播接收器140和信号分离器145。
A/V处理器150针对从广播接收器140和/或存储器165输入的视频信号和音频信号执行信号处理,比如视频解码、视频缩放和音频解码。在上述实施例中,视频解码和视频缩放由A/V处理器150执行。在一些实施例中,上述操作可以由图像处理器160执行。另外,A/V处理器150向图像处理器160输出图像信号并向音频输出155输出音频信号。
在将接收到的视频和音频信号存储在存储器165中的情况下,A/V处理器150可以压缩视频和音频信号并将压缩后的视频和音频信号存储在存储器165中。
音频输出155将从A/V处理器150输出的音频信号转换为声音,并且通过扬声器输出声音或通过外部输出端子向与其连接的外部设备输出声音。
图像处理器160可以为用户生成图形用户界面(GUI)。这样的GUI可以是在屏显示(OSD),并且图像处理器160可以被实现为数字信号处理器(DSP)。
详细地,当执行语音识别且作为语音识别的结果电子装置100被识别为目标装置时,图像处理器160可以在GUI上显示关于语音识别结果的信息。
此外,图像处理器160可以将所生成的GUI添加到从A/V处理器150输出的图像,稍后将对此进行描述。另外,图像处理器160可以向显示器170提供与添加有GUI的图像相对应的图像信号。因此,显示器170显示从电子装置100提供的各种信息(例如,关于语音识别结果的信息)和从图像信号提供器160发送的图像。
存储器165可以存储图像内容。例如,存储器165可以从A/V处理器150接收并存储其中视频和音频被压缩的图像内容,并且可以由处理器130控制以向A/V处理器150输出所存储的图像内容。
存储器165可以存储电子装置的装置信息。另外,存储器165可以存储另一装置的装置信息。另外,可以在预定时间点更新电子装置的装置信息和关于另一装置的装置信息。同时,存储器165可以被实现为非易失性存储器(例如,硬盘、固态驱动器(SSD)和闪存)、易失性存储器等。
显示器170可以显示图像。这样的显示器170可以被实现为各种类型的显示器,诸如液晶显示器(LCD)、有机发光二极管(OLED)显示器、量子点发光二极管(QLED)等。在显示器170被配置为LCD的情况下,显示器170可以包括驱动电路、背光单元等,其可以以诸如非晶硅TFT、低温多晶硅(LTPS)TFT、有机TFT(OTFT)等形式实现。同时,显示器170可以被实现为触摸屏并与触摸传感器结合。
在显示器170被配置为LCD的情况下,显示器170包括背光。就这点而言,背光是包括多个光源的点光源,其可以支持局部调光。
在这种情况下,包括在背光中的光源可以配置有冷阴极荧光灯(CCFL)或发光二极管(LED)。在下文中,将示出和描述背光配置有LED和LED驱动电路。然而,在实施时,背光可以被实现为LED以外的特征。背光的多个光源可以以各种形式布置,并且可以应用各种局部调光方法。例如,背光可以是直下型背光,其中多个光以矩阵形式设置且均匀地布置在整个LED屏幕上。就这点而言,背光可以通过全阵列局部调光或直接局部调光来操作。在这点上,全阵列局部调光是如下这样的一种调光方法:整体调节每个光源的亮度,将整个光源均匀地分布在LCD屏幕后面。此外,直接局部调光与全阵列局部调光方法相似,但是它是一种用较少数量的光源来调节每个光源的亮度的调光方法。
另外,背光可以是在整个区域中设置多个光源的直下型背光,或者可以是仅在LCD的边缘上设置多个光源的边缘型背光。就这点而言,背光可以通过边缘照明的局部调光来操作。在边缘照明的局部调光中,多个光源设置在面板的边缘上,并且可以仅设置在左/右侧,仅设置在上/下侧,或设置在左/右/上/下侧。
操纵器175可以被实现为触摸屏、触摸板、键按钮、键区等,以提供对电子装置100的用户操纵。根据实施例,通过电子装置100的操纵器175接收控制命令,但是操纵器175可以从外部控制装置(例如,遥控器)接收用户操纵。
处理器130可以控制电子装置100的整体操作。具体地,处理器130可以控制图像处理器160和显示器170,使得在操作模式下显示根据通过操纵器175接收的控制命令的图像。
控制器130可以包括只读存储器(ROM)、随机存取存储器(RAM)、图形处理单元(GPU)、中央处理单元(CPU)和总线。ROM131、RAM 132、GPU 133和CPU 134可以通过总线互相连接。
CPU 134可以访问存储器165并使用存储在存储器165中的O/S来执行引导。CPU134还可以通过使用存储在存储器165中的各种类型的程序、内容、数据等来执行各种操作。上面已经结合图2中的处理器130描述了CPU 134的操作。
ROM 131可以存储用于系统引导的指令集。如果输入了通电命令并且供电,则CPU134根据存储在ROM 131中的命令将存储在存储器165中的O/S复制到RAM 132中,并且通过执行O/S来引导系统。当引导完成时,CPU 134可以将存储在存储器165中的各种程序复制到RAM 132,并且通过执行复制到RAM 132的程序来执行各种操作。
在引导操作完成之后,GPU 133可以生成包括各种对象的屏幕,比如图标、图像、文本等。上述GPU的配置可以被配置为诸如图像处理器160的单独特征,并且可以被实现为例如与处理器130内的CPU结合的片上系统(SoC)。
在图3中,处理器130仅包括一个处理器。然而,在实施方式中,处理器130可以包括多个处理器,并且这些处理器中的一个处理器可以是语音识别专用的。下面将参考图4描述上述示例。
如上所述,根据实施例的电子装置100可以基于识别结果确定执行语音识别结果的装置,并且仅在相应装置中执行功能。由此,可以执行对应于用户意图的操作。另外,根据实施例的电子装置100可以通过使用另一装置的识别结果来执行功能,因此,可以扩展语音识别的范围。
在上述示例中,显示器150是基本特征。然而,在电子装置100(比如,机顶盒)仅执行信号处理的情况下,可以省略显示器150,并且处理器可以向外部显示装置发送关于UI屏幕的信息,使得在外部显示装置上显示UI屏幕。
另外,在电子装置100是洗衣机、冰箱等的情况下,还可以包括用于在相应装置中执行特定功能的附加特征。
在图1至图3中,多个电子装置中的每个电子装置预存储装置信息并使用该预存储的装置信息。然而,在实施方式中,多个电子装置可以在需要语音识别的时间点请求装置信息,并且使用装置信息。另外,多个电子装置中仅一个电子装置(例如,诸如TV、冰箱等的不可移动装置)可以管理多个电子装置的装置信息(包括历史信息)。
图4是示出了多个电子装置之间的语音识别操作的互锁操作的示图。
参考图4,语音识别系统1000可以包括第一电子装置100-1和第二电子装置100-2。
在下文中,将描述这两个电子装置的共同特征,然后将描述这两个电子装置的互锁操作。
电子装置100-1和电子装置100-2可以包括语音输入110(110-1、110-2)、通信器120(121-1、121-2)、处理器130(130-1、130-2)以及功能部分155-2、170-1。
语音输入110可以接收用户话语的输入。例如,语音输入110可以使用麦克风来接收用户说出的语音的输入,或者可以从外部麦克风接收语音信号。
处理器130可以针对输入的语音信号执行语音识别。例如,处理器130可以包括语音识别处理器131(131-1、131-2)和语音识别结果处理器133(133-1、133-2)。
语音识别处理器131可以感测唤醒词(WUW)。
另外,语音识别处理器131可以对在唤醒词(WUW)输入之后输入的语音信号执行语音识别。例如,语音识别处理器130可以分析语音信号的波形并生成与用户说出的语音相对应的文本语句(语音到文本)。在实施方式中,语音识别处理器131可以使用存储在其中的语音识别算法来生成文本语句,或者可以实现为向基于网络(云)的服务器提供语音信号,接收结果,并使用接收到的结果。
当在语音识别处理器131中感测到唤醒词(WUW)时,语音识别结果处理器133可以确定是否要执行语音识别操作。为此,语音识别结果处理器133可以控制通信器120向另一电子装置通知感测到唤醒词(WUW)的事实,并且在感测到唤醒词(WUW)的电子装置中具有最高优先级的装置的情况下,确定要执行语音识别。
同时,可以在说出唤醒词(WUW)之后连续地输入用户的话语命令。因此,语音识别处理器131可以独立于上述确定操作而继续进行语音识别结果。当确定相应电子装置100-1执行语音识别时,语音识别结果处理器133可以控制继续进行上述处理,而当确定另一电子装置100-2执行语音识别时,控制中止上述语音识别处理操作。
语音识别结果处理器133可以基于在语音识别处理器131中生成的文本消息来识别目标装置。例如,语音识别结果处理器133可以从生成的文本消息中获取关键字,在获取的关键字中搜索能够用于识别装置和功能的关键字,并且通过使用找到的关键字和预存储的装置信息来识别目标装置。在图2的处理器130中描述了上述操作,为了简洁起见,下面将不再赘述。
当识别出目标装置时,处理器130可以控制通信器120或功能部分170,使得在目标装置中执行相应操作。
通信器120可以共享电子装置的装置信息,并且共享所生成的控制命令。通信器120可以被实现为蓝牙模块。
功能部分170和150可以执行与所生成的控制命令或接收到的控制命令相对应的功能。例如,如果控制命令是显示特定内容的功能,则功能部分170可以执行显示该特定内容的操作。如果控制命令是特定内容的声音输出,则功能部分150可以执行输出与该特定内容相对应的音频的操作。
下面将描述在感测到唤醒词(WUW)的情况下两个电子装置100-1和100-2的互锁操作。
例如,当用户说出唤醒词(WUW)时,这两个电子装置100-1和100-2可以激活语音识别功能。如果这两个电子装置中只有一个装置100-1感测到唤醒词(WUW),则第一电子装置100-1可以对用户的语音执行语音识别,并执行识别和控制目标装置的两项操作。
在用户说出唤醒词(WUW)且电子装置100-1和100-2都感测到唤醒词(WUW)的情况下,可以根据预定优先级仅在一个电子装置100-2中执行语音识别。
在上述示例中,在装置之间共享是否已经感测到唤醒词(WUW),并且因此,仅在一个电子装置中执行语音识别。然而,共享可以在不同的时间点进行。
例如,当感测到唤醒词(WUW)时,电子装置100-1和100-2可以单独地执行语音识别。这两个电子装置100-1和100-2可以共享作为语音识别结果的文本,或者可以仅共享作为根据所共享文本的最终结果的控制命令。在实施方式中,可以仅共享作为最终结果的控制命令,而如果在这两个电子装置100-1和100-2中生成的控制命令彼此不同,则共享语音识别结果并修改彼此不同的控制命令中的一个控制命令。
同时,这两个电子装置100-1和100-2可以共享装置信息以识别要执行识别结果的目标装置。可以预先共享装置信息。稍后将参考图5描述这种操作。
图5是提供来说明多个电子装置之间的初始设置操作的示图。
参考图5,语音识别系统1000可以包括第一电子装置100-1、第二电子装置100-2和第三电子装置100-3。上面已经讨论了装置100-1、100-2、100-3。
当初始设置语音识别系统1000时,或者当新装置添加到语音识别系统1000时或在预定时间点,语音识别系统1000中的各个装置可以互相共享它们自己的装置信息。
例如,在第一电子装置100-1预存储了识别其自身所需的信息、关于所安装应用的信息、历史信息等的情况下,当需要共享时,第一电子装置100-1可以向其他电子装置100-2和100-3发送关于其自身的相应信息。
相反,第一电子装置100-1可以接收关于另一电子装置的装置信息并存储接收到的信息。
可以对第二电子装置100-2和第三电子装置100-3执行相同的操作。
另外,可以预先确定上述多个电子装置之间语音识别所依据的优先级。可以根据包括在上述语音识别系统中的时间顺序来确定优先级,或者可以基于各个电子装置的语音识别成功率来确定优先级。另外,用户可以直接设置优先级。
同时,私人住宅可以包括许多房间,并且可以在每个房间中提供不同的电子装置。在能够进行语音识别的十个单元的电子装置分布在私人住宅中的多个房间中的情况下,如果全部十个电子装置互相共享装置信息,则将对各个电子装置的存储空间造成负担。
在这种情况下,可以将多个电子装置划分为多个组,并且通过这些组来共享装置信息。例如,可以仅在设置在起居室中的电子装置之间共享装置信息,以及仅在设置在主房间中的电子装置之间共享装置信息。
备选地,十个单元的电子装置中的任何一个电子装置都可以用作服务器,因此所有装置的装置信息可以仅存储在一个装置中,并且可以根据需要从用作服务器的装置向其他电子装置提供信息。在这种情况下,充当服务器的电子装置可以包括各个装置的位置信息,并且仅提供关于设置在相同位置处的装置的信息。例如,当位于起居室中的电子装置请求另一装置的装置信息时,可以向请求装置信息的装置仅提供位于起居室中的另一电子装置的装置信息。
图6是示出了多个电子装置中的每个电子装置的预定优先级的示例的示图。
参考图6,示出了关于包括在语音识别系统中的多个电子装置的信息以及各个电子装置的优先级。
可以由用户基于用户的装置使用历史或频繁用于语音识别的装置的历史信息来预设这样的优先级。另外,主要在具有较高优先级的装置中执行语音识别,并因此可以基于与语音识别相关联的性能指标(例如,语音识别的成功率等)来确定优先级。
可以在基于用户话语的内容难以指定特定装置或存在支持相同功能的多个装置的情况下使用优先级。
详细地,用户可以将具有相同唤醒词(WUW)的装置连接到蓝牙,并且指定语音识别的优先级。
基于指定的优先级来选择要处理用户的语音命令的目标装置,并且当不可能指定执行语音识别结果的目标时,可以将优先级用作命令执行的参考。
例如,在TV和智能手机具有“Bixby”的唤醒词(WUW)且用户说出“Bixby,打开TV上的新闻”的情况下,即使在TV和智能手机中同时识别出唤醒词(WUW),如果对于用户而言智能手机具有更高的语音识别优先级,则也可以首先在智能手机中处理用户的语音命令并传送该命令以在电视上操作。下面将参考图7描述上述操作。
另外,在难以估计特定装置的情况下,如在发出“Bixby,播放音乐”的情况下,可以根据设置的优先级执行语音识别。下面将参考图8描述上述操作。
图7是提供来说明通过使用要在语句中控制的信息从多个电子装置中选择要执行语音识别结果的装置的操作的示图。
上述优先级可以用于确定要执行语音识别的装置,并且可以用于确定要根据最终语音识别来执行功能的装置。首先,下面将描述在确定要执行语音识别的装置的情况下的操作。
参考图7,当接收到用户话语时,语音识别系统1000中的多个电子装置100-1、100-2和100-3中的每个电子装置可以分析用户话语并感测输入话语是否是唤醒词(WUW)。
当用户话语是唤醒词(WUW)时,各个装置100-1、100-2和100-3可以共享指示已经成功识别出唤醒词(WUW)的信息。
在这种情况下,各个电子装置100-1、100-2和100-3可以识别是否已经识别出连接的装置以及语音识别的优先级,并因此,可以确定要在哪个电子装置中执行对语音指令的分析。
例如,在第一电子装置100-1具有较高优先级且感测到唤醒词(WUW)的情况下,可以对用户说出的语音执行语音识别,并且可以通过使用所执行的语音识别的结果中能够识别特定装置的关键字“TV”将第一电子装置100-1识别为目标装置。
同时,执行语音识别的装置是目标装置,因此第一电子装置100-1可以立即执行用于语音识别结果的操作。
如果第一电子装置100-1具有最高优先级但未感测到唤醒词(WUW),则下一排名的第二电子装置100-2可以对用户说出的语音执行语音识别。第二电子装置100-2可以通过使用所执行的语音识别的结果中能够识别特定装置的关键字“TV”将第一电子装置100-1识别为目标装置。
在这种情况下,第二电子装置100-2可以生成与在第一电子装置100-1中的新闻再现相关联的控制命令,并且向第一电子装置100-1发送所生成的控制命令。所生成的控制命令可以是仅在特定装置中可识别的命令,其例如可以是将频道改变为11,打开TV并将频道改变为11,且结果可以是“打开新闻”。
在上述示例中,根据优先级仅在特定装置中执行语音识别。然而,在实施方式中,所有感测到唤醒词(WUW)的装置都可以执行语音识别。
换言之,所有成功识别出唤醒词(WUW)的装置都可以执行语音识别,并且共享语音识别结果(例如,打开TV上的新闻)。
另外,上述优先级不仅可以用于确定要执行语音识别功能的装置,而且如果可以在多个装置中执行根据用户语音的功能,则可以用于指定任何装置。下面将参考图8对此进行描述。
图8是提供来说明通过使用装置信息从多个电子装置中选择要执行语音识别结果的装置的操作的示图。
参考图8,当接收到用户话语时,语音识别系统1000中的多个电子装置100-1、100-2和100-3中的每个电子装置可以分析用户话语并感测输入话语是否是唤醒词(WUW)。
当确定用户话语是唤醒词(WUW)时,各个装置100-1、100-2和100-3可以共享已经感测到唤醒词(WUW)的事实。
作为共享的结果,具有较高优先级的电子装置可以执行语音识别功能。例如,如果第一电子装置100-1具有最高优先级,则第一电子装置100-1可以执行语音识别,并且根据识别结果来识别目标装置。
例如,在用户说出的语音包括与执行被称为SNS应用的功能有关的关键字,SNS应用能够在第一电子装置100-1和第二电子装置100-2中运行,并且第一电子装置100-1具有更高优先级的情况下,第一电子装置100-1可以确定第一电子装置100-1优先执行SNS应用。
由于确定第一电子装置100-1执行操作,因此第一电子装置100-1可以根据识别结果执行操作。
在上述示例中,当能够在多个电子装置中执行特定功能时,基于预定优先级来识别目标装置。然而,在实施方式中,可以在考虑优先级之前基于用户的历史信息来识别目标装置,并且仅在难以指定目标装置时才考虑优先级。
图9是提供来说明在以不同操作模式操作的多个电子装置中的语音识别操作的示图。
第一电子装置100-1可以处于第一省电状态,在第一省电状态中,仅向处理器120和通信器130供电。第二电子装置100-2可以处于第二省电状态,在第二省电状态中,仅向麦克风110和处理器120供电。第三电子装置100-3可以处于向其所有组件供电的正常状态。
组件101可以指代包括在电子装置100中的所有组件之中除麦克风110、处理器130和通信器120之外的组件。
在这种状态下,当用户说出唤醒词(WUW)时,各个电子装置100-1、100-2和100-3的麦克风可以接收用户语音的输入,并且处理器130可以识别出感测到唤醒词(WUW),其是用于语音识别功能的触发器。
当感测到唤醒词(WUW)时,各个电子装置100-1、100-2和100-3可以激活通信功能,并且与另一装置共享是否感测到唤醒词(WUW)。
另外,可以确定在感测到唤醒词(WUW)的其他装置之中执行语音识别的装置。
另外,被确定为执行语音识别的装置100-1可以执行语音识别。
如果识别出第一电子装置100-1是目标装置,则第一电子装置100-1可以将操作模式改变为正常模式并改变操作。在这种情况下,第二电子装置100-2不是目标装置,因此可以将激活的通信器再次改变为去激活状态。
图10是根据实施例的语音识别方法的流程图。
在操作S1010,可以执行与语音输入相对应的语音识别。详细地,可以使用预存储的语音识别算法来执行语音识别,或者向服务器发送输入的语音信号并接收语音识别结果。在实施方式中,当感测到唤醒词(WUW)时,可以与另一电子装置共享是否感测到唤醒词(WUW),并且仅在感测到唤醒词(WUW)的电子装置中具有最高优先级的电子装置中执行语音识别。
在操作S1020,基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个来识别目标装置。例如,基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个,识别在电子装置和可连接到该电子装置的另一电子装置之中的目标装置。例如,当装置信息包括在语音识别结果中时,可以识别在电子装置和另一电子装置之中与装置信息相对应的目标装置。另外,当功能信息包括在语音识别结果中时,可以基于电子装置的装置信息和关于该另一电子装置的信息来确定能够执行与功能信息相对应的功能的目标装置。
如果存在能够执行功能的多个目标装置,则可以基于电子装置或该另一电子装置的历史信息或基于预定优先级来识别一个目标装置。
在操作S1030,向所识别的目标装置发送与语音识别结果相对应的控制命令。如果所识别的目标装置是装置本身,则可以执行与识别结果相对应的操作。
如上所述,根据实施例的语音识别方法可以基于识别的结果确定要执行语音识别结果的装置,并且仅在相应装置中执行功能。由此,可以执行对应于用户意图的操作。图10的语音识别可以例如在具有图2或图3的配置的电子装置中执行,并且也可以在具有其他配置的电子装置中执行。
根据实施例的上述语音识别方法可以在计算机程序中实现,并且提供给显示装置。特别地,包括根据实施例的用于控制显示装置的方法的计算机程序可以存储在非暂时性计算机可读介质中并在其中提供,并且由装置的处理器或控制器执行以执行本文中描述的方法。
非暂时性计算机可读介质是指半永久地存储数据而不是短时间地存储数据(例如,寄存器、高速缓存、内存等)的物理介质,并且可由装置读取。详细地,上述各种应用或程序可以存储在非暂时性计算机可读介质中并可以被提供,例如致密盘(CD)、数字多功能盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等。
图11是根据实施例的语音识别方法的流程图。
参考图11,在操作S1110,可以感测用户唤醒词(WUW)。
作为感测的结果,在操作S1120,可以确定多个装置是否已经感测到用户唤醒词(WUW)。为此,当感测到唤醒词(WUW)时,可以与另一电子装置共享是否感测到唤醒词(WUW)。
作为确定的结果,当多个电子装置已经感测到唤醒词(WUW)时,在操作S1130,可以确定具有最高优先级的电子装置执行语音识别。在这种情况下,如果多个电子装置已经感测到唤醒词(WUW)且装置本身具有较低优先级,则可不执行语音识别操作。
在操作S1140,如果仅在当前装置中感测到唤醒词(WUW),则可以确定执行语音识别。
在这种情况下,可以将语音指令的分析作为后台操作执行,这可以不在用户观看的屏幕中产生中断。
作为语音识别的结果,在操作S1150,可以确定是否可以指定要执行语音命令的装置。在存在作为所连接装置的要执行唤醒词(WUW)的装置的情况下,在操作S1150,可以在相应装置中执行唤醒词(WUW)。在不存在要执行唤醒词(WUW)的装置的情况下,在操作S1160,可以执行针对相应唤醒词(WUW)的基本操作。
如上所述,根据实施例的语音识别方法可以基于识别的结果确定要执行语音识别结果的装置,并且仅在相应装置中执行功能。由此,可以执行对应于用户意图的操作。图10的语音识别可以例如在具有图2或图3的配置的电子装置中执行,并且也可以在具有其他配置的电子装置中执行。
根据上述示例性实施例的上述语音识别方法可以在程序中实现,并提供给显示装置。特别地,包括根据示例实施例的语音识别方法的程序可以存储在非暂时性计算机可读介质中并在其中提供。
前述实施例和优点仅是示例性的,并且不应被解释为限制本公开。本公开的各方面可以容易地应用于其他类型的设备。而且,本公开的实施例的描述旨在是说明性的,而不是限制权利要求的范围,并且许多替代、修改和变形对于本领域技术人员而言将是显然的。
Claims (15)
1.一种电子装置,包括:
通信器;
麦克风,被配置为接收语音输入;以及
处理器,被配置为:
执行与通过所述麦克风接收的所述语音输入相对应的语音识别,
基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个来识别目标装置;以及
控制所述通信器向所述目标装置发送与所述语音识别的结果相对应的控制命令。
2.根据权利要求1所述的电子装置,还包括:
存储器,被配置为存储所述电子装置的装置信息和能够与所述电子装置通信的第二电子装置的装置信息,
其中所述处理器被配置为基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个,从所述电子装置和所述第二电子装置中识别所述目标装置。
3.根据权利要求2所述的电子装置,其中所述处理器被配置为基于所述语音识别的结果,从所述电子装置和所述第二电子装置中识别与所述装置信息相对应的目标装置。
4.根据权利要求2所述的电子装置,其中所述处理器被配置为基于所述语音识别的结果,根据所述电子装置的装置信息和所述第二电子装置的装置信息来识别能够执行与所述功能信息相对应的功能的目标装置。
5.根据权利要求4所述的电子装置,其中所述处理器被配置为基于多个目标装置能够执行所述功能,根据所述多个目标装置的历史信息来识别一个目标装置。
6.根据权利要求5所述的电子装置,其中所述处理器被配置为基于在所述多个目标装置中的每个目标装置中执行的语音识别历史信息,从所述多个装置中识别一个目标装置。
7.根据权利要求5所述的电子装置,其中所述处理器被配置为基于当前时间信息和历史信息,从所述多个装置中识别一个目标装置。
8.根据权利要求4所述的电子装置,其中所述处理器被配置为基于预定优先级来识别所述目标装置。
9.根据权利要求2所述的电子装置,其中所述处理器被配置为在预定时间处更新所述电子装置的装置信息和所述第二电子装置的装置信息。
10.根据权利要求1所述的电子装置,其中所述处理器被配置为基于所述目标装置是所述电子装置,执行与所述语音识别的结果相对应的功能。
11.根据权利要求10所述的电子装置,其中所述处理器被配置为基于所述目标装置是所述电子装置且从另一电子装置接收到控制命令,将所述语音识别的结果与接收到的控制命令进行比较,并确定是否根据接收到的控制命令另外地执行功能。
12.根据权利要求1所述的电子装置,其中所述处理器被配置为基于接收到通过所述麦克风输入的语音中的唤醒词WUW,对通过所述麦克风输入的所述语音执行语音识别。
13.根据权利要求1所述的电子装置,其中所述处理器被配置为:
控制所述通信器向服务器发送通过所述麦克风接收的所述语音输入;以及
通过使用从所述服务器接收的所述语音的语音识别结果来识别所述目标装置。
14.一种电子装置中的语音识别方法,所述方法包括:
执行与语音输入相对应的语音识别;
基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个来识别目标装置;以及
向所述目标装置发送与所述语音识别的结果相对应的控制命令。
15.根据权利要求14所述的语音识别方法,其中所述识别包括:基于包括在所执行的语音识别的结果中的装置信息和功能信息中的至少一个,从所述电子装置和能够与所述电子装置通信的第二电子装置中识别目标装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0134572 | 2017-10-17 | ||
KR1020170134572A KR102471493B1 (ko) | 2017-10-17 | 2017-10-17 | 전자 장치 및 음성 인식 방법 |
PCT/KR2018/012265 WO2019078617A1 (en) | 2017-10-17 | 2018-10-17 | ELECTRONIC APPARATUS AND VOICE RECOGNITION METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111033610A true CN111033610A (zh) | 2020-04-17 |
CN111033610B CN111033610B (zh) | 2023-10-27 |
Family
ID=63878378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880054657.2A Active CN111033610B (zh) | 2017-10-17 | 2018-10-17 | 电子装置及语音识别方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11437030B2 (zh) |
EP (1) | EP3474273B1 (zh) |
KR (1) | KR102471493B1 (zh) |
CN (1) | CN111033610B (zh) |
WO (1) | WO2019078617A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201236A (zh) * | 2020-09-22 | 2021-01-08 | 北京小米松果电子有限公司 | 终端唤醒方法、装置及计算机可读存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI651714B (zh) * | 2017-12-22 | 2019-02-21 | 隆宸星股份有限公司 | 語音選項選擇系統與方法以及使用其之智慧型機器人 |
KR102323656B1 (ko) | 2019-06-04 | 2021-11-08 | 엘지전자 주식회사 | 홈 어플라이언스 제어 장치 및 방법, 홈 어플라이언스 및 홈 어플라이언스 동작 방법 |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11508375B2 (en) | 2019-07-03 | 2022-11-22 | Samsung Electronics Co., Ltd. | Electronic apparatus including control command identification tool generated by using a control command identified by voice recognition identifying a control command corresponding to a user voice and control method thereof |
KR20210008696A (ko) * | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
KR102244156B1 (ko) * | 2019-10-14 | 2021-04-27 | 주식회사 아이포바인 | 블루투스 메쉬 네트워크를 이용한 음성명령 처리 방법 |
KR20220037846A (ko) * | 2020-09-18 | 2022-03-25 | 삼성전자주식회사 | 음성 인식을 수행하기 위한 전자 장치를 식별하기 위한 전자 장치 및 그 동작 방법 |
KR102309509B1 (ko) * | 2021-02-04 | 2021-10-06 | 경상국립대학교산학협력단 | 인공지능 기기 상호간의 호출을 활용한 IoT 디바이스를 제어하는 방법 및 시스템 |
US20220293109A1 (en) * | 2021-03-11 | 2022-09-15 | Google Llc | Device arbitration for local execution of automatic speech recognition |
EP4089523A1 (en) | 2021-05-10 | 2022-11-16 | Koninklijke Philips N.V. | Medical system and method |
KR20230086500A (ko) * | 2021-12-08 | 2023-06-15 | 엘지전자 주식회사 | 인공 지능 장치 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456296A (zh) * | 2012-05-31 | 2013-12-18 | 三星电子株式会社 | 提供语音识别功能的方法及其电子设备 |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
EP2680596A1 (en) * | 2012-06-27 | 2014-01-01 | Samsung Electronics Co., Ltd | Display apparatus, method for controlling display apparatus, and interactive system |
US20140136213A1 (en) * | 2012-11-13 | 2014-05-15 | Lg Electronics Inc. | Mobile terminal and control method thereof |
US20150279356A1 (en) * | 2014-03-31 | 2015-10-01 | Samsung Electronics Co., Ltd. | Speech recognition system and method |
US20150302857A1 (en) * | 2013-08-29 | 2015-10-22 | Panasonic Intellectual Property Corporation Of America | Device control method, display control method, and purchase settlement method |
US20160155443A1 (en) * | 2014-11-28 | 2016-06-02 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
CN106471463A (zh) * | 2014-06-24 | 2017-03-01 | 谷歌公司 | 用于音频输入监视的装置指定 |
US20170206896A1 (en) * | 2016-01-19 | 2017-07-20 | Samsung Electronics Co., Ltd. | Electronic device and method for providing voice recognition function |
WO2017135531A1 (ko) * | 2016-02-05 | 2017-08-10 | 삼성전자(주) | 음성인식 장치 및 방법, 음성인식시스템 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002116787A (ja) | 2000-07-10 | 2002-04-19 | Matsushita Electric Ind Co Ltd | 優先順位決定装置、優先順位決定方法及び優先順位決定プログラム |
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US20130073293A1 (en) * | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
US8825020B2 (en) * | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
US20130238326A1 (en) * | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
US9189196B2 (en) * | 2013-03-14 | 2015-11-17 | Google Inc. | Compartmentalized self registration of external devices |
JP2016024212A (ja) * | 2014-07-16 | 2016-02-08 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
KR102246900B1 (ko) | 2014-07-29 | 2021-04-30 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
KR102346302B1 (ko) | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
KR102585228B1 (ko) | 2015-03-13 | 2023-10-05 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
US9911416B2 (en) * | 2015-03-27 | 2018-03-06 | Qualcomm Incorporated | Controlling electronic device based on direction of speech |
US20170032783A1 (en) * | 2015-04-01 | 2017-02-02 | Elwha Llc | Hierarchical Networked Command Recognition |
WO2016185809A1 (ja) * | 2015-05-19 | 2016-11-24 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
JP2017107333A (ja) | 2015-12-08 | 2017-06-15 | キヤノン株式会社 | 通信機器及び通信機器の制御方法 |
US10271093B1 (en) * | 2016-06-27 | 2019-04-23 | Amazon Technologies, Inc. | Systems and methods for routing content to an associated output device |
US10783883B2 (en) * | 2016-11-03 | 2020-09-22 | Google Llc | Focus session at a voice interface device |
JP6725006B2 (ja) * | 2016-12-02 | 2020-07-15 | ヤマハ株式会社 | 制御装置および機器制御システム |
US10735479B2 (en) * | 2017-03-30 | 2020-08-04 | Intel Corporation | Methods, systems and apparatus to enable voice assistant device communication |
US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
-
2017
- 2017-10-17 KR KR1020170134572A patent/KR102471493B1/ko active IP Right Grant
-
2018
- 2018-10-16 EP EP18200652.8A patent/EP3474273B1/en active Active
- 2018-10-17 CN CN201880054657.2A patent/CN111033610B/zh active Active
- 2018-10-17 WO PCT/KR2018/012265 patent/WO2019078617A1/en active Application Filing
- 2018-10-17 US US16/162,996 patent/US11437030B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN103456296A (zh) * | 2012-05-31 | 2013-12-18 | 三星电子株式会社 | 提供语音识别功能的方法及其电子设备 |
EP2680596A1 (en) * | 2012-06-27 | 2014-01-01 | Samsung Electronics Co., Ltd | Display apparatus, method for controlling display apparatus, and interactive system |
US20140136213A1 (en) * | 2012-11-13 | 2014-05-15 | Lg Electronics Inc. | Mobile terminal and control method thereof |
US20150302857A1 (en) * | 2013-08-29 | 2015-10-22 | Panasonic Intellectual Property Corporation Of America | Device control method, display control method, and purchase settlement method |
US20150279356A1 (en) * | 2014-03-31 | 2015-10-01 | Samsung Electronics Co., Ltd. | Speech recognition system and method |
CN106471463A (zh) * | 2014-06-24 | 2017-03-01 | 谷歌公司 | 用于音频输入监视的装置指定 |
US20160155443A1 (en) * | 2014-11-28 | 2016-06-02 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US20170206896A1 (en) * | 2016-01-19 | 2017-07-20 | Samsung Electronics Co., Ltd. | Electronic device and method for providing voice recognition function |
WO2017135531A1 (ko) * | 2016-02-05 | 2017-08-10 | 삼성전자(주) | 음성인식 장치 및 방법, 음성인식시스템 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201236A (zh) * | 2020-09-22 | 2021-01-08 | 北京小米松果电子有限公司 | 终端唤醒方法、装置及计算机可读存储介质 |
CN112201236B (zh) * | 2020-09-22 | 2024-03-19 | 北京小米松果电子有限公司 | 终端唤醒方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019078617A1 (en) | 2019-04-25 |
KR102471493B1 (ko) | 2022-11-29 |
US11437030B2 (en) | 2022-09-06 |
EP3474273A1 (en) | 2019-04-24 |
CN111033610B (zh) | 2023-10-27 |
US20190115025A1 (en) | 2019-04-18 |
EP3474273B1 (en) | 2022-11-30 |
KR20190042919A (ko) | 2019-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111033610B (zh) | 电子装置及语音识别方法 | |
US11086596B2 (en) | Electronic device, server and control method thereof | |
CN101907983B (zh) | 麦克风静音控制方法以及计算机 | |
RU2677396C2 (ru) | Устройство отображения, устройство захвата речи и соответствующий способ распознавания речи | |
US10032434B2 (en) | Display apparatus and method for controlling the same | |
US11488598B2 (en) | Display device and method for controlling same | |
US20170169819A1 (en) | Modifying input based on determined characteristics | |
US8099666B2 (en) | Method and apparatus for providing user interface for multistreaming audio control | |
US10108392B2 (en) | User terminal apparatus, display apparatus connected to user terminal apparatus, server, connected system, controller, and controlling method thereof | |
US9992439B2 (en) | Display apparatus, controlling method, and display system | |
US20200411011A1 (en) | Electronic device, control method thereof, and computer readable recording medium | |
KR20160003400A (ko) | 디스플레이 장치 및 그 제어 방법 | |
US11907616B2 (en) | Electronic apparatus, display apparatus and method of controlling the same | |
US20210084366A1 (en) | Electronic device, control method therefor, and computer-readable recording medium | |
US20190050063A1 (en) | Display apparatus and method for providing content thereof | |
US11582514B2 (en) | Source apparatus and control method therefor | |
US9143752B2 (en) | Method and electronic system for playing videos | |
US11243740B2 (en) | Electronic device and method for controlling same | |
CN115298650A (zh) | 语音控制方法及智能终端 | |
US20240161752A1 (en) | Electronic apparatus and controlling method thereof | |
US11545158B2 (en) | Electronic apparatus, method for controlling mobile apparatus by electronic apparatus and computer readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |