CN114596851A

CN114596851A - 视频装置与其操作方法

Info

Publication number: CN114596851A
Application number: CN202011577567.7A
Authority: CN
Inventors: 陈庆平; 吴威德
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2020-12-04
Filing date: 2020-12-28
Publication date: 2022-06-07
Also published as: US20220179617A1; TWI756966B; TW202223878A

Abstract

一种视频装置，包括影像获取装置、影像分析装置、语音获取装置、语音识别装置与处理装置。影像获取装置获取一影像。影像分析装置对影像进行分析，以产生语音识别启动指令。语音获取装置接收一语音。语音识别装置依据语音识别启动指令，对语音进行识别，以产生语音指令。处理装置依据语音指令，以调整视频装置的操作。如此一来，有效地增加使用上的便利性。本发明还涉及一种视频装置的操作方法。

Description

视频装置与其操作方法

技术领域

本发明实施例关于一种视频装置，特别涉及一种视频装置与其操作方法。

背景技术

一般来说，为了方便在会议室中使用视频会议产品，使用者会需要使用视频会议产品的静音功能或音量调整功能等。然而，上述功能可能需要使用者手动去按压按键来实现，且因为开会时在场人员的位置距离视频会议产品较远，就会造成操作上的不方便。

有鉴于此，部分的视频会议产品会使用语音控制来实现静音功能或音量调整功能。但是，语音控制是需要使用者呼喊唤醒字汇(wake up word)，例如“Alexa”、“Okgoogle”等，才能将视频会议产品的语音控制系统叫醒。接着，语音控制系统把语音信息往云端送，以让云端去作识别，且语音控制系统便可依据云端的识别结果进行静音功能或音量调整功能。然而，若在会议中呼喊唤醒字汇，可能会造成开会的困扰。因此，视频会议产品仍有改善的空间。

发明内容

本发明实施例提供一种视频装置与其操作方法，借此利用影像识别来实现语音控制的操作，以有效地增加使用上的便利性。

本发明实施例提供一种视频装置，包括影像获取装置、影像分析装置、语音获取装置、语音识别装置与处理装置。影像获取装置获取一影像。影像分析装置耦接影像获取装置，接收影像，并对影像进行分析，以产生语音识别启动指令。语音获取装置接收一语音。语音识别装置耦接语音获取装置与影像分析装置，接收语音与语音识别启动指令，并依据语音识别启动指令，对语音进行识别，以产生语音指令。处理装置耦接影像分析装置与语音识别装置，接收语音指令，并依据语音指令，以调整视频装置的操作。

本发明实施例另提供一种视频装置的操作方法，包括下列步骤。通过语音获取装置，获取一语音。通过影像获取装置，获取一影像。通过影像分析装置，接收影像，并对影像进行分析，以产生语音识别启动指令。通过语音识别装置，接收语音与语音识别启动指令，并依据语音识别启动指令，对语音进行识别，以产生语音指令。通过处理装置，接收语音指令，并依据语音指令，以调整视频装置的操作。

本发明实施例所公开的视频装置与其操作方法，通过影像分析装置对影像进行分析，以产生一语音识别启动指令，且语音识别装置依据语音识别启动指令，对语音进行识别，以产生语音指令，使处理装置依据语音指令，以调整视频装置的操作。如此一来，可以利用影像识别来实现语音控制的操作，以有效地增加使用上的便利性。

附图说明

图1为依据本发明的一实施例的视频装置的示意图。

图2为依据本发明的另一实施例的视频装置的示意图。

图3为依据本发明的一实施例的视频装置的操作方法的流程图。

图4为图3的步骤S304的详细流程图。

图5为图4的步骤S402及S404的详细流程图。

图6为依据本发明的另一实施例的视频装置的操作方法的流程图。

图7为依据本发明的另一实施例的视频装置的操作方法的流程图。

附图标记说明：

100,200：视频装置

110：影像获取装置

120：影像分析装置

121：影像识别装置

122：识别指令产生装置

130：语音获取装置

140：语音识别装置

150：处理装置

210：距离感测装置

S302～S310,S402,S404,S502～S506,S602,S702～S708：步骤

具体实施方式

在以下所列举的各实施例中，将以相同的标号代表相同或相似的元件或组件。

图1为依据本发明的一实施例的视频装置的示意图。在本实施例中，视频装置100适用于进行视频的室内空间，例如会议室，但本发明实施例不限于此。请参考图1，视频装置100包括影像获取装置110、影像分析装置120、语音获取装置130、语音识别装置140与处理装置150。

影像获取装置110获取一影像。举例来说，影像获取装置110对室内空间的物件或物体(例如参与视频的使用者)进行影像获取操作，以获取对应的影像。在本实施例中，影像获取装置110可以是电荷耦合元件(charge coupled device,CCD)、360度全景摄影机或其他具有影像获取功能的摄影机，但本发明实施例不限于此。

影像分析装置120耦接影像获取装置110。影像分析装置120接收影像，并对影像进行分析，以产生语音识别启动指令。举例来说，影像分析装置120可以影像进行分析，以确定影像中是否包括预设动作，进而产生语音识别启动指令。在本实施例中，上述预设动作可以是手势动作，例如使用者举手、挥手或特定手势等，但本发明实施例不限于此。

也就是说，当影像分析装置120确定影像中包括预设动作时，影像分析装置120可以产生语音识别启动指令。当影像分析装置120确定影像中未包括预设动作时，影像分析装置120不会产生语音识别启动指令。另外，不论影像分析装置120确定影像中包括或未包括预设动作，影像分析装置120也会将接收到的影像传送至处理单元150。

进一步来说，影像分析装置120可以包括影像识别装置121与识别指令产生装置122。影像识别装置121耦接影像获取装置110。影像识别装置121可以接收影像，并识别影像中是否包括预设动作，产生识别结果。举例来说，当识别出影像中包括预设动作时，因应于影像中包括预设动作，影像识别装置121可以产生识别结果。当识别出影像中未包括预设动作时，因应于影像中未包括预设动作，影像识别装置121不会产生识别结果。

识别指令产生装置122耦接影像识别装置121与语音识别装置140，接收识别结果，并依据识别结果，产生语音识别启动指令。举例来说，当识别指令产生装置122接收到识别结果时，因应于接收到识别结果，识别指令产生装置122产生语音识别启动指令。当识别指令产生装置122未接收到识别结果时，因应于未接收到识别结果，识别指令产生装置122不会产生语音识别启动指令。

语音获取装置130获取一语音。举例来说，语音获取装置130可以对室内空间的物件或物体所发出的语音(例如使用者说话)进行获取操作，以获取对应的语音。在本实施例中，语音获取装置130可以是麦克风阵列、指向性麦克风或其他具有语音获取功能的装置等，但本发明实施例不限于此。

语音识别装置140耦接语音获取装置130与影像分析装置120。在本实施例中，语音识别装置140可以是数字信号处理器(digital signal processor,DSP)，但本发明实施例不限于此。语音识别装置140接收语音与语音识别启动指令，并依据语音识别启动指令，对语音进行识别，以产生语音指令。举例来说，当语音识别装置140接收到语音识别启动指令时，语音识别装置140才开始对语音进行识别，以确定语音中是否包括调整视频装置100的操作的相关词汇，例如音量调大、音量调小、静音、系统关机等。

当语音识别装置140确定语音中包括调整视频装置100的操作的相关词汇时，语音识别装置140会产生具有操作指示的语音指令。当语音识别装置140确定语音中未包括调整视频装置100的操作的相关词汇时，语音识别装置140不会产生语音指令，且语音识别装置140会将语音传送至处理装置150。另外，当语音识别装置140未接收到语音识别启动指令时，语音识别装置140不会对语音进行识别，且语音识别装置140会将语音传送至处理装置150。

处理装置150耦接影像分析装置120与语音识别装置140。在本实施例中，处理装置150可以是中央处理器(central processing unit,CPU)、微处理器(micro-processor)或微控制器(micro control unit,MCU)，但本发明实施例不限于此。处理装置150可以接收语音指令，并依据语音指令，以调整视频装置100的操作。也就是说，当处理装置150接收到语音指令时，处理装置150可以依据语音指令对应的操作指示，调整视频装置100的操作。

举例来说，当语音指令对应的操作指示为音量调大时，处理装置150依据上述语音指令，调整视频装置100的扬声器或喇叭的音量调大。当语音指令对应的操作指示为音量调小时，处理装置150依据上述语音指令，调整视频装置100的扬声器或喇叭的音量调小。

当语音指令对应的操作指示为静音时，处理装置150依据上述语音指令，调整视频装置100的扬声器或喇叭的音量调整为静音。当语音指令对应的操作指示为系统关机时，处理装置150依据上述语音指令，将视频装置100进行关机的操作，可以避免视频结束后使用者忘了将视频装置100关机而造成电力浪费的情况发生。

在一些实施例中，处理装置150可以更耦接影像获取装置110。处理装置150可以依据语音，产生控制信号至影像获取装置110，使影像获取装置依据控制信号对焦于语音的来源处。也就是说，处理装置150可以从语音识别装置140接收语音，并对语音进行分析，以确定语音的来源处，亦即说话的使用者的位置。

接着，在处理装置150确定语音的来源处之后，处理装置150可以产生控制信号至影像获取装置110，使影像获取装置110依据控制信号而对焦于(例如数字对焦)语音的来源处，亦即影像获取装置110可以对焦于说话的使用者。

如此一来，影像获取装置110可以语音的来源处进行影像获取，以增加影像分析装置120(影像识别装置121)对影像分析(识别)的准确性，且可以避免当其他使用者做出预设动作时，影像分析装置120会据以产生语音识别启动指令，使得语音识别装置140对语音进行识别以产生语音指令而造成误动作的情况发生。

在一些实施例中，视频装置100还包括传送装置160。传送装置160可以耦接处理装置150，且传送装置160可以传送语音与影像。例如，传送装置160可以将语音传送至扬声器或喇叭，以及将影像传送至显示器。另外，传送装置160也可以通过有线或无线的方式，将语音与影像传送至远端的会议室，以便进行视频会议。

图2为依据本发明的一实施例的视频装置的示意图。在本实施例中，视频装置200也适用于进行视频的室内空间，例如会议室，但本发明实施例不限于此。请参考图2，视频装置200包括影像获取装置110、影像分析装置120、语音获取装置130、语音识别装置140、处理装置150、传送装置160与距离感测装置210。

在本实施例中，影像获取装置110、影像分析装置120、语音获取装置130、语音识别装置140、处理装置150、传送装置160与图1的影像获取装置110、影像分析装置120、语音获取装置130、语音识别装置140、处理装置150、传送装置160大致相同或相似，可参考图1的实施例的说明，故在此不再赘述。另外，本实施例的影像分析装置120所包括影像识别装置121和识别指令产生装置122也与图1的影像识别装置121和识别指令产生装置122大致相同或相似，可参考图1的实施例的说明，故在此不再赘述。

距离感测装置210耦接语音识别装置140。距离感测装置210。距离感测器210可以感测一物件的距离，以产生距离感测信号。在本实施例中，距离感测装置210可以是红外光影像感测器，但本发明实施例不限于此。另外，距离感测装置210具有飞时测距(Time ofFlight,ToF)的功能。

举例来说，距离感测器210可以发出红外光至物件(例如使用者)，并接收物件反射红外光所产生的反射光。接着，距离感测器210可以依据发出红外光的发出时间以及接收反射光的接收时间，计算出距离感测器210与物件之间的距离，并产生对应的距离感测信号。也就是说，当发出时间与接收时间之间的差较小时，表示距离感测器210与物件之间的距离较短。当发出时间与接收时间之间的差较大时，表示距离感测器210与物件之间的距离较长。

接着，语音识别装置140还可进一步耦接影像识别装置121。语音识别装置140可以接收距离感测信号、影像与语音，并依据距离感测信号与影像，对语音进行处理，以确定语音是否为有效音源。在本实施例中，有效音源可以是在一预设距离范围内且为人声音源，无效音源可以是在上述预设距离范围外且不为人声音源(例如环境音源或其他装置产生的音源)。

进一步来说，当语音识别装置140确定语音为有效音源且语音识别装置140接收到语音识别启动指令时，因应于语音为有效音源且接收到语音识别指令，语音识别装置140可以依据语音识别启动指令，对语音进行识别，以产生语音指令。另外，当语音识别装置140确定语音不为有效音源时，因应于语音不为有效音源，语音识别装置140可以滤除语音。如此一来，可以更增加语音识别的准确性。

通过上述实施例的说明，本发明另提出一种视频装置的操作方法。图3为依据本发明的一实施例的视频装置的操作方法的流程图。在步骤S302中，通过语音获取装置，获取一语音。在步骤S304中，通过影像获取装置，获取一影像。

在步骤S306中，通过影像分析装置，接收影像，并对影像进行分析，以产生语音识别启动指令。在步骤S308中，通过语音识别装置，接收语音与语音识别启动指令，并依据语音识别启动指令，对语音进行识别，以产生语音指令。在步骤S310中，通过处理装置，接收语音指令，并依据语音指令，以调整视频装置的操作。在本实施例中，预设动作包括手势动作。

图4为图3的步骤S304的详细流程图。在本实施例中，影像分析装置包括影像识别装置与识别指令产生装置。在步骤S402中，通过影像识别装置，接收影像，并识别影像中是否包括预设动作，以产生识别结果。在步骤S404中，通过识别指令产生装置，接收识别结果，并依据识别结果，产生语音识别启动指令。

图5为图4的步骤S402及S404的详细流程图。在步骤S502中，因应于影像中包括预设动作，影像识别装置产生识别结果。在步骤S504中，因应于影像中未包括预设动作，影像识别装置不会产生识别结果。在步骤S506中，因应于接收到识别结果，识别指令产生装置产生语音识别启动指令。在步骤S508中，因应于未接收到识别结果，识别指令产生装置不会产生语音识别启动指令。

图6为依据本发明的另一实施例的视频装置的操作方法的流程图。在本实施例中，步骤S302～S310与图3的步骤S302～S310相同或相似，可参考图3的实施例的说明，故在此不再赘述。

在步骤S602中，处理装置依据语音识别装置提供的语音，产生控制信号至影像获取装置，使影像获取装置依据控制信号对焦于语音的来源处。在步骤S604中，通过传送装置，传送语音与影像。

图7为依据本发明的另一实施例的视频装置的操作方法的流程图。在本实施例中，步骤S302～S306、S310与图3的步骤S302～S306、S310相同或相似，可参考图3的实施例的说明，故在此不再赘述。

在步骤S702中，通过距离感测器，感测物件的距离，以产生距离感测信号。在步骤S704中，通过语音识别装置接收距离感测信号与影像，并依据距离信号、影像，对语音进行处理，以确定语音是否为有效音源。

在步骤S706中，因应于语音为有效音源且接收到语音识别指令，语音识别装置依据语音识别启动指令，对语音进行识别，以产生语音指令。在步骤S708中，因应于语音不为有效音源，语音识别装置滤除语音。

在一实施例中，影像获取装置、影像分析装置、语音获取装置、语音识别装置与处理装置可以在硬件、由处理器执行的代码(例如，软件或固件)、或其任何组合中实现。若在由处理器执行的代码中实现，则上述装置或其子部件的功能可以由设计成执行本发明中描述的功能的通用处理器、DSP、特殊应用集成电路(ASIC)、FPGA或其他可程序设计逻辑设备、个别闸门或晶体管逻辑、个别的硬件部件、或其任何组合来执行。

综上所述，本发明实施例所公开的视频装置与其操作方法，通过影像分析装置对影像进行分析，以产生一语音识别启动指令，且语音识别装置依据语音识别启动指令，对语音进行识别，以产生语音指令，使处理装置依据语音指令，以调整视频装置的操作。如此一来，可以利用影像识别来实现语音控制的操作，以有效地增加使用上的便利性。

另外，处理装置还可以依据语音识别装置提供的语音，产生控制信号至该影像获取装置，使影像获取装置依据控制信号对焦于语音的来源处。如此，可以增加影像分析装置对影像分析的准确性，且可以避免当其他使用者做出预设动作时，影像分析装置会据以产生语音识别启动指令，使得语音识别装置对语音进行识别而产生语音指令的情况发生。此外，本发明实施例还可通过距离感测器感测一物件的距离，以产生距离感测信号，且语音识别装置还可进一步接收距离感测信号、影像与语音，并依据距离感测信号与影像，对语音进行处理，以确定语音是否为有效音源。如此一来，可以更增加语音识别的准确性。

本发明虽以实施例公开如上，然其并非用以限定本发明的范围，任何所属技术领域中技术人员，在不脱离本发明的构思和范围内，当可做些许的变动与润饰，因此本发明的保护范围当视权利要求所界定者为准。

Claims

1.一种视频装置，包括：

一影像获取装置，获取一影像；

一影像分析装置，耦接该影像获取装置，接收该影像，并对该影像进行分析，以产生一语音识别启动指令；

一语音获取装置，获取一语音；

一语音识别装置，耦接该语音获取装置与该影像分析装置，接收该语音与该语音识别启动指令，并依据该语音识别启动指令，对该语音进行识别，以产生一语音指令；以及

一处理装置，耦接该影像分析装置与该语音识别装置，接收该语音指令，并依据该语音指令，以调整该视频装置的一操作。

2.如权利要求1所述的视频装置，其中该影像分析装置包括：

一影像识别装置，耦接该影像获取装置，接收该影像，并识别该影像中是否包括一预设动作，产生一识别结果；以及

一识别指令产生装置，耦接该影像识别装置与该语音识别装置，接收该识别结果，并依据该识别结果产生该语音识别启动指令。

3.如权利要求2所述的视频装置，其中因应于该影像中包括该预设动作，该影像识别装置产生该识别结果，因应于该影像中未包括该预设动作，该影像识别装置不会产生该识别结果。

4.如权利要求3所述的视频装置，其中因应于接收到该识别结果，该识别指令产生装置产生该语音识别启动指令，因应于未接收到该识别结果，该识别指令产生装置不会产生该语音识别启动指令。

5.如权利要求2所述的视频装置，其中该预设动作包括一手势动作。

6.如权利要求1所述的视频装置，其中该处理装置更耦接该影像获取装置，该处理装置更依据该语音识别装置提供的该语音，产生一控制信号至该影像获取装置，使该影像获取装置依据该控制信号对焦于该语音的来源处。

7.如权利要求1所述的视频装置，还包括：

一距离感测器，耦接该语音识别装置，感测一物件的距离，以产生一距离感测信号；

其中，该语音识别装置更接收该距离感测信号与该影像，并依据该距离信号、该影像，对该语音进行处理，以确定该语音是否为有效音源。

8.如权利要求7所述的视频装置，其中因应于该语音为有效音源且接收到该语音识别指令，该语音识别装置依据该语音识别启动指令，对该语音进行识别，以产生该语音指令。

9.如权利要求8所述的视频装置，其中因应于该语音不为有效音源，该语音识别装置滤除该语音。

10.如权利要求1所述的视频装置，还包括：

一传送装置，耦接该处理装置，传送该语音与该影像。

11.一种视频装置的操作方法，包括：

通过一语音获取装置，获取一语音；

通过一影像获取装置，获取一影像；

通过一影像分析装置，接收该影像，并对该影像进行分析，以产生一语音识别启动指令；

通过一语音识别装置，接收该语音与该语音识别启动指令，并依据该语音识别启动指令，对该语音进行识别，以产生一语音指令；以及

通过一处理装置，接收该语音指令，并依据该语音指令，以调整该视频装置的一操作。

12.如权利要求11所述的视频装置的操作方法，其中该影像分析装置包括一影像识别装置与一识别指令产生装置，通过该影像分析装置，接收该影像，并对该影像进行分析，以产生该语音识别启动指令的步骤包括：

通过该影像识别装置，接收该影像，并识别该影像中是否包括一预设动作，以产生一识别结果；以及

通过该识别指令产生装置，接收该识别结果，并依据该识别结果产生该语音识别启动指令。

13.如权利要求12所述的视频装置的操作方法，其中通过该影像识别装置，接收该影像，并识别该影像中是否包括该预设动作，以产生该识别结果的步骤包括：

因应于该影像中包括该预设动作，该影像识别装置产生该识别结果；以及

因应于该影像中未包括该预设动作，该影像识别装置不会产生该识别结果。

14.如权利要求13所述的视频装置的操作方法，其中通过该识别指令产生装置，接收该识别结果，并依据该识别结果，产生该语音识别启动指令的步骤包括：

因应于接收到该识别结果，该识别指令产生装置产生该语音识别启动指令；以及

因应于未接收到该识别结果，该识别指令产生装置不会产生该语音识别启动指令。

15.如权利要求12所述的视频装置的操作方法，其中该预设动作包括一手势动作。

16.如权利要求12所述的视频装置的操作方法，还包括：

该处理装置依据该语音识别装置提供的该语音，产生一控制信号至该影像获取装置，使该影像获取装置依据该控制信号对焦于该语音的来源处。

17.如权利要求12所述的视频装置的操作方法，还包括：

通过一距离感测器，感测一物件的距离，以产生一距离感测信号；以及

通过该语音识别装置接收该距离感测信号与该影像，并依据该距离信号、该影像，对该语音进行处理，以确定该语音是否为有效音源。

18.如权利要求17所述的视频装置的操作方法，其中通过该语音识别装置，接收该语音与该语音识别启动指令，并依据该语音识别启动指令，对该语音进行识别，以产生该语音指令的步骤包括：

因应于该语音为有效音源且接收到该语音识别指令，该语音识别装置依据该语音识别启动指令，对该语音进行识别，以产生该语音指令。

19.如权利要求18所述的视频装置的操作方法，还包括：

因应于该语音不为有效音源，该语音识别装置滤除该语音。

20.如权利要求11所述的视频装置的操作方法，还包括：

通过一传送装置，传送该语音与该影像。