CN108231073B - 语音控制装置、系统及控制方法 - Google Patents

语音控制装置、系统及控制方法 Download PDF

Info

Publication number
CN108231073B
CN108231073B CN201711299265.6A CN201711299265A CN108231073B CN 108231073 B CN108231073 B CN 108231073B CN 201711299265 A CN201711299265 A CN 201711299265A CN 108231073 B CN108231073 B CN 108231073B
Authority
CN
China
Prior art keywords
voice
display screen
voice control
module
response information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711299265.6A
Other languages
English (en)
Other versions
CN108231073A (zh
Inventor
池育阳
何旻军
蔡铭富
刘正彬
王福彬
林士伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Futaihong Precision Industry Co Ltd
Chiun Mai Communication Systems Inc
Original Assignee
Shenzhen Futaihong Precision Industry Co Ltd
Chiun Mai Communication Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Futaihong Precision Industry Co Ltd, Chiun Mai Communication Systems Inc filed Critical Shenzhen Futaihong Precision Industry Co Ltd
Publication of CN108231073A publication Critical patent/CN108231073A/zh
Application granted granted Critical
Publication of CN108231073B publication Critical patent/CN108231073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16MFRAMES, CASINGS OR BEDS OF ENGINES, MACHINES OR APPARATUS, NOT SPECIFIC TO ENGINES, MACHINES OR APPARATUS PROVIDED FOR ELSEWHERE; STANDS; SUPPORTS
    • F16M11/00Stands or trestles as supports for apparatus or articles placed thereon Stands for scientific apparatus such as gravitational force meters
    • F16M11/02Heads
    • F16M11/04Means for attachment of apparatus; Means allowing adjustment of the apparatus relatively to the stand
    • F16M11/06Means for attachment of apparatus; Means allowing adjustment of the apparatus relatively to the stand allowing pivoting
    • F16M11/10Means for attachment of apparatus; Means allowing adjustment of the apparatus relatively to the stand allowing pivoting around a horizontal axis
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16MFRAMES, CASINGS OR BEDS OF ENGINES, MACHINES OR APPARATUS, NOT SPECIFIC TO ENGINES, MACHINES OR APPARATUS PROVIDED FOR ELSEWHERE; STANDS; SUPPORTS
    • F16M11/00Stands or trestles as supports for apparatus or articles placed thereon Stands for scientific apparatus such as gravitational force meters
    • F16M11/02Heads
    • F16M11/18Heads with mechanism for moving the apparatus relatively to the stand
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16MFRAMES, CASINGS OR BEDS OF ENGINES, MACHINES OR APPARATUS, NOT SPECIFIC TO ENGINES, MACHINES OR APPARATUS PROVIDED FOR ELSEWHERE; STANDS; SUPPORTS
    • F16M11/00Stands or trestles as supports for apparatus or articles placed thereon Stands for scientific apparatus such as gravitational force meters
    • F16M11/20Undercarriages with or without wheels
    • F16M11/2007Undercarriages with or without wheels comprising means allowing pivoting adjustment
    • F16M11/2014Undercarriages with or without wheels comprising means allowing pivoting adjustment around a vertical axis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1601Constructional details related to the housing of computer displays, e.g. of CRT monitors, of flat displays
    • G06F1/1605Multimedia displays, e.g. with integrated or attached speakers, cameras, microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1615Constructional details or arrangements for portable computers with several enclosures having relative motions, each enclosure supporting at least one I/O or computing function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1675Miscellaneous details related to the relative movement between the different enclosures or enclosure parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1675Miscellaneous details related to the relative movement between the different enclosures or enclosure parts
    • G06F1/1681Details related solely to hinges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1686Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being an integrated camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1688Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being integrated loudspeakers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/06Adjustment of display parameters
    • G09G2320/068Adjustment of display parameters for control of viewing angle adjustment
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers

Abstract

一种语音控制装置,包括麦克风模块、声音编码模块、显示屏以及运算单元,所述麦克风模块用以接收语音信号,并将所述语音信号传送至所述声音编码模块,所述声音编码模块或所述运算单元对所述语音信号进行处理及分析,以判断所述语音信号的声源方向,并根据所述语音信号获取对应的响应信息,其中所述运算单元根据所述声源方向控制所述显示屏转动至所述声源方向,并将所述响应信息传送至所述显示屏显示。所述语音控制装置可根据不同类型的信息采用不同的呈现方式,较为实用及方便。本发明还提供一种语音控制系统及控制方法。

Description

语音控制装置、系统及控制方法
技术领域
本发明涉及一种语音控制装置、系统及控制方法。
背景技术
随着语音识别技术与人工智能技术的日趋成熟,目前市场上已出现有各种家用型/办公室型的智能语音助理产品(例如Amazon Echo或Google Home),以让用户透过语音输入方式来控制电器(例如灯、门锁、恒温器、电扇等)、查询信息(例如交通、天气等信息)、叫车或订披萨等任务。然而,这些智能语音助理产品仅能透过语音方式提供用户信息,而无法通过语音方式呈现图像或影像等信息。再者,对于列表类信息(例如联络人列表、行事历列表、节目列表、待办事项列表等),这些智能语音助理产品也不适合用语音方式直接提供给用户。
发明内容
有鉴于此,有必要提供一种语音控制装置、系统及控制方法。
一种语音控制装置,包括麦克风模块、声音编码模块、显示屏以及运算单元,所述声音编码模块电连接至所述麦克风模块及所述运算单元,所述显示屏与所述运算单元电连接,所述麦克风模块用以接收语音信号,并将所述语音信号传送至所述声音编码模块,所述声音编码模块或所述运算单元对所述语音信号进行处理及分析,以判断所述语音信号的声源方向,并根据所述语音信号获取对应的响应信息,其中所述运算单元根据所述声源方向控制所述显示屏转动至所述声源方向,并将所述响应信息传送至所述显示屏显示。
一种语音控制方法,应用于一语音控制装置,所述语音控制装置包括显示屏,所述方法包括:
(a)接收一语音信号;
(b)对所述语音信号进行处理,以判断所述语音信号的声源方向;
(c)对所述语音信号进行分析,以获取对应的响应信息;
(d)根据所述声源方向控制所述显示屏转动至所述声源方向;以及
(e)将所述响应信息输出至所述显示屏显示。
一种语音控制系统,包括上述所述的语音控制装置。
上述语音控制装置、系统及控制方法可根据声源方向有效调整所述显示屏的转向,还可根据拍摄影像中是否存在用户特征来有效调整所述显示屏的倾斜角度,进而使得所述语音控制装置较精准地朝向用户。另外,所述语音控制装置可根据不同类型的信息采用不同的呈现方式,较为实用及方便。
附图说明
图1为本发明第一较佳实施例中语音控制系统的系统架构图。
图2为图1所示语音控制系统的另一系统架构图。
图3为图1所示语音控制系统中语音控制装置的功能模块图。
图4为图1所示语音控制装置中语音操作系统的功能模块图。
图5至图8为图1所示语音控制装置的整体示意图。
图9至图11为图1所示语音控制装置中旋转驱动单元的示意图。
图12至图13为图1所示语音控制装置中倾斜驱动单元的示意图。
图14至图16为图1所示语音控制装置中第一电路板及第二电路板的连接示意图。
图17至图21为本发明第二较佳实施例中语音控制装置的整体示意图。
图22至图26为本发明第三较佳实施例中语音控制装置的整体示意图。
图27及图28为本发明第四较佳实施例中语音控制装置的整体示意图。
图29为图27所述语音控制装置中显示屏根据声源方向将图形信息显示于不同的显示区域的示意图。
图30为图27所述语音控制装置中图形信息显示于不同的显示区域的示意图。
图31及图32为本发明较佳实施例中语音控制方法的方法流程图。
主要组件符号说明
Figure GDA0001804131660000031
Figure GDA0001804131660000041
Figure GDA0001804131660000051
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当一个组件被称为“电连接”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“电连接”另一个组件,它可以是接触连接,例如,可以是导线连接的方式,也可以是非接触式连接,例如,可以是非接触式耦合的方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,为本发明第一较佳实施方式的语音控制系统500的运行环境架构图。在本实施例中,所述语音控制系统500包括语音控制装置100、网络服务器300及至少一远程电子装置。
所述语音控制装置100可透过有线网络连上因特网(Internet),进而与所述网络服务器300交换数据与指令。当然,在其他实施例中,所述语音控制装置100还可通过无线通信标准(例如WLAN)或手机通讯标准(例如WCDMA/CDMA2000/LTE)等无线通信协议连上因特网,进而与所述网络服务器300交换数据与指令。所述网络服务器300可以为语音服务器。
在本实施例中,所述语音控制装置100利用其本身的无线通信模块与所述至少一远程电子装置交换数据或指令。在本实施例中,所述至少一远端电子装置可以为具有显示屏的电子装置,如手机、PDA、平板、电视,或具有无线通信功能的扬声器,例如Wi-Fi无线扬声器、蓝牙(Bluetooth)扬声器等。所述至少一远端电子装置可透过无线方式与所述语音控制装置100连接,用以从所述语音控制装置100接收指令或数据,或传送指令或数据至所述语音控制装置100。
请一并参阅图2,可以理解,在其他实施例中,所述语音控制系统500还包括无线基站400。所述语音控制装置100还可透过WLAN(例如Wi-Fi)等通信协议与所对应通信协议的无线基站400连接,然后再透过所述无线基站400分别与所述至少一远程电子装置交换数据或指令。
可以理解,请再次参阅图1及图2,在本实施例中,以所述语音控制装置100与三个远程电子装置,例如远端电子装置201、202、203交换数据或指令为例加以说明。其中,所述远端电子装置201、202为具有显示屏的电子装置。所述远端电子装置203为具有无线通信功能的扬声器。
另外,在本实施例中,所述远程电子装置201、202还至少设置有无线通信模块、扬声器与显示屏等功能模块或电路(图未示)。其中所述无线通信模块可用以传送所述远程电子装置201、202的启动状态或关闭状态至所述语音控制装置100,进而使得所述语音控制装置100可实时记录所述远程电子装置201、202的启动状态或关闭状态。
请一并参阅图3,所述语音控制装置100至少包括第一无线通信模块11、麦克风模块12、声音编码模块13、扬声器14、显示屏15、转动模块16、相机模块17、影像辨识模块18、运算单元19、内存单元20及第二无线通信模块21。所述运算单元19可以由一处理器或是任何具有运算能力的运算电路而实现。
所述第一无线通信模块11与所述运算单元19电性连接,用以收发无线通信信号。所述语音控制装置100通过所述第一无线通信模块11将相关的信息,例如文字、语音、图像或影像等信息传送至网络或由网络接收所述相关信息。所述第一无线通信模块11可以是Wi-Fi或手机通讯标准中的3G(WCDMA、CDMA2000或TD-SCDMA)、4G(LTE、LTE-advanced)等任何可传送数据的无线通信协议模块。在其他实施例中,所述第一无线通信模块11也可以是WiGi、Bluetooth或Zigbee等近距离的通信协议模块。另外,在其他实施例中,所述语音控制装置100的第一无线通信模块11还可作为一无线通信协议(例如WiFi)的无线基站,直接提供所述远程电子装置201、202、203无线连接并交换数据或指令。
所述麦克风模块12包括多个麦克风单元。在本实施例中,所述麦克风模块12至少包括一个第一麦克风单元121及多个第二麦克风单元122,例如六个第二麦克风单元122。当然,在其他实施例中,所述第二麦克风单元122的数量并不局限为六个,其可依用户需求设计成不同数量来达到相同的目的。所述麦克风模块12中的第一麦克风单元121及第二麦克风单元122均用以接收语音信号。
所述声音编码模块13电性连接于所述麦克风模块12、所述扬声器14与所述运算单元19。所述声音编码模块13用于将所述麦克风模块12接收的模拟语音信号转换成数字语音信号,并将转换后的数字语音信号传送至所述运算单元19。
例如,当所述语音控制装置100处于一待机模式时,所述第一麦克风单元121被启动用以收音,而第二麦克风单元122处于关闭状态。当所述语音控制装置100于所述待机模式,且当所述第一麦克风单元121接收到一语音信号时,所述第一麦克风单元121将所述语音信号传送至所述声音编码模块13。所述声音编码模块13将接收到的模拟语音信号转换成数字语音信号后,再传送到所述运算单元19进行分析,以判断所述语音信号是否为一预先设定的语音启动指令,例如[哈啰]。当所述运算单元19判断所述语音信号为预先设定的语音启动指令时,亦即当所述第一麦克风单元121接收所述预先设定的语音启动指令时,所述运算单元19将传送一启动信号至所述第二麦克风单元122,以启动所述第二麦克风单元122,进而使得所述第二麦克风单元122开始接收后续的语音信号。所述第二麦克风单元122再将收到的语音信号传送到运算单元19。
可以理解,在本实施例中,所述预先设定的语音启动指令可以为[哈啰]或是用户自行设定的其他语音启动指令。
可以理解,当所述第二麦克风单元122将用户发出的语音信号透过所述运算单元19分析并判断为一语音请求指令时,所述语音控制装置100还将所述语音请求指令传送到所述网络服务器300的语音数据库,以检索到相对应的响应信息,并将所述响应信息回传至所述语音控制装置100。
可以理解,在本实施例中,所述语音请求指令的类型可至少包括但不限于两种,例如控制型语音指令、命令型语音指令与问题型语音指令。其中所述控制型语音指令可以为[打开电视]、[调整音量]、[打开音乐播放器]、[播放音乐]等各种控制所述远程电子装置201、202、203的指令。所述命令型语音指令可以为[订披萨]、[订车票]、[订饭店]等各种订票或预约的指令。所述问题型语音指令可以为[今天台北的天气如何]、[今天有哪些电影]、[今天有哪些球赛]等各种问题型指令。
可以理解,在其他实施例中,当所述第二麦克风单元122将用户发出的语音信号透过所述运算单元19分析并判断为一控制指令时,所述语音控制装置100将所述控制指令传送至对应的远程电子装置201、202、203。例如,所述控制指令可以是一启动控制指令,用以启动远程电子装置201、202、203,如启动电视。
可以理解,当所述第二麦克风单元122将用户发出的语音信号传送至所述运算单元19时,所述运算单元19还用以根据所收到的语音信号执行语音算法或声纹比对算法,进而辨识出语音信号的声源方向、声源距离及/或使用者的身分。
可以理解,在本实施例中,所述声音编码模块13还用以将所述运算单元19由一语音数据库所获得的语音信号转成模拟语音信号,并传送至所述扬声器14播放出来。例如,所述声音编码模块13可将所述运算单元19通过有线网络或所述第一无线通信模块11从所述网络服务器300的语音数据库中接收到的相对应信息转成模拟语音信号,并传送至所述扬声器14播放出来。可以理解,在其他实施例中,所述相对应信息也可以是预先储存于所述内存单元20。如此,所述声音编码模块13亦可用以将所述运算单元19从所述内存单元20中找到的相对应信息转成模拟语音信号,并传送至扬声器14播放出来。
可以理解,在其他实施例中,所述声音编码模块13也可包括一微处理单元及独立的内存(图未示)。所述独立的内存可储存简单的关键词库。如此,所述声音编码模块13中的微处理单元可以根据所述独立的内存内的关键词库直接判断所述麦克风模块12接收的语音信号是否为默认的语音请求指令或控制指令。如此,透过所述声音编码模块13的预先处理,所述麦克风模块12接收的语音信号可直接传送至所述声音编码模块13,无须再传送至所述运算单元19进行处理,可以有效节省电源能耗与运算效率。
在本实施例中,所述语音控制装置100可包括至少一扬声器14。例如,所述语音控制装置100包括多个扬声器14,所述多个扬声器14分别设置于所述语音控制装置100的周围处。例如,所述语音控制装置100包括两个扬声器14,所述两个扬声器14以相反的方向对应设置。例如,所述语音控制装置100包括一个扬声器14,所述扬声器14朝所述语音控制装置100的底部方向设置。所述扬声器14输出的声音透过设置于所述语音控制装置100周围的通孔,向外播放语音信号。
在本实施例中,所述显示屏15的一端可通过一连接结构151,例如铰链设置于所述语音控制装置100上(参图5至图8),用以显示所述运算单元19由所述网络服务器300或所述内存单元20获得的信息。
所述转动模块16设置于所述语音控制装置100的内部,用以使所述显示屏15于一特定角度内旋转及改变所述显示屏15的倾斜角度,进而调整所述显示屏15的显示方向。
所述相机模块17可设置于所述显示屏15上或位于所述语音控制装置100上与所述显示屏15同一侧的侧边上。
所述影像辨识模块18分别电连接至所述相机模块17及所述运算单元19,用以接收所述相机模块17拍摄的影像,并辨识所述相机模块17所拍摄影像的影像对象或对象位置。当所述影像辨识模块18辨识所拍摄影像的影像对象或对象位置后,会产生一相应于影像对象或对象位置的位置信息信号至所述运算单元19。所述运算单元19根据所述位置信息信号执行一对应功能,例如,控制所述转动模块16来调整所述显示屏15的显示位置。
在其中一实施例中,所述影像辨识模块18可用以辨识所述相机模块17所拍摄影像是否存在用户的人脸特征。当判断拍摄的影像中存在人脸特征时,所述影像辨识模块18可判断有使用者的脸存在于所拍摄影像中。于另一实施例中,所述影像辨识模块18也可以从所拍摄影像中辨识分析出多个人脸特征,并同时得到多个人脸特征在所拍摄影像中的位置。当所述影像辨识模块18在尝试默认次数后,若其都无法从所述相机模块17拍摄的影像中辨识出任何人脸特征,则所述影像辨识模块18会回馈一无人脸特征的信号至所述运算单元19。
在本实施例中,当所述影像辨识模块18辨识所拍摄影像中存在用户的人脸特征时,还进一步判断用户脸部位置是否位于所拍摄影像的一默认位置。其中所述默认位置可通过所述相机模块17与所述显示屏15的相对位置而决定。例如,当所述相机模块17设置于所述显示屏15外围的框架上且靠近所述显示屏15中心线的位置时,则所述默认位置可以是所拍摄影像的中间位置。如此,当所述影像辨识模块18判断用户脸部的位置不在所拍摄影像的中间位置时,则会传送一表示脸部位置的位置信息信号至所述运算单元19。所述运算单元19再根据所述位置信息信号来驱动所述转动模块16,以调整所述显示屏15的显示方向,使所述显示屏15可精确朝向用户观看位置。
当所述影像辨识模块18辨识所拍摄影像中存在多个人脸特征时,所述影像辨识模块18可以根据多个人脸的位置,计算得到一中心位置。例如当所述影像辨识模块18辨识出所拍摄影像中存在三个人脸时,则会以位于中间的人脸为所述中心位置,并传送一表示所述中心位置的位置信息信号至所述运算单元19。所述运算单元19再根据所述位置信息信号来驱动转动模块16,以调整所述显示屏15的显示方向,使所述显示屏15可精确朝向多个使用者皆可观看到的最佳位置。
可以理解,在本实施例中,所述影像辨识模块18是通过人脸特征来判断用户的影像是否存在于所拍摄影像中,但并不以此为限,其亦可通过辨识人体手势、肢体动作等其他用户特征来达到相同的目的。
可以理解,在其他实施例中,所述影像辨识模块18可整合于所述运算单元19中,其亦可达到上述相同的目的,或者可通过软件方式实现并由所述运算单元19执行。
所述运算单元19电性连接至所述第一无线通信模块11、所述声音编码模块13、所述显示屏15、所述转动模块16、影像辨识模块18、内存单元20及第二无线通信模块21。当所述运算单元19收到由所述声音编码模块13传来的数字语音信号后,其可透过所述第一无线通信模块11将所述数字语音信号传送到所述网络服务器300进行语音分析辨识。接着,所述网络服务器300会在分析辨识所述数字语音信号后,从所述网络服务器300中的语音分析程序及/或语音数据库中找到对应的响应信息(例如可以是文字形式、图像形式或语音形式),并将所述对应的响应信息传回给所述语音控制装置100。所述运算单元19再通过所述第一无线通信模块11接收到所述响应信息,并根据所述响应信息产生一语音响应信号传送至声音编码模块13,进而驱动所述扬声器14播放所述语音响应信号。或者所述运算单元19根据所述响应信息产生一文字信息或图像信息传送至所述显示屏15,以显示所述文字信息或图像信息。
于另一实施例中,所述运算单元19从所述声音编码模块13收到所述数字语音信号后,所述运算单元19可直接透过其所执行的一语音分析程序对所述数字语音信号进行语音分析辨识。接着,所述运算单元19在分析辨识所述数字语音信号后,从所述内存单元20所储存的一语音数据库中找到对应的响应信息(例如可以是文字形式、图像形式或语音形式)。同样地,所述运算单元19可根据所述响应信息产生一语音响应信号传送至所述声音编码模块13,进而驱动所述扬声器14播放所述语音响应信号。或者所述运算单元19根据所述响应信息产生一文字信息或图像信息传送至所述显示屏15,以显示所述文字信息或图像信息。
当然,当所述运算单元19分析辨识所述数字语音信号为控制指令时,则会根据所述控制指令执行一特定功能。例如,若所述数字语音信号为[打开电视机],则所述运算单元19会产生一控制信号,并以无线方式传送至电视机,以启动电视。
请一并参阅图3及图4,所述内存单元20电连接至所述运算单元19,用以存储所述语音控制装置100中的操作系统、运行于所述语音控制装置100中的语音操作系统200的相关功能模块、用户数据以及所述语音控制装置100的各种参数等。所述语音操作系统200中的相关功能模块的程序代码均存储于所述内存单元20中,并由所述运算单元19执行。
在本实施例中,所述语音操作系统200至少包括语音数据库200A、语音分析模块200B、语音产生模块200C、装置管理模块200D、距离模块200E与声纹分析模块200F。其中,上述功能模块为各种对应功能的程序码,且均储存于所述内存单元20中。当所述语音控制装置100执行各种对应功能时,所述运算单元19从所述内存单元20加载相对应的程序码后,执行各相应的功能。
其中,所述语音数据库200A为一语言声音数据库。所述语音数据库200A包括有预先建立的字母、单字和句子的语音信息。这些语音信息可以是文字形式或语音形式,且可以用中文、英文、日语或是任何语言表示。
于另一实施例中,所述语音数据库200A也可以由一影像数据库(图未示)取代。所述影像数据库包括有预先建立的图案、相片、影片的影像信息。
所述语音分析模块200B用于对所述麦克风模块12接收的语音信号进行处理分析。具体地,所述语音分析模块200B对所述语音信号进行采样、量化转换为数字化的语音数据,然后将所述语音数据进行声学处理,以获得所述语音信号的内容读音的语音特征信息。例如,当使用者问[今天星期几]时,则所述麦克风模块12接收到所述[今天星期几]的语音信号。所述语音信号会经由所述声音编码模块13传送至所述运算单元19,再由所述运算单元19所执行的语音分析模块200B进行分析处理。所述语音分析模块200B可由所接收的语音信号中辨识出[今天星期几],并由所述语音数据库200A中找出一对应的响应信息,例如[今天星期五]。于另一实施例中,所述语音分析模块200B可由所接收的语音信号中辨识出[今天星期几],并由所述影像数据库中找出一对应的响应信息,例如表示[星期五]的图案。
可以理解,在其他实施方式中,所述语音分析模块200B还可将上述分析后提取出语音信号的语音特征信息透过所述第一无线通信模块11传送到对应的网络服务器300进行匹配,以获得一对应的响应信息,例如[今天星期五]或表示[星期五]的图案。
所述语音产生模块200C用于将上述由所述语音数据库200A、影像数据库或所述网络服务器300所获取的响应信息(例如[今天星期五]或表示[星期五]的图案)转换为一对应的语音信号或影像信号。所述运算单元19再将所述对应的语音信号传送至所述声音编码模块13,最后透过所述扬声器14产生[今天星期五]的语音,以响应用户。或者,所述运算单元19将所述对应的影像信号传送至所述显示屏15显示,以响应用户。
所述装置管理模块200D用于管理与所述语音控制装置100连接的所述远程电子装置201、202、203。在本实施例中,所述语音控制装置100还包括第二无线通信模块21,用以透过无线通信协议来控制所述远程电子装置201、202、203。在本实施例中,无线通信协议可以是Wi-Fi、蓝芽、WiGig、D2D(Device to Device)或红外线等,但不以此为限,任何可进行无线数据传输的协议皆可实施于此实施例中,以达到相同的目的。所述装置管理模块200D可以记录所述远程电子装置201、202、203的启动状态(例如开启状态或关闭状态)、装置种类、是否具有显示屏及(或)是否具有扬声器等功能。通过上述纪录,所述语音控制装置100可判断是否将上述响应信息(例如语音信号或影像信号)通过所述第二无线通信模块21传送至所述远程电子装置201、202、203输出。
所述距离模块200E用于计算所述远程电子装置201、202、203与所述语音控制装置100的距离。在其中一实施例中,所述距离模块200E可以根据所述第二无线通信模块21与所述远程电子装置201、202、203连接的无线信号强度(如RSSI值),估算出所述远程电子装置201、202、203与所述语音控制装置100的距离。在另一实施例中,所述距离模块200E也可以根据所述相机模块17所拍摄影像中用户的对焦距离来估算出用户与所述语音控制装置100的距离。在另一实施例中,所述距离模块200E可以利用雷射测距模块(图未示)或超音波模块(图未示)获得用户与所述语音控制装置100的距离。
可以理解,所述距离模块200E还可利用任何可量测距离的模块或方法达到相同的目的,并不局限于上述所述的模块与方法。根据所述远程电子装置201、202、203与所述语音控制装置100的距离及(或)所述远程电子装置201、202、203的启动状态,所述语音控制装置100可判断是否将上述响应信息(例如语音信号或影像信号),透过所述第二无线通信模块21传送至所述远程电子装置201、202、203输出,或者直接透过其自身的扬声器14或显示屏15输出。
所述声纹分析模块200F用于分析从所述麦克风模块12接收并经所述声音编码模块13处理的语音信号,并判断所述语音信号是否与一默认的使用者声纹是否相符,进而判断使用者的身分。
可以理解,在本实施例中,所述运算单元19还可根据所述声源距离(即用户与所述语音控制装置100的距离)调整所述语音控制装置100的语音输出音量大小。
例如,在其中一实施例,当所述声源距离大于一预设距离(例如大于五公尺)时,所述语音控制装置100将所述扬声器14的语音输出音量提高,进而使得距离所述语音控制装置100五公尺外的使用者能够听到。或者,在另一实施例中,当所述声源距离大于所述预设距离(例如大于五公尺)时,所述语音控制装置100亦可通过所述第二无线通信模块21将所述响应信息所对应的语音信号传送至所述装置管理模块200D所记录具有扬声器并处于开启状态中的远程电子装置201、202、203进行播放。
请一并参阅图5至图8,所述语音控制装置100还包括上壳体22与下壳体23。在本实施例中,所述显示屏15设置于所述上壳体22上半区的一侧壁上。所述上壳体22的下半区环绕开设有多个扬声器通孔141,用以将设置于所述上壳体22内的至少一个扬声器14(如图3所示)所产生的声音输出。由于所述扬声器通孔141环绕开设于所述上壳体22,如此可使得所述扬声器14输出的声音能够传递到环境的每个方向。
可以理解,在本实施例中,所述上壳体22的顶部开设有多个麦克风通孔123。其中一个麦克风通孔123设置于所述语音控制装置100的顶部接近中心的位置,并对应于图3所示的所述第一麦克风单元121。其他的麦克风通孔123均匀设置于位于中心的麦克风通孔123的周围处,例如以60度的间隔角度设置于位于中心的麦克风通孔123的周围,并分别对应于图3所示的每一个第二麦克风单元122,进而形成一麦克风通孔阵列。图3所示的所述麦克风模块12的第一麦克风单元121及多个第二麦克风单元122均设置于所述上壳体22内,用以分别通过所述多个麦克风通孔123接收由用户发出的语音信号。
请一并参阅图9至图13,所述转动模块16包括旋转驱动单元161及倾斜驱动单元162。所述旋转驱动单元161用以使所述显示屏15相对于下壳体23旋转,进而使所述显示屏15转向发出语音的用户。所述倾斜驱动单元162用以改变所述显示屏15相对于上壳体22的倾斜角度,进而调整所述显示屏15的显示方向,使得所述显示屏15所显示的信息可朝向用户的方向,以利使用者观看。
具体的,请一并参阅图9至图11,在本实施例中,所述旋转驱动单元161设置于下壳体23中,用以控制所述上壳体22与所述下壳体23之间做相对旋转。所述旋转驱动单元161包括第一马达1611、第一齿轮组1613及第一齿轮轨道1615。所述第一马达1611、第一齿轮组1613及第一齿轮轨道1615相互连接,且均设置于所述下壳体23中。在本实施例中,所述第一齿轮组1613是指由至少一个齿轮互相连接而成,或者由多个不同大小、不同齿数及形状的齿轮互相连接而成。所述第一齿轮轨道1615大致呈环形,其设置于所述下壳体23的内壁上。所述第一马达1611通过一驱动电路(图未示)与所述运算单元19电连接。当所述第一马达1611被所述运算单元19激活时,所述第一马达1611带动所述第一齿轮组1613转动,再通过所述第一齿轮组1613带动所述第一齿轮轨道1615旋转,以使得所述上壳体22与所述下壳体23之间做相对旋转(参图11)。
可以理解,在其他实施例中,所述第一马达1611及所述第一齿轮组1613亦可设置于所述下壳体23中,而所述第一齿轮轨道1615设置于所述上壳体22的内壁上。如此同样可使得所述上壳体22与所述下壳体23之间做相对旋转。
请一并参阅图12及图13,在本实施例中,所述倾斜驱动单元162设置于所述上壳体22内。所述倾斜驱动单元162包括第二马达1621、第二齿轮组1623及第二齿轮轨道1625。在本实施例中,所述第二齿轮组1623是指由至少一个齿轮互相连接而成,或者由多个不同大小、不同齿数及形状的齿轮互相连接而成。所述第二齿轮轨道1625的一端连接所述显示屏15远离所述连接结构151的一端,另一端连接至所述第二齿轮组1623,以透过所述第二齿轮组1623与所述第二马达1621连接。所述第二齿轮组1623用以将所述第二马达1621所输出的扭力传送至所述第二齿轮轨道1625。所述第二马达1621透过一驱动电路(图未示)与所述运算单元19电连接。
当所述第二马达1621被所述运算单元19激活时,所述第二马达1621带动所述第二齿轮组1623转动,以间接带动所述第二齿轮轨道1625运动,进而推动所述显示屏15,藉以调整所述显示屏15的倾斜角度。例如,请一并参阅图13,当所述第二马达1621启动时,所述第二马达1621透过所述第二齿轮组1623带动所述第二齿轮轨道1625运动,以将所述显示屏15由所述上壳体22往外推出或往内拉回所述上壳体22,进而使所述显示屏15能够根据用户观看的角度改变所述显示屏15的倾斜角度,以适合使用者观看。
可以理解,请一并参阅图14至图16,在本实施例中,所述语音控制装置100还包括第一电路板24及第二电路板25。所述第一电路板24设置于所述上壳体22内部,且靠近所述下壳体23设置。所述第二电路板25设置于所述下壳体23内部,且靠近所述上壳体22设置,并与所述第一电路板24电连接。所述第二电路板25上设置有五个环形导电线路251。所述第一电路板24上设置有至少五个导电接脚241,所述至少五个导电接脚241的末端分别电性抵接所述第二电路板25上的五个环形导电线路251。如此,当所述上壳体22与下壳体23相对转动时,所述导电接脚241的末端可滑动于所述第二电路板25上的环形导电线路251上,以保持所述第一电路板24与所述第二电路板25间的电性连接。
可以理解,在本实施例中,所述第一电路板24上固定地设置有八个导电接脚241。所述八个导电接脚241均匀地固定连接在所述第一电路板24上,并电性抵接所述第二电路板25上的环形导电线路251。如此,在达到所述第一电路板24与所述第二电路板25电性连接的同时,可有效增加所述上壳体22与所述下壳体23间转动的稳定性。
可以理解,在本实施例中,所述第二电路板25上还设置有电源接头253(例如USB连接器)。所述第二电路板25上的五个环形导电线路251分别对应电连接至所述电源接头253的五个接脚(图未示)。如此,所述电源接头253所接收的外部电源可通过所述第二电路板25与上述导电接脚241的电性抵触而传送至所述上壳体22的第一电路板24,以为所述上壳体22中的电子组件供应所需电源。在本实施例中,所述上壳体22中的电子组件主要包括但不限于图3中的所有电子模块或电路。
请参阅图17至图21,本发明第二较佳实施方式提供一种语音控制装置100a,其具体结构与第一实施例中的语音控制装置100类似,其区别在于所述语音控制装置100a中麦克风通孔123a在所述语音控制装置100a上的位置与第一实施例中所述麦克风通孔123的位置不同。具体的,请一并参阅图17至图19,其中对应于所述第一麦克风单元121的麦克风通孔123a设置于所述上壳体22的顶部靠近中心位置。对应于所述多个第二麦克风单元122的多个麦克风通孔123a则以环绕的方式平均分散地设置于上壳体22的侧壁上,以达到清楚地接收各个方向的语音信号。
可以理解,在本实施例中,所述语音控制装置100a中所述倾斜驱动单元162a的结构亦与第一实施例中所述倾斜驱动单元162的结构不同。
具体的,请一并参阅图20及图21,在本实施例中,所述倾斜驱动单元162a包括第二马达1621、第二齿轮组1623及连动齿轮1626。所述第二马达1621、所述第二齿轮组1623及连动齿轮1626均设置于所述上壳体22内部并对应于所述显示屏15的背面设置。所述连动齿轮1626透过一传动皮带1627连接至所述连接结构151上的一传动齿轮1511。
当所述第二马达1621工作时,所述第二马达1621透过所述第二齿轮组1623带动所述连动齿轮1626,并透过所述传动皮带1627带动所述传动齿轮1511,以将所述显示屏15由所述上壳体22往外推出或往内拉回所述上壳体22(参图21),进而使所述显示屏15能够根据用户观看的角度改变所述显示屏15的倾斜角度,以适合使用者观看。
请参阅图22至图26,本发明第三较佳实施方式提供一种语音控制装置100b,其具体结构与第一实施例中的语音控制装置100类似,其区别在于所述语音控制装置100b中麦克风通孔123b在所述语音控制装置100b上的位置与第一实施例中所述麦克风通孔123的位置不同。具体的,请一并参阅图22至图24,其中对应于所述第一麦克风单元121的麦克风通孔123b设置于所述上壳体22的顶部。对应于所述第二麦克风单元122的麦克风通孔123b则以环绕的方式平均分散地设置于上壳体22的侧壁上,以达到清楚地接收各个方向的语音信号。
可以理解,在本实施例中,所述语音控制装置100b中倾斜驱动单元162b的结构与第一实施例中所述倾斜驱动单元162的结构亦不同。具体的,请一并参阅图25至图26,在本实施例中,所述倾斜驱动单元162b包括第二马达1621、第二齿轮组1623及基座1628。所述第二马达1621及第二齿轮组1623均设置于所述上壳体22内部。所述基座1628的一侧连接至所述显示屏15的底部,另一侧则设置有至少一齿轮轨道1629。所述基座1628底部的齿轮轨道1629通过所述第二齿轮组1623连接至所述第二马达1621。请一并参阅图26,当所述第二马达1621工作时,所述第二马达1621通过所述第二齿轮组1623带动所述基座1628底部的齿轮轨道1629,进而带动所述显示屏15旋转,使得所述显示屏15产生对应于所述上壳体22的倾斜角度,进而改变所述显示屏15的视角,以适合使用者观看。
请一并参阅图27至图30,本发明第四较佳实施方式提供一种语音控制装置100c,其具体结构与第一实施例中的语音控制装置100类似,其区别在于所述语音控制装置100c并未包括所述旋转模块16,且所述语音控制装置100c中的显示屏15a为柔性显示屏,其设置于所述上壳体22的侧壁上。
可以理解,在本实施例中,当所述语音控制装置100c工作时,所述语音控制装置100c可利用所述第一麦克风单元121与第二麦克风单元122并通过所述多个麦克风通孔123-1至123-7接收外部声音,接着利用所述声音编码模块13或所述运算单元19根据所接收到的声音判断声源方向。当所述声音编码模块13或所述运算单元19判断出声源方向后,所述运算单元19将对应的信息(例如文字信息或影像信号)透过所述显示屏15a显示于声源方向所对应的显示区域上。
请一并参阅图29,其中显示的图形信息(如天气图形)可以根据所判断的声源方向作各种显示位置的变化。例如,当所判断的声源方向在麦克风通孔123-1或123-2所对应的方向时(请参阅图29中左图),图形信息(如天气图形)会显示于麦克风通孔123-1与123-2所对应的显示区域上。另外,当所判断的声源方向在麦克风通孔123-2与123-3所对应的方向时(请参阅图29中右图),图形信息(如天气图形)会显示于麦克风通孔123-2与123-3所对应的显示区域上。
请一并参阅图31及图32,为本发明较佳实施例中语音控制方法的流程图,其包括以下步骤:
步骤S100:所述语音控制装置100于开机后可进入一待机模式。此时,所述语音控制装置100的第一麦克风单元121处于启动状态,用以接收语音信号,而第二麦克风单元122处于关闭状态。
步骤S101:所述第一麦克风单元121接收到一语音信号,并将所述语音信号传送至所述声音编码模块13。所述声音编码模块13直接判断所述第一麦克风单元121所接收到的语音信号是否为一预先设定的语音启动指令。若是,则进入步骤S102。若否,则返回步骤S100,即所述语音控制装置100继续处于待机模式中,以持续通过所述第一麦克风单元121接收外部的语音信号。
可以理解,在其他实施例中,当第一麦克风单元121接收到一语音信号时,所述第一麦克风单元121将所述语音信号传送至所述声音编码模块13。所述声音编码模块13对所述语音信号处理(例如,包括但不限于将所述语音信号由模拟信号转换成数字语音信号)后传送至所述运算单元19。所述运算单元19收到所述语音信号后,会通过其所执行的语音分析模块200B判断所述语音信号是否为所述预先设定的语音启动指令。若是,则进入步骤S102。若否,则返回步骤S100,即所述语音控制装置100继续处于待机模式,以持续通过所述第一麦克风单元121接收外部的语音信号。
可以理解,在本实施例中,所述预先设定的语音启动指令可以为[哈啰]或是用户自行设定的其他语音启动指令。
步骤S102:当所述语音信号为所述预先设定的语音启动指令时,所述声音编码模块13或所述运算单元19传送一启动信号至所述第二麦克风单元122,以唤醒及启动所述第二麦克风单元122。如此所述第二麦克风单元122可以开始接收跟随在所述预先设定的语音启动指令后的后续语音信号。
例如,当使用者说[哈啰!今天台北的天气如何]时,所述第一麦克风单元121用以接收所述语音启动指令[哈啰],而所述第二麦克风单元122则用以接收后续语音信号[今天台北的天气如何]。
步骤S103:当所述第二麦克风单元122启动后,所述声音编码模块13判断所述第二麦克风单元122是否在一预定时间内接收到所述后续的语音信号。若是,则进入到步骤S104。若否,则返回至步骤S100。即所述语音控制装置100回到待机模式,并关闭所述第二麦克风单元122,仅所述第一麦克风单元121处于启动状态,以接收语音启动指令。
步骤S104:当所述第二麦克风单元122中的至少一个接收到后续的语音信号时,所述第二麦克风单元122中的至少一个将所接收到的语音信号传送至所述声音编码模块13,以通过所述声音编码模块13直接判断所述语音信号是否为一语音请求指令。当所述声音编码模块13判断所述语音信号为语音请求指令时,进入步骤S105。若否,例如所述语音信号为没有任何意义的语音或者噪音时,返回至步骤S100。
可以理解,在其他实施例中,当所述第二麦克风单元122中的至少一个接收到后续的语音信号后,所述第二麦克风单元122中的至少一个将所接收到的语音信号传送至所述声音编码模块13。所述声音编码模块13对所述语音信号进行处理后再传送至所述运算单元19。所述运算单元19收到所述语音信号后,通过其所执行的语音分析模块200B判断所述语音信号是否为语音请求指令。若是,则进入到步骤S105。若否,例如所述语音信号为没有任何意义的语音或者噪音时,返回至步骤S100。
可以理解,在本实施例中,所述语音分析模块200B可根据所述语音数据库200A所储存的数据(例如语音词库)来判断所述语音信号是否为语音请求指令。或者所述语音分析模块200B通过所述运算单元19透过所述第一无线通信模块11传送所述语音信号至所述网络服务器300,以通过所述网络服务器300中的语音分析程序及/或语音数据库判断所述语音信号是否为语音请求指令,再由所述网络服务器300回传判断结果至所述运算单元19执行的语音分析模块200B。
可以理解,在本实施例中,所述语音请求指令的类型可至少包括但不限于两种,例如控制型语音指令、命令型语音指令与问题型语音指令。其中所述控制型语音指令可以为[打开电视]、[调整音量]、[打开音乐播放器]、[播放音乐]等各种控制远程电子装置201、202、203的指令。所述命令型语音指令可以为[订披萨]、[订车票]、[订饭店]等各种订票或预约的指令。所述问题型语音指令可以为[今天台北的天气如何]、[今天有哪些电影]、[今天有哪些球赛]等各种问题型指令。
步骤S105:当所述语音信号被判断为语音请求指令时,所述语音分析模块200B从所述语音数据库200A或影像数据库中找出一对应的响应信息。例如,当所述语音请求指令为[今天台北的天气如何]时,所述对应的响应信息可为[今天台北天气晴天]。或者例如,当所述语音请求指令为[到台北的交通状况如何]时,所述对应的响应信息可为一显示交通状况的地图或者为[目前塞车严重,开车需要2小时抵达]。
可以理解,在其他实施例中,所述对应的响应信息亦可由步骤S104中所述网络服务器300的语音分析程序及/或语音数据库根据所述语音请求指令找出,并回传所述对应的响应信息至所述运算单元执行的语音分析模块200B。
步骤S106:所述运算单元19判断所述响应信息是否符合输出至所述显示屏15的条件。若否,进入步骤S107。若是,则进入步骤S108。
例如,在其中一实施例中,当所述响应信息的内容属于文字信息且字数超过一预设数字(例如超过50个字或超过5个句子),或属于图像信息、影像信息、地图信息、网址链接信息或任何表格或列表信息,则所述运算单元19可判断所述响应信息符合输出至所述显示屏15的条件,进而可选择将所述响应信息输出至所述显示屏15。
反之,所述运算单元19将判断所述响应信息不符合输出至所述显示屏15的条件,进而可选择将所述响应信息输出至所述扬声器14,以响应使用者。例如,当所述响应信息的内容属于文字信息且字数少于所述预设字数(例如少于50个字或少于5个句子)时,所述运算单元19判断所述响应信息的内容不符合输出至所述显示屏15的条件,进而可选择将所述响应信息输出至所述扬声器14,以响应使用者。
步骤S107:当判断所述响应信息不符合输出至所述显示屏15的条件时,所述运算单元19通过执行所述语音产生模块200C,以将上述由所述语音数据库200A或所述网络服务器300所获得的响应信息(例如[今天台北天气晴天]或[目前塞车严重,开车需要2小时抵达])转换为一对应的语音信号,并将所述对应的语音信号传送至所述声音编码模块13。最后再通过所述扬声器14产生[今天台北天气晴天]或[目前塞车严重,开车需要2小时抵达]的语音来响应用户,并进入步骤S117。
步骤S108:当判断所述响应信息符合输出至所述显示屏15的条件时,所述声音编码模块13或所述运算单元19继续判断所述第二麦克风单元122接收的语音信号的声源方向(即用户相对于所述语音控制装置100的方向)及/或计算声源距离(即用户相对于所述语音控制装置100的距离)。
可以理解,在本实施例中,所述声音编码模块13或所述运算单元19可通过分析比对在同一时间各个第二麦克风单元122接收的语音信号的振幅大小,并将振幅最大的第二麦克风单元所在位置朝外的水平方向判断为声源方向。
可以理解,在本实施例中,所述运算单元19可通过距离模块200E计算出用户与所述语音控制装置100的距离。当然,在其他实施例中,所述运算单元19还可通过所述相机模块17所拍摄影像的对焦距离、或透过其他雷射模块或红外线模块以雷射测距方式或光学测距方式计算出用户与语音控制装置100的距离。
步骤S109:所述运算单元19判断所述声源距离(即用户与所述语音控制装置100的距离)是否小于一预设距离。若是,则进入步骤S110。若否,则进入步骤S118。
可以理解,在步骤S107中,所述运算单元19还可根据所述声源距离(即用户与所述语音控制装置100的距离)调整所述语音控制装置100的语音输出音量大小。
例如,在其中一实施例,当所述声源距离大于所述预设距离(例如大于五公尺)时,所述语音控制装置100将所述扬声器14的语音输出音量提高,进而使得距离所述语音控制装置100五公尺外的使用者能够听到。或者,在另一实施例中,当所述声源距离大于所述预设距离(例如大于五公尺)时,所述语音控制装置100亦通过所述第二无线通信模块21将所述响应信息所对应的语音信号传送至所述装置管理模块200D所记录具有扬声器并处于开启状态中的远程电子装置201、202、203进行播放。
步骤S110:所述运算单元19根据步骤S108所判断出的声源方向产生一旋转驱动信号,并将所述旋转驱动信号传送至所述转动模块16,以驱动所述转动模块16中的所述旋转驱动单元161运动,进而转动所述上壳体22,使得所述显示屏15通过所述上壳体22的转动而转向声源方向。
步骤S111:当所述显示屏15转向所述声源方向后,所述运算单元19接着启动所述相机模块17拍摄影像。所述相机模块17所拍摄影像将传送至所述影像辨识模块18,并由影像辨识模块18辨识所拍摄影像是否具有脸部特征。若所述影像辨识模块18辨识所拍摄影像存在脸部特征,则进入步骤S112。若所述影像辨识模块18辨识所拍摄影像不存在脸部特征,则进入步骤S113。
可以理解,步骤S111中,亦可由所述运算单元19辨识及判断所拍摄影像是否存在脸部特征。
步骤S112:所述运算单元19根据脸部特征位于所拍摄影像中的位置产生倾斜驱动信号,并将所述倾斜驱动信号传送至所述转动模块16,以驱动所述转动模块16中的所述倾斜驱动单元162运动,进而调整所述显示屏15相对于所述上壳体22的倾斜角度。
例如,假设所述相机模块17设于所述显示屏15框体上方靠中间位置。当所述运算单元19判断所述脸部特征位于所拍摄影像中的上半部位置时,说明用户脸部位于相较于所述显示屏15高的位置。则所述倾斜驱动信号可用以将所述显示屏15往上调整,直至所述运算单元19判断所述脸部特征位于所拍摄影像中的中心水平线。
例如,假设所述相机模块17设于所述显示屏15框体上方靠中间位置。当所述运算单元19判断所述脸部特征位于所拍摄影像中的左半部位置,说明用户脸部位于较靠近所述显示屏15的左侧位置,则所述旋转驱动信号可用以使得所述显示屏15往左转动,直至所述运算单元19判断所述脸部特征位于所拍摄影像中的中心垂直线。
可以理解,所述影像辨识模块18可实时追踪用户的位置,并实时传送所拍摄影像至所述运算单元19,使所述运算单元19实时根据用户的位置产生控制信号至所述旋转驱动单元161与所述倾斜驱动单元162,进而实时调整所述显示屏15的水平方向与倾斜角度。当然,在其他实施例中,任何可以用来追踪使用者方向、距离的方法皆可应用于本发明,并不只限定于上述的方式。
步骤S113:当所述影像辨识模块18辨识所拍摄影像并未具有脸部特征时,所述运算单元19产生旋转驱动信号或倾斜驱动信号,并将所述旋转驱动信号或倾斜驱动信号传送至所述转动模块16,以转动所述上壳体22,进而调整所述相机模块17的水平方向或倾斜角度,以搜寻用户脸部特征。
可以理解,在其中一实施例中,所述旋转驱动单元161可根据依次收到的多个旋转驱动信号,依顺时钟方向或逆时针方向逐步转动所述相机模块17来搜寻用户脸部特征。
步骤S114:所述运算单元19或所述影像辨识模块18判断所述相机模块17是否搜寻到用户脸部特征。若是,进入步骤S116。若否,进入步骤S115。
步骤S115:所述运算单元19判断所述相机模块17的转动次数是否超过一预设次数。若是,进入步骤S116。若否,返回至步骤S113。
步骤S116:所述运算单元19将上述响应信息输出至所述显示屏15,以通过所述显示屏15显示所述响应信息。
步骤S117:所述运算单元19判断是否接收到一结束信号。若是,结束流程。若否,返回至步骤S100。
可以理解,在本实施例中,所述结束信号可以是一语音结束指令或是一电源关闭信号。
步骤S118:所述运算单元19判断是否有远程电子装置启动。若是,进入步骤S119。若否,返回至步骤S111。
可以理解,在其中一实施例中,所述运算单元19可根据所述装置管理模块200D对所述远程电子装置201、202的纪录,判断是否有远程电子装置启动。
当然,可以理解的是,在其他实施例中,所述运算单元19还可根据所述第二无线通信模块21是否与所述远程电子装置201、202连接来判断是否有远程电子装置启动。或者,所述运算单元19可根据所述装置管理模块200D是否有设定一默认的远程电子装置201或202,进而判断是否有远程电子装置启动。
步骤S119:当所述运算单元19判断有远程电子装置启动时,所述运算单元19可决定一距离较近的远程电子装置的显示屏显示所述响应信息。
例如,在其中一实施例中,所述运算单元19可通过所述第二无线通信模块21分别判断所述远程电子装置201、202的无线信号强度,进而决定一距离所述语音控制装置100较近的远程电子装置。
另外,所述运算单元19可根据计算得到的用户与语音控制装置100的距离或所述相机模块17所拍摄影像的对焦距离来判断用户与所述语音控制装置100的距离,进而获得距离用户最近的远程电子装置。
步骤S120:所述运算单元19通过所述第二无线通信模块21将所述响应信息传送至已开启或离所述语音控制装置100较近的远程电子装置201及/或202,以通过所述远程电子装置201及/或202显示所述响应信息,并返回至步骤S117。
可以理解,于其他实施例中,步骤S119亦可省略,直接由步骤S118进入步骤S120。
本发明的语音控制装置100可根据声源方向有效调整所述显示屏15的转向,还可根据拍摄影像中是否存在用户特征来有效调整所述显示屏15的倾斜角度,进而使得所述语音控制装置较精准地朝向用户。另外,所述语音控制装还100可根据不同类型的信息采用不同的呈现方式,例如当所述信息符合输出至所述显示屏15的条件时,通过所述显示屏15输出;而当不符合输出至所述显示屏15的条件时,则通过所述扬声器14输出,较为实用及方便。
以上实施方式仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施方式对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换都不应脱离本发明技术方案的精神和范围。本领域技术人员还可在本发明精神内做其它变化等用在本发明的设计,只要其不偏离本发明的技术效果均可。这些依据本发明精神所做的变化,都应包含在本发明所要求保护的范围之内。

Claims (25)

1.一种语音控制装置,包括麦克风模块、声音编码模块、显示屏、相机模块、运算单元以及扬声器,所述声音编码模块电连接至所述麦克风模块及所述运算单元,所述相机模块及所述显示屏均与所述运算单元电连接,所述麦克风模块用以接收语音信号,并将所述语音信号传送至所述声音编码模块,所述声音编码模块或所述运算单元判断所述语音信号的声源方向以及判断所述语音信号是否为语音请求指令,当所述语音信号为语音请求指令时,获取对应的响应信息,当所述响应信息的内容属于图像信息、影像信息、地图信息、网址链接信息、表格信息或列表信息其中之一时,所述运算单元判断所述响应信息符合输出至所述显示屏的条件,并根据所述声源方向控制所述显示屏转动至所述声源方向,并将所述响应信息传送至所述显示屏显示,以及当所述响应信息属于文字信息时,所述运算单元判断所述响应信息是否符合输出至所述显示屏的条件,当不符合输出至所述显示屏的条件时,将所述响应信息转换为对应的语音信号,并通过所述扬声器播出。
2.如权利要求1所述的语音控制装置,其特征在于:所述运算单元还将所述语音信号传送至网络服务器,以通过所述网络服务器找到所述响应信息,并从所述网络服务器接收所述响应信息。
3.如权利要求1所述的语音控制装置,其特征在于:所述麦克风模块包括第一麦克风单元及第二麦克风单元,其中当所述第一麦克风单元接收一预先设定的语音启动指令时,所述第二麦克风单元被启动,用以接收所述语音信号。
4.如权利要求1所述的语音控制装置,其特征在于:所述运算单元还控制所述相机模块拍摄影像、判断所述相机模块所拍摄影像是否存在用户特征,并根据所述用户特征位于所拍摄影像中的位置调整所述显示屏的倾斜角度。
5.如权利要求4所述的语音控制装置,其特征在于:所述语音控制装置还包括转动模块,所述转动模块包括旋转驱动单元及倾斜驱动单元,所述运算单元通过所述旋转驱动单元控制所述显示屏转动至所述声源方向,所述运算单元通过所述倾斜驱动单元调整所述显示屏的倾斜角度。
6.如权利要求5所述的语音控制装置,其特征在于:所述语音控制装置还包括上壳体及下壳体,所述显示屏设置于所述上壳体,所述旋转驱动单元包括第一马达、第一齿轮组及第一齿轮轨道,所述第一马达、第一齿轮组及第一齿轮轨道相互连接,所述第一齿轮轨道设置于所述下壳体的内壁或所述上壳体的内壁,所述第一马达与所述运算单元电连接,所述运算单元用以驱动所述第一马达,以带动所述第一齿轮组转动,再通过所述第一齿轮组带动所述第一齿轮轨道旋转,使得所述上壳体与所述下壳体之间做相对旋转,进而将所述显示屏转动至所述声源方向。
7.如权利要求6所述的语音控制装置,其特征在于:所述倾斜驱动单元包括第二马达及第二齿轮组,所述第二齿轮组连接所述显示屏,所述第二马达与所述运算单元电连接,所述运算单元用以驱动所述第二马达,所述第二马达带动所述第二齿轮组转动,以推动所述显示屏,进而调整所述显示屏的倾斜角度。
8.如权利要求6所述的语音控制装置,其特征在于:所述麦克风模块包括多个麦克风单元,所述多个麦克风单元用以接收语音信号,所述声音编码模块或所述运算单元根据所述多个麦克风单元接收到的语音信号判断所述声源方向。
9.如权利要求8所述的语音控制装置,其特征在于:所述上壳体的顶部或侧壁上开设有多个麦克风通孔,所述多个麦克风通孔分别对应所述多个麦克风单元。
10.如权利要求9所述的语音控制装置,其特征在于:所述语音控制装置还包括内存单元,所述内存单元与所述运算单元电连接,所述内存单元存储有语音数据库,所述运算单元根据所述语音数据库所储存的数据判断所述语音信号是否为语音请求指令。
11.如权利要求9所述的语音控制装置,其特征在于:所述语音控制装置还包括第一无线通信模块,所述第一无线通信模块与所述运算单元电连接,所述运算单元通过所述第一无线通信模块将所述语音信号传送至网络服务器,以通过所述网络服务器中的语音分析程序或语音数据库判断所述语音信号是否为语音请求指令。
12.如权利要求9所述的语音控制装置,其特征在于:当所述声音编码模块或所述运算单元判断所述语音信号为控制指令时,所述语音控制装置将所述控制指令传送至相应的远程电子装置。
13.如权利要求9所述的语音控制装置,其特征在于:所述运算单元还用以计算用户与所述语音控制装置的距离,当所述响应信息是输出至所述扬声器时,所述运算单元还根据所述距离调整所述扬声器的语音输出音量。
14.一种语音控制方法,应用于一语音控制装置,所述语音控制装置包括显示屏、扬声器及相机模块,其特征在于,所述方法包括:
(a)接收一语音信号;
(b)对所述语音信号进行处理,以判断所述语音信号的声源方向;
(c)判断所述语音信号是否为语音请求指令;
(d)当所述语音信号为语音请求指令时,获取对应的响应信息;
(e)判断所述响应信息是否符合输出至所述显示屏的条件;
(f)当所述响应信息的内容属于图像信息、影像信息、地图信息、网址链接信息、表格信息或列表信息其中之一时,判断所述响应信息符合输出至所述显示屏的条件,并根据所述声源方向控制所述显示屏转动至所述声源方向,并将所述响应信息传送至所述显示屏显示;以及
(g)当所述响应信息属于文字信息时,判断所述响应信息是否符合输出至所述显示屏的条件,当不符合输出至所述显示屏的条件时,将所述响应信息转换为对应的语音信号,并通过所述扬声器播出。
15.如权利要求14所述的语音控制方法,其特征在于:所述方法在执行步骤(d)时,还包括以下步骤:
(d1)将所述语音信号传送至网络服务器,以通过所述网络服务器找到所述响应信息;以及
(d2)从所述网络服务器接收所述响应信息。
16.如权利要求14所述的语音控制方法,其特征在于:所述语音控制装置还包括第一麦克风单元及第二麦克风单元,其中所述控制方法还包括:
当所述第一麦克风单元接收一预先设定的语音启动指令时,启动所述第二麦克风单元,用以接收所述语音信号。
17.如权利要求14所述的语音控制方法,其特征在于:所述控制方法还包括:
(h)控制所述相机模块拍摄影像;以及
(i)判断所拍摄影像是否存在用户特征,并根据所述用户特征位于所拍摄影像中的位置调整所述显示屏的倾斜角度。
18.如权利要求14所述的语音控制方法,其特征在于:当判断所述响应信息符合输出至所述显示屏的条件时,所述方法还包括以下步骤:
计算用户相对于所述语音控制装置的距离;
判断用户与所述语音控制装置的距离是否小于一预设距离;以及
当用户与所述语音控制装置的距离小于所述预设距离时,根据所判断出的声源方向产生一旋转驱动信号,以控制所述显示屏转向所述声源方向。
19.如权利要求18所述的语音控制方法,其特征在于:当用户与所述语音控制装置的距离大于所述预设距离时,所述方法还包括以下步骤:
将所述响应信息传送至远程电子装置进行显示。
20.如权利要求18所述的语音控制方法,其特征在于:所述步骤(g)包括以下步骤:
(g1)判断所拍摄影像是否存在用户特征;以及
(g2)当判断所拍摄影像存在用户特征时,根据所述用户特征位于所拍摄影像中的位置产生一倾斜驱动信号,进而调整所述显示屏的倾斜角度。
21.如权利要求20所述的语音控制方法,其特征在于:当判断所拍摄影像不存在用户特征时,所述方法还包括以下步骤:
产生旋转驱动信号或倾斜驱动信号,以调整所述相机模块的水平方向或倾斜角度,进而搜寻用户特征。
22.如权利要求14所述的语音控制方法,其特征在于:当判断所述响应信息不符合输出至所述显示屏的条件时,所述方法还包括:
计算用户相对于所述语音控制装置的距离;以及
根据所述距离调整所述扬声器的语音输出音量。
23.一种语音控制系统,包括如权利要求1-13中任意一项所述的语音控制装置。
24.如权利要求23所述的语音控制系统,其特征在于:所述语音控制系统还包括网络服务器,所述运算单元还将所述语音信号传送至所述网络服务器,以通过所述网络服务器找到所述响应信息,并从所述网络服务器接收所述响应信息。
25.如权利要求24所述的语音控制系统,其特征在于:所述语音控制系统还包括至少一远程电子装置,当所述声音编码模块或所述运算单元判断所述语音信号为控制指令时,所述语音控制装置将所述控制指令传送至所述至少一远程电子装置。
CN201711299265.6A 2016-12-16 2017-12-08 语音控制装置、系统及控制方法 Active CN108231073B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201662435088P 2016-12-16 2016-12-16
US62/435088 2016-12-16

Publications (2)

Publication Number Publication Date
CN108231073A CN108231073A (zh) 2018-06-29
CN108231073B true CN108231073B (zh) 2021-02-05

Family

ID=60935652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711299265.6A Active CN108231073B (zh) 2016-12-16 2017-12-08 语音控制装置、系统及控制方法

Country Status (4)

Country Link
US (1) US10504515B2 (zh)
EP (1) EP3336687A1 (zh)
CN (1) CN108231073B (zh)
TW (1) TWI656523B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107104994B (zh) * 2016-02-22 2021-07-20 华硕电脑股份有限公司 语音识别方法、电子装置及语音识别系统
US10230522B1 (en) 2016-03-24 2019-03-12 Amazon Technologies, Inc. Network access control
JP6771639B2 (ja) * 2017-02-24 2020-10-21 シャープ株式会社 制御装置、端末装置、クレードル、通知システム、制御方法、および制御プログラム
US10474417B2 (en) * 2017-07-20 2019-11-12 Apple Inc. Electronic device with sensors and display devices
KR101972545B1 (ko) * 2018-02-12 2019-04-26 주식회사 럭스로보 음성 명령을 통한 위치 기반 음성 인식 시스템
WO2020060577A1 (en) 2018-09-18 2020-03-26 Google Llc Display assistant device
US10484770B1 (en) * 2018-06-26 2019-11-19 Amazon Technologies, Inc. Display device with transverse planar microphone arrays
US10888385B2 (en) * 2018-07-09 2021-01-12 Point Robotics Medtech Inc. Calibration device and calibration method for surgical instrument
TWI671627B (zh) * 2018-08-02 2019-09-11 緯創資通股份有限公司 利用不同模組間之相對轉動以達到開關機功能之語音助理裝置以及其語音助理系統
CN109087649A (zh) * 2018-09-05 2018-12-25 努比亚技术有限公司 终端、终端控制方法及计算机可读存储介质
CN111316193B (zh) 2018-09-18 2023-09-15 谷歌有限责任公司 显示助理设备
US11218802B1 (en) * 2018-09-25 2022-01-04 Amazon Technologies, Inc. Beamformer rotation
TWI725340B (zh) * 2018-09-28 2021-04-21 威鋒電子股份有限公司 可攜式通訊裝置的座體及其操作方法
CN111098792A (zh) * 2018-10-25 2020-05-05 上海博泰悦臻电子设备制造有限公司 车机、车辆、车载终端支架旋转控制方法及系统
CN111261152A (zh) * 2018-12-03 2020-06-09 西安易朴通讯技术有限公司 智能交互系统
US11316144B1 (en) 2018-12-13 2022-04-26 Amazon Technologies, Inc. Lithium-ion batteries with solid electrolyte membranes
CN109451291A (zh) * 2018-12-29 2019-03-08 像航(上海)科技有限公司 无介质浮空投影声源定向语音交互系统、智能汽车
CN109827209A (zh) * 2018-12-31 2019-05-31 佛山市云米电器科技有限公司 一种基于屏幕的购物油烟机
CN109631116A (zh) * 2018-12-31 2019-04-16 佛山市云米电器科技有限公司 一种可移动式屏幕的油烟机
KR20200085593A (ko) * 2019-01-07 2020-07-15 삼성전자주식회사 전자 장치 및 그 제어 방법.
KR20200093094A (ko) 2019-01-10 2020-08-05 삼성전자주식회사 전자 장치 및 그 제어 방법
TWI719385B (zh) 2019-01-11 2021-02-21 緯創資通股份有限公司 電子裝置及其語音指令辨識方法
US10854174B2 (en) * 2019-02-15 2020-12-01 Dell Products L.P. System and method for adjusting a positioning of a user interface based on a user's position
CN111815933A (zh) * 2019-04-12 2020-10-23 百度在线网络技术(北京)有限公司 智能音箱、控制方法以及可读存储介质
CN110070868B (zh) * 2019-04-28 2021-10-08 广州小鹏汽车科技有限公司 车载系统的语音交互方法、装置、汽车和机器可读介质
CN110455027A (zh) * 2019-07-16 2019-11-15 海信集团有限公司 一种图像采集装置及其冰箱、控制方法
CN112309380B (zh) * 2019-07-26 2024-02-06 北京新能源汽车股份有限公司 一种语音控制方法、系统、设备及汽车
CN111179923B (zh) * 2019-11-22 2022-11-01 广东小天才科技有限公司 一种基于可穿戴设备的音频播放方法及可穿戴设备
CN110992931B (zh) * 2019-12-18 2022-07-26 广东睿住智能科技有限公司 一种基于d2d技术的离线式语音控制方法、系统及存储介质
CN111048085A (zh) * 2019-12-18 2020-04-21 佛山市顺德区美家智能科技管理服务有限公司 基于zigbee无线技术的离线式语音控制方法、系统及存储介质
CN111081248A (zh) * 2019-12-27 2020-04-28 安徽仁昊智能科技有限公司 一种人工智能语音识别装置
US10860059B1 (en) * 2020-01-02 2020-12-08 Dell Products, L.P. Systems and methods for training a robotic dock for video conferencing
US11055533B1 (en) * 2020-01-02 2021-07-06 International Business Machines Corporation Translating sound events to speech and AR content
US11418876B2 (en) * 2020-01-17 2022-08-16 Lisnr Directional detection and acknowledgment of audio-based data transmissions
US11507134B2 (en) * 2020-06-20 2022-11-22 Amazon Technologies, Inc. Audiovisual device with tiltable display
KR20220013073A (ko) * 2020-07-24 2022-02-04 삼성전자주식회사 전자 장치 및 그의 제어 방법
CN112099743A (zh) * 2020-08-17 2020-12-18 数智医疗(深圳)有限公司 交互系统、交互设备及交互方法
CN112061059B (zh) * 2020-09-14 2022-07-12 广州小鹏汽车科技有限公司 一种车辆的屏幕调节方法、装置、车辆和可读存储介质
CN112432311A (zh) * 2020-11-13 2021-03-02 青岛海尔空调器有限总公司 空调显示装置、空调及其控制方法
CN112533070B (zh) * 2020-11-18 2024-02-06 深圳Tcl新技术有限公司 视频声音和画面的调整方法、终端和计算机可读存储介质
CN112420045A (zh) * 2020-12-11 2021-02-26 奇瑞汽车股份有限公司 一种汽车车载语音交互系统及方法
CN112882536A (zh) * 2021-01-22 2021-06-01 Oppo广东移动通信有限公司 控制方法、控制装置、电子装置和存储介质
CN113840757B (zh) * 2021-04-30 2022-12-30 华为技术有限公司 一种显示屏调整方法及装置
CN113691901B (zh) * 2021-09-10 2022-11-22 歌尔科技有限公司 音箱和电子系统
US11907014B2 (en) * 2022-01-18 2024-02-20 Emanuel Grant Smartphone holding assembly

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202041947U (zh) * 2010-12-15 2011-11-16 方正国际软件有限公司 一种语音控制显示屏显示内容的系统
WO2015174597A1 (ko) * 2014-05-13 2015-11-19 박남태 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
CN105468613A (zh) * 2014-09-01 2016-04-06 深圳富泰宏精密工业有限公司 智能调整运算资源的系统及方法

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3586610B2 (ja) * 2000-02-23 2004-11-10 Necパーソナルプロダクツ株式会社 角度自動調節機能付きディスプレイ
US7626569B2 (en) 2004-10-25 2009-12-01 Graphics Properties Holdings, Inc. Movable audio/video communication interface system
JP2006324952A (ja) * 2005-05-19 2006-11-30 Hitachi Ltd テレビジョン装置
KR20070081617A (ko) * 2006-02-13 2007-08-17 최진열 온라인 실시간 첨삭지도 및 동기지향형 학습 시스템 및 그방법과 그 방법에 대한 컴퓨터 프로그램 소스를 저장한기록매체
WO2007138503A1 (en) * 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
CN101295016B (zh) * 2008-06-13 2011-04-27 河北工业大学 一种声源自主搜寻定位方法
US8971713B2 (en) * 2010-07-01 2015-03-03 Analysis First LLC Identification and communication systems
US10496714B2 (en) 2010-08-06 2019-12-03 Google Llc State-dependent query response
US20120075166A1 (en) 2010-09-29 2012-03-29 Samsung Electronics Co. Ltd. Actuated adaptive display systems
CN102323817A (zh) * 2011-06-07 2012-01-18 上海大学 一种服务机器人控制平台系统及其多模式智能交互与智能行为的实现方法
US8715171B2 (en) * 2011-06-28 2014-05-06 Njr Medical, Inc. Insertion aid device
US8660847B2 (en) 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
EP2766786A1 (en) * 2011-10-14 2014-08-20 Ergotron, Inc. Tablet storage device
US20130094656A1 (en) * 2011-10-16 2013-04-18 Hei Tao Fung Intelligent Audio Volume Control for Robot
WO2013115748A1 (en) 2012-01-30 2013-08-08 Echostar Ukraine, L.L.C. Apparatus, systems and methods for adjusting output audio volume based on user location
US8793136B2 (en) * 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US20140009385A1 (en) * 2012-07-05 2014-01-09 Asustek Computer Inc. Method and system for rotating display image
CN103685906B (zh) * 2012-09-20 2018-01-02 中兴通讯股份有限公司 一种控制方法、控制装置及控制设备
CN103914131A (zh) * 2013-01-07 2014-07-09 鸿富锦精密工业(武汉)有限公司 显示屏幕自动调节系统及方法
KR20140089863A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102111457B1 (ko) * 2013-05-15 2020-05-15 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
CN103336788A (zh) * 2013-06-05 2013-10-02 上海交通大学 一种仿人机器人辅助的互联网信息获取方法及系统
WO2015069225A1 (en) * 2013-11-05 2015-05-14 Hitachi, Ltd. Method and apparatus for avoiding performance decrease in high availability configuration
CN104010147B (zh) 2014-04-29 2017-11-07 京东方科技集团股份有限公司 自动调节音频播放系统音量的方法和音频播放装置
CN104102346A (zh) * 2014-07-01 2014-10-15 华中科技大学 一种家用信息采集和用户情感识别设备及其工作方法
CN104240606B (zh) * 2014-08-22 2017-06-16 京东方科技集团股份有限公司 显示装置及显示装置观看角度的调节方法
WO2016031224A1 (ja) * 2014-08-25 2016-03-03 シャープ株式会社 画像表示装置
US20160100158A1 (en) * 2014-10-07 2016-04-07 Top Victory Investments Ltd. Display Device with Curved Display Function
CN104951077A (zh) 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
US20170099555A1 (en) * 2015-10-01 2017-04-06 Motorola Mobility Llc Enabling Voice Interaction Using Secondary Microphone
CN205325695U (zh) * 2015-12-29 2016-06-22 广东奥飞动漫文化股份有限公司 一种智能陪伴机器人
CN205389262U (zh) * 2016-02-02 2016-07-20 深圳市优思曼科技有限公司 带显示屏的智能音响
KR102498451B1 (ko) 2016-03-24 2023-02-13 삼성전자주식회사 전자 장치 및 전자 장치에서의 정보 제공 방법
CN105744441A (zh) * 2016-03-30 2016-07-06 苏州合欣美电子科技有限公司 基于距离感应的自适应音量调节的音箱

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202041947U (zh) * 2010-12-15 2011-11-16 方正国际软件有限公司 一种语音控制显示屏显示内容的系统
WO2015174597A1 (ko) * 2014-05-13 2015-11-19 박남태 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
CN105468613A (zh) * 2014-09-01 2016-04-06 深圳富泰宏精密工业有限公司 智能调整运算资源的系统及方法

Also Published As

Publication number Publication date
CN108231073A (zh) 2018-06-29
TWI656523B (zh) 2019-04-11
EP3336687A1 (en) 2018-06-20
US20180174584A1 (en) 2018-06-21
TW201828282A (zh) 2018-08-01
US10504515B2 (en) 2019-12-10

Similar Documents

Publication Publication Date Title
CN108231073B (zh) 语音控制装置、系统及控制方法
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
CN210325195U (zh) 具有垂直定向的外壳的扬声器设备
US20180227658A1 (en) Headset
US9950431B2 (en) Interactive robot initialization
WO2021008538A1 (zh) 语音交互方法及相关装置
KR101906827B1 (ko) 연속 사진 촬영 장치 및 방법
KR102415552B1 (ko) 디스플레이 장치
CN108574515B (zh) 一种基于智能音箱设备的数据分享方法、装置和系统
WO2021135685A1 (zh) 身份认证的方法以及装置
CN111163906B (zh) 能够移动的电子设备及其操作方法
US11302325B2 (en) Automatic dialogue design
CN202120280U (zh) 一种可调节角度的人脸识别设备
US20180124225A1 (en) Wireless Earpiece with Walkie-Talkie Functionality
CN111739517B (zh) 语音识别方法、装置、计算机设备及介质
EP2913740B1 (en) Display apparatus and control method thereof
EP4047495A1 (en) Method for verifying user identity and electronic device
CN109819167A (zh) 一种图像处理方法、装置和移动终端
CN113574525A (zh) 媒体内容推荐方法及设备
WO2022022743A1 (zh) 一种公用设备上识别用户的方法及电子设备
KR20190106925A (ko) 인공지능 로봇 및 그의 제어 방법
US20230005471A1 (en) Responding to a user query based on captured images and audio
US20220172736A1 (en) Systems and methods for selectively modifying an audio signal based on context
WO2022042274A1 (zh) 一种语音交互方法及电子设备
CN114120987B (zh) 一种语音唤醒方法、电子设备及芯片系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant