CN105654952B - 用于输出语音的电子设备、服务器和方法 - Google Patents
用于输出语音的电子设备、服务器和方法 Download PDFInfo
- Publication number
- CN105654952B CN105654952B CN201510854135.9A CN201510854135A CN105654952B CN 105654952 B CN105654952 B CN 105654952B CN 201510854135 A CN201510854135 A CN 201510854135A CN 105654952 B CN105654952 B CN 105654952B
- Authority
- CN
- China
- Prior art keywords
- electronic device
- user
- data
- image data
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 77
- 238000003909 pattern recognition Methods 0.000 claims abstract description 33
- 238000004891 communication Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 26
- 241001122315 Polites Species 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 14
- 210000004709 eyebrow Anatomy 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000004397 blinking Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 description 45
- 238000013528 artificial neural network Methods 0.000 description 35
- 238000012549 training Methods 0.000 description 32
- 238000001514 detection method Methods 0.000 description 19
- 230000001413 cellular effect Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 18
- 230000033001 locomotion Effects 0.000 description 13
- 238000012790 confirmation Methods 0.000 description 11
- 210000001097 facial muscle Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012567 pattern recognition method Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- -1 electricity Substances 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 229910052734 helium Inorganic materials 0.000 description 1
- 239000001307 helium Substances 0.000 description 1
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 210000000088 lip Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000001646 magnetic resonance method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
- 210000000216 zygoma Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72475—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/04—Devices for conversing with the deaf-blind
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/66—Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
- H04M1/663—Preventing unauthorised calls to a telephone set
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/52—Details of telephonic subscriber devices including functional features of a camera
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
根据本公开的实施例,电子设备可以包括:相机模块,获取用户的图像数据;控制器,被配置为从由相机模块获取的图像数据中检测与用户的意图相对应的至少一个特征,基于该至少一个特征来获取模式,确定与该模式相对应的文本数据,以及将该文本数据的至少一部分转换成语音数据;以及输出模块,输出语音数据。还提供了模式识别的其它各种实施例。
Description
技术领域
本公开的实施例涉及用于输出语音的电子设备、服务器和方法。
背景技术
不能应答某人的呼叫的移动电话用户可以有几种呼叫拒绝选择,例如简单地忽略、通过触摸并拖动拒绝按钮来拒绝呼入呼叫、以及发送出文本消息如“现在不能说话”来让呼叫者知道他的不便。针对第三种选择,用户可以选择由制造商预定义的样本消息或者用户之前键入的定制消息。同时,文本消息可以由暂时或永久地失声的人用作备选的通信手段。
由此,移动消息可以提供友好的方式以在不伤害呼叫者的感情的情况下为希望拒绝呼入的电话用户拒绝呼叫,并且能够实现语言残疾者与其他人之间的通信。
然而,这样的通信方法需要有时令人讨厌并花费时间的文本键入。
上述信息作为背景信息来介绍,仅用于帮助对本公开的理解。至于任何上述内容是否可能适于作为关于本公开的现有技术并没有做出确定并且没有做出声明。
发明内容
根据本公开的各种实施例,用于输出语音的电子设备、服务器和方法能够使用户的意图作为语音来输出,允许在呼叫的线路上与另一方通信。
根据本公开的实施例,电子设备可以包括:获取用户的图像数据的相机模块;控制器,被配置为从由相机模块获取的图像数据中检测与用户的意图相对应的至少一个特征,基于该至少一个特征来获取模式,确定与该模式相对应的文本数据,并且将该文本数据的至少一部分转换成语音数据;以及输出语音数据的输出模块。
根据本公开的实施例,电子设备可以包括:获取用户的图像数据的相机模块;控制器,被配置为向服务器发送由相机模块获取的图像数据,从服务器接收与图像数据相对应的文本数据或语音数据,并且输出与该图像数据相对应的语音数据;以及输出语音数据的输出模块,其中,从由相机模块获取的图像数据中检测与用户的意图相对应的至少一个特征,并且基于该至少一个特征来获取模式,其中确定文本数据与模式相对应,并且其中本文数据的至少一部分转换成语音数据。
根据本公开的实施例,服务器可以包括:从电子设备接收图像数据的通信模块;以及控制器,被配置为:从接收的图像数据中检测与用户的意图相对应的至少一个特征,基于该至少一个特征来获取模式,确定与该模式相对应的文本数据或者将该文本数据的至少一部分转换成语音数据,并且通过通信模块向电子设备发送该文本数据或语音数据。
根据本公开的实施例,用于通过电子设备输出语音数据的方法可以包括:使用相机模块来获取用户的图像数据;从由相机模块获取的图像数据中检测与用户的意图相对应的至少一个特征;基于至少一个特征来获取模式并且确定与该模式相对应的文本数据;将文本数据的至少一部分转换成语音数据;以及输出语音数据。
根据本公开的实施例,用于通过电子设备输出语音数据的方法可以包括:使用相机模块来获取用户的图像数据;向服务器发送由相机模块获取的图像数据;从服务器接收与图像数据相对应的文本数据或语音数据;以及输出语音数据。
根据以下结合附图公开了本公开的各种实施例的具体实施方式,本公开的其它方案、优点和突出特征对于本领域技术人员将变得更加明显。
附图说明
由于在结合附图考虑时通过参照下文的具体实施方式,本公开及其多个伴随方案变得更好理解,因此将会容易地获得对其的更完整了解,在附图中:
图1是示出了包括根据本公开的实施例的电子设备在内的网络配置的视图;
图2是示出了根据本公开的实施例的语音输出模块的框图;
图3A至图3D是示出了根据本公开的实施例的各种类型的模式识别算法的视图;
图4A至图4C是示出了根据本公开的实施例的神经网络方案的视图;
图5A至图5B是示出了根据本公开的实施例的TTS方案的视图;
图6是示出了根据本公开的实施例的从电子设备输出语音数据的操作的流程图;
图7是示出了根据本公开的实施例的从电子设备输出语音数据的操作的流程图;
图8A和图8B是示出了根据本公开的实施例的电子设备的屏幕图像的视图;
图9是示出了根据本公开的实施例的从电子设备输出语音数据的操作的流程图;
图10是示出了根据本公开的实施例的服务器的配置的框图;以及
图11是示出了根据本公开的实施例的电子设备的配置的框图。
在整个附图中,应当注意相似的附图标记用于指代相似的部分、组件和结构。
具体实施方式
下文中参照附图来描述本公开的实施例。可以对本公开进行各种改变,并且本公开可以伴随各种实施例。结合附图示出并描述了本公开的一些实施例。然而,应当理解的是:本公开并不限于这些实施例,并且所有的改变和/或等价物或者其替代物也属于本公开的范围。在整个说明书和附图中,相同或相似的附图标记用于指代相同或相似的要素。
在本文中使用的术语“包括”和/或“包含”指明所公开的功能、操作或组件的存在性,但是并不排除一个或多个其它功能、操作或组件的存在性或附加性。将进一步理解的是:当在本说明书中使用时,术语“包括”和/或“具有”指明所声明的特征、整体、步骤、操作、要素和/或组件的存在性,但是并不排除一个或多个其它特征、整体、步骤、操作、要素、组件和/或其组合的存在性或附加性。
如本文中使用的,表述“和/或”包括一个或多个关联列出项目的任何和所有组合。例如表述“A或B”可以包括A、或者可以包括B、或者可以包括A和B这二者。
诸如“第一”、“第二”之类的本文中使用的序数可以修饰各种实施例的各种元件,但不限制这些组件。例如,这些术语并不限制组件的顺序和/或重要性。这些术语仅用于将一个组件与其它组件进行区分。例如,第一用户设备和第二用户设备是彼此不同的用户设备。例如,在不脱离本公开的范围的情况下,第一组件可以被称作第二组件,并且反之亦然。
当组件“连接到”或“耦合到”另一组件时,该组件可以直接连接到或耦合到另一组件,或者其它组件可以介于两者之间。相比之下,当组件“直接连接到”或“直接耦合到”另一组件时,没有其它的介入组件可以介入两者之间。
提供本文使用的术语仅仅用于描述其一些实施例,但并不对本公开进行限制。应当理解的是:除非上下文另有明确说明,否则单数形式“一”、“一个”和“该”包括复数个引用。
除非另有定义,否则本文中使用的包括技术术语和科学术语在内的所有术语具有本公开的实施例所属的技术领域的普通技术人员通常理解的相同含义。将进一步理解的是:常用字典中定义的术语应当被视为具有与相关技术领域中的上下文含义相同的含义,并且除非在本文中明确定义,否则这些术语不应当被用理想化或过度正式的方式来解释。
根据本公开的实施例,本文中公开的电子设备可以是具有生物特征功能的设备。电子设备的示例可以包括(但不限于):智能电话、平板PC、移动电话、视频电话、电子书阅读器、台式个人计算机(PC)、膝上型计算机、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、相机、或者可穿戴设备(例如头部安装的设备(HMD)、电子服装、电子手镯、电子项链、电子配件(appcessory)、电子纹身、或智能手表)。
根据本公开的实施例,电子设备可以是具有生物特征功能的智能家电。例如,智能家电的示例可以包括(但不限于):电视、数字视频盘(DVD)播放器、音响、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、烘干机、空气净化器、机顶盒、TV盒(例如Samsung HomeSyncTM、Apple TVTM或Google TVTM)、游戏机、电子词典、便携式摄像机、以及电子相框。
根据本公开的实施例,电子设备的示例可以包括(但不限于):各种医疗设备(例如,磁共振血管造影(MRA)设备、磁共振成像(MRI)设备、计算断层扫描(CT)设备、成像设备、或超声波设备)、导航设备、全球定位系统(GPS)接收机、事件数据记录器(EDR)、飞行数据记录器(FDR)、车辆信息娱乐设备、航海电子设备(例如航海导航设备、陀螺仪、或指南针)、航空电子设备、安保设备、车头单元、工业或家庭机器人、自动柜员机(ATM)、或销售点(POS)设备。
根据本公开的各种实施例,电子设备的示例可以包括(但不限于):家具或建筑物/结构的一部分、电子板、电子签名接收设备、投影仪、或者各种测量设备(例如用于测量水、电、气、或电磁波的设备等),上述每一个电子设备包括生物特征功能。根据本公开的实施例,电子设备可以是上面列出的各种设备或电器之一或者其组合。根据本公开的实施例,电子设备可以是柔性电子设备。根据本公开的实施例,电子设备不限于上面列出的设备或电器。
将参照附图来描述本公开的各种实施例。如本文所使用的,术语“用户”可以指使用电子设备的人或另一设备。
图1示出了包括根据本公开的实施例的电子设备101在内的网络配置100。参照图1,电子设备101可以包括总线110、处理器120、存储器130、输入/输出接口140、显示器150、通信接口160、信息或语音输出模块170、以及相机模块180。
总线110将其它组件相互连接,并且总线110可以是在其它组件之间通信(例如控制消息或数据)的组件。
处理器120可以通过例如总线110从其它组件(例如存储器130、输入/输出接口140、显示器150、通信接口160、或语音输出模块170)接收控制消息或数据,可以解释接收到的控制消息或数据,并且可以根据解释的结果来执行控制、计算或数据处理。
存储器130可以存储从另一个组件(例如,输入/输出接口140、显示器150、通信接口160、或者语音输出模块170)接收的控制消息或数据,或者存储由处理器120或其它组件生成的控制消息或数据。存储器130可以包含编程模块,该编程模块包括例如内核131、中间件132、应用编程接口(API)133、或应用134等等。编程模块能够以软件、固件、硬件或者其两个或更多个的组合来实现。
内核131可以控制或管理用于执行由其它编程模块(例如中间件132、API 133或应用134)实现的操作或功能的系统资源(例如总线110、处理器120、存储器130等等)。内核131可以提供允许中间件132、API 133或应用134来访问电子设备101的各个组件的接口,以控制或者管理电子设备101的各个组件。
中间件132可以充当中继以允许API 133或应用134与内核131传输数据。可以提供多个应用134。中间件132可以例如通过向多个应用134中的至少一个应用134分配使用电子设备101的系统资源(例如总线110、处理器120、或存储器130)的优先级来控制(例如调度或负载均衡)从应用134接收的工作请求。
API 133是允许应用134控制从内核131或中间件132提供的功能的接口。例如,API133可以包括用于文件控制、窗口控制、图像处理、或文本控制的至少一个接口或功能(例如,命令)。
根据本公开的实施例,可以提供多个应用134,包括SMS/MMS应用、电子邮件应用、日历应用、闹铃应用、保健应用(例如用于测量运动量或血糖的应用)、或环境信息应用(例如提供大气压、湿度、或温度信息的应用)。附加地或备选地,应用134可以是与电子设备101和外部电子设备(例如电子设备104)之间的信息交换有关的应用。与信息交换有关的应用的示例可以包括(但不限于)用于向外部电子设备传输特定信息的通知中继应用或用于管理外部电子设备的设备管理应用。
例如,通知中继应用可以包括向外部电子设备(例如电子设备104)中继从电子设备101的其它应用(例如短消息服务(SMS)/多媒体消息服务(MMS)应用、电子邮件应用、保健应用、或环境信息应用)生成的通知信息的功能。附加地或可选地,通知中继应用可以从外部电子设备(例如,电子设备104)接收通知信息,并且可以向用户提供接收到的通知信息。设备管理应用可以执行与电子设备101通信的外部电子设备(例如,电子设备104)的至少一些功能(例如打开/关闭外部电子设备(或外部电子设备的一些组件)、或者控制显示器的亮度(或分辨率)),并且设备管理应用可以管理(例如,安装、删除或更新)在外部电子设备中操作的应用或从外部电子设备提供的服务(例如呼叫服务或消息服务)。
根据本公开的实施例,应用134可以包括根据外部电子设备(例如电子设备104)的属性(例如电子设备的类型)来指定的应用。例如,在电子设备是MP3播放器的情况下,应用134可以包括与播放音乐有关的应用。类似地,在外部电子设备是移动医疗设备的情况下,应用134可以包括与保健有关的应用。根据本公开的实施例,应用134可以包括向电子设备101指定的应用或从外部电子设备(例如服务器106或电子设备104)接收的应用。
输入/输出接口140可以经由例如总线110向处理器120、存储器130、通信接口160、或语音输出模块170传输通过输入设备(例如触摸屏、麦克风、键盘、或通信模块)从用户或另一个外部电子设备输入的控制消息或数据。例如,输入/输出接口140可以向处理器120提供与用户通过触摸屏的触摸输入相关的数据。输入/输出接口140可以通过输出设备(例如扬声器、显示器、或通信模块)输出通过例如总线110从处理器120、存储器130、通信接口160或语音输出模块170接收的控制消息或数据。例如,输入/输出接口140可以通过扬声器向用户输出由处理器120处理的语音数据。
显示器150可以向用户显示各种类型信息(例如多媒体数据或文本数据)。显示器150可以与触摸面板组合,形成触摸屏。
通信接口160可以在电子设备101与另一外部电子设备(例如电子设备104或服务器106)之间接口通信。例如,通信接口160可以用无线或有线方式与网络162连接,以与另一外部电子设备通信。无线连接可以通过各种无线电通信协议来实现,包括(但不限于):无线保真(Wi-Fi)、蓝牙(BT)、近场通信(NFC)、全球定位系统(GPS)、或蜂窝通信协议(例如长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、或全球移动通信系统(GSM))。有线连接可以通过各种有线通信协议来实现,包括(但不限于):通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准232(RS-232)、以及普通老式电话业务(POTS)。
根据本公开的实施例,网络162可以是电信网络。电信网络可以包括计算机网络、互联网、物联网(IoT)网络、或电话网络。根据本公开的实施例,电子设备101与另一外部电子设备之间的通信协议(这样的协议的示例包括但不限于:传输层协议、数据链路层协议或物理层协议)可以由应用134、API 133、中间件132、内核131、或通信接口160支持。
语音输出模块170可以在功能上与其它组件(例如处理器120、存储器130、输入/输出接口140、或通信接口160)连接,以获取与电子设备101的状态相关的信息(例如至少用户是否携带电子设备)。语音输出模块170可以基于电子设备101的状态,通过例如输入/输出接口140来独立控制多个输入/输出设备(例如传感器、触摸面板、麦克风、扬声器、显示器、或通信模块)。语音输出模块170的至少一个配置或功能可以按照类似于处理器120的方式来执行。语音输出模块170和处理器120可以单独或一起被称作控制器。下文参照图2至图7来提供语音输出模块170的细节。
相机模块180是捕捉静态图像和视频的设备。相机模块180通过对用户进行拍摄来获取用于传达用户的意图的图像或图像数据。获取的图像数据可以包括针对用户面部的图像数据,并且获取的图像数据还可以包括针对用户的手势的图像数据,例如手部运动。
图2示出了根据本公开的实施例的电子设备(例如电子设备101)的语音输出模块170。参照图2,电子设备101包括语音输出模块170、相机模块180、以及通信模块204。电子设备101还可以包括麦克风202和扬声器203。
语音输出模块170可以包括检测模块210、识别模块220、以及输出控制模块230。
根据本公开的实施例,检测模块210可以从相机模块180接收用于传达用户意图的图像数据。用于传达用户意图的图像数据可以包括针对用户面部的图像数据。用于传达用户意图的图像数据还可以包括针对用户的手势的图像数据,例如手部运动。
考虑到处理器和存储器的处理速度,检测模块210可以实时处理、按每个时间间隔来处理、或者按每个单位输入容量来处理从相机模块180接收的图像。
根据本公开的实施例,当从相机模块180接收用于传达用户意图的图像数据时,检测模块210可以在存储器130中存储图像数据。输出控制模块230可以使用图像处理算法对图像数据进行预处理(例如噪声移除、信号放大、或灰度级别归一化),并且输出控制模块230可以根据预处理的图像数据来检测至少一个特征。根据本公开的实施例,特征可以包括当用户说话时用户身体的形状发生改变的具体部分。特征可以包括例如用户的嘴或嘴周围的部分的形状、用户眼睛的形状、用户的相貌或用户相貌的改变(例如用户面部肌肉的运动)、用户眨眼、或者用户眉毛位置的变化。特征还可以包括用户的手部运动或手势,以及用户面部的变化。检测模块210可以根据图像数据来检测至少一个特征,并且可以向识别模块220传达检测到的特征。检测模块210可以按以下方式检测特征。例如,当用户在不说出的情况下以低音说话或改变他嘴的形状,仿佛他真得向在他面前的另一个人说话来传达他的意图时,由于例如变化的眼部大小、眉毛位置或面部肌肉形状,用户的面部形状可以发生变化。用户还可以做出手部运动。如此,检测模块210可以通过检测用户的面部特征或手部运动来根据图像检测特征。可以从根据由相机模块180获取的图像检测出的用户面部表情的变化和用户的面部和手部的位置变化来显著并可区分地识别出在各种照明环境下用户的个人特性。例如,可以使用位图计算根据由相机模块180获取的图像来检测用户的面部,并且在这样的情况下,与获取的图像相对应的图像数据可以转换成灰度图像数据,然后该灰度图像数据可以被二值化为具有例如相对于预定阈值的真与伪或1与0的像素值的黑白数据。可以对二值化的图像数据的像素进行标记,以限定与例如用户的瞳孔、眉毛、嘴唇、牙齿、鼻子、耳朵和颧骨分别相对应的一组面部特征点。卷积滤波器可以用于根据二值化的图像来检测轮廓。轮廓的检测可以使标记加速。这种定义面部特征点的处理可以受到各种因素的影响,例如照明环境和姿势。因此,可以改变阈值以获得正确的结果。
根据本公开的实施例,识别模块220可以将从检测模块210接收到的至少一个特征加以组合,并且识别模块220可以使用已经充分预训练的模式识别器来获取与组合的特征相对应的模式。识别模块220可以使用电子设备101中包括的模式识别器(该模式识别器可被称为第一模式识别器)和已经按用户自己的特征附加地训练并且被包括在服务器106中的模式识别器来获取与至少一个组合的特征相对应的模式。模式的识别率还可以通过使用第一模式识别器和第二模式识别器获取模式来提高。识别模块220可以将获取的模式应用到模式识别算法,并基于结果值,识别模块220可以确定由该模式表示的用户意图。可以基于确定的用户意图来确定文本数据。输出控制模块230可以执行控制以将文本数据输出为音位、音节、短语、从句和句子。一般地,术语“特征”可以指某些输入数据或信息的可区分的方面、质量或性质,并且术语“模式”可以指一组个人特性和性质。模式可被组织为特征向量、特征空间以及分布图。当特征具有一个或多个值时,特征向量可以表示为d-维列向量。特征空间是指定义了特征向量的d-维空间。分布图是指通过使用在特征空间中的特征向量形成的点表现识别对象所获得的图。当特征可以相互不同时,从用于表达用户意图的图像数据中检测的特征的识别率可以增加。当输入具有相同或相似的特征时,针对来自相同类别的输入可以实现高识别率,并且当输入具有不同的特征时,针对来自不同类别的输入可以实现高识别率。模式识别的分类是指分别向具体类别分配目标对象。大部分模式识别技术涉及用于处理分类问题。处理分类问题的模式识别系统需要清楚地确定(例如使用整数标记)而不是模糊的结果。例如,分类需要根据从图像数据中获取的用户的嘴的形状来清楚地确定用户说“ah”还是“euh”。在模式识别领域中,回归(regression)是指概括(generalizing)分类。术语“概括”的意思可以是以下情况:可以通过模型从文本数据中获得有效结果,该模型是根据学习数据所获得的。可以通过从模式识别系统的输出的回归来获取使用错误标记估计的结果。换句话说,回归可以实现预测。模式识别领域中的术语“聚类”是指将对象的集合组织为多个有意义的组。来自聚类系统的输出是对象所属的类别。聚类可以分等级的处理,就好像生命形式被分类为物种。模式识别用一系列的原型(prototype)或基本(primitive)形式来表示目标对象。模式识别系统可以进行与对象相关的结构或语言描述。
根据本公开的实施例,在各种模式识别方法中,可以采用具有较高识别率的模式识别方法。模式识别方法可以包括模板匹配、统计方法、神经网络方法、以及结构方法。参照图3A描述模板匹配方案。准备了针对比较模式的模板(例如标准化的帧)。对要识别的模式进行归一化处理以使模式符合模板的要求。可以使用例如相关性或距离之类的相似度来识别模式。在该方法中,准备描述各种类型数据所属的类别的标准化模板是本质的。模板匹配相对简单并能够实现快速处理。然而,该模式识别方案可能对要处理的目标模式的特征变化来说敏感。如图3B所示,统计方案基于属于每个类别的模式集合的统计分布中生成的确定边界来确定要包括未知模式的类别。模式的统计模型是在类别中的概率密度函数。生成针对由统计模型组成的每个类别的概率密度函数的过程被称为“学习”。可以通过基于贝叶斯估计进行分类来识别模式。如图3C所示,神经网络方案在由处理单位(神经元)构成的网络对输入刺激(模式)进行响应的过程中对模式进行分类。在这种情况下,与每个模式相关的信息(知识)被存储为神经键的权重因子。神经网络方案能够学习、了解或训练,并且该方案可以将被训练好的神经网络视为黑盒。此外,只要存在足够的神经元的层,该方法就可以最小化在先知识并在理论上创建任何复杂的确定区域。如图3D所示,结构方案获取模式之间的结构相似性并基于获取的结构相似性来进行分类。与模式相关的信息(知识)按照形式语法(formal grammar)或类图(graph-like)的相关性描述来表示。结构方案用于描述对象以及用于对对象进行分类。该结构方案对根据相似的部分模式构建的复杂模式的分级描述进行归纳。
根据本公开的实施例,可以使用各种之前描述的模式识别算法之一以逐音节、单词或句子的方式来执行模式识别。可以由研发者的设计或处理器的性能来确定模式识别的单位。
根据本公开的实施例,电子设备的存储器可以包括训练数据库(DB)。训练DB可以用于模式识别算法(例如神经网络方案)以识别模式。训练DB可以包括被学习以提高模式识别算法的模式识别率的信息。与每个模式相对应的文本数据可以保留在训练DB中。训练DB可以存储通过在制造商之前收集的样本中充分训练模式识别算法(例如神经网络方案)所获得的学习信息,该样本是例如:关于用户的种族、年龄和性别、以及取决于用户说的语言的每个用户的嘴部或嘴部周围的部分的形状、用户眼部的形状、用户的相貌、或者用户眉毛的位置变化,以达到例如神经网络方案的目标识别率。训练DB可以存储通过电子设备的用户对模式识别算法(例如神经网络方案)进行充分的训练所获得的学习信息,以达到例如神经网络方案的目标识别率。
与其它模式识别算法相比,神经网络方案显示出了相对较高的识别率。根据本公开的实施例,可以使用神经网络方案。
神经网络方案包括隐藏层(该隐藏层包括输入节点)、中间节点和输出节点。识别率可以通过以下方式增加:在作为输入数据的嘴部、每个嘴部周围的部分、以及眼部的各种形状和眉毛的各种位置、以及面部肌肉的各种移动中来训练模式识别,同时实验性地调节中间节点和隐藏层的数量。除了最佳训练时间以外,神经网络方案还允许高级别的识别率。在图4A中示出了各种类型的神经网络算法。其中,考虑来到识别率和训练时间,多层感知或赢者通吃可以提供相对更好的结果。取决于输入模式的特征和目标识别率,多样化的选择是可能的。
现在描述基于神经网络方案的训练方法。神经网络方案具有向量输入和输出或者矩阵(matrical)权重因子。因此,神经网络方案需要矩阵计算。因此,随着处理器具有更高的性能,训练时间可以减少。基于神经网络方案的训练方法包括引导训练、自我训练和竞争训练。在训练神经网络时,引导训练需要输入x和目标值d的对。该对被称作训练模式对。一般的训练程序如下:
步骤1:设计适合于应用目的的神经网络架构
步骤2:将权重因子初始化
步骤3:输入训练模式对(x,d)以获取神经网络的输出y
步骤4:比较输出y与目标值d以产生误差
步骤5:向训练信号生成器输入误差,以计算权重因子中的变化Δw
步骤6:将权重因子改变Δw
步骤7:针对改变的权重因子(W+Δw)重复步骤3至6
步骤8:如果权重因子不再进一步变化,终止程序
如图4C所示,在训练神经网络时,自我训练不需要目标值。一般的自我训练的程序如下:
步骤1:设计适合于应用目的的神经网络架构
步骤2:将权重因子初始化
步骤3:输出训练模式x以获得神经网络的输出y
步骤4:向训练信号生成器输入输出y以计算权重因子中的变化Δw
步骤5:将权重因子改变Δw
步骤6:针对改变的权重因子(w+Δw)重复步骤3至5
步骤7:如果权重因子不再进一步变化,终止程序
除了在每个步骤中只有特定部分的权重因子发生改变而不是整体权重因子发生改变以外,竞争训练与引导训练程序相同。在这个意义上讲,使该过程容易,显著降低了训练神经网络所需要的时间。
根据本公开的实施例,制造商可以将识别模块包括在不同的设备中,以便实现目标识别率,该识别模块具有在用于传达用户意图的用户的各种模式下充分训练的神经网络方案。备选地,无论何时当电子设备的用户使用电子设备时,例如每次创建用于传达用户意图的模式时,可以在模式中训练神经网络方案,因此向用户提供更高的识别率。该训练针对用于后续使用的增长的识别率。因此,取决于输入模式的数量或长度或者负责识别模块的处理的处理器的处理能力,电子设备可以在输入模式下实时或间歇地训练。备选地,非实时处理是可能的,该非实时处理在用户的意图通知应用保持激活但处于空闲模式下的同时进行训练,或在应用程序终止或操作之前进行训练。
根据本公开的实施例,输出控制模块230可以将从识别模块220接收的文本数据转换成语音数据,并且输出控制模块230可以将经转换的语音数据输出为用户意图的结果。输出控制模块230可以使用TTS(文本到语音)方案来执行转换。TTS方案可以包括拼接合成(CS)方案和共振峰合成(FS)方案。如图5A所示,CS方案提供包括记录的语音数据或压缩的语音数据在内的最小数据库,或者提供包括预记录的单词和短语在内的语音数据库。语音数据库包含与语音合成所必需的语音相关的数据。在CS方案中,当从识别模块220接收文本数据并从语音数据库接收语音数据时,拼接TTS引擎可以生成音频信号。音频数据被转换成要通过图1的电子设备101的扬声器输出的电子音频信号,或者是通过呼叫线路上的另一方的电子设备的扬声器或耳机输出的电子音频信号。输出控制模块230可以包含将文本数据输出为语音所需要的一系列内置字典和发音规则。如图5B所示,与CS方案不同,FS方案提供用于语音合成的声学模型,而不是人类语音样本或类似的(压缩的)语音数据。在FS方案中,当从识别模块220接收文本数据库并且从参数存储器接收与语音有关的参数时,共振峰TTS引擎可以生成音频数据。音频数据可以被转换成电子音频信号,然后该电子音频信号可以通过电子设备的扬声器或通过呼叫线路上的另一方的电子设备的扬声器或耳机作为语音来输出。与FS方案相比,CS方案可以提供接近人类语音的输出结果,但是该方案需要更大容量的存储器以存储语音数据。FS方案在低存储器容量的意义上优于CS方案。然而,与CS方案相比,输出结果略微远离人类语音。随着半导体设计和处理技术的发展,FS将会产生接近人类语音的质量更好的声音输出。在不考虑为了精致的语音输出结果需要在存储器中存储更多的数据的事实的情况下,读取并将语音数据合成为语音输出的方式(就像CS方案一样)将是优选的。当向音频输出端发送具有数字声波形式的语音信号时,输出控制模块230可以通过电子设备101的扬声器或者另一方的电子设备104的扬声器或耳机向另一方的电子设备104传输不使用语音的作为语音数据接收的用户意图。当在电子设备在呼叫的线路上的同时向电子设备的发送端传输语音数据时,输出控制模块230可以经由语音编解码器、发送端的天线、以及与电子设备连接的基站和蜂窝网络向另一方的电子设备104的扬声器或耳机发送语音数据。输出控制模块230可以使用滤波器(例如低通滤波器、高通滤波器、或带通滤波器)来对语音数据执行滤波,使得语音数据更接近人类语音。例如,可以设计滤波器的滤波器参数以产生各种语音效果,例如使得用户的语音听上去有趣,就像他吸入了氦气,或者是变化的声调,例如男性声调或高的女性声调。
当使用模板匹配或统计、神经网络、或者结构方案来确定用户的意图时,可能会出现误差。例如,在输入背离了预测的用户输入模式的情况下,神经网络方案可以产生与用户意图不同的识别结果。在这样的情况下,不应当在没有用户确认的情况下向另一方传达该识别结果。输出控制模块230可以使作为用户意图的结果的语音数据输出通过电子设备101的显示器150显示为文本数据,或者通过电子设备101的扬声器或连接到电子设备101的耳机来输出,使得在向另一方的电子设备发送语音数据之前,用户可以识别用户意图的结果。当在显示器150上显示文本数据的同时由用户选择了文本数据时,输出控制模块230可以将选择的文本数据转换成语音数据。当在显示器150上显示文本数据的同时修改文本数据时,输出控制模块230可以向识别模块220发送修改的结果,以更新训练DB。
图6是示出了根据本公开的实施例的从电子设备输出语音数据的操作的流程图600。参照图6,检测模块210可以实时或在每个预定时间上接收用于传达用户意图的图像数据(操作610)。图像数据可以由相机模块180来获取。检测模块210将图像数据存储在存储器130中,并且可以使用图像处理算法来预处理(例如噪声移除、信号放大、或灰度级别归一化)图像数据(操作620)。检测模块210可以从预处理的图像数据中检测至少一个特征,例如嘴的形状、嘴周围的形状、改变的相貌(面部肌肉的运动)、眼部形状、眨眼、或眉毛位置的变化。检测模块210可以向识别模块220发送至少一个检测到的特征。
当接收特征时,识别模块220可以将至少一个特征结合到模式中(操作630)。
识别模块220可以将获取的模式应用到模式识别算法(例如神经网络方案),以确定与模式相对应的文本数据(音素、音节、短语、从句或句子)(操作640)。识别模块220可以向输出控制模块230发送所确定的与用户的意图相对应的文本数据。
在从识别模块220接收文本数据时,输出控制模块230可以使用TTS方案将文本数据转换成语音数据(操作650)。
输出控制模块230可以执行控制,以通过扬声器、耳机或另一方的电子设备来输出经转换的语音数据(操作660)。可选的,在操作660处,输出控制模块230可以执行控制,以向另一方的电子设备发送与用户意图相对应的语音数据,使得取决于用户进行的设置,当接收来自用户的输出确认命令或在不需要用户的确认的情况下,可以通过在呼叫线路上的另一方的电子设备来输出语音数据。例如,当在用户不方便的同时用户有呼入呼叫时,用户可以接受呼叫并在相机模块前面以低语音与另一方交谈,或者可以在不说出的情况下与另一方通信。输出控制模块230可以通过电子设备的扬声器输出语音数据向面对用户的另一方传达用户意图。例如,当用户具有语言障碍或处在他不能说话的情况下时,电子设备可以通过相机模块接收用户的嘴的形状、嘴周围的形状、眼部形状、眉毛位置或相貌,并且输出与包括接收的嘴的形状或相貌在内的特征相对应的语音数据,从而实现与另一方通信。
在操作660处,输出控制模块230可以执行控制,以在显示器150上显示与语音数据相对应的文本数据。用户可以根据在显示器150上显示的文本数据来识别作为用户意图的结果的语音数据是否与用户最初意图的相一致。输出控制模块230可以执行控制,以当接收来自用户的输出确认命令时向另一方的电子设备发送语音数据。语音数据可以从呼叫线路上的另一方的电子设备输出。输出控制模块230可以执行控制,以取决于用户进行的设置,在没有用户确认的情况下向另一方的电子设备发送语音数据。
图7是示出了根据本公开的实施例的从电子设备输出语音数据的操作的流程图700。具体地,图7示出了当电子设备101是移动电话时由电子设备101执行的语音数据输出操作。
当电子设备101接收呼叫连接请求或呼叫请求时,处理器120在显示器150上显示分别用于选择正常模式、礼貌模式、以及呼叫拒绝模式的按钮801、802和803,如图8A所示。在正常模式下,电子设备101的用户可以使用电子设备101与呼叫线路上的另一方执行语音通话。根据本公开的实施例,在礼貌模式下,电子设备101的用户可以使用由相机模块获取的图像数据来输出语音数据。本文中使用的术语“呼叫拒绝”的意思可以是用户可以拒绝来自另一方的电子设备的呼入呼叫的命令。如图8A所示,在接收呼叫连接请求或呼叫请求时,电子设备101可以在显示器150上显示另一方的电话号码、图片或图像805。
在操作720处,当用户选择按钮802时,处理器120执行礼貌模式,以允许电子设备101的用户执行与另一方的语音通话。在显示器150包括触摸屏201的情况下,按钮801、802和803可以通过用户的触摸来选择。在操作720处,用户可以选择按钮810以执行正常模式。当正在执行正常模式时,或者当通过电子设备101的麦克风接收到的语音数据在预定时间内保持在不高于基准值的值上时,电子设备101可以自动切换到礼貌模式。当电子设备101切换到礼貌模式时,可以在电子设备101的显示器150上显示可见的指示811(例如指示在礼貌模式下电子设备101在呼叫的线路上的文本或图标),或者可以使用不可见的方式来通知在礼貌模式下电子设备101在呼叫的线路上(例如使用光线、振动或气味)。当电子设备101切换到礼貌模式时,可以激活相机模块和语音输出模块170。
在操作730处,检测模块210可以实时或在每个预定的时间处接收用于传达用户意图的图像数据。检测模块210可以通过相机模块来获取图像数据。
在操作740处,检测模块210可以在存储器130中存储图像数据,并且可以使用图像处理算法对图像数据进行预处理(例如噪声移除、信号放大、以及灰度级别归一化)。检测模块210可以根据预处理的图像数据来检测至少一个特征,例如用户的嘴的形状、嘴周围的形状、用户相貌的变化(面部肌肉的运动)、用户的眼部形状、眨眼、或用户眉毛的位置变化。检测模块210可以向识别模块220发送检测到的特征。
在操作750处,识别模块220可以将接收的特征组合到一个模式中。
在操作760处,识别模块220可以通过将模式应用到模式识别算法(例如神经网络方案)来确定与模式相对应的文本数据(音素、音节、短语、从句、或句子)。识别模块220可以向输出控制模块230发送所确定的与用户的意图相对应的文本。
在操作770处,输出控制模块230可以将TTS方案应用到接收的文本数据,以将文本数据转换成语音数据。
在操作780处,输出控制模块230可以执行控制,以通过电子设备101的扬声器或耳机或者通过另一方的电子设备来输出经转换的语音数据。
此外,在操作780处,如图8B所示,输出控制模块230可以执行控制,以在电子设备的显示器150上显示与语音数据相对应的文本数据。用户可以通过检查在显示器150上显示的文本来识别作为用户意图的识别结果的语音数据是否与用户最初意图相一致。输出控制模块230可以执行控制,以当接收来自用户的输出确认命令时向另一方的电子设备发送语音数据。输出控制模块230可以执行控制,以取决于用户进行的设置,在不需要用户确认的情况下向另一方的电子设备发送语音数据。图8B示出了由用户获取的并在显示器150上显示的与语音数据相对应的文本数据被确定为说“下午3点剧场见”的文本的示例。在转换成语音数据之前,确定的文本数据在显示器150上可见地显示。因此,用户可以根据在显示器150上显示的文本数据来识别他的意图是否通过电子设备101显示为语音数据。备选地,处理器120可以执行控制,以防止在用户根据在显示器150上显示的文本数据来识别是否从电子设备101输出他的意图之前,通过电子设备101输出语音数据。在电子设备101的显示器150具有触摸屏201的情况下,处理器120可以执行控制,以在显示器150上生成确认按钮813,并当通过用户触摸选择确认按钮813时输出语音数据。处理器120可以执行控制,以通过根据相机模块180获取的图像数据识别作为命令的预定手势,来输出或不输出语音数据。这样的手势可以包括(但不限于):眨眼(用户的任意一个或两个眼睛)、手指手势、触摸屏幕、点头、或摇头。
图9是示出了根据本公开的实施例的从电子设备输出语音数据的操作的流程图900。具体地,图9示出了根据本公开的实施例的当由位于远处的服务器106执行与电子设备101的语音输出模块170相对应的功能时操作来自图1的电子设备101的语音数据的示例操作。
在操作910处,当电子设备101从另一方的电子设备接收呼叫连接请求时,处理器120在显示器150上显示分别用于选择正常模式、礼貌模式和呼叫拒绝模式的按钮801、802和803,如图8A所示。
在操作920处,当用户选择按钮802时,处理器120执行礼貌模式。并且执行电子设备101与另一方的电子设备之间的语音呼叫。在显示器150包括触摸屏的情况下,可以通过用户在屏幕上的触摸来选择按钮801、802和803。在操作920处,当用户选择按钮801以执行正常模式时,或者当通过电子设备101的麦克风接收的语音数据在预定的时间内保持在不高于基准值的值时,电子设备101可以自动切换到礼貌模式。当电子设备101切换到礼貌模式时,相机模块180和语音输出模块170可以进入激活模式。
在操作930处,语音输出模块170可以实时或在每个预定的时间处接收用于传递用户意图的图像数据。语音输出模块170可以使用相机模块180来获取图像数据。
在操作940处,语音输出模块170向远程服务器106发送图像数据,以请求服务器106并发送识别用户意图的请求。
在操作950处,服务器106从电子设备101接收请求和图像数据。
在操作951处,服务器106可以在存储器130中存储图像数据,并且可以对图像数据进行预处理(例如噪声移除、信号放大、或灰度级别归一化)。服务器106可以根据预处理的图像数据来检测至少一个特征,例如:嘴的形状、嘴周围的形状、相貌(面部肌肉的运动)、眼部形状、眨眼、或眉毛的位置变化。
在操作952处,服务器106可以将至少一个特征组合到模式中。
在操作953处,服务器106可以将获取的模式应用到模式识别算法(例如神经网络方案)以确定与模式相对应的文本数据(音素、音节、短语、从句、或句子)。
在操作954处,服务器106向电子设备101发送确定的文本数据。
在操作960处,电子设备101接收响应于识别用户意图的请求的与用户意图的识别结果相对应的发送的文本数据。
在操作970处,电子设备101的处理器120可以使用TTS方案将文本数据转换成语音数据。
在操作980处,处理器120可以执行控制,以通过电子设备的扬声器或耳机,或者通过在与电子设备的呼叫线路上的另一方的电子设备输出经转换的语音数据。电子设备101的处理器120可以向另一方的电子设备发送通过对语音数据进行语音调制所获取的数据。例如,电子设备101的处理器120可以将用户语音的频率或音调改变为各种不同的语调,例如低的语调、高的语调、女性语调、成年人语调、或孩子的语调。
此外,在操作980处,处理器120可以执行控制,以在电子设备的显示器150上显示与语音数据相对应的文本数据,如图8B所示。用户可以通过检查在显示器150上显示的文本数据812来识别语音数据(用户意图的识别结果)是否与用户初始意图相一致。处理器120可以执行控制,以向在呼叫线路上的另一方的电子设备发送语音数据,使得当从用户输入输出确认命令时,可以通过另一方的电子设备输出语音数据。处理器120可以执行控制,以取决于用户进行的设置,在不需要用户确认的情况下向另一方的电子设备发送语音数据。备选地,处理器120可以执行控制,以在用户根据在显示器150上的文本数据812识别是否从电子设备101输出他的意图之前,防止电子设备101输出语音数据。
此外,在操作930处,电子设备101可以向服务器106发送压缩形式的语音数据,并且在操作950处,服务器106可以接收并解压缩该压缩语音数据。此外,在操作953处,服务器106可以向电子设备101发送与用户意图的识别结果相对应的压缩形式的文本数据,并且在操作960处,电子设备101可以对该压缩文本数据进行解压缩。
电子设备101的处理器120可以对从相机模块180获得的图像数据进行预处理(例如噪声移除、滤波、或压缩),并且处理器120可以选择性地以原始数据或压缩图像数据的形式在存储器130中存储预处理的图像数据。预处理可以由工作存储器(例如随机存取存储器(RAM)或缓冲存储器)来执行。可以通过通信接口160向预定的或随机分配的服务器106传递以压缩数据形式存储的图像数据。处理器120可以执行控制,以在不需要预处理的情况下经由电子设备的通信接口160向服务器106发送图像数据。
图10是示出了根据本公开的实施例的服务器106的配置的框图。
参照图10,服务器106可以包括通信模块1010、处理器1020和存储器1030。处理器1020还可以被称作控制器。
通信模块1010与电子设备101通信。通信模块1010从电子设备101接收识别用户意图的请求以及与识别请求相对应的语音数据。语音数据可以是压缩的或预处理的,并且可以接收压缩的或预处理的语音数据。通信模块1010向电子设备101发送用户意图的识别结果,以及与识别结果相对应的文本数据或语音数据。可以在发送之前对文本数据或语音数据进行压缩。
处理器1020可以具有与电子设备101的语音输出模块170的功能类似的功能。因此,当接收没有进行预处理的图像数据时,处理器1020可以对该图像数据进行预处理。备选地,在从电子设备101接收预处理的图像数据时,处理器1020可以在不需要对图像数据进行预处理的情况下根据图像数据来检测至少一个特征。处理器1020可以将检测到的至少一个特征组合到模式中,可以将模式识别算法应用到获取的模式以确定文本数据,并且可以向电子设备101发送确定的文本数据。处理器1020可以执行控制,以通过TTS方案将确定的文本数据转换成语音数据并向电子设备101发送转换的语音数据。处理器1020可以对语音数据进行语音调制,并且向电子设备101发送语音调制的语音数据。例如,处理器1020可以将用户语音的频率或音调改为各种不同的语调,例如低的语调、高的语调、女性语调、成年人语调、或孩子的语调。
存储器1030存储从电子设备101接收的语音数据。存储器1030还可以存储用于语音识别的预定模式信息以及电子设备101的用户额外学习的模式信息。
电子设备101可以通过使用TTS转换单元的语音合成来生成语音数据,并且根据需要,电子设备101可以选择性地执行语音调制过程。根据本公开的实施例,当用户不能通过讲话来向另一方传达他的意图时,用户可以在礼貌模式中做他能够在正常模式下做的完全相同的操作。与正常模式相比,礼貌模式需要的附加信号处理可以导致比正常模式更多的处理延时。可以通过提高电子设备101的处理或通信性能,或者通过具有例如分布式信号处理的备份服务器来处理该处理延时。
服务器106可以通过在礼貌模式下充分训练的模式识别过程来确定与用户意图相对应的文本数据。服务器106可以在从电子设备101接收的图像数据中附加训练模式识别过程,以向模式识别过程反应每个用户的独特特征,因此提高模式识别率。针对附加模式学习,当电子设备101处于礼貌模式时,服务器106可以使用从电子设备101接收的图像数据来内部执行附加神经网络方案过程。电子设备101可以执行附加模式学习过程,并且电子设备101可以向服务器106传达学习模式的参数(例如神经网络方案所学习的权重矩阵值),使得可以在后面的模式识别中使用学习模式。可以存在能够取决于电子设备101的计算能力和网络条件而变化的各种类型的模式学习。例如,如果电子设备101的计算能力容许,可以由电子设备101来执行一些预处理步骤,而可以由服务器106执行其他步骤(例如需要更高的计算能力的步骤)。当电子设备101的剩余电池时间不足时,与通信网络相连接的服务器106可以执行更多的处理步骤。当电子设备101和服务器106与付费通信网络连接时,电子设备101可以向服务器106发送最小量的压缩图像信息,使得服务器106处理最必要的处理步骤并以压缩的语音数据或文本数据的形式经由网络向电子设备101发送处理的结果。当电子设备101与免费通信网络(例如免费Wi-Fi网络或蓝牙网络)连接时,电子设备101可以具有针对信号处理的各种选择。本公开所属领域的普通技术人员应当想到的是:可以在各种条件下对上述示例技术进行各种改变,并且存在用于在礼貌模式下提供呼叫服务的各种应用。
可以在显示器150上显示已经在电子设备101的礼貌模式下从图像数据中检测出的与用户意图相对应的文本数据812的一些候选,并且用户可以从候选中选择将要转换成语音数据的文本数据812。例如,当用户说出了不是用户语言的另一种语言时,可以针对每个音节额外检测嘴唇形状、嘴部周围肌肉的运动、眉毛的位置。除嘴部周围的肌肉以外的面部肌肉的运动、整体相貌、或者根据需要检测手指或手势,并且可以在显示器150上显示与用户意图相对应的至少一个文本数据候选。在至少一个文本数据候选中,用户选择的一个候选可被转换为语音数据。可以通过各种方式来执行选择,例如,通过眨动任何一只或两只眼睛、目语(winking)、用手指作出预定手势、触摸屏幕、点头、或摇头。可以针对每个音节、单词、短语、从句或段落来重复显示并选择与用户意图相对应的文本数据812。
图11是示出了根据本公开的实施例的电子设备1101的配置的框图1100。电子设备1101可以包括图1中示出的电子设备101的全部或部分。参照图11,电子设备1101可以包括一个或多个应用处理器(AP)1110、通信模块1120、订户识别模块(SIM)卡1124、存储器1130、传感器模块1140、输入设备1150、显示器1160、接口1170、音频模块1180、相机模块1191、电源管理模块1195、电池1196、指示器1197和电机1198。
AP 1110可以通过运行操作系统或应用程序来控制连接到AP 1110的多个硬件或软件组件,并且还可以处理或计算各种数据,包括多媒体数据。例如,AP 1110可以通过系统级芯片(SoC)来实现。根据本公开的实施例,AP 1110还可以包括图形处理单元(GPU)(未示出)。
通信模块1120(例如图1的通信接口160)可以与连接到其它电子设备(例如图1的电子设备104或服务器106)的电子设备1101(例如图1的电子设备101)执行数据通信。根据本公开的实施例,通信模块1120可以包括蜂窝模块1121、Wi-Fi模块1123、BT模块1125、GPS模块1127、NFC模块1128、以及射频(RF)模块1129。
蜂窝模块1121可以通过通信网络(例如LTE、LTE-A、CDMA、WCDMA、UMTS、WiBRO、或GSM网络)来提供语音呼叫、视频呼叫、文本服务或互联网服务。例如,蜂窝模块1121可以通过使用SIM(例如SIM卡1124)在通信网络的电子设备1101上执行区分和认证操作。根据本公开的实施例,蜂窝模块1121可以执行能够由AP1110提供的至少一部分功能。例如,蜂窝模块1121可以执行至少一些多媒体控制功能。
根据本公开的实施例,蜂窝模块1121可以包括通信处理器(CP)。蜂窝模块121可以在例如SoC中实现。根据本公开的实施例,虽然在图11中蜂窝模块1121(例如通信处理器)、存储器1130或电源管理模块1195与AP 1110分开设置,但是AP 1110可以被配置为至少包括一些上述组件(例如蜂窝模块1121)。
根据本公开的实施例,AP 1110或蜂窝模块1121(例如通信处理器)可以加载从与其相连接的非易失性存储器或其它组件接收的命令或数据,并且处理加载的命令或数据。AP 1110或蜂窝模块1121可以将从其它组件接收的数据或由其它组件生成的数据存储到非易失性存储器中。
Wi-Fi模块1123、BT模块1125、GPS模块1127和NFC模块1128可以包括用于例如处理通过模块通信的数据的处理器。虽然在图11中,蜂窝模块1121、Wi-Fi模块1123、BT模块1125、GPS模块1127和NFC模块1128在它们的相应分离的模块中示出,蜂窝模块1121、Wi-Fi模块1123、BT模块1125、GPS模块1127和NFC模块1128中至少一部分(例如两个或两个以上)可被包括在一个集成芯片(IC)或IC封装中。例如,可以在单个SoC中实现分别与蜂窝模块1121、Wi-Fi模块1123、BT模块1125、GPS模块1127和NFC模块1128(例如通信处理器与蜂窝模块121相对应,并且WiFi处理器与WiFi模块123相对应)相对应的至少一些处理器。
例如,RF模块1129可以传输射频(RF)信号。例如,RF模块1129可以包括收发信机、功率放大器模块(PAM)、频率滤波器、或低噪放大器(LNA)(未示出)。蜂窝模块1121、Wi-Fi模块1123、BT模块1125、GPS模块1127和NFC模块1128共享单个RF模块1129,蜂窝模块1121、Wi-Fi模块1123、BT模块1125、GPS模块1127和NFC模块1128中至少一个可以通过单独的RF模块来传输RF信号。
SIM卡1124可以包括订户识别模块,并且SIM卡1124可以插入在电子设备的预定部分中形成的槽中。SIM卡1124可以包括唯一标识信息(例如集成电路卡标识符(ICCID))或订户信息(例如国际移动订户身份(IMSI))。
存储器1130(例如图1的存储器130)可以包括内部存储器1132或外部存储器1134。内部存储器1132可以包括例如易失性存储器(例如,动态RAM(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等等)和非易失性存储器(例如一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模型ROM、闪存ROM、与非(NAND)闪存、以及或非(NOR)闪存)。
根据本公开的实施例,内部存储器1132可以是固态存储器(SSD)。外部存储器1134可以包括闪存驱动器,例如高密度闪存(CF)、安全数字(SD)、微型SD、迷你SD、极限数字(xD)或记忆棒。外部存储器1134可以经由各种接口在功能上和/或以物理方式连接到电子设备1101,电子设备1101还可以包括存储设备(或存储介质),例如硬盘驱动器。
传感器模块1140测量物理量或检测电子设备1101的操作状态,并且传感器模块1140可以将测量的或检测的信息转换成电信号。传感器模块1140可以包括例如:手势传感器1140A、陀螺仪传感器1140B、气压传感器1140C、磁传感器1140D、加速度传感器1140E、握力传感器1140F、接近度传感器1140G、颜色传感器1140H(例如红、绿、蓝(RGB)传感器)、生物特征传感器1140I、温度/湿度传感器1140J、照度传感器1140K、紫外线(UV)传感器1140M。附加地或备选地,传感器模块1140可以包括电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外线(IR)传感器、虹膜传感器、或指纹传感器(图中未示出)。传感器模块1140还可以包括用于控制传感器模块1140中包括的至少一个传感器的控制电路。
输入设备1150可以包括触摸面板1152、(数字)笔传感器1154、按键1156、或超声波输入设备1158。触摸面板1152可以使用例如电容式、电阻式、红外线或超声波方法中至少一种。此外,触摸面板1152还可以包括控制电路。触摸面板1152还可以包括触觉层,以向用户提供触觉响应。
例如,(数字)笔传感器1154可以通过与如何接收用户的触摸输入相同或相似的方式来实现,或通过使用单独的用于识别的板来实现。按键1156可以包括例如物理按钮、光学键、或键区。超声波输入设备1158可以通过使用生成超声波信号的输入工具并启动电子设备1101,以通过感测针对麦克风118的超声波信号,由此实现无线识别。根据本公开的实施例,电子设备1101可以通过通信模块520,从例如计算机或服务器的外部设备接收用户输入。
显示器1160(例如图1的显示器150)可以包括面板1162、全息图设备1164、或投影仪1166。面板1162可以是例如液晶显示器(LCD)、有源矩阵有机发光二极管(AMOLED)等等。面板1162可被实现为例如柔性的、透明的或可穿戴的。面板1162和触摸面板1152可以被配置为一个单元。全息图1164可以通过使用光的干涉在空气中显示三维(3D)图像(全息图)。投影仪1166可以通过在屏幕上投影光来显示图像。例如,屏幕可以位于电子设备1101的内部或外部。根据本公开的实施例,显示器1160还可以包括用于控制面板1162、全息图设备1164或投影仪1166的控制电路。
接口1170可以包括例如高清多媒体接口(HDMI)1172、USB 1174、光学接口1176或D-超小型(D-sub)1178。例如,接口1170可被包括在图1中示出的通信接口160中。附加地或备选地,接口1170可以包括移动高清链路(MHL)接口、SD卡/多媒体卡(MMC)接口、或红外线数据协会(IrDA)标准接口。
音频模块1180可以执行与将声波和音频信号转换为电信号并且可以将电信号转换成声波和音频信号有关的各种过程(例如编码或解码)。例如,音频模块1180的至少一些组件可被包括在图1中示出的输入/输出接口140中。音频模块1180可以处理通过扬声器1182、接收机1184、耳机1186或麦克风1188输入或输出的声音信息。
相机模块1191可以是用于捕捉静止图像和视频的设备,并且根据本公开的实施例可以包括至少一个图像传感器(例如前部传感器或后部传感器)、镜头、图像信号处理器(ISP)、或闪光灯(例如LED或氙灯)。
电源管理模块1195可以管理电子设备1101的电源。虽然未示出,电源管理模块1195可以包括例如电源管理IC(PMIC)、充电器IC、或电池或燃料计。
PMIC可以安装在例如IC或SOC上。充电方法可以分为有线和无线充电方法。例如,充电器IC可以向电池充电,并且可以防止从充电器到电池的过压或过流。根据本公开的实施例,充电器IC可以用于包括针对有线充电方法和无线充电方法中的至少一个。无线充电方法的示例可以包括磁共振方法、磁感应方法、或基于电磁波方法,并且可以增加用于无线充电的附加电路(例如线圈回路、谐振电路、整流器等)用于无线充电。
电池量表可以测量电池1196的剩余量、或者在充电期间测量电池的电压、电流或温度。电池1196可以保存或生成电力,并且使用保存或生成的电力向电力设备1101供电。例如,电池1196可以包括充电电池和/或太阳能电池。
指示器1197可以指示电子设备1101或者其一部分(例如AP 1110)的具体状态,具体状态包括例如启动状态、消息状态或充电状态。电机1198可以将电信号转换成机械振动。尽管图中未示出,电子设备1101可以包括用于移动TV支持的处理设备(例如GPU)。用于移动TV支持的处理设备可以根据标准来处理媒体数据,标准是例如数字多媒体广播(DMB)、数字视频广播(DVB)、或媒体流。
电子设备的每个上述元件可以包括一个或多个组件,并且对应元件的名称可以根据电子设备的类型而变化。根据本公开的各种实施例的电子设备可以包括上述元件中的至少一个,并且可以排除其中一些元件,或者还包括其它附加元件。一些元件可以耦合成单个实体,但是该实体可以执行与这些组件相同的功能。
术语“模块”可以是指包括硬件、软件和固件的一个或多个组合在内的单元。术语“模块”可以与单元、逻辑、逻辑块、组件、或电路交换使用。模块可以是集成的组件的最小单元或其一部分。模块可以是用于执行一个或多个功能的最小单元或其一部分。模块可以用机械方式或电子方式实现。例如,模块可以包括用于执行一些操作的专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)、和可编程逻辑阵列(PLA)中的至少一项,这些设备都是已知的或将来会开发的。
例如,设备的至少一部分(例如模块或其功能)或方法的至少一部分(例如操作)可以按编程模块的形式实现为存储在非瞬时性计算机可读存储介质中的指令。当一个或多个处理器(例如处理器120)执行指令时,可以导致一个或多个处理器可以执行对应功能。计算机可读存储介质可以是例如存储器130。例如,编程模块的至少一部分可以通过处理器120来实现。编程模块的至少一部分可以例如包括用于执行至少一个功能的模块、程序、例程、指令集或过程。
计算机可读存储介质可以包括被配置为存储并执行程序指令(例如编程模块)的硬件设备,例如磁性介质(例如,硬盘、软盘和磁带)、光学介质(例如压缩光盘只读存储器(CD-ROM)和数字多功能盘(DVD))、磁光介质(例如光磁软盘(floptical disk))、ROM、RAM、闪存等等。程序指令的示例可以包括能够由计算机使用解释器执行的机器语言代码以及高级语言代码。上述硬件设备可以被配置为作为一个或多个软件模块来操作,以执行根据本公开的各种实施例的操作,并且反之亦然。
根据本公开的各种实施例的模块或编程模块中的任意一个可以包括至少一个上述元件,可以不包括某些上述元件,或者还可以包括其它附加元件。根据本公开各种实施例的模块、编程模块或其它元件执行的操作可以顺序、并行、重复或启发式地执行。此外,某些操作可以按照另一顺序执行或者可以省略,或者可以添加其它附加操作。
根据本公开的实施例,存储在存储介质中的命令可以被配置为当由至少一个处理器执行时,允许至少一个处理器执行至少一个操作。至少一个操作可以包括通过电子设备(例如电子设备101)接收用户的生物特征信号(例如脉冲波信号)的操作、基于至少该生物特征信号来识别用户是否携带电子设备的操作、基于用户是否携带电子设备的信息来独立地操作与电子设备功能地连接的多个输入输出设备(例如显示器、扬声器、麦克风)的操作(例如开启/关闭)。
如根据上述描述可以明显看出的,根据本公开的各种实施例,用于输出语音的电子设备、服务器和方法能够实现在用户不能说话的情况下将电话的用户意图输出为语音。
提供本文中的实施例仅仅为了更好的理解本公开,并且本公开不应当限于此。本领域技术人员应当设想到,在不脱离本由下列权利要求限定的本公开的范围的前提条件下,可以对实施例进行形式上或细节上的各种修改。
Claims (18)
1.一种电子设备,包括:
相机模块,被配置为在接收呼叫连接请求期间获取用户的图像数据;
控制器,被配置为:
从在接收所述呼叫连接请求期间由所述相机模块获取的所述图像数据中检测与所述用户的意图相对应的至少一个特征;
从检测到的至少一个特征来生成组合的特征以用于对所述用户的意图进行识别;
基于所述组合的特征与基于预训练的模式的训练的特征之间的差异获取模式;
确定与获取的模式相对应的文本数据;以及
将所述文本数据的至少一部分转换为语音数据;以及
输出模块,被配置为输出所述语音数据,
其中,所述控制器还被配置为在显示器上显示与所述语音数据相对应的所述文本数据,以允许所述用户在所述语音数据被输出之前识别要输出的所述语音数据,
其中,所述控制器被配置为对所述图像数据进行预处理并从预处理的图像数据中检测所述至少一个特征,并且其中所述至少一个特征包括嘴部的形状和嘴巴周围部分的形状。
2.根据权利要求1所述的电子设备,其中,所述控制器被配置为对所述图像数据进行预处理并且从预处理的所述图像数据中检测至少一个特征,以及所述至少一个特征包括眼部的形状、眉毛的位置、相貌的变化、或眨眼。
3.根据权利要求1所述的电子设备,其中,所述控制器被配置为将所述获取的模式应用到预训练的模式识别算法,以确定与所述获取的模式相对应的文本数据。
4.根据权利要求1所述的电子设备,其中,所述电子设备还包括输出模块,所述输出模块包括:通信模块,向执行与所述电子设备的呼叫连接的另一个电子设备发送所述语音数据。
5.一种用于输出电子设备中的语音数据的方法,所述方法包括:
获取在接收呼叫连接请求期间用户的图像数据;
从在接收所述呼叫连接请求期间由相机模块获取的所述图像数据中检测与所述用户的意图相对应的至少一个特征;
从检测到的至少一个特征来生成组合的特征以用于对所述用户的意图进行识别;
基于所述组合的特征与基于预训练的模式的训练的特征之间的差异获取模式;
确定与获取的模式相对应的文本数据;
将所述文本数据的至少一部分转换为语音数据;以及
输出所述语音数据,
其中,所述方法还包括在显示器上显示与所述语音数据相对应的所述文本数据,以允许所述用户在所述语音数据被输出之前识别要输出的所述语音数据,
其中,所述方法还包括对所述图像数据进行预处理并从预处理的图像数据中检测所述至少一个特征,并且其中所述至少一个特征包括嘴部的形状和嘴巴周围部分的形状。
6.根据权利要求5所述的方法,其中,所述方法还包括向执行与所述电子设备的呼叫连接的另一个电子设备发送所述语音数据。
7.根据权利要求5所述的方法,其中,所述方法还包括:从另一个电子设备接收所述呼叫连接请求,并在选择了礼貌模式时执行所述相机模块。
8.根据权利要求5所述的方法,其中,基于所述图像数据的至少一部分来确定所述用户的意图。
9.根据权利要求5所述的方法,其中,基于从所述图像数据检测到的至少一个特征来确定所述用户的意图。
10.根据权利要求9所述的方法,其中,基于从所述至少一个特征获取的至少一个模式来确定所述用户的意图。
11.一种服务器,包括:
通信模块,从电子设备接收在接收呼叫连接请求期间由相机模块获取的图像数据;以及
控制器,被配置为:
从所接收的在接收所述呼叫连接请求期间由所述相机模块获取的图像数据中检测与用户的意图相对应的至少一个特征;
从检测到的至少一个特征来生成组合的特征以用于对所述用户的意图进行识别;
基于所述组合的特征与基于预训练的模式的训练的特征之间的差异获取模式;
确定与获取的模式相对应的文本数据或者将所述文本数据的至少一部分转换成语音数据;以及
通过所述通信模块向所述电子设备发送所述文本数据或所述语音数据,
其中,与所述语音数据相对应的所述文本数据被显示在所述电子设备处的显示器上,以允许所述用户在所述语音数据被输出之前识别要输出的所述语音数据,
其中,所述控制器被配置为对所述图像数据进行预处理并从预处理的图像数据中检测所述至少一个特征,并且其中所述至少一个特征包括嘴部的形状和嘴巴周围部分的形状。
12.根据权利要求11所述的服务器,其中,所述控制器被配置为:对所述图像数据进行预处理,以及从预处理的所述图像数据中检测所述至少一个特征,以及所述至少一个特征包括:眼部的形状、眉毛的位置、相貌的变化、或眨眼。
13.根据权利要求11所述的服务器,其中,所述控制器被配置为:将所述获取的模式应用到预训练的模式识别算法,以确定所述文本数据与所述获取的模式相对应。
14.一种电子设备,包括:
相机模块,被配置为在接收呼叫连接请求期间获取用户的图像数据;
控制器,被配置为:
向服务器发送由所述相机模块获取的图像数据;
从所述服务器接收与所述图像数据相对应的文本数据或语音数据;以及
控制与所述图像数据相对应的所述语音数据的输出;以及输出模块,被配置为输出所述语音数据,其中:
接收到的文本数据是其中从在接收所述呼叫连接请求期间由所述相机模块获取的图像数据中检测到与所述用户的意图相对应的至少一个特征的数据,
将检测到的用于识别所述用户的意图的至少一个特征处理为组合的特征,以及
基于所述组合的特征与基于预训练的模式的训练的特征之间的差异获取模式,其中:
确定接收到的文本数据与获取的模式相对应,以及
其中,所述文本数据的至少一部分被转换为所述语音数据,并且其中,所述控制器还被配置为在显示器上显示与所述语音数据相对应的所述文本数据,以允许所述用户在所述语音数据被输出之前识别要输出的所述语音数据;
其中,所述控制器被配置为对所述图像数据进行预处理并从预处理的图像数据中检测所述至少一个特征,并且其中所述至少一个特征包括嘴部的形状和嘴巴周围部分的形状。
15.根据权利要求14所述的电子设备,其中:
所述输出模块包括:扬声器,被配置为输出所述语音数据,以及
所述输出模块包括:通信模块,被配置为向执行与所述电子设备的呼叫连接的另一个电子设备发送所述语音数据。
16.一种用于输出电子设备中的语音数据的方法,所述方法包括:
使用相机模块来获取在接收呼叫连接请求期间的用户的图像数据;
向服务器发送在接收所述呼叫连接请求期间由所述相机模块获取的所述图像数据;
从所述服务器接收与所述图像数据相对应的文本数据或语音数据;以及
输出所述语音数据,其中:
接收到的文本数据是其中从在接收所述呼叫连接请求期间由所述相机模块获取的图像数据中检测到与所述用户的意图相对应的至少一个特征的数据,
将检测到的用于识别所述用户的意图的至少一个特征处理为组合的特征,以及
基于所述组合的特征与基于预训练的模式的训练的特征之间的差异获取模式,其中:
确定接收到的文本数据与获取的模式相对应,以及
其中,所述文本数据的至少一部分被转换为所述语音数据,并且其中,所述方法还包括在显示器上显示与所述语音数据相对应的所述文本数据,以允许所述用户在所述语音数据被输出之前识别要输出的所述语音数据;
其中,所述方法还包括对所述图像数据进行预处理并从预处理的图像数据中检测所述至少一个特征,并且其中所述至少一个特征包括嘴部的形状和嘴巴周围部分的形状。
17.根据权利要求16所述的方法,其中,输出所述语音数据包括:向执行与所述电子设备的呼叫连接的另一个电子设备发送所述语音数据。
18.根据权利要求16所述的方法,其中,当选择了礼貌模式时,执行所述相机模块。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2014-0168335 | 2014-11-28 | ||
KR1020140168335A KR102299764B1 (ko) | 2014-11-28 | 2014-11-28 | 전자장치, 서버 및 음성출력 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105654952A CN105654952A (zh) | 2016-06-08 |
CN105654952B true CN105654952B (zh) | 2021-03-30 |
Family
ID=56079959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510854135.9A Active CN105654952B (zh) | 2014-11-28 | 2015-11-30 | 用于输出语音的电子设备、服务器和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9992641B2 (zh) |
KR (1) | KR102299764B1 (zh) |
CN (1) | CN105654952B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107438800A (zh) | 2015-02-12 | 2017-12-05 | 格罗弗治公司 | 在激光加工过程中移动材料 |
US10509390B2 (en) | 2015-02-12 | 2019-12-17 | Glowforge Inc. | Safety and reliability guarantees for laser fabrication |
KR102346302B1 (ko) | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
KR101807513B1 (ko) * | 2015-05-13 | 2017-12-12 | 한국전자통신연구원 | 3차원 공간에서 영상정보를 이용한 사용자 의도 분석장치 및 분석방법 |
CN106570443A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种快速识别方法及家庭智能机器人 |
CN106205633B (zh) * | 2016-07-06 | 2019-10-18 | 李彦芝 | 一种模仿、表演练习打分系统 |
CN106328141B (zh) * | 2016-09-05 | 2019-06-14 | 南京大学 | 一种面向移动终端的超声波唇读识别装置及方法 |
WO2018098393A1 (en) | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Housing for computer-numerically-controlled machine |
WO2018098397A1 (en) | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Calibration of computer-numerically-controlled machine |
WO2018098394A1 (en) * | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Fabrication with image tracing |
WO2018098399A1 (en) | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Controlled deceleration of moveable components in a computer numerically controlled machine |
WO2018098398A1 (en) | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Preset optical components in a computer numerically controlled machine |
WO2018098396A1 (en) | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Multi-user computer-numerically-controlled machine |
WO2018098395A1 (en) | 2016-11-25 | 2018-05-31 | Glowforge Inc. | Improved engraving in a computer numerically controlled machine |
KR102363794B1 (ko) * | 2017-03-31 | 2022-02-16 | 삼성전자주식회사 | 정보 제공 방법 및 이를 지원하는 전자 장치 |
US11480933B2 (en) | 2017-04-28 | 2022-10-25 | Maksim Bazhenov | Neural networks for occupiable space automation |
WO2019017500A1 (ko) * | 2017-07-17 | 2019-01-24 | 아이알링크 주식회사 | 개인 생체 정보의 비식별화 시스템 및 방법 |
WO2019058673A1 (ja) * | 2017-09-21 | 2019-03-28 | ソニー株式会社 | 情報処理装置、情報処理端末、情報処理方法、および、プログラム |
KR102208508B1 (ko) * | 2017-10-18 | 2021-01-27 | 주식회사 씨엠랩 | 복합적인 안과 진료를 수행하는 시스템 및 방법 |
CN109841119A (zh) * | 2017-11-29 | 2019-06-04 | 上海企想信息技术有限公司 | 教学用物联网的实训系统 |
CN108538282B (zh) * | 2018-03-15 | 2021-10-08 | 上海电力学院 | 一种由唇部视频直接生成语音的方法 |
US11518380B2 (en) * | 2018-09-12 | 2022-12-06 | Bendix Commercial Vehicle Systems, Llc | System and method for predicted vehicle incident warning and evasion |
US11570016B2 (en) | 2018-12-14 | 2023-01-31 | At&T Intellectual Property I, L.P. | Assistive control of network-connected devices |
US11023769B2 (en) * | 2019-01-16 | 2021-06-01 | Lenovo (Singapore) Pte. Ltd. | Modifying an image based on identifying a feature |
CN109961789B (zh) * | 2019-04-30 | 2023-12-01 | 张玄武 | 一种基于视频及语音交互服务设备 |
KR102680097B1 (ko) | 2019-11-01 | 2024-07-02 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
CN112863476B (zh) * | 2019-11-27 | 2024-07-02 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建、语音合成和测试方法及装置 |
KR102405570B1 (ko) * | 2020-02-10 | 2022-06-03 | 대구대학교 산학협력단 | 베이지안 분류를 이용한 입 모양 기반의 발음 인식방법 |
CN111681636B (zh) * | 2020-06-16 | 2022-02-18 | 深圳市华创技术有限公司 | 基于脑机接口技术语音生成方法及医疗系统和终端 |
US11341953B2 (en) * | 2020-09-21 | 2022-05-24 | Amazon Technologies, Inc. | Synthetic speech processing |
US11675417B2 (en) * | 2020-11-11 | 2023-06-13 | International Business Machines Corporation | Executing actions based upon transformed inputs |
US11740608B2 (en) | 2020-12-24 | 2023-08-29 | Glowforge, Inc | Computer numerically controlled fabrication using projected information |
US11698622B2 (en) | 2021-03-09 | 2023-07-11 | Glowforge Inc. | Previews for computer numerically controlled fabrication |
US12100384B2 (en) * | 2022-01-04 | 2024-09-24 | Capital One Services, Llc | Dynamic adjustment of content descriptions for visual components |
WO2023139673A1 (ja) * | 2022-01-19 | 2023-07-27 | 日本電気株式会社 | 通話システム、通話装置、通話方法及びプログラムを格納した非一時的なコンピュータ可読媒体 |
KR102478220B1 (ko) * | 2022-05-10 | 2022-12-16 | 포스텍네트웍스(주) | IoT 기술이 적용된 인공지능 기반 스마트진단 LED 전광판 |
CN117893649B (zh) * | 2024-03-15 | 2024-06-28 | 深圳市前海手绘科技文化有限公司 | 一种相框、基于相框的展览方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1527602A (zh) * | 2003-01-31 | 2004-09-08 | 株式会社Ntt都科摩 | 面部信息传输系统 |
CN1770843A (zh) * | 2005-09-20 | 2006-05-10 | 乐金电子(沈阳)有限公司 | 为语言障碍人员提供数据转换和传输的装置及其方法 |
CN101477520A (zh) * | 2009-01-16 | 2009-07-08 | 中兴通讯股份有限公司 | 识别互译方法、系统及具有该系统的电子产品 |
CN102246225A (zh) * | 2008-12-15 | 2011-11-16 | 皇家飞利浦电子股份有限公司 | 用于合成语音的方法和设备 |
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
CN103141085A (zh) * | 2010-10-07 | 2013-06-05 | 索尼公司 | 信息处理设备和信息处理方法 |
CN103248817A (zh) * | 2012-02-13 | 2013-08-14 | 宏达国际电子股份有限公司 | 图像撷取方法与相关移动摄影装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3165585B2 (ja) * | 1994-05-13 | 2001-05-14 | シャープ株式会社 | 情報処理装置 |
US6714233B2 (en) * | 2000-06-21 | 2004-03-30 | Seiko Epson Corporation | Mobile video telephone system |
KR20020068235A (ko) * | 2001-02-20 | 2002-08-27 | 유재천 | 치아와 입술 영상을 이용한 음성인식 장치 및 방법 |
KR100411350B1 (ko) * | 2001-09-18 | 2003-12-18 | (주) 보이스웨어 | 음성합성 및 음성변조 서버를 구비한 통합서버에서문자메시지를 음성으로 변환하는 시스템 |
US7233684B2 (en) * | 2002-11-25 | 2007-06-19 | Eastman Kodak Company | Imaging method and system using affective information |
JP2004271620A (ja) * | 2003-03-05 | 2004-09-30 | Yamaha Corp | 携帯端末 |
JP2006163096A (ja) | 2004-12-09 | 2006-06-22 | Canon Inc | 単音の組み合せによる音声機器操作 |
US20110298829A1 (en) * | 2010-06-04 | 2011-12-08 | Sony Computer Entertainment Inc. | Selecting View Orientation in Portable Device via Image Analysis |
KR101396974B1 (ko) * | 2007-07-23 | 2014-05-20 | 엘지전자 주식회사 | 휴대 단말기 및 휴대 단말기에서의 호 신호 처리방법 |
JP3165585U (ja) * | 2010-11-11 | 2011-01-27 | 有限会社オフィス結アジア | 音声合成装置 |
US20130324094A1 (en) * | 2012-05-31 | 2013-12-05 | Tip Solutions, Inc. | Image response system and method of forming same |
KR101480594B1 (ko) * | 2012-12-18 | 2015-01-08 | 현대자동차주식회사 | 시선기반 착신 제어 방법과 이를 위한 이동통신 단말 |
US9003196B2 (en) * | 2013-05-13 | 2015-04-07 | Hoyos Labs Corp. | System and method for authorizing access to access-controlled environments |
-
2014
- 2014-11-28 KR KR1020140168335A patent/KR102299764B1/ko active IP Right Grant
-
2015
- 2015-06-02 US US14/728,715 patent/US9992641B2/en active Active
- 2015-11-30 CN CN201510854135.9A patent/CN105654952B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1527602A (zh) * | 2003-01-31 | 2004-09-08 | 株式会社Ntt都科摩 | 面部信息传输系统 |
CN1770843A (zh) * | 2005-09-20 | 2006-05-10 | 乐金电子(沈阳)有限公司 | 为语言障碍人员提供数据转换和传输的装置及其方法 |
CN102246225A (zh) * | 2008-12-15 | 2011-11-16 | 皇家飞利浦电子股份有限公司 | 用于合成语音的方法和设备 |
CN101477520A (zh) * | 2009-01-16 | 2009-07-08 | 中兴通讯股份有限公司 | 识别互译方法、系统及具有该系统的电子产品 |
CN103141085A (zh) * | 2010-10-07 | 2013-06-05 | 索尼公司 | 信息处理设备和信息处理方法 |
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
CN103248817A (zh) * | 2012-02-13 | 2013-08-14 | 宏达国际电子股份有限公司 | 图像撷取方法与相关移动摄影装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20160064565A (ko) | 2016-06-08 |
US9992641B2 (en) | 2018-06-05 |
US20160156771A1 (en) | 2016-06-02 |
KR102299764B1 (ko) | 2021-09-09 |
CN105654952A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654952B (zh) | 用于输出语音的电子设备、服务器和方法 | |
CN109243432B (zh) | 话音处理方法以及支持该话音处理方法的电子设备 | |
CN108369808B (zh) | 电子设备和用于控制该电子设备的方法 | |
US10825453B2 (en) | Electronic device for providing speech recognition service and method thereof | |
KR102405793B1 (ko) | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 | |
CN108023934B (zh) | 电子装置及其控制方法 | |
EP2816554A2 (en) | Method of executing voice recognition of electronic device and electronic device using the same | |
KR102653450B1 (ko) | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 | |
KR102412523B1 (ko) | 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버 | |
US20190019509A1 (en) | Voice data processing method and electronic device for supporting the same | |
CN110199350A (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
KR20160055162A (ko) | 음성 인식을 위한 전자 장치 및 방법 | |
KR102389996B1 (ko) | 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법 | |
KR102431817B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 서버 | |
KR20140139982A (ko) | 전자 장치의 음성인식을 수행하는 방법 및 이를 사용하는 전자 장치 | |
US20220130392A1 (en) | Electronic device and control method thereof | |
KR102391298B1 (ko) | 음성 인식 서비스를 제공하는 전자 장치 및 그 방법 | |
KR102369083B1 (ko) | 음성 데이터 처리 방법 및 이를 지원하는 전자 장치 | |
CN114242037A (zh) | 一种虚拟人物生成方法及其装置 | |
KR20210044475A (ko) | 대명사가 가리키는 객체 판단 방법 및 장치 | |
KR102369309B1 (ko) | 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치 | |
CN114333774B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
US11646021B2 (en) | Apparatus for voice-age adjusting an input voice signal according to a desired age | |
CN116391212A (zh) | 一种防止手势误识别的方法及电子设备 | |
EP4293664A1 (en) | Voiceprint recognition method, graphical interface, and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |