CN110199350A - 用于感测语音结束的方法和实现该方法的电子设备 - Google Patents
用于感测语音结束的方法和实现该方法的电子设备 Download PDFInfo
- Publication number
- CN110199350A CN110199350A CN201780083799.7A CN201780083799A CN110199350A CN 110199350 A CN110199350 A CN 110199350A CN 201780083799 A CN201780083799 A CN 201780083799A CN 110199350 A CN110199350 A CN 110199350A
- Authority
- CN
- China
- Prior art keywords
- voice
- processor
- electronic equipment
- epd
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 79
- 230000008859 change Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000011017 operating method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 43
- 238000004891 communication Methods 0.000 description 34
- 238000005516 engineering process Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- XEGGRYVFLWGFHI-UHFFFAOYSA-N bendiocarb Chemical compound CNC(=O)OC1=CC=CC2=C1OC(C)(C)O2 XEGGRYVFLWGFHI-UHFFFAOYSA-N 0.000 description 1
- 238000009530 blood pressure measurement Methods 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000001646 magnetic resonance method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Psychiatry (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Social Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
提供了一种装置和方法,该装置的各种实施例包括:麦克风;存储器;以及处理器,所述处理器功能地连接到所述麦克风或所述存储器,其中,所述处理器被配置为:基于语音输入对结束点检测(EPD)时间进行计数;当所述EPD时间到期时,确定所述语音输入的最后的词语是否对应于存储在所述存储器中的先前配置的词语;以及,如果所述最后的词语对应于所述先前配置的词语,则延长所述EPD时间并等待接收语音输入。另外,其他实施例也是可能的。
Description
技术领域
各种实施例涉及用于感测语音结束的方法和装置。
背景技术
随着近来数字技术的增强,诸如移动通信终端、个人数字助理(PDA)、电子调度器、智能手机、平板个人计算机(PC)、可穿戴设备等各种类型的电子设备得到了广泛的应用。为了支持和增加这些电子设备的功能,电子设备的硬件部件和/或软件部件正在不断发展。
电子设备使用语音识别技术提供各种服务(或功能)。语音识别技术包括例如用于将由电子设备通过诸如麦克风的声音传感器获得的声学语音信号转换为词语或句子的技术。语音识别技术通常在提取声学语音信号之后执行去除噪声的操作,然后通过提取声学语音信号的特征并将这些特征与语音模型数据库(DB)进行比较来执行语音识别。电子设备基于语音识别技术提供各种语音服务(或语音识别服务)。根据实施例,电子设备基于用户的语音命令来提供各种生活便利服务,例如移动搜索、日程管理、呼叫、备忘录或音乐播放。
发明内容
技术问题
电子设备可以以各种交互方法激活(操作)语音服务。例如,用于激活语音服务的交互方法可以是下列中的至少一种:触摸唤醒方法,语音唤醒方法或一键通,以及手势或面部/眼睛跟踪唤醒方法。大多数不使用一键通方法的语音服务使用结束点检测(EPD)方法。EPD方法可以指检测用户的语音输入的结束。例如,如果确定用户的语音强度小于或等于阈值超过了预定时间,则电子设备可以识别出用户的语音结束并且可以将识别出的信息发送到服务器(例如,语音识别服务器)以处理该信息。或者,如果在麦克风开启之后在预定时间(例如,3秒、5秒)内没有接收到用户输入,则电子设备可以确定用户想要结束语音输入,并且可以不接收语音输入。然而,当EPD仅与时间或声学语音信息一起使用时,即使用户不想结束语音输入,电子设备也可能不接收语音输入或者可能终止语音服务。
各种实施例提供了一种方法和装置,其以各种方法(诸如使用电子设备的场境(或状态)、用户的特征、预定词语(例如,虚词、连接词、等待指令等)或预定手势)分析用户结束(或完成)语音的意图,并确定语音输入是否结束。
问题的解决方案
根据各种实施例,一种电子设备可以包括:麦克风;存储器;以及处理器,所述处理器功能地连接到所述麦克风或所述存储器,所述处理器可以被配置为:基于语音输入对EPD时间进行计数;当所述EPD时间到期时,确定所述语音输入的最后的词语是否对应于存储在所述存储器中的预定词语;以及当所述最后的词语对应于所述预定词语时,延长所述EPD时间,并等待接收语音输入。
根据各种实施例,一种电子设备的操作方法可以包括:基于语音输入对EPD时间进行计数;当所述EPD时间到期时,确定所述语音输入的最后的词语是否对应于存储在存储器中的预定词语;以及当所述最后的词语对应于所述预定词语时,延长所述EPD时间,并等待接收语音输入。
发明的有益效果
根据各种实施例,可以以各种确定方法(诸如使用电子设备的场境(或状态)、用户的特征、预定的词语(例如,虚词、连接词、等待指令等)或预定手势)分析用户结束(或完成)语音的意图,并且能够确定语音输入是否结束。
根据各种实施例,当因为用户没有想到确切的词语,用户的意图不清楚,或者用户不知道语音服务可以执行什么功能,用户犹豫时,能够通过理解用户结束语音的意图并延长EPD时间直到用户的语音输入完成,增强用户便利性。
根据各种实施例,用户在讲话时电子设备不结束语音服务或者不停止语音识别(例如,接收语音输入),并且等待直到用户输入语音,使得能够提供更舒适的语音服务对话体验。
根据各种实施例,通过学习收集与所有的用户对应的通用词(或语言)或对用户特定的个人词语(或语言),使得基于通用词和个人词语,能够更精确地确定用户结束语音的意图。
根据各种实施例,通过根据用户希望执行来接收语音服务的应用的特征或用户的个人特征来改变EPD时间或EPD延长时间,可以更精确地确定用户结束语音的意图。
附图说明
图1是示出根据各种实施例的网络环境中的电子设备的视图。
图2是示出根据各种实施例的电子设备的配置的框图。
图3是示出根据各种实施例的程序模块的框图。
图4是示意性地示出根据各种实施例的电子设备的配置的视图。
图5a或图5b是示出根据各种实施例的电子设备的操作方法的流程图。
图6a至图6c是示出根据各种实施例的用户界面的示例的视图。
图7是示出根据各种实施例的用于在电子设备中收集个人词语的方法的流程图。
图8a至8c是示出根据各种实施例的在电子设备中收集个人语言信息的示例的视图。
图9是示出根据各种实施例的用于在电子设备中感测语音结束的方法的流程图。
图10是示出根据各种实施例的用于在电子设备中感测语音结束的方法的另一流程图。
图11是示出根据各种实施例的在电子设备中确定句子是否完成的示例的视图。
图12是示出根据各种实施例的通过使用用户结束的意图来感测语音结束的方法的流程图。
图13是示出根据各种实施例的用于根据场境信息来控制EPD时间的方法的流程图。
图14是示出根据各种实施例的电子设备的示例的视图。
具体实施方式
在下文中,将参考附图描述本公开的各种实施例。然而,应当理解的是,并不意图将本公开限制于本文公开的特定形式;相反,本公开应当被解释为涵盖本公开的实施例的各种修改、等同形式和/或替代物。在描述附图时,相似的附图标记可用于表示相似的组成元件。除非上下文另有明确说明,否则单数形式也可以包括复数形式。在本公开中,表述“A或B”或“A或/和B中的至少一个”可以包括所列项目的所有可能组合。在本公开的各种实施例中使用的表述“第一”、“第二”、“所述第一”或“所述第二”可以不用管顺序和/或重要性来修饰各种组件,而不会限制相应的组件。当元件(例如,第一元件)被称为(可操作地或通信地)“连接”或“耦接”到另一元件(例如,第二元件)时,它可以直接连接或直接耦接到另一元件,或者任何其他元件(例如,第三元件)可以是它们之间的插入物。
在本公开中使用的表述“被配置为”例如可以根据情况与“适合于”、“具有……的能力”、“设计为”、“适应于”、“用作”或“能够……”交换。术语“被配置为”可能不一定意味着在硬件方面“专门设计为”。或者,在某些情况下,表述“被配置为……的设备”可以表示该设备与其他设备或组件一起“能够……”。例如,短语“适应于(或被配置为)执行A、B和C的处理器”可以表示仅用于执行相应操作的专用处理器(例如,嵌入式处理器),或能够通过执行存储在存储设备中的一个或更多个软件程序来执行相应的操作的通用处理器(例如,中央处理单元(CPU)或应用处理器(AP))。
根据本公开各种实施例的电子设备可以包括以下项中的至少一个:例如智能手机、平板个人计算机(PC)、移动电话机、视频电话机、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MPEG-1音频层-3(MP3)播放器、移动医疗设备、相机和可穿戴设备。根据各种实施例,可穿戴设备可以包括以下项中的至少一个:配饰类(例如,手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜或头戴式设备(HMD)))、织物或服装整合型(例如,电子服装)、身体安装型(例如,皮肤垫或纹身)和生物可植入型(例如,可植入电路)。根据一些实施例,电子设备可以是家用电器。家用电器可以包括以下项中的至少一个:例如电视机、数字视频光盘(DVD)播放器、音频、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、电视盒(例如,Samsung HomeSyncTM、Apple TVTM或Google TVTM)、游戏机(例如,XboxTM和PlayStationTM)、电子词典、电子钥匙、便携式摄像机和电子相框。
根据另一实施例,电子设备可以包括以下项中的至少一个:各种医疗设备(例如,各种便携式医疗测量设备(血糖监测设备、心率监测设备、血压测量设备、体温测量设备等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)机和超声机)、导航设备、全球定位系统(GPS)接收器、事件数据记录仪(EDR)、飞行数据记录仪(FDR)、车载信息娱乐设备、船舶电子设备(例如,船舶导航设备和陀螺罗盘)、航空电子设备、安全设备、汽车音响本体、用于家庭或工业的机器人、银行中的自动柜员机(ATM)、商店中的销售点(POS)或物联网设备(例如,灯泡、各种传感器、电表或燃气表、喷淋设备、火灾报警器、恒温器、街灯、烤面包机、体育用品、热水箱、加热器、锅炉等)。
根据一些实施例,电子设备可以包括以下项中的至少一个:家具或建筑物/结构的一部分、电子板、电子签名接收设备、投影仪和各种测量仪器(例如,水表、电表、燃气表和无线电波表)。根据本公开的各种实施例的电子设备可以是前述各种设备中的一个或更多个的组合。根据本公开的一些实施例的电子设备可以是柔性设备。此外,根据本公开的实施例的电子设备不限于上述设备,并且可以包括根据技术发展的新电子设备。在下文中,将参考附图描述根据各种实施例的电子设备。如本文所使用的,术语“用户”可以指示使用电子设备的人或使用电子设备的设备(例如,人工智能电子设备)。
图1示出了根据本公开各种实施例的包括电子设备的网络环境。
将参照图1描述根据各种实施例的网络环境100内的电子设备101。电子设备101可以包括总线110、处理器120、存储器130、输入/输出接口150、显示器160和通信接口170。在一些实施例中,电子设备101可以忽略至少一个上述元件或者可以包括其他元件。
总线110例如可以包括用于连接元件110-170并在元件之间传送通信(例如,控制消息和/或数据)的电路。
处理器120可以包括中央处理单元(CPU)、应用处理器(AP)和通信处理器(CP)中的一个或更多个。例如,处理器120可以执行与电子设备101的至少一个其他元件的控制和/或通信有关的操作或数据处理。
存储器130可以包括易失性存储器和/或非易失性存储器。存储器130可以存储例如与电子设备101的至少一个其他元件相关的指令或数据。根据实施例,存储器130可以存储软件和/或程序140。程序140例如可以包括用于内核141、中间件143、应用编程接口(API)145和/或应用程序(或“应用”)147。可以引用内核141、中间件143和API 145中的至少一些作为操作系统(OS)。
内核141可以控制或管理用于执行由其他程序(例如,中间件143、API 145或其他应用147)实现的操作或功能的系统资源(例如,总线110、处理器120或存储器130)。此外,内核141可以提供接口,中间件143、API 145或应用程序147可以通过该接口访问电子设备101的各个元件以控制或管理系统资源。
例如,中间件143可以作为中介,以允许API 145或应用程序147与内核141通信从而交换数据。另外,中间件143可以根据优先级处理从应用程序147接收的一个或更多个操作请求。例如,中间件143可以为至少一个应用程序147给予使用电子设备101的系统资源(例如,总线110、处理器120、存储器130等)的优先权。例如,中间件143可以通过根据给予至少一个应用程序的优先级处理一个或更多个操作请求来执行关于一个或更多个操作请求的调度或负载平衡。API 145是接口,通过该接口应用程序147控制从内核141或中间件143提供的功能,并且可以包括例如用于文件控制、窗口控制、图像处理或文本控制的至少一个接口或功能(例如,指令)。
输入/输出接口150例如可以用作可以将从用户或另一外部设备输入的指令或数据传送到电子设备101的其他元件的接口。此外,输入/输出接口150可以将从电子设备101的其他元件接收到的指令或数据输出到用户或另一外部设备。
显示器160可以包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。例如,显示器160可以为用户显示各种类型的内容(例如,文本、图像、视频、图标或符号)。显示器160可以包括触摸屏,并且使用电子笔或用户的身体部位接收例如触摸、手势、接近或悬停输入。
通信接口170例如可以设置电子设备101与外部设备(例如,第一外部电子设备102、第二外部电子设备104或服务器106)之间的通信。例如,通信接口170可以通过无线或有线通信连接到网络162,以与外部设备(例如,第二外部电子设备104或服务器106)通信。无线通信例如可以包括长期演进(LTE)、LTE-高级(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、WiBro(无线宽带)和全球移动通信系统(GSM)作为蜂窝通信协议。根据实施例,无线通信例如可以包括Wi-Fi、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输、射频或者体域网(BAN)中的至少一个。
GNSS可以基于使用区域、带宽等包括例如全球定位系统(GPS)、全球导航卫星系统(Glonass)、北斗导航卫星系统(以下简称“北斗”)和欧洲全球卫星导航系统(Galileo)中的至少一个。下文中,在本公开中,“GPS”可以与“GNSS”互换使用。有线通信可以包括以下项中的至少一个:例如通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)和普通电话业务(POTS)。网络162可以包括通信网络中的至少一个,例如计算机网络(例如,LAN或WAN)、因特网和电话网络。
第一外部电子设备102和第二外部电子设备104中的每一个可以是与电子设备101的类型相同或不同的类型。根据实施例,服务器106可以包括一组一个或更多个服务器。根据各种实施例,在电子设备101中执行的所有或一些操作可以在另一电子设备或多个电子设备(例如,电子设备102和104或服务器106)中执行。根据实施例,当电子设备101必须自动地或响应于请求来执行一些功能或服务时,电子设备101可以不通过其自身来执行该功能或服务而请求,或除执行该功能或服务之外请求另一设备(例如,电子设备102或104或服务器106)执行与其相关的至少一些功能。另一电子设备可以执行所请求的功能或附加功能,并且可以将执行结果传送到电子设备101。电子设备101可以按原样处理接收到的结果,或者另外提供所请求的功能或服务。为了实现这一点,例如,可以使用云计算、分布式计算或客户端-服务器计算技术。
服务器106例如包括语音处理服务器、语音识别服务器、语音服务提供服务器、数据服务器、搜索服务器、结算服务器、卡公司服务器、银行服务器、认证服务器、应用服务器、管理服务器、集成服务器、提供商服务器(或通信运营商服务器)、内容服务器、互联网服务器或云服务器。
图2是示出根据本公开的各种实施例的电子设备的框图。
图2是根据各种实施例的电子设备201的框图。例如,电子设备201可以包括图1中所示的电子设备101的全部或一部分。电子设备201可以包括至少一个处理器(例如,应用处理器(AP))210、通信模块220、用户识别模块(SIM)224、存储器230、传感器模块240、输入设备250、显示器260、接口270、音频模块280、相机模块291、电源管理模块295、电池296、指示器297和电机298。
处理器210可以通过驱动操作系统或应用程序来控制连接到处理器210的多个硬件或软件组件,并执行各种数据和计算的处理。处理器210可以通过例如片上系统(SoC)来实现。根据实施例,处理器210还可以包括图形处理单元(GPU)和/或图像信号处理器。处理器210可以包括图2中所示的元件的至少一些(例如,蜂窝模块221)。处理器210可以将从其他元件的至少一个(例如,非易失性存储器)接收到的指令或数据加载到易失性存储器中,并且可以处理所加载的指令或数据,并且可以将各种数据存储在非易失性存储器中。
通信模块220可以包括例如蜂窝模块221、Wi-Fi模块223、蓝牙(BT)模块225、GNSS模块227(例如,GPS模块、Glonass模块、北斗模块或Galileo模块)、NFC模块228和射频(RF)模块229。蜂窝模块221可以通过例如通信网络提供语音呼叫、图像呼叫、文本消息服务或因特网服务。根据实施例,蜂窝模块221可以使用用户识别模块(例如,SIM卡224)来区分和验证通信网络内的电子设备201。根据本公开的实施例,蜂窝模块221可以执行处理器210可以提供的至少一些功能。根据实施例,蜂窝模块221可以包括通信处理器(CP)。
根据本公开的一些实施例,蜂窝模块221、Wi-Fi模块223、BT模块225、GNSS模块227和NFC模块228中的至少一些(例如,两个或更多个)可以被包括在一个集成芯片(IC)或IC封装中。RF模块229可以发送/接收例如通信信号(例如,RF信号)。RF模块229可以包括例如收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)和天线。根据本公开的另一实施例,蜂窝模块221、Wi-Fi模块223、BT模块225、GNSS模块227和NFC模块228中的至少一个可以通过单独的RF模块发送和接收RF信号。用户识别模块224可以包括例如包括用户身份模块和/或嵌入式SIM的卡,并且可以包含唯一标识信息(例如,集成电路卡标识符(ICCID))或用户信息(例如,国际移动用户识别码(IMSI)。
存储器230(例如,存储器130)可以包括例如内部存储器232或外部存储器234。嵌入式存储器232可以包括以下项中的至少一个:易失性存储器中(例如,动态随机存取存储器(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)和非易失性存储器(例如,一次性可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪存ROM、闪存(例如,NAND闪存或NOR闪存)、硬盘驱动器、固态硬盘(SSD)等)。外部存储器234还可以包括闪存驱动器,例如,紧凑型闪存(CF)、安全数字(SD)、微型安全数字(Micro-SD)、小型安全数字(Mini-SD)、极限数字(xD)、记忆棒等。外部存储器234可以通过各种接口在功能上和/或物理上连接到电子设备201。
传感器模块240可以测量物理量或检测电子设备201的操作状态,并且可以将测量到或检测到的信息转换为电信号。例如,传感器模块240可以包括以下项中的至少一个:手势传感器240A、陀螺仪传感器240B、大气压力传感器240C、磁传感器240D、加速度传感器240E、握持传感器240F、接近传感器240G、颜色传感器240H(例如,红/绿/蓝(RGB)传感器)、生物传感器240I、温度/湿度传感器240J、照度传感器240K和紫外(UV)传感器240M。附加地或替代地,传感器模块240可以包括例如电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外(IR)传感器、虹膜传感器和/或指纹传感器。传感器模块240还可以包括用于控制其中包括的一个或更多个传感器的控制电路。在本公开的一些实施例中,电子设备201还可以包括处理器,该处理器被配置为将传感器模块240控制为处理器210的一部分或与处理器210分开,并且可以在处理器210处于睡眠状态时控制传感器模块240。
输入设备250可以包括例如触摸面板252、(数字)笔传感器254、键256或超声输入设备258。触摸面板252可以使用例如电容型、电阻型、红外型和超声波型中的至少一种。而且,触摸面板252还可以包括控制电路。触摸面板252还可以包括触觉层并向用户提供触觉反应。(数字)笔传感器254可以包括例如识别片,该识别片是触摸面板的一部分或者与触摸面板分离。键256可以包括例如物理按钮、光学键或小键盘。超声输入设备258可以通过麦克风(例如,麦克风288)检测由输入工具生成的超声波,并识别与检测到的超声波对应的数据。
显示器260(例如,显示器160)可以包括面板262、全息图设备264或投影仪266。面板262可以包括与图1中所示的显示器160相同或相似的配置。面板262可以实现为例如柔性的、透明的或可穿戴的。面板262和触摸面板252可以实现为一个模块。
全息图设备264可以通过使用光的干涉在空中显示三维图像。投影仪266可以通过将光投射到屏幕上来显示图像。屏幕可以位于例如电子设备201的内部或外部。根据实施例,显示器260还可以包括用于控制面板262、全息图设备264或投影仪266的控制电路。接口270例如可以包括高清晰度多媒体接口(HDMI)272、通用串行总线(USB)274、光学接口276或D-超小型(D-sub)278。接口270可以被包括在例如图1中所示的通信接口170中。附加地或替代地,接口270可以包括例如移动高清晰度链路(MHL)接口、安全数字(SD)卡/多媒体卡(MMC)接口或红外数据协会(IrDA)标准接口。
音频模块280可以双向转换例如声音和电信号。音频模块280的至少一些元件可以包括在例如图1中所示的输入/输出接口145中。音频模块280可以处理通过例如扬声器282、接收器284、耳机286、麦克风288等输入或输出的声音信息。相机模块291是可以拍摄静止图像和动态图像的设备。根据实施例,相机模块291可以包括一个或更多个图像传感器(例如,前传感器或后传感器)、镜头、图像信号处理器(ISP)或闪光灯(例如,LED或氙气灯)。
电源管理模块295可以管理例如电子设备201的电源。根据实施例,电源管理模块295可以包括电源管理集成电路(PMIC)、充电器集成电路(IC)或者电池或燃料表。PMIC可以使用有线和/或无线充电方法。无线充电方法的示例可以包括例如磁共振方法、磁感应方法、电磁方法等。可以进一步包括用于无线充电的附加电路(例如,线圈回路、谐振电路、整流器等)。电池量表可以测量例如电池296的剩余量,以及充电期间的电压、电流或温度。电池296可以包括例如可充电电池或太阳能电池。
指示器297可以显示电子设备201或部件(例如,处理器210)的特定状态(例如,启动状态、消息状态、充电状态等)。电机298可以将电信号转换成机械振动,并且可以产生振动、触觉效果等。虽然未示出,但是电子设备201可以包括用于支持移动电视(TV)的处理单元(例如,GPU)。用于支持移动TV的处理单元可以例如根据诸如数字多媒体广播(DMB)、数字视频广播(DVB)或mediaFLOTM的特定标准来处理媒体数据。根据本公开的硬件的上述组成元件中的每一个可以配置有一个或更多个组件,并且相应组件元件的名称可以基于电子设备的类型而变化。根据本公开各种实施例的电子设备可以包括前述元件中的至少一个。可以省略一些元件,或者可以在电子设备中进一步包括其他附加元件。而且,根据各种实施例的一些硬件组件可以组合成一个实体,其可以在组合之前执行与相关组件的功能相同的功能。
图3是根据本公开的各种实施例的程序模块的框图。
根据实施例,程序模块310(例如,程序140)可以包括用于控制与电子设备(例如,电子设备101)和/或在操作系统中执行的各种应用(例如,应用程序147)相关的资源的操作系统(OS)。操作系统可以是例如Android、iOS、Windows、Symbian、Tizen、Bada等。程序模块310可以包括内核320、中间件330、API 360和/或应用程序370。程序模块310中的至少一些可以预先加载在电子设备上,或者可以从外部电子设备下载(例如,电子设备102或104,或服务器106)。
内核320(例如,内核141)可以包括例如系统资源管理器321和/或设备驱动器323。系统资源管理器321可以对系统资源执行控制、分配、检索等。根据本公开的实施例,系统资源管理器321可以包括进程管理器、存储器管理器、文件系统管理器等。设备驱动器323可以包括例如显示驱动器、相机驱动器、蓝牙驱动器、共享存储器驱动器、USB驱动器、键盘驱动器、Wi-Fi驱动器、音频驱动器或进程间通信(IPC)驱动程序。
中间件330可以提供应用370共同需要的功能,或者通过API 360向应用370提供各种功能,使得应用370能够有效地使用电子设备内的有限系统资源。根据实施例,中间件330(例如,中间件143)可以包括以下项中的至少一个:例如运行库335、应用管理器341、窗口管理器342、多媒体管理器343、资源管理器344、电源管理器345、数据库管理器346、包管理器347、连接管理器348、通知管理器349、位置管理器350、图形管理器351和安全管理器352。
运行库335可以包括库模块,编译器使用该库模块以便在执行应用程序370时通过编程语言添加新功能。运行库335可以执行输入/输出管理、存储器管理、算术函数的功能等。应用管理器341可以管理例如应用370中的至少一个的生命周期。窗口管理器342可以管理用于屏幕的图形用户界面(GUI)资源。多媒体管理器343可以确定再现各种媒体文件所需的格式,并且可以通过使用适合于相关格式的编码器/解码器(编解码器)来编码或解码媒体文件。
资源管理器344可以管理至少一个应用370的资源,例如源代码、存储器、存储空间等。电源管理器345可以与基本输入/输出系统(BIOS)一起操作以管理电池或电源,并且可以提供电子设备的操作所需的电力信息。数据库管理器346可以生成、搜索和/或改变要由至少一个应用370使用的数据库。包管理器347可以管理以包文件的形式分发的应用的安装或更新。
连接管理器348可以管理无线连接,例如Wi-Fi或蓝牙。通知管理器349可以以不干扰用户的方式显示或通知事件,诸如到达消息、预约、接近通知等。位置管理器350可以管理电子设备的位置信息。图形管理器351可以管理要提供给用户的图形效果,或者与图形效果相关的用户界面。安全管理器352可以提供系统安全性、用户认证等所需的各种安全功能。
根据本公开的实施例,当电子设备(例如,电子设备101)具有电话呼叫功能时,中间件330还可以包括用于管理电子设备的语音呼叫功能或视频呼叫功能的电话管理器。中间件330可以包括中间件模块,该中间件模块形成上述元件的各种功能的组合。中间件330可以提供专用于每种类型的OS的模块,以便提供差异化的功能。此外,中间件330可以动态地删除一些现有元件,或者可以添加新元件。API 360(例如,API 145)是例如一组API编程功能,并且可以根据OS提供不同的配置。例如,在Android或iOS的情况下,可以为每个平台提供一个API集。在Tizen的情况下,可以为每个平台提供两个或更多个API集。
应用370(例如,应用程序147)可以包括例如可以提供以下功能的一个或更多个应用:诸如主页371、拨号器372、SMS/MMS 373、即时消息(IM)374、浏览器375、相机376、警报377、联系人378、语音拨号器379、电子邮件380、日历381、媒体播放器382、相册383、时钟384、健康护理(例如,测量运动量或血糖)或环境信息(例如,大气压、湿度或温度信息)。根据本公开的实施例,应用370可以包括支持电子设备(例如,电子设备101)与外部电子设备(例如,电子设备102或104)之间的信息交换的应用(在下文中,为了便于描述,被称为“信息交换应用”)。与信息交换相关联的应用可以包括例如用于将特定信息转发到外部电子设备的通知中继应用,或者用于管理外部电子设备的设备管理应用。
例如,通知中继应用可以包括向外部电子设备(例如,电子设备102或104)递送由电子设备101的其他应用(例如,SMS/MMS应用、电子邮件应用、健康护理应用、环境信息应用等)生成的通知信息的功能。此外,通知中继应用可以从例如外部电子设备接收通知信息,并将接收的通知信息提供给用户。设备管理应用可以管理(例如,安装、删除或更新)例如用于与电子设备通信的外部电子设备(例如,电子设备102或104)的至少一部分的功能(例如,开启/关闭外部电子设备本身(或其某些元件)或调整显示器的亮度(或分辨率))、在外部电子设备中执行的应用或从外部电子设备提供的服务(例如,电话呼叫服务或消息服务)。根据实施例,应用370可以包括根据外部电子设备102或104的属性指定的应用(例如,移动医疗设备的健康护理应用等)。根据本公开的实施例,应用370可以包括从外部电子设备(例如,服务器106或者电子设备102或104)接收到的应用。根据本公开的实施例,应用370可以包括预加载的应用或能够从服务器下载的第三方应用。根据本公开的上述实施例,程序模块310的元件的名称可以根据OS的类型而改变。根据本公开的各种实施例,程序模块310中的至少一些可以用软件、固件、硬件或其两个或更多个的组合来实现。程序模块310中的至少一些可以由例如处理器(例如,处理器210)实现(例如,执行)。程序模块310中的至少一些可以包括例如模块、程序、例程、指令集和/或用于执行一个或更多个功能的过程。
本文使用的术语“模块”例如可以表示包括硬件、软件和固件中的一个的单元,而“模块”可以与例如术语“单元”、“逻辑”、“逻辑块”、“组件”或“电路”互换使用。“模块”可以是集成组件元件或其一部分的最小单元。“模块”可以是用于执行一个或更多个功能或其一部分的最小单元。“模块”可以机械地或电子地实现。例如,根据本公开的“模块”可以包括以下项中的至少一个:应用专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件,以用于执行下文中已知的或将要开发的操作。根据各种示例实施例,设备的至少一部分(例如,模块或其功能)或方法实现为以程序模块的形式存储在计算机可读记录介质(例如,存储器(130))中的命令。如果命令由处理器(例如,处理器(120))执行,则处理器执行与命令对应的功能。
图4是示意性地示出根据各种实施例的电子设备的配置的图。
参照图4,电子设备400可以包括处理器410、麦克风420、相机430、通信单元440、扬声器450、显示器460和存储器470。因为图4中的电子设备400不是必要元件,所以根据各种实施例的电子设备400可以被实现为包括比图4中更多的元件或更少的元件。
处理器410可以充当检测语音、识别检测到的语音以及执行与识别的语音对应的功能的角色。当从用户接收到语音输入时,处理器410可以计算EPD时间,并且当EPD时间到期时,处理器410可以分析用户结束语音的意图并且可以确定语音输入已经完成,可以提供与语音输入对应的语音服务。为此,处理器410可包括语音识别单元411、EPD时间控制单元413、语言确定单元415和手势确定单元417。语音识别单元411、EPD时间控制单元413、语言确定单元417和手势确定单元417可以被包括作为硬件模块,或者可以被包括为软件模块。
语音识别单元411可以充当将通过麦克风420输入的声音处理为语音信号(例如,预处理)和识别语音(例如,自动语音识别(ASR))的角色。另外,语音识别单元411可以针对所识别的语音执行语言处理(例如,自然语言理解(NLU)、对话管理(DM)或文本到语音(TTS))。语音识别单元411可以与语音处理服务器相关联地操作以处理和识别语音。也就是说,语音识别单元411可以将语音信号发送到语音处理服务器,并且可以从语音处理服务器接收语音信息(或与语音信息对应的文本信息)。语音识别单元411可以向EPD时间控制单元413或语言确定单元415发送是否识别(或检测)语音、识别的语音信息或与语音信息对应的文本信息。语音识别单元411可以将通过麦克风420输入EPD时间的语音信息临时存储在存储器470中(例如,存储在缓冲器中)。
当从用户接收到语音输入时,EPD时间控制单元413可以计数EPD时间。例如,EPD时间可以是用于确定语音输入的结束的等待时间。EPD时间可以被解释为输入等待时间或麦克风记录等待时间。例如,EPD时间控制单元413可以从检测到语音输入(例如,第一语音输入)(或者第一语音输入结束的时间),并且在EPD时间到期之前再次检测到语音输入(例如,第二语音输入)(或第二语音输入结束)的时间开始计数,EPD时间控制单元413可以重新计数EPD时间。
例如,当EPD时间是5秒时,EDP时间控制单元413可以从检测到第一语音输入的时间开始计数EPD时间,并且当在EPD时间计数到3秒时检测到第二语音输入时,EPD时间控制单元413可以删除(忽略)到目前为止计数的EPD时间,并且可以从检测到第二语音输入的时间开始重新计算EDP时间。或者,当在预定时间内未另外检测到语音输入时,EDP时间控制单元413可以对EPD时间进行计数。预定时间可以与EPD时间相同,或者可以比EDP时间更短或更长。或者,当在预定时间内没有另外检测到语音输入时,EPD定时器控制单元413可以确定EPD时间到期。
当EPD时间到期时,EPD时间控制单元413可以通知语言确定单元415或手势确定单元417EPD时间到期。另外,EPD时间控制单元413可以根据从语言确定单元415或手势确定单元417接收到的结果来扩展EPD时间。
根据各种实施例的EPD时间控制单元413可以根据电子设备400的场境(或状态)或用户的特征将EPD时间设置为不同。另外,EPD时间控制单元413可以根据电子设备400的场境(或状态)或用户的特征将EPD时间的延长时间调整为不同。也就是说,EPD时间控制单元413可以根据用户希望执行来接收语音服务的应用的特性或用户的个人特征,来改变EPD时间或EPD延长时间。根据各种实施例的EPD时间控制单元413可以基于用户不说话的时间、用户的语调的变化或者用户的语速的变化中的至少一个,将EPD时间或EPD延长时间设置为不同。
语言确定单元415可以基于存储在存储器470中的预定词语来确定(或理解)用户结束语音的意图。例如,语言确定单元415可以确定通过语音输入的最后的词语是否是预定词语。例如,用户可能犹豫,因为用户没有想到确切的词语,用户的意图不清楚,或者用户不知道语音服务可以执行什么功能。在这种情况下,在输入声音的过程中,用户可能说出包括无意义的词语(例如,虚词)、连接词(例如,因此、所以、并且等)或等待指令(例如,等一会儿、等一等之类的)中的至少一个的预定词语。然而,预定词语可以是语音识别不需要的语言,而是可能指示用户继续输入语音的意图。当EPD时间到期,但用户说出的最后的词语是预定词语时,语言确定单元415可以控制延长EPD时间。也就是说,输入的最后的词语是预定词语,语言确定单元415可以指示EPD时间控制单元413延长EPD时间。当EPD时间控制单元413延长EPD时间时,语音识别单元411可以等待接收语音输入而不停止接收语音输入。
手势确定单元417可以基于存储在存储器470中的预定手势来确定(或理解)用户结束语音的意图。手势确定单元417可以确定从相机430或传感器(例如,运动传感器)检测到的用户的手势是否是预定手势。由于用户在输入语音的过程中没有准确地想到词语,所以用户可以在考虑其想要说出的词语的同时做出特定的手势。例如,用户可以在思考时向左或向右查看或倾斜他的头部。如果EPD时间到期,但是检测到的用户的手势是预定手势时,手势确定单元417可以控制延长EPD时间。也就是说,当检测到的用户的手势是预定手势时,手势确定单元417可以指示EPD时间控制单元413延长EPD时间。当EPD时间控制单元413延长EPD时间时,语音识别单元411可以等待接收语音输入而并不停止接收语音输入。
麦克风420可以接收外部声学信号的输入,并且可以将信号处理为电子语音数据。在麦克风420中,可以实现各种降噪算法以去除在接收外部声学信号的输入的过程中发生的噪声。麦克风420可以用于输入音频流,诸如语音命令(用于启用/停用语音服务的语音命令等)。可以激活麦克风420达EPD时间。
相机430(例如,图2的相机模块291)可以指示用于支持电子设备400的拍摄功能的配置。相机430可以在处理器410的控制下拍摄特定主题并且可以发送拍摄数据(例如,图像)到显示器460和处理器410。
通信单元440可以具有与图2的通信模块220相同或相似的配置。通信单元440可以包括能够在电子设备400与外部设备(例如,另一电子设备102、104、语音处理服务器等)之间进行无线通信的一个或更多个模块。例如,通信单元440可以被配置为包括移动通信模块、无线局域网(LAN)模块、短距离通信模块和位置计算模块。在各种实施例中,通信单元440可以包括用于与相邻外部设备通信的模块(例如,短距离通信模块、远程通信模块等)。
扬声器450可以输出从通信单元440接收的或存储在存储器470中的音频数据。扬声器450可以输出与在电子设备400中执行的各种操作(功能)有关的声学语音信号。
显示器460可以显示(输出)在电子设备400中处理的各种信息。例如,显示器460可以显示与电子设备400的使用相关的各种用户界面(UI)或图形UI(GUI)。在各种实施例中,显示器460可以提供各种屏幕配置以在语音服务期间向用户反馈启用(或超时)状态。显示器460可以使用各种显示器(例如,图1的显示器160)。在各种实施例中,显示器460可以使用弯曲显示器。
存储器470(例如,图1或图2的存储器130、230)可以存储由处理器410执行的一个或更多个程序,并且可以执行用于临时存储输入/输出数据的功能(例如,缓冲)。输入/输出数据可以包括例如视频、图像、照片或音频。存储器470可以存储以下项中的至少一个:用于分析结束语音的意图的每个条件中预定词语(例如,通用词、个人词语)、预定手势、权重值或分数,根据电子设备的环境或个人特征的EPD时间,根据电子设备的环境或个人特征的EPD延长时间。
根据各种实施例的预定词语可以是通常使用的通用词,或者与通用词不同,根据用户的特性将其设置为不同。通用词可能因国家/地区而异(例如,根据每个国家/地区的语言特征)。存储器470可以按类别包括每个国家的通用词。或者,存储在存储器470中的通用词可以根据销售电子设备400的国家而变化。
表1示出了存储在存储器470中的每种语言的通用词。
表1
处理器410可以通过电子设备400的学习来连续地更新根据用户的特征不同地输入的个人词语。例如,存储器470可以存储如表2所示的通用词和个人词语。
表2示出了存储在存储器470中的通用词和个人词语。
表2
例如,使用电子设备101的用户A、使用电子设备102的用户B和使用电子设备104的用户C的一些个人词语可以彼此相似或彼此不同。根据各种实施例的处理器410可以周期性地或根据设置与其他用户共享其自己的个人词语,并且可以通过分析其他用户的个人词语来更新通用词。例如,处理器410可以将用户A的个人词语和用户B的个人词语中的彼此相同的词更新为通用词。
根据各种实施例,在用户正在思考时做出的手势可以包括一般的通用手势,或者与通用手势不同,根据用户的特征而变化。可以通过电子设备400的学习来连续地更新根据用户的特性而变化的个人手势。预定手势可以根据国家(根据每个国家的手势特征)而变化。存储器470可以存储每个国家的通用手势。或者,存储在存储器470中的常见手势可以根据销售电子设备400的国家而变化
根据各种实施例的电子设备400可以包括麦克风420、存储器470和功能上地与麦克风或存储器连接的处理器410,并且该处理器可以被配置为基于语音输入对EPD时间进行计数,以确定当EPD时间到期时,语音输入的最后的词语是否对应于存储在存储器中的预定词语,并且当最后的词语对应于预定词语时延长EPD时间,而后等待接收语音输入。
处理器可以被配置为,当最后的词语对应于包括虚词、连接词或等待指令中的至少一个的预定词语时,延长EPD时间。
处理器可以被配置为,当在EPD时间到期之前检测到附加语音输入时,延长EPD时间。
预定词语可以包括通用词和个人词语,并且处理器可以被配置为确定在语音命令失效之后识别出的语音命令与先前语音命令之间的相似度,并且基于该相似度来确定个人词语。
处理器可以被配置为分析语音命令与先前语音命令之间的改变的文本信息,并且当已改变的文本信息被检测到预定次数或更多时,用文本信息来更新个人词语。
处理器可以被配置为确定当EPD时间到期时是否检测到预定手势,并且当检测到预定手势时,延长EPD时间。
处理器可以被配置为当EPD时间到期时确定根据语音输入的句子是否完成,并且当确定句子未完成时,确定是否延长EPD时间。
处理器可以被配置为基于根据语音输入的语音命令的类型来确定是否执行确定句子是否完成的操作。
处理器可以被配置为根据固定值延长EPD时间,或者将EPD时间改变为对应于场境识别的值,并且根据改变后的值延长EDP时间。
处理器可以被配置为基于电子设备的场境信息和用户的特征信息来确定EPD时间或EPD延长时间。
处理器可以被配置为基于电子设备的场境信息、用户的特征信息、是否检测到附加语音输入、是否检测到预定词语、是否检测到预定手势或是完成了句子中的至少一个,分析用户结束语音的意图。
处理器可以被配置为对静音检测时间、是否检测到预定词语、是否检测到预定手势或者句子是否完成中的至少一个给予权重值或点,并且当结束意图指数大于或等于预定指数时,延长EPD时间。
处理器可以被配置为基于结束意图指数来改变EPD延长时间。
图5a和图5b是示出根据各种实施例的电子设备的操作方法的流程图。
图5a示出了用于在预定时间内未另外检测到语音输入时控制EPD时间的操作方法。
参照图5b,在操作501中,电子设备400(例如,处理器410)可以接收语音输入。处理器410(例如,语音识别单元411)可以检测是否从麦克风420输入声音。根据各种实施例的处理器410可以基于语音唤醒方法而开始语音服务(例如,可以启用语音功能)。为此,处理器410还可以包括唤醒处理单元(或唤醒引擎)。根据各种实施例,电子设备400可以包括:低功率模式的第一处理器,其包括唤醒处理器;第二处理器,其包括语音识别单元411、EPD时间控制单元413、语言确定单元415和手势确定单元417。
根据实施例,处理器410可以使用特定语音指令(例如,词语)作为语音调用指令(例如,唤醒词语),并且可以在用户语音调用指令被输入之前执行关于用户语音的语音识别。语音调用指令(例如,唤醒词语)可以使用例如电子设备的名称(或电子设备的代理(或人工智能(AI))作为唤醒词语。用户应该包括用于驱动语音识别引擎(例如,语音代理)的语音调用指令以使用电子设备400中的语音服务,并且语音调用指令可以被称为唤醒命令或唤醒词语。当识别出语音调用指令时,电子设备可以驱动语音识别引擎,然后可以识别用户的语音并提供语音服务。
根据各种实施例,处理器410可以基于特定按钮(例如,主页按钮)的选择或诸如特定指令的输入的用户输入来启动语音服务。另外,当检测到用于调用语音服务的预定手势、面部或眼睛时,处理器410可以启动语音服务。处理器410(例如,语音识别单元411)可以启动语音服务,可以检测从麦克风420输入的声音,并且可以执行语音信号处理。语音信号处理指的是用于识别语音的预处理,并且例如,可以指将声音转换为语音信号。另外,处理器410(例如,语音识别单元411)可以识别关于检测到的语音输入的语音。例如,处理器410(例如,语音识别单元411)可以处理关于转换后的语音信号的语言,并且可以将语音信号转换为文本(例如,语音到文本)。由于语音识别技术是众所周知的,因此省略详细描述。处理器410可以操作麦克风420并且可以记录从麦克风420接收到的语音。
在操作503中,电子设备400(例如,处理器410)可以确定是否在预定时间内检测到语音输入。例如,预定时间可以与EPD时间相同,或者可以比EPD时间更短或更长。当在预定时间内未检测到语音输入时,处理器410(例如,EPD时间控制单元413)可以对EPD时间进行计数。或者,当在预定时间(例如,静音时间)内未检测到语音输入时,处理器410可以判定EPD时间到期。例如,当预定时间与EPD时间不相同并且在预定时间内未检测到语音输入时,处理器410可以对EPD时间进行计数。或者,当预定时间与EPD时间相同并且在预定时间内未检测到语音输入时,处理器410可以判定EPD时间到期。也就是说,当未检测到语音输入的静音时间与EPD时间相同时,处理器410可以判定EPD时间到期。
当在预定时间内检测到语音输入时,处理器410可以执行操作511,并且当在预定时间内未检测到语音输入时,处理器410可以执行操作505。
当在预定时间内检测到语音输入时,电子设备400(例如,处理器410)可以在操作511中延长EPD时间。当在预定时间内检测到新的语音输入时,处理器410(例如,EPD时间控制单元413)可以重新计算EPD时间。处理器410可以延长EPD时间并且可以返回到操作503。
当在预定时间内未检测到语音输入时,电子设备(例如,处理器410)可以在操作505中确定最后的词语是否是所选择的词语。最后的词语可以是由用户最后输入的语音信息的全部或一部分。也就是说,处理器410可以基于与最后的语音信息对应的文本信息进行解释,作为最后的词语。例如,处理器410可以确定最后的词语是否对应于包括虚词(例如,是啊、嗯、那个......)、连接词(例如,如此、所以、但是等)或等待指令(例如,等一等、稍等、等着之类的)中的至少一个的预定词语。
当最后的词语是所选择的词语时,处理器410可以执行操作511,并且当最后的词语不是所选择的词语时,处理器410可以执行操作507。
在操作507中,电子设备400(例如,处理器410)可以确定语音输入已完成。例如,当EPD时间到期并且最后的词语不是所选择的词语时,处理器410(例如,语音识别单元411)可以确定用户具有结束语音输入的意图。当语音输入完成时,处理器410可以停用麦克风420(例如,不操作)。也就是说,处理器410可以停止接收语音输入。处理器410可以停止记录从麦克风420接收到的语音。
在操作509中,电子设备400(例如,处理器410)可以处理语音识别。处理器410(例如,语音识别单元411)可以根据用户的语音输入提供服务。例如,处理器410可以将记录从麦克风420接收到的语音的语音文件(例如,语音信号)发送到语音处理服务器,并且可以从语音处理服务器接收与语音文件对应的指令,并且可以执行与接收到的指令对应的功能(例如,语音服务)。根据各种实施例的处理器410可以通过利用语音识别技术提供与所识别的语音对应的各种功能。例如,处理器410可以基于从语音转换的文本提供各种功能,例如移动搜索、日程管理、呼叫、备忘录或音乐播放。
图5b示出了根据在EPD时间内是否另外检测到语音输入来控制EPD时间的操作方法。
参照图5b,在操作551中,电子设备400(例如,处理器410)可以接收语音输入。处理器410(例如,语音识别单元411)可以检测是否从麦克风420输入声音。根据各种实施例的处理器410可以基于语音唤醒方法来启动语音服务(例如,可以激活语音功能)。
根据各种实施例,处理器410可以基于特定按钮(例如,主页按钮)的选择或诸如特定指令的输入的用户输入来启动语音服务。另外,当检测到用于调用语音服务的预定手势、面部或眼睛时,处理器410可以启动语音服务。处理器410(例如,语音识别单元411)可以启动语音服务,可以检测从麦克风420输入的声音,并且可以执行语音信号处理。处理器410可以操作麦克风420并记录从麦克风420接收到的语音。
在操作553中,电子设备400(例如,处理器410)可以计算EPD时间。例如,EPD时间可以是用于确定语音输入结束的等待时间。处理器410(例如,EPD时间控制单元413)可以从检测到语音输入(例如,初始语音输入)的时间或者语音输入(例如,初始语音输入)结束的时间开始计算EPD时间。
在操作555中,电子设备400(例如,处理器410)可以确定EPD时间是否到期。处理器410(例如,EPD时间控制单元413)可以对EPD时间进行计数,然后可以连续地确定EPD时间是否到期。当检测到新的语音输入时,可以重新计算EPD时间。处理器410可以在EPD时间到期之前连续地确定是否检测到新的语音输入。
当EPD时间未到期时,处理器410可以执行操作563,并且当EPD时间到期时,处理器410可以执行操作557。
当EPD时间未到期时,电子设备400(例如,处理器410)可以在操作563中确定是否检测到语音输入。处理器410(例如,语音识别单元411)可以确定在EPD时间到期之前是否检测到新的语音输入。
当检测到语音输入时,处理器410可以执行操作565,而当未检测到语音输入时,处理器410可以返回到操作555。也就是说,处理器410可以通过在操作555和操作563中重复确定达到EPD时间,来执行操作557或563。
当检测到语音输入时,电子设备400(例如,处理器410)可以在操作565中延长EPD时间。当检测到EPD时间的语音输入时,处理器410(例如,EPD时间控制单元413)可以重新计算EPD时间。例如,当EPD时间是3秒并且在3秒内检测到新的语音输入时,处理器410可以将EPD时间从检测到新语音输入的时间延长3秒。处理器410可以延长EPD时间并返回到操作503。因此,处理器410可以在接收到初始语音输入之后重复操作503、505、513或515。
根据各种实施例的处理器410可以根据电子设备400的场境(或状态)或用户的特征(例如,语速、语言习惯)将EPD时间设置为不同。另外,EPD时间控制单元413可以根据电子设备400的场境(或状态)或用户的特征将EPD时间的延长时间(例如,EPD延长时间)调整为不同。
当EPD时间到期时,电子设备400(例如,处理器410)可以在操作557中确定最后的词语是否是所选择的词语。最后的词语可以是用户最后输入的语音信息的全部或一部分。也就是说,处理器410可以将与最后语音信息对应的文本信息解释为最后的词语。例如,当在最后的词语之后未检测到语音输入并且EPD时间到期时,处理器410(例如,语言确定单元415)可以确定最后的词语是否是预定词语。例如,处理器410可以确定最后的词语是否对应于包括虚词(例如,是啊、嗯、那个......)、连接词(例如,如此、所以、但是等)或等待指令(例如,等一等、稍等、等着之类的)中的至少一个的预定词语。
当最后的词语是所选择的字时,处理器410可以执行操作565,而当最后的词语不是所选择的字时,处理器410可以执行操作559。
在操作559中,电子设备400(例如,处理器410)可以确定语音输入已完成。例如,当EPD时间到期并且最后的词语不是所选择的词语时,处理器410(例如,语音识别单元411)可以确定用户具有结束语音输入的意图。当语音输入完成时,处理器410可以停用麦克风420(例如,可以不操作)。也就是说,处理器410可以停止接收语音输入。处理器410可以停止记录从麦克风420接收到的语音。
在操作561中,电子设备400(例如,处理器410)可以处理语音识别。处理器410(例如,语音识别单元411)可以根据用户的语音输入提供服务。例如,处理器410可以将记录从麦克风420接收的语音的语音文件(例如,语音信号)发送到语音处理服务器,并且可以从语音处理服务器接收与语音文件对应的指令,并且可以执行与接收到的指令对应的功能(例如,语音服务)。根据各种实施例的处理器410可以通过利用语音识别技术提供与所识别的语音对应的各种功能。例如,处理器410可以基于从语音转换的文本来提供各种功能,例如移动搜索、日程管理、呼叫、备忘录或音乐播放。
图6a至图6c是示出根据各种实施例的用户界面的示例的视图。
图6a示出了根据虚词的检测来扩展EPD时间的示例。
参照图6a,电子设备400(例如,处理器410)可以从用户接收关于发送消息的语音命令。例如,处理器410可以接收第一语音输入613,诸如“向妻子发送消息,亲爱的我将......呃......那个”。处理器410可以将包括与第一语音输入613对应的文本信息611的第一用户界面610显示在显示器460上。根据各种实施例的处理器410可以提供第一语音输入613的一部分或全部作为文本信息611。
例如,处理器410可以将第一语音输入613的“发送消息”识别为消息应用执行指令,可以将第一语音输入613的“向妻子”识别为消息接收者,并且可以将第一个语音输入613的“亲爱的我将……”识别为消息内容。当分析第一语音输入613并执行与语音输入对应的功能时,处理器410可以处理与第一语音输入613对应的文本信息。例如,处理器410可以将第一语音输入613的“亲爱的我将......呃......那个”识别为消息内容,并且可以将“呃......那个”解释为无意义的词语(例如,虚词)并且可以在发送消息时删除无意义的词语。处理器410可以提供消息应用的执行屏幕作为第一用户界面610到第三用户界面620,其示出接收者是妻子并且文本信息被包括在消息内容中。
根据各种实施例,处理器410可以在接收到语音命令之前已经执行消息应用。或者,处理器410可以在显示器460关闭时通过语音调用指令接收语音命令。
当检测到第一语音输入613或者第一语音输入613结束时,处理器410可以计算EPD时间并且可以确定在EPD时间到期之前是否检测到新的语音输入。当在EDP时间到期之前未检测到新的语音输入并且EDP时间到期时,处理器410可以确定最后的词语是否是预定的词语。例如,当最后的词语(例如,呃、那个)基于存储在存储器470中的信息对应于预定词语(例如,虚词)时,处理器410可以延长EPD时间并且可以等待来自用户的语音输入。处理器410可以从用户接收第二语音输入619以获得语音输入等待时间(例如,EPD时间)。例如,处理器410可以接收第二语音输入619,同时在显示器460上显示包括与第一用户界面610相同或相似的文本信息617的第二用户界面615。或者,处理器410可以在接收第二语音输入619的同时,在第二用户界面615上显示对应于第一语音输入613和第二语音输入619的文本信息621。
处理器410可以在显示器460上显示包括与第一语音输入613和第二语音输入619对应的文本信息621的第三用户界面620。当在第二语音输入619之后未检测到新的语音输入,EPD时间到期,并且最后的词语(例如,今天)没有对应于预定词语时,处理器410可以处理与文本信息621对应的语音识别。例如,处理器410可以将文本信息621发送到语音处理服务器,并且可以从语音处理服务器接收将包括文本信息621的消息发送给接收者(例如,妻子)的指令,并且可以根据该指令发送消息。当根据语音识别处理完成消息的发送时,处理器410可以在显示器460上显示包括发送完成消息627的第四用户界面625。当语音识别处理完成时,处理器410可以通过扬声器450输出与发送完成消息627对应的语音信息。
图6b是示出根据连接词的检测的延长EDP时间的示例的视图。
参照图6b,电子设备400(例如,处理器410)可以从用户接收关于外部电子设备的控制的语音命令。例如,处理器410可以接收第一语音输入633,诸如“开启客厅灯......”。处理器410可以在显示器460上显示包括与第一语音输入633对应的文本信息631的第一用户界面630。根据各种实施例的处理器410可以提供第一语音输入633的一部分或全部作为文本信息631。例如,处理器410可以将第一语音输入633的“开启”识别为设备控制指令,并且可以将第一语音输入633的“客厅灯”识别为设备标识符。或者,当第一语音输入633是设备控制命令时,处理器410可以将“和”解释为无意义的词语(例如,连接词),并且可以在识别语音时移除“和”。
在接收到语音命令之前,根据各种实施例的处理器410可以与外部电子设备配对。或者,当显示器460关闭时,处理器410可以根据语音调用指令尝试与外部电子设备配对。处理器410可以向第三用户界面640提供设备控制应用的执行屏幕作为第一用户界面630,该设备控制应用显示外部电子设备的布置结构或者与语音命令对应的外部电子设备的位置以区别于其他外部电子设备。
当检测到或结束了第一语音输入633时,处理器410可以对EPD时间进行计数,并且可以确定在EDP时间到期之前是否检测到新的语音输入。当在EPD时间到期之前未检测到新的语音输入并且EPD时间到期时,处理器410可以确定最后的词语是否是预定的词语。例如,当最后的词语(例如,和)基于存储在存储器470中的信息对应于预定词语(例如,连接词)时,处理器410可以延长EPD时间并且可以等待输入来自用户的声音。处理器410可以从用户接收第二语音输入639以用于语音输入等待时间(例如,EPD时间)。例如,处理器410可以在显示第二用户界面635的同时接收第二语音输入639,第二用户界面635包括与显示器460上的第一用户界面630相同或相似的文本信息637。或者,处理器410可以在接收第二语音输入639的同时,显示在第二用户界面635上与第一语音输入633和第二语音输入639对应的文本信息641。
处理器410可以在显示器460上显示包括与第一语音输入633和第二语音输入639对应的文本信息641的第三用户界面600。当在第二语音输入639之后未检测到新的语音输入,EPD时间到期,并且最后的词语(例如,扬声器)不对应于预定词语时,处理器410可以处理与文本信息641对应的语音识别。例如,处理器410可以将文本信息641发送到语音处理服务器并从语音处理服务器接收“开启客厅灯并通过厨房扬声器播放音乐”的指令,并且可以控制开启客厅的灯光及通过厨房扬声器播放音乐。当根据语音识别处理完成语音命令时,处理器410可以在显示器460上显示包括命令完成消息647的第四用户界面645。当语音识别处理完成时,处理器410可以通过扬声器450输出与命令完成消息647对应的语音信息。
图6c是示出根据虚词和等待指令的检测来延长EPD时间的示例的视图。
参照图6c,电子设备400(例如,处理器410)可以接收关于从用户发送消息的语音命令。例如,处理器410可以接收第一语音输入653,诸如“向妻子发送消息,亲爱的我将......呃......那个......”。处理器410可以在显示器460上显示包括与第一语音输入653对应的文本信息651的第一用户界面650。根据各种实施例的处理器410可以提供第一语音输入653的一部分或全部作为文本信息651。
当检测到第一语音输入653或者第一语音输入653结束时,处理器410可以计算EPD时间并且可以确定在EPD时间到期之前是否检测到新的语音输入。当在EDP时间到期之前未检测到新的语音输入并且EDP时间到期时,处理器410可以确定最后的词语是否是预定的词语。例如,当最后的词语(例如,呃、那个)基于存储在存储器470中的信息对应于预定词语(例如,虚词)时,处理器410可以延长EPD时间并且可以等待来自用户的语音输入。处理器410可以从用户接收第二语音输入659以用于语音输入等待时间(例如,EPD时间)。例如,处理器410可以在显示器460上显示包括与第一用户界面650相同或相似的文本信息657的第二用户界面655。或者,处理器410可以在接收第二语音输入659的同时显示与第一语音输入653和第二语音输入659对应的文本信息(例如,亲爱的,我会等)。
当在第二语音输入659和EPD时间到期之后未检测到新的语音输入时,处理器410可以确定最后的词语(例如,等待)是否对应于预定的词语(例如,等待指令)。或者,处理器410可以确定在EPD时间到期之前接收的第二语音输入659是否对应于预定词语。例如,当最后的词语(例如,等待)对应于基于存储在存储器470中的信息的预定词语(例如,等待指令)时,处理器410可以延长EPD时间并且可以等待来自用户的语音输入。处理器410可以在语音输入等待时间(例如,EPD时间)期间从用户接收第三语音输入663。例如,处理器410可以在接收第三语音输入663的同时在第三用户界面660上显示与第一语音输入651和第三语音输入663对应的文本信息661。
处理器410可以在显示器460上显示包括与第一语音输入651和第三语音输入663对应的文本信息667的第四用户界面665。当在第三语音输入663之后未检测到新的语音输入,EPD时间到期,并且最后的词语(例如,今天)不对应于预定词语时,处理器410可以处理与文本信息667对应的语音识别。尽管未示出,当根据语音识别处理完成消息的发送时,处理器410可以在显示器460上显示包括发送完成消息的第五用户界面(例如,第四用户界面625)。当语音识别处理完成时,处理器410可以通过扬声器450输出与发送完成消息667对应的语音信息。
图7是示出根据各种实施例的用于在电子设备中收集个人词语的方法的流程图。
参照图7,在操作701中,电子设备400(例如,处理器410)可以识别语音命令失效。语音命令失效可以包括用户停止(或取消)语音命令的情况或者处理器410不处理语音识别的情况。当语音命令失效时,用户可以再次输入语音命令(例如,用户可以说话或输入语音)。
在操作703中,电子设备400(例如,处理器410)可以处理语音识别。例如,处理器410(例如,语音识别单元411)可以根据语音命令失效从用户接收语音输入,并且可以处理语音输入。
在操作705中,电子设备400(例如,处理器410)可以确定语音识别是否成功。例如,处理器400(例如,语音识别单元411)可以确定是否正确地执行了与在操作703中检测到的语音输入对应的功能。
当语音识别成功时,处理器410可以执行操作707,并且当语音识别不成功时,处理器410可以返回操作701。
在操作707中,电子设备400(例如,处理器410)可以根据识别出的语音提供服务(或功能)。操作707可以被包括在操作703中执行。在这种情况下,可以省略操作707。也就是说,当在操作703中提供根据语音识别的功能时,可以省略操作707。
在操作709中,电子设备400(例如,处理器410)可以确定语音识别是否相似于先前语音识别。例如,由于操作701中的语音识别失效,用户可以输入与先前语音命令相似或相同的语音命令。处理器410可以通过对先前语音命令(例如,先前语音识别)和当前语音命令(例如,当前语音识别)进行比较,在语音命令失效之后的预定时间内收集关于语音命令的个人词语。例如,处理器410可以确定操作701中失效的语音识别(例如,先前语音识别)与操作707中识别的语音识别之间的相似度。当先前语音识别与当前语音识别之间的相似度大于或等于预定比率(例如,70%)时,处理器410可以确定先前语音识别和当前语音识别彼此相似。
当前语音识别相似于先前语音识别时,处理器410可以执行操作711,并且当当前语音识别与先前语音识别不相似时,处理器410可以结束该过程。
在操作711中,电子设备400(例如,处理器410)可以分析文本信息。例如,处理器410可以分析先前语音识别和当前语音识别之间的不同部分的文本。可以基于通过执行语音到文本的操作而获得的文本信息来执行文本分析。
在操作713中,电子设备400(例如,处理器410)可以确定所分析的文本信息是否被检测到所选择的次数或更多次。处理器410可以将所分析的文本信息临时存储在存储器470中,或者可以将检测到文本信息的次数存储在存储器470中。处理器410可以确定检测到所分析的文本信息的次数是否是大于或等于所选择的次数(例如,5次或10次)。
当所分析的文本信息被检测到所选择的次数或更多次时,处理器410可以执行操作715,并且当所分析的文本信息未被检测到所选择的次数或更多次时,处理器410可以结束该过程。例如,当所分析的文本信息未被检测到所选择的次数或更多次时,处理器410可以将在存储器470中检测到的分析的文本信息的次数增加1,并且可以结束该过程。
在操作715中,电子设备400(例如,处理器410)可以将文本信息存储在个人数据库(DB)中。例如,当所分析的文本信息被检测到所选择的次数或更多次时,处理器410可以将检测到的文本信息存储在存储器470中作为个人词语。在这种情况下,处理器410可以在确定最后的词语是否对应于预定词语时参考存储在存储器470中的个人词语,这样用户结束语音的意图可以被更准确地分析出。可以根据每个用户对以这种方式收集的个人词语来进行收集和管理,如表2所示。
图8a至图8c是示出根据各种实施例的在电子设备中收集个人词语的示例的视图。
图8a是示出当通过用户请求取消语音命令时收集个人词语的示例的视图。
参照图8a,电子设备820可以从用户810接收第一语音输入811,并且可以识别第一语音命令821。然而,尽管用户810没有完成语音输入,但是电子设备820可以确定语音输入完成并且可以基于所输入的语音识别第一语音命令821。在这种情况下,用户810可以说出语音取消输入813。电子设备820可以接收语音取消输入813并且可以处理取消命令823。用户可以在语音取消输入813后再次说出与第一语音输入811相似的第二语音输入815。
当在执行取消命令823之后接收到与第一语音输入811相同或相似的第二语音输入815时,电子设备820可以处理关于第二语音输入815的语音识别。例如,电子设备820可以根据第二语音输入815发送消息。在发送消息之后,电子设备820可以确定第一语音输入811与第二语音输入815之间的相似度,并且当相似度高时,电子设备820可以分析第一语音输入811与第二语音输入815之间的改变后的文本信息(例如,“你知道”)而后可以将文本信息存储在个人DB 830中。此后,基于存储在个人DB 830中的个人词语,当最后的词语对应于个人词语时,电子设备820可以延长EPD时间。
根据各种实施例的电子设备820可以根据用户的特性(例如,语速、语音习惯)将EPD时间设置为不同。例如,当在预定时间段内检测到特定词语(例如,虚词、连接词、等待指令)作为分析用户的语音历史(例如,习惯、速度)的结果时,电子设备820可以将平均总EPD时间延长为N+M秒。在这种情况下,当基于用户的特征检测到特定词语的输入时,电子设备820可以将EPD时间延长为N+M秒。
图8b是示出当语音命令失效时收集个人词语的示例的视图。
参照图8b,电子设备820可以从用户810接收第一语音输入817,并且可以输出关于语音识别失效的反馈825。例如,当电子设备820响应于所接收的第一语音输入817没有找到要执行的功能或者未能将输入的语音信息转换为文本信息时,电子设备820可以输出识别失效反馈825。例如,由于包括在第一语音输入817中的虚词(例如,我的意思是),电子设备820可能找不到与第一语音输入817对应的功能。在这种情况下,用户810可以再次更准确地说出相似于第一语音输入817的第二语音输入819。例如,用户810可以说出除第一语音输入817中的空单词之外的语音输入作为第二语音输入819以输入更精确的语音命令。
当在输出识别失效反馈825之后接收到第二语音输入819时,电子设备820可以处理关于第二语音输入819的语音识别。例如,电子设备820可以根据第二语音输入819(例如,将文件发送给收件人,杰克)发送消息(或电子邮件)。在完成消息(或电子邮件)的发送之后,电子设备820可以确定第一语音输入817和第二语音输入819之间的相似度,当相似度高时,电子设备820可以分析第一语音输入817与第二语音输入819之间改变了的文本信息(例如,我的意思是),并且可以将文本信息存储在个人DB 830中。当最后的词语基于存储在个人DB 830中的多个个人词语而对应于一个个人词语,电子设备820可以延长EPD时间。
图8c是示出根据各种实施例的分析电子设备中的个人词语的示例的视图。
参照图8c,电子设备820可以通过执行双语音命令比较操作850、失效的语音命令收集操作860、词语提取操作870和词语检测计数的次数的操作890来将个人词语存储在个人DB 830中。例如,比较操作850可以是比较第一语音命令(例如,先前语音命令)和第二语音命令(例如,重新识别的语音命令)的操作。电子设备820可以在比较操作850中分析两个语音命令之间的文本信息。收集操作860可以是分析关于失效的语音命令的文本信息的操作。电子设备820可以通过比较操作850和收集操作860来执行在语音命令(操作870)中包括的词语中提取重复的无意义词的操作。计数操作890可以是检测到重复词语的次数是否大于或等于预定次数。
当在准备好个人DB 830之后从用户810接收到第一语音输入841时,电子设备820可以确定第一语音输入841是否包括存储在个人DB 830中的个人词语。当第一语音输入841包括个人词语时,电子设备820可以延长EPD时间并且可以等待接收语音输入。电子设备820可以在等待接收语音输入的同时接收第二语音输入843。电子设备820可以基于包括第一语音输入841和第二语音输入843的文本信息来处理语音识别功能845。
根据各种实施例的电子设备820基于诸如用户的语调、习惯、说话方式等个人特征来准备个人DB 830,使得可以更精确地确定用户结束语音的意图。
图9是示出根据各种实施例的用于在电子设备中感测语音结束的方法的流程图。
参照图9,在操作901中,电子设备400(例如,处理器410)可以接收语音输入。处理器410(例如,语音输入单元411)可以检测是否从麦克风420输入声音。操作901与图5的操作501相似或相同。因此,省略其详细说明。
在操作903中,电子设备400(例如,处理器410)可以计算EPD时间。例如,EPD时间可以是用于确定语音输入结束的等待时间,并且可以指示输入等待时间或麦克风记录等待时间。操作903与图5的操作503相似或相同。因此,省略其详细说明。
在操作905中,电子设备400(例如,处理器410)可以确定EPD时间是否到期。处理器410(例如,EPD时间控制单元413)可以对EPD时间进行计数,然后可以连续地确定EPD时间是否到期。
当EPD时间未到期时,处理器410可以执行操作915,并且当EPD时间到期时,处理器410可以执行操作907。
当EPD时间未到期时,电子设备400(例如,处理器410)可以在操作915中确定是否检测到语音输入。处理器410(例如,语音识别单元411)可以确定在EPD时间到期之前是否检测到新的语音输入。
当检测到语音输入时,处理器410可以执行操作917,当未检测到语音输入时,处理器410可以返回到操作905。
当检测到语音输入时,电子设备400(例如,处理器410)可以在操作917中延长EPD时间。当检测到的语音输入达EPD时间时,处理器410(例如,EPD时间控制单元413)可以重新计算EPD时间。处理器410可以从检测到的语音输入结束的时间开始计算EPD时间。
在操作907中,当EPD时间到期时,电子设备400(例如,处理器410)可以确定最后的词语是否是所选择的词语。最后的词语可以是与由用户最后输入的语音信息对应的文本信息的全部或一部分。例如,当在最后的词语之后未检测到语音输入并且EPD时间到期时,处理器410(例如,语言确定单元415)可以确定最后的词语是否是预定词语。
当最后的词语是所选择的词语时,处理器410可以执行操作917,当最后的词语不是所选择的词语时,处理器410可以执行操作909。
在操作909中,电子设备400(例如,处理器410)可以确定是否检测到预定手势。处理器410(例如,手势确定单元417)可以确定从相机430或传感器(例如,运动传感器)检测到的用户手势是否是预定手势。由于用户在输入语音时不记得确切的词语,用户可以在思考其希望说出的词语的同时做出特定的手势。例如,用户可以在说话时抬起用户的眉毛或移动用户的手。此外,用户可以在思考时向上看和向右看,或者可以倾斜用户的头部。或者,当用户结束(或停止)说话时,用户可能不会移动用户的手。处理器410可以确定是否检测到包括通用手势或个人手势的预定手势。例如,处理器410可以确定在EPD时间到期之后或在EPD时间到期之前检测到的手势是否是预定手势。
尽管图9描绘了首先执行操作907然后执行操作909,但是可以首先执行操作909然后可以执行操作907,或者可以同时执行操作907和操作909。这是一种简单的设计变更,操作顺序不受附图的限制。
当检测到预定手势时,处理器410可以执行操作917,并且当未检测到预定手势时,处理器410可以执行操作911。
在操作911中,电子设备400(例如,处理器410)可以确定语音输入已完成。例如,当EPD时间到期时,最后的词语不是所选择的词语,并且检测到的手势不是预定手势,处理器410(例如,语音识别单元411)可以确定用户具有结束语音输入的意图。操作911与图5的操作509相似或相同。因此,省略其详细说明。
在操作913中,电子设备400(例如,处理器410)可以处理语音识别。处理器410(例如,语音识别单元411)可以根据用户的语音输入提供服务。操作913与图5的操作511相似或相同。因此,省略其详细描述。
根据各种实施例的处理器410可以确定检测到语音输入时的EPD延长时间、检测到预定词语时的EPD延长时间,或者当检测到预定手势是相同的或不同的时的EPD延长时间。处理器410可以基于用户的设置或电子设备400的设置将EPD延长时间设置为相等或不同。
图10是示出根据各种实施例的用于在电子设备中感测语音结束的方法的另一流程图。
参照图10,在操作1001中,电子设备400(例如,处理器410)可以接收语音输入。处理器410(或语音识别单元411)可以检测是否从麦克风420输入声音。操作1001与图5的操作501相似或相同。因此,省略其详细说明。
在操作1003中,电子设备400(例如,处理器410)可以计算EPD时间。例如,EPD时间是用于确定语音输入结束的等待时间,并且可以指示输入等待时间或麦克风记录等待时间。操作1003与图5的操作503相似或相同。因此,省略其详细说明。
在操作1005中,电子设备400(例如,处理器410)可以确定EPD时间是否到期。处理器410(例如,EPD时间控制单元413)可以对EPD时间进行计数,然后可以连续地确定EPD时间是否到期。
当EPD时间未到期时,处理器410可以执行操作1013,而当EPD时间到期时,处理器410可以执行操作1007。
当EPD时间未到期时,电子设备400(例如,处理器410)可以在操作1013中确定是否检测到语音输入。处理器410(例如,语音识别单元411)可以在EPD时间到期之前确定是否检测到新的语音输入。
当检测到语音输入时,处理器410可以执行操作1015,而当未检测到语音输入时,处理器410可以返回到操作1005。
当检测到语音输入时,电子设备400(例如,处理器410)可以在操作1005中延长EPD时间。当检测到语音输入达EPD时间时,处理器410(例如,EPD时间控制单元413)可以重新计算EPD时间。
当EPD时间到期时,电子设备400(例如,处理器410)可以在操作1007中确定根据语音输入的句子是否完成。在语法上句子完整的情况下,用户完成语音的可能性是高的,但在句子不完整的情况下,用户继续说话的可能性很高。处理器410可以基于句子是否完整来确定是否延长EPD时间。为了实现这一点,处理器410可以分析与在操作1001或1013中输入的语音信息对应的文本信息,并且可以基于所分析的文本信息确定句子是否完整。根据各种实施例,处理器410可以确定句子是否未完成并且需要用于完成句子的基本词语。当不需要基本词语时,处理器410可以确定尽管句子未完成但语音输入已完成。或者,当需要基本词语时,处理器410可以延长EPD时间以接收附加语音输入。
根据各种实施例的处理器410可以收集电子设备400的场境信息,并且可以基于场境信息确定是否执行确定句子是否完成的操作1007。例如,句子可能没有完成,但是在执行与语音命令对应的功能时可能没有问题。因此,基于语音命令的类型,即使在句子未完成时,处理器410也可以确定语音输入已完成。
当句子完成时,处理器410可以执行操作1009,而当句子未完成时,处理器410可以返回操作1015。
在操作1009中,电子设备400(例如,处理器410)可以确定语音输入已完成。例如,当EPD时间到期时,最后的词语不是所选择词语,并且检测到的手势不是预定手势,则处理器410(例如,语音识别单元411)可以确定用户具有结束语音输入的意图。操作1009与图5的操作509相似或相同。因此,省略其详细说明。
在操作1011中,电子设备400(例如,处理器410)可以处理语音识别。处理器410(例如,语音识别单元411)可以根据用户的语音输入提供服务。操作1011与图5的操作511相似或相同,因而省略其详细说明。
根据各种实施例的处理器410可以确定检测到语音输入时的EPD延长时间或者句子未完成时EPD延长时间是相等还是不同。处理器410可以基于用户的设置或电子设备400的设置将EPD延长时间设置为相等或不同。
图11是示出根据各种实施例的在电子设备中确定句子是否完成的示例的视图。
参照图11,电子设备400(例如,处理器410)可以基于语音命令的类型(例如,发送照片的命令)来确定句子是否完成。当输入所有的动词111(发送)、对象113(该照片)和接收者1115(杰克)时,处理器410可以将与发送照片有关的语音命令1110解释为完整句子。处理器410可以处理从用户输入的语音信息,并且可以识别语音命令1110。例如,处理器410可以删除语音信息(例如,把这张照片发给杰克)中包括的多个词语中的无意义的词语(例如,介词)。
当接收到仅包括动词1121和对象1123的第一语音命令1120时,处理器410可以确定该句子是不完整的句子。在这种情况下,当接收到第一语音命令1120时,处理器410可以延长EPD时间。或者,当仅包括动词1131和对象1133的第二语音命令1130时,处理器410可以确定该句子是不完整的句子。在这种情况下,当除了动词1131和对象1133之外还检测到附加词语(向,好),但是没有找到与附加词语相关的接收者时,处理器410可以确定该句子是不完整的句子。当接收到第二语音命令1130时,处理器410可以延长EPD时间。当接收到第一语音命令1120或第二语音命令1130时,处理器410可以延长EPD时间并因此可以接收第三语音命令1140。第三语音命令1140可以被配置为包括所有的动词1141、对象1143和接收者1145的完整句子。处理器410还接收与接收者1145对应的语音输入达EPD延长时间,从而可以获得完成的第三语音命令1140。
图12是示出根据各种实施例的使用用户结束的意图来感测语音结束的方法的流程图。
参照图12,在操作1201中,电子设备400(例如,处理器410)可以接收语音输入。处理器410(例如,语音识别单元411)可以检测是否从麦克风420输入声音。操作1201与图5的操作501相似或相同。因此,省略其详细描述。
在操作1203中,电子设备400(例如,处理器410)可以计算EPD时间。例如,EPD时间可以是用于确定语音输入结束的等待时间,并且可以指示输入等待时间或麦克风记录等待时间。操作1203与图5的操作503相似或相同。因此,省略其详细描述。
在操作1205中,电子设备400(例如,处理器410)可以分析用户结束语音的意图(或继续语音的意图)。例如,处理器410可以基于电子设备400的场境信息、用户的特征信息、是否检测到附加语音输入、是否检测到预定词语、是否检测到预定手势,或者句子是否完整中的至少一个来分析用户结束语音的意图。例如,电子设备400可以基于电子设备400的场境信息或用户的特征信息来确定EPD时间,并且可以当在EPD时间内检测到附加语音输入、预定词语、预定手势或不完整句子中的至少一个时,确定用户具有继续说话的意图(例如,没有结束语音的意图)。
根据各种实施例的处理器410可以给静音检测时间、是否检测到预定词语、是否检测到预定手势或者句子是否完整中的至少一个以不同的点。根据各种实施例的处理器410可以给静音检测时间、是否检测到预定词语、是否检测到预定手势或者句子是否完整中的至少一个元素分配不同的权重值,并且可以计算总数点。
表3
参考表3,当没有声音输入的静音检测时间增加时,处理器410可以给出更高的点。当检测到预定语言(例如,虚词、连接词、等待指令)时,处理器410可以给出设定点(例如,4个点)。当冗余地检测到预定语言时(例如,检测到虚词并且检测到连接词),处理器410可以分别地给出点。当句子完成时,处理器410可以给出第一点(例如,1点),当句子未完成时,处理器410可以给出第二点(例如,4点)。当检测到预定手势时,处理器410可以给出设定点(例如,4点)。当双重检测到不同的设置手势时,处理器410可以分别地给出点。处理器410可以通过将各个给定点乘以权重值来计算与语音结束相关的用户意图指数。
在操作1207中,电子设备400(例如,处理器410)可以确定意图指数是否超过阈值(例如,3个点)。当意图指数较高时,处理器410可以确定不存在结束意图(例如,存在继续说话的意图),当意图指数较低时,处理器410可以确定存在结束的意图(例如,存在结束讲话的意图)。或者,反过来也是可能的。
当意图指数超过阈值时,处理器410可以执行操作1213,当意图指数未超过阈值时,处理器410可以执行操作1209。
在操作1213中,电子设备400(例如,处理器410)可以延长EPD时间。根据各种实施例的处理器410可以基于意图指数来改变EPD延长时间。例如,当意图指数较高时,处理器410可以将EPD延长时间设置为更长(例如,5秒),当意图指数更低时,处理器410可以将EPD延长时间设置为更短(例如,3秒)。或者,处理器410可以固定EPD延长时间而不管意图指数。
当意图指数未超过阈值时,电子设备400(例如,处理器410)可以在操作1209中确定语音输入已完成。例如,当EPD时间到期且意图指数低时(例如,继续说话的意图很低),处理器410(例如,语音识别单元411)可以确定用户具有结束语音输入的意图。操作1209与图5的操作509相似或相同。因此,省略其详细描述。
在操作1211中,电子设备400(例如,处理器410)可以处理语音识别。处理器400(例如,语音识别单元411)可以根据用户的语音输入提供服务。操作1211与图5的操作511相似或相同。因此,省略其详细说明。
图13是示出根据各种实施例的用于根据场境信息控制EPD时间的方法的流程图。
参照图13,在操作1301中,电子设备400(例如,处理器410)可以接收对语音服务的请求。语音服务请求可以由用户生成。当正在执行特定应用,显示主屏幕时或者当显示器460关闭时,用户可以请求语音服务。例如,当检测到语音调用指令,选择特定按钮,用户选择特定功能(例如,语音识别功能),或者检测到特定手势/脸部/眼睛时,处理器410可以确定请求了语音服务。
在操作1303中,电子设备400(例如,处理器410)可以收集(或获得)场境信息。场境信息可以指电子设备400的状态信息。处理器410可以在请求语音服务时分析、收集或获得电子设备400的场境信息。例如,处理器410可以在请求语音服务时识别正在执行的应用、显示器460的显示状态和通信单元440的网络状态中的至少一个。
在操作1305中,电子设备400(例如,处理器410)可以根据场境信息确定(或设置)EPD时间。EPD时间用于确定用户语音的结束,并且根据场境信息可以是短的或长的。
表4显示了根据每个类别和每个元素的EPD时间。
表4
参照表4,处理器410可以根据请求语音服务的交互方法设置或不设置EPD时间。或者,处理器410可以为稍微复杂的语音命令(或应用、功能)(诸如消息、日程(或日历)等)设置长的EPD时间,可以为简单的语音命令(诸如呼叫、开灯等)设置短的EPD时间,并且对于需要连续输入接收的语音命令(诸如购物清单、音乐控制等)可以不设置EPD时间或者可以设置比复杂语音命令长的EPD时间。另外,处理器410可以根据对话阶段或个人特征来设置不同的EPD时间。例如,由于语速因用户而异,处理器410可以通过考虑用户的语速而将EPD时间调整为长或短。
在操作1307中,电子设备400(例如,处理器410)可以接收语音输入。处理器410(例如,语音识别单元411)可以检测是否从麦克风420输入声音。操作1307与图5的操作501相似或相同。因此,省略其详细说明。
在操作1309中,电子设备400(例如,处理器410)可以确定EPD时间是否到期。当接收到语音输入时,处理器410可以对在操作1305中确定的EPD时间进行计数,并且可以确定所计数的EPD时间是否到期。
当EPD时间到期时,处理器410可以执行操作1311,当EPD时间未到期时,处理器410可以执行操作1309。
当EPD时间到期时,电子设备400(例如,处理器410)可以在操作1311中确定延长EPD时间。例如,处理器410可以以上述各种流程图中包括的方法确定用户的语音是否结束,并且可以确定延长EPD时间来作为确定的结果。
在操作1313中,电子设备400(例如,处理器410)可以识别当前场境。当前场境信息可以与在操作1303中获得的场境信息相同或不同。处理器410可以在延长EPD时间之前再次识别当前场境信息。
在操作1315中,电子设备400(例如,处理器410)可以根据场境改变EPD延长时间。根据与EPD时间相同或相似的方式的场境信息,EPD延长时间可以短或长。例如,处理器410可以在输入消息接收者时设置EPD延长时间(例如,3秒),并且当输入消息内容彼此不同时设置EPD延长时间(例如,10秒)。也就是说,即使在执行相同的消息应用时,EPD延长时间也可以根据当前场境而不同。
图14是示出根据各种实施例的电子设备的示例的视图。
参照图14,在各种实施例中,电子设备1400可以包括包括了与语音识别和麦克风相关的元件的各种设备。在各种实施例中,电子设备1400可以包括能够通过麦克风接收用户说出的语音并提供语音识别服务的各种类型的设备。例如,电子设备1400可以包括智能手机1410、计算机1420(例如,个人计算机、笔记本等)、蓝牙扬声器1430、物联网(IoT)设备1440、电视机1450、或冰箱1460。根据各种实施例的电子设备1400及其语音识别服务方法可以通过除了上述配置的各种设备实现,诸如平板PC、自动信息娱乐设备、洗衣机、空调等。
根据各种实施例,电子设备1410、1420、1430、1440、1450、1460可以包括能够执行的它们各自的域列表。例如,电子设备1410、1420、1430、1440、1450、1460可以基于设备能够执行的功能来设置域列表。在各种实施例中,域可以指示可以由每个设备1410、1420、1430、1440、1450、1460通过使用语音识别服务来执行的功能或任务。根据实施例,在电话机的情况下,可以设置包括呼叫、消息、音乐等的域。根据实施例,在TV的情况下,可以设置包括频道、音量、音乐等的域。根据实施例,在冰箱的情况下,可以设置包括食谱、温度控制、天气等的域。
表5显示了适用于与设备相关的每个域的想法。
表5
参照表5,电子设备1410、1420、1430、1440、1450、1460可以分析每个域中的语音模式,并且可以基于语音模式来设置用于确定用户结束语音的意图的不同语言或方法。例如,智能手机1410可以包括根据域的语音模式(例如,共享内容、消息、日程、餐馆预订等),并且可以基于语音模式来设置用于确定用户结束语音的意图的不同语言或方法。例如,在与语音命令相关的发送消息的情况下,智能手机1410可以确定在语音信息中是否包括虚词。在与日程安排相关的语音命令的情况下,智能手机1410可以确定语音信息是否包括连接词。为此,可以更精确地确定用户结束语音的意图。在与餐馆预订相关的语音命令的情况下,智能手机1410可以在用户的手势中检测眼睛,并且通过确定用户的眼睛是否对应于预定手势,可以更准确地确定用户结束语音的意图。
根据各种实施例,电子设备的操作方法可以包括:基于语音输入对EPD时间进行计数;当EPD时间到期时,确定语音输入的最后的词语是否对应于存储在存储器中的预定词语;以及,当最后的词语对应于预定词语时,延长EPD时间并等待接收语音输入。
预定词语可以包括通用词和个人词语,并且该方法还可以包括:确定语音命令失效后,识别的语音命令与先前语音命令之间的相似度;以及根据相似程度收集个人词语。
所述收集可以包括分析语音命令和先前语音命令之间的所改变的文本信息,并且当所改变的文本信息被检测到预定次数或更多次时,用文本信息来更新个人词语。
该方法还可以包括:当EPD时间到期时,确定是否检测到预定手势,并且当检测到预定手势时,延长EPD时间。
该方法还可以包括:当EPD时间到期时,确定根据语音输入的句子是否完成,并且当确定句子未完成时,延长EPD时间。
该方法还可以包括基于电子设备的场境信息和用户的特征信息来确定EPD时间或EPD延长时间。
该方法还可以包括基于电子设备的场境信息、用户的特征信息、是否检测到附加语音输入、是否检测到预定词语、是否检测到预定手势或句子是否完成来分析用户结束语音的意图。
根据各种实施例的计算机可读记录介质可以包括用于执行以下操作的程序:基于语音输入对EPD时间进行计数;当EPD时间到期时,确定语音输入的最后的词语是否对应于存储在存储器中的预定词语;以及,当最后的词语对应于预定词语时,延长EPD时间并等待接收语音输入。
计算机可读记录介质可以包括硬盘、软盘、磁介质(例如,磁带)、光学介质(例如,光盘只读存储器(CD-ROM)和数字通用光盘(DVD))、磁光介质(例如,光磁软盘))或内部存储器。而且,指令可以包括由编译器生成的代码或由解释器可执行的代码。根据各种实施例的模块或程序模块可以包括一个或更多个上述元件,可以省略一些元件,或者可以进一步包括其他元件。根据各种实施例,由模块、程序或另一组件执行的操作可以顺序地、并行地、重复地或启发式地被执行,或者一个或更多个操作可以以不同的顺序被执行或被省略,或者可以添加一个或更多个其它操作。
另外,本公开和附图中公开的实施例是为了便于解释和理解所公开的技术特征而提出的,并不旨在限制本公开的范围。因此,本公开的范围应该被解释为除了本文公开的实施例之外,还包括基于本公开的技术构思而得出的所有变化或修改形式。
Claims (15)
1.一种电子设备,所述电子设备包括:
麦克风;
存储器;以及
处理器,所述处理器功能地连接到所述麦克风或所述存储器,
其中,所述处理器被配置为:基于语音输入,对结束点检测EPD时间进行计数;当所述EPD时间到期时,确定所述语音输入的最后的词语是否对应于存储在所述存储器中的预定词语;以及当所述最后的词语对应于所述预定词语时,延长所述EPD时间,并等待接收语音输入。
2.根据权利要求1所述的电子设备,其中,所述处理器被配置为:当所述最后的词语对应于包括虚词、连接词或等待指令中的至少一种的预定词语时,延长所述EPD时间。
3.根据权利要求1所述的电子设备,其中,所述处理器被配置为:当在所述EPD时间到期之前检测到附加语音输入时,延长所述EPD时间。
4.根据权利要求1所述的电子设备,其中,所述预定词语包括通用词和个人词语,并且
其中,所述处理器被配置为:确定在语音命令失效之后识别出的语音命令与先前语音命令之间的相似度,并且基于所述相似度来收集所述个人词语。
5.根据权利要求4所述的电子设备,其中,所述处理器被配置为:分析所述语音命令与所述先前语音命令之间改变的文本信息,并且当所述改变的文本信息被检测到预定次数或更多时,用所述文本信息更新所述个人词语。
6.根据权利要求1所述的电子设备,其中,所述处理器被配置为:当所述EPD时间到期时,确定是否检测到预定手势,并且当检测到所述预定手势时,延长所述EPD时间。
7.根据权利要求1所述的电子设备,其中,所述处理器被配置为:当所述EPD时间到期时,确定根据所述语音输入的句子是否完成,并且当确定所述句子未完成时,延长所述EPD时间。
8.根据权利要求7所述的电子设备,其中,所述处理器被配置为:基于根据所述语音输入的语音命令的类型,确定是否执行确定所述句子是否完成的操作。
9.根据权利要求1所述的电子设备,其中,所述处理器被配置为:根据固定值延长所述EPD时间;或者将所述EPD时间改变成与场境识别对应的值,并根据改变后的值延长所述EPD时间。
10.根据权利要求1所述的电子设备,其中,所述处理器被配置为:基于所述电子设备的场境信息和用户的特征信息,确定所述EPD时间或EPD延长时间。
11.根据权利要求1所述的电子设备,其中,所述处理器被配置为:基于所述电子设备的场境信息、用户的特征信息、是否检测到附加语音输入、是否检测到预定词语、是否检测到预定手势或者句子是否完成中的至少一种,分析用户结束语音的意图。
12.根据权利要求11所述的电子设备,其中,所述处理器被配置为:将权重值或点给予静音检测时间、是否检测到预定词语、是否检测到预定手势或者句子是否完成中的至少一种,并且当结束意图指数大于或等于预定指数时,延长所述EPD时间。
13.根据权利要求12所述的电子设备,其中,所述处理器被配置为:基于所述结束意图指数,改变EPD延长时间。
14.一种电子设备的操作方法,所述方法包括:
基于语音输入,对结束点检测EPD时间进行计数;
当所述EPD时间到期时,确定所述语音输入的最后的词语是否对应于存储在存储器中的预定词语;以及
当所述最后的词语对应于所述预定词语时,延长所述EPD时间,并等待接收语音输入。
15.根据权利要求14所述的方法,其中,所述预定词语包括通用词和个人词语,并且
其中,所述方法还包括:
确定在语音命令失效后识别出的语音命令与先前语音命令之间的相似度;以及
基于所述相似度,收集所述个人词语。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2017-0007951 | 2017-01-17 | ||
KR1020170007951A KR20180084394A (ko) | 2017-01-17 | 2017-01-17 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
PCT/KR2017/013397 WO2018135743A1 (ko) | 2017-01-17 | 2017-11-23 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110199350A true CN110199350A (zh) | 2019-09-03 |
CN110199350B CN110199350B (zh) | 2023-09-26 |
Family
ID=62909023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780083799.7A Active CN110199350B (zh) | 2017-01-17 | 2017-11-23 | 用于感测语音结束的方法和实现该方法的电子设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11211048B2 (zh) |
EP (1) | EP3570275B1 (zh) |
KR (1) | KR20180084394A (zh) |
CN (1) | CN110199350B (zh) |
AU (1) | AU2017394767A1 (zh) |
WO (1) | WO2018135743A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN112825248A (zh) * | 2019-11-19 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 语音处理方法、模型训练方法、界面显示方法及设备 |
WO2021218591A1 (zh) * | 2020-04-27 | 2021-11-04 | 佛山市顺德区美的洗涤电器制造有限公司 | 语音处理方法及装置、家电设备和可读存储介质 |
CN113744726A (zh) * | 2021-08-23 | 2021-12-03 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN114203204A (zh) * | 2021-12-06 | 2022-03-18 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7500746B1 (en) | 2004-04-15 | 2009-03-10 | Ip Venture, Inc. | Eyewear with radiation detection system |
US8109629B2 (en) | 2003-10-09 | 2012-02-07 | Ipventure, Inc. | Eyewear supporting electrical components and apparatus therefor |
US11630331B2 (en) | 2003-10-09 | 2023-04-18 | Ingeniospec, Llc | Eyewear with touch-sensitive input surface |
US11829518B1 (en) | 2004-07-28 | 2023-11-28 | Ingeniospec, Llc | Head-worn device with connection region |
US11644693B2 (en) | 2004-07-28 | 2023-05-09 | Ingeniospec, Llc | Wearable audio system supporting enhanced hearing support |
US11852901B2 (en) | 2004-10-12 | 2023-12-26 | Ingeniospec, Llc | Wireless headset supporting messages and hearing enhancement |
US11733549B2 (en) | 2005-10-11 | 2023-08-22 | Ingeniospec, Llc | Eyewear having removable temples that support electrical components |
US12044901B2 (en) | 2005-10-11 | 2024-07-23 | Ingeniospec, Llc | System for charging embedded battery in wireless head-worn personal electronic apparatus |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN109559759B (zh) * | 2017-09-27 | 2021-10-08 | 华硕电脑股份有限公司 | 具备增量注册单元的电子设备及其方法 |
KR20190084789A (ko) * | 2018-01-09 | 2019-07-17 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
US10777048B2 (en) | 2018-04-12 | 2020-09-15 | Ipventure, Inc. | Methods and apparatus regarding electronic eyewear applicable for seniors |
KR102612835B1 (ko) * | 2018-04-20 | 2023-12-13 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
CN108769432B (zh) | 2018-07-27 | 2020-02-11 | Oppo广东移动通信有限公司 | 主耳机切换方法以及移动终端 |
KR20200045851A (ko) * | 2018-10-23 | 2020-05-06 | 삼성전자주식회사 | 음성 인식 서비스를 제공하는 전자 장치 및 시스템 |
US11893982B2 (en) | 2018-10-31 | 2024-02-06 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method therefor |
CN109524001A (zh) * | 2018-12-28 | 2019-03-26 | 北京金山安全软件有限公司 | 一种信息处理方法、装置及儿童穿戴设备 |
US11741951B2 (en) * | 2019-02-22 | 2023-08-29 | Lenovo (Singapore) Pte. Ltd. | Context enabled voice commands |
KR102279319B1 (ko) * | 2019-04-25 | 2021-07-19 | 에스케이텔레콤 주식회사 | 음성분석장치 및 음성분석장치의 동작 방법 |
US20210337274A1 (en) * | 2019-05-02 | 2021-10-28 | Lg Electronics Inc. | Artificial intelligence apparatus and method for providing visual information |
US11770872B2 (en) * | 2019-07-19 | 2023-09-26 | Jvckenwood Corporation | Radio apparatus, radio communication system, and radio communication method |
CN110459224B (zh) * | 2019-07-31 | 2022-02-25 | 北京百度网讯科技有限公司 | 语音识别结果处理方法、装置、计算机设备及存储介质 |
EP4037328A4 (en) * | 2019-09-27 | 2023-08-30 | LG Electronics Inc. | ARTIFICIAL INTELLIGENCE DISPLAY DEVICE AND SYSTEM |
US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR20210089347A (ko) * | 2020-01-08 | 2021-07-16 | 엘지전자 주식회사 | 음성 인식 장치 및 음성데이터를 학습하는 방법 |
CN113362828B (zh) * | 2020-03-04 | 2022-07-05 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
KR20210148580A (ko) * | 2020-06-01 | 2021-12-08 | 엘지전자 주식회사 | 서버 및 이를 포함하는 시스템 |
US12039968B2 (en) * | 2020-09-30 | 2024-07-16 | Qualcomm Incorporated | Target keyword selection |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
KR20220112596A (ko) * | 2021-02-04 | 2022-08-11 | 삼성전자주식회사 | 음성 인식을 지원하는 전자 장치 및 그 동작 방법 |
US11870835B2 (en) * | 2021-02-23 | 2024-01-09 | Avaya Management L.P. | Word-based representation of communication session quality |
EP4152322A1 (de) * | 2021-09-16 | 2023-03-22 | Siemens Healthcare GmbH | Verfahren zur verarbeitung eines audiosignals, verfahren zur steuerung einer vorrichtung und zugehöriges system |
WO2023182718A1 (en) * | 2022-03-24 | 2023-09-28 | Samsung Electronics Co., Ltd. | Systems and methods for dynamically adjusting a listening time of a voice assistant device |
US11908473B2 (en) * | 2022-05-10 | 2024-02-20 | Apple Inc. | Task modification after task initiation |
WO2024005226A1 (ko) * | 2022-06-29 | 2024-01-04 | 엘지전자 주식회사 | 디스플레이 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920948A (zh) * | 2005-08-24 | 2007-02-28 | 富士通株式会社 | 语音识别系统及语音处理系统 |
US20100179812A1 (en) * | 2009-01-14 | 2010-07-15 | Samsung Electronics Co., Ltd. | Signal processing apparatus and method of recognizing a voice command thereof |
US20140028826A1 (en) * | 2012-07-26 | 2014-01-30 | Samsung Electronics Co., Ltd. | Voice recognition method and apparatus using video recognition |
CN104780263A (zh) * | 2015-03-10 | 2015-07-15 | 广东小天才科技有限公司 | 一种语音断点延长判断的方法及装置 |
WO2016191352A1 (en) * | 2015-05-26 | 2016-12-01 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US20160358598A1 (en) * | 2015-06-07 | 2016-12-08 | Apple Inc. | Context-based endpoint detection |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6873953B1 (en) | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
JP4906379B2 (ja) | 2006-03-22 | 2012-03-28 | 富士通株式会社 | 音声認識装置、音声認識方法、及びコンピュータプログラム |
JP5382780B2 (ja) | 2009-03-17 | 2014-01-08 | 株式会社国際電気通信基礎技術研究所 | 発話意図情報検出装置及びコンピュータプログラム |
KR101581883B1 (ko) | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
JP2011257529A (ja) | 2010-06-08 | 2011-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 保留関連発話抽出方法、装置及びプログラム |
KR20130134620A (ko) | 2012-05-31 | 2013-12-10 | 한국전자통신연구원 | 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법 |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
KR102229972B1 (ko) | 2013-08-01 | 2021-03-19 | 엘지전자 주식회사 | 음성 인식 장치 및 그 방법 |
US10339917B2 (en) * | 2015-09-03 | 2019-07-02 | Google Llc | Enhanced speech endpointing |
US9747926B2 (en) * | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US10269341B2 (en) * | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
KR102495517B1 (ko) * | 2016-01-26 | 2023-02-03 | 삼성전자 주식회사 | 전자 장치, 전자 장치의 음성 인식 방법 |
US10339918B2 (en) * | 2016-09-27 | 2019-07-02 | Intel IP Corporation | Adaptive speech endpoint detector |
-
2017
- 2017-01-17 KR KR1020170007951A patent/KR20180084394A/ko active Search and Examination
- 2017-11-23 US US16/478,702 patent/US11211048B2/en active Active
- 2017-11-23 WO PCT/KR2017/013397 patent/WO2018135743A1/ko unknown
- 2017-11-23 EP EP17892640.8A patent/EP3570275B1/en active Active
- 2017-11-23 AU AU2017394767A patent/AU2017394767A1/en not_active Abandoned
- 2017-11-23 CN CN201780083799.7A patent/CN110199350B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1920948A (zh) * | 2005-08-24 | 2007-02-28 | 富士通株式会社 | 语音识别系统及语音处理系统 |
US20100179812A1 (en) * | 2009-01-14 | 2010-07-15 | Samsung Electronics Co., Ltd. | Signal processing apparatus and method of recognizing a voice command thereof |
US20140028826A1 (en) * | 2012-07-26 | 2014-01-30 | Samsung Electronics Co., Ltd. | Voice recognition method and apparatus using video recognition |
CN104780263A (zh) * | 2015-03-10 | 2015-07-15 | 广东小天才科技有限公司 | 一种语音断点延长判断的方法及装置 |
WO2016191352A1 (en) * | 2015-05-26 | 2016-12-01 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US20160358598A1 (en) * | 2015-06-07 | 2016-12-08 | Apple Inc. | Context-based endpoint detection |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
CN112825248A (zh) * | 2019-11-19 | 2021-05-21 | 阿里巴巴集团控股有限公司 | 语音处理方法、模型训练方法、界面显示方法及设备 |
WO2021218591A1 (zh) * | 2020-04-27 | 2021-11-04 | 佛山市顺德区美的洗涤电器制造有限公司 | 语音处理方法及装置、家电设备和可读存储介质 |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
US12112746B2 (en) | 2020-11-10 | 2024-10-08 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and device for processing voice interaction, electronic device and storage medium |
CN113744726A (zh) * | 2021-08-23 | 2021-12-03 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN114203204A (zh) * | 2021-12-06 | 2022-03-18 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
CN114203204B (zh) * | 2021-12-06 | 2024-04-05 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11211048B2 (en) | 2021-12-28 |
EP3570275A4 (en) | 2020-04-08 |
CN110199350B (zh) | 2023-09-26 |
EP3570275B1 (en) | 2022-04-20 |
AU2017394767A1 (en) | 2019-08-29 |
WO2018135743A1 (ko) | 2018-07-26 |
KR20180084394A (ko) | 2018-07-25 |
EP3570275A1 (en) | 2019-11-20 |
US20190378493A1 (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110199350A (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
US11582337B2 (en) | Electronic device and method of executing function of electronic device | |
CN108121490B (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
US10706847B2 (en) | Method for operating speech recognition service and electronic device supporting the same | |
KR102414122B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 | |
US11145302B2 (en) | System for processing user utterance and controlling method thereof | |
KR102558437B1 (ko) | 질의 응답 처리 방법 및 이를 지원하는 전자 장치 | |
EP3603040B1 (en) | Electronic device and method of executing function of electronic device | |
CN109427333A (zh) | 激活语音识别服务的方法和用于实现所述方法的电子装置 | |
CN107637025A (zh) | 用于输出消息的电子装置及其控制方法 | |
KR102653450B1 (ko) | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 | |
KR20170044426A (ko) | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 | |
CN108806669A (zh) | 用于提供语音识别服务的电子装置及其方法 | |
KR20180058476A (ko) | 다양한 입력 처리를 위한 방법, 이를 위한 전자 장치 및 서버 | |
CN109102802A (zh) | 用于处理用户话语的系统 | |
KR20170089178A (ko) | 전자 장치, 전자 장치의 음성 인식 방법 | |
KR102356889B1 (ko) | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 | |
KR20180109465A (ko) | 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법 | |
CN110463169A (zh) | 用于显示呼叫相关信息的电子装置及其操作方法 | |
KR101993368B1 (ko) | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 | |
US11416213B2 (en) | Electronic device for obtaining and entering lacking parameter | |
CN108141643A (zh) | 图像输出方法和用于支持该方法的电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |