CN108496220A - 电子设备及其语音识别方法 - Google Patents
电子设备及其语音识别方法 Download PDFInfo
- Publication number
- CN108496220A CN108496220A CN201680080011.2A CN201680080011A CN108496220A CN 108496220 A CN108496220 A CN 108496220A CN 201680080011 A CN201680080011 A CN 201680080011A CN 108496220 A CN108496220 A CN 108496220A
- Authority
- CN
- China
- Prior art keywords
- voice
- electronic equipment
- period
- display
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000014509 gene expression Effects 0.000 claims abstract description 30
- 230000005055 memory storage Effects 0.000 claims abstract description 5
- 230000000903 blocking effect Effects 0.000 claims description 126
- 238000004891 communication Methods 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 21
- 238000011084 recovery Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 45
- 230000011218 segmentation Effects 0.000 description 20
- 230000008859 change Effects 0.000 description 18
- 230000001413 cellular effect Effects 0.000 description 17
- 238000007726 management method Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 235000013399 edible fruits Nutrition 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 9
- 230000005611 electricity Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010187 selection method Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 241000283986 Lepus Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 229920001621 AMOLED Polymers 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
公开了能够动态地调整话语结束检测时段的电子设备和语音识别方法。电子设备包括:麦克风;显示器;形成为显示器的一部分或作为单独的设备连接到电子设备的输入设备;电连接到麦克风、显示器和输入设备的处理器;以及电连接到处理器的存储器。存储器存储可由处理器执行的指令,用于接收用户通过麦克风输入的话语,将话语转换为由具有空格的一系列单词或短语组成的文本,在显示器上显示文本,该文本包括形成在不正确的位置处的至少一个空格,并通过输入设备接收用于更新预定的时间段的用户输入。
Description
技术领域
本公开涉及电子设备及其语音识别方法。更具体地,本公开涉及能够动态地调整话语(utterance)结束检测时段的电子设备和语音识别方法。
背景技术
随着硬件和通信技术的进步,电子设备配备有满足各个领域中的用户需求的各种功能。通常,语音识别技术可以在配备有语音输入设备(例如,麦克风)的各种电子设备中实现。同时,语音识别作为替代用于控制电子设备的物理输入机制的替选输入技术正变得流行。
以上信息仅作为背景信息被呈现,以帮助理解本公开。关于上面的任何内容是否可以适用为关于本公开的现有技术,没有做出任何确定并且没有做出任何断言。
发明内容
技术问题
本公开的各方面旨在解决至少上述问题和/或缺点,并提供至少下述优点。因此,本公开的一个方面是提供一种电子设备及其语音识别方法。在用于检测用户的话语结束的时间段是固定的情况下,语音识别的准确度可能降低。例如,如果话语结束检测时段太短,则电子设备可能无法识别某个完整句子并且仅识别一系列单词。同时,如果话语结束检测时段太长,则这使得话语单元不清楚并且延迟识别结果的输出,这导致可用性降低。
技术问题的解决方案
根据本公开的一方面,提供了一种电子设备。该电子设备包括麦克风、显示器、电连接到麦克风和显示器的处理器、以及电连接到处理器的存储器,其中存储器存储可由处理器执行的命令,用于识别通过麦克风输入的语音,以及将预定的语音结束检测时段更新为在语音停止时间点与语音恢复时间点之间的暂停时段。
根据本公开的另一方面,提供了一种电子设备的语音识别方法。该语音识别方法包括识别语音输入并将预定的语音结束检测时段更新为语音停止时间点与语音恢复时间点之间的暂停时段。
根据本公开的另一方面,提供了一种非暂时性计算机可读记录介质,其上记录有包括命令的至少一个程序,所述至少一个程序在由处理器执行时执行语音识别方法。该语音识别方法包括:识别语音输入,并将预定的语音结束检测时段更新为语音停止时间点与语音恢复时间点之间的暂停时段。
根据以下结合附图公开了本公开的各种实施例的详细描述,本公开的其他方面、优点和显著特征对于本领域技术人员将变得清晰。
发明的有益效果
在上述实施例中,电子设备可以通过根据用户的语音习惯改变语音结束检测时段来提高语音识别性能。
附图说明
从以下结合附图进行的描述中,本公开的某些实施例的以上和其他方面、特征和优点将更加明显,在附图中:
图1是示出根据本公开的各种实施例的包括电子设备的网络结构的图;
图2是示出根据本公开的各种实施例的电子设备200的透视图;
图3是示出根据本公开的实施例的语音识别机制的框图;
图4是示出根据本公开的实施例的语音识别算法中的用于检测话语的结束的波形的曲线图的图;
图5是示出根据本公开的实施例的用于电子设备在用户的话语期间提取暂停时段并以数据库的形式管理暂停时段的机制的框图;
图6是示出根据本公开的实施例的生成由语音、语音识别结果和暂停时段组成的会话的过程的流程图;
图7是用于说明根据本公开的实施例的通过调整结束点检测(EPD)时段来减少误识别的操作的图;
图8是示出根据本公开的实施例的用于说明分割显示在屏幕上的句子以调整EPD时段的操作的电子设备的屏幕显示的图;
图9是示出根据本公开的实施例的用于说明分割显示在屏幕上的句子以调整EPD时段的操作的电子设备的屏幕显示的图;
图10是示出根据本公开的实施例的用于说明在显示器上显示的句子中自动呈现分割点的操作的电子设备的屏幕显示的图;
图11是示出根据本公开的实施例的用于说明通过将显示器上显示的句子合并为一个句子来改变EPD时段的操作的电子设备的屏幕显示的图;
图12是示出根据本公开的实施例的用于说明通过选择或合并显示在显示器上的句子来改变EPD时段的操作的电子设备的屏幕显示的图;
图13是示出根据本公开的实施例的用于说明在显示器上推荐候选短语的操作的电子设备的屏幕显示的图;
图14是示出根据本公开的实施例的用于说明将英语短语合并为句子并显示合并的句子的操作的电子设备的屏幕显示的图;
图15是示出根据本公开的实施例的用于说明将句子分割成短语并将短语合并为句子的操作的电子设备的屏幕显示的图;
图16是示出根据本公开的实施例的电子设备的语音识别方法的流程图;
图17是示出根据本公开的各种实施例的电子设备的配置的框图;以及
图18是示出根据本公开的各种实施例的电子设备的程序模块的配置的框图。
在整个附图中,相同的附图标记将被理解为表示相同的部件、组件和结构。
具体实施方式
提供参考附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解,但这些仅被视为示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文描述的各种实施例进行各种改变和修改。另外,为了清楚和简明,可以省略对公知功能和结构的描述。
在以下描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用以使得能够清楚和一致地理解本公开。因此,对于本领域技术人员来说明显的是,提供本公开的各种实施例的以下描述仅用于说明目的,而不是为了限制由所附权利要求及其等同物限定的本公开的目的。
应理解,除非上下文另有明确规定,否则单数形式“一”和“该”包括复数指示物。因此,例如,对“组件表面”的引用包括对一个或多个这样的表面的引用。
“或”表示“和/或”。如这里所使用的,术语“和/或”包括一个或多个相关所列项目的任何和所有组合。将进一步理解,当在本说明书中使用时,术语“包括(comprises)”和/或“包括(comprising)”、或“包括(includes)”和/或“包括(including)”指定阐述的特征、区域、整体、操作、元件和/或组件的存在,但不排除存在或添加一个或多个其他特征、区域、整体、操作、元件、组件和/或它们的组合。
应当理解,尽管这里可以使用术语“第一”、“第二”、“第三”等来描述各种元件、组件、区域、层和/或部分,但是这些元件、组件、区域、层和/或部分不应受这些术语的限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一个元件、组件、区域、层或部分区分开。因此,在不脱离本文的教导的情况下,下面讨论的“第一元件”、“组件”、“区域”、“层”或“部分”可以被称为第二元件、组件、区域、层或部分。
在本公开中,电子设备可以是涉及通信功能的设备。例如,电子设备可以是智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器、便携式医疗设备、数码相机或可穿戴设备(例如,如电子眼镜的头戴式设备(HMD)、电子服装、电子手镯、电子项链、电子配件或智能手表)。
根据一些实施例,电子设备可以是涉及通信功能的智能家用电器。例如,电子设备可以是电视(TV)、数字多功能盘(DVD)播放器、音频设备、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、电视盒(例如,Samsung HomeSyncTM、Apple TVTM、GoogleTVTM等)、游戏机、电子词典、电子钥匙、便携式摄像机或电子相框。
根据一些实施例,电子设备可以是医疗设备(例如,磁共振血管造影(MRA)、MR成像(MRI)、计算机断层扫描(CT)、超声波检查等)、导航设备、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行DR(FDR)、车载信息娱乐设备、船舶电子设备(例如,海上导航系统、陀螺罗盘等)、航空电子设备、安全设备或工业或家庭机器人。
根据一些实施例,电子设备可以是家具或具有通信功能的建筑物或构造的一部分、电子板、电子签名接收设备、投影仪或各种测量仪器(例如,水表、电表、气表、波表等)。这里公开的电子设备可以是上述设备之一或其任何组合。如本领域技术人员所理解的,上述电子设备不应被视为对本公开的限制。在本公开的实施例中呈现的各种语音可以是(在罗马化文本中的)韩语,仅作为示例,并且不限于此。也可以使用其他语言。
图1是示出根据本公开的实施例的其中包括电子设备101的网络环境100的框图。
参考图1,电子设备101可以包括但不限于总线110、处理器120、存储器130、输入/输出接口150、显示器或显示模块160、通信接口170和应用控制模块140。
总线110可以是被设计用于连接上述元件并在这些元件之间传送数据(例如,控制消息)的电路。
处理器120可以通过总线110从其他元件(例如,存储器130、输入/输出接口150、显示器160、通信接口170或应用控制模块140等)接收命令,解释接收的命令,并基于解释的命令执行算术或数据处理。
存储器130可以在其中存储从处理器120或其他元件(例如,输入/输出接口150、显示器160、通信接口170或应用控制模块140等)接收或创建的命令或数据。存储器130可以包括编程模块,诸如内核141、中间件143、应用编程接口(API)145和应用147。每个编程模块可以用软件、固件、硬件及其任何组合来实现。
内核141可以控制或管理用于执行其他编程模块(例如,中间件143、API 145或应用147)的操作或功能的系统资源(例如,总线110、处理器120或存储器130等)。另外,内核141可以提供允许中间件143、API 145或应用147访问、控制或管理电子设备101的各个元件的接口。
中间件143可以起到媒介作用(intermediation),通过该媒介作用API 145或应用147与内核141通信以发送或接收数据。另外,结合从应用147接收的任务请求,中间件143可以通过使用诸如向应用147中的至少一个分配使用电子设备101的系统资源(例如,总线110、处理器120或存储器130等)的优先级的技术来执行对任务请求的控制(例如,调度或负载平衡)。
API 145是用于允许应用147控制由内核141或中间件143提供的功能的接口,API145可以包括例如用于文件控制、窗口控制、图像处理、文本控制等的至少一个接口或功能(例如,命令)。
根据各种实施例,应用147可以包括短消息服务(SMS)/多媒体消息服务(MMS)应用、电子邮件应用、日历应用、警报应用、健康护理应用(例如,用于测量运动量或血糖的应用)、环境信息应用(例如,用于提供关于大气压力、湿度或温度等的信息的应用)等。附加地或替选地,应用147可以是与在电子设备101和任何外部电子设备(例如,外部电子设备104)之间的信息交换相关联的应用。这种类型的应用可以包括用于将特定信息递送到外部电子设备的通知中继应用、或者用于管理外部电子设备的设备管理应用。
例如,通知中继应用可以包括向外部电子设备(例如,电子设备104)递送在电子设备101的任何其他应用(例如,SMS/MMS应用、电子邮件应用、健康护理应用或环境信息应用等)处创建的通知信息的功能。附加地或替选地,通知中继应用可以从外部电子设备(例如,电子设备104)接收通知信息并将其提供给用户。设备管理应用可以管理(例如,安装、移除或更新)与电子设备101通信的任何外部电子设备(例如,电子设备104)的某个功能(外部电子设备(或其某些组件)的开启/关闭、或者显示器的亮度(或分辨率)调整)、或者由这样的外部电子设备提供的某个服务(例如,呼叫服务或消息服务)。
根据各种实施例,应用147可以包括取决于外部电子设备(例如,电子设备104)的属性(例如,类型)而指定的特定应用。例如,在外部电子设备是MP3播放器的情况下,应用147可以包括与音乐播放相关联的特定应用。类似地,在外部电子设备是便携式医疗设备的情况下,应用147可以包括与健康护理相关联的特定应用。在一个实施例中,应用147可以包括分配给电子设备101的应用或从外部电子设备(例如,服务器106或电子设备104)接收的应用中的至少一个。
输入/输出接口150可以经由总线110将用户通过输入/输出单元(例如,传感器、键盘或触摸屏)输入的命令或数据递送到处理器120、存储器130、通信接口170或应用控制模块140。例如,输入/输出接口150可以将关于通过触摸屏输入的用户的触摸的数据提供给处理器120。此外,通过输入/输出单元(例如,扬声器或显示器),输入/输出接口150可以经由总线110输出从处理器120、存储器130、通信接口170或应用控制模块140接收的命令或数据。例如,输入/输出接口150可以通过扬声器向用户输出将通过处理器120处理的话音数据。
显示器160可以包含液晶显示器(LCD)、发光二极管(LED)、有机LED(OLED)、微机电系统(MEMS)显示器和电子纸显示器。显示器160可以在其上向用户显示各种信息(例如,多媒体数据、文本数据等)。显示器160可以包含触摸屏,并且例如显示器160可以使用电子笔或用户的身体的一部分、手势和悬浮(hovering)输入来接收触摸。
在各种实施例中,显示器160可以输出由处理器120、应用处理器(AP)210和全球导航卫星系统(GNSS)模块227(如图2所示)中的至少一个确定的位置信息。显示器160还可以输出由电子设备101从一个或多个卫星接收的信息。显示器160可以输出用于设置位置识别时段的用户界面(UI)屏幕,生成与用于设置位置识别时段的用户输入相对应的输入信号,并且将输入信号转发到处理器120、AP 210(如图2所示)和GNSS模块227中的至少一个。
通信接口170可以执行电子设备101与任何外部电子设备(例如,服务器106的电子设备104)之间的通信。例如,通信接口170可以通过经由有线或无线通信与网络162连接来与任何外部设备通信。例如,到电子设备102的无线通信164可以包括但不限于无线保真(Wi-Fi)、蓝牙(BT)、NFC近场通信(NFC)、全球定位系统(GPS)或者蜂窝通信(例如,长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、或全球移动通信系统(GSM)等)中的至少一个。有线通信可以包括但不限于通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS 232)或普通老式电话服务(POTS)中的至少一个。
根据实施例,网络162可以是通信网络,其可以包括计算机网络、互联网、物联网或电话网络中的至少一个。根据实施例,用于电子设备101与任何外部设备之间的通信的协议(例如,传输层协议、数据链路层协议或物理层协议)可以由应用147、API 145、中间件143、内核141或通信接口170中的至少一个支持。
应用控制模块140可以处理从其他元件(例如,处理器120、存储器130、输入/输出接口150或通信接口170等)获得的信息的至少一部分,然后以各种方式将其提供给用户。例如,应用控制模块140可以识别关于配备在电子设备101中的访问组件的信息,将这样的信息存储在存储器130中,并且在这样的信息的基础上执行应用147。
图2是示出根据本公开的各种实施例的电子设备200的透视图。图1所示的电子设备101可以包括图2所示的电子设备200。
参考图2,电子设备200可以被实现为各种专用设备中的任何一种。电子设备200的示例包括但不限于移动电话、智能电话、膝上型计算机、平板设备、电子书设备、数字广播设备、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪、以及可穿戴设备,如智能手表、智能眼镜和头戴式显示器(HMD)。
参考图2,电子设备200可以包括形成在其前侧的显示器210。电子设备200可以包括在其前侧上形成在显示器210上方的扬声器220,用于输出包括对方的语音的声音。电子设备200还可以包括在其前侧形成在显示器210下方的麦克风230,用于接收要传送给对方的用户的语音。
根据本公开的实施例,电子设备200可以包括负责电子设备200的各种功能的其他组件。组件可以包括至少一个传感器模块240。传感器模块240可以包括照度传感器(例如,光学传感器)、接近传感器、红外传感器和微波传感器中的至少一个。根据本公开的实施例,电子设备200可以包括发光二极管(LED)指示器260,以向用户呈现电子设备200的状态。电子设备200可以包括闪光灯250,以提供拍摄照片或电影片段所需的照明。
电子设备200可以通过麦克风230接收用户的话语,并对用户的话语执行语音识别。语音识别是电子设备200将音频信号映射到文本的过程。
例如,电子设备200可以将通过麦克风230接收的音频信号转换为单词(a word)、一组单词(a set of words)或句子,并且可以将识别结果用作最终指令,例如命令、控制、数据输入、或文档准备。在语音识别过程中,电子设备200可以将通过麦克风230输入的语音发送到外部电子设备104或服务器,以从其接收语音识别结果。以下详细描述语音识别过程。
图3是示出根据本公开的实施例的语音识别机制的框图。
使用语音识别技术,电子设备200可以分析用户的语音,提取特征,测量与存储在数据库(DB)中的语音模型的相似度,并将最相似的语音模型转换为文本或命令。语音识别是所谓的模式识别过程,用于从具有不同话音声调和重音的人(尽可能多的人)收集语音数据,并从收集的语音数据中提取共同特征以生成参考模式。
参考图3,语音识别过程可以分为两个操作:预处理操作和识别操作。电子设备200(图2中所示)可以通过麦克风(例如,图2中所示的麦克风230)接收用户的语音(话语)。电子设备200可以提取用于分析接收的语音的语音识别时段,如附图标记310所示。用户的语音可以包括无意义的声音,例如环境噪声。因此,电子设备200可以在语音识别时段期间执行噪声处理过程,如附图标记320所示。先前已经描述了预处理操作。
电子设备200可以通过预处理操作分析噪声消除的语音,以提取用于语音识别的特征,如附图标记330所示。电子设备可以将输入语音与存储在语音数据库中的语音模型进行比较以输出最有希望的候选单词作为语音识别结果,如附图标记340所示。在以话音命令模式以外的听写模式操作的情况下,可以使用诸如连接词识别(connected wordrecognition)、连续语音识别(continuous speech recognition)和会话语音识别方法(conversational speech recognition method)的语音识别方法来改善语音识别性能。还可以在真实语音环境中收集语言模式的规律性,以在能够提高语音识别准确度的语音识别模型中使用它们。
电子设备200可以通过反映识别结果来执行预定操作,如附图标记350所示。电子设备200还可以通过声音或通过在显示器210上显示通知来向用户通知识别结果。
在上述语音识别方法中,可能需要确定用户的话语何时结束以提高语音识别结果的准确度。这是因为话语的开始点和结束点可以界定句子。下面描述用于检测话语的开始和结束的方法。
图4是示出根据本公开的实施例的语音识别算法中的用于检测话语的结束的波形的曲线图的图。语音识别算法可以安装在电子设备200中或外部电子设备或服务器中。
参考图4,图4示出了模拟语音信号的曲线图。在曲线图中,x轴表示时间,y轴表示语音信号的幅值(magnitude)。如所指出的,在本公开的实施例中呈现的各种语音可以是韩语(在罗马化文本中),仅作为示例,并且不限于此。也可以使用其他语言。
语音识别算法可以生成表示语音“Annyeonghaseyo.Mannaseo bangapsimnida”(可以翻译为“问候。很高兴见到你”)的波形图。在曲线图中,单词“annyeong”、“hase”、“yo”、“mannaseo”和“bangapsimnida”在y轴上具有不同的幅值。语音识别算法在单词“annyeong”的开始点P1 410处检测到波形的幅值大于预定阈值,并确定语音输入已开始。
语音识别算法还可以检测到在单词“hase”、“yo”、“mannaseo”和“bangapsimnida”处波形的幅值大于预定阈值,从而确定语音正在进行中。尽管存在波形的幅值小于单词之间的预定阈值的部分,但是它们很短并且紧接着跟随有波形幅值大于预定阈值的另一个单词;因此,语音识别算法确定语音继续直到时间点P2 420。语音波形的幅值大于阈值水平的这种时段,如附图标记415所示,被称为“语音时段”。
语音识别算法可以检测到波形的幅值小于阈值水平直到时间点P4 440,此时在单词“bangapsimnida”的话语之后输入单词“Jeonun”(可以被翻译为第一人称的“我”)。语音波形的幅值小于阈值水平的这种时段,如附图标记435所示,被称为“暂停(pause)时段”。
尽管语音识别算法在时间点P2 420处检测到语音的停顿(suspension),但是它不将该语音停顿视为话语的结束,这是因为如上所述存在这样的时段,在该时段期间甚至在单词之间波形的幅值小于阈值水平。因此,需要算法确定地确定语音的结束。
根据本公开的各种实施例,语音识别算法可以设置从语音结束开始的时间段并确定语音是否在该时段期间结束。被设置用于确定话语是否已结束的该时段被称为“结束点检测(END POINT DETECTION,EPD)时段”425。
EPD时段425可以被设置为在语音波形的幅值等于或小于预定水平的时间点开始的预定长度。EPD时段425可以由电子设备200的制造商在制造状态下或者由用户任意地设置。EPD时段425可以短于暂停时段435。如果在EPD时段425期间没有检测到具有高于阈值水平的波形幅值的语音输入,则语音识别算法确定语音输入已结束。
EPD时段425可以被配置为优化语音识别。例如,如果EPD时段太短,则语音识别算法可能将音节识别为无意义的系列而不是完整的句子,从而导致语音识别的失败。而且,如果EPD时段425太长,则语音识别算法可能无法正确地按句子界定用户的话语,这可能延迟语音识别结果的输出,从而使可用性退化。
通过适当地设置EPD时段,可以提高语音识别的准确度。如果电子设备200的制造商统一地(collectively)设置EPD时段425,则可能难以适合个体用户的话语模式。可以存在用于设置EPD时段425以适应用户的话语模式并改善语音识别性能的各种方法。
描述了通过在用户的话语期间基于暂停时段435调整EPD时段425来提高话语结束时间的检测的准确度的方法。时间点P3 430是EPD时段425的结束,如图4所示。
图5是示出根据本公开的实施例的用于电子设备在用户的话语期间提取暂停时段并以数据库的形式管理暂停时段的机制的框图。
参考图5,图2中示出的电子设备200可以通过麦克风510接收用户的话语。输入语音可以由处理器500处理。图1中所示的处理器120可以包括图5中所示的处理器500。输入语音也可以由单独的音频模块处理。在以下描述中,假设处理器500处理语音。
音频处理单元501可以处理通过麦克风510输入的用户的话语。音频处理单元501可以将模拟语音信号转换为数字信号,并且对数字信号执行诸如噪声消除的预处理操作,以将具有适合于语音识别的质量的语音信号输出到语音识别系统。
语音处理单元502可以确定语音信号的幅值是否大于预定水平。语音处理单元502可以根据确定结果检测有意义的话语的开始点和结束点。
暂停时段管理单元506可以测量由语音处理单元502检测到的话语的结束点和下一个话语的开始点之间的持续时间,即暂停时段。暂停时段管理单元506可以指派强度等于或大于预定水平的话音开始的点与强度小于预定水平的另一个话音开始的点之间的时段。暂停时段管理单元506可以将测量的暂停时段映射到指派的语音并管理该映射。
根据本公开的实施例,电子设备200可以根据用户的话语模式将EPD时段调整为适合于语音识别。也就是说,暂停时段管理单元506可以使用映射到各个话音的暂停时段值之一作为电子设备200(如图2所示)的EPD时段。
EPD事件处理单元503可以监视在语音的幅值小于预定水平的时段内输入的语音。EPD事件处理单元503可以在存储在EPD时段管理单元507中的特定EPD时段结束时检测关于话语完成的EPD事件,并将EPD事件传送到语音识别单元504。
EPD时段管理单元507可以管理当前配置的EPD时段。EPD时段可以由电子设备200的制造商在制造阶段来设置,并且可以由用户调整。根据本公开的实施例,EPD时段管理单元507可以将当前EPD时段更新为用户设置的特定暂停时段。
语音识别单元504可以用预定的编解码器压缩输入的语音。可以经由通信接口将压缩的数据发送到网络520上的语音识别服务器530。语音识别服务器530可以是单独的外部设备。根据实施例,语音识别服务器530可以是电子设备200的组件。语音识别单元504可以从语音识别服务器530接收语音识别结果,并将语音识别结果递送到识别结果处理单元505。
语音识别单元504可以向语音识别服务器530分别(separately)发送实时的整个语音文件和EPD时段信息。根据实施例,语音识别单元504可以适应于EPD时段将输入的语音发送到语音识别服务器530。
识别结果处理单元505可以基于来自语音识别单元504的语音识别结果和话语时间信息来布置每个话语的语音识别结果,并管理每个会话的语音识别结果。也就是说,一个会话可以包括语音和语音识别结果。
分组单元508可以通过组合由暂停时段管理单元506管理的每个语音的暂停时段信息和由识别结果处理单元505建立的会话来执行分组。也就是说,分组单元508可以包括由语音处理单元502在具有语音和语音识别结果的会话中测量的语音的暂停时段。参考图4中所示的实施例,分组单元508可以包括在包括语音和语音识别结果的会话中出现在“Annyeonghaseyo.Mannaseo bangapsimnida”之后的暂停时段425。因此,可以以包括语音、语音识别结果和语音之后的暂停时段的数据包的形式管理会话。
电子设备200可以使用语音识别结果来重新识别语音。当EPD时段管理单元507改变EPD时段时,电子设备200还可以使用每个语音的暂停时段。
可以在显示器540上展示会话中包括的语音识别结果和暂停时段。由分组单元508建立的每个语音的会话被存储在数据库(DB)509中,以便必要时由分组单元508使用。DB509可以在电子设备200外部或在电子设备200的存储器中被实现,用于存储每个语音的会话。
输入设备550可以接收用户的动作,诸如触摸输入、硬键输入和手势输入。用户可以直观地检查在显示器540上显示的语音识别结果,并选择性地分割或合并句子或单词。用于分割或合并显示器540上显示的句子或单词的用户手势输入可以是用于改变电子设备200的EPD时段的输入。
例如,如果用户触摸并拖动以合并由电子设备200单独(separately)识别和显示的两个句子或单词,则可以将EPD时段更新为包括两个句子或两个单词的暂停时段之间的最长暂停时段的时间段。如果用户触摸并拖动以分割成由电子设备200识别和显示的两个句子或单词,则可以将EPD时段更新为分割的句子或单词的暂停时段之一。输入设备550可以使用从传感器模块560接收的数据来分割或合并在显示器540上显示的句子或单词。例如,可以使用温度传感器、陀螺仪传感器、加速度传感器、指纹传感器和接近传感器。
根据本公开的实施例,电子设备200可以将语音识别结果映射到暂停时段以建立会话并在数据库中管理会话。对用于建立会话的方法进行描述。
根据本公开的各种实施例,电子设备可以包括麦克风、显示器、电连接到麦克风和显示器的处理器、以及电连接到处理器的存储器;存储器可以存储可由处理器执行的命令,以识别通过麦克风输入的语音,并且为预定的语音结束检测时段改变在语音输入结束的时间点与下一个语音输入开始的时间点之间的暂停时段。
根据本公开的各种实施例,命令可以包括可由处理器执行的用于将话语、语音识别结果和暂停时段打包并存储该包的命令。
根据本公开的各种实施例,命令可以包括可由处理器执行的下述命令:用于在为预定的语音结束检测时段改变暂停时段之后通过麦克风输入语音的情况下,基于改变的语音结束检测时段确定语音输入是否结束。
根据本公开的各种实施例,命令可以包括可由处理器执行的用于处理器与外部电子设备通信以识别语音的命令。
根据本公开的各种实施例,电子设备还可以包括实现为显示器的一部分或单独实现的输入设备;命令可以包括可由处理器执行的下述命令,该命令用于控制显示器以文本的形式将语音显示为由其间的空格分隔的一系列单词或短语,并接收用户通过输入设备输入的用于改变预先配置的语音结束检测时段的命令。
根据本公开的各种实施例,命令可以包括可由处理器执行的用于控制显示器与文本一起在至少一个空格中显示指示话语已结束的指示符的命令。
根据本公开的各种实施例,用户输入可以是用于选择一系列单词或短语或空格以分割或合并单词或短语的输入。
根据本公开的各种实施例,命令可以包括可由处理器执行的下述命令,该命令用于在分割单词或短语的情况下改变在分割的单词或短语中的至少一个之后的暂停时段以用于更新预先配置的语音结束检测时段。
根据本公开的各种实施例,命令可以包括可由处理器执行的下述命令,该命令用于在合并单词或短语的情况下改变合并的单词或短语的暂停时段中的最长暂停时段以用于更新语音结束检测时段。
根据本公开的各种实施例,电子设备可以包括:麦克风;显示器;被实现为显示器的一部分或单独地实现的用户输入单元;处理器,电连接到麦克风、显示器和用户输入单元;以及存储器,电连接到处理器,其中,存储器存储可由处理器执行的指令,用于:接收在预定时段通过麦克风从扬声器输入的其间包括空格的一系列单词或短语,通过语音识别处理器将语音转换为文本,在显示器上与在错误位置处放置的至少一个空格一起显示文本,以及通过输入单元接收用于调整预定的时间间隔的用户输入。
根据本公开的各种实施例,所述命令可以包括可由处理器执行的下述命令,该命令用于在改变的时间间隔期间通过麦克风接收另一个语音,并且通过语音识别处理器将语音转换为文本。
根据本公开的各种实施例,所述命令可以包括可由处理器执行的用于显示被配置用于改变的预定的时间间隔的至少一个指示符的命令。
图6是示出根据本公开的实施例的生成由话语、语音识别结果和暂停时段组成的会话的过程的流程图。
参考图6,根据本公开的各种实施例,电子设备200可以在操作610通过麦克风230接收用户的语音。电子设备200在操作615确定语音的强度是否等于或大于预定水平。如果语音的强度小于预定水平,则电子设备200可以继续接收语音,否则,如果语音的强度等于或大于预定水平,则电子设备200在操作620确定用户的话语已开始。
根据本公开的各种实施例,在操作625,在检测到用户的话语的开始之后,电子设备200可以继续监视语音的强度。在监视期间,语音输入的强度可以变得小于预定水平。如果语音的强度小于预定水平,则电子设备200在操作630确定用户的话语已结束。
根据本公开的各种实施例,如果在EPD时段期满之前没有检测到语音,则电子设备200可以在操作625确定语音的强度是否小于预定水平。如果语音输入的强度小于预定水平,则电子设备200可以在操作630确定话语已结束。或者,如果在操作625语音输入的强度等于或大于预定水平,则电子设备200继续监视,直到语音的强度变得小于预定水平。如果语音的强度变得小于预定水平,则电子设备可以在操作630确定话语已结束。
如参考图4所描述的,如果电子设备300在语音强度变得小于预定水平之后确定用户的话语已结束,则这可能导致问题。根据各种实施例,电子设备200可以在操作635确定在用户话语的停顿之后是否经过了预定时间段而没有进一步的语音输入。也就是说,电子设备200确定是否在预定的EPD时段期间没有输入语音。如果在EPD时段期间没有检测到语音输入,则电子设备200可以在操作640确定用户的话语已完成。
根据本公开的各种实施例,电子设备200继续监视以在操作650确定是否检测到新的语音输入。如果检测到新的语音输入,则电子设备200可以在操作655计算用户的话语之间的暂停时段。也就是说,电子设备200可以确定语音输入的结束时间与下一个语音输入的开始时间之间的暂停时段。
根据本公开的各种实施例,电子设备200可以在操作660生成由输入话语、语音识别结果和计算的暂停时段组成的会话。详细地,电子设备200可以与语音识别结果一起存储关于语音识别结果被输出的时间的信息。以这种方式,电子设备200可以管理每个语音的语音识别结果输出时间和暂停时段。在操作665,电子设备200可以将会话添加到数据库(DB)。
以这种方式,电子设备200可以存储语音识别结果和每个语音的暂停时段。可以在屏幕上显示所存储的数据,并且可以响应于用户输入将电子设备200的EPD时段更新为暂停时段。当预先配置的EPD时段被更新为与用户的话语相关联的暂停时段时,电子设备200可以执行具有适应于用户的话语模式的EPD时段的语音识别。
尽管电子设备200可以如上所述将EPD时段更新为与用户的话语相关联的暂停时段,但是电子设备200也可以选择预先配置的EPD时段和在用户的话语期间检测到的暂停时段中的一个。例如,如果在用户的话语期间提取的暂停时段与平均EPD时段之间的差等于或长于预定值,则电子设备200可以保持预先配置的EPD时段。平均EPD时段可以是制造商基于从非特定收集的话语数据获取的暂停时段数据预先配置的时间段。
通过使用适应于用户的话语模式的EPD时段,电子设备200可以减少由太短的EPD时段引起的误识别(即,识别完整句子失败和输出不完整的单词)的可能性。而且,通过使用适应于用户的话语模式的EPD时段,可以克服由太长的EPD时段引起的问题,即,导致可用性退化的识别结果输出延迟和不清楚的话语单元。
图7是用于说明根据本公开的实施例的通过调整EPD时段来减少误识别的操作的图。
参考图7,图7示出了在接收到用户的话语“Samsung Electronics has attainedmajor achievements(三星电子已经取得重大成就)”时由电子设备200输出的语音识别结果。图7的部分(a)是EPD时段相对短的情况,例如0.5秒。电子设备200没有正确地检测语音已经完成的时间点,并且将构成语音的说出的单词710转换为文本;该文本被显示在显示器540上。
图7的部分(b)是调整EPD时段以适应用于语音识别的用户的话语模式的情况。例如,EPD时段可以是2秒。利用扩展的EPD时段,电子设备200可以准确地检测话语已完成的时间点,并将识别结果转换为显示在显示器540上的完整句子720。电子设备200能够一次识别完整的句子,以使用诸如连接词识别算法的算法来提高语音识别率。
描述了以下述方式改变用于暂停时段的电子设备200的EPD时段的方法:该方式使得用户选择显示在显示器540上的句子或单词,分割句子或合并单词。
图8是示出根据本公开的实施例的用于说明分割显示在屏幕上的句子以调整EPD时段的操作的电子设备的屏幕显示的图。
参考图8的部分(a),电子设备200可以识别语音并将语音转换为文本,该文本可以被显示在显示器540上。电子设备200可以识别两个话语“Annyeonghaseyo”810和“Mannaseobangapsimnida”820并将识别结果显示为一个句子。电子设备200还可以与文本一起显示语音的暂停时段。例如,“Mannaseo bangapsimnida”820之后的数字“300”825可以指示暂停时段的长度。电子设备200可以显示300ms的暂停时段而不显示单位,即“300”825。电子设备200可以显示其间包括空格的一系列单词或短语。空格可以包括上述暂停时段和在将语音转换为文本时出现的空格。
如果电子设备200的EPD时段长于两个话语“Annyeonghaseyo”810和“Mannaseobangapsimnida”820之间的暂停时段,则电子设备200可以将这两段语音识别为一个句子。因此,用户可以将EPD时段设置为话语“Annyeonghaseyo”810之后的暂停时段。
例如,用户可以选择“Annyeonghaseyo”810。尽管可以以典型的触摸输入的方式进行选择,但是也可以使用物理键或单独的传感器进行选择。例如,用户可以通过触摸“Annyeonghaseyo”和“Mannaseo bangapsimnida”之间的空格815来选择“Annyeonghaseyo”810。
电子设备200可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述选择句子,则电子设备200可以从数据库中检索与话语“Annyeonghaseyo”相似或相同的语音数据,并将电子设备200的EPD时段设置为与检索的语音数据相关联的暂停时段。
电子设备200可以连同改变EPD时段的操作一起分开地显示句子。
图8的部分(b)示出了根据用户的选择分开显示句子的屏幕显示。电子设备200可以将“Annyeonghaseyo”830和“Mannaseo bangapsimnida”840显示为分开的句子。电子设备200还可以显示在“Annyeonghaseyo”之后的暂停时段“100”835、以及在“Mannaseobangapsimnida”840之后的暂停时段“300”845。电子设备200可以删除关于“Annyeonghaseyo Mannaseo bangapsimnida”的会话,并分开管理“Annyeonghaseyo”830和“Mannaseo bangapsimnida”840的会话。
然而,语音数据管理不限于此,并且可以以这样的方式执行,该方式使得在数据库中保持与“Annyeonghaseyo Mannaseo bangapsimnida”相关联的会话的同时,生成与“Annyeonghaseyo”830和“Mannaseo bangapsimnida”840相关联的数据库会话。
图9是示出根据本公开的另一实施例的用于说明分割显示在屏幕上的句子以调整EPD时段的操作的电子设备的屏幕显示的图。
参考图9的部分(a),电子设备200可以识别语音并将语音转换为文本,该文本被显示在显示器540上。电子设备200可以将两个话语“Annyeonghaseyo”910和“Mannaseobangapsimnida”920识别为一个句子并显示该句子。电子设备200可以与句子一起显示语音的暂停时段。如果电子设备的EPD时段长于话语“Annyeonghaseyo”910和“Mannaseobangapsimnida”920之间的暂停时段,则电子设备将这两段话语识别为一个句子。在这种情况下,用户可以将电子设备200的EPD时段设置为暂停时段以提高语音识别率。
例如,用户可以用拖动手势来分割句子,如附图标记915所示,以改变电子设备的EPD时段。详细地,用户可以在“Annyeonghaseyo”910和“Mannaseo bangapsimnida”920上以两个接触点进行多点触摸,并同时沿相反方向拖动文本,如附图标记915所示。
如果语音被识别,则电子设备可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述分割句子,则电子设备200可以在“Annyeonghaseyo”910之后的暂停时段更新EPD时段。
详细地,两个话语“Annyeonghaseyo”910和“Mannaseo bangapsimnida”920之间的暂停时段可以短于电子设备200的EPD时段。在这种情况下,电子设备200可以将两个话语识别为一个句子。如果用户用分割手势分割句子,则可以将“Annyeonghaseyo”910和“Mannaseo bangapsimnida”920之间的暂停时段配置为电子设备的EPD时段,以使语音识别条件适应用户的话语模式。
为此目的,电子设备可以从数据库中检索与“Annyeonghaseyo”910相似或相同的语音数据,并将电子设备200的EPD时段更新为与检索的语音数据相关联的暂停时段。
电子设备200可以连同EPD时段的更新一起在显示器540上显示处于被分割的状态的句子,如图9的部分(b)所示。由于分割句子并生成会话的过程与参考图8的部分(b)描述的过程相同,因此这里省略其详细描述。如图9的部分(b)所示,电子设备200可以将“Annyeonghaseyo”930和“Mannaseo bangapsimnida”940显示为分开的句子。
图10是示出根据本公开的实施例的用于说明在显示器上显示的句子中自动呈现分割点的操作的电子设备的屏幕显示的图。
参考图10的部分(a),电子设备可以识别语音,将语音转换为文本,并在显示器540上显示文本。例如,电子设备200可以识别语音“Seoul-yeok?Eum gheogin saram wanjunmanteonde greoji malgo woori Gangnameseo boja eung?”(其可以翻译成“首尔站?好吧,那里太拥挤了。反而,让我们在江南见面。OK?”),并显示相应的文本“Seoul-yeok eungheogi saram wanjun mantae greoji malgo woori Gangnameseo boja eung?”,如附图标记1110所示。
真实话语和识别的句子可能不完整,因为电子设备200在长间隔内执行语音识别。在这种情况下,用户可以将句子分割成一系列块(chunks)以改变电子设备200的EPD时段,并且在这种情况下,电子设备200可以自动地在句子中呈现候选分割位置。虽然话语已被识别为一个句子,但是电子设备200可以检查构成句子的短语或单词之间的暂停时段。因此,电子设备200可以显示短语或单词之间的一些短的暂停时段作为候选分割位置。
例如,电子设备200可以检测话语“Seoul-yeok”和“Geogin”之间的短的暂停时段。同样地,电子设备可以检测话语“eum gheogin”和“saram wanjun mantae”之间的短的暂顿时段。在这种情况下,当用户标记复选框1115时,电子设备200可以呈现候选分割位置。
用户可以选择由候选分割位置分开的短语或单词以改变电子设备的EPD时段。例如,如果用户选择短语,则可以将电子设备200的EPD时段设置为选择的短语的暂停时段。用户还可以通过用触摸和拖动手势或使用预定的物理键绘制围绕句子的闭合曲线来选择所有短语或单词。然而,选择操作不限于上述动作。如果用户选择整个句子,则电子设备可以将其EPD时段设置为短语或单词之间的暂停时段中的最短暂停时段。
电子设备200可以在显示器540上显示由用户选择的短语或单词,如图10的部分(b)所示。通过如上改变EPD时段,电子设备200能够利用更新的EPD时段执行语音识别,以提高语音识别的准确度。
图10的部分(b)示出了利用改变的EPD时段执行的语音识别结果的屏幕显示。电子设备200可以分开显示构成句子的一系列短语或单词“Seoul-yeok?Eum”1120、“gheoginsaram wanjun manteonde”1121、“greoji malgo woori”1122、“Gangnameseo boja”1123和“eung?”1124。
由于分割句子和生成会话的过程与参考图8的部分(b)描述的过程相同,所以这里省略其详细描述。
图11是示出根据本公开的实施例的用于说明通过将显示器上显示的句子合并为一个句子来改变EPD时段的操作的电子设备的屏幕显示的图。
参考图11的部分(a),电子设备200可以识别语音,将语音转换为文本,并在显示器540上显示文本。电子设备200可以将话语识别为“Annyeonghaseyo”1110和“Mannaseobangapsimnida”1120的两个句子并且可以分开显示句子。电子设备200可以显示具有所显示的语音的相应暂停时段的文本短语。如果电子设备200的EPD时段短于话语“Annyeonghaseyo”1110和“Mannaseo bangapsimnida”1120之间的暂停时段,则电子设备200将话语识别为两个句子。尽管这两个句子彼此分开,但它们可以作为一个句子处理。因此,用户可以将电子设备200的EPD时段设置为在两个句子中的后一个句子之后的暂停时段,以使语音识别功能适应个人话语特性。
例如,话语“Mannaseo bangapsimnida”1120可以具有两个暂停时段。如果用户的话语刚好在“Mannaseo bangapsimnida”1120之后结束,则“Mannaseo bangapsimnida”1120的暂停时段可以等于电子设备200的EPD时段。如果另一个话语在话语“Mannaseobangapsimnida”1120之后,则这两个话语之间的时段可以成为“Mannaseo bangapsimnida”1120的暂停时段。
用户可以做出手势输入以选择和合并两个句子,以便改变电子设备的EPD时段。为了合并这两个句子,可以做出选择一个句子并将选择的句子拖动到另一个句子上或者同时选择两个句子并拖动它们彼此靠近以便重叠的手势。
一旦如上所述识别出语音,电子设备200就可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述合并两个句子,则电子设备200可以检索与话语“Mannaseo bangapsimnida”1120相似或相同的语音数据,并且可以将电子设备200的EPD时段设置为相应的暂停时段。
电子设备200还可以将电子设备200的EPD时段设置为两个话语“Annyeonghaseyo”1110和“Mannaseo bangapsimnida”1120的暂停时段之间的最长暂停时段。
电子设备200可以连同改变EPD时段的操作一起在显示器540上显示出现的句子。
图11的部分(b)示出了根据用户的手势输入合并两个句子的操作。电子设备200可以响应于用户的手势输入将两个句子“Annyeonghaseyo”1110和“Mannaseobangapsimnida”1120合并为一个句子“Annyeonghaseyo Mannaseo bangapsimnida”1130。电子设备200可以从数据库中删除与句子“Annyeonghaseyo”1110和“Mannaseobangapsimnida”1120相关的会话,并且向数据库添加与合并的句子“AnnyeonghaseyoMannaseo bangapsimnida”1130相关的会话以用于管理。
然而,本公开不限于此,并且可以在数据库中保持两个句子“Annyeonghaseyo”1110和“Mannaseo bangapsimnida”1120的同时,向数据库添加与合并的句子“Annyeonghaseyo Mannaseo bangapsimnida”1130相关的会话。
图12是示出根据本公开的实施例的用于说明通过选择或合并显示在显示器上的句子来改变EPD时段的操作的电子设备的屏幕显示的图。
参考图12的部分(a),电子设备可以识别语音,将语音转换为文本,并在显示器540上显示文本。电子设备200可以将语音“eung naeil boneungei joah geuttaengoanchanah yitta jeonwhahae”(其可以翻译为“OK。明天开会不错。那很好。稍后给我打电话”)识别为一系列短语“eum nya”1210、“il bonungei joah”1211、“geu ttaengoanchanah”1212和“yitta jeonwhahae”1213,并且可以显示各个短语。电子设备200可以显示具有相应暂停时段的文本短语。
因为电子设备200的EPD时段短于短语1210到1213之间的暂停时段中的每一个,所以电子设备200可以将句子识别为一系列短语。在这种情况下,语音识别准确度可能较低,因为一个句子被分割成短的短语。因此,用户可以调整EPD时段以使电子设备将短语识别为一个句子。
参考图12的部分(a),用户可以选择短语“eum nya”1210到“geu ttaengoanchanah”1212。这样的选择可以以各种方式来进行。例如,可以逐一选择短语“eum nya”1210到“geu ttaen goanchanah”1212,然后标记复选框1215以完成选择。
用户还可以用触摸和拖动手势来绘制围绕短语“eum nya”1210到“geu ttaengoanchanah”1212的闭合曲线以选择所述短语。然而,短语选择方法不限于此。
电子设备200可以对选择的短语再次执行语音识别,以提高语音识别准确度。在这种情况下,可以将连接词识别功能与连续短语一起使用,以便提高语音识别的准确度。
参考图12的部分(b),电子设备200可以将选择的短语显示为一个句子。例如,电子设备200可以在显示器540上显示文本“eum nya il bonungei joah geuttaengoanchanah”1220。然后,电子设备200可以通过与连续短语一起使用连接词识别功能来对合并的话语执行语音识别。参考图12的部分(c),电子设备200可以在显示器540上以增强的准确度显示语音识别结果。
一旦如上所述识别出语音,电子设备200就可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述合并多个短语,则电子设备200可以将EPD时段设置为在合并为句子的最后一个短语之后的暂停时段。例如,电子设备200可以从数据库中检索与语音识别结果最相似或相同的语音数据,并将其EPD时段更新为相应的暂停时段。电子设备200还可以将其EPD时段设置为合并为句子的短语的暂停时段中的最长暂停时段。
电子设备200可以连同改变EPD时段的操作一起在显示器540上显示合并的句子。
图12的部分(c)示出了显示通过根据用户输入校正合并的句子而获取的句子的示例。电子设备200可以将短语“eum nya”1210、“il bonungei joah”1211、“geu ttaengoanchanah”1212和“yitta jeonwhahae”1213合并为句子“eung naeil boneungei joahgeuttaen goanchanah yitta jeonwhahae”1230。电子设备200可以从数据库中删除关于短语“eum nya”1210、“il bonungei joah”1211、“geu ttaen goanchanah”1212和“yittajeonwhahae”1213的会话,并向数据库添加关于句子“eung naeil boneungei joahgeuttaen gwenchanah yitta jeonwhahae”1230的会话。
然而,语音数据管理不限于此,并且其可以以这样的方式执行,该方式使得在保持与短语“eum nya”1210、“il bonungei joah”1211、“geu ttaen goanchanah”1212和“yittajeonwhahae”1213相关联的会话的同时,向数据库生成与句子“eung naeil boneungeijoah geuttaen gwenchanah yitta jeonwhahae”1230相关联的会话。
图13是示出根据本公开的实施例的用于说明在显示器上推荐候选短语的操作的电子设备的屏幕显示的图。
参考图13的部分(a),电子设备200可以识别语音,将语音转换为文本,并在显示器540上显示文本。电子设备200可以将话语“eung naeil boneungei joah geuttaengwenchanah yitta jeonwhahae”识别为一系列短语“eum nya”1310、“il bonungei joah”1311、“geu ttaen goanchanah”1312和“yitta jeonwhahae”1313,并且可以显示各个短语。电子设备200可以显示具有相应暂停时段的文本短语。
因为电子设备200的EPD时段短于短语1310至1313之间的暂停时段中的每一个,所以电子设备200可以将句子识别为一系列短语。在这种情况下,语音识别准确度可能是低的,因为一个句子被分割成短的短语。因此,用户可以调整EPD时段,以使电子设备将短语识别为一个句子。
例如,用户可以通过选择用户想要被识别为一个句子的短语来改变电子设备200的EPD时段。详细地,用户可以选择短语“eum nya”1310,如图13的部分(a)中示出的附图标记1316所示。这种选择可以以各种方式进行。用户可以使用触摸手势或物理键来选择期望的短语。然而,短语选择方法不限于此。
电子设备200可以对与选择的短语相对应的话语再次执行语音识别,以识别完整的句子,导致提高语音识别准确度。在再次执行语音识别的情况下,可以与连续短语一起使用连接词识别功能来提高语音识别准确度。
参考图13的部分(b),电子设备200可以显示用户选择的短语。然后,电子设备200可以与连续短语一起使用连接词识别功能对选择的短语执行语音识别。
电子设备200可以推荐与合并选择的短语的结果相对应的候选句子。例如,电子设备200可以在显示器540上呈现“eum nya il bonungei joah”1320,其被预测为连续的“eumnya”1310和“il bonungei joah”1311的最可能的句子。参考图13的部分(c),电子设备200可以以通过重新识别而实现的增强的准确度显示语音识别结果。
一旦如上所述识别出语音,电子设备200就可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述合并多个短语,则电子设备200可以将其EPD时段设置为在合并为句子的最后一个短语之后的暂停时段。例如,电子设备200可以从数据库中检索与语音识别结果“il bonungei joah”1311最相似或相同的语音数据,并将其EPD时段设置为与检索的语音数据相对应的暂停时段。电子设备200还可以将其EPD时段设置为合并的短语的暂停时段中的最长暂停时段。
电子设备200可以连同改变EPD时段的操作一起在显示器540上显示通过合并短语而获取的句子。
图13的部分(c)示出了用户校正通过合并短语而获取的句子的情况。作为合并短语“eum nya”1310和“il bonungei joah”1311的结果,电子设备200可以显示由用户校正的句子“eung naeil boneungei joah”1330。
由于分割句子和生成与句子相关联的会话的过程与参考图8的部分(b)描述的过程相同,所以这里省略其详细描述。
图14是示出根据本公开的实施例的用于说明将英语短语合并为句子并显示合并的句子的操作的电子设备的屏幕显示的图。
参考图14的部分(a),电子设备200可以识别英语语音,将语音转换为文本,并在显示器540上显示文本。电子设备可以接收话语“with the holidays I like to make youknow sweet-treats and bake?”,将话语识别为两个短语“with the holidays I liketo”1410和“make you know sweet-treats and bake”1420,并分开显示短语。电子设备200可以显示短语连同相应的暂停时段。
如果电子设备200的EPD时段短于在话语中检测到的暂停时段,则电子设备200可以将该话语识别为两个短语。在这种情况下,句子可以被分割成短的短语;因此,语音识别准确度降低。
例如,用户可以通过选择用户想要被识别为一个句子的短语来改变电子设备200的EPD时段。如图14的部分(a)所示,用户可以选择短语“with the holidays I like to”1410和“make you know sweet-treats and bake”1420。这样的选择可以以各种方式进行。用户可以逐一选择短语并标记复选框1415以完成选择。用户还可以通过绘制围绕短语“with the holidays I like to”1410和“make you know sweet-treats and bake”1420的闭合曲线来选择短语。然而,短语选择方法不限于此。
电子设备200可以对与选择的短语相对应的话语再次执行语音识别,以提高语音识别准确度。在这种情况下,可以通过与连续短语一起使用连接词识别功能来提高语音识别的准确度。参考图14的部分(b),电子设备200可以以增强的准确度在显示器540上显示语音识别结果。
一旦如上所述识别出语音,电子设备200就可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述合并多个短语,则电子设备200可以将EPD时段设置为在合并为句子的最后一个短语之后的暂停时段。例如,电子设备200可以从数据库中检索与语音识别结果“make you know sweet-treats and bake”1420最相似或相同的语音数据,并将其EPD时段更新为相应的暂停时段。电子设备200还可以将其EPD时段设置为构成句子的短语的暂停时段中的最长暂停时段。
电子设备200可以连同改变EPD时段的操作一起在显示器540上显示合并的句子。
图14的部分(b)是显示通过合并用户选择的短语形成的句子的示例。电子设备200可以根据用户的操纵以“with the holidays I like to make you know sweet-treatsand bake”1430的句子的形式显示短语“with the holidays I like to”1410和“make youknow sweet-treats and bake”1420。电子设备200可以从数据库中删除关于短语“withthe holidays I like to”1410和“make you know sweet-treats and bake”1420的会话并且向数据库添加关于句子“with the holidays I like to make you know sweet-treats and bake”1430的会话。
然而,语音识别操作不限于此,并且可以以这样的方式执行,该方式使得在保持关于短语“with the holidays I like to”1410和“make you know sweet-treats andbake”1420的会话的同时,向数据库添加关于句子“with the holidays I like to makeyou know sweet-treats and bake”1430的会话。
如上所述,本公开的语音结束时间检测方法能够允许用户在直观地检查语音识别结果的同时调整EPD时段。
图15是示出根据本公开的实施例的用于说明将句子分割成短语并将短语合并为句子的操作的电子设备的屏幕显示的图。
电子设备200可以包括多个显示器。例如,电子设备200可以包括第一显示器1501和第二显示器1502。然而,电子设备的显示器的数量不限于此。
图15的部分(a)示出了分割句子的示例。
参考图15的部分(a),电子设备200识别语音,将语音转换为文本,并在第一显示器1501上显示文本。电子设备200可以将一系列输入的话语“Annyeonghaseyo”1511和“Mannaseo bangapsimnida”1512识别为一个句子“Annyeonghaseyo Mannaseobangapsimnida”1512并且可以显示句子。电子设备200可以与文本一起显示话语的暂停时段。电子设备200可以将这两个句子识别为一个句子,因为电子设备200的EPD时段比“Annyeonghaseyo”1511和“Mannaseo bangapsimnida”1512之间的暂停时段长。在这种情况下,电子设备200可以将其EPD时段设置为在“Annyeonghaseyo”1511之后的暂停期间以提高语音识别率。
为此目的,参考图15的部分(a),用户可以选择短语“Annyeonghaseyo”1511。典型地以触摸手势来做出选择输入,但是用户可以使用物理键或单独的传感器。用户可以选择短语“Annyeonghaseyo”1511和“Mannaseo bangapsimnida”1512之间的空格1515。
一旦识别出语音,电子设备200就可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上选择短语,则电子设备200可以从数据库中检索与选择的短语“Annyeonghaseyo”1511最相似或相同的语音数据,并将其EPD时段设置为关于检索的语音数据的暂停时段。
电子设备200可以连同改变EPD时段的操作一起在显示器1502上分开地显示所述短语。例如,电子设备200可以响应于如上所述做出的用户的选择输入而在第二显示器1502上显示短语“Annyeonghaseyo”1520和“Mannaseo bangapsimnida”1521。
电子设备200可以从数据库中删除关于句子“Annyeonghaseyo Mannaseobangapsimnida”1510的会话,并在数据库中分开管理关于短语“Annyeonghaseyo”1520和“Mannaseo bangapsimnida”1521的会话。但是,语音数据管理不限于此并且可以这样的方式执行,该方式使得在保持关于句子“Annyeonghaseyo Mannaseo bangapsimnida”1510的会话的同时添加关于短语“Annyeonghaseyo”1520和“Mannaseo bangapsimnida”1521的会话。
图15的部分(b)示出了分割句子的示例。
参考图15的部分(b),电子设备可以识别语音,将语音转换为文本,并在第一显示器1501上显示文本。电子设备200可以将语音“eung naeil boneungei joah geuttaengwenchanah yitta jeonwhahae”识别为一系列短语“eum nya”1530、“il bonungei joah”1531、“geu ttaen goanchanah”1532和“yitta jeonwhahae”1533,并可以分开显示这些短语。
电子设备200可以将语音识别为多个短语,因为其EPD时段短于短语1530和1533之间的暂停时段中的每一个。在这种情况下,一个句子可以被分割成短的部分,这将降低语音识别准确度。因此,用户可能需要合并一些短语以调整EPD时段,使得电子设备200将合并的短语识别为一个句子。
例如,用户可以通过选择并合并用户想要被识别为一个句子的一些短语来改变EPD时段。如图15的部分(a)所示,用户可以选择短语“eum nya”1530、“il bonungei joah”1531和“geu ttaen goanchanah”1532。这样的选择可以以各种方式进行。可以逐一选择短语1530至1533并标记复选框1535以完成选择。
用户可以通过绘制围绕相应短语的闭合曲线来选择短语“eum nya”1530、“ilbonungei joah”1531和“geu ttaen goanchanah”1532(如图15中的部分(b)中的虚线圆形线所示)。然而,选择操作不限于此。
电子设备200可以对与选择的短语相对应的话语执行语音识别,以提高语音识别准确度。在这种情况下,可以与连续短语一起使用连接词识别功能来提高语音识别准确度。
电子设备200可以对用户选择的短语再次执行语音识别,并在第二显示器1502上将语音识别结果显示为一个句子。例如,电子设备200可以在第二显示器上显示句子“eungnaeil boneungei joah geuttaen gwenchanah”1540。
一旦如上所述识别出语音,电子设备200就可以向数据库生成由语音、语音识别结果和暂停时段组成的会话。如果用户如上所述合并多个短语,则电子设备200可以将EPD时段设置为在合并为句子的最后一个短语之后的暂停时段。例如,电子设备200可以从数据库中检索与语音识别结果“geu ttaen goanchanah”1532最相似或相同的语音数据,并将其EPD时段设置为与检索的语音数据相对应的暂停时段。电子设备200还可以将其EPD时段设置为合并为句子的短语的暂停时段中的最长暂停时段。
电子设备200可以从数据库中删除关于短语“eum nya”1530、“il bonungei joah”1531、“geu ttaen goanchanah”1532和“yitta jeonwhahae”1533的会话,并向数据库添加关于句子“eung naeil boneungei joah geuttaen gwenchanah”1540的会话。
然而,语音数据管理不限于此,并且可以以这样的方式执行,该方式使得在保持关于短语“eum nya”1530、“il bonungei joah”1531、“geu ttaen goanchanah”1532和“yittajeonwhahae”1533的会话的同时,向数据库添加关于句子“eung naeil boneungei joahgeuttaen gwenchanah”1540的会话。
如上所述,本公开的语音结束时间检测方法能够允许用户在直观地检查语音识别的同时调整EPD时段。
图16是示出根据本公开的实施例的电子设备的语音识别方法的流程图。
参考图16,电子设备200可以在操作1610显示语音识别结果。语音识别结果可以以一系列字符、数字和/或特殊字符、或由其组成的完整句子的形式来显示。在假设显示至少一个句子(短语)的情况下进行以下描述。
在操作1615,电子设备200检测对句子做出的用户输入。用户输入可以是选择短语并合并选择的短语的命令、或选择句子并将选择的句子分割成短语的命令。用户输入可以利用对显示单元540的触摸屏的触摸手势或通过物理键做出,而不受限于此。
在操作1620,电子设备可以从DB 509检索包括选择的短语的会话。可以并行或串行地执行操作1625至1635、1640和1645。在以下描述中,假设并行执行操作。
在操作1625,电子设备200可以提取包括在检索的会话中的各个短语的暂停时段。在操作1630,电子设备200可以选择暂停时段中的最长暂停时段或最短暂停时段。例如,如果在操作1615做出用于选择短语并合并选择的短语的用户输入,则电子设备200可以选择提取的暂停时段中的最长暂停时段。或者,如果在操作1615做出用于选择句子并将句子分割成短语的用户输入,则电子设备可以选择提取的暂停时段中的最短暂停时段。然而,暂停时段选择操作不限于此。
在操作1635,电子设备200可以将EPD时段设置为选择的暂停时段。
在操作1640,电子设备200可以从检索的会话中提取每个短语的语音。在操作1645,电子设备200可以将提取的语音合并为一个语音或者将提取的语音分割成多个语音。例如,如果在操作1615做出用于选择短语并合并选择的短语的用户输入,则电子设备可以将提取的语音合并为一个语音。或者,如果在操作1615做出用于选择句子并将句子分割成短语的用户输入,则电子设备200可以将提取的语音分割成多个语音。
在操作1650,电子设备200可以基于改变的EPD时段检测合并的语音的话语结束时间点或各个分割的语音的话语结束时间点。例如,如果在操作1615做出用于选择短语并合并选择的短语的用户输入,则电子设备200可以基于改变的EPD时段检测合并的语音的话语结束时间点。或者,如果在操作1615做出用于选择句子并将句子分割成短语的用户输入,则电子设备200可以检测各个分割的语音的话语结束时间点。
在操作1655,电子设备200可以基于重新检测到的话语结束时间点再次执行语音识别。在操作1660,电子设备200可以在显示器540上显示新的语音识别结果。语音识别结果可以包括字符、数字和/或特殊字符、或由其组成的完整句子。
在操作1665,电子设备200可以更新DB 509。例如,如果在操作1615做出用于选择短语并合并选择的短语的用户输入,则电子设备200可以生成由合并的语音、合并的语音的暂停时段和合并的语音识别结果组成的新会话。或者,如果在操作1615做出用于选择句子并将句子分割成短语的用户输入,则电子设备200可以生成新会话,每一个由分割的语音、分割的语音的暂停时段和分割的语音识别结果组成。电子设备200可以将新生成的会话存储在DB 509中。
如上所述,本公开的语音识别方法能够通过允许用户调整EPD时段来提高语音识别率。
根据本公开的各种实施例,电子设备的语音识别方法可以包括识别用户输入的语音并将预定的语音结束检测时段更新为语音停止时间点与语音恢复时间点之间的暂停时段。
根据本公开的各种实施例,电子设备的语音识别方法可以包括将预定的语音结束检测时段更新为暂停时段;将语音、语音识别结果和暂停时间打包(packing);并存储该包。
根据本公开的各种实施例,电子设备的语音识别方法还可以包括:如果在更新语音结束检测时段之后输入语音,则基于更新的语音结束检测时段确定语音是否结束。
根据本公开的各种实施例,将预定的语音结束检测时段更新为暂停时段可以包括:以其间具有空格的一系列单词或短语的形式显示语音,并接收用于更新语音结束检测时段的用户输入。
在根据本公开的各种实施例的电子设备的语音识别方法中,用户输入可以是用于选择单词或短语或空格中的至少一个以分割或合并连续的单词或短语的命令。
根据本公开的各种实施例,分割连续的单词或短语可以包括:将语音结束检测时段更新为单词或短语中的至少一个的暂停时段。
根据本公开的各种实施例,合并连续的单词或短语可以包括:将语音结束检测时段更新为合并的单词或短语的暂停时段中的最长暂停时段。
如上所述,用于语音结束检测时段的EPD时段调整方法可以由各种电子设备执行,但其不限于此。
图17是示出根据本公开的实施例的电子设备1701的框图。电子设备1701可以形成例如图1中所示的电子设备101的全部或一部分。
参考图17,电子设备1701可以包括至少一个应用处理器(AP)1710、通信模块1720、用户识别模块(SIM)卡1724、存储器1730、传感器模块1740、输入单元1750、显示器1760、接口1770、音频模块1780、相机模块1791、电源管理模块1795、电池1796、指示器1797和电动机1798。
AP 1710可以驱动操作系统(OS)或应用,控制与其连接的多个硬件或软件组件,并且还对包括多媒体数据的各种数据执行处理和操作。例如,AP 1710可以由片上系统(SoC)形成。根据实施例,AP 1710还可以包括图形处理单元(GPU)(未示出)。
通信模块1720(例如,通信接口170)可以执行与通过网络连接到电子设备1701(例如,图1中所示的电子设备104)的任何其他电子设备(例如,图1中所示的电子设备104或服务器106)的数据通信。根据实施例,通信模块1720可以在其中包括蜂窝模块1721、Wi-Fi(WIFI)模块1723、BT模块1725、GPS(或GNSS)模块1727、NFC模块1728和射频(RF)模块1729。
蜂窝模块1721可以通过通信网络(例如,LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro或GSM等)提供话音呼叫、视频呼叫、消息服务、互联网服务等。另外,蜂窝模块1721可以使用SIM卡1724执行通信网络中的电子设备的识别和认证。根据实施例,蜂窝模块1721可以执行AP 1710可提供的功能中的至少一部分。例如,蜂窝模块1721可以执行多媒体控制功能中的至少一部分。
根据实施例,蜂窝模块1721可以包括通信处理器(CP)。另外,例如蜂窝模块1721可以由SoC形成。尽管诸如蜂窝模块1721(例如,CP)、存储器1730或电源管理模块1795的一些元件被示为与图17中的AP 1710不同的单独元件,但是在一个实施例中AP 1710可以被形成为具有上述元件中的至少一部分(例如,蜂窝模块1721)。
根据实施例,AP 1710或蜂窝模块1721(例如,CP)可以将从与其连接的非易失性存储器或从至少一个其他元件接收的命令或数据加载到易失性存储器中以处理它们。另外,AP 1710或蜂窝模块1721可以将从一个或多个其他元件接收或创建的数据存储在非易失性存储器中。
Wi-Fi模块1723、BT模块1725、GPS(或GNSS)模块1727和NFC模块1728中的每一个可以包括用于处理通过其发送或接收的数据的处理器。虽然图17示出了蜂窝模块1721、Wi-Fi模块223、BT模块225、GPS(或GNSS)模块227和NFC模块1728作为不同的块,但是在一个实施例中它们中的至少一部分可以包含在单一IC(集成电路)芯片或单一IC封装中。例如,对应于蜂窝模块1721、Wi-Fi模块1723、BT模块1725,GPS(或GNSS)模块1727和NFC模块1728的各个处理器中的至少一部分(例如,对应于蜂窝模块1721的CP和对应于Wi-Fi模块1723的Wi-Fi处理器)可以被形成为单一SoC。
RF模块1729可以发送和接收数据,例如RF信号或任何其他电信号。虽然未示出,但是RF模块1729可以包括收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)等。而且,RF模块1729可以包括另外的部件,例如导线或导体,用于在自由空域中传输电磁波。虽然图17示出了蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GPS模块1727和NFC模块1728共享RF模块1729,但是在一个实施例中它们中的至少一个可以通过单独的RF模块执行RF信号的发送和接收。
在本公开的一个实施例中,通信模块1720可以连接到应用处理器(AP)。蜂窝模块1721、Wi-Fi模块1723、BT模块1725、GNSS模块1727和NFC模块1728中的至少一个可以直接向AP发送信号以及从AP接收信号。
在一个实施例中,GNSS模块1727可以是具有能够确定电子设备101的位置的位置识别功能的模块。因此,除了本文描述的组件之外,GNSS模块1727还可以包括用于进行位置识别功能的一个或多个组件。
在一个实施例中,GNSS模块1727可以包括用于控制GNSS模块1727的组件以进行GNSS相关功能的控制器。例如,GNSS模块1727可以包括GNSS引擎(例如,GPS引擎)。GNSS模块1727可以包括通信处理器(CP),并且GNSS引擎可以包括在CP中。在各种实施例中,GNSS模块1727可以使用GNSS芯片组(例如,GPS芯片组)来实现。如果想要的话,GNSS模块1727、GNSS引擎、GNSS模块1727中的控制器、GNSS芯片组和CP可以被配置为具有不同功能的分开的实体或者被配置为一个实体。
在各种实施例中,GNSS模块1727可以从一个或多个人造卫星接收信息并且将所接收的信息转发到处理器120、AP 1710或CP 1720。GNSS模块1727可以在接收的卫星信息的基础上直接识别电子设备101的位置。在这种情况下,GNSS模块1727可以将与所识别的位置相关联的信息发送到处理器120、AP 1710或CP 1720。
在各种实施例中,当关闭GNSS模块1727的至少一部分(例如,GNSS RF接收器)时,电子设备1701可以通过使用通信模块1720来识别位置。当GNSS RF接收器(未示出)关闭时,如果需要识别电子设备1701的位置,则处理器1710(例如,图1中所示的处理器120)可以在包括蜂窝模块1721和Wi-Fi模块1723的通信模块1720的基础上来识别位置。
SIM卡1724可以是由SIM形成的特定卡,并且可以被插入形成在电子设备的特定位置处的槽中。SIM卡1724可以在其中包含集成电路卡标识符(ICCID)或国际移动用户标识(IMSI)。
存储器1730(例如,图1中所示的存储器130)可以包括内部存储器1732和外部存储器1734。内部存储器1732可以包括例如易失性存储器(例如,动态随机存取存储器(DRAM)、静态RAM(SRAM)、同步DRAM(SDRAM)等)或非易失性存储器(例如,一次性可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪存ROM、NAND闪存、NOR闪存等)中的至少一个。
在各种实施例中,存储器1730(例如,存储器130)可以存储控制GNSS模块1727所需的程序、算法、例程和指令中的至少一个。存储器1730可以存储在处理器1710(例如,处理器120)的控制下进行本文描述的功能所需的指令。
根据实施例,内部存储器1732可以具有固态驱动器(SSD)的形式。外部存储器1734可以包括闪存驱动器,例如紧凑型闪存(CF)、安全数字(SD)、微型SD、迷你型SD、极端数字(xD)、记忆棒等。外部存储器1734可以通过各种接口在功能上连接到电子设备1701。根据实施例,电子设备1701还可以包括存储设备或诸如硬盘驱动器的介质。
传感器模块1740可以测量物理量或感测电子设备1701的操作状态,然后将测量或感测的信息转换成电信号。传感器模块1740可以包括例如手势传感器1740A、陀螺仪传感器1740B、大气(例如,气压或气压计)传感器1740C、磁传感器1740D、加速度传感器1740E、抓握传感器1740F、接近传感器1740G、颜色传感器1740H(例如,红色、绿色、蓝色(RGB)传感器)、生物特征传感器1740I、温度-湿度传感器1740J、照明或照度传感器1740K和紫外(UV)传感器1740L中的至少一个。附加地或替选地,传感器模块1740可以包括例如电子鼻传感器(未示出)、肌电图(EMG)传感器(未示出)、脑电图(EEG)传感器(未示出)、心电图(ECG)传感器(未示出)、红外(IR)传感器(未示出)、虹膜扫描传感器(未示出)或手指扫描传感器(未示出)。而且,传感器模块1740可以包括用于控制配备在其中的一个或多个传感器的控制电路。
输入单元或模块1750可以包括触摸板1752、数字笔传感器1754、键1756或超声输入单元1758。触摸板1752可以以电容型、电阻型、红外型或超声型的方式识别触摸输入。而且,触摸板1752还可以包括控制电路。在电容型的情况下,可以识别物理接触或接近。触摸板1752还可以包括触觉层。在这种情况下,触摸板1752可以向用户提供触觉反馈。
数字笔传感器1754可以以与接收触摸输入相同或相似的方式形成,或者通过使用单独的识别片形成。键1756可以包括例如物理按钮、光学键或小键盘。超声输入单元1758是能够通过产生超声信号的输入工具利用电子设备1701中的麦克风1788感测声波来识别数据的特定设备,因此允许无线识别。根据实施例,电子设备1701可以通过通信模块1720从连接到其的任何外部设备(例如,计算机或服务器)接收用户输入。
显示模块1760(例如,图1中所示的显示模块160)可以包括面板1762、全息图1764或投影仪1766。面板262可以是例如LCD、有源矩阵OLED(AM OLED)等。面板262可以具有柔性、透明或可穿戴的形式。面板1762可以与触摸板252形成单一模块。全息图1764可以使用光的干涉在空中展示立体图像。投影仪1766可以将图像投影到屏幕上,该屏幕可以位于电子设备200的内部或外部。根据实施例,显示器1760还可以包括用于控制面板1762、全息图1764、和投影仪1766的控制电路。
接口1770可以包括例如高清晰度多媒体接口(HDMI)1772、通用串行总线(USB)1774、光学接口1776或D-超小型(D-sub)1778。接口1770可以包含在例如图1所示的通信接口170中。附加地或替选地,接口1770可以包括例如移动高清链路(MHL)接口、SD卡/多媒体卡(MMC)接口或红外数据协会(IrDA)接口。
音频模块1780可以执行声音和电信号之间的转换。音频模块1780的至少一部分可以包含在例如图1所示的输入/输出接口150中。音频模块1780可以处理通过扬声器1782、接收器1784、耳机1786或麦克风1788输入或输出的声音信息。
相机模块1791是能够获得静止图像和运动图像的设备。根据实施例,相机模块1791可以包括至少一个图像传感器(例如,前置传感器或后置传感器)、镜头(未示出)、图像信号处理器(ISP,未示出)或闪光灯(例如,LED或氙灯,未示出)。
电源管理模块1795可以管理电子设备1701的电力。虽然未示出,但是电源管理模块1795可以包括例如电源管理集成电路(PMIC)、充电器IC或电池或燃料量表。
PMIC可以由例如IC芯片或SoC形成。可以以有线或无线方式执行充电。充电器IC可以对电池1796充电并防止充电器的过电压或过电流。根据实施例,充电器IC可以具有用于有线和无线充电类型中的至少一种的充电器IC。无线充电类型可以包括例如磁共振类型、磁感应类型或电磁类型。可以进一步使用用于无线充电的任何附加电路,例如线圈回路、谐振电路或整流器。
电池量表可以测量电池1796的剩余量以及充电过程中的电压、电流或温度。电池1796可以在其中存储或产生电力并向电子设备1701供应电力。电池1796可以是例如可充电电池或太阳能电池。
指示器1797可以在其上展示电子设备1701或其部分(例如,AP 1710)的当前状态(例如,启动状态、消息状态或再充电状态)。电动机1798可以将电信号转换为机械振动。虽然未示出,但是电子设备1701可以包括用于支持移动TV的特定处理器(例如,GPU)。该处理器可以处理符合数字多媒体广播(DMB)、数字视频广播(DVB)或媒体流的标准的媒体数据。
这里公开的电子设备的上述元件中的每一个可以由一个或多个组件形成,并且其名称可以根据电子设备的类型而变化。这里公开的电子设备可以在没有一些元件或者具有附加的其他元件的情况下由至少一个上述元件形成。一些元件可以集成到在集成之前仍然执行与这些元件相同的功能的单一实体中。
本公开中使用的术语“模块”可以指代包括硬件、软件和固件或其任何组合之一的特定单元。例如,模块可以与单元、逻辑、逻辑块、组件或电路互换使用。模块可以是执行一个或多个特定功能的最小单元或其一部分。模块可以机械地或电子地形成。例如,这里公开的模块可以包括已知或将要开发的专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件中的至少一个。
图18是示出根据本公开的实施例的编程模块1800的配置的框图。
编程模块1800可以包括(或存储)在电子设备101(例如,存储器130)中,或者可以包括(或存储)在图1所示的电子设备100(例如,存储器1730)中。编程模块1810的至少一部分可以用软件、固件、硬件或其两个或更多个的组合来实现。编程模块1810可以以硬件(例如,电子设备200)实现,并且可以包括控制与电子设备(例如,电子设备101)相关的资源的OS和/或在OS中执行的各种应用(例如,应用370)。例如,OS可以是AndroidTM、iOSTM、WindowsTM、等。
参考图18,编程模块1810可以包括内核1820、中间件1830、API 1860和/或应用1870。
内核1820(例如,图1中所示的内核141)可以包括系统资源管理器1821和/或设备驱动器1822。系统资源管理器1821可以包括例如进程管理器(未示出)、存储器管理器(未示出)和文件系统管理器(未示出)。系统资源管理器1821可以执行系统资源的控制、分配、恢复等。设备驱动器1822可以包括例如显示器驱动器(未示出)、相机驱动器(未示出)、蓝牙(BT)驱动器(未示出)、共享存储器驱动器(未示出)、USB驱动器(未示出)、键盘驱动器(未示出)、Wi-Fi驱动器(未示出)和/或音频驱动器(未示出)。此外,根据本公开的实施例,设备驱动器1822可以包括进程间通信(IPC)驱动器(未示出)。
中间件1830可以包括先前实现的多个模块,以便提供应用1870共同使用的功能。此外,中间件1830可以通过API 1860向应用1870提供功能,以便使应用1870能够有效地使用电子设备内的有限系统资源。例如,如图18中所示,中间件1830(例如,图1中所示的中间件143)可以包括运行时库1835、应用管理器1841、窗口管理器1842、多媒体管理器1843、资源管理器1844、电源管理器1845、数据库管理器1846、包管理器1847、连接性或连接管理器1848、通知管理器1849、位置管理器1850、图形管理器1851、安全管理器1852、以及任何其他合适和/或类似的管理器中的至少一个。
运行时库1835可以包括例如由编译器使用的库模块,以便在执行应用1870期间通过使用编程语言添加新功能。根据本公开的实施例,运行时库1835可以执行与输入和输出、存储器的管理、算术函数等相关的功能。
应用管理器1841可以管理例如应用1870中的至少一个的生命周期。窗口管理器1842可以管理在屏幕上使用的GUI资源。多媒体管理器1843可以检测用于再现各种媒体文件的格式,并且可以通过适合于相关格式的编解码器对媒体文件进行编码或解码。资源管理器1844可以管理应用1870中的至少一个的资源,诸如源代码、存储器、存储空间等。
电源管理器1845可以与基本输入/输出系统(BIOS)一起操作,可以管理电池或电源,并且可以提供用于操作的电源信息等。数据库管理器1846可以以这样的方式管理数据库,该方式使得能够生成、搜索和/或改变要由至少一个应用1870使用的数据库。包管理器1847可以管理以包文件的形式分发的应用的安装和/或更新。
连接性管理器1848可以管理无线连接性,例如,Wi-Fi和蓝牙。通知管理器1849可以以不干扰用户的方式向用户显示或报告诸如到达消息、预约、接近警报等事件。位置管理器1850可以管理电子设备的位置信息。图形管理器1851可以管理要提供给用户的图形效果、和/或与图形效果相关的用户界面。安全管理器1852可以提供用于系统安全、用户认证等的各种安全功能。根据本公开的实施例,当电子设备(例如,图1中所示的电子设备101)具有电话功能时,中间件1830还可以包括用于管理电子设备的语音电话呼叫功能和/或视频电话呼叫功能的电话管理器(未示出)。
中间件1830可以通过上述内部元件模块的各种功能组合来生成和使用新的中间件模块。中间件1830可以提供根据OS的类型专用的模块,以便提供差异化的功能。此外,中间件1830可以动态地删除一些现有元件,或者可以添加新元件。因此,中间件1830可以省略在本公开的各种实施例中描述的一些元件,可以进一步包括其他元件,或者可以用各自执行类似功能且具有不同名称的元件来替换一些元件。
API 1860(例如,图17中所示的API 1710)是API编程功能的集合,并且可以根据OS提供有不同的配置。例如,在AndroidTM或iOSTM的情况下,可以向每个平台提供一个API集合。例如,在的情况下,可以向每个平台提供两个或更多个API集合。
应用1870(例如,图1中的应用147)可以包括例如预加载的应用和/或第三方应用。应用1870可以包括例如主页应用1871、拨号器应用1872、短消息服务(SMS)/多媒体消息服务(MMS)应用1873、即时消息(IM)应用1874、浏览器应用1875、相机应用1876、警报应用1877、联系人应用1878、话音拨号应用1879、电子邮件(e-mail)应用1880、日历应用1881、媒体播放器应用1882、相册应用1883、时钟应用1884、以及任何其他合适的和/或类似的应用。
编程模块1810的至少一部分可以由存储在非暂时性计算机可读存储介质中的指令实现。当指令由一个或多个处理器(例如,一个或多个AP 1710)执行时,一个或多个处理器可以执行与指令相对应的功能。非暂时性计算机可读存储介质可以是例如存储器1730。编程模块1810的至少一部分可以由例如一个或多个处理器1710实现(例如,执行)。编程模块1810的至少一部分可以包括例如用于执行一个或多个功能的模块、程序、例程、指令集和/或进程。
根据本公开的实施例的编程模块(例如,编程模块1810)的元件的名称可以取决于OS的类型而改变。根据本公开的实施例的编程模块可以包括一个或多个上述元件。替选地,可以从编程模块中省略一些上述元件。替选地,编程模块还可包括附加元件。根据本公开的实施例的由编程模块或其他元件执行的操作可以以顺序方法、并行方法、重复方法或启发式方法来处理。此外,可以省略一些操作,或者可以向操作添加其他操作。
如上所述,本公开的语音识别设备和方法在通过适应于用户的话语模式动态地调整话语结束检测时段来提高语音识别准确度方面是有利的。
这里参考根据本公开的各种实施例的用户界面、方法和计算机程序产品的流程图示图来描述上述方法。应当理解,流程图示图的每个块以及流程图示图中的块的组合可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现一个或多个流程图块中指定的功能的装置。这些计算机程序指令还可以存储在计算机可用或计算机可读存储器中,其可以指示计算机或其他可编程数据处理装置以特定方式起作用,使得存储在计算机可用或计算机可读存储器中的指令产生包含实现一个或多个流程图块中指定的功能的指令装置的制品。计算机程序指令也可以加载到计算机或其他可编程数据处理装置上,以使得在计算机或其他可编程装置上执行一系列运算操作以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供用于实现一个或多个流程图块中指定的功能的操作。
而且,流程图示图的每个块可以表示包括用于实现指定的逻辑功能的一个或多个可执行指令的代码的模块、片段或部分。还应注意,在一些替选实现方式中,块中提到的功能可以不按顺序发生。例如,取决于所涉及的功能,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行。
虽然已经参考本公开的各种实施例示出并描述了本公开,但是本领域技术人员将理解,在不脱离如通过所附权利要求及其等同物定义的本公开的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。
Claims (21)
1.一种电子设备,包括:
麦克风;
显示器;
处理器,电连接到所述麦克风和所述显示器;以及
存储器,电连接到所述处理器,
其中,所述存储器存储可由处理器执行的命令,用于:
识别通过麦克风输入的语音,以及
将预定的语音结束检测时段更新为在语音停止时间点与语音恢复时间点之间的暂停时段。
2.根据权利要求1所述的电子设备,其中,所述命令包括用于将语音、识别的语音输入和暂停时段打包成包并存储所述包的命令。
3.根据权利要求1所述的电子设备,其中,所述命令包括用于当在所述预定的语音结束检测时段被更新为所述暂停时段之后语音恢复时在更新的语音结束检测时段中确定语音是否结束的命令。
4.根据权利要求1所述的电子设备,其中,所述命令包括用于所述处理器与外部电子设备通信以进行语音识别的命令。
5.根据权利要求1所述的电子设备,还包括:
输入设备,被形成为显示器的一部分或作为单独的设备连接到所述电子设备,
其中,所述命令包括:
用于当语音被转换为文本时控制显示器以其间具有空格的一系列单词或短语的形式显示与语音对应的文本的命令,以及
用于通过输入设备接收用于更新预定的语音结束检测时段的用户输入的命令。
6.根据权利要求5所述的电子设备,其中,所述命令包括用于控制所述显示器与所述文本一起显示在所述空格之一处指示语音结束的指示符的命令。
7.根据权利要求5所述的电子设备,其中,所述用户输入是用于选择一系列连续的单词或短语或空格以分割或合并单词或短语的命令。
8.根据权利要求7所述的电子设备,其中,所述命令包括用于当分割所述单词或短语时将所述预定的语音结束检测时段更新为在所述一系列单词或短语之后的所述暂停时段中的至少一个的命令。
9.根据权利要求7所述的电子设备,其中,所述命令包括用于当合并所述一系列单词或短语时将所述预定的语音结束检测时段更新为在合并的一系列单词或短语之后的暂停时段中的最长暂停时段的命令。
10.一种电子设备的语音识别方法,所述方法包括:
识别输入的语音;以及
将预定的语音结束检测时段更新为在语音停止时间点与语音恢复时间点之间的暂停时段。
11.根据权利要求10所述的方法,其中,更新所述预定的语音结束检测时段包括:
将语音、识别的语音输入和暂停时段打包成包;以及
存储所述包。
12.根据权利要求10所述的方法,其中,更新所述预定的语音结束检测时段包括:当在所述语音结束检测时段被更新为所述暂停时段之后语音恢复时,在更新的语音结束检测时段中确定语音是否结束。
13.根据权利要求10所述的方法,其中,更新所述预定的语音结束检测时段包括:
以其间具有空格的一系列单词或短语的形式显示与语音对应的文本;以及
通过输入设备接收用于更新预定的语音结束检测时段的用户输入。
14.根据权利要求13所述的方法,其中,所述用户输入包括用于下述各项的命令:
选择一系列单词或短语或空格,以及
分割或合并选择的一系列单词或短语。
15.根据权利要求14所述的方法,其中,分割选择的一系列单词或短语包括:将所述预定的语音结束检测时段更新为在一系列单词或短语之后的暂停时段中的至少一个。
16.根据权利要求14所述的方法,其中,合并选择的一系列单词或短语包括:将所述语音结束检测时段更新为在一系列单词或短语的合并之后的暂停时段中的最长暂停时段。
17.一种非暂时性计算机可读记录介质,其上记录有包括命令的至少一个程序,所述至少一个程序在由处理器执行时执行语音识别方法,所述方法包括:
识别语音输入;以及
将预定的语音结束检测时段更新为在语音停止时间点与语音恢复时间点之间的暂停时段。
18.一种电子设备,包括:
麦克风;
显示器;
输入设备,被形成为显示器的一部分或作为单独的设备连接到所述电子设备,
处理器,电连接到所述麦克风、所述显示器和所述输入设备;以及
存储器,电连接所述处理器,
其中,所述存储器存储可由处理器执行的指令,用于:
接收用户通过麦克风输入的话语,
将话语转换为由其间有空格的一系列单词或短语组成的文本,
在显示器上显示文本,该文本包括在不正确位置处形成的至少一个空格,以及
通过所述输入设备接收用于更新预定的时间段的用户输入。
19.根据权利要求18所述的电子设备,其中,所述指令包括:用于在更新的时间段期间通过所述麦克风接收另一个话语的指令,以及
用于使用语音识别处理器转换另一个话语的指令。
20.根据权利要求18所述的电子设备,其中,所述指令包括:用于与所述文本一起显示被配置用于更新所述预定的时间段的至少一个指示符的指令。
21.根据权利要求18所述的电子设备,其中,所述处理器包括语音识别处理器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160009248A KR102495517B1 (ko) | 2016-01-26 | 2016-01-26 | 전자 장치, 전자 장치의 음성 인식 방법 |
KR10-2016-0009248 | 2016-01-26 | ||
PCT/KR2016/012349 WO2017131322A1 (en) | 2016-01-26 | 2016-10-31 | Electronic device and speech recognition method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108496220A true CN108496220A (zh) | 2018-09-04 |
CN108496220B CN108496220B (zh) | 2023-06-13 |
Family
ID=59359867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680080011.2A Active CN108496220B (zh) | 2016-01-26 | 2016-10-31 | 电子设备及其语音识别方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10217477B2 (zh) |
EP (1) | EP3391367B1 (zh) |
KR (1) | KR102495517B1 (zh) |
CN (1) | CN108496220B (zh) |
WO (1) | WO2017131322A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360551A (zh) * | 2018-10-25 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109709827A (zh) * | 2018-12-10 | 2019-05-03 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN112669847A (zh) * | 2020-12-03 | 2021-04-16 | 安徽宝信信息科技有限公司 | 一种可用于会议记录自动编辑整理的智慧屏 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10109182B1 (en) * | 2016-07-20 | 2018-10-23 | Dsp Group Ltd. | Voice command conversion |
KR20180084394A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
JPWO2018198447A1 (ja) * | 2017-04-24 | 2020-02-27 | ソニー株式会社 | 情報処理装置および情報処理方法 |
GB201712519D0 (en) * | 2017-08-03 | 2017-09-20 | Dow Corning | Elastomeric compositions and their applications |
CN107888468B (zh) * | 2017-11-22 | 2021-01-01 | 北京小米移动软件有限公司 | 信息获取系统、方法及装置 |
KR102628211B1 (ko) * | 2018-08-29 | 2024-01-23 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
KR102563314B1 (ko) * | 2018-08-30 | 2023-08-04 | 삼성전자주식회사 | 전자 장치 및 단축 명령어의 바로가기 생성 방법 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN111753558B (zh) * | 2020-06-23 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 视频翻译方法和装置、存储介质和电子设备 |
US11875781B2 (en) * | 2020-08-31 | 2024-01-16 | Adobe Inc. | Audio-based media edit point selection |
CN112382285B (zh) * | 2020-11-03 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音控制方法、装置、电子设备和存储介质 |
FI20206336A1 (en) | 2020-12-18 | 2022-06-19 | Elisa Oyj | A computer-implemented method and device for detecting silence in speech recognition |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009175179A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
CN101604521A (zh) * | 2008-06-12 | 2009-12-16 | Lg电子株式会社 | 移动终端和用于识别其语音的方法 |
CN103546787A (zh) * | 2012-07-12 | 2014-01-29 | 三星电子株式会社 | 校正语音识别错误的方法和应用该方法的广播接收设备 |
US20160379632A1 (en) * | 2015-06-29 | 2016-12-29 | Amazon Technologies, Inc. | Language model speech endpointing |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
US4167653A (en) | 1977-04-15 | 1979-09-11 | Nippon Electric Company, Ltd. | Adaptive speech signal detector |
US6782363B2 (en) * | 2001-05-04 | 2004-08-24 | Lucent Technologies Inc. | Method and apparatus for performing real-time endpoint detection in automatic speech recognition |
US20040121812A1 (en) * | 2002-12-20 | 2004-06-24 | Doran Patrick J. | Method of performing speech recognition in a mobile title line communication device |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
JP4497911B2 (ja) * | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
GB0513786D0 (en) * | 2005-07-05 | 2005-08-10 | Vida Software S L | User interfaces for electronic devices |
KR100819848B1 (ko) | 2005-12-08 | 2008-04-08 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
KR101422020B1 (ko) * | 2007-11-27 | 2014-07-23 | 엘지전자 주식회사 | 음성 인식 방법 및 장치 |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
KR102238979B1 (ko) * | 2013-11-15 | 2021-04-12 | 현대모비스 주식회사 | 음성 인식을 위한 전처리 장치 및 그 방법 |
US10269341B2 (en) * | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
-
2016
- 2016-01-26 KR KR1020160009248A patent/KR102495517B1/ko active IP Right Grant
- 2016-10-31 WO PCT/KR2016/012349 patent/WO2017131322A1/en active Application Filing
- 2016-10-31 CN CN201680080011.2A patent/CN108496220B/zh active Active
- 2016-10-31 EP EP16888298.3A patent/EP3391367B1/en active Active
- 2016-10-31 US US15/338,905 patent/US10217477B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009175179A (ja) * | 2008-01-21 | 2009-08-06 | Denso Corp | 音声認識装置、プログラム、及び発話信号抽出方法 |
CN101604521A (zh) * | 2008-06-12 | 2009-12-16 | Lg电子株式会社 | 移动终端和用于识别其语音的方法 |
CN103546787A (zh) * | 2012-07-12 | 2014-01-29 | 三星电子株式会社 | 校正语音识别错误的方法和应用该方法的广播接收设备 |
US20160379632A1 (en) * | 2015-06-29 | 2016-12-29 | Amazon Technologies, Inc. | Language model speech endpointing |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360551A (zh) * | 2018-10-25 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109709827A (zh) * | 2018-12-10 | 2019-05-03 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN109709827B (zh) * | 2018-12-10 | 2020-05-19 | 珠海格力电器股份有限公司 | 一种电器控制方法、装置、存储介质及电器 |
CN112669847A (zh) * | 2020-12-03 | 2021-04-16 | 安徽宝信信息科技有限公司 | 一种可用于会议记录自动编辑整理的智慧屏 |
Also Published As
Publication number | Publication date |
---|---|
EP3391367A4 (en) | 2019-01-16 |
EP3391367B1 (en) | 2020-12-02 |
KR20170089178A (ko) | 2017-08-03 |
US10217477B2 (en) | 2019-02-26 |
CN108496220B (zh) | 2023-06-13 |
WO2017131322A1 (en) | 2017-08-03 |
KR102495517B1 (ko) | 2023-02-03 |
US20170213569A1 (en) | 2017-07-27 |
EP3391367A1 (en) | 2018-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108496220A (zh) | 电子设备及其语音识别方法 | |
US11146670B2 (en) | Electronic device and method of executing function of electronic device | |
CN110199350B (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
CN107077464B (zh) | 电子设备和用于其口头交互的方法 | |
KR102414122B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 | |
EP3593347B1 (en) | Method for operating speech recognition service and electronic device supporting the same | |
CN108121490A (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
CN108829235A (zh) | 语音数据处理方法和支持该方法的电子设备 | |
EP3531416A1 (en) | System for processing user utterance and controlling method thereof | |
US11137978B2 (en) | Method for operating speech recognition service and electronic device supporting the same | |
CN108242235A (zh) | 电子设备及其语音识别方法 | |
CN108806669A (zh) | 用于提供语音识别服务的电子装置及其方法 | |
EP3603040B1 (en) | Electronic device and method of executing function of electronic device | |
CN108735204A (zh) | 用于执行与用户话语相对应的任务的设备 | |
CN110476150A (zh) | 用于操作语音辨识服务的方法和支持其的电子装置 | |
EP3444811B1 (en) | Speech recognition method and device | |
KR20180058476A (ko) | 다양한 입력 처리를 위한 방법, 이를 위한 전자 장치 및 서버 | |
CN109102802A (zh) | 用于处理用户话语的系统 | |
CN107924286A (zh) | 电子设备及电子设备的输入方法 | |
CN106611595A (zh) | 用于将文本转换为语音的电子装置和方法 | |
KR101993368B1 (ko) | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 | |
CN108076044A (zh) | 流服务方法和设备 | |
CN109309754A (zh) | 用于获取和键入缺少参数的电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |