CN107077464B - 电子设备和用于其口头交互的方法 - Google Patents

电子设备和用于其口头交互的方法 Download PDF

Info

Publication number
CN107077464B
CN107077464B CN201580055978.0A CN201580055978A CN107077464B CN 107077464 B CN107077464 B CN 107077464B CN 201580055978 A CN201580055978 A CN 201580055978A CN 107077464 B CN107077464 B CN 107077464B
Authority
CN
China
Prior art keywords
electronic device
information
sentence
user
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580055978.0A
Other languages
English (en)
Other versions
CN107077464A (zh
Inventor
S.查克拉达尔
李相勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN107077464A publication Critical patent/CN107077464A/zh
Application granted granted Critical
Publication of CN107077464B publication Critical patent/CN107077464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

提供一种操作电子设备的方法,该方法包括:由包括显示器和语音接收设备的电子设备通过语音接收设备接收话音元素的序列;由电子设备在显示器上显示基于话音元素当中的第一话音元素的至少一部分的第一信息;以及由电子设备在显示器上显示不同于第一信息并且基于话音元素当中相比于第一话音元素更晚接收的第二话音元素的至少一部分的第二信息。

Description

电子设备和用于其口头交互的方法
技术领域
本公开涉及用于口头交互的电子设备和方法。
背景技术
随着计算机科学得以发展,电子设备已经变得深入人们的生活。除仅仅从人类接收命令之外,已经开发了电子设备来理解人类的话语。使得电子设备能够理解、生成并且分析人类的句子的技术被称为自然语言处理技术。
从智能电话的开发起,人类与电子设备之间的交互已经变为越来越重要的问题。引起注意的一种技术是口头交互(spoken interaction)功能。口头交互功能使得电子设备能够在当用户通过与电子设备的接口提供语音输入时识别语音输入中所包括的用户的意图,并且通过接口提供对其的响应。在从语音输入识别文本之后,可以应用自然语言处理技术以从识别的文本来识别用户的意图。
发明内容
技术问题
惯常地,需要完整的句子以使得计算机能够执行自然语言处理技术。而且,仅仅在通过将用户语音输入转换为文本格式来生成句子之后,口头交互功能才可以使用完整的句子识别用户的意图。
如上所述,当句子完成时,基于完整的句子执行自然语言处理技术,并且因此,在提供句子之前可能存在等待时间。另外,当句子较长或复杂时,自然语言处理时间可能较长,这是因为句子应当立刻被分析或处理。当用户使用口头交互功能时,可能出现延迟时间。
解决方案
在第一实施例中,提供一种用于操作电子设备的方法。该方法包括:由包括显示器和语音接收设备的电子设备通过语音接收设备来接收话音元素的序列。该方法进一步包括由电子设备在显示器上显示第一信息。第一信息与话音元素当中的第一话音元素的至少一部分相关联。该方法进一步包括显示第二信息。第二信息不同于第一信息。第二信息与在第一话音元素之后已经接收的第二话音元素的至少一部分相关联。
在第二实施例中,提供一种电子设备。电子设备包括显示器。显示器被配置为显示与话音元素当中的第一话音元素的至少一部分相关联的第一信息。显示器被进一步配置为显示与在第一话音元素之后已经接收的第二话音元素的至少一部分相关联的第二信息。电子设备进一步包括语音接收设备。语音接收设备被配置为通过语音接收设备来接收话音元素的序列。电子设备进一步包括通信模块。电子设备进一步包括存储器。电子设备进一步包括处理器。
在进行以下的具体实施方式之前,可以有利的是,阐述贯穿该专利文献所使用的某些语词的定义:术语“包括”和“包含”以及其派生意指不进行限制的包括;术语“或”是可兼的,意指和/或;字句“与...相关联的”和“与此相关联的”以及其派生可以意指包括、被包括在内、与...互连、包含、被包含在内、连接到或与...连接、耦合到或与...耦合、与...通信、与...协作、交织、并置、接近于、绑定到或与...绑定、具有、具有...的属性等等;并且术语“控制器”意指控制至少一个操作的任何设备、系统或其部分,这样的设备可以实施在硬件、固件或软件或者其至少两个的某组合中。应当注意到,与任何特定控制器相关联的功能不管是本地的还是远程的都可以是集中的或分布的。贯穿该专利文献来提供对于某些语词的定义,那些本领域普通技术人员应该理解,在许多、即使不是最多的实例中,这样的定义适用于这样的定义的语词的在先的以及将来的使用。
附图说明
为了本公开和其优点的更完全的理解,现在对结合附图所采取的以下描述进行参考,其中,同样的附图标记表示相同部分:
图1是图示出根据本公开的网络环境的示例配置的图;
图2是图示出根据本公开的口头交互系统的示例配置的框图;
图3是图示出根据本公开的口头交互接口模块的示例配置的框图;
图4是图示出根据本公开的、用于模式感测模块感测和处理用户语音输入的模式的示例方法的流程图;
图5是图示出根据本公开的、用于自然语言处理模块执行自然语言处理的示例方法的流程图;
图6是图示出根据本公开的、用于自然语言处理模块执行自然语言处理的示例方法的流程图;
图7图示出根据本公开的、由自然语言处理模块执行的自然语言处理的示例配置;
图8图示出根据本公开的、由自然语言处理模块执行的自然语言处理的另一个示例配置;
图9是图示出根据本公开的、执行口头交互的示例方法的流程图;
图10A至图10D图示出根据本公开的、执行口头交互的示例方法;
图11A至图11B图示出根据本公开的、执行口头交互的另一个示例方法;
图12A至图12B是图示出根据本公开的、开始或终止语音输入的接收的示例方法的流程图;
图13是图示出根据本公开的、用于确定电子设备的操作的响应输出模式的示例方法的流程图;以及
图14是示意地图示出根据本公开的电子设备的示例配置的图。
具体实施方式
以下讨论的图1至图14以及用于在该专利文献中描述本公开的原理的各种实施例是仅仅作为说明并且不管怎样不应当被理解为限制本公开的范围。那些本领域技术人员将理解,本公开的原理可以被实施在任何适当地布置的电子设备中。在下文,参考附图详细地描述本公开的示例性实施例。尽管本公开可以具有各种实施例,但可以在其中进行修改和改变。因此,将参考附图在中示出的特定实施例对本发明进行详细地描述。然而,应当理解,不意图将本公开限制为特定形式,并且本公开应当被解释为覆盖落入本公开的精神和范围内的所有修改、等同物和/或替换。在描述附图时,通过类似的附图标记来指定类似的要素。
如在本公开中使用的,表达“包括”或“可以包括”指的是对应的功能、操作或组成元件的存在,并且不限制一个或多个附加功能、操作或组成元件。此外,如在本公开中使用的,诸如“包括”或“具有”的术语可以被解释为表示某一特性、数量、步骤、操作、组成元件、组件或其组合,但是不可以被理解为排除一个或多个其他特性、数量、步骤、操作、组成元件、组件或其组合的存在或添加的可能性。
如在本公开中使用的,表达“或”包括共同列举的词的任何或所有组合。例如,表达“A或B”可以包括A、可以包括B,或可以包括A和B两者。
尽管如在本公开中使用的诸如“第一”和“第二”之类的包括序号的表达可以修饰各个组成元件,但这样的组成元件不受限于以上表达。例如,以上表达不限制对应的组成元件的序列和/或重要性。以上表达可以仅仅用于将组成元件与其他组成元件相区别。例如,尽管两者(第一用户设备和第二用户设备)都是用户设备,但第一用户设备和第二用户设备指示不同的用户设备。例如,在不背离本公开的范围的情况下,第一组成元件可以被叫作第二组成元件,并且同样地第二组成元件也可以叫作第一组成元件。
当组件被称为“连接”或“接入”到任何其他组件时,应当理解,组件可以直接地连接或接入到其他组件,但是另一个新的组件也可以被插入在它们之间。相反地,当组件被称为“直接地连接”或“直接地接入”到任何其他组件时,应当理解,不存在该组件和另一个组件之间的新的组件。
在本发明的各个实施例中使用的术语仅仅为了描述特定实施例的目的,并且并不意图限制本公开。单数形式意图包括复数形式,除非上下文清楚地指示其他。
除非以另外方式定义,包括技术术语和科学术语的在本文使用的所有术语具有与本公开所属于的本领域普通技术人员通常理解的意义相同的意义。在通用词典中定义的这样的术语将被解释为与相关技术领域中的上下文意义相同的意义,并且将不被解释为具有理想或过于正式的意义,除非在本公开中被清楚地定义。
电子设备能够是包括通信功能的设备。例如,电子设备能够包括智能电话、平板机个人计算机(PC)、移动式电话、视频电话、电子图书(电子书)阅读器、台式机PC、膝上型PC、上网本计算机、个人数字助理(PDA)、便携式多媒体播放机(PMP)、MP3播放机、移动医疗器械、照相机,以及可穿戴设备(诸如,诸如电子眼镜之类的头部安装设备(HMD)、电子衣、电子手镯、电子项链、电子附件、电子纹身或者智能手表)中的至少一个。
电子设备能够是具有通信功能的智能家用电器。如电子设备的智能家用电器例如能够包括电视、数字视频磁盘(DVD)播放机、音频、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、TV盒(诸如三星HOMESYNCTM、苹果TVTM、谷歌TVTM,等等)、游戏控制台、电子词典、电子钥匙、录像摄像机,以及电子相框中的至少一个。
电子设备能够包括各种医疗设备(诸如磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层显象(CT)和超声波加工机)、导航装备、全球定位系统(GPS)接收机、行车记录器(EDR)、飞行数据记录器(FDR)、汽娱乐信息设备、用于船运的电子设备(诸如船舶导航装备和陀螺罗盘)、航空电子、保密设备、交通工具头部单元、工业或家用机器人、银行业务系统的自动取款机(ATM),以及商店中的销售点(POS)中的至少一个。
电子设备能够包括建筑物/结构的一部分、电子板、电子签名接收设备、投影仪和各种类型的测量仪表(例如,水表、电表、煤气表和无线电波计量器)中的至少一个。根据本公开的电子设备能够是前述各种设备中的一个或多个的组合。此外,根据本公开的电子设备能够是柔性设备。此外,对那些本领域技术人员将明显的是,根据本公开的电子设备不局限于上述设备。
在下文中,将参考附图来讨论根据本公开的电子设备。当在各个实施例中使用时,术语“用户”可以指的是使用电子设备的任何人或使用电子设备的任何其他设备(例如,人工智能电子设备)。
图1是图示出根据本公开的、包括电子设备101的网络环境100的示例配置的框图。如图1所图示的,电子设备101包括总线110、处理器120、存储器130、输入/输出接口140、显示器150、通信接口160以及口头交互接口模块170。
总线110是将前述组件互连并且在前述组件之间传送通信(诸如控制消息)的电路。
处理器120例如通过总线110从处理器120之外的前述组件(诸如存储器130、输入/输出接口140、显示器150、通信接口160和口头交互接口模块170)接收指令,对所接收的指令进行解码,并且根据解码的指令来执行操作或数据处理。
存储器130存储从处理器120或其他组件(诸如输入/输出接口140、显示器150、通信接口160和口头交互接口模块170)接收的或者通过其生成的指令或数据。存储器130包括编程模块,其包含内核131、中间件132、应用编程接口(API)133和应用134。编程模块中的每一个由软件、固件、硬件或其两个或更多的组合形成。
内核131控制或管理用于执行在包括中间件132、API 133和应用134的剩余其他编程模块中所实施的操作或功能的系统资源(诸如总线110、处理器120和存储器130)。此外,内核131提供允许中间件132、API 133或应用134接入、控制和/或管理电子设备101的独立组件的接口。
中间件132控制API 133、应用134和内核131在API 133、应用134和内核131当中传送和交换数据。此外,中间件132控制从应用134接收到的任务请求(诸如调度、负载均衡,等等)。例如,中间件132提供用于向应用134中的至少一个指配系统资源(诸如在电子设备101中配置的总线110、处理器120或存储器130)的优先级的方法。
API 133是用于允许应用134控制由内核131和中间件132提供的功能的接口,并且包括至少一个接口或功能(诸如包括文件控制功能、窗口控制功能、图像处理功能或者文本控制功能的指令)。
应用134包括SMS/MMS应用、电子邮件应用、日历应用、警报应用、保健应用(诸如用于测量运动量、血糖,等等的应用)以及环境信息应用(诸如用于提供大气压信息、湿度信息、温度信息,等等的应用)。应用134进一步包括与在电子设备101和外部电子设备(诸如电子设备104)之间所交换的信息相关联的应用。与信息交换相关联的应用例如包括用于向外部电子设备传递特定信息的通知中继应用或用于管理外部电子设备的设备管理应用。
例如,通知中继应用包括向外部电子设备(诸如电子设备104)传递在电子设备101的另一个应用(诸如SMS/MMS应用、电子邮件应用、保健应用、环境信息应用,等等)中生成的通知信息的功能。通知中继应用进一步从外部电子设备从外部电子设备接收通知信息(诸如电子设备104)接收通知信息并且向用户提供所接收的通知信息。设备管理应用例如管理用于与电子设备101进行通信的外部电子设备(诸如电子设备104)的至少一部分的功能(诸如安装、移除、更新,等等)(诸如开启/关闭外部电子设备本身(或一些其组件)的功能、调整显示器的亮度(或分辨率),等等)、运行于外部电子设备上的应用或者在外部电子设备中提供的服务(诸如呼叫、消息传送业务,等等)。
应用134包括根据外部电子设备(诸如电子设备104)的属性(诸如类型,等等)的应用。当外部电子设备被配置为MP3播放机时,应用134包括与音乐重放相关联的应用。类似地,当外部电子设备被配置为移动医疗设备时,应用134包括与保健相关联的应用。应用134包括被指配给电子设备101的应用和从外部电子设备(诸如服务器106或电子设备104)接收到的应用中的至少一个。
输入/输出接口140例如通过总线110向处理器120、存储器130、通信接口160或口头交互接口模块170传递通过输入/输出设备(诸如传感器、键盘、触摸屏,等等)从用户输入的指令或数据。例如,输入/输出接口140可以为处理器120提供与通过触摸屏的用户的触摸输入相对应的数据。输入/输出接口140进一步通过总线110从处理器120、存储器130、通信接口160或口头交互接口模块170接收指令或数据并且通过输入/输出设备(诸如扬声器、显示器,等等)输出所接收的指令或数据。例如,输入/输出接口140还通过扬声器向用户输出由处理器120处理的语音(voice)数据。
显示器150向用户显示各种类型的信息(诸如多媒体数据、文本数据,等等)。
通信接口160建立电子设备101与外部电子设备(诸如电子设备104或服务器106)之间的通信。通信接口160通过无线或有线通信路径连接到网络162,并且然后与外部设备进行通信。无线通信例如包括无线保真(WiFi)、蓝牙(BT)、近场通信(NFC)、全球定位系统(GPS)、蜂窝通信协议(诸如长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)、全球移动通信系统(GSM),等等)或者其的组合中的至少一个。有线通信包括通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)、简单老式电话服务(POTS)或者其的组合中的至少一个。
在某些实施例中,网络162是包括计算机网络、因特网、物联网、电话网络或者其的组合中的至少一个的电信网络。通过应用134中的至少一个、应用编程接口133、中间件132、内核131和通信接口160来支持用于电子设备101和外部设备之间的通信的协议(诸如传送层协议、数据链路协议、物理协议,等等)。
口头交互接口模块170对从其他元件(诸如处理器120、存储器130、输入/输出接口140或通信接口160)获得的至少信息的量进行处理,并且通过各种方法向用户提供处理后的信息。例如,口头交互接口模块170从用户接收语音输入,向服务器106传送与语音输入相关联的信息,并且通过从服务器106接收对语音输入的响应来向用户提供该响应。
在某些实施例中,口头交互接口模块170接收由用户提供的语音输入,并且基于流传输方案向服务器106传送对应的语音信号或者通过转换对应的语音信号所获取的文本块。服务器106使用与流传输方案相关联的语音信号或转换的文本块来估计用户的意图,并且基于估计的用户意图来生成中间响应。服务器106向电子设备100传送所生成的中间响应。口头交互接口模块170执行并且输出从服务器106接收的中间响应。服务器106基于随后在相同的句子内提供的语音信号或者转换的文本块来校正中间响应。口头交互接口模块170从服务器106接收且执行并且输出校正的中间响应。服务器106基于估计的用户的意图、使用完成对应的句子的语音信号或者转换的文本块来确定用户的意图,并且基于确定的用户的意图来生成最终响应。服务器106向电子设备100传送所生成的最终响应。口头交互接口模块170执行并且输出从服务器106接收的最终响应。服务器106基于补充完成的句子的语音信号或者转换的文本块来校正最终响应。口头交互接口模块170从服务器106接收且执行并且输出校正的最终响应。
图2是图示根据本公开的口头交互系统200的示例配置的框图。口头交互系统200包括电子设备100和服务器106。当电子设备100从用户接收语音输入并且向服务器106传送语音输入时,服务器106向电子设备100传送与所接收的语音输入中所包括的用户的意图相关联的响应,并且然后电子设备100执行响应并且向用户提供响应。
电子设备100包括口头交互接口模块170。服务器106包括语音识别模块210、自然语言处理模块240、响应模块350,以及交互数据库260。电子设备100进一步包括语音识别模块210、自然语言处理模块240、响应模块250、交互数据库260或者其的组合中的至少一个以及口头交互接口模块170。
在某些实施例中,电子设备100中所包括的口头交互接口模块170从用户接收语音输入,并且将语音输入作为语音信号传递到语音识别模块210。口头交互接口模块170基于流传输方案向语音识别模块210传递语音信号。口头交互接口模块170将语音信号转换为文本信息。在此实例中,口头交互接口模块170向服务器106至少传送从语音信号转换的文本块。将语音信号转换为文本块的口头交互接口模块170与语音识别模块210的操作相同。
在某些实施例中,口头交互接口模块170从响应模块250接收响应于语音输入的中间响应或最终响应,并且然后执行并且向用户输出中间响应或最终响应。口头交互接口模块170与语音识别模块210和响应模块250交换数据。
在某些实施例中,当从电子设备100接收到语音信号时,服务器106中所包括的语音识别模块210将所接收的语音信号转换为文本信息。语音识别模块210基于流传输方案将接收的语音信号转换为文本信息。基于声学框单位来执行基于流传输方案的语音识别。例如,语音识别包括以下操作:使用声学模型基于音素的特性从语音信号预测音素信息,以及与通过语言模型获取的文本预测结果一起采用音素信息以完成语法适当的文本。完成的文本包括作为至少一个字词的集合的多个文本块。
在某些实施例中,自然语言处理模块240使用基于流传输方案从语音识别模块210或电子设备100接收的至少一个文本块中所包括的文本来识别意义。自然语言处理模块240识别包括至少一个文本块的句子的意义。自然语言处理模块240使用几个接收的文本块中所包括的关键字来估计用户的意图。估计用户的意图的操作包括确定句子的类型或主题。自然语言处理模块240向响应模块250传送估计的用户的意图。自然语言处理模块240使用在对应句子的接连接收的文本块中所包括的关键字来识别对应句子的意义。自然语言处理模块240处理在形成对应句子的所接收的文本块中所包括的文本以便识别对应的句子的意义。当自然语言处理模块240识别句子的意义时,自然语言处理模块240指示“用户的意图”是基于估计的用户的意图被确定的。在下文,当自然语言处理模块240完成识别句子的意义时,通过表达“用户的意图被确定”来向自然语言处理模块240进行指示。自然语言处理模块240向响应模块250传送确定的用户的意图。
在某些实施例中,自然语言处理模块240基于估计的用户的意图来预测确定用户的意图所需要的关键字的范围。自然语言处理模块240确定对应于关键字的预测范围的关键字是否被包括在接连接收的文本块中。自然语言处理模块240进一步确定对应于关键字的预测范围的关键字是否被包括在接连接收的文本块中,并且使用确定的关键字来确定用户的意图。自然语言处理模块240处理在对应于句子的所接收的文本块中所包括的文本以便确定用户的意图。
在某些实施例中,响应模块250生成与在自然语言处理模块240中估计的用户的意图相对应的中间响应,并且生成与确定的用户的意图相对应的最终响应。交互数据库260存储与对用户的意图的响应相关联的数据库。响应模块250在交互数据库260中搜索与估计的用户的意图相对应的中间响应并且提供检索到的中间响应,并且搜索与确定的用户的意图相对应的最终响应,并且然后提供最终响应。中间响应例如是提供与估计的用户的意图相关联的至少一则应用信息。最终响应例如是简单提供诸如对确定的用户的意图的简单的响应之类的信息,或提供应用功能执行信息、编辑或配置命令信息。由响应模块250提供的响应不局限于示例。电子设备100的口头交互接口模块170从响应模块250接收并且执行中间响应和最终响应。
口头交互系统200例如进一步包括模式感测模块220和参数数据库230。
在某些实施例中,模式感测模块220感测用户的语音输入模式并且生成各种类型的参数。模式感测模块220使用与用户语音输入相关联的语音信号或转换的文本信息来感测用户的语音输入模式。生成的参数之一是发音速度。基于每秒的字词(word)的平均数量、每句子的字词的平均数量、句子内的小句的平均数量、每小句的字词的平均数量等等来测量发音速度。参数是字词、通常使用的句子的模式或者讲话中的暂停模式。暂停模式包括字词之间的短暂停模式、小句之间的长暂停模式,等等。
在某些实施例中,将参数存储在参数数据库230中。只要在用户和口头交互系统200之间执行口头交互,就对参数进行更新。
在某些实施例中,口头交互系统200基于被存储为参数的用户的语音输入模式来提前预测将被接收的用户的语音输入模式。例如,自然语言处理模块240基于参数信息来确定用户完成句子还是暂停一会儿。对于另一个示例,当与存储的语音输入模式相比,所接收的用户的语音输入中的暂停相对更长时,确定用户完成句子。当所接收的用户的语音输入中的暂停相对更短时,确定用户暂停一会儿。
在某些实施例中,口头交互系统200基于被存储为参数的用户的语音输入模式来校正所接收的用户语音输入的错误。例如,自然语言处理模块240使用与用户通常使用的字词或句子的模式相关联的参数信息,以便确定用户提供的语音输入是否具有错误。例如,当“bus stop”被不正确地输入为“bus stap”时,当错误被检测到时,自然语言处理模块240使用参数来自动地校正错误。在另一个实施例中,当错误被检测到并且随后接收的字词不包括错误时,自然语言处理模块240利用随后接收的字词校正包括错误的字词。
图3是图示出根据本公开的口头交互接口模块300的示例配置的框图。
口头交互接口模块300包括音频处理单元310、传感器单元320、照相机330、GPS340、输出单元350以及控制器360。
在某些实施例中,音频处理单元310与扬声器(SPK)和麦克风(MIC)耦合,以执行接收语音、记录语音、数字记录或者输入和输出用于呼叫的语音数据。音频处理单元310从控制器360接收音频信号,将所接收的音频信号数-模(D/A)转换为模拟信号,放大模拟信号,并且然后向SPK输出模拟信号。SPK将从音频处理单元310接收的音频信号转换为声波,并且输出声波。当从响应模块250接收的中间响应或最终响应被执行时,通过SPK向用户提供音频执行结果。MIC将从人或其他声源传递的声波转换为音频信号。当口头交互功能被执行时,MIC从用户接收语音输入。音频处理单元310执行将从MIC接收的语音信号转换为数字信号的A/D转换,并且向控制器360传送数字信号。当通过MIC执行用户的口头交互功能时,与语音输入一起接收来自外部环境的噪声。音频处理单元310进一步包括图1的输入/输出接口140。
在某些实施例中,传感器单元320感测用户的电子设备100的位置。例如,传感器单元320感测将电子设备100放置为靠近脸或嘴的运动,因此用户输入语音。传感器单元320感测到从脸或嘴移离电子设备100的运动,因此用户终止输入语音。传感器单元320进一步包括陀螺仪传感器或接近传感器。
在某些实施例中,照相机330执行捕捉图像或视频的功能。当用户将电子设备100放置为靠近脸或嘴以输入语音时,照相机330从获取的图像中检测到用户的脸或嘴。随后,当用户从脸或嘴移离电子设备100以终止输入语音时,从获取的图像中不再检测到用户的脸或嘴。
在某些实施例中,GPS 340跟踪电子设备100的位置。因此,在GPS 340上检测到携带电子设备100的用户的位置或移动。
在某些实施例中,显示单元350在控制器360的控制下显示各种类型的信息。当口头交互功能被执行时,显示单元350显示指示口头交互功能的执行的通知,并且当用户的语音输入被接收时显示指示语音输入的接收的通知。当用户的语音输入被接收时,显示单元350输出与顺序接收的语音输入相对应的文本。当从响应模块250接收的中间响应或最终响应被执行时,显示单元350向用户提供可视执行结果。显示单元350被形成为液晶显示器(LCD)、有源矩阵有机发光二极管(AMOLED)、柔性显示器、透明显示器,等等。例如,显示单元350包括图1的显示器150。
控制器360控制口头交互功能。例如,控制器360相对于图1的处理器120独立地或与其并行地进行操作。控制器360将从用户接连接收的语音顺序地输入转换为语音信号。在某些实施例中,控制器360顺序地将所生成的声音信号转换为文本块。控制器360向服务器106传送语音信号或者转换后的文本块。控制器360执行从服务器106接收的中间响应和最终响应。
控制器360包括语音输入确定单元361、语音识别单元362、响应输出模式确定单元363和响应输出控制器364。
在某些实施例中,语音输入确定单元361确定开始还是终止语音输入的接收。例如,当传感器单元320感测到将电子设备100放置为靠近脸或嘴的运动时,语音输入确定单元361开始接收语音输入。控制器361与开始语音输入的接收一起执行口头交互功能。当传感器单元320感测到将电子设备100从脸或嘴移离的用户的运动时,控制器361终止语音输入的接收。而且,当根据从照相机330获取的图像检测到用户的脸或嘴时,语音输入确定单元361开始接收语音输入。控制器360进一步基于开始语音输入的接收(与其一起)执行口头交互功能。当根据从照相机330获取的图像不再检测到用户的脸或嘴时,语音输入确定单元361终止语音输入的接收。当通过输入单元(未图示)接收到语音输入接收开始输入时,语音输入确定单元361开始接收语音输入,并且当接收到语音输入接收终止输入时,语音输入确定单元361终止语音输入的接收。在某些实施例中,当用户在接收语音输入的过程中暂停超过预先确定的时间段时,则确定输入语音被终止。
在某些实施例中,语音识别单元362将从用户语音输入顺序地生成的语音信号转换为文本信息。语音识别单元362基于流传输方案将所生成的语音信号转换为文本块。语音识别单元362的操作基本上与已经参考图2描述的语音识别模块210的操作相同。控制器360基于流传输方案向服务器106传送语音信号或者转换的文本块。
在某些实施例中,当电子设备100从响应模块250接收中间响应或最终响应时,响应输出模式确定单元363确定适合于用户的当前情形的输出模式以便执行和输出响应。例如,当通过MIC接收到与预先确定的级别相比具有更高级别的噪声时,响应输出模式确定单元363通过显示单元350将响应执行结果作为视频数据输出。而且,当通过GPS 340确定与预先确定的速度相比用户移动得更快时,通过SPK将响应执行结果作为音频数据输出。
在某些实施例中,响应输出控制器364执行并且输出从响应模块250接收的中间响应和最终响应。例如,当中间响应是与估计的用户的意图相关联的至少一则应用信息时,通过显示单元350来提供该至少一则应用信息(诸如图标)。当从响应模块250接收到校正后的中间响应并且有关的应用信息更具体时,响应输出控制器340通过显示单元350将该具体应用信息作为图标来提供。当最终响应是与预先确定的应用的功能的执行相关联的信息时,响应输出控制器364通过显示单元350和SPK中的至少一个来提供对应应用的功能的执行的结果。当从服务器106接收到校正后的最终响应时,响应输出控制器364输出校正后的最终响应的执行的结果。响应输出控制器364提供新应用的功能的执行的结果,或者提供通过基于校正后的最终响应再执行已经基于最终响应执行的应用的功能所获取的结果。
根据本公开的某些实施例的电子设备包括显示器、语音接收设备、通信模块、存储器和处理器。存储器存储指令以使得电子设备能够执行:通过语音接收设备接收话音(speech)元素的序列、在显示器上显示基于话音元素当中的第一话音元素的至少一部分的第一信息,以及在显示器上显示不同于第一信息的第二信息。第二信息基于话音元素当中相比于第一话音元素更晚接收的第二话音元素的至少一部分。
根据各个实施例,存储器进一步存储指令以使得当操作被运行时电子设备能够执行:通过通信模块向电子设备的外部传送第一话音元素以及通过通信模块从电子设备的外部接收第一信息。
根据本公开的各个实施例,存储器进一步存储指令以使得当操作被运行时电子设备能够执行:在通过通信模块向电子设备的外部传送第一话音元素之后,通过通信模块向电子设备的外部传送第二话音元素;以及在通过通信模块从电子设备的外部接收第一信息之后,通过通信模块从电子设备的外部接收第二信息。
根据本公开的各个实施例,话音元素的序列包括至少一个句子的至少一部分。
根据本公开的各个实施例,第一话音元素包括包含一个或多个字词的词组,并且不形成完整的句子。
根据本公开的各个实施例,第二话音元素是包括一个或多个字词的词组,并且不形成完整的句子,并且与第一话音元素一起形成单个句子的至少一部分。
根据本公开的各个实施例,第一信息包括基于第一话音元素所生成、检索和/或推荐的信息,并且第二信息包括基于第一信息和第二话音元素的组合的至少一部分所生成、检索和/或推荐的信息。
根据本公开的各个实施例,第一信息包括地图,并且第二信息包括地图上的位置信息。
根据本公开的各个实施例,存储器进一步存储指令以使得当操作被运行时电子设备能够执行:通过处理第一话音元素来生成、检索或推荐第一信息;以及通过处理第二话音元素来生成、检索或推荐第二信息。
图4是图示出根据本公开的、用于模式感测模块220感测和处理用户的语音输入模式的示例方法的流程图。在操作410中,模式感测模块220获取从用户的语音输入转换的文本信息。例如,从电子设备100或语音识别模块210获取文本信息。模式感测模块220在操作420中使用获取的文本信息感测用户的语音输入模式,并且在操作430中生成与感测的语音输入模式相关联的参数。如上所述,参数例如包括语音输入速度的模式、频繁地使用的字词或句子的模式、在讲话期间的暂停的使用的模式,等等。在操作440中,模式感测模块220将生成的参数存储在参数数据库230中。当存储的参数预先存在时,利用新的生成的参数来更新该参数。
图5和图6是图示出根据本公开的、用于自然语言处理模块240执行自然语言处理的示例方法的流程图。根据本公开的实施例,自然语言处理模块240顺序地接收从电子设备100或语音识别模块210识别和传递的文本块。自然语言处理模块240关于顺序地接收的文本块中的文本来执行自然语言处理。基于如以下所示的方案来执行使用至少一个文本块中的文本完成上下文的自然语言处理。
参考图5和图6,自然语言处理模块240在操作510中接收至少一个第一文本块,并且在操作520中从至少一个第一文本块确定至少一个关键字。在操作530中,自然语言处理模块240使用确定的关键字来估计用户的意图。例如,自然语言处理模块240将使用确定的关键字搜索信息、执行诸如方向的预先确定的应用程序、编辑数据和改变配置中的至少一个估计为用户的意图。在关键字和用户的意图之间的映射关系被提前设置和存储,并且自然语言处理模块240基于存储的映射关系从确定的关键字估计用户的意图。自然语言处理模块240考虑在所接收的至少一个第一文本块中所包括的文本以便估计用户的意图。作为另一个示例,当与用户输入相对应的句子是相对简单的句子时,自然语言处理模块240基于在第一文本块中所包括的关键字来确定用户的意图。
在某些实施例中,在操作540中,自然语言处理模块240基于估计的用户的意图来确定用于确定用户的意图所需要的关键字。例如,自然语言处理模块240存储多个关键字,并且基于估计的用户的意图来从存储的关键字当中预测包括用于确定用户的意图所需要的至少一个关键字的关键字的范围。例如,当估计的用户的意图是“提供方向信息”时,自然语言处理模块240预测“地名”为关键字的范围。当估计的用户的意图是“输入日程表”时,自然语言处理模块240预测“日期和时间”为关键字的范围。
在某些实施例中,在操作550中,自然语言处理模块240在第一文本块之后顺序地接收至少一个第二文本块。在操作560中,确定所确定的关键字是否被包括在至少一个第二文本块中。例如,自然语言处理模块240确定对应于关键字的预测范围的关键字是否被包括在接连接收的第二文本块中。
当关键字没有被包括在所接收的第二文本块中时,方法再次返回操作550,并且继续接收第二文本块,直到关键字被确定为止。当在没有暂停的情况下继续接收文本块时,即使在从第二文本块确定关键字之后,也确定所接收的文本块共同形成句子。另外地,所接收的文本块包括与关键字相关联的附加信息。相反地,当出现预先确定的时间段的暂停(例如至少1秒)时,确定句子完成。例如,当基于文本块之间的暂停确定句子完成或暂停被提供时,图2的模式感测模块220基于存储在参数数据库230中的参数来作出判定,并且向自然语言处理模块240通知判定的结果。
在某些实施例中,在操作570中,当从所接收的第二文本块确定关键字时,自然语言处理模块240基于估计的用户的意图、使用确定的关键字来确定用户的意图。自然语言处理模块240可以考虑在形成对应句子的所接收的文本块中所包括的文本以便确定用户的意图。
图6是图示出根据本公开的、用于自然语言处理模块执行自然语言处理模块240的示例方法的流程图。
自然语言处理模块240继续接收文本块,直到提供指示句子完成的语音输入接收终止信号为止。自然语言处理模块240通过将直到提供指示句子的完成的信号之前所接收的文本块放置在一起来确定用户的意图,而不管在文本块被接收时是否出现暂停。
例如,在操作570中确定用户的意图之后,在操作610中,自然语言处理模块240确定是否接收到指示句子的完成的信号——即,指示输入语音被终止的信号。当接收到该信号时,在操作620中,在操作570中确定的用户的意图被确定为用户的意图。
相反地,在某些实施例中,当没有接收到该信号时,在操作630中继续接收包括附加文本的文本块,而不管是否出现预先确定的时间段的暂停。
在某些实施例中,自然语言处理模块240确定句子由直到在指示句子的完成的信号被输入之前所接收的文本块形成。另外接收的文本块包括与确定的关键字相关联的附加信息。在操作640中,自然语言处理模块240通过向确定的用户的意图添加附加文本来再确定用户的意图。
图7和图8图示出根据本公开的、由自然语言处理模块执行的自然语言处理模块240的示例配置。
参考图7和图8,在t1,自然语言处理模块240接收包括文本“How can”的第一文本块(T1a)。自然语言处理模块240确定字词“How”和“can”以便识别意义,并且基于关键字“How”确定输入句子的类型与问题相关联。自然语言处理模块240将确定的结果作为“估计的用户的意图”传送到响应模块250。
在某些实施例中,在t2,自然语言处理模块240随后接收包括文本“I reach the”的第一文本块(T1b)。自然语言处理模块240确定字词“I”、“reach”和“the”以便识别意义,并且基于关键字“reach”确定输入句子的主题与方向相关联。自然语言处理模块240将确定的结果作为“估计的用户的意图”传送到响应模块250。根据本公开的实施例,自然语言处理模块240确定另外需要目的地信息(诸如地点信息)来确定估计的用户的意图,并且因此,在将被接收的文本块中确定是否包括包含目的地信息(诸如地点信息)的关键字。
在某些实施例中,在t3,自然语言处理模块240接收包括文本“nearest”的第二文本块(T2a)。自然语言处理模块240确定字词“nearest”并且识别意义,并且确定该字词是否对应于“地点信息”。然而,字词仅仅包括附加信息、但是不包括地点信息,并且因此,自然语言处理模块240继续接收第二文本块。
在某些实施例中,在t4,自然语言处理模块240接收包括文本“bus stop”的第二文本块(T2b)。自然语言处理模块240确定字词“bus”和“stop”,并且可以识别“bus stop”的意义。自然语言处理模块240确定“bus stop”是包括地点信息的第二关键字(kw2),并且通过大体上考虑在所接收的文本块中所包括的第二关键字(kw2)和文本来确定用户的意图。因此,自然语言处理模块240确定对应句子的用户的意图是“到最近的公共汽车站的方向”。自然语言处理模块240向响应模块250传送“确定的用户的意图”。
自然语言处理模块240确定在没有超过预先确定的时间段的暂停的情况下接连接收的文本块作为单个句子(诸如将被处理的句子),并且确定其用户的意图。当出现超过预先确定的时间段的暂停时,确定句子完成,并且因此,基于迄今为止接收的文本块来确定用户的意图。例如,当基于文本块之间的暂停确定句子完成或暂停被提供时,模式感测模块220基于存储在参数数据库230中的参数来作出判定,并且向自然语言处理模块240通知判定的结果。
在真实的情形中,用户在提供语音输入时在讲话时犹豫或期望向对应的句子添加稍晚提出的附加信息。因此,当例如从电子设备100接收到指示输入语音被终止的信号——即,指示句子完成的信号时,根据本公开的实施例的自然语言处理模块240确定句子完成并且确定对应句子的用户的意图。
图8图示出根据本公开的、由自然语言处理模块240执行的自然语言处理的另一个示例配置。
在某些实施例中,当没有接收到语音输入终止信号时,即使自然语言处理模块240在预先确定的时间段之后在t5接收到附加文本“with coffee shop nearby”,自然语言处理模块240也将附加文本处理为添加到先前的句子的内容。例如,附加文本包括对关键字“bus stop”的限制(kw2)。
在某些实施例中,当接收到语音输入终止信号时,自然语言处理模块240通过另外考虑附加文本来再确定用户的意图。在目前实施例中,用户的意图被再确定为“至附近有咖啡店的最近的公共汽车站的方向”。自然语言处理模块240向响应模块250传送再确定的用户的意图。
图9是图示出根据本公开的、在口头交互系统200的元件当中的自然语言处理模块240和响应模块250之间执行口头交互的示例方法的流程图。
在某些实施例中,自然语言处理模块240在操作901中基于流传输方案从电子设备100或语音识别模块210接收至少一个第一文本块,并且在操作903中从所接收的第一文本块确定关键字。自然语言处理模块240在操作905中基于确定的关键字来估计用户的意图,并且在操作907中向响应模块250传送估计的用户的意图。
在某些实施例中,在操作909中,响应模块250生成与从自然语言处理模块240接收的估计的用户的意图相对应的中间响应。例如,响应模块250生成与估计的用户的意图相关联的至少一则应用信息。在操作911中,响应模块250向电子设备100传送所生成的中间响应——例如至少一则应用信息。
尽管未图示,但是自然语言处理模块240基于在继续接收的第一文本块中所包括的关键字来校正估计的用户的意图,并且向响应模块250再次传送校正后的估计的用户的意图。响应模块250基于校正后的估计的用户的意图来校正中间响应。例如,响应模块250指定与估计的用户的意图相关联的应用信息。响应模块250向电子设备100传送校正后的中间响应——例如,指定的应用信息。
在某些实施例中,在操作913中,自然语言处理模块240基于估计的用户的意图来确定用于确定用户的意图所需要的关键字。在操作915中,自然语言处理模块240从电子设备100或语音识别模块210接收至少一个第二文本块,并且在操作917中,当确定的关键字被包括在所接收的至少一个第二文本块中时,自然语言处理模块240使用对应的关键字来确定用户的意图。自然语言处理模块240基于先前估计的用户的意图、使用在第二文本块中所包括的关键字来确定用户的意图。在操作919中,自然语言处理模块240向响应模块250传送确定的用户的意图。
在某些实施例中,在操作921中,响应模块250生成与从自然语言处理模块240接收到的所确定的用户的意图相对应的最终响应。例如,响应模块250生成与确定的用户的意图相关联的预先确定的应用的功能执行信息。在操作923中,响应模块250向电子设备100传送所生成的最终响应——例如预先确定的应用的功能执行信息。
图10A至图10D图示出根据本公开的、执行电子设备100的口头交互的示例方法。
参考图10A,电子设备100执行口头交互功能,并且从用户接收语音输入。电子设备100基于从用户提供的语音输入来生成语音信号,并且将所生成的语音信号转换为文本信息。例如,电子设备100基于块单元将语音信号转换为文本信息。电子设备100向显示器150的预先确定的区域1020输出包括与从用户提供的语音输入相对应的字词“How can”的文本。电子设备100向服务器106传送语音信号或包括数据“How can”的文本块。服务器106基于数据“How can”确定输入句子的类型与问题相关联,并且基于确定的结果生成至少一则信息,并且将其传送到电子设备100。例如,服务器106将用户的意图预测为搜索或设置,并且向电子设备100传送与搜索或设置相关联的应用信息。电子设备100向显示器150的预先确定的区域1010输出至少一则接收的应用信息,例如地图应用信息、日程表应用信息和时钟应用信息。电子设备100在预先确定的区域1010中显示分别与地图应用、日程表应用和时钟应用相对应的图标1011至1013。
参考图10B,电子设备100基于从用户提供的语音输入来生成语音信号,并且将所生成的语音信号转换为文本信息。电子设备100向显示器150的预先确定的区域1020输出包括与从用户提供的语音输入相对应的字词“I reach the”的文本。电子设备100向服务器106传送语音信号或包括数据“I reach the”的文本块。服务器106基于数据“I reach the”确定句子的类型与方向相关联,并且基于确定结果指定有关应用信息,并且将其传送到电子设备100。例如,服务器106将用户的意图重新估计为关于方向的请求,并且向电子设备100传送与方向相关联的应用信息——例如地图应用信息。电子设备100通过显示器150继续显示仅仅与所接收的地图应用信息相对应的图标1011,并且删除已经被显示的无关应用的其余图标。
参考图10C,电子设备100基于从用户继续提供的语音输入来生成语音信号,并且将所生成的语音信号转换为文本信息。电子设备100向显示器150的预先确定的区域1020输出包括与从用户继续提供的语音输入相对应的字词“nearest bus stop”的文本。电子设备100向服务器106传送语音信号或包括数据“nearest bus stop”的文本块。服务器106基于数据“nearest bus stop”来确定在输入句子中所包括的用户的意图为“对于至最近的公共汽车站的方向的请求”。服务器106基于确定的用户的意图来生成指示“执行地图应用以搜索至最近的公共汽车站的路线”的最终响应,并且向电子设备100传送所生成的最终响应。电子设备100响应于所接收的最终响应来执行地图应用并且提供至最近的公共汽车站的方向。例如,电子设备100通过显示器150的执行屏幕1030显示方向,并且通过SPK输出语音方向。
参考图10D,随后,电子设备100接收用户语音输入。当接连接收到“with coffeeshop nearby”的语音输入时,电子设备100基于语音输入来生成语音信号,并且将所生成的语音信号转换为文本信息。电子设备100向显示器150的预先确定的区域1020输出包括字词“with coffee shop nearby”的文本。电子设备100向服务器106传送语音信号或包括数据“with coffee shop nearby”的文本块。服务器106基于数据“with coffee shop nearby”将在整个输入句子中所包括的用户的意图再确定为“对于至附近有咖啡店的最近的公共汽车站的方向的请求”。服务器106基于再确定的用户的意图来生成指示“执行地图应用以请求至附近有咖啡店的最近的公共汽车站的方向”的校正后的最终响应,并且向电子设备100传送校正后的最终响应。电子设备100响应于校正后的最终响应执行以通过地图应用提供至附近有咖啡店的最近的公共汽车站的方向。
图11A至图11B图示出根据此示出电子设备100的口头交互的另一个示例方法。
参考图11A,电子设备100在执行口头交互功能时从用户接收语音输入“Set aschedule on Oct 14,2014”,并且随后,出现预先确定的时间段的暂停。电子设备100基于所接收的语音输入来生成语音信号,并且将所生成的语音信号转换为文本信息。电子设备100向显示器150的预先确定的区域1120输出包括与语音输入相对应的字词“Set aschedule on Oct 14,2014”的文本。电子设备100基于流传输方案向服务器106传送语音信号或包括数据“Set a schedule on Oct 14,2014”的文本块。服务器106基于数据“Set aschedule on Oct 14,2014”来确定输入句子中所包括的用户的意图为“将日程表设置在2014年10月14日”并且确定另外需要时间信息来设置日程表。服务器106向电子设备100传送指示“将日程表设置在2014年10月14日”的中间响应。电子设备100响应于所接收的中间响应在执行屏幕1130中执行日程表应用。
参考图11B,电子设备100接收包括时间信息的语音输入“2pm”。电子设备100基于所接收的语音输入来生成语音信号,并且将所生成的语音信号转换为文本信息。电子设备100向显示器150的预先确定的区域1120输出包括与语音输入相对应的字词“2pm”的文本。电子设备100向服务器106传送包括数据“2pm”的语音信号或文本块。服务器106基于数据“2pm”确定在输入句子中所包括的用户的意图为“将日程表设置为在2014年10月14日下午两点”。服务器106向电子设备100传送指示“将日程表设置为在2014年10月14日下午两点”的最终响应。响应于所接收的最终响应,电子设备100在执行屏幕1130中显示设置的日程表的内容。替换地,通过SPK输出设置的日程表的内容。
图12A和图12B是图示出根据本公开的、其中电子设备100开始和终止语音输入的接收的操作的流程图。
图12A图示出根据本公开的、使用传感器单元320获取的电子设备100的移动信息等等来确定开始还是终止用户语音输入的接收。
在某些实施例中,在操作1210中,确定是否感测到朝着用户的脸或嘴的电子设备100的移动,并且当确定电子设备100移动到脸或嘴时,在操作1220中,接收用户语音输入。电子设备100与接收用户语音输入一起执行口头交互功能。
在某些实施例中,在操作1230中,感测到从用户的脸或嘴移离电子设备100的运动。直到感测到移动之前,电子设备100继续接收用户语音输入。当移动被感测到时,在操作1240中,电子设备100终止用户语音输入的接收。在此实例中,生成指示句子完成的语音输入终止信号,并且所生成的语音输入终止信号被传送到语音识别模块210或自然语言处理模块240。
图12B图示出根据本公开的、使用照相机330获取的图像信息来确定开始还是终止用户语音输入的接收。
在某些实施例中,在操作1250中确定是否从照相机330获取的图像信息感测到用户的脸或嘴,并且当用户的脸或嘴被感测到时,在操作1260中感测用户的嘴是否运动。当感测到用户的嘴的运动时,在操作1270中,电子设备100接收用户语音输入。电子设备100与接收用户语音输入一起执行口头交互功能。
在某些实施例中,在操作1280中确定是否从照相机330获取的图像信息继续感测到用户的脸或嘴。当用户的脸或嘴被感测到时,不管嘴是否运动,继续接收语音输入,直到用户的脸或嘴不被感测到为止。当不再感测到用户的脸或嘴的移动时,在操作1290中,电子设备100终止用户语音输入的接收。在此实例中,生成指示句子完成的语音输入终止信号,并且所生成的语音输入终止信号被传送到语音识别模块210或自然语言处理模块240。
图13是图示出根据本公开的、用于确定电子设备100的操作的响应输出模式的方法的示例的框图。
在某些实施例中,在操作1310中,电子设备100从响应模块250接收对用户语音输入的响应。电子设备在操作1320中通过至少一个传感器来感测用户环境,并且在操作1330中基于感测的结果来确定所接收的响应的输出模式。随后,在操作1340中,基于确定的输出模式来执行并且输出所接收的响应。传感器包括GPS、麦克风、陀螺仪传感器和接近传感器中的至少一个。输出模式例如是视频数据输出模式或者音频数据输出模式。替换地,输出模式是将视频数据和音频数据一起输出的输出模式。
例如,当噪声级别大于或等于预先确定的值时,电子设备100优选视频数据输出模式,并且当移动速度大于或等于预先确定的值时,优选音频数据输出模式。
在某些实施例中,例如,当异常级别的噪声值被检测到并且感测到设备以步行的速度移动时,确定用户步行通过繁华地点。在此实例中,用户易于通过屏幕确定响应执行结果,并且因此,电子设备100将响应执行结果作为至少视频数据输出。根据本公开的实施例,当接收用户语音输入时难以准确地测量来自用户的外部环境的噪声,并且因此,当未接收用户语音输入时,测量噪声。如上所述,通过检测通过照相机330所获取的图像中所包括的用户的嘴的运动来确定是否有接收的用户语音输入。
在某些实施例中,当检测到正常级别噪声并且感测到设备快速移动时,确定用户通过乘坐汽车而移动。在此实例中,当未检测到用户的脸或嘴时,确定用户驾驶汽车。在此实例中,用户易于通过声音确定响应执行结果,并且因此,电子设备100将响应执行结果作为至少音频数据输出。根据本公开的实施例,当用户的脸或嘴被感测到时,确定情形允许用户检验屏幕,并且因此,将响应执行结果作为视频数据提供。
一种操作电子设备的方法,包括:由包括显示器和语音接收设备的电子设备通过语音接收设备接收话音元素的序列;由电子设备在显示器上显示基于话音元素当中的第一话音元素的至少一部分的第一信息;以及由电子设备在显示器上显示不同于第一信息并且基于话音元素当中相比于第一话音元素更晚接收的第二话音元素的至少一部分的第二信息。
根据本公开的各个实施例,该方法进一步包括:由电子设备通过通信模块向电子设备的外部传送第一话音元素;以及由电子设备通过通信模块从电子设备的外部接收第一信息。
根据本公开的各个实施例,该方法进一步包括:在通过通信模块向电子设备的外部传送第一话音元素之后,由电子设备通过通信模块向电子设备的外部传送第二话音元素;以及在通过通信模块从电子设备的外部接收第一信息之后,由电子设备通过通信模块从电子设备的外部接收第二信息。
根据本公开的各个实施例,话音元素的序列包括至少一个句子的至少一部分。
根据本公开的各个实施例,第一话音元素是包括一个或多个字词的词组,并且不形成完整的句子。
根据本公开的各个实施例,第二话音元素是包括一个或多个字词的词组,并且不形成完整的句子,并且与第一话音元素一起形成句子的至少一部分。
根据本公开的各个实施例,第一信息包括基于第一话音元素所生成、检索和/或推荐的信息,并且第二信息包括基于第一信息和第二话音元素的组合的至少一部分所生成、检索和/或推荐的信息。
根据本公开的各个实施例,第一信息包括地图,并且第二信息包括地图上的位置信息。
根据本公开的各个实施例,该方法进一步包括:由电子设备通过处理第一话音元素来生成、检索或推荐第一信息;以及由电子设备通过处理第二话音元素来生成、检索或推荐第二信息。
图14是示意地图示出根据本公开的电子设备的示例配置的图。电子设备1400例如构成图1中示出的电子设备100的全部或一部分。
参考图14,电子设备1400包括至少一个应用处理器(AP)1410、通信模块1420、至少一个订户身份模块(SIM)卡1424、存储器1430、传感器模块1440、输入模块1450、显示器1460、接口1470、音频模块1480、照相机模块1491、功率管理模块1495、电池1496、指示器1497以及电机1498。
AP 1410驱动操作系统或者应用程序已控制连接到AP 1410的多个硬件或软件组件,并且执行包括多媒体数据的各种数据的处理和操作。AP 1410例如被实施为片上系统(SoC)。AP 1410进一步包括图形处理单元(GPU)(未示出)。
通信模块1420(诸如通信接口160)通过网络执行与连接到电子设备1400(诸如电子设备101)的其他电子设备(诸如电子设备104和服务器106)进行通信的数据发送/接收。通信模块1420包括蜂窝模块1421、WiFi模块1423、BT模块1425、GPS模块1427、NFC模块1428以及射频(RF)模块1429。
蜂窝模块1421通过通信网络(诸如LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro或GSM)提供语音呼叫、视频呼叫、SMS服务、因特网服务,等等。而且,蜂窝模块1421通过例如使用订户识别模块(诸如SIM卡)来识别和认证通信网络中的电子设备。蜂窝模块1421执行由AP 1410提供的至少一些功能。例如,蜂窝模块1421至少执行多媒体控制功能。
在某些实施例中,蜂窝模块1421包括通信处理器(CP)。此外,蜂窝模块1421例如被实施为片上系统(SoC)。尽管蜂窝模块1421(诸如CP)、存储器1430、功率管理模块1495等等被示出为与图14中的AP 1410分离的元件,但AP 1410被实施为包括前述的元件的至少一些(诸如蜂窝模块1421)。
在某些实施例中,AP 1410或蜂窝模块1421(诸如CP)将从连接到其的非易失性存储器和其他元件接收到的命令或数据加载到易失性存储器中,并且处理所加载的命令或数据。此外,AP 1410或蜂窝模块1421存储从非易失性存储器中的其他元件中的至少一个接收的或由其接收的数据。
WiFi模块1423、BT模块1425、GPS模块1427和NFC模块1428中的每一个例如包括对通过对应的模块传送或接收的数据进行处理的处理器。尽管在图14中蜂窝模块1421、WiFi模块1423、BT模块1425、GPS模块1427和NFC模块1428被示出为与分离的块,但根据实施例,蜂窝模块1421、WiFi模块1423、BT模块1425、GPS模块1427和NFC模块1428中的至少一些(诸如两个或更多)被包括在一个集成芯片(IC)或一个IC封装中。例如,分别与蜂窝模块1421、WiFi模块1423、BT模块1425、GPS模块1427和NFC模块1428相对应的处理器中的至少一些(诸如与蜂窝模块1421相对应的CP和与WiFi模块1423相对应的WiFi处理器)被实施为一个SoC。
RF模块1429执行数据发送/接收,例如,RF信号发送/接收。尽管在图中未示出,但RF模块1429例如包括收发信机、功率放大模块(PAM)、频率滤波器、低噪声放大器(LNA),等等。而且,RF模块1429进一步包括用于在无线通信中通过空中传送/接收电磁波的组件,诸如导体或导线。尽管图14示出蜂窝模块1421、WiFi模块1423、BT模块1425、GPS模块1427和NFC模块1428共用一个RF模块1429,但根据本公开,蜂窝模块1421、WiFi模块1423、BT模块1425、GPS模块1427和NFC模块1428中的至少一个通过单独的RF模块来执行RF信号发送/接收。
至少一个SIM卡1424是包括订户识别模块的卡,并且被插入形成在电子设备的某位置中的至少一个槽中。至少一个SIM卡1424包括唯一标识信息(诸如集成电路卡标识符(ICCID))或订户信息(诸如国际移动用户识别(IMSI))。
存储器1430(诸如存储器130)包括内部存储器1432或者外部存储器1434。内部存储器1432例如包括易失性存储器(诸如动态RAM(DRAM)、静态RAM(SRAM),或者同步动态随机存储器(SDRAM))和非易失性存储器(诸如一次性可编程ROM(OTPROM)、可编程ROM(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、掩模型ROM、闪存ROM、NAND闪存存储器或NOR闪存存储器)中的至少一个。
在某些实施例中,内部存储器1432是固态驱动器(SSD)。外部存储器1434另外包括闪盘驱动器,例如,紧凑式闪存(CF)、安全数字(SD)、微型安全数字(微型SD)、缩型安全数字(迷你型SDD)、极速卡(XD)或记忆棒。外部存储器1434通过各种接口在功能上连接到电子设备1400。电子设备1400进一步包括存贮设备(或存贮媒介),诸如硬盘驱动器。
传感器模块1440测量物理量或检测电子设备1400的操作状态,并且将所测量或检测的信息转换为电子信号。传感器模块1440例如包括手势传感器1440A、陀螺仪传感器1440B、大气压力传感器1440C、磁性传感器1440D、加速度传感器1440E、手握传感器1440F、接近传感器1440G、色彩传感器1440H(诸如红色、绿色和蓝色(RGB)传感器)、生物统计传感器1440I、温度/湿度传感器1440J、光传感器1440K和紫外线(UV)传感器1440M中的至少一个。另外地或者替换地,传感器模块1440例如包括电子鼻传感器(未示出)、肌电图学(EMG)传感器(未示出)、脑电图(EEG)传感器(未示出)、心电图(ECG)传感器(未示出)、红外(IR)传感器(未示出)、虹膜扫描仪(未示出)和/或指纹传感器(未示出)。传感器模块1440进一步包括用于控制包括在其中的一个或多个传感器的控制电路。
输入模块1450包括触摸面板1452、(数字)笔传感器1454、键1456或超声波输入单元1458。识别触摸输入的触摸面板1452例如包括电容触摸面板、电阻触摸面板、红外触摸面板和声波触摸面板中的至少一个。而且,触摸面板1452进一步包括控制电路。当触摸面板是电容触摸面板时,其识别身体接触或附近。触摸面板1452还另外包括触觉层。在该情况下,触摸面板1452向用户提供触觉响应。
例如使用与用于从用户接收触摸输入的装置相同或类似的装置或使用单独的识别板来实施(数字)笔传感器1454。键1456例如包括物理按钮、光学键或者小键盘。超声波输入单元1458是通过经由输入工具生成超声波信号并且经由电子设备600中的麦克风(诸如麦克风688)检测声波来识别数据并且能够进行无线识别的单元。电子设备1400也通过使用通信模块1420从连接到其的外部设备(诸如计算机或服务器)接收用户输入。
显示器1460(诸如显示器150)包括面板1462、全息图单元1464或者投影仪1466。面板1462例如是液晶显示器(LCD)或者有源矩阵有机发光二极管(AM-OLED)。面板1462例如是柔性的、透明的或可穿戴的。面板1462也与触摸面板1452一起被合并到一个模块中。全息图单元1464通过使用光干涉在空中显示立体图像。投影仪1466通过将光投射到屏幕上来显示图像。屏幕例如位于电子设备1400的内部或外部。显示器1460进一步包括用于控制面板1462的控制电路、全息图单元1464或投影仪1466。
接口1470例如包括高清晰度多媒体接口(HDMI)1472、通用串行总线(USB)1474、光接口1476或者D超小型(D-sub)1478。接口1470例如被包括在图1中示出的通信接口160中。另外地或替换地,接口1490例如包括移动高清晰度链接(MHL)接口、安全数字(SD)卡/多媒体卡(MMC)接口或红外线数据协会(IrDA)接口。
音频模块1480提供声音和电子信号之间的双向转换。音频模块1480中的至少一些元件例如被包括在图1中示出的输入/输出接口140中。音频模块1480例如对通过扬声器1482、接收机1484、耳机1486或麦克风1488输入/输出的声音信息进行处理。
照相机模块1491是获取静止和活动图像的设备,并且包括一个或多个图像传感器(诸如正面传感器或后方传感器,未示出)、透镜(未示出)、图像信号处理器(ISP)(未示出)或者闪光灯(诸如LED或氙气灯,未示出)。
功率管理模块1495管理电子设备1400的电力。尽管未示出,但是功率管理模块1495例如包括电源管理集成电路(PMIC)、充电器IC或者电池或电量计。
PMIC例如被安装在IC或者SoC半导体中。充电方法被分类为有线充电和无线充电。充电器IC对电池进行充电,并且阻止过电压或过电流从充电器感应或流动。充电器IC包括用于有线充电和无线充电中的至少一个的充电器IC。无线充电的示例包括磁性谐振充电、磁性感应充电和电磁充电,并且添加诸如环形线圈、谐振电路和整流器之类的附加电路以用于无线充电。
电池电量计例如测量电池1496的剩余电量、电压中的电荷、电流或温度。电池1496存储或生成电,并且通过使用存储或生成的电来向电子设备1400供应电力。电池1496例如包括可再充电电池或太阳能电池。
指示器1497显示电子设备1400或其一部分(例如,AP 1410)的特定状态,例如,启动状态、消息状态或者充电状态。电机1498将电信号转换为机械振动。尽管未示出,但是电子设备1400包括用于支持移动TV的处理单元(例如,GPU)。用于支持移动TV的处理单元按照某标准——例如,数字多媒体广播(DMB)、数字视频广播(DVB)或媒体流来处理媒体数据。
电子设备的以上描述的元件中的每一个由一个或多个组件形成,并且对应的元件的名称根据电子设备的类型而改变。根据本公开的电子设备包括以上描述的元件中的至少一个,并且排除一些元件或进一步包括其他附加元件。此外,根据本公开的电子设备的一些元件被耦合以形成单个实体,同时执行与在耦合之前对应的元件的那些相同的功能。
如在本公开中使用的术语“模块”例如意指包括硬件、软件和固件之一的单元或它们中的两个或更多的任何组合。“模块”例如可以与术语“单元”、“逻辑”、“逻辑块”、“组件”或“电路”是可互换的。“模块”是集成组件的最小单元或其一部分。“模块”是执行一个或多个功能的最小单元或其一部分。机械地或电子地实施“模块”。例如,“模块”包括现在已知的或将来将被开发的专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA),以及用于执行某些操作的可编程逻辑设备中的至少一个。
根据各个实施例,通过以编程模块形式存储在计算机可读存贮媒介中的命令来实施设备(诸如模块或其功能)或方法(诸如操作)中的至少一些。当由至少一个处理器(诸如处理器120)执行指令时,至少一个处理器执行与指令相对应的功能。计算机可读存贮媒介例如是存储器130。例如通过处理器120来实施至少一些编程模块。至少一些编程模块例如包括用于执行一个或多个功能的模块、程序、例程、指令的集合或进程。
计算机可读记录媒介包括诸如硬盘、软盘和磁带之类的磁性介质、诸如只读存储型光盘(CD-ROM)和数字化通用磁盘(DVD)之类的光介质、诸如软式光盘之类的磁光介质,以及诸如只读存储器(ROM)、随机存取存储器(RAM)、闪速存储器等等的特别地被配置为存储和执行程序指令(诸如编程模块)的硬件设备。另外,程序指令可以包括能够通过使用解释器在计算机中执行的高级语言代码以及由编译器完成的机器代码。前述的硬件设备被配置为操作为一个或多个软件模以便执行本公开的操作,并且反之亦然。
编程模块包括一个或多个前述组件或进一步包括其他附加组件,或者一些前述组件被省略。可以顺序地、并行地、反复地或者以启发式的方式执行由根据本公开的各个实施例的模块、编程模块或其他组件元件所执行的操作。此外,根据另一个次序执行一些操作或可以省略一些操作,或者可以添加其他操作。
尽管已经就示例性实施例描述了本公开,但可以向本领域技术人员建议各种改变和修改。本公开旨在包括属于所附权利要求的范围的这样的改变和修改。

Claims (16)

1.一种用于操作电子设备的方法,该方法包括:
由包括显示器和语音接收设备的电子设备通过语音接收设备来接收句子的话音元素的序列;
由电子设备在显示器上显示第一信息,其中,第一信息与句子的第一话音元素的至少一部分相关联;以及
由电子设备在显示器上显示第二信息,其中,第二信息不同于第一信息并且与在句子的第一话音元素之后已经接收的该句子的第二话音元素的至少一部分相关联。
2.根据权利要求1所述的方法,进一步包括:
由电子设备通过通信模块向电子设备的外部传送句子的第一话音元素;以及
由电子设备通过通信模块从电子设备的外部接收第一信息。
3.根据权利要求1所述的方法,进一步包括:
在通过通信模块向电子设备的外部传送句子的第一话音元素之后,由电子设备通过通信模块向电子设备的外部传送该句子的第二话音元素;以及
在通过通信模块从电子设备的外部接收第一信息之后,由电子设备通过通信模块从电子设备的外部接收第二信息。
4.根据权利要求1所述的方法,其中,第一话音元素是包括一个或多个字词的词组,并且不形成完整的句子。
5.根据权利要求1所述的方法,其中,第二话音元素是包括一个或多个字词的词组,并且不形成完整的句子,并且与第一话音元素一起形成句子的至少一部分。
6.根据权利要求1所述的方法,其中,第一信息包括与句子的第一话音元素相关联地生成、检索和/或推荐的信息;并且
第二信息包括与第一信息和该句子的第二话音元素的组合的至少一部分相关联地生成、检索和/或推荐的信息。
7.根据权利要求6所述的方法,其中,第一信息包括地图;并且
第二信息包括地图上的位置信息。
8.根据权利要求1所述的方法,进一步包括:
由电子设备通过处理句子的第一话音元素来生成、检索或推荐第一信息;以及
由电子设备通过处理该句子的第二话音元素来生成、检索或推荐第二信息。
9.一种电子设备,包括:
显示器;
语音接收设备;
通信模块;
存储器;以及
处理器,
其中,存储器存储指令以使得当操作被运行时电子设备能够执行:
通过语音接收设备接收句子的话音元素的序列;
在显示器上显示第一信息,其中,第一信息与句子的第一话音元素的至少一部分相关联;以及
在显示器上显示第二信息,其中,第二信息不同于第一信息并且与在句子的第一话音元素之后已经接收的该句子的第二话音元素的至少一部分相关联。
10.根据权利要求9所述的电子设备,其中,存储器进一步存储指令以使得当操作被运行时电子设备能够执行:
通过通信模块向电子设备的外部传送句子的第一话音元素;以及
通过通信模块从电子设备的外部接收第一信息。
11.根据权利要求9所述的电子设备,其中,存储器进一步存储指令以使得当操作被运行时电子设备能够执行:
在通过通信模块向电子设备的外部传送句子的第一话音元素之后,通过通信模块向电子设备的外部传送该句子的第二话音元素;以及
在通过通信模块从电子设备的外部接收第一信息之后,通过通信模块从电子设备的外部接收第二信息。
12.根据权利要求9所述的电子设备,其中,第一话音元素包括包含一个或多个字词的词组,并且不形成完整的句子。
13.根据权利要求9所述的电子设备,其中,第二话音元素是包括一个或多个字词的词组,并且不形成完整的句子,并且与第一话音元素一起形成单个句子的至少一部分。
14.根据权利要求9所述的电子设备,其中,第一信息包括与句子的第一话音元素相关联地生成、检索和/或推荐的信息;以及
第二信息包括与第一信息和该句子的第二话音元素的组合的至少一部分相关联地生成、检索和/或推荐的信息。
15.根据权利要求14所述的电子设备,其中,第一信息包括地图;并且
第二信息包括地图上的位置信息。
16.根据权利要求9所述的电子设备,其中,存储器进一步存储指令以使得当操作被运行时电子设备能够执行:
通过处理句子的第一话音元素来生成、检索或推荐第一信息;以及
通过处理该句子的第二话音元素来生成、检索或推荐第二信息。
CN201580055978.0A 2014-10-14 2015-10-14 电子设备和用于其口头交互的方法 Active CN107077464B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2014-0138548 2014-10-14
KR1020140138548A KR102301880B1 (ko) 2014-10-14 2014-10-14 전자 장치 및 이의 음성 대화 방법
PCT/KR2015/010855 WO2016060480A1 (en) 2014-10-14 2015-10-14 Electronic device and method for spoken interaction thereof

Publications (2)

Publication Number Publication Date
CN107077464A CN107077464A (zh) 2017-08-18
CN107077464B true CN107077464B (zh) 2020-08-07

Family

ID=54324881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580055978.0A Active CN107077464B (zh) 2014-10-14 2015-10-14 电子设备和用于其口头交互的方法

Country Status (5)

Country Link
US (1) US10546587B2 (zh)
EP (1) EP3010015B1 (zh)
KR (1) KR102301880B1 (zh)
CN (1) CN107077464B (zh)
WO (1) WO2016060480A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence
CN107203261B (zh) * 2016-03-16 2022-05-24 Lg电子株式会社 手表型移动终端及其控制方法
US10025399B2 (en) * 2016-03-16 2018-07-17 Lg Electronics Inc. Watch type mobile terminal and method for controlling the same
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
KR20180043627A (ko) * 2016-10-20 2018-04-30 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치를 제어하는 방법
KR20180060328A (ko) 2016-11-28 2018-06-07 삼성전자주식회사 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
US10468022B2 (en) * 2017-04-03 2019-11-05 Motorola Mobility Llc Multi mode voice assistant for the hearing disabled
KR102298947B1 (ko) 2017-04-28 2021-09-08 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US10754673B2 (en) 2017-05-08 2020-08-25 Google Llc Smart device configuration guidance via automated assistant interface of separate client device
KR102060775B1 (ko) * 2017-06-27 2019-12-30 삼성전자주식회사 음성 입력에 대응하는 동작을 수행하는 전자 장치
KR102412523B1 (ko) * 2017-07-18 2022-06-24 삼성전자주식회사 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버
EP3622392A1 (en) 2017-08-22 2020-03-18 Google LLC Facilitating user device and/or agent device actions during a communication session
EP3695419A1 (en) * 2017-10-10 2020-08-19 Sanofi Medical query answering apparatus
KR101932263B1 (ko) * 2017-11-03 2018-12-26 주식회사 머니브레인 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN107978315B (zh) * 2017-11-20 2021-08-10 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
KR102517219B1 (ko) * 2017-11-23 2023-04-03 삼성전자주식회사 전자장치 및 그 제어방법
KR102617265B1 (ko) * 2018-03-13 2023-12-26 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
KR102508863B1 (ko) * 2018-03-19 2023-03-10 삼성전자 주식회사 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
KR102685523B1 (ko) * 2018-03-27 2024-07-17 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
KR102707293B1 (ko) * 2018-03-29 2024-09-20 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
GB2574471A (en) * 2018-06-08 2019-12-11 Pure International Ltd An apparatus and method
KR102527178B1 (ko) * 2018-08-07 2023-04-27 후아웨이 테크놀러지 컴퍼니 리미티드 음성 제어 명령 생성 방법 및 단말
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
US10978069B1 (en) * 2019-03-18 2021-04-13 Amazon Technologies, Inc. Word selection for natural language interface
US11935521B2 (en) * 2019-09-12 2024-03-19 Oracle International Corporation Real-time feedback for efficient dialog processing
CN112533041A (zh) 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
CA3214170A1 (en) * 2021-06-18 2022-12-22 Ioannis Alexandros ASSAEL Adaptive visual speech recognition
KR102670725B1 (ko) * 2023-09-27 2024-05-30 주식회사 씨와이디정보기술 다수의 상대방 디바이스와 연결되는 음성-텍스트 변환 장치 및 이를 위한 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102792320A (zh) * 2010-01-18 2012-11-21 苹果公司 智能自动化助理
WO2013056343A1 (en) * 2011-09-30 2013-04-25 Ming Li System, method and computer program for correcting speech recognition information
CN103729126A (zh) * 2012-10-11 2014-04-16 谷歌公司 移动设备语音激活

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6897861B2 (en) * 2002-01-09 2005-05-24 Nissan Motor Co., Ltd. Map image display device, map image display method and map image display program
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7917356B2 (en) 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
KR100892079B1 (ko) * 2006-08-24 2009-04-07 최윤정 내비게이션 시스템
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8478578B2 (en) * 2008-01-09 2013-07-02 Fluential, Llc Mobile speech-to-speech interpretation system
US20090234655A1 (en) * 2008-03-13 2009-09-17 Jason Kwon Mobile electronic device with active speech recognition
US20090326939A1 (en) 2008-06-25 2009-12-31 Embarq Holdings Company, Llc System and method for transcribing and displaying speech during a telephone call
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
DE112009005470B4 (de) * 2009-12-24 2014-07-17 Mitsubishi Electric Corp. Navigationssystem
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
US8626498B2 (en) 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
EP2494545A4 (en) 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
WO2013022218A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing user interface thereof
US8515766B1 (en) * 2011-09-30 2013-08-20 Google Inc. Voice application finding and user invoking applications related to a single entity
US10156455B2 (en) * 2012-06-05 2018-12-18 Apple Inc. Context-aware voice guidance
US9997069B2 (en) * 2012-06-05 2018-06-12 Apple Inc. Context-aware voice guidance
KR20140089861A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그의 제어 방법
US9607617B2 (en) 2013-04-02 2017-03-28 Nuance Communications, Inc. Concept cloud in smart phone applications
CN105246743B (zh) * 2013-05-21 2017-03-29 三菱电机株式会社 语音识别装置、识别结果显示装置及显示方法
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
CN105453080A (zh) * 2013-08-30 2016-03-30 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
US9412363B2 (en) * 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9448991B2 (en) * 2014-03-18 2016-09-20 Bayerische Motoren Werke Aktiengesellschaft Method for providing context-based correction of voice recognition results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102792320A (zh) * 2010-01-18 2012-11-21 苹果公司 智能自动化助理
WO2013056343A1 (en) * 2011-09-30 2013-04-25 Ming Li System, method and computer program for correcting speech recognition information
CN103729126A (zh) * 2012-10-11 2014-04-16 谷歌公司 移动设备语音激活

Also Published As

Publication number Publication date
US10546587B2 (en) 2020-01-28
EP3010015B1 (en) 2018-01-31
EP3010015A1 (en) 2016-04-20
CN107077464A (zh) 2017-08-18
WO2016060480A1 (en) 2016-04-21
US20160104484A1 (en) 2016-04-14
KR102301880B1 (ko) 2021-09-14
KR20160043836A (ko) 2016-04-22

Similar Documents

Publication Publication Date Title
CN107077464B (zh) 电子设备和用于其口头交互的方法
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
US11561763B2 (en) Electronic device for processing multi-modal input, method for processing multi-modal input and server for processing multi-modal input
US11450315B2 (en) Electronic apparatus and method for operating same
US10217477B2 (en) Electronic device and speech recognition method thereof
EP2816554A2 (en) Method of executing voice recognition of electronic device and electronic device using the same
US20190355365A1 (en) Electronic device and method of operation thereof
CN108023934B (zh) 电子装置及其控制方法
KR20180117485A (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
EP3603040B1 (en) Electronic device and method of executing function of electronic device
KR20170044426A (ko) 음성 신호 인식 방법 및 이를 제공하는 전자 장치
EP3444811B1 (en) Speech recognition method and device
KR20180109465A (ko) 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
KR20170100309A (ko) 음성 인식 제어를 제공하는 전자 장치 및 그 동작 방법
KR20180096147A (ko) 전자 장치 및 전자 장치에서의 정보 제공 방법
KR20180101926A (ko) 전자 장치 및 전자 장치의 어플리케이션 제어 방법
US9583103B2 (en) Method of controlling a text input and electronic device thereof
EP3157002A1 (en) Electronic device and method for transforming text to speech utilizing super-clustered common acoustic data set for multi-lingual/speaker
KR101993368B1 (ko) 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
US20160048498A1 (en) Method for providing alternative service and electronic device thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant