CN109427331A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN109427331A
CN109427331A CN201810930627.5A CN201810930627A CN109427331A CN 109427331 A CN109427331 A CN 109427331A CN 201810930627 A CN201810930627 A CN 201810930627A CN 109427331 A CN109427331 A CN 109427331A
Authority
CN
China
Prior art keywords
voice signal
language text
electronic device
natural language
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810930627.5A
Other languages
English (en)
Other versions
CN109427331B (zh
Inventor
金容煜
具滋旻
金康爀
李东奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109427331A publication Critical patent/CN109427331A/zh
Application granted granted Critical
Publication of CN109427331B publication Critical patent/CN109427331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

本文中公开了电子装置和方法。该电子装置实施该方法,包括:接收第一语音并从所接收的第一语音中提取第一文本;响应于检测到对第一文本的提取包括使得与第一语音相关的请求不能被处理的误差,存储所提取的第一文本;接收第二语音并从所接收的第二语音中提取第二文本;响应于检测到所述请求能够使用所提取的第二文本来处理,检测第一文本与第二文本之间的相似度是否大于相似度阈值,并检测第二语音是否在接收到第一语音之后的预定时长内被接收;以及当相似度大于阈值并且第一语音信号和第二语音信号在该时长内被接收时,将第一文本与第二文本进行关联存储。

Description

语音识别方法及装置
技术领域
本公开的各种实施方式涉及基于机器学习算法的人工智能(AI)系统及其应用。
背景技术
AI系统是旨在通过基于自学习的识别增强使机器能够模拟人类智力水平的计算机系统。AI技术可与基于针对输入数据的分类/学习性质的自学习算法的“机器学习”技术(例如,深度学习)以及用于在机器学习算法的协助下模仿人类大脑的感知和判断能力的其它组成技术一起实施。
这种组成技术通常包括以下项中的至少一项:用于理解人类语言/字符的语言理解技术;用于识别人类视觉中的对象的视觉理解技术;用于通过分析信息生成逻辑推理和预测的推理/预测方法;用于表述人类的经验信息作为知识数据的知识表述技术;以及用于控制机器人动作的动作控制技术。
语言理解技术是用于识别人类语言/字符并处理识别结果以用于诸如自然语言处理、机器翻译、对话系统、问答以及语音识别/合成的各种应用的技术。
发明内容
当电子装置借助于自动语音识别(ASR)将用户输入的语音信号转换成词语或语句时,可能发生所转换的词语或语句不适合于自然语言理解(NLU)的情况。例如,如果ASR结果在含义上不是模糊不清,则电子装置可能向用户呈现非预期的结果。虽然可考虑提高ASR本身的精度来克服以上问题,但该方法存在一些缺点:更新ASR引擎需要很长时间,以及难以向语音识别引擎反映人的各种发音模式。即,该方法需要开发者操作语音识别引擎,这不能为想要立刻使用电子装置的语音识别功能的用户提供及时的帮助。此外,电子装置可提示用户评价结果以更新语音识别引擎。例如,电子装置可在显示器上呈现结果以及问卷,以提示用户输入关于该结果是否与用户的意图一致的选择。即,上述方法具有需要开发者或用户的耗时操作的缺点,这可能使用户不便。
根据本公开的一方面,公开了一种电子装置,该电子装置包括:麦克风、至少一个处理器以及存储编程指令的存储器,这些编程指令可被运行以执行以下操作:使用麦克风接收第一语音信号,并从所接收的第一语音信号提取第一自然语言文本;响应于检测到对第一自然语言文本的提取包括使得与第一语音信号相关的请求不能被处理的误差,存储所提取的第一自然语言文本;使用麦克风接收第二语音信号,并从所接收的第二语音信号提取第二自然语言文本;响应于检测到所述请求能够使用所提取的第二自然语言文本来处理,检测第一自然语言文本与第二自然语言文本之间的相似度是否大于相似度阈值,并检测第二语音信号是否在接收到第一语音信号之后的预定时长内被接收;以及当相似度大于相似度阈值并且第一语音信号和第二语音信号在预定时长内被接收时,将第一自然语言文本与第二自然语言文本进行关联存储。
根据本公开的另一方面,公开了一种方法,该方法包括:使用麦克风接收第一语音信号,并从所接收的第一语音信号提取第一自然语言文本;响应于至少一个处理器检测到对第一自然语言文本的提取包括使得与第一语音信号相关的请求不能被处理的误差,存储所提取的第一自然语言文本;使用麦克风接收第二语音信号,并从所接收的第二语音信号提取第二自然语言文本;响应于检测到所述请求能够使用所提取的第二自然语言文本来处理,检测第一自然语言文本与第二自然语言文本之间的相似度是否大于相似度阈值,并检测第二语音信号是否在接收到第一语音信号之后的预定时长内被接收;以及当相似度大于相似度阈值并且第一语音信号和第二语音信号在预定时长内被接收时,将第一自然语言文本与第二自然语言文本进行关联存储。
根据本公开的又一方面,公开了一种存储编程指令的非暂时性计算机可读介质,这些编程指令可被运行以执行以下操作:在第一时间点使用麦克风接收第一语音信号,并从所接收的第一语音信号提取第一自然语言文本;响应于检测到对第一自然语言文本的提取包括使得与第一语音信号相关的请求不能被处理的误差,存储所提取的第一自然语言文本;使用麦克风接收第二语音信号,并从所接收的第二语音信号提取第二自然语言文本;响应于检测到所述请求能够使用所提取的第二自然语言文本来处理,检测第一自然语言文本与第二自然语言文本之间的相似度是否大于相似度阈值,并检测第二语音信号是否在接收到第一语音信号之后的预定时长内被接收;以及当相似度大于相似度阈值并且第一语音信号和第二语音信号在预定时长内被接收时,将第一自然语言文本与第二自然语言文本进行关联存储。
附图说明
图1是示出了包括根据本公开的各种实施方式的电子装置的网络环境的示图;
图2是示出了根据本公开的各种实施方式的电子装置的框图;
图3是示出了根据本公开的各种实施方式的程序模块的框图;
图4是示出了根据本公开的各种实施方式的电子装置的语音识别系统的示意图;
图5是示出了在根据本公开的各种实施方式的电子装置中生成补偿表格之前的语音识别功能运行方法的信号流图;
图6是示出了在根据本公开的各种实施方式的电子装置中生成补偿表格之后的语音识别功能运行方法的信号流图;
图7A、图7B和图7C是示出了根据本公开的各种实施方式的电子装置的补偿表格的示图;
图8是示出了根据本公开的各种实施方式的电子装置的基于补偿表格的语音识别功能运行方法的信号流图;
图9是示出了根据本公开的各种实施方式的电子装置的补偿表格生成方法的流程图;以及
图10是示出了根据本公开的各种实施方式的电子装置的语音识别功能运行方法的流程图。
具体实施方式
下文中,参照附图对本公开的实施方式进行详细描述。虽然本公开可以以许多不同的形式实施,但在附图中示出了本公开特定的实施方式并在本文中对这些特定的实施方式进行详细描述,同时应理解的是本公开将被认为受限于此。在整个附图中使用相同的附图标记表示相同或相似的部件。
本公开中使用的表述“包括”或“可包括”表示相应的功能、操作或元件的存在,而不限制另外的至少一个功能、操作或元件。本文中使用的措辞“包括”或“具有”表示本说明书中所描述的特征、数字、步骤、操作、元件、部件或其组合的存在,但不排除至少一个其它的特征、数字、步骤、操作、元件、部件或其组合的存在或添加。
在本公开中,措辞“或”包括一同列出的词语的任何组合或全部组合。例如,“A或B”可包括A、B或者A和B。
本公开中的诸如“第一”和“第二”的表述可表示本公开的各种元件,但不限制相应的元件,例如,不限制相应元件的顺序和/或重要性,但可被用于将一个元件与另一元件区分开。例如,第一用户装置和第二用户装置均为用户装置,但表示不同的用户装置。例如,在未偏离本公开的范围的情况下,第一组成元件可称为第二组成元件,并且类似地,第二组成元件可称为第一组成元件。
当描述成第一元件“联接至”诸如第二元件的另一元件时,第一元件可“直接联接至”第二元件或通过第三元件“电连接至”第二元件。然而,当描述成第一元件“直接联接至”第二元件时,则在第一元件与第二元件之间可不存在第三元件。
本公开中使用的措辞并不旨在限制本公开,而是旨在说明本公开的实施方式。当在本公开的说明书和所附权利要求中使用时,除非单数形式的表述明确具有不同表示,否则单数形式的表述包括复数形式的表述。
除非不同地限定,否则本文中使用的包括技术措辞和科学措辞的措辞具有与可由本领域普通技术人通常理解的含义相同的含义。应理解的是,除非明确限定,否则在词典中定义的常用措辞具有与相关技术的上下文的含义相对应的含义,而不应理解为具有理想的或过于形式化的含义。
在本公开中,电子装置可具有通信功能。例如,电子装置可以是智能电话、平板PC、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、PDA(个人数字助理)、PMP(便携式多媒体播放器)、MP3播放器、便携式医疗装置、数字相机或可穿戴装置,其中,可穿戴装置诸如电子眼镜形式的HMD(头戴式装置)、电子服装、电子手环、电子项链、电子智能配件或智能手表。
根据一些实施方式,电子装置可以是包括通信功能的智能家用电器,诸如:TV(电视)、DVD(数字通用盘)播放器、音频装置、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、TV盒(诸如,Samsung HomeSyncTM、Apple TVTM和TVTM)、游戏机、电子词典、电子钥匙、摄像机或电子相框。
根据一些实施方式,电子装置可以是医疗装置(诸如,MRA(磁共振血管成像)、MRI(磁共振成像)、CT(计算机断层扫描)和超声波扫描))、导航装置、GPS(全球定位系统)接收器、EDR(事件数据记录器)、FDR(飞行数据记录器)、车载信息娱乐装置、船用电子装置(诸如,船舶导航系统或陀螺仪罗盘)、航空电子装置、安全装置或者工业或家用机器人。
根据一些实施方式,电子装置可以是具有通信功能的家具或者建筑物或结构的一部分、电子板、电子签名接收装置、投影仪或诸如水表、电表、燃气表或电波计的各种测量仪器。本文中公开的电子装置可以是上述装置中的一项或上述装置的任何组合。本领域技术人员也应理解的是,上述电子装置不应被视作为对本公开的限制。
根据实施方式,电子装置可基于经由第一传感器接收的信号来控制第二传感器的激活,这与激活了第二传感器的传统装置相比,降低了电子装置的功耗。根据本公开的实施方式的电子装置可响应于经由第二传感器接收的信号来执行预定功能。
图1是示出了根据本公开的实施方式的电子设备的框图100。
参照图1,电子装置101可包括总线110、处理器120、存储器130、用户输入模块(即,输入/输出接口)150、显示器160和通信接口170。
总线110可以是用于使电子装置101的元件互连并允许在这些元件之间进行通信(诸如通过传递控制消息)的电路。
处理器120可从存储器130、输入/输出接口(例如,包括用户输入模块)150、显示器160和通信接口170经由总线110接收一个或多个指令,可解译所接收的一个或多个指令并根据所解译的一个或多个指令执行操作和/或数据处理。
存储器130可存储从处理器120和/或其它元件接收的一个或多个指令,和/或由处理器120和/或其它元件生成的一个或多个指令和/或数据。存储器130可包括软件和/或程序140,诸如,内核141、中间件143、应用编程接口(API)145和应用147。上述编程模块中的每个均可通过软件、固件、硬件和/或其至少两个的组合进行配置。
内核141可控制和/或管理用于运行在其它编程模块(诸如,中间件143、API 145和/或应用147)中实施的操作和/或功能的系统资源,并可提供中间件143、API 145和/或应用147可藉此而访问并随后控制和/或管理电子设备(或装置,如图1中所示)101中的各个元件的接口。
中间件143可执行允许API 145和/或应用147与内核141通信并交换数据的转发功能。对于从应用147、中间件143中的至少一项接收到的操作请求,可通过向至少一个应用147之中的至少一个应用赋予使用电子设备101的系统资源(例如,总线110、处理器120和/或存储器130)时的优先级来执行与操作请求相关的负载平衡。
API 145是一种应用147可藉此而控制由内核141和/或中间件143提供的功能的接口,并可包括用于文件控制、窗口控制、图像处理和/或字符控制的至少一个接口或功能。
输入/输出接口(例如,包括用户输入模块)150可从用户接收命令和/或数据,并经由总线110将所接收的命令和/或数据传递至处理器120和/或存储器130。显示器160可向用户显示图像、视频和/或数据。
通信接口170可在电子设备101与另一电子装置102及104和/或服务器164之间建立通信,并可支持短程通信协议(例如,无线保真(WiFi)协议、蓝牙(BT)协议和近场通信(NFC)协议)、通信网络(例如,互联网、局域网(LAN)、广域网(WAN)、远程通信网络、蜂窝网络和卫星网络)、普通老式电话业务(POTS)或任何其它类似和/或合适的通信网络,诸如网络162。电子装置102及104中的每个可以是相同类型的电子装置或不同类型的电子装置。
图2示出了根据本公开的实施方式的电子装置201。电子装置201可形成图1中所示的电子装置101的全部或一部分。
参照图2,电子装置201可包括至少一个应用处理器(AP)210、通信模块220、用户识别模块(SIM)卡224、存储器230、传感器模块240、输入单元250、显示器260、接口270、音频模块280、相机模块291、电源管理模块295、电池296、指示器297和电机298。
AP 210可驱动操作系统或应用、控制连接至AP 210的多个硬件或软件部件,并且还执行用于包括多媒体数据的各种数据的处理和操作。AP 210可由片上系统(SoC)形成,并还可包括图形处理单元(GPU)。
通信模块220可通过网络执行与连接至电子装置201的任何其它电子装置的数据通信。根据实施方式,通信模块220其中可包括蜂窝模块221、WiFi模块223、BT模块225、GPS模块227、NFC模块228和RF(射频)模块229。
蜂窝模块221可通过通信网络(诸如,长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、全球移动远程通信系统(UMTS)、WiBro或全球移动通信系统(GSM))提供话音呼叫、视频呼叫、消息服务或互联网服务。此外,蜂窝模块221可使用SIM卡224对通信网络中的电子装置执行识别和认证。根据实施方式,蜂窝模块221可执行AP 210可提供的至少部分功能,诸如多媒体控制功能。
根据实施方式,蜂窝模块221可包括通信处理器(CP),并可由例如SoC形成。虽然诸如蜂窝模块221的一些元件(例如,CP)、存储器230和电源管理模块295在图2中示出为与AP210不同的单独的元件,但是在本公开的实施方式中,AP 210可形成为具有以上元件中的至少一部分。
根据实施方式,AP 210或蜂窝模块221可将从连接至AP 210或蜂窝模块221的非易失性存储器或从其它元件中的至少一项中接收的一个或多个指令或数据加载至易失性存储器中来处理这些指令或数据。此外,AP 210或蜂窝模块221可将从其它元件中的一项或多项处接收或产生的数据存储至非易失性存储器中。
WiFi模块223、BT模块225、GPS模块227和NFC模块228中的每个均可包括用于处理经由其自身发送或接收的数据的处理器。虽然图2将蜂窝模块221、WiFi模块223、BT模块225、GPS模块227和NFC模块228示出为不同的框,但这些模块中的至少两个可包括在单个IC(集成电路)芯片或单个IC封装中,即,这些模块中的至少两个可形成为单独的SoC。
RF模块229可发送并接收RF信号或其它任何电信号,并可包括收发器、PAM(功率放大模块)、频率滤波器或LNA(低噪声放大器)。RF模块229还可包括用于在自由空间中发送电磁波的例如线路或导体的任何部件。虽然图2示出成蜂窝模块221、WiFi模块223、BT模块225、GPS模块227和NFC模块228共享该RF模块229,但在本公开的实施方式中,这些模块的至少一个可通过单独的RF模块执行RF信号的发送与接收。
SIM卡224可以是由SIM形成的特定的卡,并可插入至在电子装置的特定位置处形成的槽中。SIM卡224可包括ICCID(集成电路卡标识符)或IMSI(国际移动用户标识符)。
存储器230可包括内部存储器232和外部存储器234。内部存储器232可包括易失性存储器或非易失性存储器中的至少一项,其中,易失性存储器诸如DRAM(动态随机存取存储器)、SRAM(静态RAM)、SDRAM(同步DRAM),非易失性存储器诸如OTPROM(一次性可编程只读存储器)、PROM(可编程ROM)、EPROM(可擦可编程ROM)、EEPROM(电可擦可编程ROM)、掩模ROM、闪速ROM、NAND闪速存储器和NOR闪速存储器。
根据实施方式,内部存储器232可具有SSD(固态驱动)的形式。外部存储器234可包括闪速驱动器(例如,CF(紧凑式闪存)、SD(安全数字)、Micro-SD(微型安全数字)、Mini-SD(迷你安全数字)、xD(极限数字)或记忆棒),并可通过各种接口功能性地连接至电子装置201。电子装置201还可包括诸如硬盘的存储装置或存储介质。
传感器模块240可测量物理量或感测电子装置201的操作状态,并随后将所测量或所感测的信息转换成电信号。传感器模块240可包括以下项中的至少一项:姿势传感器240A、陀螺仪传感器240B、大气压力传感器240C、磁性传感器240D、加速度传感器240E、握持传感器240F、接近传感器240G、颜色传感器240H(诸如,RGB(红绿蓝)传感器)、生物测定传感器240I、温度-湿度传感器240J、光照传感器240K以及UV(紫外线)传感器240M。此外或可替代地,传感器模块240可包括电子鼻传感器、EMG(肌电图)传感器、EEG(脑电图)传感器、ECG(心电图)传感器、IR(红外)传感器、虹膜扫描传感器或手指扫描传感器。传感器模块240可包括用于控制装配在传感器模块240中的一个或多个传感器的控制电路。
输入单元250可包括触摸面板252、数字笔传感器254、键256或超声输入装置258。触摸面板252可以电容型、电阻型、红外型或超声型方式识别触摸输入。触摸面板252还可包括控制电路。在电容型的情况下,可识别物理的接触或接近。触摸面板252还可包括向用户提供触觉反馈的触觉层。
数字笔传感器254可以以与接收触摸输入相同或类似的方式形成或通过使用单独的识别片形成。键256可包括物理按钮、光学键或小键盘。超声输入装置258能够通过利用电子装置201中的麦克风(MIC)288感测经由生成超声信号的输入工具生成的声波来识别数据,从而允许无线识别。根据实施方式,电子装置201可通过通信模块220从连接至电子装置201的任何外部装置接收用户输入。
显示器260可包括面板262、全息装置264或投影仪266。面板262可以是LCD(液晶显示器)或AM-OLED(有源矩阵有机发光二极管)可具有柔性、透明或可穿戴的形式,并可与触摸面板252一起形成为单个模块。全息装置264可使用光的干涉将立体图像投影至空气中。投影仪266可将图像投影至可位于电子装置201的内部或外部处的屏幕上。根据实施方式,显示器260还可包括用于控制面板262、全息装置264和投影仪266的控制电路。
接口270可包括HDMI(高清多媒体接口)272、USB(通用串行总线)274、光学接口276和D-sub(d-超小型)278,并可包括在图1中所示的通信接口170中。此外或可替代地,接口270可包括MHL(移动高清链接)接口、SD(安全数字)卡/MMC(多媒体卡)接口或IrDA(红外数据协会)接口。
音频模块280可在声音信号与电信号之间执行转换。音频模块280中的至少一部分可被包括在图1中所示的输入/输出接口150中。音频模块280可处理通过扬声器282、接收器284、耳机286或MIC 288输入或输出的声音信息。
相机模块291能够获取静止图像和运动图像,并可包括至少一个图像传感器(诸如,前置传感器或后置传感器)、镜头、ISP(图像信号处理器)或闪光灯(诸如,LED或氙气灯)。
电源管理模块295可管理电子装置201的电源,并可包括PMIC(电源管理集成电路)、充电器IC或电池计。
PMIC可由IC芯片或SoC形成。可以以有线或无线的方式执行充电。充电器IC可对电池296充电,并防止充电器过电压或过电流。根据实施方式,充电器IC可具有被用于有线充电类型和无线充电类型中的至少一种的充电器IC。无线充电类型可包括磁共振型、磁感应型或电磁型。还可使用用于无线充电的任何附加电路,诸如线圈环路、谐振电路或整流器。
电池计可测量电池296的剩余电量以及充电过程中的电压、电流或温度。电池296可在其中存储或产生电力,并向电子装置201提供电力。电池296可以是可充电电池或太阳能电池。
指示器297可在其上示出当前状态,诸如电子装置201的部分或全部的启动状态、消息状态或充电状态。电机298可将电信号转换成机械振动。电子装置201可包括用于支持移动TV的特定的处理器(诸如GPU)。该处理器可处理符合DMB(数字多媒体广播)、DVB(数字视频广播)或媒体流的标准的媒体数据。
本文中所公开的电子装置的以上所讨论的元件中的每个均可由一个或多个部件形成,并可根据电子装置的类型具有多种名称。本文中所公开的电子装置可在不具有某些元件或具有附加的元件的情况下由以上所讨论的元件中的至少一项形成。元件中的一些可被集成至单个实体中,并仍执行与集成之前的这种元件的功能相同的功能。
图3示出了根据本公开的实施方式的编程模块310的配置。
编程模块310可存储在电子设备(或装置)101中并可存储在图2中所示的电子装置201中。编程模块310的至少一部分可以以软件、固件、硬件或其两个或更多个的组合进行实施。编程模块310可以以硬件201的形式实施,并可包括与电子装置相关的OS控制资源和/或在OS中运行的各种应用370。例如,OS可以是Android、iOS、Windows、Symbian、Tizen或Bada。
参照图3,编程模块310可包括内核320、中间件330、API 360和/或应用370。
内核320可包括系统资源管理器321和/或装置驱动器323。系统资源管理器321可包括进程管理器、存储器管理器和文件系统管理器。系统资源管理器321可执行系统资源的控制、配置或检索。装置驱动器323可包括显示器驱动器、相机驱动器、蓝牙驱动器、共享存储器驱动器、USB驱动器、小键盘驱动器、Wi-Fi驱动器和/或音频驱动器,并且还可包括进程间通信(IPC)驱动器。
中间件330可包括先前实施的多个模块,以便通过应用370提供常用的功能,并可通过API 360向应用370提供功能,以使应用370能够高效地利用电子装置内部有限的系统资源。例如,如图3中所示,中间件330可包括以下项中的至少一项:运行时间库335、应用管理器341、窗口管理器342、多媒体管理器343、资源管理器344、电源管理器345、数据库管理器346、包管理器347、连接管理器348、通知管理器349、位置管理器350、图形管理器351、安全管理器352以及任何其它合适和/或类似的管理器。
运行时间库335可包括由编译器使用的库模块,以在应用370运行期间通过使用编程语言添加新功能,并可执行与输入和输出、存储器的管理或算术功能相关的功能。
应用管理器341可管理应用370中的至少一项的生命周期。窗口管理器342可管理屏幕上所使用的GUI资源。多媒体管理器343可检测用来播放各种媒体文件的格式,并可通过适用于相关格式的编解码器对媒体文件进行编码或解码。资源管理器344可管理应用370的至少一个应用的资源(诸如,源代码、存储器或存储空间)。
电源管理器345可与基本的输入/输出系统(BIOS)一起操作,可管理电池或电源,并可提供用于操作的电源信息。数据库管理器346可以以这种方式来管理数据库,以使得应用370中的至少一项能够使用数据库的生成、搜索和/或修改。包管理器347可管理以包文件的形式分布的应用的安装和/或更新。
连接管理器348可管理诸如Wi-Fi和蓝牙的无线连接。通知管理器349可通过不会打扰到用户的方式向用户显示或报告诸如接收的消息、日程安排或接近预警的事件。位置管理器350可管理电子装置的位置信息。图形管理器351可管理待提供给用户的图形效果,和/或管理与该图形效果相关的用户接口。安全管理器352可提供用于系统安全和用户认证的多种安全功能。根据本公开的实施方式,当电子装置具有电话功能时,中间件330还可包括用于管理电子装置的语音电话呼叫功能和/或视频电话呼叫功能的电话管理器。
中间件330可通过上述内部元件模块的各种功能性组合来生成并使用新的中间件模块,可根据OS的类型来提供专门的模块以提供差异化的功能,并可动态地删除已有元件中的一些,或可增加新的元件。相应地,中间件330可省略在本公开的实施方式中描述的元件中的一些,还可包括其它元件,或可用均执行类似功能且具有不同名称的元件来代替一些元件。
API 360是API编程功能的集合,并可根据OS设置有不同的配置。在Android或iOS的情况下,例如,可向每个平台提供一个API集合。在Tizen的情况下,可向每个平台提供两个或更多个API集合。
应用370可包括预加载的应用和/或第三方应用,并可包括主页371、拨号器372、短消息服务(SMS)/多媒体消息服务(MMS)373、即时消息(IM)374、浏览器375、相机376、闹钟377、通讯录378、语音拨号379、电子邮件(e-mail)380、日历381、媒体播放器382、相册383和时钟应用384,以及任何其它合适和/或类似的应用。
编程模块310的至少一部分可通过存储在非暂时性计算机可读存储介质中的指令来实施。当由一个或多个处理器来运行指令时,一个或多个处理器可执行与指令相对应的功能。非暂时性计算机可读存储介质可以是存储器230。编程模块310的至少一部分可被一个或多个处理器210运行,并可包括用于执行一个或多个功能的模块、程序、例程、指令集和/或进程。
图4是示出了根据本公开的各种实施方式的电子装置的语音识别系统的示意图。
在图4的实施方式中,电子装置101的语音识别系统可包括ASR模块410、NLU模块420、响应提供模块430和语音识别补偿模块440。
根据本公开的各种实施方式,电子装置101可借助于语音识别系统从用户接收语音信号,将所接收的语音信号转换成词语或语句,并向用户提供与词语或语句相对应的功能。例如,电子装置101可接收传达语音“现在是几点了(What time is it now)”的输入信号,并分析在输入信号中传达的语音,从而向用户输出语音中提及的当前时间。
根据本公开的各种实施方式,电子装置101可将用户输入的语音信号转换成自然语言。例如,ASR模块410可借助于安装在电子装置101或外部服务器106中的语音识别引擎将输入的语音信号转换成自然语言。本公开旨在提供用于补偿难以理解自然语言的含义而导致通过语音识别引擎转换的自然语言不精确的情况的方法,而不是提供一种用于提高通过语音识别引擎转换的自然语言的精度的方法。
根据本公开的各种实施方式,电子装置101可在NLU模块420的协助下分析由ASR模块410转换的自然语言的含义。例如,NLU模块420可分析所转换的自然语言,以确定自然语言是否有意义,并将分析结果发送至响应提供模块430。如果所转换的自然语言意在询问当前时间,则NLU模块420可通知响应提供模块430用户正在询问当前时间。如果无法理解所转换的自然语言的含义,则NLU模块420可请求重新开始接收用户的语音输入的过程。
根据本公开的各种实施方式,电子装置101可借助于响应提供模块430来产生响应,以作为被NLU模块420验证为有意义的自然语言的答复。例如,响应提供模块430可基于从NLU模块420接收的自然语言的含义向电子装置101或外部服务器106发起询问。响应提供模块430可将基于从电子装置101或外部服务器106接收的询问结果而生成的响应提供给用户以作为对用户发出的语音的答复。
根据本公开的各种实施方式,电子装置101可包括语音识别补偿模块440。除了ASR模块410、NLU模块420和响应提供模块430之外,电子装置101还包括语音识别补偿模块440,从而可更迅速且更便利地提供语音识别功能。
根据本公开的各种实施方式,电子装置101可借助于语音识别补偿模块440生成补偿表格。例如,补偿表格可存储识别出的语句、发生时间、响应提供语句等。这里,识别出的语句可表示通过转换用户所发出的语音而获得的自然语言语句。发生时间可表示用户发出语音时的时间。响应提供语句可表示与从通过转换用户所发出的语音而获得的自然语言语句的可理解语句之中选择的识别出的语句相似的语句。即,电子装置101可根据与识别出的语句的相似度和发生时间中的至少一项来确定响应提供语句。
根据本公开的各种实施方式,如果在语音识别失败后的预定时间(例如,30秒或1分钟的相对短的时间段)内进行的语音输入被成功地识别为自然语言语句(例如,第二语句),电子装置101可确定成功识别的自然语言语句(例如,第二语句)是否与识别失败的自然语言语句(例如,第一语句)类似。例如,电子装置101可参考字符串比较结果和发音相似度(例如,在提取成文本的情况下,将第一语句和第二语句中的每个语句的预估发音进行比较),以确定两个自然语言语句之间的相似度。如果相似度等于或大于预定百分率(例如,80%),则电子装置101可确定语音识别失败的自然语言语句(例如,第一语句)和语音识别成功的自然语言语句(例如,第二语句)彼此类似。
根据本公开的各种实施方式,如果确定了语音识别失败的自然语言语句(例如,第一语句)与语音识别成功的自然语言语句(例如,第二语句)彼此类似,则电子装置101可创建、写入或存储补偿表格以使得语音识别失败的自然语言语句(例如,如上文识别的第一语句)被映射至语音识别成功的自然语言语句(例如,第二语句)。即,如果类似的自然语言语句在相对短的时间段期间反复地输入,则电子装置101可确定先前输入的识别失败的自然语言语句的意思是在稍后输入的识别成功的自然语言语句。
根据本公开的各种实施方式,虽然ASR模块410无法识别用户发出的语音,但电子装置101可帮助将用户所预期的语音识别功能提供给用户。因此,本公开能够减少由需要重复语音输入直至获取满意的语音识别结果值而引起的用户的不便。
下文中通过参照图5、图6、图7A至图7C和图8示出的实施方式对本公开进行描述。
图5是示出了在根据本公开的各种实施方式的电子装置中生成补偿表格之前的语音识别功能运行方法的信号流图。
参照图5,电子装置101可借助于根据本公开的各种实施方式的ASR模块510(图4中的ASR模块410)、NLU模块520(图4中的NLU模块420)和响应提供模块530(图4中的响应提供模块430)来运行语音识别功能。
根据本公开的各种实施方式,电子装置101可在步骤550处接收用户500输入的语音信号。例如,用户可发起如“What time is it?(现在几点了?)”的语音输入来询问当前的时间。
根据本公开的各种实施方式,电子装置101(ASR模块510)可能误识别用户输入的语音信号。例如,电子装置101可能将语音信号期望表达“What time is it?(现在几点了?)”的语音转换成“What time is eat?”。根据本公开的各种实施方式,电子装置101可在步骤552处向NLU模块520发送所转换的自然语言(即,“What time is eat?”)。
根据本公开的各种实施方式,电子装置101(NLU模块520)可分析从ASR模块510接收的自然语言以找到其含义。例如,电子装置101可分析自然语言以给出“What time iseat?”的建议并确定该自然语言是无意义的。根据本公开的各种实施方式,如果确定自然语言无意义,则电子装置101可在步骤554处提示用户再次进行语音输入。例如,如果电子装置101不能处理基于该自然语言的用户请求,则电子装置101可确定该自然语言是无意义的。由于不能在语法上对如“What time is eat?”的文本进行分析,所以电子装置101不能正确地理解用户的请求。相应地,电子装置101不能处理在输入的语音信号中传达的用户的请求,并因而可要求用户再次进行语音输入。例如,在电子装置101不能理解所分析的自然语言的含义的情况下和在电子装置101不能处理用户的请求的情况下,电子装置101可要求用户再次进行语音输入。
根据本公开的各种实施方式,电子装置101可在步骤556处接收用户500第二次输入的语音信号。例如,用户可缓慢地讲出语句“Whattime is it?”以询问当前时间。
根据本公开的各种实施方式,电子装置101(ASR模块510)可能再次误识别用户500输入的语音信号。例如,电子装置101可能将语音信号期望表达“What time is it?”的语音转换成“What time is eat?”。根据本公开的各种实施方式,电子装置101可在步骤558处向NLU模块520发送所转换的自然语言(即,“What time is eat?”)。
根据本公开的各种实施方式,电子装置101(NLU模块520)可分析从ASR模块510接收的自然语言以找出其含义。例如,电子装置101可分析自然语言以给出“What time iseat?”的建议并确定该自然语言无意义。根据本公开的各种实施方式,如果确定了该自然语言无意义,则电子装置101可在步骤560处提示用户再次进行语音输入。例如,如果电子装置101不能处理基于该自然语言的用户的请求,则电子装置101可确定该自然语言是无意义的。由于不能在语法上对如“What time is eat?”的文本进行分析,所以电子装置101不能正确地理解用户的请求。相应地,电子装置101不能处理在输入的语音信号中传达的用户的请求,并因而可要求用户再次进行语音输入。例如,在电子装置101不能理解所分析的自然语言的含义的情况下和在电子装置101不能处理用户的请求的情况下,电子装置101可要求用户再次进行语音输入。
根据本公开的各种实施方式,电子装置101可在步骤562处接收用户500第三次输入的语音信号。例如,用户可非常清晰地讲出如“What time is it?”的语句以询问当前时间。
根据本公开的各种实施方式,电子装置101(ASR模块510)可正确地识别用户500输入的语音信号。例如,电子装置101可将语音信号期望表达“What time is it?”的语音转换成“What time is it?”。根据本公开的各种实施方式,电子装置101可在步骤564处向NLU模块520发送所转换的自然语言(即,“What time is it?”)。
根据本公开的各种实施方式,电子装置101(NLU模块520)可分析从ASR模块510接收的自然语言以找出其含义。例如,电子装置101可分析自然语言以找出意在询问当前时间的“What time is it?”的含义。根据本公开的各种实施方式,如果确定了自然语言是有意义的,则随后在操作566中,电子装置101可向响应提供模块530请求提供作为对询问的答复的响应。接下来,在操作568中,响应提供模块530可向用户提供答复。例如,如果电子装置101能够处理基于自然语言的用户的请求,则电子装置101可确定自然语言是有意义的。由于可在语法上分析如“What time is it?”的文本,则电子装置101可正确地理解用户的请求。例如,在电子装置101可以理解所分析的自然语言的含义的情况下和在电子装置101可以处理用户的请求的情况下,电子装置101可以不要求用户再次进行语音输入。
参照图5,只有在ASR模块510将用户输入的语音信号转换成用户预期的自然语言的情况下,电子装置101才可向用户呈现正确处理的结果。为了增强图5的实施方式的方法的性能,电子装置101还可包括图6、图7A至图7C和图8的实施方式中的语音识别补偿模块(图4中的语音识别补偿模块440)。
图6是示出了在根据本公开的各种实施方式的电子装置中生成补偿表格之后的语音识别功能运行方法的信号流图。
参照图6,电子装置101可借助于ASR模块610(图4中的ASR模块410)、NLU模块620(图4中的NLU模块420)、响应提供模块630(图4中的响应提供模块430)和语音识别补偿模块640(图4中的语音识别补偿模块640)来运行语音识别功能。
根据本公开的各种实施方式,电子装置101可在步骤650处接收用户600输入的语音信号。例如,用户可进行如“What time is it?”的语音输入以询问当前时间。
根据本公开的各种实施方式,电子装置101(ASR模块610)可能误识别用户输入的语音信号。例如,电子装置101可能将语音信号期望表达“What time is it?”的语音转换成“What time is eat?”。根据本公开的各种实施方式,电子装置101可在步骤652处向NLU模块620发送所转换的自然语言(即,“What time is eat?”)。
根据本公开的各种实施方式,电子装置101(NLU模块620)可分析从ASR模块610接收的自然语言以找出该自然语言的含义。例如,电子装置101可分析该自然语言以给出“What time is eat?”的建议并确定该自然语言是无意义的。
根据本公开的各种实施方式,电子装置101(语音识别补偿模块640)可在步骤654处将确定为无意义的自然语言作为记录(例如,识别出的语句和发生时间)存储在补偿表格中。根据本公开的各种实施方式,如果确定自然语言是无意义的,则电子装置101可在步骤656处提示用户再次进行语音输入。这里,步骤654和步骤656的顺序不影响本公开的技术构思,并因而可被本领域技术人员改变。
根据本公开的各种实施方式,电子装置101可在步骤658处接收用户600第二次输入的语音信号。例如,用户可缓慢地讲出语句“What time is it?”以询问当前时间。
根据本公开的各种实施方式,电子装置101(ASR模块610)可能再次误识别用户600输入的语音信号。例如,电子装置101可能将语音信号期望表达“What time is it?”的语音转换成“What time is eat?”。根据本公开的各种实施方式,电子装置101可在步骤660处向NLU模块620发送所转换的自然语言(即,“What time is eat?”)。
根据本公开的各种实施方式,电子装置101(NLU模块620)可分析从ASR模块610接收的自然语言以找出该自然语言的含义。例如,电子装置101可分析该自然语言以给出“What time is eat?”的建议并确定该自然语言是无意义的。
根据本公开的各种实施方式,电子装置101(语音识别补偿模块640)可步骤662处将确定为无意义的自然语言作为记录(例如,识别出的语句和发生时间)存储在补偿表格中。根据本公开的各种实施方式,如果确定了该自然语言是无意义的,则电子装置101可在步骤664处提示用户再次进行语音输入。这里,步骤662和步骤664的顺序不影响本公开的技术构思,并因而可被本领域技术人员改变。
根据本公开的各种实施方式,电子装置101可在步骤666处接收用户600第三次输入的语音信号。例如,用户可非常清晰地讲出如“What time is it?”的语句以询问当前时间。
根据本公开的各种实施方式,电子装置101(ASR模块610)可正确地识别用户600输入的语音信号。例如,电子装置101可能将语音信号期望表达“What time is it?”的语音转换成“What time is it?”。根据本公开的各种实施方式,电子装置101可在步骤668处向NLU模块620发送所转换的自然语言(即,“What time is it?”)。
根据本公开的各种实施方式,电子装置101(NLU模块620)可分析从ASR模块610接收的自然语言以找出该自然语言的含义。例如,电子装置101可分析该自然语言以找出意在询问当前时间的“What time is it?”的含义。根据本公开的各种实施方式,如果确定了自然语言是有意义的,则随后在操作670中,电子装置101可向响应提供模块630请求提供响应以作为对询问的答复。
根据本公开的各种实施方式,电子装置101(语音识别补偿模块640)可在步骤672处将确定为有意义并因而被响应的自然语言作为记录(例如,响应的语句和成功识别的语句)存储在补偿表格中。
根据本公开的各种实施方式,电子装置101(响应提供模块630)可在步骤674处响应于用户的请求而运行对应于语音信号的功能。这里,步骤672和步骤674的顺序不影响本公开的技术构思,并因而可被本领域技术人员改变。
参照图6,电子装置101可借助于语音识别补偿模块640产生补偿表格,并补偿在使用补偿表格之后发生的语音识别误差。下文可参照图8对基于补偿表格的语音识别误差补偿方法进行更详细的描述。
图7A至图7C是示出了根据本公开的各种实施方式的电子装置的补偿表格的示图。
参照图7A,根据本公开的各种实施方式,电子装置101(语音识别补偿模块440)可将识别失败的语句存储在补偿表格700中。例如,电子装置101可将电子装置101无法识别为‘识别出的语句(或识别出的自然语言)’的语句710或‘语音识别失败的语句(或语音识别失败的自然语言)’记录705存储在补偿表格700中。电子装置可将语音识别失败的语句的记录存储在补偿表格中,该记录包括命名为‘发生时间’或‘识别时间’715的字段,其表明输入语音识别失败的语句的时间720。另外的响应提供语句记录725可存储响应于识别出的语句710生成的答复。由于在该示例中,识别出的语句710是无意义的,因而可为响应提供语句记录725设置空的记录730。
电子装置101可生成如图7A中所示的补偿表格700作为图6的步骤654处的操作的结果。电子装置101也可生成如图7B中所示的补偿表格700作为图6的步骤662处的操作的结果。例如,如果电子装置101(NLU模块420)将语音输入误识别为“What time is eat?”710和“What time is in?”711,则电子装置101可将误识别的语句“What time is eat?”710及“What time is in?”721与发生时间720及721一起存储为个体记录。
根据本公开的各种实施方式,电子装置101(语音识别补偿模块440)可生成如图7C中所示的补偿表格700作为图6的步骤672处的操作的结果。例如,电子装置101(语音识别补偿模块440)在语音识别失败之后的预定时间内成功进行语音识别,电子装置101可分析存储在补偿表格中的语音识别失败的语句与语音识别成功的语句之间的相似度。例如,如果确定相似度等于或大于预定百分率(例如,80%),则电子装置101可确定存储在补偿表格700中的语音识别失败的语句710及711与语音识别成功的语句730及731彼此类似。
根据本公开的各种实施方式,如果确定了存储在补偿表格中的语音识别失败的语句与语音识别成功的语句彼此类似,则电子装置101可将语音识别成功的语句730及731存储在命名为‘响应提供语句’或‘语音识别成功的语句’725的字段中,以与记录相应语音识别失败的语句的、命名为‘识别出的语句’的字段相匹配。例如,电子装置101可分析作为图6的步骤666处的操作结果、在时间05:28:40 720时进行的语音输入“What time is it?”与误识别的语句“What time is eat?”710及“What time is in?”711之间的相似度。电子装置101可在以上语句上执行字符串比较和发音相似度分析,以确定以上语句之间的相似度。电子装置101可将语句“What time is it?”730及731存储在记录误识别的语句“What timeis eat?”710及“What time in?”711中的每个语句的‘响应提供语句’字段725中。随后,即使用户在“What time is it?(现在几点了?)”的意图下进行的语音输入被误识别或转换成“What time is eat?”710或“What time is in?”711,电子装置101也可通过参考补偿表格700并利用当前时间正确地答复用户询问,而将该语言输入译为“What time is it?”730及731。
图8是示出了根据本公开的各种实施方式的电子装置的基于补偿表格的语音识别功能运行方法的信号流图。
参照图8,电子装置101可借助于根据本公开的各种实施方式的ASR模块810(图4中的ASR模块410)、NLU模块820(图4中的NLU模块420)、响应提供模块830(图4中的响应提供模块430)和语音识别补偿模块840(图4中的语音识别补偿模块440)来运行语音识别功能。
根据本公开的各种实施方式,电子装置可在操作850中接收由用户800输入的语音信号。例如,用户800可进行如“What time is it?”的语音输入以询问当前时间。
根据本公开的各种实施方式,电子装置(ASR模块810)可能误识别用户输入的语音信号。例如,电子装置101可能将语音信号期望表达“What time is it?”的语音转换成“What time is eat?”。
根据本公开的各种实施方式,电子装置101可在步骤852处向语音识别补偿模块840发送错误转换的自然语言(即,“What time is eat?”)。电子装置101(语音识别补偿模块840)可确定所接收的自然语言是否存在于先前生成的补偿表格的‘参考提供语句’或‘语音识别成功的语句’字段中。例如,电子装置101可查阅如图7C所示的生成的补偿表格,以找出与“What time is eat?”相匹配的“What time is it?”。
根据本公开的各种实施方式,电子装置101可在步骤854处向NLU模块820发送所转换的自然语言(例如,“What time is eat?”)以及与其相匹配的语音识别成功的自然语言(例如,“What time is it?”)。电子装置101也可向NLU模块820仅发送语音识别成功的自然语言(例如,“What time is it?”)。
根据本公开的各种实施方式,电子装置101(NLU模块820)可分析从语音识别补偿模块840接收的自然语言,以找出该自然语言的含义。例如,电子装置101可分析“What timeis eat?”和“What time is it”二者,并因而验证仅“What time is it?”是有意义的。
根据本公开的各种实施方式,如果确定了该自然语言是有意义的,则电子装置101(NLU模块820)可在操作856中向响应提供模块830请求提供响应以作为对询问的答复。
根据本公开的各种实施方式,电子装置101(例如,响应提供模块830)可在步骤858处响应于用户的请求而运行与语音信号相对应的功能。例如,电子装置101可响应于自然语言“What time is it?”利用当前时间来答复用户。
图9是示出了根据本公开的各种实施方式的电子装置的补偿表格生成方法的流程图。
参照图9,电子装置101(响应提供模块430)可在步骤910处产生(生成、检索等)相关的响应以作为对识别的语音(例如,如从NLU模块中接收的语音)的答复。
根据本公开的各种实施方式,电子装置101(语音识别补偿模块440)可在步骤920处确定存储在补偿表格的‘识别出的语句’字段中的语句与存储在‘响应提供语句’字段中的语句之间的相似度,其中,‘响应提供语句’字段中的语句被用作在步骤910处产生响应的基础。例如,电子装置101可利用字符串比较和发音相似度来确定两个自然语言语句之间的相似度。如果该相似度等于或大于预定百分率(例如,80%),则电子装置101可确定存储在补偿表格的‘识别出的语句’字段中的语句与响应提供语句彼此类似。
根据本公开的各种实施方式,电子装置101(即,语音识别补偿模块440)可基于在步骤920处产生的确定结果(即,作为匹配的确定结果)在步骤930处将参考提供语句存储在‘参考提供语句’字段中,‘参考提供语句’字段与存储在补偿表格的‘识别出的语句’字段中的语句相关联。
以这种方式,电子装置101能够通过利用存储在补偿表格中相应的相关‘响应提供语句’来自动地补偿语音识别的失败而帮助运行语音识别功能,从而改善了用户的便利性。
图10是示出了根据本公开的各种实施方式的电子装置的语音识别功能运行方法的流程图。
参照图10,根据本公开的各种实施方式,电子装置101可在步骤1010处接收用户输入的语音信号。例如,电子装置101可通过诸如麦克风288的语音信号采集装置来接收用户输入的语音信号,其中,语音识别在该语音信号的基础上执行。
根据本公开的各种实施方式,电子装置101(ASR模块410)可在步骤1020处对输入的语音信号执行语音识别。例如,电子装置101可能将输入语音信号转换成‘自然语言’。即,电子装置101可将输入的语音信号转换成赋有含义的自然语言文本(例如,表现为词语和/或语句的文本)。
根据本公开的各种实施方式,电子装置101可确定是否存在与所转换的自然语言文本相对应的任何补偿数据。例如,电子装置101可查阅已在先前生成并存储的补偿表格,以确定是否与所转换的自然语言文本相对应的任何补偿数据。
根据本公开的各种实施方式,如果在步骤1030处确定了存在与所转换的自然语言文本相对应的任何补偿数据,则流程可继续进行至步骤1040。在步骤1040处,电子装置101(NLU模块420)可基于与所转换的自然语言相关的数据和补偿数据中的至少一项来执行自然语言理解操作。
根据本公开的各种实施方式,如果在步骤1030处确定了不存在与所转换的自然语言相对应的补偿数据,则流程可继续进行至步骤1050。在步骤1050处,电子装置101(NLU模块420)可在步骤1050处对所转换的自然语言执行自然语言理解操作。
根据本公开的各种实施方式,电子装置101(即,响应提供模块430)可在步骤1060处基于在步骤1040或步骤1050处执行的操作产生对用户的响应以答复语音输入。
根据本公开的各种实施方式,电子装置可包括存储器、麦克风和电连接至存储器和麦克风的处理器,其中,存储器可存储可由处理器执行的指令,这些指令用以执行以下操作:通过麦克风在第一时间点从用户接收第一语音信号;基于第一语音信号获取与第一语音信号对应的第一自然语言;如果不能基于所获取的第一自然语言来处理用户意图通过第一语音信号表达的请求,则将第一自然语言作为补偿数据存储在存储器中;通过麦克风在第二时间点从用户接收第二语音信号;基于第二语音信号获取与第二语音信号对应的第二自然语言;如果能够基于所获取的第二自然语言来处理用户意图通过第二语音信号表达的请求,则确定第一自然语言与第二自然语言之间的相似度,并确定第一时间点与第二时间点之间的差异是否小于预定时长;以及,如果第一自然语言与第二自然语言彼此类似且第一时间点与第二时间点之间的差异小于预定时长,则将补偿数据存储在存储器中以将第二自然语言与第一自然语言匹配。
处理器可配置为基于第二自然语言产生对用户的响应以答复第二语音信号。
第一自然语言和第二自然语言可以是词语或语句。
处理器可配置为基于第一自然语言与第二自然语言之间的字符串比较和发音中的至少一项来确定相似度。
预定时长可以足够长以确定在第一时间点输入的第一语音信号和在第二时间点输入的第二语音信号是大致连续进行的。
处理器可配置为通过麦克风在第三时间点从用户接收第一语音信号,基于第一语音信号获取与第一语音信号对应的第一自然语言,并基于补偿数据检索存储成与第一自然语言相匹配的第二自然语言。
处理器可配置为:即使输入的语音为第一语音信号,仍然基于第二自然语言产生对用户的响应以答复第二语音信号。
处理器可配置为从电子装置的存储器或电子装置外部的服务器中获取第一自然语言或第二自然语言。
处理器可配置为经由电子装置的存储器或电子装置外部的服务器产生响应。
根据本公开的各种实施方式,电子装置的方法可包括:在第一时间点从用户接收第一语音信号;基于第一语音信号获取与第一语音信号对应的第一自然语言;如果不能基于所获取的第一自然语言来处理用户意图通过第一语音信号表达的请求,则将第一自然语言存储为为补偿数据;在第二时间点从用户接收第二语音信号;基于第二语音信号获取与第二语音信号对应的第二自然语言;如果能够基于所获取的第二自然语言来处理用户意图通过第二语音信号表达的请求,则确定第一自然语言与第二自然语言之间的相似度,并确定第一时间点与第二时间点之间的差异是否小于预定时长;以及,如果第一自然语言和第二自然语言彼此类似,且第一时间点与第二时间点之间的差异小于预定时长,则存储补偿数据以将第二自然语言与第一自然语言匹配。
方法还可包括基于第二自然语言产生对用户的响应以答复第二语音信号。
第一自然语言和第二自然语言可为词语或语句。
确定相似度可包括基于第一自然语言与第二自然语言之间的字符串比较和发音中的至少一项来确定相似度。
预定时长可足够长以确定在第一时间点输入的第一语音信号和在第二时间点输入的第二语音信号是大致连续进行的。
方法还可包括:在第三时间点从用户接收第一语音信号;基于第一语音信号获取与第一语音信号对应的第一自然语言;以及基于补偿数据检索存储成与第一自然语言相匹配的第二自然语言。
方法还可包括:即使输入语音为第一语音信号,仍然基于第二自然语言产生对用户的响应以答复第二语音信号。
获取第一自然语言或第二自然语言可包括从电子装置内部的服务器或电子装置外部的服务器获取第一自然语言或第二自然语言。
产生响应可包括经由电子装置内部的服务器或电子装置外部的服务器产生响应。
根据本公开的各种实施方式,计算机可读存储介质可存储记录在计算机可读存储介质上的程序,该程序用于运行以下操作:从用户接收第一语音信号;基于第一语音信号获取与第一语音信号对应的第一自然语言;如果不能基于所获取的第一自然语言处理用户意图通过第一语音信号表达的请求,则将第一自然语言存储为补偿数据;通过麦克风在第二时间从用户接收第二语音信号;基于第二语音信号获取与第二语音信号对应的第二自然语言;如果能够基于第二语音信号来处理用户意图通过第二语音信号表达的请求,则确定第一自然语言与第二自然语言之间的相似度并确定第一时间点与第二时间点之间的差异是否小于预定时长;以及,如果第一自然语言与第二自然语言彼此类似且第一时间点与第二时间点之间的差异小于预定时长,则存储补偿数据以将第二自然语言与第一自然语言匹配。
记录在计算机可读存储介质上的程序还被用以运行以下操作:在第三时间点从用户接收第一语音信号;基于第一语音信号获取与第一语音信号对应的自然语言;以及基于补偿数据确定存储成与第一自然语言相匹配的第二自然语言的含义。
如上所述,本公开的电子装置有助于在不改善ASR引擎的情况下降低自动语音识别的失败率。例如,电子装置可生成用于补偿识别结果缺陷的补偿表格,以呈现与用户的意图相符的语句。通过这种方式,如果后来输入与用户的意图不相符的语句,则电子装置可从表格中检索与不符合用户的意图的语句相对应的符合用户的意图的语句,并在所检索的语句上执行NLU操作。以这种方式,电子装置能够在不改善ASR引擎的情况下增强语音识别功能,以产生与用户的意图相符的结果。
本公开中使用的措辞“模块”可表示包括硬件、软件和固件中的一个或多个组合的单元。“模块”可与诸如“单元”、“逻辑”、“逻辑块”、“部件”或“电路”的措辞互换。“模块”可以是形成为一个整体的部件的最小单元或其一部分,可以是用于执行一个或多个功能的最小单元或其一部分,并且可被机械地或电子地实施。例如,根据本公开的实施方式的“模块”可包括已被公知的或将在未来被开发的、用于执行某些操作的专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑装置中的至少一项。
计算机可读介质的示例包括:磁介质(诸如,硬盘、软盘和磁带);光学介质(诸如,压缩光盘只读存储器(CD-ROM)盘和数字通用光盘(DVD))、磁光介质(诸如,软光盘)以及具体配置为存储并执行程序指令的硬件装置(诸如,ROM、RAM和闪速存储器)。程序指令的示例包括通过汇编语言(诸如,编译器)产生的机器代码指令和由可使用解释器在计算机中运行的高级编程语言产生的代码指令。所描述的硬件装置可配置为用作一个或多个软件模块以执行上述操作和方法,或者所描述的软件模块可配置为用作一个或多个硬件装置以执行上述操作和方法。
根据本公开的实施方式的模块或编程模块可包括一个或多个部件、省略上文描述的部件中的一部分或包括新的部件。根据本公开,由模块、编程模块或其它部件执行的操作可以以连续的、并行的、重复的或启发的方式运行。部分操作可以以任何其它顺序运行、被省略或与附加操作一起运行。
虽然已经在上文详细地描述了本公开的实施方式,但应理解,本文中描述的基本发明构思的对本领域技术人员来说可能显而易见的许多变化和应用也落入如所附权利要求中限定的本公开的实施方式中。

Claims (15)

1.电子装置,包括:
麦克风;
至少一个处理器;以及
存储器,所述存储器存储编程指令,所述编程指令能够由所述至少一个处理器运行以使得所述电子装置执行以下操作:
使用所述麦克风接收第一语音信号,并从所接收的第一语音信号提取第一自然语言文本;
响应于检测到对所述第一自然语言文本的提取包括使得与所述第一语音信号相关的请求不能被处理的误差,存储所提取的第一自然语言文本;
使用所述麦克风接收第二语音信号,并从所接收的第二语音信号提取第二自然语言文本;
响应于检测到所述请求能够使用所提取的第二自然语言文本来处理,检测所述第一自然语言文本与所述第二自然语言文本之间的相似度是否大于相似度阈值,并检测所述第二语音信号是否在接收到所述第一语音信号之后的预定时长内被接收;以及
当所述相似度大于所述相似度阈值并且所述第一语音信号和所述第二语音信号在所述预定时长内被接收时,将所述第一自然语言文本与所述第二自然语言文本进行关联存储。
2.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器运行以使得所述电子装置基于所述第二自然语言文本生成答复所述第二语音信号的响应。
3.根据权利要求1所述的电子装置,其中,所述第一自然语言文本和所述第二自然语言文本包括词语或语句。
4.根据权利要求1所述的电子装置,其中,基于以下项中的至少一项来检测所述相似度是否大于所述相似度阈值:
在所述第一自然语言文本与所述第二自然语言文本之间运行字符串比较;以及
使用生成的、对所述第一自然语言文本和所述第二自然语言文本的发音的预估来运行发音比较。
5.根据权利要求1所述的电子装置,其中,检测到在所述预定时长内接收到所述第一语音信号和所述第二语音信号表明所述第一语音信号和所述第二语音信号在时间上大致被连续接收。
6.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器运行以使得所述电子装置执行以下操作:
在接收到所述第一语音信号和所述第二语音信号之后,通过使用所述麦克风接收重复所述第一语音信号的第三语音信号,
提取与所述第三语音信号对应的第三自然语言文本,并检测所述第三自然语言文本匹配与所述第二自然语言文本关联存储的所述第一自然语言文本,以及
基于所述匹配检索所述第二自然语言文本。
7.根据权利要求6所述的电子装置,其中,所述指令还能够由所述至少一个处理器运行以使得所述电子装置基于所述第二自然语言文本生成对所述第三语音信号的响应。
8.根据权利要求1所述的电子装置,其中,所述指令还能够由所述至少一个处理器运行以使得所述电子装置从所述存储器和外部服务器中的至少一项获取所述第一自然语言文本和所述第二自然语言文本中的至少一项。
9.根据权利要求2所述的电子装置,其中,所述指令还能够由所述至少一个处理器运行以使得所述电子装置从所述存储器或从外部服务器检索所述响应。
10.电子装置的方法,所述方法包括:
使用麦克风接收第一语音信号,并从所接收的第一语音信号提取第一自然语言文本;
响应于至少一个处理器检测到对所述第一自然语言文本的提取包括使得与所述第一语音信号相关的请求不能被处理的误差,存储所提取的第一自然语言文本;
使用所述麦克风接收第二语音信号,并从所接收的第二语音信号提取第二自然语言文本;
响应于检测到所述请求能够使用所提取的第二自然语言文本来处理,检测所述第一自然语言文本与所述第二自然语言文本之间的相似度是否大于相似度阈值,并检测所述第二语音信号是否在接收到所述第一语音信号之后的预定时长内被接收;以及
当所述相似度大于所述相似度阈值并且所述第一语音信号和所述第二语音信号在所述预定时长内被接收时,将所述第一自然语言文本与所述第二自然语言文本进行关联存储。
11.根据权利要求10所述的方法,还包括基于所述第二自然语言文本生成答复所述第二语音信号的响应。
12.根据权利要求10所述的方法,其中,基于以下项中的至少一项来检测所述相似度是否大于所述相似度阈值:
在所述第一自然语言文本与所述第二自然语言文本之间运行字符串比较;以及
使用生成的、对所述第一自然语言文本和所述第二自然语言文本的发音的预估来运行发音比较。
13.根据权利要求10所述的方法,还包括:
在接收到所述第一语音信号和所述第二语音信号之后,通过所述麦克风接收重复所述第一语音信号的第三语音信号;
提取与所述第三语音信号对应的所述第三自然语言文本,并检测所述第三自然语言文本匹配与所述第二自然语言文本关联存储的所述第一自然语言文本,以及
基于所述匹配检索所述第二自然语言文本。
14.一种存储编程指令的非暂时性计算机可读介质,所述编程指令能够由至少一个处理器运行以使得电子装置执行以下操作:
在第一时间点使用麦克风接收第一语音信号,并从所接收的第一语音信号提取第一自然语言文本;
响应于检测到对所述第一自然语言文本的提取包括使得与所述第一语音信号相关的请求不能被处理的误差,存储所提取的第一自然语言文本;
使用所述麦克风接收第二语音信号,并从所接收的第二语音信号提取第二自然语言文本;
响应于检测到所述请求能够使用所提取的第二自然语言文本来处理,检测所述第一自然语言文本与所述第二自然语言文本之间的相似度是否大于相似度阈值,并检测所述第二语音信号是否在接收到所述第一语音信号之后的预定时长内被接收;以及
当所述相似度大于所述相似度阈值并且所述第一语音信号和所述第二语音信号在所述预定时长内被接收时,将所述第一自然语言文本与所述第二自然语言文本进行关联存储。
15.根据权利要求14所述的计算机可读存储介质,其中,
所述编程指令还能够由所述至少一个处理器运行以使得所述电子装置执行以下操作:
在接收到所述第一语音信号和所述第二语音信号之后,通过所述麦克风接收重复所述第一语音信号的第三语音信号;
提取与所述第三语音信号对应的第三自然语言文本,并检测所述第三自然语言文本匹配与所述第二自然语言文本关联存储的所述第一自然语言文本,以及
基于所述匹配检索所述第二自然语言文本。
CN201810930627.5A 2017-08-16 2018-08-15 语音识别方法及装置 Active CN109427331B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0103571 2017-08-16
KR1020170103571A KR102356889B1 (ko) 2017-08-16 2017-08-16 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치

Publications (2)

Publication Number Publication Date
CN109427331A true CN109427331A (zh) 2019-03-05
CN109427331B CN109427331B (zh) 2024-02-27

Family

ID=63311801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810930627.5A Active CN109427331B (zh) 2017-08-16 2018-08-15 语音识别方法及装置

Country Status (4)

Country Link
US (1) US10573317B2 (zh)
EP (1) EP3444811B1 (zh)
KR (1) KR102356889B1 (zh)
CN (1) CN109427331B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556127A (zh) * 2019-09-24 2019-12-10 北京声智科技有限公司 语音识别结果的检测方法、装置、设备及介质
CN111600725A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 基于语音识别的群聊建立方法、系统及移动终端

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102356889B1 (ko) * 2017-08-16 2022-01-28 삼성전자 주식회사 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치
KR102449181B1 (ko) * 2017-11-24 2022-09-29 삼성전자 주식회사 전자장치 및 그 제어방법
CN110838284B (zh) * 2019-11-19 2022-06-14 大众问问(北京)信息科技有限公司 一种语音识别结果的处理方法、装置和计算机设备
KR20220133414A (ko) 2021-03-25 2022-10-05 삼성전자주식회사 음성 어시스턴트 서비스 제공 방법 및 이를 지원하는 전자 장치
US20230103102A1 (en) * 2021-09-28 2023-03-30 International Business Machines Corporation Closed caption content generation

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060067096A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
US20070198269A1 (en) * 2005-02-04 2007-08-23 Keith Braho Methods and systems for assessing and improving the performance of a speech recognition system
US20090313016A1 (en) * 2008-06-13 2009-12-17 Robert Bosch Gmbh System and Method for Detecting Repeated Patterns in Dialog Systems
CN102693725A (zh) * 2011-03-25 2012-09-26 通用汽车有限责任公司 依赖于文本信息语境的语音识别
US20130090921A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Pronunciation learning from user correction
US20140365216A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US20150162003A1 (en) * 2013-12-10 2015-06-11 Alibaba Group Holding Limited Method and system for speech recognition processing
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
KR20150116389A (ko) * 2014-04-07 2015-10-15 삼성전자주식회사 전자 장치와 서버를 활용한 음성 인식
CN105632491A (zh) * 2014-11-26 2016-06-01 三星电子株式会社 用于语音识别的方法和电子装置
WO2016195739A1 (en) * 2015-06-04 2016-12-08 Apple Inc. Language identification using n-grams
CN106463113A (zh) * 2014-03-04 2017-02-22 亚马逊技术公司 在语音辨识中预测发音
CN106611595A (zh) * 2015-10-16 2017-05-03 三星电子株式会社 用于将文本转换为语音的电子装置和方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US6195635B1 (en) * 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US7386454B2 (en) 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
JP2005331882A (ja) 2004-05-21 2005-12-02 Pioneer Electronic Corp 音声認識装置、音声認識方法、および音声認識プログラム
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
KR101556594B1 (ko) 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9837075B2 (en) * 2014-02-10 2017-12-05 Mitsubishi Electric Research Laboratories, Inc. Statistical voice dialog system and method
KR102051966B1 (ko) 2014-03-27 2019-12-04 한국전자통신연구원 음성 인식 향상 장치 및 방법
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
KR102356889B1 (ko) * 2017-08-16 2022-01-28 삼성전자 주식회사 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060067096A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
US20070198269A1 (en) * 2005-02-04 2007-08-23 Keith Braho Methods and systems for assessing and improving the performance of a speech recognition system
US20090313016A1 (en) * 2008-06-13 2009-12-17 Robert Bosch Gmbh System and Method for Detecting Repeated Patterns in Dialog Systems
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
CN102693725A (zh) * 2011-03-25 2012-09-26 通用汽车有限责任公司 依赖于文本信息语境的语音识别
US20130090921A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Pronunciation learning from user correction
US20140365216A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US20150162003A1 (en) * 2013-12-10 2015-06-11 Alibaba Group Holding Limited Method and system for speech recognition processing
CN106463113A (zh) * 2014-03-04 2017-02-22 亚马逊技术公司 在语音辨识中预测发音
KR20150116389A (ko) * 2014-04-07 2015-10-15 삼성전자주식회사 전자 장치와 서버를 활용한 음성 인식
CN105632491A (zh) * 2014-11-26 2016-06-01 三星电子株式会社 用于语音识别的方法和电子装置
WO2016195739A1 (en) * 2015-06-04 2016-12-08 Apple Inc. Language identification using n-grams
CN106611595A (zh) * 2015-10-16 2017-05-03 三星电子株式会社 用于将文本转换为语音的电子装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李红莲, 何伟, 袁保宗: "一种文本相似度及其在语音识别中的应用", 中文信息学报, vol. 17, no. 01, pages 60 - 64 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556127A (zh) * 2019-09-24 2019-12-10 北京声智科技有限公司 语音识别结果的检测方法、装置、设备及介质
CN111600725A (zh) * 2020-04-03 2020-08-28 厦门快商通科技股份有限公司 基于语音识别的群聊建立方法、系统及移动终端

Also Published As

Publication number Publication date
US10573317B2 (en) 2020-02-25
EP3444811A1 (en) 2019-02-20
EP3444811B1 (en) 2023-01-04
KR20190018886A (ko) 2019-02-26
US20190057701A1 (en) 2019-02-21
CN109427331B (zh) 2024-02-27
KR102356889B1 (ko) 2022-01-28

Similar Documents

Publication Publication Date Title
US11146670B2 (en) Electronic device and method of executing function of electronic device
KR102405793B1 (ko) 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US10217349B2 (en) Electronic device and method for controlling the electronic device
CN109427331A (zh) 语音识别方法及装置
CN107077464B (zh) 电子设备和用于其口头交互的方法
CN108351890B (zh) 电子装置及其操作方法
CN108023934B (zh) 电子装置及其控制方法
US10217477B2 (en) Electronic device and speech recognition method thereof
EP3540727A1 (en) Electronic device for outputting message and method for controlling the same
EP3603040B1 (en) Electronic device and method of executing function of electronic device
US9967744B2 (en) Method for providing personal assistant service and electronic device thereof
EP2816554A2 (en) Method of executing voice recognition of electronic device and electronic device using the same
CN107924288A (zh) 电子设备及其使用语音识别来执行功能的方法
KR102561572B1 (ko) 센서 활용 방법 및 이를 구현한 전자 장치
CN108806669A (zh) 用于提供语音识别服务的电子装置及其方法
US11537360B2 (en) System for processing user utterance and control method of same
CN108376546A (zh) 语音输入方法以及用于支持该方法的电子设备和系统
EP3588258A1 (en) Electronic device and screen control method for processing user input by using same
CN108701127A (zh) 电子设备及其操作方法
CN108288471A (zh) 用于识别语音的电子设备
CN108512994A (zh) 用于检测对象的接近的方法以及使用该方法的电子设备
KR20180101926A (ko) 전자 장치 및 전자 장치의 어플리케이션 제어 방법
CN108475181A (zh) 电子设备和用于操作电子设备的方法
CN106453818A (zh) 声音数据的自适应处理
KR20170060567A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant