CN109564758A - 电子设备及其语音识别方法 - Google Patents

电子设备及其语音识别方法 Download PDF

Info

Publication number
CN109564758A
CN109564758A CN201780046774.XA CN201780046774A CN109564758A CN 109564758 A CN109564758 A CN 109564758A CN 201780046774 A CN201780046774 A CN 201780046774A CN 109564758 A CN109564758 A CN 109564758A
Authority
CN
China
Prior art keywords
speech recognition
voice
speech
user
recognition module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780046774.XA
Other languages
English (en)
Other versions
CN109564758B (zh
Inventor
裴在铉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109564758A publication Critical patent/CN109564758A/zh
Application granted granted Critical
Publication of CN109564758B publication Critical patent/CN109564758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

公开了一种电子设备。该电子设备包括:用于接收用户语音的语音接收单元;存储单元,其用于存储用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块;以及处理器,其用于当通过第二语音识别模块的语音识别结果显示用户语音包括预定语音时,通过第一语音识别模块仅执行对用户语音的一部分的语音识别。

Description

电子设备及其语音识别方法
技术领域
本公开总体涉及电子设备及其语音识别方法,以及例如涉及识别用户语音的电子设备及其语音识别方法。
背景技术
近期的技术进步已使用户能够以各种方式控制电子设备,并且语音识别是一种方式。
在相关技术的语音识别中,用户准备语音识别系统且然后发出语音,以及语音识别系统接收由用户发出的语音,并相应地执行操作。
在这种情形下,当用户发出非故意的语音时,语音识别系统仍然执行对用户语音的语音识别,从而提供不正确的语音识别结果。在这种情况下,用户有必要再次发出正确内容的语音,这引起不便。
因此,需要探索即使在用户发出非故意的语音时,也提供用于提供与用户语音的意图相对应的准确语音识别结果的措施。
详细描述
技术问题
本公开的方面旨在至少解决以上提到的问题和/或缺点,以及至少提供如下所述的优点。因此,本公开的方面旨在提供电子设备及其语音识别方法,该电子设备用于通过单独的语音识别模块来仅识别错误发出的语音,识别相应的语音,以及仅执行对除相应语音之外的剩余语音的语音识别。
问题的解决方案
根据本公开的方面,提供了一种电子设备。电子设备包括语音接收单元、存储单元和处理器,其中,语音接收单元用于接收用户语音;存储单元用于存储用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块;处理器用于当通过第二语音识别模块的语音识别结果显示用户语音包括预定语音时,通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
预定语音可包括意图取消用户在预定语音之前发出的语音时所发出的语音。
处理器可通过第一语音识别模块仅执行对用户语音中的、存在于预定语音之后的语音的语音识别。
预定语音可包括由用户无意识地发出的语音。
处理器可通过第一语音识别模块仅执行对用户语音中的、除了预定语音之外的剩余语音的语音识别。
处理器可基于语音识别的结果来控制电子设备的操作。
如果由第二语音识别模块针对预定语音计算的语音识别得分大于或等于预定阈值,则处理器可通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
当通过第二语音识别模块在用户语音中未识别到预定语音时,处理器可基于通过第一语音识别模块对用户语音的语音识别的结果来控制电子设备的操作。
根据本公开的另一方面,提供了一种电子设备的语音识别方法,其中,该电子设备配置成存储用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块。语音识别方法包括接收用户语音,以及当通过第二语音识别模块的语音识别结果显示用户语音包括预定语音时,通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
预定语音可包括意图取消用户在预定语音之前发出的语音时所发出的语音。
执行可包括通过第一语音识别模块仅执行对用户语音中的、存在于预定语音之后的语音的语音识别。
预定语音可包括由用户无意识地发出的语音。
执行可包括通过第一语音识别模块仅执行对用户语音中的、除了预定语音之外的剩余语音的语音识别。
语音识别方法还可包括基于语音识别的结果来控制电子设备的操作。
执行可包括:如果由第二语音识别模块针对预定语音计算的语音识别得分大于或等于预定阈值,则通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
语音识别方法可包括:当通过第二语音识别模块在用户语音中未识别到预定语音时,基于通过第一语音识别模块对用户语音的语音识别的结果来控制电子设备的操作。
根据本公开的另一方面,提供了一种电子设备。该电子设备包括语音接收单元、存储单元和处理器,其中,语音接收单元用于接收用户语音;存储单元用于存储用于识别用户语音的语音识别模块;以及处理器用于当通过语音识别模块的语音识别结果显示存在预定语音时,仅执行对语音识别结果中的、除预定语音之外的部分的语音识别。
语音识别模块可包括用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块。
在通过第二语音识别模块识别的预定语音与意图取消由用户在预定语音之前发出的语音时所发出的语音相对应的情况下,处理器可通过第一语音识别模块仅执行对用户语音中的、存在于预定语音之后的语音的语音识别。
本发明的效果
根据上述各种示例性实施方式,即使在语音识别期间用户无意中发出了语音,也会消除相应的语音并执行语音识别,因此即使用户不再通过再次发出相应的语音而从头开始执行语音识别,用户也可执行与用户语音的话语意图相对应的操作。另外,通过用于仅识别非用户期望的语音的单独模块来执行相应语音的语音识别,从而增强语音识别性能。
附图说明
图1是示出根据示例性实施方式的电子设备的图示;
图2是示出根据示例性实施方式的电子设备的配置的框图;
图3和图4是示出根据各种示例性实施方式的电子设备的语音识别操作的图示;
图5是示出根据示例性实施方式的执行电子设备的语音识别的过程的流程图;
图6是示出根据示例性实施方式的电子设备的详细配置的框图;以及
图7是示出根据示例性实施方式的电子设备的语音识别方法的流程图。
用于执行本发明的优选实施方式
用于执行本发明的实施方式
下文中,将参照附图更详细地描述本公开的示例性实施方式。
图1是示出根据示例性实施方式的电子设备的图示。
参照图1,电子设备100可接收由用户10发出的语音输入,并且执行对用户语音的语音识别,并根据用户语音中所包括的话语的意图执行操作。
例如,当输入由用户10发出的语音“告诉我首尔的天气”时,电子设备100可执行对相应语音的语音识别,并且搜索与首尔天气有关的信息并在屏幕上显示或将找到的信息输出为音频信号。
执行该功能的电子设备100可与诸如电视或机顶盒的广播内容接收设备整体地实现。然而,这仅是示例,并且电子设备100可实施为诸如智能手机、平板PC等各种类型的设备,或者可实施为单独的语音识别设备。
在用户语音中存在预定语音的情况下,电子设备10可仅对用户语音的一部分执行语音识别。
此处,预定语音可包括由用户意图取消在预定语音之前发出的语音时所发出的语音以及由用户无意识地发出的语音中的至少一个。
例如,假定用户发出“告诉我水原或首尔的天气”。在这种情况下,可理解成发出“或”的表达是意图取消“告诉我水原或首尔的天气”中的语音“水原”。
在这种情况下,电子设备100可仅执行对(在“告诉我水原的天气,或首尔的天气”中的“或”之后发出的)“告诉我首尔的天气”的语音识别,并根据语音识别结果向用户提供有关首尔天气的信息。
作为另一示例,假定用户发出“告诉我嗯,首尔的天气”。在这种情况下,可理解成表达“嗯”是由用户在话语当中犹豫时无意识地发出的语音。
在这种情况下,电子设备100可仅执行对(将“或”从“告诉我嗯,首尔的天气”中排除之后的剩余语音)“告诉我首尔的天气”的语音识别,并根据语音识别结果向用户提供有关首尔天气的信息。
如上所述,根据各种示例性实施方式,即使输入请求取消由用户无意识地发出的先前话语或语音的语音,也可提供与用户的语音话语的意图相对应的语音识别结果,这可增强用户便利。
图2是示出根据示例性实施方式的电子设备的配置的框图。
参照图2,电子设备100可包括语音接收单元110、存储单元120和处理器130。
语音接收单元110可接收用户语音。即,语音接收单元110可实施为麦克风等并且接收由用户发出的语音。
在这种情况下,麦克风可内置在电子设备100中且与电子设备100整体形成,或者可实施为与电子设备100分离。当实施为与电子设备100分离时,麦克风可以以易于被用户抓取或可放置在桌子上等的形式来实现。麦克风可通过配线或无线网络连接至电子设备100,以将输入的用户语音发送至电子设备100。
存储单元120可存储用于语音识别的模块(下文中为“语音识别模块”)。
此处,语音识别模块(通过语音识别模块)可执行对通过语音接收单元110输入的用户语音的语音识别,并相应地输出语音识别结果。
在这种情况下,语音识别结果可包括与用户语音已通过语音识别转换成的文本、语音识别得分和语音所属领域有关的信息。语音识别结果的示例可如下表1中所示。
【表1】
结果文本 置信度得分 领域
1 音量增大 5300 控制命令
2 音量减小 4200 控制命令
3 App 1 3200 应用程序
例如,语音识别模块可通过执行对用户语音的语音识别来鉴别具有与用户语音相匹配的机会的文本,基于文本将与用户语音相匹配的机会来计算每个文本的语音识别得分,并将具有最高语音识别得分的文本确定为与用户语音相对应的文本。然而,这仅是示例,并且语音识别模块可以以多种方式执行对用户语音的语音识别。
在这种情况下,语音识别模块可从多个领域(例如,广播服务、控制命令、应用程序等)之中鉴别用户语音所属的领域。
如上所述,语音识别模块可执行对用户语音的语音识别,并输出与用户语音转换成的文本、语音识别得分和语音所属领域有关的信息。
同时,存储单元120可存储用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块。即,存储在存储单元120中的语音识别模块可包括用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块。
此处,第一语音识别模块可包括建模成识别用户语音的通用语音识别模型。
相比之下,不同于第一语音识别模块,第二语音识别模块可以是建模成仅识别预定语音的语音识别模型。
此处,预定语音可包括由用户意图取消在预定语音之前发出的语音时所发出的语音以及由用户无意识地发出的语音中的至少一个。
为此,第二语音识别模块可处于训练的状态,以仅识别指示话语期间由用户发出的语音的一组词(例如,“或”,“再次再次”等)以取消先前的语音,以及识别指示话语期间由用户无意识地发出的语音的一组词(例如,“嗯”,“呃”,“啊”等)。
存储器120可通过诸如硬盘、非易失存储器和/或易失性存储器的各种存储介质来实现。
处理器130可控制电子设备100的总体操作。为此,处理器130可包括中央处理单元(CPU)、随机存取存储器(RAM)和只读存储器(ROM),并且可执行与控制电子设备100中所包括的其它元件相关联的算术运算或数据处理。
首先,当输入用户语音时,处理器130可驱动存储在存储器120中的语音识别模块并执行对用户语音的语音识别。
在这种情况下,当通过语音识别模块在语音识别时存在预定语音时,处理器130可控制仅对除预定语音之外的语音识别结果的一部分执行语音识别。
详细地,当用户语音经由语音接收单元110输入时,处理器130可驱动第二语音识别模块并执行对经由语音接收单元110输入的用户语音的语音识别。
另外,在通过第二语音识别模块的语音识别时在用户语音中存在预定语音的情况下,处理器130可通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
为此,处理器130可基于第二语音识别模块的语音识别结果来鉴别用户语音中是否包括预定语音。
此处,预定语音可包括由用户意图取消在预定语音之前发出的语音时所发出的语音以及由用户无意识地发出的语音中的至少一个。
详细地,由用户意图取消先前发出的语音时所发出的语音是当用户错误地发出错误的话语并期望取消这话语时发出的语音,可包括例如“或”、“再次再次”等。
另外,由用户无意识地发出的语音是用户在话语期间在考虑接下来要说什么时无意识地发出的语音,可包括例如“嗯”、“呃”、“啊”等。
在这种情况下,如上所述,第二语音识别模块处于被建模的状态以仅识别语音从而取消先前的语音和不重要的语音,并且因而处理器130可基于第二语音识别模块的语音识别结果鉴别用户语音中是否存在相应语音。
另外,在通过第二语音识别模块的语音识别时在用户语音中存在预定语音的情况下,处理器130可通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
首先,处理器130可通过第一语音识别模块仅执行对用户语音中的、存在于预定语音之后的语音的语音识别。
即,在通过第二语音识别模块识别的预定语音与意图取消由用户在预定语音之前发出的语音时所发出的语音相对应的情况下,处理器130可通过第一语音识别模块仅执行对用户语音中的、存在于预定语音之后的语音的语音识别。详细地,在存在用以取消先前发出的语音的语音的情况下,当针对存在于相应语音之前的语音执行语音识别时,可能提供不对应于用户的话语意图的语音识别结果。因此,在用户语音中存在用于取消先前发出的语音的语音的情况下,处理器130可仅执行对存在于用于取消先前发出的语音的语音之后的语音的语音识别。
在这种情况下,处理器130可鉴别用于取消先前发出的语音的语音存在于用户语音中的间隔(例如,相应语音存在于整个用户语音中的时间间隔),以及从用户语音中消除到相应间隔的语音,并且然后通过第一语音识别模块执行对用户语音的语音识别。
另外,处理器130可通过第一语音识别模块仅执行对除用户语音中的预定语音之外的剩余语音的语音识别。
即,在存在由用户无意识地发出的语音的情况下,存在相应的语音被识别为与用户在之前和之后发出的语音相关联的语音的可能性,从而提供与用户的话语意图不对应的语音识别结果。因此,在存在由用户无意识地发出的语音的情况下,处理器130可仅执行对除由用户无意识地发出的语音之外的剩余语音的语音识别。
在这种情况下,处理器130可鉴别由用户无意识地发出的语音存在于用户语音中的间隔,以及从用户语音中消除该相应间隔的语音,并且然后通过第一语音识别模块执行对用户语音的语音识别。
同时,处理器130可基于语音识别结果控制电子设备100的操作。
即,在通过第二语音识别模块识别出用于取消用户语音中的先前发出的语音的语音以及由用户无意识地发出的语音的情况下,处理器130可通过第一语音识别模块仅对存在于相应语音之后的语音以及除相应语音之外的剩余语音的语音识别,并基于第一语音识别模块的语音识别结果来控制电子设备100的操作。
如在上述示例中,当通过第一语音识别模块执行对“告诉我首尔的天气”的语音识别时,“告诉我首尔的天气”可被转换为文本并作为语音识别结果输出。
在这种情况下,处理器130可通过相应文本鉴别用户的话语意图,发送用于搜索首尔天气的关键字(例如,首尔、天气等),以及接收作为其搜索结果的与首尔天气有关的信息,并将该信息显示或通过音频信号输出。
然而,这仅是示例,并且处理器130可基于第一语音识别模块的语音识别结果来控制电子设备100执行各种操作(例如,频道调整、音量控制、应用程序执行等)。
然而,如上所述,从语音识别模块输出的语音识别结果可包括语音识别得分。
在这种情况下,通过将因语音识别而生成的文本与实际发出的语音匹配多少的准确性数字化来生成语音识别得分,并且因而,当语音识别得分较低时,可理解为语音识别结果不准确。
因此,即使由第二语音识别模块计算的语音识别得分较低时,当仅对用户语音的一部分执行语音识别时,存在将执行与用户的话语意图不相关的另一操作的可能性。
因此,在由第二语音识别模块针对预定语音计算的语音识别得分大于或等于预定阈值的情况下,处理器130可通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
在这种情况下,预定阈值可在制造电子设备100的时候预设为默认值,然后由用户进行更改。
同时,在通过第二语音识别模块在用户语音中未识别到预定语音的情况下,处理器130可基于通过第一语音识别模块的语音识别结果来控制电子设备100的操作。
即,作为通过第二语音识别模块的语音识别的结果,在用户语音中不存在用户发出的用以取消先前发出的语音的语音以及由用户无意识地发出的语音的情况下,可理解成用户语音中仅存在由用户发出的、意图作为语音识别主体的语音。
因此,在通过第二语音识别模块进行语音识别时,在用户语音中不存在用于取消先前的语音的语音以及不具有意义的语音的情况下,处理器130可通过第一语音识别模块执行对整个用户语音的语音识别,并且基于第一语音识别模块的语音识别结果来控制电子设备100的操作。
例如,假定通过语音接收单元110输入由用户发出的“告诉我首尔的天气”。
处理器130可驱动第二语音识别模块并执行对“告诉我首尔的天气”的语音识别。
在这种情况下,在“告诉我首尔的天气”中,不存在用于取消先前的语音的语音以及无意义的语音,因而第二语音识别模块会不识别“告诉我首尔的天气”。
因此,处理器130可基于第二语音识别模块的语音识别结果来鉴别“告诉我首尔的天气”中不存在用于取消先前的语音的语音以及无意义的语音。
在这种情况下,处理器130可通过第一语音识别模块执行对“告诉我首尔的天气”的语音识别。
因此,当通过第一语音识别模块执行对“告诉我首尔的天气”的语音识别时,“告诉我首尔的天气”可转变成文本并作为语音识别结果输出。
在这种情况下,处理器130可通过相应文本鉴别用户的话语意图,发送用于搜索首尔天气的关键字(例如,首尔、天气等),以及接收作为其搜索结果的与首尔天气有关的信息,并将该信息显示或通过音频信号输出。
同时,在上述示例中,当用户语音通过语音接收单元110输入时,处理器130可一起驱动第一语音识别模块和第二语音识别模块,并执行对用户语音的语音识别。
在这种情况下,当基于第二语音识别模块的识别结果确定用户语音中存在用于取消先前的语音和无意义的语音的语音时,处理器130可暂停由第一语音识别模块执行的语音识别,并且消除第一语音识别模块中的识别结果直到暂停的时间点。
另外,处理器130可通过第一语音识别模块仅再次执行对用户语音中的、在用于取消先前的语音的语音之后的语音的语音识别,或者可通过第一语音识别模块仅再次执行对用户语音中的除了无意义的语音之外的剩余语音的语音识别。
此后,处理器130可基于第一语音识别模块的语音识别结果来控制电子设备100的操作。
根据上述各种示例性实施方式,即使在语音识别期间输入了由用户无意中发出的语音,电子设备100也会消除相应的语音并执行语音识别,因此即使不再从头开始执行语音识别,针对语音话语也能够执行与用户意图相对应的操作。
具体地,电子设备100包括用于仅识别用户非故意的语音的附加模块,因此可增强针对相应语音的识别性能。
另外,电子设备100可并行地执行对用户语音的语音识别以及对用户非故意的语音的语音识别,因而能够从用户语音中消除用户非故意的语音而没有延迟,并且执行对应于用户的话语意图的操作。
图3和图4是示出根据各种示例性实施方式的电子设备的语音识别操作的图示。
例如,如图3A中所示,假定通过语音接收单元110输入由用户10发出的“告诉我水原或首尔的天气”。
处理器130可驱动第二语音识别模块并执行对“告诉我水原或首尔的天气”的语音识别。
此处,第二语音识别模块建模成识别用于取消先前发出的语音的语音,因而可识别“告诉我水原或首尔的天气”中的、用于取消先前发出的语音的语音“或”。在这种情况下,处理器130可基于第二语音识别模块的语音识别结果来鉴别用户语音中存在用于取消先前发出的语音的语音“或”。另外,处理器130可鉴别“告诉我水原或首尔的天气”中“或”存在的间隔。
在这种情况下,处理器130可消除语音直到“或”存在的间隔,即直到“告诉我水原或首尔的天气”中的“水原或”,并且通过第一语音识别模块仅执行对用户语音中的存在于“或”之后的“告诉我首尔的天气”的语音识别。
因此,处理器130可基于第一语音识别模块的语音识别结果来搜索首尔的天气,并将与首尔天气有关的信息显示在屏幕上。
作为另一示例,如图4A中所示,假定通过语音接收单元110输入由用户10发出的“告诉我嗯,首尔的天气”。
处理器130可驱动第二语音识别模块并执行对“告诉我嗯,首尔的天气”的语音识别。
此处,第二语音识别模块建模成识别由用户无意识地发出的语音,并且因而可识别“告诉我嗯,首尔的天气”中的、由用户无意识地发出的语音“嗯”。在这种情况下,处理器130可基于第二语音识别模块的语音识别结果来鉴别用户语音中存在由用户无意识地发出的语音“嗯”。另外,处理器130可鉴别“告诉我嗯,首尔的天气”中“嗯”存在的间隔。
在这种情况下,处理器130可消除“嗯”存在的间隔中的语音,即“告诉我嗯,首尔的天气”中的“嗯”,并且通过第一语音识别模块仅执行对其中除去了“嗯”的“告诉我首尔的天气”的语音识别。
因此,处理器130可基于第一语音识别模块的语音识别结果来搜索首尔的天气,并将与首尔天气有关的信息显示在屏幕上。
图5是示出根据示例性实施方式的执行电子设备的语音识别的过程的流程图。
首先,可在操作S510处输入用户语音。
然后,在操作S520和操作S530处,可通过第一语音识别模块和第二语音识别模块执行对用户语音的语音识别。
在这种情况下,在操作S540处,在第二语音识别模块的语音识别时在用户语音中识别出取消的语音的情况下,在操作S550处,可从用户语音中消除取消的语音和存在于取消的语音之前的语音。
然后,在操作S550处,在第二语音识别模块的语音识别时在用户语音中识别出无意义的语音的情况下,在操作S560处,可从用户语音中消除该无意义的语音。
然后,在操作S510处,可暂停已通过第一语音识别模块执行的对整个用户语音的语音识别,可基于取消的语音和无意义的语音中的至少一个来执行对已消除了一部分语音的用户语音的语音识别。在操作S580处,可基于通过第一语音识别模块的语音识别结果来执行相应操作。
然而,在通过第二语音识别模块在用户语音中未识别到取消的语音和无意义的语音的情况下,可基于通过第一语音识别模块对用户语音的语音识别结果来执行相应操作。图6是示出根据示例性实施方式的电子设备的详细配置的框图。
参照图6A,除了图2中所示的元件之外,电子设备100还可包括接收单元140、信号处理单元150、图像信号生成单元160、输出单元170、输入单元180、接口单元190和远程信号接收单元195。这些元件的操作可由处理器130控制。
存储单元120可存储用于控制电子设备100的元件的总体操作的操作系统(OS)和与电子设备100的元件相关的命令或数据。
因此,处理器130可驱动操作系统以控制连接至处理器130的大量硬件或软件元件,将从其它元件中的至少一个接收到的命令或数据加载到易失性存储器上并处理,并且将各种数据存储在非易失性存储器中。
同时,如图6B中所示,存储单元120可存储用于执行语音识别的第一语音识别模块121和第二语音识别模块122。
此处,第一语音识别模块121可包括建模成识别用户语音的通用语音识别模型。不同于第一语音识别模块,第二语音识别模块122可包括建模成仅识别预定语音的语音识别模型。
语音识别模块中的至少一部分可实施为软件、程序等,并且可由处理器130实施(例如,执行)。
接收单元140可包括各种电路以接收广播内容(或广播信号)。广播内容可包括图像、音频和附加数据(例如,EPG)。接收单元140可从诸如地面广播、线缆广播、卫星广播、因特网广播等的源接收广播内容。
例如,接收单元140可包括各种接收器电路以接收从广播电台接收到的广播内容,其中,接收器电路诸如、例如但不限于调谐器(未示出)、解调器(未示出)、均衡器(未示出)等。
信号处理单元150可执行对经由接收单元140接收的内容的信号处理。更具体地,信号处理单元150可通过执行诸如解码、缩放或帧频率转换的操作来将内容中所包括的图像的信号处理执行成可在输出单元170的显示器(未示出)处输出的形式。另外,信号处理单元150可对内容中所包括的音频执行诸如解码的信号处理,并且将对音频的信号处理执行成可在输出单元170的音频输出单元(未示出)中输出的格式。
图像信号生成单元160可生成用于用户的图形用户接口(GUI)。另外,图像信号生成单元160可将生成的GUI添加至由信号处理单元150处理的图像。
输出单元170可包括显示器(未示出)和音频输出单元(未示出),其中,显示器用于显示从信号处理单元150输出的图像和由图像信号生成单元160生成的GUI,以及音频输出单元用于输出从信号处理单元150输出的音频。
在这种情况下,显示器(未示出)可实施为液晶显示(LCD)显示器、有机发光二极管(OLED)显示器等,以及音频输出单元(未示出)可实施为扬声器(未示出)、外部输出终端(未示出)等。
输入单元180可包括接收各种用户命令的各种输入电路。处理器130可执行与通过输入单元180输入的用户命令相对应的功能。
例如,输入单元180可接收用户命令以执行切换频道、控制音量等的操作,以及处理器130可根据输入的用户命令切换频道或调整音量。
具体地,输入单元180可接收用户语音,以及执行对用户语音的语音识别,并且接收用户命令的输入,以启动相应操作的语音识别模式。在这种情况下,当启动语音识别模式时,处理器130可经由语音接收单元110接收在预定距离内发出的用户语音,并且通过第一语音识别模块和第二语音识别模块对用户语音执行语音识别操作。
为了实现这些,输入单元180可包括各种输入电路,诸如,例如但不限于输入面板。输入面板可通过使用触摸板,设置有各种功能键、数量键、特殊键、字符键等的键盘,或触摸屏来实现。
接口单元190可包括连接各种其它电子设备(未示出)和电子设备100的各种电路。在这种情况下,处理器130可通过接口单元190将电子设备100中预存的数据发送至另一电子设备(未示出),或从电子设备(未示出)接收数据。
例如,接口单元190可包括各种接口电路,诸如,例如但不限于高清晰度多媒体接口(HDMI)输入终端、部件输入终端、PC输入终端和USB输入终端等中的至少一个。
远程控制信号接收单元195可包括接收从远程控制器(未示出)输入的远程控制信号的各种电路。
在这种情况下,远程控制信号接收单元195可接收各种远程控制信号。例如,远程控制信号接收器195可接收远程控制信号以执行切换频道、控制音量等的操作,以及处理器130可根据所接收的远程控制信号来切换电子设备100中的频道或控制音量。
具体地,远程控制信号接收单元195可接收用于启动语音识别模式的远程控制信号。在这种情况下,当启动语音识别模式时,处理器130可经由语音接收单元110接收在预定距离内发出的用户语音,并通过第一语音识别模块和第二语音识别模块对用户语音执行语音识别操作。
图7是示出根据示例性实施方式的电子设备的语音识别方法的流程图。
同时,根据示例性实施方式的电子设备可存储用于识别用户语音的第一语音识别模块和用于仅识别用户语音中的预定语音的第二语音识别模块。
首先,可在操作S710处输入用户语音。
然后,在操作S720处,在通过第二语音识别模块进行语音识别时,在用户语音中存在预定语音的情况下,可通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
此处,预定语音可包括由用户意图取消在预定语音之前发出的语音时所发出的语音,以及由用户无意识地发出的语音。
在操作S720处,可通过第一语音识别模块仅执行对用户语音中的、存在于预定语音之后的语音的语音识别。
另外,预定语音可包括由用户无意识地发出的语音。
在操作S720处,可通过第一语音识别模块仅执行对用户语音中的除了预定语音之外的剩余语音的语音识别。
同时,可基于语音识别结果来控制电子设备的操作。
另外,在操作S720处,在由第二语音识别模块针对预定语音计算的语音识别得分大于或等于预定阈值的情况下,可通过第一语音识别模块仅执行对用户语音的一部分的语音识别。
另外,在通过第二语音识别模块在用户语音中未识别到预定语音的情况下,可基于通过第一语音识别模块对用户语音的语音识别结果来控制电子设备的操作。
同时,上文已描述了第一语音识别模块和第二语音识别模块以及用于通过第一语音识别模块和第二语音识别模块执行语音识别的方法
一种非暂时性计算机可读介质,该介质中可提供用于顺序地执行电子设备的语音识别方法的程序。
非暂时性计算机可读介质是指半永久地存储数据而不是极短时存储数据的介质,诸如寄存器、高速缓存、存储器等,并且该介质可由设备读取。详细地,可提供上述各种应用或程序,且上述各种应用或程序可存储在非暂时性计算机可读介质中,例如光盘(CD)、数字通用光盘(DVD)、硬盘、蓝光光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等。另外,尽管电子设备的框图省略了总线,但是可经由总线来执行显示设备的相应部件与服务器之间的通信。另外,每个设备均可另外包括诸如CPU、微处理器的处理器、硬件模块或电路中的至少一个,以执行上述各种步骤。此外,这些部件、元件或单元中的至少一个还可包括处理器,诸如微处理器、执行相应功能的中央处理单元(CPU)等。
前述实施方式和有益效果仅作为示例,且不应理解为限制本公开。可将本教导容易地应用于其他类型的设备。此外,示例性实施方式的描述旨在进行说明,而不是限制权利要求的范围,并且许多替代方案、修改和变型将对本领域的普通技术人员显而易见。

Claims (15)

1.一种电子设备,包括:
语音接收单元,用于接收用户语音;
存储器,配置成存储用于识别用户语音的第一语音识别模块和用于仅识别所述用户语音中的预定语音的第二语音识别模块;以及
处理器,配置成基于通过所述第二语音识别模块的语音识别结果显示所述用户语音包括所述预定语音时,通过所述第一语音识别模块仅执行对所述用户语音的一部分的语音识别。
2.如权利要求1所述的电子设备,其中,所述预定语音包括意图取消用户在所述预定语音之前发出的语音时所发出的语音。
3.如权利要求2所述的电子设备,其中,所述处理器配置成通过所述第一语音识别模块仅执行对所述用户语音中的、存在于所述预定语音之后的语音的语音识别。
4.如权利要求2所述的电子设备,其中,所述预定语音包括由用户无意识地发出的语音。
5.如权利要求4所述的电子设备,其中,所述处理器配置成通过所述第一语音识别模块仅执行对所述用户语音中的、除了所述预定语音之外的剩余语音的语音识别。
6.如权利要求1所述的电子设备,其中,所述处理器配置成基于语音识别的结果来控制所述电子设备的操作。
7.如权利要求1所述的电子设备,其中,所述处理器配置成:如果由所述第二语音识别模块针对所述预定语音计算的语音识别得分大于或等于预定阈值,则通过所述第一语音识别模块仅执行对所述用户语音的一部分的语音识别。
8.如权利要求1所述的电子设备,其中,所述处理器配置成:当通过所述第二语音识别模块在所述用户语音中未识别到所述预定语音时,基于通过所述第一语音识别模块对所述用户语音的语音识别的结果来控制所述电子设备的操作。
9.一种电子设备的语音识别方法,所述电子设备配置成存储用于识别用户语音的第一语音识别模块和用于仅识别所述用户语音中的预定语音的第二语音识别模块,所述语音识别方法包括:
接收用户语音;
基于通过所述第二语音识别模块的语音识别的结果显示所述用户语音包括所述预定语音时,通过所述第一语音识别模块仅执行对所述用户语音的一部分的语音识别。
10.如权利要求9所述的语音识别方法,其中,所述预定语音包括意图取消用户在所述预定语音之前发出的语音时所发出的语音。
11.如权利要求10所述的语音识别方法,其中,所述执行包括通过所述第一语音识别模块仅执行对所述用户语音中的、存在于所述预定语音之后的语音的语音识别。
12.如权利要求9所述的语音识别方法,其中,所述预定语音包括由用户无意识地发出的语音。
13.如权利要求12所述的语音识别方法,其中,所述执行包括通过所述第一语音识别模块仅执行对所述用户语音中的、除了所述预定语音之外的剩余语音的语音识别。
14.如权利要求9所述的语音识别方法,还包括:
基于语音识别的结果来控制所述电子设备的操作。
15.一种电子设备,包括:
语音接收单元,配置成接收用户语音;
存储器,配置成存储用于识别用户语音的语音识别模块;以及
处理器,配置成基于通过所述语音识别模块的语音识别的结果显示存在预定语音时,仅执行对语音识别的结果中的、除所述预定语音之外的部分的语音识别。
CN201780046774.XA 2016-07-27 2017-07-18 电子设备及其语音识别方法 Active CN109564758B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2016-0095301 2016-07-27
KR1020160095301A KR20180012464A (ko) 2016-07-27 2016-07-27 전자 장치 및 그의 음성 인식 방법
PCT/KR2017/007738 WO2018021750A1 (ko) 2016-07-27 2017-07-18 전자 장치 및 그의 음성 인식 방법

Publications (2)

Publication Number Publication Date
CN109564758A true CN109564758A (zh) 2019-04-02
CN109564758B CN109564758B (zh) 2024-04-19

Family

ID=61016219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780046774.XA Active CN109564758B (zh) 2016-07-27 2017-07-18 电子设备及其语音识别方法

Country Status (5)

Country Link
US (1) US20210280178A1 (zh)
EP (2) EP3799041A1 (zh)
KR (1) KR20180012464A (zh)
CN (1) CN109564758B (zh)
WO (1) WO2018021750A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102279319B1 (ko) * 2019-04-25 2021-07-19 에스케이텔레콤 주식회사 음성분석장치 및 음성분석장치의 동작 방법
CN111105794B (zh) * 2019-12-13 2023-01-24 珠海格力电器股份有限公司 设备的语音识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577164A (en) * 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US20030115289A1 (en) * 2001-12-14 2003-06-19 Garry Chinn Navigation in a voice recognition system
US20110161077A1 (en) * 2009-12-31 2011-06-30 Bielby Gregory J Method and system for processing multiple speech recognition results from a single utterance
US20150269857A1 (en) * 2014-03-24 2015-09-24 Educational Testing Service Systems and Methods for Automated Scoring of a User's Performance
US20160027440A1 (en) * 2013-03-15 2016-01-28 OOO "Speaktoit" Selective speech recognition for chat and digital personal assistant systems

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175095A (ja) * 1997-12-11 1999-07-02 Hitachi Medical Corp 医用診断装置
JP2001075589A (ja) * 1999-09-02 2001-03-23 Denso Corp 音声認識方法及び音声認識装置
JP2002073079A (ja) * 2000-08-29 2002-03-12 Tokai Rika Co Ltd 車両用音声認識装置
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8504369B1 (en) * 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
EP1936606B1 (en) * 2006-12-21 2011-10-05 Harman Becker Automotive Systems GmbH Multi-stage speech recognition
US8712757B2 (en) * 2007-01-10 2014-04-29 Nuance Communications, Inc. Methods and apparatus for monitoring communication through identification of priority-ranked keywords
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
WO2012116110A1 (en) * 2011-02-22 2012-08-30 Speak With Me, Inc. Hybridized client-server speech recognition
KR101724748B1 (ko) * 2011-12-06 2017-04-19 현대자동차주식회사 차량용 음성인식 장치
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
KR20140075997A (ko) * 2012-12-12 2014-06-20 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
WO2014094858A1 (en) * 2012-12-20 2014-06-26 Widex A/S Hearing aid and a method for improving speech intelligibility of an audio signal
US20140365213A1 (en) * 2013-06-07 2014-12-11 Jurgen Totzke System and Method of Improving Communication in a Speech Communication System
KR102158210B1 (ko) * 2013-09-04 2020-09-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
WO2015163684A1 (ko) * 2014-04-22 2015-10-29 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR102246900B1 (ko) * 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US20170213552A1 (en) * 2016-01-26 2017-07-27 Motorola Mobility Llc Detection of audio public announcements by a mobile device
JPWO2017130486A1 (ja) * 2016-01-28 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10210862B1 (en) * 2016-03-21 2019-02-19 Amazon Technologies, Inc. Lattice decoding and result confirmation using recurrent neural networks
US10600406B1 (en) * 2017-03-20 2020-03-24 Amazon Technologies, Inc. Intent re-ranker

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577164A (en) * 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US20030115289A1 (en) * 2001-12-14 2003-06-19 Garry Chinn Navigation in a voice recognition system
US20110161077A1 (en) * 2009-12-31 2011-06-30 Bielby Gregory J Method and system for processing multiple speech recognition results from a single utterance
US20160027440A1 (en) * 2013-03-15 2016-01-28 OOO "Speaktoit" Selective speech recognition for chat and digital personal assistant systems
US20150269857A1 (en) * 2014-03-24 2015-09-24 Educational Testing Service Systems and Methods for Automated Scoring of a User's Performance

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110459224B (zh) * 2019-07-31 2022-02-25 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2018021750A1 (ko) 2018-02-01
EP3471090A1 (en) 2019-04-17
US20210280178A1 (en) 2021-09-09
KR20180012464A (ko) 2018-02-06
CN109564758B (zh) 2024-04-19
EP3471090A4 (en) 2019-07-24
EP3799041A1 (en) 2021-03-31
EP3471090B1 (en) 2020-11-25

Similar Documents

Publication Publication Date Title
CN203151689U (zh) 图像处理设备以及图像处理系统
EP2752764B1 (en) Display apparatus and method for controlling the display apparatus
US20140195244A1 (en) Display apparatus and method of controlling display apparatus
US10448092B2 (en) Set-top box with enhanced content and system and method for use of same
CN109378006B (zh) 一种跨设备声纹识别方法及系统
CN108391149A (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
US10250935B2 (en) Electronic apparatus controlled by a user's voice and control method thereof
US20130120243A1 (en) Display apparatus and control method thereof
KR102227599B1 (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
CN103716704A (zh) 图像处理设备及其控制方法和图像处理系统
EP3542539B1 (en) Image display apparatus and operation method thereof
CN109564758A (zh) 电子设备及其语音识别方法
CN103533391A (zh) 一种声控式交互的双向互动数字电视盒系统及实现方法
CN103077711A (zh) 电子设备及其控制方法
KR20140009002A (ko) 외부 입력 제어 방법 및 이를 적용한 방송 수신 장치
US20220293106A1 (en) Artificial intelligence server and operation method thereof
CN113468351A (zh) 一种智能设备及图像处理方法
US20190261048A1 (en) Set-Top Box with Enhanced Functionality and System and Method for Use of Same
US11688397B2 (en) Electronic apparatus and method of controlling the same
KR20210029754A (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이장치의 제어방법
US20200243084A1 (en) Electronic device and control method therefor
CN113228166B (zh) 指令控制装置、控制方法及非易失性存储介质
CN114339331A (zh) 一种播放方法、智能终端及计算机可读存储介质
US20230282209A1 (en) Display device and artificial intelligence server
CN114187897A (zh) 一种用户意图的识别方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant