CN108242235A - 电子设备及其语音识别方法 - Google Patents

电子设备及其语音识别方法 Download PDF

Info

Publication number
CN108242235A
CN108242235A CN201711210851.9A CN201711210851A CN108242235A CN 108242235 A CN108242235 A CN 108242235A CN 201711210851 A CN201711210851 A CN 201711210851A CN 108242235 A CN108242235 A CN 108242235A
Authority
CN
China
Prior art keywords
language model
word
voice data
user
electronic equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711210851.9A
Other languages
English (en)
Inventor
李政仁
韩澜
郑皙荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN108242235A publication Critical patent/CN108242235A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephone Function (AREA)

Abstract

提供了一种电子设备及其语音识别方法。该电子设备可以包括:通信接口,用于从外部电子设备接收语音数据;存储器,用于存储默认用于语音识别的通用语言模型、针对每个用户指定的第一语言模型、与每个用户的上下文信息相关联的第二语言模型、以及与由电子设备在从语音数据的接收时间起的预设时间段内所收集的词语相关联的第三语言模型;以及处理器,用于执行如下过程:将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合以构建集成语言模型,基于语音数据和集成语言模型来执行语音识别,并且输出与语音数据相对应的语音识别结果。

Description

电子设备及其语音识别方法
技术领域
本公开涉及一种电子设备及其语音识别方法。
背景技术
诸如智能电话、平板个人计算机、便携式多媒体播放器、个人数字助理、膝上型个人计算机和可穿戴设备之类的各种电子设备已经普及。此外,这样的电子设备可以配备有用于基于用户发出的语音声音来控制电子设备的各种功能的技术。
为了根据用户的语音声音来控制功能,电子设备可以具有用于识别由用户发出的语音的语音识别功能。
语音识别技术能够使用声学模型和语言模型来识别由用户发出的语音。声学模型可以指这样的数据库,所述数据库中映射和存储了通过处理语音数据而获得的特征向量和包括与特征向量相对应的音素的音素候选组。语言模型可以指存储如下这样的信息的数据库,所述信息用于基于与语音数据相对应并从声学模型中提取的音素来对词语或音节之间的语言顺序关系进行建模。可以通过收集常用和频繁使用的词语或句子模式来创建语言模型。
可以在用于语音识别的语言模型中使用附加技术,以提高语音识别精度。例如,可以使用从用户的个性化设备中提取信息并根据所提取的用户信息修改语言模型的技术。使用基于通用语言模型根据用户信息可调整的语言模型的语音识别技术能够有助于提高针对特定用户的语音识别性能。
然而,为了提高语音识别的精度,不仅要反映用户的特性,还要反映关于执行语音识别的时间和情况的信息。
因此,为了提高语音识别的精度,必须组合使用各种语音识别模型,包括反映用户的特性的语音识别模型。
发明内容
为了解决上述缺陷,本公开的主要目的是解决上述问题和/或缺点,并提供至少下述优点。因此,本公开的一方面是提供一种使用各种详细语言模型来构建集成语言模型的装置和方法,以便在执行语音识别的各种情况下提高语音识别的精度。
本公开的另一方面是提供一种装置和方法,所述装置和方法通过在类型和组合方面改变与通用语言模型集成的详细语言模型,在执行语音识别的各种情况下最大化语音识别性能。
本公开的各种实施例涉及使用通过组合各种语音模型而产生的集成语言模型来执行语音识别。
根据本公开的一方面,提供了一种电子设备。该电子设备可以包括:通信接口,用于从外部电子设备接收用户的语音数据和用户信息;存储器,用于存储默认用于语音识别的通用语言模型、针对每个用户指定的第一语言模型、与每个用户的上下文信息相关联的第二语言模型、以及与由电子设备在从语音数据的接收时间起的预设时间段内所收集的词语相关联的第三语言模型;以及处理器,用于执行如下过程:将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合以构建集成语言模型,基于语音数据和集成语言模型来执行语音识别,并且输出与语音数据相对应的语音识别结果。
根据本公开的另一方面,提供了一种电子设备。该电子设备可以包括:麦克风,用于拾取用户的语音信号,并将语音信号转换为语音数据;通信接口,用于向外部电子设备发送语音数据;存储器,用于存储语音数据、用户信息和上下文信息;以及处理器,用于执行以下过程:提取用户通过键盘键入的词语,控制通信接口向外部电子设备发送所提取的词语的列表,控制通信接口从外部电子设备接收语音识别结果,并且输出语音识别结果,其中语音识别结果是基于语音数据和集成语言模型而产生的,集成语言模型是通过将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合而构建的,其中第一语言模型是基于所述词语的列表构建的,第二语言模型是基于用户的上下文信息构建的,第三语言模型是基于由外部电子设备在从语音数据的发送时间起的预设时间段内所收集的词语来构建的,通用语言模型被默认用于语音识别。
根据本公开的另一方面,提供了一种用于电子设备的语音识别的方法。该方法可以包括:从外部电子设备接收用户的语音数据和用户信息;通过将通用语言模型与第一语言模型、第二语言模型和第三语言模型中的至少一个相组合来构建集成语言模型,其中第一语言模型与用户信息中所包含的外部电子设备的标识符相关联,第二语言模型与用户的上下文信息相关联,第三语言模型与由电子设备在从语音数据的接收时间起的预设时间段内所收集的词语相关联;以及基于集成语言模型来输出与语音数据相对应的语音识别结果。
在本公开的特征中,电子设备及其语音识别方法能够使用包括如下语言模型在内的各种语言模型来执行语音识别:与用户特性相关的语言模型、与执行语音识别的时间点相关的语言模型、以及与上下文信息相关的语言模型,从而实现更高的语音识别精度。
在本公开的另一特征中,可以通过对用于语音识别的语言模型应用不同的权重,使得适合于用户情况的语言模型被给予相对较高的权重,来实现更高的语音识别精度。
在进行以下的具体实施方式之前,阐述贯穿本专利文档所使用的某些词语和短语的定义是有利的:术语“包含”和“包括”及其衍生词意味着无限制的含括;术语“或”是包括性的,意味着和/或;短语“与......相关联”和“与其相关联”以及其衍生词可以意味着包括、被包括在......内、与......互连、包含、被包含在......内、连接到或与......连接、耦接到或与......耦接、与......是可通信的、与......协作、交织、并置、接近......、绑定到或与......绑定、具有、具有......的属性等;以及术语“控制器”意味着控制至少一种操作的任何设备、系统或其一部分,这种设备可以以硬件、固件或软件、或者它们中的至少两种的某种组合来实现。应注意,与任何特定控制器相关联的功能可以是集中式或者分布式的,无论本地还是远程。贯穿本专利文档提供了对某些词语和短语的定义,本领域普通技术人员应该理解:在许多实例(如果不是大多数实例)中,这种定义适用于这样定义的词语和短语的现有以及将来的使用。
附图说明
为了更加全面地理解本公开及其优点,现在结合附图来参考以下描述,在附图中类似的附图标记表示类似的部件:
图1示出了根据本公开各种实施例的网络环境中的电子设备;
图2示出了根据本公开各种实施例的电子设备的框图;
图3示出了根据本公开各种实施例的程序模块的框图;
图4A示出了根据本公开各种实施例的电子设备的框图;
图4B示出了根据本公开各种实施例的外部电子设备的框图;
图5A和图5B示出了根据本公开各种实施例的电子设备的第一语言模型;
图6示出了根据本公开各种实施例的电子设备的第二语言模型;
图7示出了根据本公开各种实施例的电子设备的第三语言模型;
图8示出了描绘根据本公开各种实施例的电子设备的语音识别方法的流程图;
图9示出了根据本公开各种实施例的在电子设备的语音识别方法中使用集成语言模型的语音识别的流程图;以及
图10示出了根据本公开各种实施例的在电子设备的语音识别方法中用于构建第二语言模型的流程图。
具体实施方式
以下讨论的图1至图10和用于描述本专利文档中的本公开的原理的各种实施例仅仅是说明性的,而不应以任何方式解释为限制本公开的范围。本领域技术人员将理解:可以以任何合适布置的电子设备来实现本公开的原理。
以下描述是参考附图而做出的,提供这样的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种示例实施例。以下描述包括各种具体细节以帮助理解,但这些具体细节应被视为仅仅是示例。因此,本领域普通技术人员将认识到:在不脱离本公开的范围和精神的前提下,可以对本文所述的各种示例实施例进行各种改变和修改。此外,为了清楚和简洁起见,可以省略对公知功能和结构的描述。
以下描述和权利要求中使用的术语和词语不限于书面含义,而是可以简单地用于使得能够清楚和一致地理解本公开。因此,对于本领域技术人员来说应当清楚是,提供本公开的各种示例实施例的以下描述以仅用于说明的目的,而不是用于限制由所附权利要求及其等同物限定的本公开的目的。
应当理解的是,除非上下文中另有清楚规定,否则单数形式“一”、“一个”和“所述”包括复数指示物。因此,例如,对“组件表面”的引用包括对这样的表面中的一个或多个的引用。
术语“大体上(基本上)”通常可以表示不需要严格实现所记载的特征、参数或者值,而是可以在量上出现不妨碍该特征预期要提供的效果的偏差或变化,包括例如公差、测量误差、测量精度限制及本领域技术人员所知的其他因素。
可在本公开中使用的诸如“包括”和“可以包括”的表述可以表示例如所公开的功能、操作和构成元件的存在性,并不限制一个或多个附加功能、操作和元件。在本公开的示例实施例中,诸如“包括”和/或“具有”的术语可以被理解为指示例如某个特性、数目、操作、构成元件、组件或它们的组合,但是不可被解释为排除一个或多个其他特性、数目、操作、构成元件、组件或它们的组合的存在性或添加的可能性。
此外,在本公开中,表述“和/或”包括关联列出的词语的任意和所有组合。例如,表述“A和/或B”可以包括A,可以包括B,或者可以包括A和B这二者。
在本公开的示例实施例中,包括诸如“第一”和“第二”之类的序数的表述可以修饰各种元件。然而,这些元件不受以上表述的限制。例如,以上表述不限制元件的顺序和/或重要性。上述表述仅用于将一个元件与其他元件进行区分的目的。例如,第一用户设备和第二用户设备指示不同的用户设备,虽然它们都是用户设备。例如,在不脱离本公开的范围的情况下,第一元件可以被称作第二元件,类似地,第二元件也可以被称作第一元件。
在组件被称作“连接”或“访问”到其他组件的情况下,应当理解的是,组件不仅直接连接到或访问该其他组件,而且在它们之间可以存在另一组件。同时,在组件被称作“直接连接”或“直接访问”到其他组件的情况下,应该理解的是,它们之间不存在组件。
根据本公开的电子设备可以是包括通信功能的设备。例如但不限于,电子设备可以与以下各项中的至少一项的组合相对应:智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、数字音频播放器、移动医疗设备、电子手环、电子项链、电子配饰、相机、可穿戴设备、电子时钟、腕表、家电(例如,空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器等)、人工智能机器人、电视(TV)、数字多功能盘(DVD)播放器、音频设备、各种医疗设备(例如,磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)、扫描机、超声波设备等)、导航设备、全球定位系统(GPS)接收器、事件数据记录仪(EDR)、飞行数据记录仪(FDR)、机顶盒、TV盒(例如,Samsung HomeSyncTM、Apple TVTM或Google TVTM)、电子词典、车载信息娱乐设备、船用电子装备(例如,船用导航设备、陀螺罗盘等)、航空电子设备、安保设备、电子服饰、电子钥匙、摄像录像机、游戏机、头戴式显示器(HMD)、平板显示设备、电子相框、电子相册、包括通信功能的家具或建筑物/结构的一部分、电子板、电子签名接收设备、投影仪等。对本领域技术人员将显而易见的是,根据本公开的电子设备不限于上述设备。
根据本公开的各种示例实施例,电子设备的处理器中所包括的内核可以处于各种状态中的一种状态。在用于操作电子设备的方法中,当内核处于在线状态时,正常地对内核施加电力,并且内核能够正常地执行处理。
在用于操作电子设备的方法中,当内核处于空闲状态时,对内核施加电力,但是内核不执行处理。
在用于操作电子设备的方法中,当内核处于省电状态时,对内核施加电平比处于在线状态时所施加的电力的电平低的电力,并且内核不执行处理。
在用于操作电子设备的方法中,当内核处于离线状态时,不对内核施加电力,并且清空所存储的数据中与内核相关联的缓存。因此,当内核处于离线状态时,内核不能执行处理。
在用于操作电子设备的方法中,当处理器包括第一内核和第二内核时,热拔出可以指将第一内核从在线状态转变到离线状态。当处理器包括第一内核和第二内核时,热插入可以指将第一内核从离线状态转变到在线状态。
在用于操作电子设备的方法中,限制信号可以表示使得内核转变为省电状态以便对处理器的使用进行限制的命令信号。
在用于操作电子设备的方法中,限制提升信号可以表示用于提升对处理器使用的限制的命令信号。即,限制提升信号可以使得内核转变为离线状态。
图1是示出了根据本公开的各种示例实施例的网络环境100中的示例电子设备的框图。
参考图1,电子设备101可以包括总线110、处理器120(例如,包括处理电路)、存储器130、输入/输出接口150(例如,包括接口电路)、显示器160、通信接口170(例如,包括通信电路)、以及其他类似的和/或合适的组件。
总线110可以是将上述元件相互连接并在上述元件之间传递通信(例如,控制消息)的电路。
处理器120可以包括各种处理电路,并且通过总线110从上述其他元件(例如,存储器130、输入/输出接口150、显示器160、通信接口170等)接收命令,可以解译所接收到的命令,并且可以根据所解译的命令来执行计算或数据处理。虽然被示出为一个元件,但是在不脱离本文中的教导的情况下,处理器120可以包括多个处理器。
存储器130可以存储从处理器120或其他元件(例如,输入/输出接口150、显示器160、通信接口170等)接收的或者由处理器120或其他元件产生的命令或数据。存储器130可以包括编程模块140,比如内核141、中间件143、应用编程接口(API)145、应用147等。上述编程模块中的每个均可以用软件、固件、硬件或者其中两个或更多个的组合来实现。
内核141可以控制或管理执行由其他编程模块(例如,中间件143、API 145和应用147)实现的操作或功能所使用的系统资源(例如,总线110、处理器120、存储器130等)。此外,内核141可以提供能够通过使用中间件143、API 145或应用147来访问并控制或管理电子设备101的各个元件的接口。
中间件143可以用于在API 145或应用147与内核141之间以API145或应用147与内核141通信并与内核141交换数据的方式运行。此外,例如,关于从一个或多个应用147和/或中间件143接收的工作请求,可以通过使用向一个或多个应用147中的至少一个分配能够使用电子设备101的系统资源(例如,总线110、处理器120、存储器130等)的优先级的方法来执行工作请求的负载均衡。
API 145是这样的接口:应用147能够通过所述接口来控制由内核141或中间件143提供的功能,并且API 145可以包括例如用于文件控制、窗口控制、图像处理、字符控制等的至少一个接口或功能。
输入/输出接口150可以包括各种接口电路,并且例如可以从用户接收命令或数据作为输入,并且可以通过总线110向处理器120或存储器130传递所接收到的命令或数据。显示器160可以向用户显示视频、图像、数据等。
通信接口170可以包括各种通信电路,并且连接电子设备102和104与电子设备101之间的通信。通信接口170可以支持短距离通信协议164(例如,Wi-Fi、蓝牙(BT)和近场通信(NFC))或网络162通信(例如,互联网、局域网(LAN)、广域网(WAN)、电信网络、蜂窝网络、卫星网络、普通老式电话服务(POST)等)。电子设备102和104中的每一个可以是与电子设备101相同(例如,相同类型)或不同(例如,不同类型)的设备。此外,通信接口170可以经由网络162连接服务器106和电子设备101之间的通信。
图2是示出了根据本公开的各种示例实施例的示例电子设备的框图。
参考图2,电子设备201可以是例如图1中所示的电子设备101。
参考图2,电子设备201可以包括处理器210(例如,包括处理电路的应用处理器)、订户标识模块(SIM)卡224、存储器230、通信接口220(例如,包括通信电路)、传感器模块240、输入设备250(例如,包括输入电路)、显示器260、接口270(例如,包括接口电路)、音频模块280(编码器/解码器(编解码器))、相机模块291、电源管理模块295、电池296、指示器297、电机298以及任何其他类似和/或合适的组件。
处理器210可以包括各种处理电路,例如但不限于以下项中的一个或多个:专用处理器、CPU、应用处理器(AP)(未示出)或一个或多个通信处理器(CP)(未示出)。处理器210可以是例如图1中示出的处理器120。AP和CP可以被包括在图2中的处理器210中,或者可以被分别包括在不同的集成电路(IC)封装中。根据本公开的实施例,AP和CP可以被包括在一个IC封装中。
AP可以执行操作系统(OS)或应用程序,从而可以控制连接到AP的多个硬件或软件元件,并且可以对包括多媒体数据的各种数据执行处理和算术运算。AP可以通过例如片上系统(SoC)来实现。根据本公开的实施例,处理器210还可以包括图形处理单元(GPU)(未示出)。
在包括电子设备201在内的电子设备(例如,电子设备101)与通过网络连接到该电子设备的不同电子设备之间进行通信的情况下,CP可以管理数据线并且可以转换通信协议。CP可以通过例如SoC来实现。根据本公开的实施例,CP可以执行多媒体控制功能中的至少一些。CP例如可以通过使用SIM(例如,SIM卡224)来区分和认证通信网络中的终端。此外,CP可以向用户提供诸如语音电话呼叫、视频电话呼叫、文本消息、分组数据之类的服务。
此外,CP可以控制数据通过通信接口220的发送和接收。在图2中,诸如电源管理模块295、存储器230之类的元件被示出为与处理器210分离的元件。然而,根据本公开的实施例,处理器210可以包括上述元件中的至少一些(例如,电源管理模块295)。
根据本公开的示例实施例,AP或CP可以向易失性存储器加载从非易失性存储器和连接到AP和CP中的每一个的其他元件中的至少一个接收的命令或数据,并且可以处理所加载的命令或数据。此外,AP或CP可以将从其他元件中的至少一个接收的或者由其他元件中的至少一个产生的数据存储在非易失性存储器中。
SIM卡224可以是实现SIM的卡,并且可以被插入到在电子设备201的特定部分中所形成的槽中。SIM卡224可以包括唯一标识信息(例如,IC卡标识符(ICCID))或者订户信息(例如,国际移动订户标识(IMSI))。
存储器230可以包括内部存储器232和/或外部存储器234。存储器230可以是例如图1中所示的存储器130。内部存储器232可以包括例如易失性存储器(例如,动态随机存取存储器(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)和非易失性存储器(例如,一次性可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩膜ROM、闪速ROM、非AND(NAND)闪速存储器、非OR(NOR)闪速存储器等)中的至少一个。根据本公开的实施例,内部存储器232可以是固态驱动器(SSD)的形式。外部存储器234还可以包括闪速驱动器,例如,紧凑型闪存(CF)、安全数字(SD)、微型SD、迷你型SD、极限数字(xD)、存储棒等。
通信接口220可以包括各种通信电路,其中包括例如但不限于射频(RF)模块229。通信接口220可以是例如图1中所示的通信接口170。通信接口220还可以包括各种通信电路,其中包括例如但不限于用以通过RF模块229实现无线通信的无线通信模块。无线通信模块可以包括例如但不限于蜂窝模块221、Wi-Fi模块223、BT模块225、GPS模块227和/或NFC模块228。附加地或备选地,无线通信模块还可以包括用于将电子设备201连接到网络(例如,互联网、LAN、WAN、电信网络、蜂窝网络、卫星网络、POST等)(未示出)的网络接口(例如,LAN卡)、调制器/解调器(调制解调器)等。
通信接口220(例如,通信接口170)可以通过网络(例如,网络162)与其他电子设备(例如,电子设备102和104以及服务器106)进行数据通信。
RF模块229可以用于发送和接收数据(例如,发送和接收RF信号或所谓的电信号)。虽然未示出,但是RF模块229可以包括例如收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)等。此外,RF模块229还可以包括用于在无线通信时在自由空间中发送和接收电磁波的组件,例如,导体、导线等。
传感器模块240可以包括例如以下项中的至少一项:手势传感器240A、陀螺仪传感器240B、气压(例如,气压计)传感器240C、磁传感器240D、加速度传感器240E、握持传感器240F、接近传感器240G、红绿蓝(RGB)传感器240H、生物传感器240I、温度/湿度传感器240J、照明(例如,光)传感器240K和紫外线(UV)传感器240M。传感器模块240可以测量物理量或者可以检测电子设备201的操作状态,并且可以将所测量到或所检测到的信息转换为电信号。附加地/备选地,传感器模块240可以包括例如电子鼻(E-鼻)传感器(未示出)、肌电图(EMG)传感器(未示出)、脑电图(EEG)传感器(未示出)、心电图(ECG)传感器(未示出)、指纹传感器(未示出)等。附加地或备选地,传感器模块240可以包括例如E-鼻传感器(未示出)、EMG传感器(未示出)、EEG传感器(未示出)、ECG传感器(未示出)、指纹传感器等。传感器模块240还可以包括用于控制其中所包括的一个或多个传感器的控制电路(未示出)。传感器模块240也可以或者以备选方式受处理器210控制。
输入设备250可以包括各种输入电路,例如但不限于触摸面板252、笔传感器254(例如,数字笔传感器)、按键256和超声输入设备258。输入设备250可以是例如图1中所示的输入/输出接口150。触摸面板252可以以例如电容方案、电阻方案、红外线方案和声波方案中的至少一种来识别触摸输入。此外,触摸面板252还可以包括控制器(未示出)。在电容型下,触摸面板252能够识别接近以及直接触摸。触摸面板252还可以包括触觉层(未示出)。在此情况下,触摸面板252可以向用户提供触觉响应。
笔传感器254(例如,数字笔传感器)例如可以通过使用与从用户接收触摸输入的方法相同或类似的方法或通过使用单独的识别板来实现。例如,键盘或触摸键可以用作按键256。超声输入设备258使得终端能够通过产生超声信号的笔使用终端的麦克风(例如,麦克风288)来检测声波,并识别数据。超声输入设备258能够执行无线识别。根据本公开的实施例,电子设备201可以通过通信接口220从连接到电子设备201的外部设备(例如,网络、计算机或服务器)接收用户输入。
显示器260可以包括面板262、全息设备264和投影仪266。显示器260可以是例如图1中所示的显示器160。面板262可以是例如液晶显示器(LCD)和有源矩阵有机发光二极管(AM-OLED)显示器等,但不限于此。面板262可以实现为例如柔性的、透明的或可穿戴的。面板262可以包括触摸面板252和一个模块。全息设备264可以通过使用光的干涉在空中显示三维图像。投影仪266可以包括诸如LED的光投影元件,以将光投影到外部表面。根据本公开的实施例,显示器260还可以包括用于控制面板262、全息设备264或投影仪266的控制电路。
接口270可以包括各种接口电路,例如但不限于高清多媒体接口(HDMI)272、通用串行总线(USB)274、光学接口276或D-超小型(D-sub)278。附加地或备选地,接口270可以包括例如SD/多媒体卡(MMC)(未示出)或红外数据协会(IrDA)(未示出)。
音频模块280(编解码器)可以在语音和电信号之间进行双向转换。音频模块280可以转换通过例如扬声器282、受话器284、耳机286、麦克风288等向音频模块280输入或从音频模块280输出的语音信息。
相机模块291可以捕获图像和运动图像。根据本公开的实施例,相机模块291可以包括一个或多个图像传感器(例如,前置镜头或后置镜头)、图像信号处理器(ISP)(未示出)和闪光LED(未示出)。
电源管理模块295可以管理电子设备201的电力。虽然未示出,但是电源管理模块295可以包括例如电源管理IC(PMIC)、充电器IC或电池电量计。
PMIC可以安装到例如IC或SoC半导体。充电方法可以分类为有线充电方法和无线充电方法。充电器IC可以对电池充电,并且可以防止充电器对电池的过电压或过电流。根据本公开的实施例,充电器IC可以包括用于有线充电方法和无线充电方法中的至少一个的充电器IC。无线充电方法的示例可以包括磁共振方法、磁感应方法、电磁方法等。可以添加用于无线充电的附加电路(例如,线圈回路、共振电路、整流器等),以便执行无线充电。
电池电量计可以测量例如电池296的剩余量或充电期间的电压、电流或温度。电池296可以通过产生电力来供电,并且可以是例如可再充电电池。
指示器297可以指示电子设备201或电子设备201的一部分(例如,AP)的特定状态,例如引导状态、消息状态、充电状态等。电机298可以将电信号转换为机械振动。
虽然未示出,但是电子设备201可以包括用于支持模块TV的处理单元(例如,GPU)。用于支持模块TV的处理单元可以根据诸如数字多媒体广播(DMB)、数字视频广播(DVB)、媒体流等标准来处理媒体数据。根据本公开实施例的电子设备201的上述元件中的每一个可以包括一个或多个组件,并且相关元件的名称可以根据电子设备的类型而改变。根据本公开实施例的电子设备201可以包括上述元件中的至少一个。可以从电子设备201中省略上述元件中的一些,或者电子设备201还可以包括附加元件。此外,根据本公开实施例的电子设备201的一些元件可以组合为一个实体,该实体可以执行与相关元件在组合之前的功能相同的功能。
本公开中使用的术语“模块”可以表示例如包括硬件、软件和固件的一个或多个组合的单元。“模块”可以与诸如“单元”、“逻辑”、“逻辑块”、“组件”、“电路”之类的术语互换。“模块”可以是形成为一个主体的组件的最小单元或其一部分。“模块”可以是用于执行一个或多个功能的最小单元或其一部分。“模块”可以被机械地或电子地实现。例如,根据本公开的示例实施例的“模块”可以包括已知的或将来开发的用于执行某些操作的专用处理器、CPU、专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑器件中的至少一种。
图3是示出了根据本公开的示例实施例的编程模块的示例配置的框图。
参考图3,编程模块300可以被包括(或被存储)在图1中所示的电子设备101(例如,存储器130)中,或者可以被包括(或被存储)在电子设备201(例如,存储器230)中。编程模块300的至少一部分可以以软件、固件、硬件或它们中的两个或更多个的组合来实现。编程模块300可以以硬件(例如,电子设备201)来实现,并且可以包括控制与电子设备(例如,电子设备101)相关的资源的OS和/或在OS中执行的各种应用(例如,应用370)。例如,OS可以是Android、iOS、Windows、Symbian、Tizen、Bada等。
参考图3,编程模块300可以包括内核320、中间件330、API 360和/或应用370。
内核320(例如,内核141)可以包括系统资源管理器321和/或设备驱动器323。系统资源管理器321可以包括例如进程管理器(未示出)、存储器管理器(未示出)和文件系统管理器(未示出)。系统资源管理器321可以执行系统资源的控制、分配、恢复等。设备驱动器323可以包括例如显示器驱动器(未示出)、相机驱动器(未示出)、BT驱动器(未示出)、共享存储器驱动器(未示出)、USB驱动器(未示出)、键盘驱动器(未示出)、Wi-Fi驱动器(未示出)和/或音频驱动器(未示出)。此外,根据本公开的实施例,设备驱动器323可以包括进程间通信(IPC)驱动器(未示出)。
中间件330可以包括预先实现的用以提供由应用370共同使用的功能的多个模块。此外,中间件330可以通过API 360向应用370提供功能,以使得应用370能够高效地使用电子设备内的有限系统资源。例如,如图3中所示,中间件330(例如,中间件143)可以包括以下项中的至少一个:运行时间库335、应用管理器341、窗口管理器342、多媒体管理器343、资源管理器344、电源管理器345、数据库管理器346、包管理器347、连接管理器348、通知管理器349、位置管理器350、图形管理器351、安全管理器352和任何其他合适和/或类似的管理器。
运行时间库335可以包括例如由编译器使用的库模块,以便在执行应用370期间通过使用编程语言来添加新功能。根据本公开的实施例,运行时间库335可以执行与输入和输出、存储器的管理、算术函数等相关的功能。
应用管理器341可以管理例如应用370中的至少一个的生命周期。窗口管理器342可以管理在屏幕上使用的图形用户界面(GUI)资源。多媒体管理器343可以检测用于再现各种媒体文件的格式,并且可以通过适合于相关格式的编解码器来对媒体文件进行编码或解码。资源管理器344可以管理应用370中的至少一个的资源,例如源代码、内存、存储空间等。
电源管理器345可以与基本输入/输出系统(BIOS)一起操作,可以管理电池或电力,并且可以提供用于操作的电力信息等。数据库管理器346可以以能够生成、搜索和/或更改要由应用370中的至少一个使用的数据库的方式来管理数据库。包管理器347可以管理以包文件的形式分发的应用的安装和/或更新。
连接管理器348可以管理诸如Wi-Fi和BT之类的无线连接。通知管理器349可以以不打扰用户的方式来向用户显示或报告事件,例如到来消息、约会、接近警报等。位置管理器350可以管理电子设备的位置信息。图形管理器351可以管理要提供给用户的图形效果和/或与图形效果相关的用户界面。安全管理器352可以提供用于系统安全、用户认证等的各种安全功能。根据本公开的实施例,当电子设备(例如,电子设备101)具有电话功能时,中间件330还可以包括用于管理电子设备的语音电话呼叫功能和/或视频电话呼叫功能的电话管理器(未示出)。
中间件330可以通过上述内部元件模块的各种功能组合来生成和使用新的中间件模块。中间件330可以提供根据OS的类型而专门化的模块以提供差异化的功能。此外,中间件330可以动态地删除现有元件中的一些,或者可以添加新元件。因此,中间件330可以省略在本公开的各种实施例中所描述的一些元件,还可以包括其他元件,或者可以用执行类似功能并具有不同名称的元件来替代这些元件中的一些。
API 360(例如,API 145)是API编程功能的集合,并且可以根据OS而设置有不同配置。例如,在Android或iOS的情况下,可以向每个平台提供一个API集合。例如,在Tizen的情况下,可以向每个平台提供两个或更多个API集合。
应用370(例如,应用147)可以包括例如预加载的应用和/或第三方应用。应用370可以包括例如主页应用371、拨号器应用372、短消息服务(SMS)/多媒体消息服务(MMS)应用373、即时消息(IM)应用374、浏览器应用375、相机应用376、闹钟应用377、联系人应用378、语音拨号应用379、电子邮件(e-mail)应用380、日历应用381、媒体播放器应用382、相册应用383、时钟应用384以及任何其他合适和/或类似的应用。
编程模块300的至少一部分可以由存储在非暂时性计算机可读存储介质中的指令来实现。当指令由一个或多个处理器(例如,处理器210)执行时,所述一个或多个处理器可以执行与指令相对应的功能。非暂时性计算机可读存储介质可以是例如存储器230。编程模块300的至少一部分可以由例如处理器210来实现(例如,执行)。编程模块300的至少一部分可以包括例如用于执行一个或多个功能的模块、程序、例程、指令集和/或进程。
根据本公开实施例的编程模块(例如,编程模块300)的元件的名称可以根据OS的类型而改变。根据本公开实施例的编程模块可以包括上述元件中的一个或多个。备选地,上述元件中的一些元件可以从编程模块中省略。备选地,编程模块还可以包括附加元件。根据本公开实施例的由编程模块或其他元件执行的操作可以以顺序方法、并行方法、重复方法或启发式方法来处理。此外,可以省略一些操作,或者可以向这些操作添加其他操作。
图4A是根据本公开各种实施例的电子设备的框图。
参考图4A,在本公开的各种实施例中,电子设备400可以包括通信接口410、处理器420和存储器430。
在各种实施例中,电子设备400可以通过使用声学模型和语言模型来执行语音识别。
声学模型可以指这样的数据库:所述数据库中映射和存储了通过处理语音数据而获得的特征向量和包括与特征向量相对应的音素的音素候选组。
例如,当说韩语的用户发出语音声音“na nun gan da”(英语中的“I′m going”)时,外部电子设备可以产生与“na nun gan da”相对应的语音数据,并且向电子设备400发送语音数据。
处理器420可以使用声学模型来产生与语音数据相对应的音素“n/a/n/(un或ung)/g/an/d/a”。声学模型可以针对语音数据“nun”中的最后的“n”存储音素候选组“un”和“ung”。
语言模型可以指存储如下这样的信息的数据库,所述信息用于基于从声学模型中提取的与语音数据相对应的音素来对词语或音节之间的语言顺序关系进行建模。语言模型可以存储语音数据和包括音素候选组中所包含的音素在内的词语之间的映射。此外,语言模型可以存储包含音素候选组中所包括的音素的每个词语与语音数据相匹配的概率。处理器420可以基于包含音素候选组中所包括的音素的各个词语与语音数据相匹配的概率,来选择与语音数据相对应的词语。
处理器420可以通过使用语言模型来在与音素候选组中所包括的音素相对应的词语中选择具有与用户的语音声音相匹配的最高概率的词语,并且使用所选择的词语来执行语音识别。例如,在包含“n”的词语“nun”和“nung”中,处理器420可以通过使用语言模型来确定词语“nun”具有与用户的语音声音相匹配的最高概率。
作为另一示例,当说英语的用户发出语音声音“sin”时,外部电子设备可以产生与语音声音相对应的语音数据,并且向电子设备400发送语音数据。
处理器420可以使用声学模型来产生与语音数据相对应的音素“s/(i或ee)/n”。声学模型可以针对语音数据“i”存储音素候选组“i”和“ee”。
处理器420可以通过使用语言模型来在与音素候选组中所包括的音素相对应的词语“sin”和“seen”中选择具有与用户的语音声音相匹配的最高概率的词语,并且使用所选择的词语来执行语音识别。例如,在与“i”相对应的词语“sin”和与“ee”相对应的词语中,处理器420可以使用语言模型来选择具有与用户的语音声音相匹配的最高概率的词语“sin”,以进行语音识别。
在各种实施例中,电子设备400可以基于用户信息构建语言模型,以便使用通过通信接口410接收的用户的语音数据来执行语音识别。接下来,对基于用户信息构建语言模型进行描述。
通信接口410可以与外部电子设备(未示出)进行通信,以从外部电子设备接收语音数据和用户信息。
语音数据可以是指与由外部电子设备的用户发出的语音相关联的数据。例如,语音数据可以是通过将由用户发出的语音声音转换为用于语音识别的数字信号而获得的数据。这里,语音数据可以包括关于由用户发出的语音声音的波形、音调和相位的数据。
用户信息可以是指关于外部电子设备的用户的信息。在各种实施例中,用户信息可以包括外部电子设备的标识符和上下文信息。
在各种实施例中,上下文信息可以包括关于外部电子设备的用户的各种信息(比如,性别、年龄)、外部电子设备的位置和在接收语音数据时所使用的应用。
存储器430可以存储各种模型(比如,用于语音识别的语言模型和声学模型)和与模型相关的数据。在各种实施例中,存储器430可以存储对用户通常可用的通用语言模型、针对不同用户而不同指定的第一语言模型、与用户的上下文信息相关的第二语言模型以及与接收到语音数据的时间相关的第三语言模型。
通用语言模型可以是通过使用基于用户通常使用的词语和句子模式的数据而创建的语言模型。通用语言模型可以是指对所有用户可用的任何语言模型,而不管具体用户信息如何。在各种实施例中,通用语言模型可以是对任何用户可用的用于语音识别的默认语言模型。可以根据用户选择或预配置设置来定期地更新通用语言模型。
第一语言模型可以是通过使用由外部电子设备收集和发送的用户信息而产生的语言模型。用户信息可以被发送至电子设备400,并且被用于在外部电子设备与电子设备400通信(用于语音识别或其他目的的通信)时构建第一语言模型。
在各种实施例中,第一语言模型可以包括与用户信息相关联的详细语言模型。每个详细语言模型可以存储与用户信息相关的词语和音素候选组之间的映射。
可以根据用户信息(比如,外部电子设备中所存储的联系人的列表、外部电子设备中所安装的应用的列表和外部电子设备的键盘的使用历史)来不同地构建第一语言模型。不同地构建第一语言模型的事实可以意指:第一语言模型中所包括的词语与语音数据相匹配的概率是根据用户信息而被不同设置的。将结合图5A和图5B对构建第一语言模型进行详细描述。在各种实施例中,由于第一语言模型是使用每个用户的不同用户信息来构建的,因此可以针对不同的用户配置不同的第一语言模型。
第二语言模型可以是这样的语言模型:根据用户信息中所包括的上下文信息,与上下文信息相关的词语与语音数据相匹配的概率不同于与上下文信息无关的词语与语音数据相匹配的概率。用于构建第二语言模型的上下文信息可以指示在用户发起语音识别时所收集的上下文信息。上下文信息可以由外部电子设备收集,并且与语音数据一起被发送至电子设备400。虽说可以使用即使在用户不执行语音识别时所收集的用户信息来构建第一语言模型,但可以使用在用户发起语音识别时所收集的上下文信息来构建第二语言模型。
上下文信息可以是指覆盖在用户发起语音识别时用户的各种情况的信息。在各种实施例中,上下文信息可以包括:关于在用户发起语音识别时外部电子设备的位置的信息、关于在执行语音识别时一天中的时间(例如,早上、下午、晚上)的信息、关于在执行语音识别时所使用的应用(例如,相机、图库、网络浏览器)的信息以及用户的个人信息(例如,性别、年龄)。
在各种实施例中,第二语言模型可以包括多个详细语言模型。详细语言模型可以存储与上下文信息相关的词语与语言数据相匹配的概率。多个详细语言模型可以分别与多条上下文信息相对应。在接收到上下文信息时,处理器420可以在多个详细语言模型中识别与上下文信息相对应的详细语言模型,并且组合所识别的详细语言模型以构建第二语言模型。稍后将参考图6更详细地描述第二语言模型。
第三语言模型可以是包括由电子设备在电子设备接收到语音数据的时间起的预设时间段内收集的词语在内的语言模型。在各种实施例中,第三语言模型可以是指这样的语言模型:根据在执行语音识别的时间起的预设时间段内所使用的词语的频率来不同地设置词语与语音数据相匹配的概率。
在各种实施例中,在第三语言模型中,在执行语音识别时与流行语或话题相关的词语或短语与语音数据相匹配的概率被设置为高于其他词语的概率。当通用语言模型被加载用于语音识别时可以同时加载第三语言模型,并且所加载的第三语言模型可以与通用语言模型相组合地用于语音识别。
在各种实施例中,预设时间段可以根据用户设置而改变。稍后将参考图7更详细地描述第三语言模型。
在各种实施例中,处理器420可以在存储在存储器430中的第一语言模型中识别与用户信息中所包括的外部电子设备的标识符(能够区分外部电子设备和其他电子设备的信息,比如外部电子设备的MAC地址或IMEI信息)相对应的第一语言模型。处理器420可以通过使用用户信息中所包括的上下文信息组合详细语言模型来构建第二语言模型。处理器420可以根据执行语音识别时的时间点来构建第三语言模型。
处理器420可以将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合以构建集成语言模型。处理器420可以通过将语音数据输入到集成语言模型中来执行语音识别,并输出语音识别结果。
处理器420可以将语音数据输入到集成语言模型的各个语言模型中以提取与语音数据相匹配的词语,识别每个所提取词语的概率(与语音数据相匹配的概率),根据分配给语言模型的权重来选择所提取的词语中的一个,并且基于所选择的词语来输出语音识别结果。
在一个实施例中,处理器420可以被配置为包括:语言模型生成器(未示出),用以通过将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合来产生集成语言模型;以及语音识别器(未示出),用以通过使用集成语言模型和从用户终端发送的语音数据来执行语音识别,并输出语音识别结果。
可以通过将通用语言模型与一个或多个详细语言模型相组合来产生集成语言模型。与通用语言模型相组合的详细语言模型可以根据用户信息和上下文信息而在类型上变化。详细语言模型与通用语言模型相组合的形式也可以根据详细语言模型而变化。
假设集成语言模型包括第一语言模型、第二语言模型、第三语言模型和通用语言模型。当外部电子设备的用户发出所存储的联系人中所包含的对方名称“anne”时,外部电子设备可以拾取用户的语音信号,产生语音数据,并且将语音发送给电子设备400。
处理器420可以将语音数据输入到第一语言模型、第二语言模型、第三语言模型和通用语言模型。
处理器420可以基于存储在外部电子设备中的联系人中所包括的用户的列表来产生第一语言模型。在各种实施例中,处理器420可以产生第一语言模型,使得用户列表中所包括的词语与语音数据相匹配的概率高于未包括在用户列表中的词语与语音数据相匹配的概率。假设第一语言模型包含指示“anne”与语音数据相匹配的概率是90%并且“and”与语音数据相匹配的概率是10%的数据,则当使用第一语言模型时,处理器420可以产生指示为“anne”的概率是90%的语音识别结果。
假设第二语言模型包含指示“anne”与语音数据相匹配的概率是80%并且“and”与语音数据相匹配的概率是20%的数据,则当使用第二语言模型时,处理器420可以产生指示为“anne”的概率是80%的语音识别结果。
假设第三语言模型包含指示“anne”与语音数据相匹配的概率是30%并且“and”与语音数据相匹配的概率是70%的数据,则当使用第三语言模型时,处理器420可以产生指示为“and”的概率是70%的语音识别结果。
假设通用语言模型包含指示“anne”与语音数据相匹配的概率是40%并且“and”与语音数据相匹配的概率是60%的数据,则当使用通用语言模型时,处理器420可以产生指示为“and”的概率是60%的语音识别结果。
以上描述被总结在下表中。
[表1]
处理器420可以将语音数据输入到集成语言模型中所包括的语言模型中,识别输出词语或短语,并且根据分配给语言模型的权重来选择词语中的一个。
在各种实施例中,可以将权重分配给语音识别处理中所使用的语言模型,并且权重可以指示由语言模型输出的语音识别结果的可信度水平。
在各种实施例中,处理器420可以将通过使考虑到权重被识别为“anne”的概率相加而获得的值与通过使考虑到权重被识别为“and”的概率相加而获得的另一值进行比较,选择与较大值相关联的词语,并且将所选择的词语输出为语音识别结果。
[表2]
结果
被识别为“anne”的概率 0.27+0.16+0.03+0.16=0.62
被识别为“and”的概率 0.03+0.04+0.07+0.24=0.38
参考表1和表2,当使用集成语言模型时,可以看出,语音数据与“anne”相匹配的概率是0.62,并且语音数据与“and”相匹配的概率是0.38。在所提取的词语(“anne”、“and”)中,处理器420可以选择被预测为具有与输入语音数据相匹配的较高概率的词语,并且基于所选择的词语来输出语音识别结果。
在各种实施例中,处理器420可以将通过添加在用于识别由每个语言模型产生的词语候选的概率中的最高概率而获得的值进行比较,并且选择与值中的较大者相关联的词语来输出语音识别结果。
[表3]
结果
被识别为“anne”的概率 0.27+0.16=0.43
被识别为“and”的概率 0.07+0.24=0.31
参考表1和表3,可以看出,在第一语言模型中,被识别为“anne”的概率(0.27)高于被识别为“and”的概率(0.03)。可以看出,在第二语言模型中,被识别为“anne”的概率(0.16)高于被识别为“and”的概率(0.04)。可以看出,在第三语言模型中,被识别为“anne”的概率(0.03)低于被识别为“and”的概率(0.07)。可以看出,在通用语言模型中,被识别为“anne”的概率(0.16)低于被识别为“and”的概率(0.24)。处理器420可以将值(0.43)与值(0.31)进行比较,其中,值(0.43)是通过将被第一语言模型识别为“anne”的概率(0.27)与被第二语言模型识别为“anne”的概率(0.16)相加而获得的,值(0.31)是通过将被第三语言模型识别为“and”的概率(0.07)与被通用语言模型识别为“and”的概率(0.24)相加而获得的。在所提取的词语(“anne”、“and”)中,处理器420可以选择具有与语音数据相匹配的较高概率的词语(“anne”),以输出语音识别结果。
在各种实施例中,可以根据用户设置来不同地分配权重。在以上示例中,将第一语言模型、第二语言模型和第三语言模型与通用语言模型相组合,以产生集成语言模型。然而,本公开不限于此。在本公开中,可以将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合,以产生集成语言模型。
在各种实施例中,处理器420可以控制通信接口410向外部电子设备发送语音识别结果。
图4B是根据本公开各种实施例的外部电子设备的框图。
参考图4B,在各种实施例中,外部电子设备440可以包括麦克风441、处理器442、通信接口443和存储器444。
外部电子设备440可以与用户所使用的移动终端相对应。用户可以发出语音声音以利用外部电子设备440所支持的各种功能。
麦克风441可以拾取用户的语音信号,并且将语音信号转换成语音数据。
通信接口443可以与电子设备400通信。在各种实施例中,通信接口443可以向电子设备400发送由麦克风441转换的语音数据和用户信息。
处理器442可以控制通信接口443向图4A中所示的电子设备400发送语音数据和用户信息。在各种实施例中,用户信息可以包括键盘的使用历史。处理器442可以提取用户通过键盘键入的词语,并且控制通信接口443向电子设备400发送所提取的词语的列表。
存储器444可以存储各种数据,比如与麦克风441所拾取的用户的语音信号相对应的语音数据、在执行语音识别时所提取的上下文信息和用户信息。
电子设备400可以接收所提取的词语的列表,并且基于词语列表构建第一语言模型。参考图5A详细地描述构建第一语言模型。在各种实施例中,电子设备400可以基于由外部电子设备440发送的语音数据和语言模型来执行语音识别,并且向外部电子设备440发送语音识别结果。处理器442可以接收语音识别结果并且输出语音识别结果。在各种实施例中,处理器442可以基于语音识别结果来控制外部电子设备440的各种功能。
在图4B中,语音识别被描述为是由分离的服务器(例如,图4A的电子设备400)执行的。然而,图4B的外部电子设备440可以直接执行语音识别。为此,存储器444可以存储通用语言模型、第一语言模型、第二语言模型和第三语言模型。存储器444还可以存储用于创建集成语言模型的计算机代码、用于执行语音识别的计算机代码等。处理器442可以使用存储在存储器444中的语言模型来产生集成语言模型,并且可以通过使用所产生的集成语言模型和语音数据来执行语音识别。
图5A示出了根据本公开各种实施例的电子设备的第一语言模型。
参考图5A,第一语言模型可以包括与联系人信息相关的详细语言模型510、与应用信息相关的详细语言模型520和与键盘使用历史信息相关的详细语言模型530。
如前所述,可以针对执行语音识别的每个用户产生第一语言模型500,并且可以针对不同的用户信息不同地产生第一语言模型500。在各种实施例中,处理器420可以接收用户信息,从用户信息中提取频繁使用的词语/短语,并且使用所提取的词语/短语产生第一语言模型500。
第一语言模型500中与联系人信息相关的详细语言模型510可以包括:存储在由用户使用的外部电子设备中的联系人的列表,以及在与联系人列表中的联系人进行通信期间频繁使用的词语/短语的列表。在各种实施例中,在详细语言模型510中,输入语音数据与在与特定联系人进行通信期间频繁使用的词语/短语相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。在各种实施例中,在详细语言模型510中,输入语音数据与属于存储在外部电子设备中的联系人列表的词语/短语相匹配的概率可以被设置为高于输入语音数据与其他词语/短语(不属于联系人列表)相匹配的概率。
与应用信息相关的详细语言模型520可以包括:由用户使用的应用的列表;以及在使用应用期间通过各种输入装置(例如,键盘、语音输入)频繁输入的词语/短语的列表。详细语言模型520还可以包括关于应用的使用频率的数据。在各种实施例中,在第一语言模型500中,在使用特定应用期间输入的语音数据与在使用该特定应用期间频繁输入的词语/短语相匹配的概率可以被设置为高于这样的输入语音数据与其他词语/短语相匹配的概率。
与键盘使用历史信息相关的详细语言模型530可以包括用户通过键盘所键入的词语/短语的列表。在各种实施例中,在第一语言模型500中,输入语音数据与属于键盘使用历史的词语/短语相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。
为了产生与键盘使用历史信息相关的详细语言模型530,处理器420可以从外部电子设备收集包括通过键盘键入的词语/短语的数据。
处理器420可以对所收集的数据应用文本标准化,以去除包括非规范表述和不正确词语(例如,错别字)的词语/句子。处理器420可以分离句子中所包括的词语,并将它们转换成适用于数据挖掘的形式,并且执行数据挖掘操作以提取用户的键盘输入模式。在各种实施例中,用户的键盘输入模式可以通过以下操作来获得:i)从累积的数据中提取T个频繁使用的词语,ii)提取M个每月频繁使用的词语并且提取W个每周频繁使用的词语,以反映新的词语和趋势,以及iii)将T个频繁使用的词语、M个每月频繁使用的词语和W个每周频繁使用的词语相组合。可以将所提取的词语应用于详细语言模型530。
图5B示出了根据本公开各种实施例的与电子设备中的键盘使用历史相关的详细语言模型530。
如图5B所示,在详细语言模型530中,可以基于使用键盘的特定应用来布置通过键盘频繁键入的词语/短语。
对于短消息服务(SMS)应用,通过键盘频繁键入的词语可以包括如标记531所指示的“你好”、“好的”和“咖啡”。
对于Samsung Focus应用,通过键盘频繁键入的词语可以包括“会议”、“参加”和“方向”。
如前面结合图5A所述,在各种实施例中,在与键盘使用历史相关的详细语言模型530中,输入语音数据与通过键盘频繁键入的词语/短语相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。此外,处理器420可以识别在外部电子设备中使用的应用(例如,SMS程序)的标识符,以进行语音识别。在与应用标识符相对应的详细语言模型530中,输入语音数据与根据应用标识符所存储的词语/短语(例如,“你好”、“好的”、“咖啡”)相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。
在图5B中,示出了SMS应用。然而,本公开不限于此。还可以在本公开中应用支持键盘的各种类型的应用。
在各种实施例中,在第一语言模型500中,输入语音数据与属于键盘使用历史的词语/短语相匹配的概率被设置为高于输入语音数据与其他词语/短语相匹配的概率。例如,假设用户通过键盘在SMS上比“seen”更频繁地键入“sin”,则第一语言模型中所包含的词语“sin”与语音数据相匹配的概率可以被设置为75%,并且词语“seen”与语音数据相匹配的概率可以被设置为25%。作为另一示例,假设用户通过键盘在SMS上比“sin”更频繁地键入“seen”,则第一语言模型中所包含的词语“seen”与语音数据相匹配的概率可以被设置为75%,并且词语“sin”与语音数据相匹配的概率可以被设置为25%。因此,由于用户在SMS上更频繁地使用“seen”,因此可以引导语言模型产生符合用户意图的语音识别结果,从而提高语音识别的精度。
在各种实施例中,对于用于与对方用户进行通信的应用,可以根据对方用户对在通信期间频繁使用的词语/短语进行分类,以存储在详细语言模型530中。例如,当外部电子设备的用户通过SMS应用向对方用户A和对方用户B发送消息以及从对方用户A和对方用户B接收消息时,对于对方用户A频繁使用的词语/短语和对于对方用户B频繁使用的词语/短语可以被分开地存储。因此,电子设备400可以通过使用第一语言模型500来正确地识别每个用户的音调和语言。
图6示出了根据本公开各种实施例的电子设备的第二语言模型。
如图6所示,第二语言模型600可以包括多个详细语言模型611至633。可以根据上下文信息的类型对多个详细语言模型进行分类。
根据上下文信息中的应用信息610,可以存在可用于相机应用的详细模型611、可用于图库应用的详细模型612以及可用于网络浏览器的详细模型613。在详细模型611至613中的每一个中,输入语音数据与和对应应用一起使用的词语/短语(例如,词语“拍摄”可以与相机应用一起频繁地使用)相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。在各种实施例中,电子设备400可以从由外部电子设备发送的上下文信息中提取关于使用中的应用的信息,并且选择与所提取的应用信息相对应的详细模型。可以使用所选择的详细模型来构建集成语言模型。因此,电子设备400能够更精确地识别在特定应用中频繁使用的词语或短语(例如,词语“拍摄”可以与相机应用一起频繁地使用)。
根据上下文信息中的外部电子设备的位置信息620,可以存在可用在首尔地区中的详细模型621、可用在京畿地区中的详细模型622以及可用在江原道地区中的详细模型623。在详细模型621至623中的每一个中,输入语音数据与在对应地理地区中频繁使用的词语/短语(例如,地域方言)相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。在各种实施例中,电子设备400可以选择与外部电子设备的位置信息相对应的详细模型,并且通过使用所选择的详细模型来构建集成语言模型。因此,电子设备400能够更精确地识别在特定地理地区中频繁使用的词语或短语。
根据上下文信息中的用户的个人信息630,可以存在可用于十几岁年龄组的详细模型631、可用于二十几岁年龄组的详细模型632以及可用于六十几岁年龄组的详细模型633。在详细模型631至633中的每一个中,输入语音数据与在对应年龄组中频繁使用的词语/短语(例如,青少年频繁使用的词语)相匹配的概率可以被设置为高于输入语音数据与其他词语/短语相匹配的概率。
在各种实施例中,电子设备400可以选择与外部电子设备的用户的个人信息相对应的详细模型,并且通过使用所选择的详细模型来构建集成语言模型。因此,电子设备400能够更精确地识别被预测为被用户频繁使用的词语或短语。
在各种实施例中,处理器420可以接收上下文信息,并且选择与上下文信息相对应的详细模型。可以使用所选择的详细模型来构建第二语言模型。第二语言模型可以用于构建集成语言模型。
图7示出了根据本公开各种实施例的电子设备的第三语言模型。
如图7所示,第三语言模型700可以包括针对不同时间段的详细模型710和720。
详细模型710和720中的每一个可以存储在用户发起语音识别的时间段期间频繁使用的词语。例如,第三语言模型700可以包括存储在2017年5月的第一周频繁使用的词语的详细模型710以及存储在2017年5月的第二周频繁使用的词语的详细模型720。
在第三语言模型的详细模型710和720中,可以根据特定领域(例如,政治711和721、经济712和722、体育713和723)对频繁使用的词语进行分类。
在各种实施例中,电子设备的处理器420可以选择与由用户信息所指示的进行语音识别的时间段相对应的详细模型,并且使用所选择的详细模型来构建第三语言模型。第三语言模型可以用于构建集成语言模型。因此,电子设备400能够更精确地识别被预测为在用户发起语音识别的时间段期间频繁使用的词语或短语(例如,流行语)。
根据本公开的各种实施例,电子设备可以包括:通信接口,用于从外部电子设备接收用户的语音数据和用户信息;存储器,用于存储默认用于语音识别的通用语言模型、针对每个用户指定的第一语言模型、与每个用户的上下文信息相关联的第二语言模型、以及与由电子设备在从语音数据的接收时间起的预设时间段内所收集的词语相关联的第三语言模型;以及处理器,用于执行如下过程:将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合以构建集成语言模型,基于语音数据和集成语言模型来执行语音识别,并且输出与语音数据相对应的语音识别结果。
在一个实施例中,电子设备的处理器可以识别使用集成语言模型中的各个语言模型所提取的词语,根据分配给各个语言模型的权重来选择所提取的词语中的一个,并且基于所选择的词语输出语音识别结果。
在一个实施例中,电子设备的处理器可以识别使用集成语言模型中的各个语言模型所提取的词语,如果所提取的词语是不同的,则根据分配给各个语言模型的权重来选择所提取的词语中的一个,并且基于所选择的词语输出语音识别结果。
在一个实施例中,第一语言模型可以是如下这样的语言模型:第一语言模型中所包含的词语与语音数据相匹配的概率是根据外部电子设备中所安装的应用的列表、外部电子设备的键盘使用历史、外部电子设备中所存储的联系人的列表以及外部电子设备中所存储的音乐文件的播放列表中的至少一个而被不同地设置的。
在一个实施例中,第一语言模型可以是如下这样的语言模型:第一语言模型中所包含的词语与语音数据相匹配的概率是根据与外部电子设备的用户通信的对方而被不同地设置的。
在一个实施例中,处理器可以在第二语言模型中所包含的多个详细语言模型中选择与用户信息中的上下文信息相对应的一个或多个详细语言模型,并且使用所选择的详细语言模型来构建新的第二语言模型。
在一个实施例中,第二语言模型可以是如下这样的语言模型:第二语言模型中所包含的词语与语音数据相匹配的概率是根据上下文信息而被不同地设置的。
在一个实施例中,上下文信息可以包括以下信息中的至少一项:关于外部电子设备上运行的应用的信息、关于接收到语音数据的时间的信息、关于外部电子设备的位置的信息以及用户的个人信息。
在一个实施例中,第三语言模型可以是如下这样的语言模型:第三语言模型中所包含的词语与语音数据相匹配的概率是根据在从接收到语音数据的时间起的预设时间段期间的使用频率而被不同地设置的。
根据本公开的另一实施例,电子设备可以包括:麦克风,用于拾取用户的语音信号,并且将语音信号转换成语音数据;通信接口,用于向外部电子设备发送语音数据;存储器,用于存储语音数据、用户信息和上下文信息;以及处理器,用于执行以下过程:提取用户通过键盘键入的词语,控制通信接口向外部电子设备发送所提取的词语的列表,控制通信接口从外部电子设备接收语音识别结果,并且输出语音识别结果,其中语音识别结果是基于语音数据和集成语言模型而产生的,集成语言模型是通过将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合而构建的,其中第一语言模型是基于所述词语的列表构建的,第二语言模型是基于用户的上下文信息构建的,第三语言模型是基于由外部电子设备在从语音数据的发送时间起的预设时间段内所收集的词语来构建的,通用语言模型是默认用于语音识别的语言模型。
图8是描绘了根据本公开各种实施例的电子设备的语音识别方法的流程图。
在各种实施例中,可以使用如图4A中所示的电子设备和如图5至图7所示的语言模型来实现语音识别方法。
参考图8,在步骤810,电子设备的处理器420可以通过通信接口410接收语音数据和用户信息。
语音数据可以指示包含由用户发出的语音声音的数据,并且用户信息可以指示由外部电子设备收集的关于用户的信息。
在步骤820,处理器420可以将第一语言模型500、第二语言模型600和第三语言模型700中的至少一个与通用语言模型相组合,以构建集成语言模型。如前所述,可以在用户发起语音识别之前预先构建第一语言模型500、第二语言模型600、第三语言模型700和通用语言模型。当接收到用户语音数据时,可以通过将预先构建的第一语言模型500、第二语言模型600、第三语言模型700与通用语言模型相组合来构建集成语言模型。
处理器420可以基于通过通信接口410接收的用户信息来构建第一语言模型500。如结合图5所述,处理器420可以在第一语言模型500中所包含的多个详细模型中选择与用户信息相对应的一个或多个详细模型,并且组合所选择的详细模型以构建新的第一语言模型500。
处理器420可以基于通过通信接口410接收的用户信息来构建第二语言模型600。如结合图6所述,处理器420可以在第二语言模型600中所包含的多个详细模型中选择与用户信息中的上下文信息相对应的一个或多个详细模型,并且组合所选择的详细模型以构建新的第二语言模型600。
处理器420可以在第三语言模型700中所包含的多个详细模型中选择与语音识别的时间相对应的一个或多个详细模型,并且组合所选择的详细模型以构建新的第三语言模型700。如前所述,第三语言模型可以是如下这样的语言模型:在特定持续时间内频繁使用的词语被定期地(例如,每天、每周、每月或按用户所选择的时段)更新。
在步骤830,处理器420可以通过使用语音数据和集成语言模型来执行语音识别。在步骤840,处理器420可以输出语音识别结果。
图9是根据本公开各种实施例的在电子设备的语音识别方法中使用集成语言模型的语音识别的流程图。图9的流程图与图8中的步骤830相关。
参考图9,在步骤910,电子设备的处理器420可以向集成语言模型中所包含的各个语言模型输入通过通信接口410接收的语音数据。
在步骤920,处理器420可以识别由各个语言模型输出的词语。在步骤930,处理器420可以根据分配给语言模型的权重来选择所输出词语中的一个。
参考图4对步骤930处词语的选择进行了详细描述,且省略其详细描述。
在步骤940,处理器420可以基于所选择的词语来输出语音识别结果。
图10是根据本公开各种实施例的在电子设备的语音识别方法中用于构建第二语言模型的流程图。
参考图10,在步骤1010,电子设备的处理器420可以在第二语言模型600中所包含的多个详细语言模型中选择与上下文信息相对应的一个或多个详细语言模型。电子设备可以在接收语音数据时接收上下文信息。当用户的移动终端连接到电子设备时,上下文信息可以被提取,并且被发送到电子设备。该上下文信息可以用于构建第二语言模型。
在步骤1020,处理器420可以组合所选择的详细语言模型,以构建新的第二语言模型。
第二语言模型可以与集成语言模型相组合,并且处理器420可以使用集成语言模型来执行语音识别。
根据本公开的各种实施例,用于电子设备的语音识别方法可以包括:从外部电子设备接收用户的语音数据和用户信息;通过将通用语言模型与第一语言模型、第二语言模型和第三语言模型中的至少一个相组合来构建集成语言模型,其中第一语言模型与用户信息中所包含的外部电子设备的标识符相关联,第二语言模型与用户的上下文信息相关联,第三语言模型与由电子设备在从语音数据的接收时间起的预设时间段内所收集的词语相关联;以及基于集成语言模型来输出与语音数据相对应的语音识别结果。
在一个实施例中,输出语音识别结果可以包括:向集成语言模型中所包含的各个语言模型输入语音数据,并且识别由各个语言模型输出的词语;根据分配给语言模型的权重来选择所输出词语中的一个;以及基于所选择的词语来输出语音识别结果。
在一个实施例中,输出语音识别结果可以包括:识别使用集成语言模型中所包含的各个语言模型而提取的词语;如果所提取的词语是不同的,则根据分配给各个语言模型的权重来选择所提取的词语中的一个;以及基于所选择的词语来输出语音识别结果。
在一个实施例中,第一语言模型可以是如下这样的语言模型:第一语言模型中所包含的词语与语音数据相匹配的概率是根据外部电子设备中所安装的应用的列表和外部电子设备的键盘使用历史中的至少一个而被不同地设置的。
在一个实施例中,第一语言模型可以是如下这样的语言模型:第一语言模型中所包含的词语与语音数据相匹配的概率是根据与使用外部电子设备的用户通信的对方而被不同地设置的。
在一个实施例中,语音识别方法还可以包括:在第二语言模型中所包含的多个详细语言模型中选择与用户信息中的上下文信息相对应的一个或多个详细语言模型;以及使用所选择的详细语言模型来构建第二语言模型。
在一个实施例中,第二语言模型可以是如下这样的语言模型:第二语言模型中所包含的词语与语音数据相匹配的概率是根据上下文信息而被不同地设置的。
在一个实施例中,上下文信息可以包括以下信息中的至少一项:关于外部电子设备上运行的应用的信息、关于接收到语音数据的时间的信息、关于外部电子设备的位置的信息以及用户的个人信息。
在一个实施例中,第三语言模型可以是如下这样的语言模型:第三语言模型中所包含的词语与语音数据相匹配的概率是根据在从接收到语音数据的时间起的预设时间段期间的使用频率而被不同地设置的。
本文参考根据本公开的示例实施例的流程图示例、方法和计算机程序产品对上述方法进行了描述。应当理解,流程图示例中的每一个框、以及流程图示例中的多个框的组合可以通过计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或用于产生机器的其他可编程数据处理装置的处理器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图块中指定的功能的手段。这些计算机程序指令也可以被存储在计算机可用存储器或计算机可读存储器中,其中计算机可用存储器或计算机可读存储器可以指引计算机或其他可编程数据处理装置以特定方式工作,使得存储在计算机可用存储器或计算机可读存储器中的指令产生包括实现在流程图块中指定的功能的指令手段在内的制品。计算机程序指令也可以被加载到计算机或其他可编程数据处理装置上,以使得要在计算机或其他可编程装置上执行的一系列操作产生计算机实现的处理,使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图块中指定的功能的操作。
而且,流程图示例的每个块可以表示包括用于实现所指定的逻辑功能的一个或多个可执行指令的模块、片段或部分代码。还应当注意,在一些备选的实现方式中,块中标注的功能可以不按所示次序发生。例如,连续示出的两个块实际上可以被基本上同时执行,或者所述块在某些时候可以相反的顺序执行,这取决于所涉及到的功能。
本公开的某些示例方面还可以被体现为非暂时性计算机可读记录介质上的计算机可读代码。非暂时性计算机可读记录介质是能够存储随后能够由计算机系统读取的数据的任何数据存储设备。非暂时性计算机可读记录介质的示例包括ROM、RAM、压缩盘ROM(CD-ROM)、磁带、软盘和光学数据存储设备。非暂时性计算机可读记录介质也能够分布在网络耦接的计算机系统上,使得按照分布式方式来存储和执行计算机可读代码。此外,用于实现本公开的功能程序、代码和代码段能够容易地被本公开所属技术领域的编程员解译。
在这一点上,应注意,如上所述的本公开的各种示例实施例通常在一定程度上涉及输入数据处理和输出数据产生。这种输入数据处理和输出数据产生可以用硬件或软件与硬件的组合来实现。例如,可以在移动设备或者类似或相关电路中采用特定的电子组件来实现与上述本公开的各种示例实施例相关联的功能。备选地,根据所存储的指令操作的一个或多个处理器可以实现与上述本公开的各种实施例相关联的功能。如果是这种情况,则可以将这种指令存储在一个或多个非暂时性处理器可读介质上仍落入本公开的范围内。处理器可读介质的示例包括ROM、RAM、CD-ROM、磁带、软盘和光学数据存储设备。处理器可读介质也能够分布在网络耦接的计算机系统上,使得按照分布式方式来存储和执行指令。此外,用于实现本公开的功能计算机程序、指令和指令段能够容易地被本公开所属技术领域的编程员解译。
虽然已经利用示例实施例描述了本公开,但是本领域技术人员可以明了各种改变和修改。本公开意在涵盖落在所附权利要求范围内的这些改变和修改。

Claims (15)

1.一种电子设备,包括:
处理器;
通信接口,能够操作地耦接到所述处理器,所述通信接口被配置为从外部电子设备接收用户的语音数据和用户信息;以及
存储器,能够操作地耦接到所述处理器,所述处理器被配置为存储默认用于语音识别的通用语言模型、针对每个用户指定的第一语言模型、与每个用户的上下文信息相关联的第二语言模型、以及与由所述电子设备在从所述语音数据的接收时间起的预设时间段内所收集的词语相关联的第三语言模型,
所述处理器被配置为:
将所述第一语言模型、所述第二语言模型和所述第三语言模型中的至少一个与所述通用语言模型相组合以构建集成语言模型;
基于所述语音数据和所述集成语言模型来执行语音识别;以及
输出与所述语音数据相对应的语音识别结果。
2.根据权利要求1所述的电子设备,所述处理器还被配置为:
识别使用所述集成语言模型中的各个语言模型所提取的词语;
根据分配给所述各个语言模型的权重来选择所提取的词语中的一个;以及
基于所选择的词语来输出语音识别结果。
3.根据权利要求1所述的电子设备,所述处理器还被配置为:
识别使用所述集成语言模型中的各个语言模型所提取的词语;
如果所提取的词语是不同的,则根据分配给所述各个语言模型的权重来选择所提取的词语中的一个;
以及基于所选择的词语来输出语音识别结果。
4.根据权利要求1所述的电子设备,其中,所述第一语言模型是如下这样的语言模型:所述第一语言模型中所包含的词语与所述语音数据相匹配的概率是根据所述外部电子设备中所安装的应用的列表、所述外部电子设备的键盘使用历史、所述外部电子设备中所存储的联系人的列表或所述外部电子设备中所存储的音乐文件的播放列表中的至少一个而被不同地设置的。
5.根据权利要求1所述的电子设备,其中,所述第一语言模型是如下这样的语言模型:所述第一语言模型中所包含的词语与所述语音数据相匹配的概率是根据与使用所述外部电子设备的用户通信的对方而被不同地设置的。
6.根据权利要求1所述的电子设备,所述处理器还被配置为:
在所述第二语言模型中所包含的多个详细语言模型中选择与所述用户信息中的上下文信息相对应的一个或多个详细语言模型;以及
使用所选择的详细语言模型来构建新的第二语言模型。
7.根据权利要求6所述的电子设备,其中,所述第二语言模型是如下这样的语言模型:所述第二语言模型中所包含的词语与所述语音数据相匹配的概率是根据所述上下文信息而被不同地设置的。
8.根据权利要求7所述的电子设备,其中,所述上下文信息包括以下信息中的至少一项:关于所述外部电子设备上运行的应用的信息、关于所述语音数据的接收时间的信息、关于所述外部电子设备的位置的信息或者所述用户的个人信息。
9.根据权利要求1所述的电子设备,其中,所述第三语言模型是如下这样的语言模型:所述第三语言模型中所包含的词语与所述语音数据相匹配的概率是根据在从所述语音数据的接收时间起的预设时间段期间的使用频率而被不同地设置的。
10.一种电子设备,包括:
处理器;
麦克风,能够操作地耦接到所述处理器,所述麦克风被配置为接收用户的语音信号并将所述语音信号转换为语音数据;
通信接口,能够操作地耦接到所述处理器,所述通信接口被配置为向外部电子设备发送所述语音数据;以及
存储器,能够操作地耦接到所述处理器,所述存储器被配置为存储所述语音数据、用户信息和上下文信息;
所述处理器被配置为:
提取用户通过键盘所键入的词语;
控制所述通信接口向所述外部电子设备发送所提取的词语的列表;
控制所述通信接口从所述外部电子设备接收语音识别结果;以及
输出所述语音识别结果,
其中,所述语音识别结果是基于所述语音数据和集成语言模型而产生的,所述集成语言模型是通过将第一语言模型、第二语言模型和第三语言模型中的至少一个与通用语言模型相组合而构建的,其中所述第一语言模型是基于所述词语的列表构建的,所述第二语言模型是基于用户的上下文信息构建的,所述第三语言模型是基于由所述外部电子设备在从所述语音数据的发送时间起的预设时间段内所收集的词语来构建的,所述通用语言模型被默认用于语音识别。
11.根据权利要求10所述的电子设备,所述处理器还被配置为:
在所述第二语言模型中所包含的多个详细语言模型中选择与所述用户信息中的上下文信息相对应的一个或多个详细语言模型;以及
使用所选择的详细语言模型来构建新的第二语言模型。
12.一种用于电子设备的语音识别的方法,所述方法包括:
从外部电子设备接收用户的语音数据和用户信息;
通过将通用语言模型与第一语言模型、第二语言模型和第三语言模型中的至少一个相组合来构建集成语言模型,其中所述第一语言模型与所述用户信息中所包含的所述外部电子设备的标识符相关联,所述第二语言模型与所述用户的上下文信息相关联,所述第三语言模型与由所述电子设备在从所述语音时间的接收时间起的预设时间段内所收集的词语相关联;以及
基于所述集成语言模型来输出与所述语音数据相对应的语音识别结果。
13.根据权利要求12所述的方法,还包括:
向所述集成语言模型中所包含的各个语言模型输入所述语音数据,并识别由所述各个语言模型输出的词语;
根据分配给所述各个语言模型的权重来选择所输出的词语中的一个;以及
基于所选择的词语来输出语音识别结果。
14.根据权利要求12所述的方法,还包括:
识别使用所述集成语言模型中所包含的各个语言模型所提取的词语;
如果所提取的词语是不同的,则根据分配给所述各个语言模型的权重来选择所提取的词语中的一个;以及
基于所选择的词语来输出语音识别结果。
15.根据权利要求12所述的方法,其中,所述第一语言模型是如下这样的语言模型:所述第一语言模型中所包含的词语与所述语音数据相匹配的概率是根据所述外部电子设备中所安装的应用的列表或者所述外部电子设备的键盘使用历史中的至少一个而被不同地设置的。
CN201711210851.9A 2016-12-23 2017-11-27 电子设备及其语音识别方法 Pending CN108242235A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0178069 2016-12-23
KR1020160178069A KR20180074210A (ko) 2016-12-23 2016-12-23 전자 장치 및 전자 장치의 음성 인식 방법

Publications (1)

Publication Number Publication Date
CN108242235A true CN108242235A (zh) 2018-07-03

Family

ID=60673598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711210851.9A Pending CN108242235A (zh) 2016-12-23 2017-11-27 电子设备及其语音识别方法

Country Status (4)

Country Link
US (1) US10818285B2 (zh)
EP (1) EP3340239A1 (zh)
KR (1) KR20180074210A (zh)
CN (1) CN108242235A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243468A (zh) * 2018-11-14 2019-01-18 北京羽扇智信息科技有限公司 语音识别方法、装置、电子设备及存储介质
CN109545218A (zh) * 2019-01-08 2019-03-29 广东小天才科技有限公司 一种语音识别方法及系统
CN110931018A (zh) * 2019-12-03 2020-03-27 珠海格力电器股份有限公司 智能语音交互的方法、装置及计算机可读存储介质
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
JP2021068167A (ja) * 2019-10-23 2021-04-30 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
CN112837683A (zh) * 2020-12-31 2021-05-25 苏州思必驰信息科技有限公司 语音服务方法及装置
CN113016029A (zh) * 2018-11-02 2021-06-22 株式会社赛斯特安国际 提供基于上下文的语音识别服务的方法及装置
US12020696B2 (en) 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180074210A (ko) * 2016-12-23 2018-07-03 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 방법
CN108428446B (zh) * 2018-03-06 2020-12-25 北京百度网讯科技有限公司 语音识别方法和装置
CN108986835B (zh) * 2018-08-28 2019-11-26 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
KR20200046188A (ko) * 2018-10-19 2020-05-07 삼성전자주식회사 인공 지능 모델을 재구성하기 위한 전자 장치 및 그의 제어 방법
US11062697B2 (en) * 2018-10-29 2021-07-13 International Business Machines Corporation Speech-to-text training data based on interactive response data
RU2744063C1 (ru) * 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
KR102346026B1 (ko) 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR102339085B1 (ko) * 2019-07-22 2021-12-14 엘지전자 주식회사 사용자의 어플리케이션 사용 기록을 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
CN110706692B (zh) * 2019-10-21 2021-12-14 思必驰科技股份有限公司 儿童语音识别模型的训练方法及系统
CN110808052A (zh) * 2019-11-12 2020-02-18 深圳市瑞讯云技术有限公司 语音识别方法、装置及电子设备
KR20210064928A (ko) * 2019-11-26 2021-06-03 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체
CN111145756B (zh) * 2019-12-26 2022-06-14 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置
US11893976B2 (en) * 2020-07-06 2024-02-06 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
EP4095853B1 (en) * 2021-05-27 2023-11-15 Honeywell International Inc. Dynamic speech recognition methods and systems with user-configurable performance

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US7752152B2 (en) 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US8571857B2 (en) * 2010-10-20 2013-10-29 At&T Intellectual Property I, L.P. System and method for generating models for use in automatic speech recognition
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US9047868B1 (en) * 2012-07-31 2015-06-02 Amazon Technologies, Inc. Language model data collection
KR20160030168A (ko) 2013-07-09 2016-03-16 주식회사 윌러스표준기술연구소 음성 인식 방법, 장치 및 시스템
KR102292546B1 (ko) 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US9502032B2 (en) 2014-10-08 2016-11-22 Google Inc. Dynamically biasing language models
KR20180074210A (ko) * 2016-12-23 2018-07-03 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 방법

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113016029A (zh) * 2018-11-02 2021-06-22 株式会社赛斯特安国际 提供基于上下文的语音识别服务的方法及装置
CN109243468A (zh) * 2018-11-14 2019-01-18 北京羽扇智信息科技有限公司 语音识别方法、装置、电子设备及存储介质
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores
CN111292728B (zh) * 2018-11-21 2024-05-28 三星电子株式会社 语音识别方法和设备
CN109545218A (zh) * 2019-01-08 2019-03-29 广东小天才科技有限公司 一种语音识别方法及系统
US12020696B2 (en) 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant
JP2021068167A (ja) * 2019-10-23 2021-04-30 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
JP7029434B2 (ja) 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
CN110931018A (zh) * 2019-12-03 2020-03-27 珠海格力电器股份有限公司 智能语音交互的方法、装置及计算机可读存储介质
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
CN112837683A (zh) * 2020-12-31 2021-05-25 苏州思必驰信息科技有限公司 语音服务方法及装置

Also Published As

Publication number Publication date
US10818285B2 (en) 2020-10-27
KR20180074210A (ko) 2018-07-03
US20180182386A1 (en) 2018-06-28
EP3340239A1 (en) 2018-06-27

Similar Documents

Publication Publication Date Title
CN108242235A (zh) 电子设备及其语音识别方法
US11561763B2 (en) Electronic device for processing multi-modal input, method for processing multi-modal input and server for processing multi-modal input
CN107077464B (zh) 电子设备和用于其口头交互的方法
US20190260866A1 (en) Electronic device and method of executing function of electronic device
CN108027952B (zh) 用于提供内容的方法和电子设备
CN104423703B (zh) 用于显示应用信息的电子设备和方法
CN108496220B (zh) 电子设备及其语音识别方法
CN111261144B (zh) 一种语音识别的方法、装置、终端以及存储介质
CN109074158A (zh) 电子设备及其启动应用的方法
EP2816554A2 (en) Method of executing voice recognition of electronic device and electronic device using the same
CN110008678A (zh) 电子设备和在电子设备中注册指纹的方法
US10573317B2 (en) Speech recognition method and device
CN106575424A (zh) 使音乐信息可视化的方法和装置
CN108806669A (zh) 用于提供语音识别服务的电子装置及其方法
CN106101979A (zh) 用于短距离无线通信的方法和使用该方法的电子设备
EP3603040B1 (en) Electronic device and method of executing function of electronic device
CN108701127A (zh) 电子设备及其操作方法
WO2014176750A1 (en) Reminder setting method, apparatus and system
CN109643540A (zh) 用于人工智能语音演进的系统和方法
CN104035995A (zh) 群标签生成方法及装置
CN104978045B (zh) 一种汉字输入方法及装置
CN104423837A (zh) 用于显示控制的方法及其电子设备
CN108475286A (zh) 用于管理电子装置中的历史信息的设备及方法
CN105933689A (zh) 图像处理方法和支持该方法的电子设备
CN107402659A (zh) 电子设备及接收其用户输入的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180703

WD01 Invention patent application deemed withdrawn after publication