CN106133826A - 用于语言模型自定义的灵活模式 - Google Patents

用于语言模型自定义的灵活模式 Download PDF

Info

Publication number
CN106133826A
CN106133826A CN201580016605.2A CN201580016605A CN106133826A CN 106133826 A CN106133826 A CN 106133826A CN 201580016605 A CN201580016605 A CN 201580016605A CN 106133826 A CN106133826 A CN 106133826A
Authority
CN
China
Prior art keywords
language model
prompting
model component
localized language
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580016605.2A
Other languages
English (en)
Other versions
CN106133826B (zh
Inventor
M·列维特
H·盖尔曼
常双羽
S·帕塔萨拉蒂
B·杜莫林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106133826A publication Critical patent/CN106133826A/zh
Application granted granted Critical
Publication of CN106133826B publication Critical patent/CN106133826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/0225User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems
    • G06F15/0233User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems with printing provisions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

提供了对用于语音识别的语言模型组件的自定义。可以使得语言模式组件的列表可以由计算设备使用。接着,将用于对来自列表的多个语言模型组件进行组合的提示发送至识别服务提供者。该提示可以基于多个不同的领域。接着,可以从识别服务提供者处接收基于该提示的语言模型组件的自定义的组合。

Description

用于语言模型自定义的灵活模式
背景技术
诸如智能手机、台式机、笔记本电脑、平板电脑、游戏主控台等之类的许多计算设备都利用包含了自动语音识别(ASR)以在多个不同领域(例如,语音搜索和短消息听写)上使用的应用。为了改进语音识别的质量,常常利用语言模型(例如,购物、游戏、音乐、电影等)来促进对专注于不同领域的语音的识别。目前与语言模型的使用相关联的缺点包括ASR场景,其中不同的领域需要由识别服务提供者同时服务。在这些场景中,可能需要将许多潜在的大语言模型保存在存储器中,这可能会对服务提供者的资源造成负担。关于这些问题和其他问题而完成了本发明的各种实施例。
发明内容
提供了该发明内容以用简化的形式介绍在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在帮助确定所要求保护的主题的范围。
实施例提供了对用于语音识别的语言模型组件的自定义。可以使语言模型组件的列表可由计算设备使用。接着,将用于对来自列表的多个语言模型组件进行组合的提示发送至识别服务提供者。该提示可以是基于多个不同领域的。接着,可以基于该提示而由计算设备来接收语言模型组件的经自定义的组合。
从对以下的具体实施方式的阅读以及对附图的查看,这些和其他特征及优点将是显然的。应当理解的是,前述的一般描述和以下的详细描述都仅是说明性的而不对所要求保护的发明进行限制。
附图说明
图1是根据实施例的示出了用于对用于语音识别的语言模型组件进行自定义的系统的框图;
图2是根据实施例的示出了可以由图1的系统所利用的各种提示的框图;
图3是根据实施例的示出了可以在图1的系统中利用的各种领域的框图;
图4是根据实施例的示出了用于对用于语音识别的语言模型组件进行自定义的例程的流程图;
图5是利用其可以实现各种实施例的计算设备的简化框图;
图6A是利用其可以实现各种实施例的移动计算设备的简化框图;
图6B是利用其可以实现各种实施例的移动计算设备的简化框图;和
图7是其中可以实现各种实施例的分布式计算系统的简化框图。
具体实施方式
实施例提供了对用于语音识别的语言模型组件的自定义。可以使语言模型组件的列表对计算设备可用。接着,将用于对来自列表的多个语言模型组件进行组合的提示发送至识别服务提供者。该提示可以是基于多个领域中的一个领域的。接着,可以基于该提示而由计算设备来接收对语言模型组件的经自定义的组合。
在以下的具体描述中,对形成了本文的一部分并且作为图示而示出了具体的实施例或示例的附图进行了参考。可以组合这些实施例、利用其他实施例、并且进行结构改变而不脱离本发明的精神和范围。因此,以下的详细描述不应被看作限制性意义,并且本发明的范围是由所附的权利要求及其等同物所限定的。
现在将参考附图来描述本发明的各种方面,在几幅图通篇中的相同的附图标记表示相同的元素。图1是根据实施例的示出了可以用于对用于语音识别的语言模型组件进行自定义的系统100的框图。系统100可以包括可以与被配置为从一个或多个用户(未示出)处接收音频和/或文本输入的计算设备150进行通信的识别服务提供者102。在一个实施例中,识别服务提供者102可以基于由在计算设备150上执行的应用170所提供的、用于针对具体的语音识别领域或场景而定制的语言模型组件的各种组合的“提示”160(即“提示”)(即指引)而被配置为针对对于语音识别的“即时(on-the-fly)”或在线语言模型插值。特别地,并且如将在本文中更加详细地描述的,由应用170所提供的提示160可以包括用于由识别服务提供者102进行的用于语言模型自定义的灵活模式。
根据各种实施例,计算设备150可以包括而不限于:台式计算机、膝上型计算机、智能电话、视频游戏控制台、或电视机。计算设备150还可以包括用于检测语音和接收视频/图像的一个或多个记录设备(未示出)(例如,MICROSOFT KINECT、麦克风等)或者与其进行通信。计算设备150可以存储应用170,所述应用170可以被配置为提供可以由识别服务提供者102利用以对语言模型(LM)组件120进行自定义的提示160。根据实施例(并且如将在下文中所详细描述的),应用170可以被配置为生成包括LM组件120的LM组件列表165。在实施例中,LM组件120可以包括可以用于语音识别的组件125A-125N。在一些实施例中,基于具体的领域、场景、或情境,组件125A-125N的各种组合可以包括或被提供有权重130(例如,由应用开发者)。例如,包括针对主要用于游戏的领域或场景而定制的组件125A-125N的组合的语言模型可以具有以下的所应用的权重:游戏:0.5,电影,0.3以及音乐0.2)。其他组件类型(例如,购物等)及权重组合也是可能的。
在一些实施例中,可以在对由服务提供者102基于包含在从应用170所接收的提示160中的指引而自定义的组件组合进行选择(即,语言模型105)时来利用LM组件120。特别地,语言模型105可以包括但不限于:预编译的组件组合110、基于主题的组件组合112、固定权重的组件组合114、以及其他组件组合116。例如,包括预编译的组件组合110的语言模型可以针对具体的领域(例如,短消息听写的语音搜索)而定制,包括基于主题的组件组合112的语言模型可以基于可用的项目的预编译列表,所述可用的项目基于与在系统100中当前可用的LM组件相对应的一个或多个主题/风格(例如,购物、游戏、音乐等),并且包括固定权重的组合组件114的语言模型可以包括针对开发者对特定的场景的直觉而定制的LM组件的现有固定权重组合(例如,权重130已被应用于LM组件)。
如将在本文中更加详细地描述的,识别服务提供者102可以在针对各种识别情境或场景而选择合适的LM组件组合时利用提示160。在一个实施例中,提示160可以由应用170作为识别请求175(即,针对“即时”)的一部分的语言模型插值而提交至识别服务提供者102。在另一个实施例中,提示160可以由应用170作为离线初始化过程的一部分而提交至识别服务提供者102。根据实施例,应用170可以包括语音识别应用,例如来自华盛顿州Redmond市的MICROSOFT CORPORATION的BING VOICE SEARCH、WINDOWS PHONE SHORTMESSAGE DICTATION、以及XOBX MARKET PLACE VOICE SEARCH应用。然而应当理解的是,可以可替代地利用根据在本文中所描述的各种实施例的来自其他厂家的其他应用(包括操作系统)。
图2是根据实施例的示出了可以由图1的系统100利用的各种提示160的框图。提示160可以包括预定义组合提示210、识别主题提示220、重新使用现有组合提示230、文本语料库提示240、以及音频语料库提示250。预定义组合提示210可以包括对覆盖宽泛的领域(例如,语音搜索、短消息听写等)的LM组件(例如,LM组件120)的预定义的选择(例如,由应用开发者)。预定义的选择可以包含,例如,由识别服务提供者102对针对“即时”的组件插值的LM组件的预编译的语言模型或现有的固定权重组合。
识别主题提示220可以包含对来自与LM组件120相对应的可用的项目的预编译列表中的一个或多个主题/风格的手动选择。例如,如果LM组件包括购物、游戏、音乐、电影等,则预编译列表可以包括与由被确定为关于特定的语音识别应用(例如,针对游戏控制台的游戏、电影和音乐)的应用开发者所选择的LM组件相对应的项目。如在上文中所讨论的,在一些实施例中,也可以由应用开发者向LM组件提供权重。应当理解的是,在识别服务提供者102接收到识别主题提示220之后,识别服务提供者102可以在从应用170接收到的识别请求后而利用所提供的权重来对经选择的LM组件进行插值。
重新使用现有组合提示230可以参考对LM组件的现有的特定于场景的组合的重新使用。例如,应用开发者可以已经具有现有的识别应用,其中,LM组件的组合之前已经针对该现有的识别应用进行了优化。响应于该重新使用现有组合提示230,可以由识别服务提供者102针对新的但是类似的场景来重新使用相同的组合。
文本语料库提示240可以包括供系统100来学习关于该语料库而插值系数的最佳LM组件的领域内文本语料库。例如,如果应用开发者提供一批有关软件的副本,则可以期望该所得到的语言模型来处理有关软件的音频请求。本领域技术人员应当理解的是,可以利用诸如期望值最大化算法之类的技术来优化关于该语料库的LM组件权重向量。应当理解的是,与在上文中所讨论的提示210-230相反,文本语料库提示240(以及在下文中所讨论的音频语料库提示250)是隐含的提示。
音频语料库提示250可以包括供系统100来学习关于该语料库而插值系数的最佳LM组件的领域内音频语料库。应当理解的是,在实施例中,为了获得类似的识别准确度,可能需要比领域内文本语料库所需的样本数量更多的样本。
图3是根据实施例的示出了可以在图1的系统100中利用的各种领域300的框图。领域300可以包括宽泛的领域,例如语音搜索领域310和短消息听写领域320。领域300也可以包括狭窄的领域,例如游戏控制台领域330。在一些实施例中,应用170可以被配置为分配直观的领域名称(例如,“XBOX领域”),以用于指定LM组件组合。除了在上文中所标识的那些领域之外,领域300还可以包括其他领域340,所述其他领域340可以包括宽泛的或狭窄的领域。
图4是根据实施例的示出了用于对用于语音识别的语言模型组件进行自定义的例程400的流程图。当阅读对在本文中所呈现的例程的讨论时,应当理解的是,可以将本发明的各种实施例的逻辑操作实现为(1)在计算系统上运行的计算机实现的行为或程序模块的序列,和/或(2)计算系统内的互连的机器逻辑电路或电路模块。实现是取决于实现本发明的计算系统的性能要求的选择问题。从而,在图4中所示出并且组成在本文中所描述的各种实施例的逻辑操作不同地被称为操作、结构性设备、行为、或模块。本领域技术人员应当理解的是,这些操作、结构性设备、行为、和模块可以在软件、在硬件、在固件、在专用数字逻辑、及其任意组合中被实现,而不偏离如在本文中所阐述的权利要求中所述的本发明的精神和范围。
例程400在操作405处开始,其中在计算设备150上执行的应用170可以呈现语言模型(LM)组件的列表以供用户(例如,应用开发者)选择。在各种实施例中,该列表可以被显示在用户界面155中,或者,可替代地,经由程序访问被提供至应用开发者。例如,该列表可以包括在上文中关于图1所描述的LM组件列表165。
从操作405开始,程序400继续至操作410,其中,在计算设备150上执行的应用170可以发送用于对从该列表中所选择的LM组件进行组合的提示160。提示160可以基于领域300中的一个或多个领域。例如,在一个实施例中,提示160可以包括对基于一个或多个领域的预编译的语言模型(例如,预编译的组件组合110)的选择。在另一个实施例中,提示160可以包括对基于一个或多个领域的LM组件的固定权重的组合(例如,固定权重的组件组合114)的选择。而在另一个实施例中,提示160可以包括对与LM组件中的一个或多个相对应的一个或多个识别主题(例如,来自预编译列表)(例如,基于主题的组合112)的选择。如在上文中关于图1所讨论的,也可以将一个或多个权重130应用至LM组件。如在上文中关于图2所描述的,在另一个实施例中,提示160可以包括领域内文本语料库或者领域内音频语料库。在另一个实施例中,提示160可以包括用于重新使用的LM组件的现有的组合。应当理解的是,在一个实施例中,可以由应用170将提示160与识别请求一起发送至识别服务提供者102。在另一个实施例中,可以在发送识别请求之前而将提示160作为离线初始化过程的一部分发送至识别服务提供者102。例如,应用开发者可以在启动应用之前作为注册过程的一部分而提交提示160,以便给识别服务提供者102提供足够的时间来处理提示160。应当理解的是,可以以该方式发送诸如领域内文本语料库和领域内语音语料库(在上文中所讨论的)之类的隐含的提示。
例程400从操作410继续至操作415,其中,在计算设备150上执行的应用170可以接收基于提示160而对LM组件的经自定义的组合。特别地,计算设备150可以接收由识别服务提供者102基于在提示160中所接收到的引导而自定义的语音模型(例如,语言模型105中的一个语言模型)。
例程400从操作415继续至操作420,其中,在计算设备150上执行的应用170可以维持所提交的提示160与相关联的LM组件之间的连接。例如,应用170可以被配置为维持包括由应用开发者手动选择的主题的提示与由识别服务提供者102所自定义的对应的LM组合或语言模型的寿命周期之间的稳定的连接。特别地,并且根据实施例,可以给应用开发者提供唯一的ID,可以利用该唯一的ID来引用用于根据由应用开发者所标识的特定的场景(或类似的场景)而进行识别的特定的经自定义的语言模型。应当理解的是,可以在各种粒度等级上应用前述的方法,包括但不限于:每领域、每场景、每应用、每应用领域、以及每应用用户、及其组合。接着例程400从操作415结束。
图5-7和相关联的描述提供了对其中可以实践本发明的多种操作环境的讨论。然而,关于图5-7所示出并讨论的设备和系统是出于示例和图示的目的的,并且不限于可以用于实践在本文中所描述的本发明的实施例的大量计算设备配置。
图5是示出了利用其可以实践计算设备500的示例物理组件的框图。在基本配置中,计算设备500可以包括至少一个处理单元502和系统存储器504。取决于计算设备的配置和类型,系统存储器504可以包括但不限于:易失性(例如随机存取存储器(RAM))、非易失性(例如,只读存储器(ROM))、闪速存储器、或任何组合。系统存储器504可以包括操作系统505和应用170。例如,操作系统505可以适用于控制计算设备500的操作,并且根据实施例,可以包括来自华盛顿州Redmond市的MICROSOFT CORPORATION的WINDOWS操作系统。应用170(在一些实施例中,其可以被包括在操作系统505中)可以包括用于执行例程的功能,所述例程包括例如,如在上文中关于图4的例程400中的操作所描述的那样对语言模型组件进行自定义。
计算设备500可以具有额外的特征和功能。例如,计算设备500还可以包括额外的数据存储设备(可移动的和/或不可移动的),例如,磁盘、光盘、固态存储设备(“SSD”)、闪速存储器、或磁带。在图5中由可移动存储设备509和不可移动存储设备510示出了这样的额外的存储设备。计算设备500还可以具有诸如键盘、鼠标、笔、声音输入设备(例如,麦克风)、用于接收手势的触摸输入设备、加速度计、或旋转传感器等之类的输入设备512。还可以包括诸如显示器、扬声器、打印机等之类的输出设备514。前述的设备是示例并且可以使用其他的设备。计算设备500可以包括允许与其他计算设备518进行通信的一个或多个通信连接516。合适的通信连接516的示例包括但不限于:RF发射机、接收机、和/或收发机电路;通用串行总线(USB)、并行、和/或串行端口。
此外,可以在包括分立的电子元件的电气电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或包含电子元件或微处理器的单片机上实践各种实施例。例如,可以经由片上系统(SOC)来实践各种实施例,其中在片上系统中,可以将在图5中所示出的组件中的每个或许多个集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能,其全部都作为单集成电路而集成(或“烧”)到芯片基板上。当经由SOC进行操作时,可以经由在单个集成电路(芯片)上与设备/系统500的其他组件集成的专用逻辑,来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如,AND、OR和NOT)的其他技术来实践本发明的实施例,所述其它技术包括但不限于机械、光学、流体、和量子技术。另外,可以在通用计算机内或在任何其他电路或系统中实践本发明的实施例。
如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质包括以用于存储信息(例如,计算机可读指令、数据结构、或程序模块)的任何方法或技术来实现的易失性和非易失性的、可移动和不可移动的介质。系统存储器504、可移动存储设备509、以及不可移动存储设备510都是计算机存储介质的示例(即,存储器存储)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其它存储技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备、或者可用于存储信息并可由计算设备500访问的任何其它制品。任何这样的计算机存储介质可以是计算设备500的一部分。计算机存储介质不包括载波或其他传播的或已调的数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块、或已调数据信号(例如,载波或其他传输机制)中的其他数据来实施,并且包括任何信息传递介质。术语“已调数据信号”可以描述具有一个或多个特征集合或者以将信息编码在信号中的方式进行改变的信号。作为示例而非限制,通信介质可以包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学的、射频(RF)的、红外的、和其他无线介质之类的无线介质。
图6A和图6B示出了利用其可以实践各种实施例的合适的移动计算环境,例如,可以包括但不限于智能电话、平板个人计算机、膝上型计算机等的移动计算设备650。参考图6A,示出了用于实现实施例的示例移动计算设备650。在基本配置中,移动计算设备650是具有输入元件和输出元件两者的手持计算机。输入元件可以包括允许用户将信息输入到移动计算设备650中的触屏显示器625以及输入按钮610。移动计算设备650还可以包含允许进一步的用户输入的可选的侧输入元件620。可选的侧输入元件620可以是旋转开关、按钮、或任何其他类型的手动输入元件。在可替代的实施例中,移动计算设备650可以包含更多或更少的输入元件。在另一个可替代的实施例中,移动计算设备是便携式电话系统,例如,具有显示器625和输入按钮610的蜂窝电话。移动计算设备650还可以包括可选的小键盘605。可选的小键盘605可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。
移动计算设备650包含输出元件,例如,可以显示图形用户界面(GUI)的显示器625。其他输出元件包括扬声器630和LED 680。额外地,移动计算设备650可以包含使得移动计算设备650进行振动以通知用户关于事件的振动模块(未示出)。在另一个实施例中,移动计算设备650可以包含耳机插孔(未示出)以用于提供另一个方式来提供输出信号。
尽管在本文中结合移动计算设备650进行了描述,但在可替代的实施例中可以结合任何数量的计算机系统来使用,例如,在台式计算机环境、膝上型或笔记本计算机系统、在多处理器系统、基于微处理器的或可编程的消费性电子产品、网络PC、微型计算机、大型计算机等中。还可以在分布式计算环境中实践各种实施例,其中在分布式环境中,由通过分布式计算环境中的通信网络所链接的远程处理设备来执行任务;程序既可以位于本地,又可以位于远程存储器存储设备中。总而言之,具有多个环境传感器、用于向用户提供通知的多个输出元件、以及多个通知事件类型的计算机系统可以包含在本文中所描述的各种实施例。
图6B是示出了在一个实施例中所使用的移动计算设备(例如,在图1中所示出的移动计算设备650)的组件的框图。即,移动计算设备650可以包含用于实现一些实施例的系统602。例如,可以在实现可以运行类似于台式计算机或笔记本计算机的应用的一个或多个应用的“智能电话”时使用系统602。在一些实施例中,将系统602集成为计算设备,例如,集成的个人数字助理(PDA)和无线电话。
应用170可以被加载到存储器662中,并且在操作系统664上运行或结合操作系统664运行。系统602还包括存储器662内的非易失性存储668。非易失性存储668可以用于存储如果系统602断电而不应该丢失的持续的信息。应用170可以使用非易失性存储668中的信息并且将信息存储在非易失性存储668中。例如,应用170可以包括用于执行例程的功能,所述例程包括,例如,如在上文中关于图4的例程400中的操作所描述的那样对语言模型组件进行自定义。同步应用(未示出)还驻留在系统602上并且被编程以与驻留在主机计算机上的对应的同步应用进行交互,从而保持存储在非易失性存储668中的信息与存储在主机计算机上的对应的信息相同步。应当理解的是,还可以将其他应用加载到存储器662中并且在移动计算设备650上运行。
系统602具有可以被实现为一个或多个电池的电源670。电源670还可以包括外置电源,例如,AC适配器或者给电池供电或充电的加电对接托架。
系统602还可以包括执行发送和接收射频通信的功能的无线电设备672(即,无线电接口层)。无线电设备672经由通信载波或服务提供者来促成系统602与“外部世界”之间的连通性。来往于无线电设备672的传输是在OS 664的控制下进行的。换句话说,可以将由无线电设备672所接收的通信经由OS 664散播至应用170,并且反之亦然。
无线电设备672允许系统602例如通过网络与其他计算设备进行通信。无线电设备672是通信介质的一个示例。系统602的实施例被示出具有两种类型的通知输出设备:可以用于提供视觉通知的LED 680以及可以与扬声器630一起使用以提供音频通知的音频接口674。这些设备可以直接耦合至电源670,因此当被激活时,即使处理器660和其他组件可以关闭以节省电池电量,这些设备保持通电并持续由通知机制所指示的一段时间。LED 680可以被编程为无限期地保持通电,直到用户采取动作来指示设备的通电状态为止。音频接口674用于向用户提供能够听见的信号,并且从用户接收能够听到的信号。例如,除了耦合至扬声器630,音频接口674还可以耦合至麦克风(未示出)以接收能够听见的(例如,语音)输入,例如,从而促进电话会话。根据实施例,麦克风还可以充当音频传感器以促进对通知的控制。系统602还可以包括支持用于记录静止的图像、视频流等的板载相机的操作的视频接口676。
实现系统602的移动计算设备可以具有额外的特征或功能。例如,设备还可以包括额外的数据存储设备(可移动的和/或不可移动的),例如,磁盘、光盘、或磁带。在图6B中由存储668示出了这样额外的存储。
如在上文中所描述的,可以将由移动计算设备650所生成或捕获的数据/信息以及经由系统602所存储的数据/信息本地地存储在移动计算设备650上,或者可以将数据存储在可以经由无线电设备672或经由移动计算设备650和与移动计算设备650相关联的单独的计算设备(例如,分布式计算网络(例如,互联网)中的服务器计算机)之间的有线连接由设备来访问的任何数量的存储介质上。应当理解的是,可以经由移动计算设备650、经由无线电设备672、或者经由分布式计算网络来访问这样的数据/信息。类似地,根据公知的数据/信息传输和存储方式(包括电子邮件和协同数据/信息共享系统),这样的数据/信息可以容易地在计算设备之间传输以供存储和使用。
图7是其中可以实践各种实施例的分布式计算系统的简化框图。分布式计算系统可以包括多个客户端设备,例如计算设备703、平板计算设备705、以及移动计算设备710。客户端设备703、705、710可以与分布式计算网络715(例如,互联网)进行通信。服务器720通过网络715与客户端设备703、705、710进行通信。服务器720可以存储可以执行例程的应用170,所述例程包括,如在上文中关于图4的例程400中的操作所描述的那样对语言模型组件进行自定义。
可以将与应用170相关联地开发、交互、或编辑的内容存储在不同的通信信道中或其他存储类型中。例如,可以使用目录服务722、门户网站724、邮箱服务726、即时消息传送存储728、或社交网络网站730来存储各种文档。如在本文中所描述的,应用170可以使用用于使能数据利用的这些类型的系统等中的任何一种。服务器720可以向客户端提供接近度应用170。作为一个示例,服务器720可以是提供通过网络的应用170的网络服务器。服务器720可以通过网络715来提供通过网络的应用170。作为示例,计算设备10可以被实现为计算设备703并且以个人计算、平板计算设备705、和/或移动计算设备710(例如,智能电话)来实施。计算设备703、705、和710的这些实施例中的任何一个可以从存储716中获得内容。
在上文中参考方法、系统、和计算机程序产品的框图和/或操作图描述了各种实施例。在方框中所记录的功能/操作可以按照不同于在任何流程图中所示出的顺序来进行。例如,取决于所涉及的功能/操作,连续地示出的两个方框可以实际上大体上同时执行,或者方框可以有时以相反的顺序执行。
在该公开中所提供的一个或多个实施例的描述或图示不旨在以任何方式限制或约束所要求保护的发明的范围。在该公开中所提供的实施例、示例、和细节被认为足以传达所有物,并且使得本领域技术人员能够制造并使用所要求保护的发明的最佳模式。所要求保护的发明不应该被解释为限于在该申请中所提供的任何实施例、示例、或细节。无论是共同地还是单独地示出或描述,(结构上和方法上两者的)各种特征旨在选被择性地包括或省略,以产生具有特定组的特征的实施例。在已经提供有本申请的描述和图示之后,本领域技术人员可以预想落入在该申请中所实施的一般的发明概念的更宽泛的方面的精神内的变型、修改和替代实施例,而不脱离所要求保护的发明的更宽泛的范围。

Claims (10)

1.一种对语言模型组件进行自定义的方法,包括:
由计算设备呈现语言模型组件的列表;
由所述计算设备发送用于对来自所述列表的多个语言模型组件进行组合的提示,所述提示是基于多个领域中的一个或多个领域的;以及
由所述计算设备接收基于所述提示的对所述多个语言模型组件的自定义的组合。
2.根据权利要求1所述的方法,还包括保持所述提示与所述多个语言模型组件中的一个或多个语言模型组件之间的连接。
3.根据权利要求1所述的方法,其中,由所述计算设备发送用于对来自所述列表的多个语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对预编译语言模型的选择。
4.根据权利要求1所述的方法,其中,由所述计算设备发送用于对来自所述列表的多个语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对所述多个语言模型组件的固定权重的组合的选择。
5.一种用于对语言模型组件进行自定义的系统,包括:
用于存储可执行程序代码的存储器;以及
功能地耦合至所述存储器的处理器,所述处理器对包含在所述程序代码内的计算机可执行指令进行响应并且可操作以:
呈现语言模型组件的列表;
发送用于对来自所述列表的多个语言模型组件进行组合的提示,所述提示是基于多个领域中的一个或多个领域的;
接收基于所述提示的对多个会话理解组件的自定义的组合;并且
保持所述提示与所述多个语言模型组件中的一个或多个语言模型组件之间的连接。
6.根据权利要求5所述的系统,其中,当发送用于对来自所述列表的所述多个语言模型组件进行组合的提示时,所述处理器可操作以发送基于所述多个领域中的所述一个或多个领域的对预编译语言模型的选择。
7.根据权利要求5所述的系统,其中,当发送用于对来自所述列表的所述多个语言模型组件进行组合的提示时,所述处理器可操作以发送基于所述多个领域中的所述一个或多个领域的对所述多个语言模型组件的固定权重的组合的选择。
8.一种存储计算机可执行指令的计算机可读存储,其中,当由计算机执行时,所述计算机可执行指令将使得计算机执行对语言模型组件进行自定义的方法,所述方法包括:
呈现不同的语言模型组件的列表;
发送用于对来自所述列表的多个不同的语言模型组件进行组合的提示,所述提示是基于多个领域中的一个或多个领域的,所述多个领域中的一个或多个领域包括语音搜索域和短消息听写域中的一个或多个领域;
接收基于所述提示的对所述多个不同的语言模型组件的自定义的组合;以及
保持所述提示与所述多个不同的语言模型组件中的一个或多个语言模型组件之间的连接。
9.根据权利要求8所述的计算机可读存储介质,其中,发送用于对来自所述列表的所述不同的语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对预编译语言模型的选择。
10.根据权利要求8所述的计算机可读存储介质,其中,发送用于对来自所述列表的所述多个不同的语言模型组件进行组合的提示包括发送基于所述多个领域中的所述一个或多个领域的对所述多个不同的语言模型组件的固定权重的组合的选择。
CN201580016605.2A 2014-03-27 2015-03-23 用于语言模型自定义的灵活模式 Active CN106133826B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/227,492 2014-03-27
US14/227,492 US9529794B2 (en) 2014-03-27 2014-03-27 Flexible schema for language model customization
PCT/US2015/021921 WO2015148333A1 (en) 2014-03-27 2015-03-23 Flexible schema for language model customization

Publications (2)

Publication Number Publication Date
CN106133826A true CN106133826A (zh) 2016-11-16
CN106133826B CN106133826B (zh) 2019-12-17

Family

ID=53039568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580016605.2A Active CN106133826B (zh) 2014-03-27 2015-03-23 用于语言模型自定义的灵活模式

Country Status (10)

Country Link
US (2) US9529794B2 (zh)
EP (1) EP3123467B1 (zh)
JP (1) JP6571106B2 (zh)
KR (1) KR102315104B1 (zh)
CN (1) CN106133826B (zh)
AU (1) AU2015236417B2 (zh)
CA (1) CA2940430C (zh)
MX (2) MX2016012195A (zh)
RU (1) RU2689203C2 (zh)
WO (1) WO2015148333A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111780A (zh) * 2018-01-31 2019-08-09 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110908667A (zh) * 2019-11-18 2020-03-24 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8181205B2 (en) 2002-09-24 2012-05-15 Russ Samuel H PVR channel and PVR IPG information
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN104281626B (zh) * 2013-07-12 2018-01-19 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品
KR20240076977A (ko) * 2022-11-24 2024-05-31 고려대학교 산학협력단 개체 유형 및 관계 정보에 대한 프롬프트 및 빈칸 추론을 이용한 대화 관계 추출 방법 및 장치

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
US20040088726A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a comprehensive user attention model
US20050165598A1 (en) * 2003-10-01 2005-07-28 Dictaphone Corporation System and method for modifying a language model and post-processor information
JP2007264128A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
US20080195388A1 (en) * 2007-02-08 2008-08-14 Microsoft Corporation Context based word prediction
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
JP2012118668A (ja) * 2010-11-30 2012-06-21 National Institute Of Information & Communication Technology パターン分類装置の学習装置及びそのためのコンピュータプログラム
US20120232885A1 (en) * 2011-03-08 2012-09-13 At&T Intellectual Property I, L.P. System and method for building diverse language models
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
EP2619713A1 (fr) * 2010-09-24 2013-07-31 Universite D'Avignon et Des Pays Du Vaucluse Procede de classification de donnees biometriques
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
WO2013171481A2 (en) * 2012-05-14 2013-11-21 Touchtype Limited Mechanism for synchronising devices, system and method
CN103456299A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置

Family Cites Families (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2631864B2 (ja) 1988-06-13 1997-07-16 大成建設株式会社 偏平トンネルの施工方法
US5170499A (en) 1989-03-06 1992-12-08 Motorola, Inc. Method and apparatus for adjusting the volume level of a radio
JP3168004B2 (ja) 1991-08-19 2001-05-21 レルナウト アンド ハウスピイ スピーチプロダクツ 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置
US5233681A (en) 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US6405132B1 (en) 1997-10-22 2002-06-11 Intelligent Technologies International, Inc. Accident avoidance system
US6167377A (en) 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
KR100241901B1 (ko) * 1997-08-28 2000-02-01 윤종용 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US20050091057A1 (en) 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6647270B1 (en) 1999-09-10 2003-11-11 Richard B. Himmelstein Vehicletalk
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6263308B1 (en) 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
DE60102242T2 (de) 2000-06-29 2005-01-27 Aspen Technology, Inc., Cambridge Rechnerverfahren und gerät zur beschränkung einer nicht-linearen gleichungsnäherung eines empirischen prozesses
US6807536B2 (en) 2000-11-16 2004-10-19 Microsoft Corporation Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices
US6622136B2 (en) 2001-02-16 2003-09-16 Motorola, Inc. Interactive tool for semi-automatic creation of a domain model
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US6970947B2 (en) 2001-07-18 2005-11-29 International Business Machines Corporation Method and apparatus for providing a flexible and scalable context service
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7006972B2 (en) 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora
US7191119B2 (en) 2002-05-07 2007-03-13 International Business Machines Corporation Integrated development tool for building a natural language understanding application
US7548847B2 (en) 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7756531B2 (en) 2002-09-04 2010-07-13 Farhad John Aminzadeh Method and apparatus for avoiding call disturbances and facilitating urgent calls based on a caller's decision
JP2004227468A (ja) 2003-01-27 2004-08-12 Canon Inc 情報提供装置、情報提供方法
US20040176083A1 (en) 2003-02-25 2004-09-09 Motorola, Inc. Method and system for reducing distractions of mobile device users
US7366655B1 (en) 2003-04-02 2008-04-29 At&T Corp. Method of generating a labeling guide for spoken dialog services
US7835910B1 (en) 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
CA2473195C (en) * 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
EP1654728A1 (en) 2003-08-01 2006-05-10 Philips Intellectual Property & Standards GmbH Method for driving a dialog system
US20050065789A1 (en) 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
JP2005157494A (ja) 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
EP2506252B1 (en) 2003-11-21 2019-06-05 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
CN100539763C (zh) 2003-11-27 2009-09-09 国际商业机器公司 控制来自移动车辆的无线通信的方法
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7693713B2 (en) 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8321220B1 (en) 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US20070128979A1 (en) 2005-12-07 2007-06-07 J. Shackelford Associates Llc. Interactive Hi-Tech doll
US7835911B2 (en) 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
DE102006006551B4 (de) 2006-02-13 2008-09-11 Siemens Ag Verfahren und System zum Bereitstellen von Sprachdialoganwendungen sowie mobiles Endgerät
IL174522A0 (en) 2006-03-23 2006-08-01 Jonathan Agmon Method for predictive typing
US7627536B2 (en) 2006-06-13 2009-12-01 Microsoft Corporation Dynamic interaction menus from natural language representations
US7716049B2 (en) 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008081543A1 (ja) 2006-12-28 2008-07-10 Fujitsu Limited 携帯端末装置、その通話制御プログラム、その通話制御プログラムを格納した記録媒体、及びその通話制御方法
TW200836893A (en) 2007-03-01 2008-09-16 Benq Corp Interactive home entertainment robot and method of controlling the same
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20070150428A1 (en) 2007-03-20 2007-06-28 Brandyn Webb Inference engine for discovering features and making predictions using generalized incremental singular value decomposition
JP2008233678A (ja) 2007-03-22 2008-10-02 Honda Motor Co Ltd 音声対話装置、音声対話方法、及び音声対話用プログラム
US8301757B2 (en) 2007-06-11 2012-10-30 Enghouse Interactive Inc. System and method for obtaining in-use statistics for voice applications in interactive voice response systems
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
CN101415039A (zh) 2007-10-17 2009-04-22 宏达国际电子股份有限公司 通话管理方法
US8229729B2 (en) 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8412529B2 (en) 2008-10-29 2013-04-02 Verizon Patent And Licensing Inc. Method and system for enhancing verbal communication sessions
US20100114890A1 (en) 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
KR101537078B1 (ko) * 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
WO2010051966A1 (en) 2008-11-07 2010-05-14 Lingupedia Investments Sarl Method for semantic processing of natural language using graphical interlingua
US20100128863A1 (en) 2008-11-21 2010-05-27 Robert Bosch Gmbh Context aware voice communication proxy
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US20100211695A1 (en) 2009-02-16 2010-08-19 Comverse, Ltd. Context-aware communications
US8930179B2 (en) 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US9177557B2 (en) 2009-07-07 2015-11-03 General Motors Llc. Singular value decomposition for improved voice recognition in presence of multi-talker background noise
US8886641B2 (en) * 2009-10-15 2014-11-11 Yahoo! Inc. Incorporating recency in network search using machine learning
US8571866B2 (en) 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
KR101622111B1 (ko) 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US8249627B2 (en) 2009-12-21 2012-08-21 Julia Olincy “I am driving/busy” automatic response system for mobile phones
US8315597B2 (en) 2009-12-21 2012-11-20 Julia Olincy “I am driving/busy” automatic response system for mobile phones
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8400332B2 (en) 2010-02-09 2013-03-19 Ford Global Technologies, Llc Emotive advisory system including time agent
JP2012038239A (ja) 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
JP2012075047A (ja) 2010-09-29 2012-04-12 Toshiba Corp Ip交換システム及びip交換装置
US8812321B2 (en) 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
JP5861649B2 (ja) 2011-02-03 2016-02-16 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
JP6087899B2 (ja) 2011-03-31 2017-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話ダイアログ学習および会話ダイアログ訂正
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US8260615B1 (en) 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US20120290293A1 (en) 2011-05-13 2012-11-15 Microsoft Corporation Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
US8918352B2 (en) 2011-05-23 2014-12-23 Microsoft Corporation Learning processes for single hidden layer neural networks with linear output units
US20130031476A1 (en) 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
KR20130022513A (ko) 2011-08-24 2013-03-07 한국전자통신연구원 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치
CA3023918C (en) 2011-09-30 2022-11-29 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8698621B2 (en) 2011-11-22 2014-04-15 Verizon Patent And Licensing Inc. Method and system for providing notifications of a mobile device in motion to determine call treatment
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
JP2012128440A (ja) 2012-02-06 2012-07-05 Denso Corp 音声対話装置
CN102609264A (zh) 2012-02-14 2012-07-25 深圳市同洲视讯传媒有限公司 一种调用应用程序编程接口生成调用代码的方法及装置
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US8600525B1 (en) 2012-05-31 2013-12-03 Honeywell Asca Inc. Efficient quadratic programming (QP) solver for process control and optimization
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
KR101559124B1 (ko) 2013-02-28 2015-10-12 한양대학교 산학협력단 리튬황전지용 양극, 이를 포함하는 리튬황전지 및 이의 제조 방법
US9177550B2 (en) 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9280968B2 (en) 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
US9721561B2 (en) 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US9373324B2 (en) 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US9400955B2 (en) 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
KR101937655B1 (ko) 2013-12-31 2019-01-11 코오롱인더스트리 주식회사 복합 중공사막 및 그 제조방법
US10339920B2 (en) 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US20150325236A1 (en) 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
US20040088726A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a comprehensive user attention model
US20050165598A1 (en) * 2003-10-01 2005-07-28 Dictaphone Corporation System and method for modifying a language model and post-processor information
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
JP2007264128A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
US20080195388A1 (en) * 2007-02-08 2008-08-14 Microsoft Corporation Context based word prediction
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム
EP2619713A1 (fr) * 2010-09-24 2013-07-31 Universite D'Avignon et Des Pays Du Vaucluse Procede de classification de donnees biometriques
JP2012118668A (ja) * 2010-11-30 2012-06-21 National Institute Of Information & Communication Technology パターン分類装置の学習装置及びそのためのコンピュータプログラム
US20120232885A1 (en) * 2011-03-08 2012-09-13 At&T Intellectual Property I, L.P. System and method for building diverse language models
CN103049792A (zh) * 2011-11-26 2013-04-17 微软公司 深层神经网络的辨别预训练
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
WO2013171481A2 (en) * 2012-05-14 2013-11-21 Touchtype Limited Mechanism for synchronising devices, system and method
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103456299A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111780A (zh) * 2018-01-31 2019-08-09 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
CN110908667A (zh) * 2019-11-18 2020-03-24 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备

Also Published As

Publication number Publication date
KR20160138424A (ko) 2016-12-05
JP2017515141A (ja) 2017-06-08
WO2015148333A1 (en) 2015-10-01
AU2015236417A1 (en) 2016-09-08
MX2016012195A (es) 2017-01-05
US9529794B2 (en) 2016-12-27
MX2021008012A (es) 2021-08-05
RU2016138130A3 (zh) 2018-10-19
EP3123467B1 (en) 2019-09-11
US10497367B2 (en) 2019-12-03
KR102315104B1 (ko) 2021-10-19
EP3123467A1 (en) 2017-02-01
US20170103753A1 (en) 2017-04-13
CA2940430C (en) 2022-05-03
AU2015236417B2 (en) 2019-12-19
RU2016138130A (ru) 2018-04-27
US20150278191A1 (en) 2015-10-01
CA2940430A1 (en) 2015-10-01
RU2689203C2 (ru) 2019-05-24
JP6571106B2 (ja) 2019-09-04
CN106133826B (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN106133826A (zh) 用于语言模型自定义的灵活模式
CN106104673B (zh) 深度神经网络的低资源占用适配和个性化
CN105378624B (zh) 在交互出现于白板上时显示交互
CN104915835B (zh) 信用账户创建装置、系统和方法
JP6492069B2 (ja) 環境を認識した対話ポリシーおよび応答生成
CN108242235A (zh) 电子设备及其语音识别方法
CN104428749A (zh) 由用户动作触发的可视ui向导
CN106778117B (zh) 权限开启方法、装置及系统
CN104238909A (zh) 快速执行移动装置的锁定屏幕上的应用的方法及移动装置
CN105378817A (zh) 将外部动态内容合并到白板中
CN104917796B (zh) 信用账户创建装置、系统和方法
CN106164908A (zh) 现代文档保存与同步状况
CN109891828A (zh) 用于协作工作空间环境的上下文画布
CN108027695A (zh) 基于体验模式转换的应用用户接口重新配置
CN109923834A (zh) 用于协作工作空间环境的上下文对话
CN104035995A (zh) 群标签生成方法及装置
CN104049891A (zh) 在显示器未确认模式下执行动作的移动装置及其控制方法
CN107071512A (zh) 一种配音方法、装置及系统
CN109313589A (zh) 实现与外部功能的交互
CN106062709A (zh) 将主题信息从主机应用传播到主机扩展
CN103207726A (zh) 在便携式终端中提供快捷服务的装置和方法
CN105339946A (zh) 用于提供安全环境的设备和方法
CN106559573A (zh) 移动终端及多媒体数据处理方法
EP3319328A1 (en) Streaming service method and device
CN108476262B (zh) 电子设备和用于控制电子设备的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant