CN1677487B - 使用语义监控的语言模型适应 - Google Patents

使用语义监控的语言模型适应 Download PDF

Info

Publication number
CN1677487B
CN1677487B CN2005100562527A CN200510056252A CN1677487B CN 1677487 B CN1677487 B CN 1677487B CN 2005100562527 A CN2005100562527 A CN 2005100562527A CN 200510056252 A CN200510056252 A CN 200510056252A CN 1677487 B CN1677487 B CN 1677487B
Authority
CN
China
Prior art keywords
gram
data
class
semantic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005100562527A
Other languages
English (en)
Other versions
CN1677487A (zh
Inventor
A·阿赛罗
C·I·切尔巴
M·马哈间
Y-C·丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1677487A publication Critical patent/CN1677487A/zh
Application granted granted Critical
Publication of CN1677487B publication Critical patent/CN1677487B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • AHUMAN NECESSITIES
    • A44HABERDASHERY; JEWELLERY
    • A44BBUTTONS, PINS, BUCKLES, SLIDE FASTENERS, OR THE LIKE
    • A44B19/00Slide fasteners
    • A44B19/24Details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10FAUTOMATIC MUSICAL INSTRUMENTS
    • G10F5/00Details or accessories
    • G10F5/02Actions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种用于使语言模型适应的方法和装置。该方法和装置使用内领域语义信息提供了语言模型的受监控的基于类别的适应。

Description

使用语义监控的语言模型适应
技术领域
本发明涉及语言处理中使用的语言模型,尤其涉及使语言模型适合于期望的领域。
背景技术
诸如自动语音识别(ASR)等语言处理系统通常必须处理由于起源于训练和测试数据以及实际的领域数据之间的失配的错误而引起的性能退化。如众所周知的,语音识别系统采用声学模型和统计语言模型(LM)来提供识别。使声学模型适应于新的领域的解决方案并不很成功;语言模型的适应尚未达到满意的结果。
统计语言模型(LM)为单词序列提供了一种先验概率估算。LM是ASR和其它形式的语言处理中重要的组成部分,因为它引导了对大多数可能单词序列的假设搜索。一个好的LM被认为是对高级语言处理性能是必需的。
通常,LM使用从期望类似于测试数据的大量训练数据中收集的平滑的n元语法(n-gram)统计量。然而,相似性的定义是松散的,并且通常让建模者来决定对给定的感兴趣的领域应当使用哪些数据源,而这种决定在大多数时间是试验性且有错误的。
不变的是,在训练或测试数据以及实际领域或“内领域(in-domain)”数据之间总是存在失配,这会导致错误。失配的一个来源是因为测试数据超出了词汇量单词。例如,最初为一个航空公司设计的航空旅行信息系统可能对另一航空公司不能起作用,这是因为在所述的公司服务的城市名、机场名等之间存在失配。
失配的另一潜在来源来自不同的语言风格。例如,新闻领域的语言风格不同于航空旅行信息领域。在新闻专线或其它概括文本上训练的语言模型可能不能在航空旅行信息领域中表现良好。
尽管尝试了各种方法来使使用不同的技术在大量的背景数据上训练的LM相适应,然而没有一种方法达到了优良的结果,并且,由此不断地需要对LM适应的改进。解决上述一个或多个问题的方法将是有益的。
发明内容
提供了一种用于使语言模型相适应的方法和装置。该方法和装置使用内领域语义信息提供了受监控的基于类别的语言模型适应。
一般而言,用于执行适应的资源从指示概括文本的背景数据和所选择的领域中使用的一组语义实体导出,并按类别来组织。在另一实施例中,也使用了指示要被建模的所选择领域的适应数据。
在所述另一实施例中,这类数据包括背景n元语法类别计数数据,它与语义实体组的类别相关,并基于指示概括文本的背景数据;还包括适应n元语法类别计数数据,它与语义实体组的类别相关,并基于指示要被建模的所选择领域的适应数据。根据此数据并使用语义实体组,背景单词计数数据和适应单词计数数据可被计算,并用作使语言模型适应于适应数据和语义项组的领域的基础。
附图说明
图1是其中可实施本发明的通用计算环境的框图。
图2是使语言模型相适应的流程图。
图3A和3B示出了使语言模型相适应的系统的框图。
具体实施方式
本发明涉及语言模型适应的系统和方法。然而,在更详细讨论本发明之前,将先讨论可在其中使用本发明的一个说明性环境。
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明将在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本领域的技术人员可将此处的描述和/或附图实现为可以包含在以下讨论的任何形式的计算机可读介质上的计算机可执行指令。
本发明也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储介质中,包括存储器存储设备。
参考图1,用于实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机110的组件包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任一可用介质,包括易失和非易失介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失,可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储介质。仅作示例,图1示出了对不可移动、非易失磁介质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162和定位设备161(通常指鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也可包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口190连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110可包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180中。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
应当注意,本发明可以在诸如相对于图1所描述的计算机系统上实现。然而,本发明可以在服务器、专用于消息处理的计算机或分布式系统上实现,在分布式系统上,本发明的不同部分在分布式计算系统的不同部分上实现。
如上所述,本发明涉及语言模型适应的系统和方法。用于执行适应的资源包括需要使之适应的背景LM。通常,背景LM从诸如但不限于新闻文章等的背景训练数据的大语料库中获得。背景训练数据用于获取背景语言模型的n元语法统计量。
语义数据库或语义信息提供了受监控的信息用于适应。为讨论目的,语义数据库广泛并示意性地代表了语义实体的列表-类别,其每一个伴有一实现列表,它被假定为与它们在内领域自然语言文本中遇到的实现具有相同的形式。例如,语义数据库可以是一般对多个类别定义良好的语义实体列表。例如,并且在下文用作示例,航空公司的语音识系统中用于获取信息来作出预约的语言模型的语义项可包括由该航空公司服务的城市以及所飞向的各个机场的列表。语义实体和类别的另一示例可以是公司雇员列表、一个月中的天以及一年中的月份,这些可能被包括在用于调度应用程序的内领域中。
语义类别可以被分类成开放和关闭的类别。开放类别中的类别成员在各个领域之间变化,而关闭类别中的类别成员不会改变。例如,航空旅行应用程序中的语义类别可以如下:
开放类别:{航空公司,机场,城市,州}
关闭类别:{日期,月份,间隔,服务等级,时区,食品服务,地面服务}
在各个应用程序之间,语义类别的数量和类型会有显著的变化。然而,在诸如航空公司旅行应用程序等某些应用程序中,一旦标识了语义类别,仅语义实体或单词级实现是需要改变的,以使语言模型适应于由另一航空公司使用。
语言模型适应中使用的一个可任选的第三资源是适应数据。适应数据包括句子、短语、文本段等形式的实际或内领域数据,它们作为内领域应用程序中的类别的使用的示例。与背景数据相比,适应数据通常比背景数据少许多个数量级。在一个实施例中,内领域数据被细分成适应开发数据和适应训练数据。适应训练数据与背景训练集相组合,以成为一个较大的训练集,其中n元语法计数从两个集同时开始,并用相等的权值混合(尽管其它混合方案也是可能的:n元语法计数可以用不同的权值来混合,如MAP适应中)。适应开发数据严格地用于平滑背景和已适应的语言模型两者。来自开发集的n元语法不被包括到背景/已适应的语言模型中。
在示例性实施例中,所有的数据集是单词级的自然语言文本。
基于类别的适应
通过使用基于类别的语言模型,受监控的语义信息被结合到语言模型中。简言之,新单词w3属于单个语义类别c3的概率估算可以如下完成:
Pr(w3|w2w1)=Pr(w3|c3)·Pr(c3|w2w1)    (1)
建模上假定Pr(w3|c3w2w1)=Pr(w3|c3).
例如,使用以下公式估算Pr(城市名|飞往):
Pr(城市名|飞往)=Pr(城市名|城市)·Pr(城市|飞往)
其中,Pr(城市|飞往)是使用以语义类别加标签的训练数据来估算的,而Pr(城市名|城市)是使用内领域语义数据库使之相适应的。如果先验内领域知识可用,则可向常用的城市名分配比不常用的城市名更高的概率;否则,假定该城市名的均匀分布。使用基于类别的适应方法的优点是:
可以良好地估算给定单词上下文时语义类别的概率。在上述示例中,Pr(城市|飞往)可以在训练和适应数据中十分相似;
可通过使用内领域语义数据库使Pr(w3|c3)适应,来执行快速的LM适应。已适应的概率Pr(w3|c3)与计数“w1w2w3”组合,而不需要收集任何新训练文本来重新训练领域专用语言模型;以及
可实现用更宽的单词上下文的概率估算,因为单词短语被封装在语义类别中。例如,5元语法“los angeles to new york(洛杉机到纽约)”被模型化为类别三元语法“CITY to CITY(城市到城市)”,它在直观上比模型化为“los angeles to”、“angeles to new”和“to new york”更令人满意。
适应过程
图2示出了一个示例性适应过程200。图3A和3B示出了用于执行过程200的示例性系统300。如上所述,适应数据的使用时可任选的,但是为本发明的另一实施例。下文将描述使用两者的实施例,但是它不应当被认为是要求或限制。同样,在继续之前,应当注意,过程200和系统300被描述为一般同时在背景数据和可任选数据上操作。然而,这是为了理解的简易性的目的,并不应当被认为是必需或限制。
步骤202一般表示获取用于背景数据和适应数据两者的加标签的数据。在所示的实施例中,这包括如202所示的对单词级数据加标签。具体地,首先在图2的步骤202用语义类别标签对训练(背景和适应)数据加标签。当然,如果加标签的数据已存在,则这一步骤不是必需的。在图3A中,在301处指示了语义数据库,而训练数据驻留在语料库302和304中,并且加标签由加标签器306执行。
加标签器306修改由语料库304和306提供的单词级文本,并添加指示其中识别的语义实体类别的标签。例如,给定“fly from san Francisco to(从旧金山飞往)”,并且知道“san Francisco(旧金山)”属于语义类别“CITY(城市)”,则加标签器306的输出将是“fly from CITY to(从城市飞往)”。其某些语义实体用对应的语义类别替换的单词级训练数据在308和310处指示。
在一个实施例中,可应用试验用于加标签。这类试验可包括用于加标签的简单的串匹配方法。加标签器306将给定的数据库条目与文本中的单词序列进行匹配,并向由此标识的最长短语分配一类别标签。在另一实施例中,如果在不同的类别之间出现了单词歧义,则保留该单词短语未加标签。在又一实施例中,可通过向每一语义类别候选者分配概率来实现软加标签。
在步骤202执行了加标签之后,如果未提供加标签的数据,则过程在步骤204继续,以从所有的训练文本中收集类别n元语法计数,或者对包含在加标签的数据内的唯一n元语法进行计数。在图3A中,这一步骤由收集模块312执行。
如有需要,可执行包括剪除类别n元语法计数的可任选步骤206。在基于类别的适应中,当类别n元语法被扩展到单词n元语法时,语言模型的大小受每一语义类别中的元素数目的强烈影响。例如,类别三元语法“PERSON joins COMPANY(人加入公司)”,其中,“PERSON(人)”和“COMPANY(公司)”包括语义类,当“PERSON”和“COMPANY”的每一个都包含上千个类别元素时,这可生成上百万个单词三元语法。因此,语言模型剪除对于令语言模型的大小可管理可能是必需的。在一个实施例中,包含一个以上语义类别的n元语法被舍弃。如果计算资源可用,可以重新训练它们。另外,可在扩展到单词n元语法之前采用类别n元语法的计数截断剪除。在图3A中,收集模块312被示出为通过使用剪除模块314执行这一功能。从收集模块312的输出包括图3B中示出的背景n元语法计数数据316和适应n元语法计数数据。
在步骤208,使用语义数据库301,类别n元语法被扩展到单词n元语法。在图3B中,这一步骤由单词n元语法生成器320执行。在一个实施例中,单词n元语法生成器320可实现以下扩展算法,生成背景n元语法单词计数数据322和适应n元语法单词计数数据324:
(a)给定类别n元语法,由其每一类别元素替换类别标签。
例如,类别三元语法“analyst for COMPANY(公司的分析员)”可创建单词4元语法“analyst for x.y.(x.y.的分析员)”,其中“x.y.”是语义数据库中的公司名(如Verizon Wireless)
(b)根据类别n元语法计数计算单词n元语法计数。
单词n元语法计数被计算为其对应的类别n元语法计数的尾数,取决于Pr(单词|类别).
假定语义类别“COMPANY(公司)”的概率为:
Pr(microsoft|COMPANY)=0.5
Pr(oracle|COMPANY)=0.25
Pr(verizon wireless|COMPANY)=0.25,并且
n元语法“analyst for COMPANY”为5个计数,
则,单词级n元语法计数数据为:
“analyst for microsoft”=2.5
“analyst for oracle”=1.25
“analyst for verizon wireless”=1.25
在上述示例中,生成的单词4元语法“analyst forx.y.”的计数等于:
#(“analyst for COMPANY”)·Pr(“x.y.”|COMPANY)
(c)然而,注意,由于多单词语义实体,基于类别的n元语法可生成不可用训练特定n元语法来操作的单词级n元语法。例如,假定期望3单词n元语法语言模型,则“analyst for verizon wireless”不是正确的形式。然而,在这一情况下,生成使用滑动窗的较低阶数的单词n元语法。在上述示例中,“analyst for verizon”将具有1.25的计数,而“for verizon wireless”也将具有1.25的计数。
然而,如果类别在n元语法中的任何其它地方出现,即,在最正确的位置以外的地方出现,则可执行以下步骤来避免对多单词语义项扩展的重复计数。对于前一示例,以同样的方式执行关于扩展的步骤(a)和关于计算的步骤(b)。然而,步骤(c)不被执行,相反,通过仅采用扩展后期望的最正确数量的单词,缩短了n元语法的上下文。
作为示例,假定“COMPANY analyst said(公司分析员说)”的类别三元语法具有计数5,其对以下的语义类别“COMPANY”具有相同的概率:
Pr(microsoft|COMPANY)=0.5
Pr(oracle|COMPANY)=0.25
Pr(verizon wireless|COMPANY)=0.25
则,单词级n元语法计数数据为:
“microsoft analyst said”=2.5
“oracle analyst said”=1.25
“wireless analyst said”=1.25
其中,“wireless analyst said”通过仅采用三元语法的三个最正确的单词来实现。
尽管示出了语义数据库301何时可用加标签306和单词n元语法生成器320来操作,然而可以理解,数据库301的每一实例中的内容可以在许多不同应用程序中是不同的,使得本方法更有用。
在步骤210,使用背景和可任选适应数据的生成的单词n元语法计数来训练语言模型326,此处由训练模块328来执行。如有需要,可以执行单词n元语法上的计数截断剪除,以进一步减小语言模型的大小。
训练可包括平滑n元语法的相对频率估算。例如,由Frederick Jelinek和RobertMercer在“Interpolated Estimation of Markov Source Parameters from Sparse Data(来自稀疏数据的马尔可夫源参数的内插估算)”,E.Gelsema和L.Kanal,编辑,PatternRecognition in Practice(实际模式识别),381-397页,1980中描述的删除插值(deleted-interpolated)方法可用于平滑n元语法的相对频率估算,该方法通过引用结合于此。简言之,递归的删除插值公式定义如下:
Pr I ( w | w 1 n - 1 ) = ( 1 - λ w 1 n - 1 ) · f ( w | w 1 n - 1 ) +
λ w 1 n - 1 · Pr I ( w | w 2 n - 1 )
Pr I ( w ) = ( 1 - λ ) · f ( w ) + λ · 1 V
其中,表示单词n元语法的相对频率,而是跨越前n-1个单词的单词历史。不同上下文阶数的n元语法模型加上均匀单词分布
Figure G2005100562527D00106
被线性地内插。内插权值
Figure G2005100562527D00107
可使用众所周知的最大似然技术来估算。由于数据稀疏性,内插权值通常与通过将单词上下文分组程类别来降低估算参数的数量相联系。一种可能的方式是基于给定单词上下文的出现次数将参数存入存储段(bucket)。
步骤210完成受监控的语言模型适应,在此示例中提供了一种删除插值语言模型。一种语言处理系统中删除插值语言模型的实现可包括转换成标准ARPA格式的补偿(backoff)语言模型。2004年3月26共同提交的,名为“REPRESENTATIONOF A DELETED INTERPOLATION N-GRAM LANGUAGE MODEL IN ARPASTANDARD FORMAT(ARPA标准格式的删除插值n元语言模型的表示)”,代理案卷号M61.12-0625的待决申请中描述了转换成ARPA格式的一个示例,它可在一种通道系统中使用。
尽管参考特定实施例描述了本发明,然而本领域的技术人员将认识到,可在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims (15)

1.一种使n元语法语言模型适应新领域的方法,所述方法包括:
接收表示不直接针对所述新领域的概括文本短语的背景数据;
接收一组在所述新领域中使用、组织成类别的语义实体;
基于所述背景数据和所述语义实体及所述语义实体的类别生成背景n元语法类别计数数据;
剪除所述背景n元语法类别计数数据;
接收指示所述新领域中使用的文本短语的适应数据;
基于所述适应数据和所述语义实体及所述语义实体的类别生成适应n元语法类别计数数据;
剪除所述适应n元语法类别计数数据;以及
其中,训练所述语言模型包括基于所述背景n元语法类别计数数据和适应n元语法类别计数数据来训练。
2.如权利要求1所述的方法,其特征在于,还包括:
基于所述背景n元语法类别计数数据和所述语义实体及所述语义实体的类别生成背景n元语法单词数据;
基于所述适应n元语法类别计数数据和所述语义实体及所述语义实体的类别生成适应n元语法单词数据;以及
其中,基于所述背景n元语法类别计数数据和适应n元语法类别计数数据训练所述语言模型包含使用背景n元语法单词数据和适应n元语法单词数据。
3.如权利要求2所述的方法,其特征在于,生成背景n元语法单词数据包含为多单词语义实体生成背景n元语法单词数据,每一数据条目包括所选择数量的单词。
4.如权利要求3所述的方法,其特征在于,生成适应n元语法单词数据包含为多单词语义实体生成适应n元语法单词数据,每一数据条目包括所选择数量的单词。
5.如权利要求3所述的方法,其特征在于,基于所述背景数据和所述语义实体及所述语义实体的类别生成背景n元语法类别计数数据包含基于所述语义实体及所述语义实体的类别对单词级背景数据加标签。
6.如权利要求4所述的方法,其特征在于,基于所述适应数据和所述语义实体及所述语义实体的类别生成适应n元语法类别计数数据包含基于所述语义实体及所述语义实体的类别对单词级适应数据加标签。
7.如权利要求5所述的方法,其特征在于,基于所述背景数据和所述语义实体及所述语义实体的类别生成背景n元语法类别计数数据包含计算加标签的背景数据的唯一类别n元语法。
8.如权利要求6所述的方法,其特征在于,基于所述适应数据和所述语义实体及所述语义实体的类别生成适应n元语法类别计数数据包含计算加标签的适应数据的唯一类别n元语法。
9.如权利要求7所述的方法,其特征在于,基于所述背景数据和所述语义实体及所述语义实体的类别生成背景n元语法类别计数数据包含从加标签的背景数据中丢弃一些类别n元语法。
10.如权利要求8所述的方法,其特征在于,基于所述适应数据和所述语义实体及所述语义实体的类别生成适应n元语法类别计数数据包含从加标签的适应数据中丢弃一些类别n元语法。
11.一种用于生成语言模型的系统,包含:
用于接收一组在选择的领域中使用、并组织成类别的语义实体的装置;
用于接收与所述语义实体组的类别相关、且基于表示概括文本的背景数据的背景n元语法类别计数数据的装置;
用于剪除所述背景n元语法类别计数数据的装置;
用于接收与所述语义实体的类别相关、且基于表示要被建模的所选择领域的适应数据的适应n元语法类别计数数据的装置;
用于剪除所述适应n元语法类别计数数据的装置;以及
用于基于所述背景n元语法类别计数数据、适应n元语法类别计数数据和所述语义实体组训练语言模型的装置。
12.如权利要求11所述的系统,其特征在于,训练所述语言模型包含基于所述背景n元语法类别计数数据和所述语义实体组计算背景单词计数数据。
13.如权利要求12所述的系统,其特征在于,训练所述语言模型包含基于所述适应n元语法类别计数数据和所述语义实体组计算适应单词计数数据。
14.如权利要求13所述的系统,其特征在于,训练所述语言模型包含平滑n元语法相对频率。
15.如权利要求14所述的系统,其特征在于,平滑包含使用一种删除插值算法。
CN2005100562527A 2004-03-31 2005-03-31 使用语义监控的语言模型适应 Expired - Fee Related CN1677487B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/814,906 US7478038B2 (en) 2004-03-31 2004-03-31 Language model adaptation using semantic supervision
US10/814,906 2004-03-31

Publications (2)

Publication Number Publication Date
CN1677487A CN1677487A (zh) 2005-10-05
CN1677487B true CN1677487B (zh) 2010-06-16

Family

ID=34887730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100562527A Expired - Fee Related CN1677487B (zh) 2004-03-31 2005-03-31 使用语义监控的语言模型适应

Country Status (5)

Country Link
US (1) US7478038B2 (zh)
EP (1) EP1582998A3 (zh)
JP (1) JP4855701B2 (zh)
KR (1) KR101122954B1 (zh)
CN (1) CN1677487B (zh)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996219B2 (en) * 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US8433558B2 (en) 2005-07-25 2013-04-30 At&T Intellectual Property Ii, L.P. Methods and systems for natural language understanding using human knowledge and collected data
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8825482B2 (en) 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7574349B2 (en) * 2006-03-29 2009-08-11 Xerox Corporation Statistical language-model based system for detection of missing attachments
JPWO2007138875A1 (ja) * 2006-05-31 2009-10-01 日本電気株式会社 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US20080071533A1 (en) * 2006-09-14 2008-03-20 Intervoice Limited Partnership Automatic generation of statistical language models for interactive voice response applications
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US9070363B2 (en) * 2007-10-26 2015-06-30 Facebook, Inc. Speech translation with back-channeling cues
US8090570B2 (en) * 2006-10-26 2012-01-03 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20080221899A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile messaging environment speech processing facility
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8880405B2 (en) 2007-03-07 2014-11-04 Vlingo Corporation Application text entry in a mobile environment using a speech processing facility
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
CN101271450B (zh) * 2007-03-19 2010-09-29 株式会社东芝 裁剪语言模型的方法及装置
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US8489399B2 (en) 2008-06-23 2013-07-16 John Nicholas and Kristin Gross Trust System and method for verifying origin of input through spoken language analysis
US9186579B2 (en) 2008-06-27 2015-11-17 John Nicholas and Kristin Gross Trust Internet based pictorial game system and method
TWI383752B (zh) 2008-10-28 2013-02-01 Ind Tech Res Inst 結合語音辨識功能之食品製造裝置
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8229743B2 (en) * 2009-06-23 2012-07-24 Autonomy Corporation Ltd. Speech recognition system
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8190420B2 (en) 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8577670B2 (en) * 2010-01-08 2013-11-05 Microsoft Corporation Adaptive construction of a statistical language model
CN102132945B (zh) * 2010-01-21 2014-04-02 财团法人工业技术研究院 结合语意辨识功能的食品制造装置
US8527534B2 (en) 2010-03-18 2013-09-03 Microsoft Corporation Bootstrap and adapt a document search engine
US8838433B2 (en) 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US8515746B1 (en) * 2012-06-20 2013-08-20 Google Inc. Selecting speech data for speech recognition vocabulary
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9892115B2 (en) 2013-06-11 2018-02-13 Facebook, Inc. Translation training with cross-lingual multi-media support
US9400783B2 (en) * 2013-11-26 2016-07-26 Xerox Corporation Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2642343C2 (ru) * 2013-12-19 2018-01-24 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое построение семантического описания целевого языка
US20150254233A1 (en) * 2014-03-06 2015-09-10 Nice-Systems Ltd Text-based unsupervised learning of language models
US9972311B2 (en) 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
US9679558B2 (en) 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
CN109145145A (zh) 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
WO2022252203A1 (en) * 2021-06-04 2022-12-08 Citrix Systems, Inc. Interpretation risk detection

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
EP0938076A1 (en) * 1992-12-31 1999-08-25 Apple Computer, Inc. A speech recognition system
WO2002029783A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
CN1372669A (zh) * 1999-07-03 2002-10-02 纽约市哥伦比亚大学托管会 对普通声频可视数据信号描述的基本实体关系模型
CN1423194A (zh) * 2001-12-05 2003-06-11 微软公司 语法创建系统
US6640207B2 (en) * 1998-10-27 2003-10-28 Siemens Aktiengesellschaft Method and configuration for forming classes for a language model based on linguistic classes

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258909A (en) 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5267345A (en) 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
EP0602296A1 (en) 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
JP3961780B2 (ja) * 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0938076A1 (en) * 1992-12-31 1999-08-25 Apple Computer, Inc. A speech recognition system
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US6640207B2 (en) * 1998-10-27 2003-10-28 Siemens Aktiengesellschaft Method and configuration for forming classes for a language model based on linguistic classes
CN1372669A (zh) * 1999-07-03 2002-10-02 纽约市哥伦比亚大学托管会 对普通声频可视数据信号描述的基本实体关系模型
WO2002029783A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
CN1423194A (zh) * 2001-12-05 2003-06-11 微软公司 语法创建系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Crespo C, et al.Language model adaptation for conversational speechrecognition using automatically tagged pseudo-morphologicalclass.Proceedings of ICASSP971.1997,1823-826. *
Ward W, Issar S.A class-based language model for speech recognition.Proceedings of 1996 IEEE1.1996,1416-418. *

Also Published As

Publication number Publication date
KR101122954B1 (ko) 2012-06-20
KR20060045069A (ko) 2006-05-16
JP2005292832A (ja) 2005-10-20
US7478038B2 (en) 2009-01-13
EP1582998A2 (en) 2005-10-05
EP1582998A3 (en) 2008-01-23
US20050228641A1 (en) 2005-10-13
JP4855701B2 (ja) 2012-01-18
CN1677487A (zh) 2005-10-05

Similar Documents

Publication Publication Date Title
CN1677487B (zh) 使用语义监控的语言模型适应
JP4724377B2 (ja) 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
Riccardi et al. Stochastic automata for language modeling
Bikel et al. An algorithm that learns what's in a name
Banko et al. Part-of-speech tagging in context
Bellegarda Interaction-driven speech input: a data-driven approach to the capture of both local and global language constraints
US7624006B2 (en) Conditional maximum likelihood estimation of naïve bayes probability models
EP1582997B1 (en) Machine translation using logical forms
Sethy et al. Building topic specific language models from webdata using competitive models.
US20040249628A1 (en) Discriminative training of language models for text and speech classification
KR20040084856A (ko) 자연 언어 생성 시스템에 있어서의 문장 실현에서서열화를 위한 구성 요소 구조의 언어학적으로 통지된통계적 모델들
Duh et al. POS tagging of dialectal Arabic: a minimally supervised approach
WO2016138773A1 (zh) 基于图的地址知识处理方法及装置
Meng et al. Semiautomatic acquisition of semantic structures for understanding domain-specific natural language queries
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
CN112417823A (zh) 一种中文文本语序调整和量词补全方法及系统
CN117010398A (zh) 一种基于多层知识感知的地址实体识别方法
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
Zhou et al. Discriminative training of the hidden vector state model for semantic parsing
CN110532553A (zh) 一种水利空间关系词识别与提取的方法
Palmer et al. Robust information extraction from automatically generated speech transcriptions
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
Zitouni et al. Statistical language modeling based on variable-length sequences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150423

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150423

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100616

Termination date: 20160331