CN1680935A - 通过用户建模的有效大写化 - Google Patents

通过用户建模的有效大写化 Download PDF

Info

Publication number
CN1680935A
CN1680935A CNA2005100650848A CN200510065084A CN1680935A CN 1680935 A CN1680935 A CN 1680935A CN A2005100650848 A CNA2005100650848 A CN A2005100650848A CN 200510065084 A CN200510065084 A CN 200510065084A CN 1680935 A CN1680935 A CN 1680935A
Authority
CN
China
Prior art keywords
word
capitalization
document
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100650848A
Other languages
English (en)
Other versions
CN1680935B (zh
Inventor
俞栋
P·K·L·毛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1680935A publication Critical patent/CN1680935A/zh
Application granted granted Critical
Publication of CN1680935B publication Critical patent/CN1680935B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03FSEWERS; CESSPOOLS
    • E03F5/00Sewerage structures
    • E03F5/04Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps
    • E03F5/042Arrangements of means against overflow of water, backing-up from the drain
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03FSEWERS; CESSPOOLS
    • E03F5/00Sewerage structures
    • E03F5/04Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps
    • E03F2005/0416Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps with an odour seal
    • E03F2005/0417Gullies inlets, road sinks, floor drains with or without odour seals or sediment traps with an odour seal in the form of a valve

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Hydrology & Water Resources (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

一种自动大写化文本的方法使用了一种大写化模型。该大写化模型从与特定用户相关联的文档中取出的数据中训练。具体地,使用诸如电子邮件等由用户创作的文档来训练该模型。

Description

通过用户建模的有效大写化
技术领域
本发明涉及自动文本纠正,尤其涉及自动大写化(capitalization)。
背景技术
从用户输入生成的文本通常包括大写错误。这在由语音识别系统生成的文本中尤其常见。尽管这类识别系统通常包括用于大写化每一句子的第一个单词以及一小组已知名字的简单规则,然而它们一向无法大写化文本中的许多单词。结果,对于语音识别系统,大写错误率大约为5%。这表示语音识别系统提供的文本中存在着的错误的重要组成部分。
在过去,开发了自动大写化系统。然而,这些过去的系统并不理想。
在一个这样的系统中,基于文档的大语料库开发了大写化规则。该系统使用大语料库是因为它认为大语料库会提供对可能的大写形式的较好覆盖,并且由此会提供更准确的大写化系统。
然而,这类系统具有很多缺点。首先,由于使用了大语料库,大写规则本身变得非常大,因此通过大写化规则搜索文本中的每一单词变得很低效。另外,由于规则是从大语料库中导出的,因此它们通常在模型被发货之前导出一次,并且在模型被发货之后不再更新。结果,模型不适用于新的大写形式。此外,特定的用户可能与大语料库中的文档的未知作者不同地大写化单词。结果,该模型可能不以用户期望的方式来运作。
在其它系统中,由语言专家生成可接受的大写列表。尽管这一列表比大语料库列表更精简,然而生产它是昂贵的,因为它需要专家的介入。
发明内容
一种自动大写化文本的方法使用了一种大写化模型。该大写化模型从与特定用户相关联的文档中取出的数据被训练。具体地,诸如电子邮件等由用户创作的文档用于训练该模型。
附图说明
图1是其中可使用本发明的一个示例性环境的框图。
图2是其中可使用本发明的移动设备的框图。
图3是本发明的一个实施例中用于构造并使用大写化模型的组件的框图。
图4是本发明的一个实施例中用于构建并使用大写化模型的流程图。
图5是本发明的一个实施例中使用大写化模型的方法的流程图。
图6是本发明的一个实施例中使用大写化模型的方法的流程图。
具体实施方式
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有任何依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。
本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储介质中,包括存储器存储设备。
参考图1,用于实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机110的组件包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任一可用介质,包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失性和非易失性,可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。
系统存储器130包括以易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作示例,图1示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器141、对可移动、非易失性磁盘152进行读写的磁盘驱动器151以及对可移动、非易失性光盘156,如CD ROM或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162和定位设备161(如鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器外,计算机也可包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口195连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它适当的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出远程应用程序185驻留在远程计算机180中。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
图2是移动设备200的框图,它是一个示例性计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备通信的通信接口208。在一个实施例中,上述组件被耦合在一起用于通过合适的总线210彼此通信。
存储器204被实现为非易失性电子存储器,如具有电池备份模块(未示出)的随机存取存储器(RAM),使得当关闭移动设备200的总电源时,储存在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分较佳地用于存储,如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在操作期间,操作系统212较佳地由处理器202从存储器204执行。在一个较佳实施例中,操作系统212是可从微软公司购买的WINDOWSCE品牌的操作系统。操作系统212较佳地被设计成用于移动设备,并实现可由应用程序214通过一组展现的应用编程接口和方法来使用的数据库特征。对象存储216中的对象由应用程序214和操作系统212至少部分地响应于对所展现的应用编程接口和方法的调用来维护。
通信接口208代表了允许移动设备200发送和接收信息的众多设备和技术。仅举几个例子,设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也可直接耦合到计算机以与其交换数据。在这些情况下,通信接口208可以是红外收发器或串行或并行通信连接,它们所有都能够发送流信息。
输入/输出组件206包括各种输入设备,如触敏屏幕、按钮、滚轴和麦克风,以及各种输出设备,包括音频发生器、振动装置和显示屏。以上列出的设备作为示例,并不需要都在移动设备200上存在。另外,在本发明的范围内,其它输入/输出设备可被附加到移动设备200,或从移动设备200中找到。
在本发明中,通过依赖于由特定用户创作或与其相关联的文档,为该用户构建了一种大写化模型。通过将大写训练数据限制到由该用户创作或与其相关联的文档,大写化模型的尺寸被缩小,而同时令大写化模型对该特定用户更准确。具体地,从用户的数据构建的大写化模型包括用户希望使用的大写的形式,而不包括用户不认为可接受的大写形式。由此,通过将训练数据缩减到仅与用户相关联或由其创建的数据,本发明的大写化模型更有效且更准确。
图3和4分别提供了框图和流程图,它们示出了本发明的实施例中大写化模型的形成和使用。
在图4的步骤400,图3的模型更新单元301的采集器(harvester)300采集与用户相关联的文档,如应用程序文档302和电子文档304。在一个实施例中,采集器300周期性地运行,并仅检索当采集器最后一次运行时不存在的文档。
在一个实施例中,采集器300仅采集由用户创作的文档。这包括由用户书写的文档和由用户发送的电子邮件,包括由用户转发或回复的电子邮件。由此,如果用户转发或回复由别人书写的电子邮件,则该电子邮件可以被认为是该用户所有。在其它实施例中,由用户打开的任何文档,无论是否由该用户创作,都由采集器300采集。在其它实施例中,储存在用户本地机器上而非网络上的文档由采集器300采集。在另外一些实施例中,位于网络上与用户相关联的目录也由采集器300搜索以定位用于大写化训练的文档。
在图4的步骤402,大写计数器306基于由采集器300采集的文本更新大写形式的出现计数。这最好按段落进行。仅没有高百分比大写单词的段落用于计数。在这一更新步骤期间,计数器306将文本片段的大写和小写字母的每一唯一的组合作为单独的大写形式来处理。由此,“State Department”和“STATE DEPARTMENT”表示对文本片段“state department”的两种不同的大写形式。文本片段可包括单个单词,或者如本示例中所示的,可包括单词序列。另外,片段可被限于诸如一个单词或两个单词那样的一组特定长度,或者可能不以任何方式限制其长度。
对于采集的文档中的每一文本片段,大写计数器306确定该片段是否出现在出现列表308中。如果该片段不出现在出现列表308中,并且不包括大写,则它被忽略。如果该片段不出现在出现列表308中,并且由于该片段中的一个单词位于句子的起始处而仅包括一个大写,则该片段也被忽略。如果该片段出现在出现列表308中和/或该片段包括大写,则在出现列表308中递增该片段的大写形式的计数。
在一个实施例中,出现列表308包括小写形式的每一片段的主要条目,它具有该片段的每一大写形式的子条目。例如,出现列表308可具有以下形式:
<segment,total_occurrences>
      <cap_form1,occurrence_1>
      <cap_form2,occurrence_2>
      .
      <cap_formn,occurrence_n>
其中,主条目包括所有小写形式的“segment(片段)”,以及表示该片段出现在文档中的总次数的total_occurrences(总出现)值,不论该片段的大写形式如何。每一子条目包括特定的大写形式,如“cap_form1”、“cap_form2”和“cap_formn”,以及计数,如“occurrence_1”、“occurrence_2和“occurrence_n”,该计数提供了每一相应的大写形式在文档中被找到的次数。例如,如果单词“state”作为“state”出现一次,作为“State”出现两次,而作为“STATE”出现四次,则主条目将包括其total_occurrences值为7的形式“state”,其一个子条目为其occurrence值为2的“State”,一个子条目为occurrence值为4的“STATE”。
当大写计数器遇到片段的新大写形式时,如果该片段的主条目已经存在于出现列表308中,则添加该大写形式的新的子条目,并且将主条目中的总出现计数递增1。如果该片段不在出现列表308中存在,则向出现列表308添加该片段的主条目,以及训练数据中遇到的特定大写形式的子条目。如果遇到出现列表308中存在的大写形式,则将该片段的总出现计数递增1,并且将该特定大写形式的出现计数递增1。
如果在文档中遇到片段的小写示例,并且该片段存在于出现列表308中,则将该片段的主条目中的总出现计数递增1,而不递增该单词的任何大写形式。注意,如果在训练数据中遇到片段的小写示例,并且该片段没有主条目,则忽略该片段。
在一个特定的实施例中,片段包括单词对和单个单词。在一个实施例中,当单词对中的两个单词都包括某一形式的大写,或者单词对中的一个单词包括某一形式的大写,而单词对中的第二个单词包括将单词对中的大写单词连接到另一大写单词的单个前置单词时,则储存该单词对。例如,在短语“University of Washington”中,对于“University of”形成一个单词对,而对于“of Washington”形成第二个单词对。这些单词对的每一个将作为子条目放置在出现列表308的单独的主条目之下。在其它实施例中,包括至少一个大写字母的任何单词序列可被储存为出现列表308中的单独条目。这一系统需要大量的存储器,因为需要储存大量的唯一串。
在一个实施例中,如果对于文档中的两个单词可以储存单词对,则不创建该单词对中大写单词的单个单词条目。例如,如果在文档中找到“University of”,则在出现列表308中放置或更新单个单词对条目“University of”。然而,在出现列表308中不更新单独的“University”条目。
在本发明的某些实施例中,大写计数器306对出现施加不同的权值,取决于用户和出现片段的文档之间的关系。在一个特定的实施例中,如果文档由该用户创作,则对出现计数施加权值1,而如果该文档不由该用户创作,而是与该用户相关联,则对出现计数施加较低的权值,如.5或.1。
在步骤402更新了出现计数之后,规则构建器307对出现列表308中的每一片段选择最可能的大写形式。在一个实施例中,这通过选择具有最大出现计数的大写形式来完成。在这一选择过程中,该片段的小写形式被认为是该片段的可能大写形式。片段的小写形式的计数通过从该片段的总出现计数中减去除小写形式之外的所有大写形式的出现计数来得到。如果所得的差大于各种大写形式的所有出现计数,则选择单词的小写形式作为最可能的大写形式。
在步骤404选择了每一片段的最可能大写形式之后,规则构建器307在步骤405构造一组大写化规则。剪除元件310然后在步骤406剪除某些大写化规则。具体地,如果在步骤404之后存在大写单词的更一般规则,则移除相对具体的规则。例如,如果存在“Microsoft”,则移除更具体的条目“from Microsoft”。类似地,如果“Microsoft”和“Office”都存在,则将移除“Microsoft Office”的条目。注意,单词序列中具有大写的所有单词必需存在于较小的片段中,以移除较大的片段。例如,如果上述示例中“Office”不存在,则即使“Microsoft”在列表中,也不移除“Microsoft Office”条目。
在剪除了条目之后,剪除元件310储存余下的规则,以允许有效的搜索。在允许单个单词和单词对条目的实施例中,条目被划分成一单词组和两单词组。注意,每一组中的单词仅包括由该条目表示的片段的正确的大写形式。
在允许较长单词序列的实施例中,所选择的大写形式可依照单词序列中的第一个单词来分组。在一个实施例中,这些大写形式用以下结构储存:
<word,maxlength>
       <word,1>
       <word word2,2>
       <word word2B word3,3>
       .
       .
       .
       <word...wordN,maxlength>
其中,最顶部的条目包括一个单词,它是用该单词开头的所有单词序列的索引,而maxlength(最大长度)是该索引下储存的最长单词序列中单词的个数。在最顶部的条目下是一系列子条目,其每一个包括单词序列,其后跟随的是表示该序列中单词的个数的数字。具有同一长度但是不同单词序列的多个条目可以包括在索引条目下。在上述示例中,一个子单词条目用于单词序列“word word2”,而该序列的长度被表示为“2”。
步骤408中形成的排序规则在步骤410由大写纠正单元316作为应用于文本314的大写化模型312被放置。具体地,大写纠正单元316搜索大写化模型312,以寻找文本314中找到的单词的正确的大写形式,然后用它找到的大写形式替换文本314中的单词,以创建具有大写的文本318。搜索大写形式的方法部分地依赖于大写化模型312中大写形式是如何储存的。在图5和6的流程图中讨论了用于搜索大写形式的两个单独的方法。
当大写化模型被储存为两个单独的列表时,一个用于单个单词,另一个用于两单词对,则使用图5的方法。图5的过程在步骤500开始,并在步骤502继续,检查文本314中的当前文本串以确定它是否仅包含一个单词。如果文本串包含一个以上单词,则过程在步骤504继续,选择文本314中的下两个单词。在步骤506,在大写化模型的两单词列表中搜索所选择的单词,以确定在两单词列表中是否存在匹配。由于两单词列表包含大写形式的单词对,并且从文本314中选择的两个单词可能未被大写化,因此使用大小写敏感的比较来执行这一搜索。
如果在步骤508在两单词列表中搜索到了所选择的两个单词,则在步骤510在大写化文本318中使用来自两单词列表的匹配大写形式,替代文本314中的文本。
在文本318中放置了大写形式之后,在步骤512,将搜索指针前进到文本314中的下一单词。该过程然后在步骤514确定在当前搜索指针后是否还有单词。如果不再有单词,则过程在步骤516结束。如果还有单词,则过程返回到步骤502,来看是否只剩下一个单词。如果剩下一个以上单词,则重复步骤504、506和508。
如果在步骤508不能找到输入文324中的所选择的两单词对的匹配,则在步骤518舍弃该单词对中的最后一个单词。这产生了用于在步骤520搜索一单词列表的单个搜索单词。类似地,如果在步骤502在输入文本314的当前序列中只剩下一个单词,则在步骤520使用该单个单词在一单词列表中搜索匹配。
如果在步骤522找到单个单词的匹配,则在步骤510,使用匹配的大写形式替代文本318中的单个单词。在步骤512,将搜索指针前进到与一单词列表条目匹配的单个单词之后。
如果在步骤522未找到单个单词的匹配,则在步骤512将搜索指针前进到单个单词之后,并且在文本318中放置来自文本314的单个单词的形式。过程然后在步骤514继续,以确定输入文本中是否有更多的单词。
图6提供了当大写化模型被储存在由每一单词串的第一个单词索引的单词串条目时,用于应用大写化模型的流程图。在图6的步骤600,从文本314中选择单词。在步骤602,在大写化模型中搜索所选择的单词。具体地,执行搜索以确定该单词是否被发现为索引结构的最顶部的条目,该索引结构包括顶部条目和一组子条目,对顶部条目中的单词打头的每一串有一个子条目。在一个实施例中,每一索引结构的顶部条目也包括被发现为顶部条目下的子条目的最长串的长度。
如果在步骤604未找到顶部条目,则步骤605将搜索指针前进一个单词,然后该过程在步骤606确定输入文本314中是否还有单词。如果还有单词,则过程返回到步骤600,并重复步骤600、602和604。
当在步骤604所选择的单词与顶部条目相匹配时,在步骤607检索与该顶部条目相关联的最大长度。在步骤608,使用最大长度来从文本314选择附加单词串。该串被追加到首先选择的单词以形成搜索串。例如,如果该条目的最大长度为3,则文本314中的下两个单词被选中,并被追加到先前选择的单词以形成搜索串。
在步骤610,在匹配顶部条目下具有与搜索串相同长度的子条目上执行对所选择的串的搜索。如果在步骤612未找到匹配,则在步骤613移除搜索串中的最后一个单词。然后在步骤615检查新的搜索串,以确定它是否包含任何单词。如果该搜索串不包含任何单词,则过程在步骤620结束。如果搜索串包含至少一个单词,则在步骤610执行对较小串的新搜索。由此,重复步骤610、612、613和615,直到搜索串变得足够小,使得能够在步骤612找到匹配,或者在搜索串中不再有单词。
在步骤612找到匹配之后,在步骤614使用大写化模型312中的匹配串来替代大写化文本318中的搜索串。在大写化文本318中放置了该串的大写形式之后,在步骤616将搜索指针前进到文本314中匹配串的最后。过程然后返回到步骤606以确定在文本314中是否还有单词。如果还有单词,则过程返回到步骤600。如果不再有单词,则过程在步骤620结束。
通过将用于形成大写化模型312的训练数据限制到由用户创作或直接与用户相关联的文档,本发明减小了大写化模型312的尺寸,并令大写化模型312更准确。同样,通过允许模型周期性地从用户数据中更新,该模型可以在由用户采用时学习新的大写化形式。
尽管参考特定实施例描述了本发明,然而本领域的技术人员将认识到,可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims (30)

1.一种训练大写化模型用于自动大写化文本的方法,其特征在于,所述方法包括:
收集满足限制的训练文档,所述限制要求所述训练文档与特定用户相关联;以及
使用所收集的训练文档来训练所述大写化模型。
2.如权利要求1所述的方法,其特征在于,所述限制要求所述训练文档由所述用户创作。
3.如权利要求2所述的方法,其特征在于,如果用户回复了电子邮件,则该电子邮件被认为是由该用户创作的。
4.如权利要求2所述的方法,其特征在于,如果用户转发了电子邮件,则该电子邮件被认为是由该用户创作的。
5.如权利要求1所述的方法,其特征在于,所述限制要求所述训练文档储存在用户的本地机器上。
6.如权利要求1所述的方法,其特征在于,所述限制要求所述训练文档储存在网络上与所述用户相关联的目录中。
7.如权利要求1所述的方法,其特征在于,使用所收集的训练文档来训练所述大写化模型包括对所收集的训练文档中大写形式的出现计数。
8.如权利要求7所述的方法,其特征在于,对大写形式的出现计数包括对单词对的出现计数,其中,所述单词对中的至少一个单词包括一大写化的字符。
9.如权利要求8所述的方法,其特征在于,对单词对的出现计数包括对这样的单词对的出现计数:它包括具有至少一个大写化字符的单词,以及在该单词和具有至少一个大写化字符的第二单词之间发现的介词。
10.如权利要求8所述的方法,其特征在于,对单词对的出现计数包括对这样的单词对的出现计数:它包括具有至少一个大写化字符的第一单词,以及具有至少一个大写化字符的相邻第二单词。
11.如权利要求7所述的方法,其特征在于,使用所收集的训练文档来训练所述大写化模型还包括使用所述大写化形式的出现的计数来剪除至少一个大写化形式,使得它不位于所述大写化模型中。
12.如权利要求11所述的方法,其特征在于,使用所收集的训练文档来训练所述大写化模型还包括,如果所述大写化模型中包含所述大写化形式的大写的每一单词与同一大写一起出现作为单个单词,则剪除包括两个单词的至少一个大写形式,使得它不位于所述大写化模型中。
13.如权利要求1所述的方法,其特征在于,训练所述大写化模型包括储存单词对列表中的单词对的大写形式,以及储存单独的单个单词列表中的单个单词的大写形式。
14.如权利要求1所述的方法,其特征在于,还包括使用所述大写化模型来大写化文本中的单词。
15.如权利要求14所述的方法,其特征在于,使用所述大写化模型来大写化单词包括在搜索单个单词列表以找出所述单词对中的单词之一之前,搜索一单词对列表,以找出与所述文本中的单词对的匹配。
16.如权利要求7所述的方法,其特征在于,对大写形式的出现计数包括基于文档与用户相关联的程度对出现计数加权。
17.如权利要求16所述的方法,其特征在于,如果文档是由所述用户创作的,则对出现计数给予较高的权值。
18.如权利要求1所述的方法,其特征在于,还包括在训练了所述大写化模型之后更新所述大写化模型。
19.一种具有计算机可执行指令的计算机可读介质,所述计算机可执行指令通过以下步骤自动大写化文本:
从与特定用户相关联的文档中采集训练数据;
使用所述训练数据来训练一大写化模型;
使用所述大写化模型来自动大写化与所述特定用户相关联的文本。
20.如权利要求19所述的计算机可读介质,其特征在于,从文档中采集训练数据包括从与所述特定用户相关联的电子邮件中采集训练数据。
21.如权利要求20所述的计算机可读介质,其特征在于,从电子邮件中采集数据包括从由所述特定用户创作的电子邮件中采集数据。
22.如权利要求20所述的计算机可读介质,其特征在于,从电子邮件中采集数据包括从由所述特定用户转发的电子邮件中采集数据。
23.如权利要求20所述的计算机可读介质,其特征在于,从电子邮件中采集数据包括从由所述特定用户回复的电子邮件中采集数据。
24.如权利要求19所述的计算机可读介质,其特征在于,从文档中采集数据包括从由所述特定用户创作的文档中采集数据。
25.如权利要求19所述的计算机可读介质,其特征在于,从文档中采集数据包括从由所述特定用户打开的文档中采集数据。
26.如权利要求19所述的计算机可读介质,其特征在于,使用所述训练数据来训练大写化模型包括搜索所述训练数据,以找出具有大写的单词序列,其中,所述序列包括具有大写的至少一个单词。
27.如权利要求26所述的计算机可读介质,其特征在于,搜索具有大写的单词序列包括搜索只有带大写的单词的序列。
28.如权利要求26所述的计算机可读介质,其特征在于,搜索具有大写的单词序列包括搜索所述训练数据中只有带大写的单词以及在两个带大写的单词之间找到的介词的序列。
29.如权利要求26所述的计算机可读介质,其特征在于,还包括搜索具有大写的单个单词。
30.如权利要求29所述的计算机可读介质,其特征在于,还包括仅当具有大写的单个单词的出现不形成具有大写的单词序列的出现的一部分时,对所述带大写的单个单词的出现计数。
CN2005100650848A 2004-04-06 2005-04-06 通过用户建模的有效大写化文本的方法和系统 Expired - Fee Related CN1680935B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/819,023 2004-04-06
US10/819,023 US7827025B2 (en) 2004-04-06 2004-04-06 Efficient capitalization through user modeling

Publications (2)

Publication Number Publication Date
CN1680935A true CN1680935A (zh) 2005-10-12
CN1680935B CN1680935B (zh) 2011-05-11

Family

ID=34912696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100650848A Expired - Fee Related CN1680935B (zh) 2004-04-06 2005-04-06 通过用户建模的有效大写化文本的方法和系统

Country Status (7)

Country Link
US (1) US7827025B2 (zh)
EP (1) EP1585030B1 (zh)
JP (1) JP4672418B2 (zh)
KR (1) KR101122887B1 (zh)
CN (1) CN1680935B (zh)
AT (1) ATE497213T1 (zh)
DE (1) DE602005026077D1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) * 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8972855B2 (en) * 2008-12-16 2015-03-03 At&T Intellectual Property I, L.P. Method and apparatus for providing case restoration
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10733235B2 (en) 2015-06-09 2020-08-04 Patricia Henery Aid for dyslexic readers

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2644995B2 (ja) 1986-09-09 1997-08-25 株式会社東芝 文書処理方法
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US5761689A (en) * 1994-09-01 1998-06-02 Microsoft Corporation Autocorrecting text typed into a word processing document
CN1180204A (zh) * 1996-05-02 1998-04-29 微软公司 大写和无重音文本的词典处理的方法和系统
US5819265A (en) * 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6490549B1 (en) * 2000-03-30 2002-12-03 Scansoft, Inc. Automatic orthographic transformation of a text stream
JP2002169834A (ja) 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
US6922809B2 (en) * 2001-01-25 2005-07-26 International Business Machines Corporation Method and apparatus providing capitalization recovery for text
JP2003167901A (ja) 2001-11-29 2003-06-13 Kddi Corp 協調フィルタリング方法、協調フィルタリング装置及び協調フィルタリングプログラム
CA2493443C (en) * 2002-07-23 2011-07-19 Research In Motion Limited Systems and methods of building and using custom word lists
US6873996B2 (en) * 2003-04-16 2005-03-29 Yahoo! Inc. Affinity analysis method and article of manufacture
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker

Also Published As

Publication number Publication date
DE602005026077D1 (de) 2011-03-10
ATE497213T1 (de) 2011-02-15
CN1680935B (zh) 2011-05-11
JP4672418B2 (ja) 2011-04-20
US7827025B2 (en) 2010-11-02
EP1585030A3 (en) 2006-07-12
EP1585030B1 (en) 2011-01-26
JP2005302023A (ja) 2005-10-27
EP1585030A2 (en) 2005-10-12
KR20060045535A (ko) 2006-05-17
KR101122887B1 (ko) 2012-03-22
US20050228642A1 (en) 2005-10-13

Similar Documents

Publication Publication Date Title
CN1680935A (zh) 通过用户建模的有效大写化
US7831911B2 (en) Spell checking system including a phonetic speller
CN101305362B (zh) 语音索引删减
CN101371253B (zh) 生成拼写建议的方法和系统
US10176168B2 (en) Statistical machine translation based search query spelling correction
CN1627300A (zh) 学习并使用广义串模式用于信息提取
CN1540513A (zh) 用于数据库的事务一致变化的跟踪
CN1457041A (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
CN1677487A (zh) 使用语义监控的语言模型适应
CN1890669A (zh) 关键字字符串的增量搜索
CN102171683A (zh) 从查询日志中挖掘新词用于输入方法编辑器
CN1295705A (zh) 基于语言模型的信息检索和语音识别
CN1637741A (zh) 笔式计算系统中的标记管理
CN1606000A (zh) 计算机辅助的查询-任务映射
CN1723443A (zh) 用于带有共享资源的服务器的校正操作
CN1725212A (zh) 指数模型的自适应
CN1811763A (zh) 用于查询细化的系统和方法
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
CN111143556B (zh) 软件功能点自动计数方法、装置、介质及电子设备
WO2022134355A1 (zh) 基于关键词提示的检索方法、装置、电子设备及存储介质
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN112562684B (zh) 一种语音识别方法、装置和电子设备
CN101689198A (zh) 使用规格化串的语音搜索
US10210156B2 (en) Seed selection in corpora compaction for natural language processing
CN1667614A (zh) 语言数据日志的压缩

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150428

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150428

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110511

Termination date: 20180406