CN101218573A - 处理文档中的搭配错误 - Google Patents

处理文档中的搭配错误 Download PDF

Info

Publication number
CN101218573A
CN101218573A CNA2006800248782A CN200680024878A CN101218573A CN 101218573 A CN101218573 A CN 101218573A CN A2006800248782 A CNA2006800248782 A CN A2006800248782A CN 200680024878 A CN200680024878 A CN 200680024878A CN 101218573 A CN101218573 A CN 101218573A
Authority
CN
China
Prior art keywords
sentence
inquiry
word
generation
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800248782A
Other languages
English (en)
Inventor
H-W·洪
J·高
M·周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101218573A publication Critical patent/CN101218573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

访问一句子,并基于该句子生成至少一查询。可以例如使用网络搜索引擎将至少一查询与文档集合内的文本进行比较。可以基于该至少一查询和文档集合内的文本的比较来检测和/或纠正句子中的搭配错误。

Description

处理文档中的搭配错误
背景
以下讨论仅提供了一般背景信息,不能用于帮助确定所要求保护的主题的范围。
随着全球经济的日益增长,和因特网的快速发展,全世界的人正在不断熟悉用非母语的语言进行写作。不幸的是,对一些拥有显著不同的文化和写作风格的社会而言,能够用某些非母语进行写作常常成为障碍。当用非母语(例如英语)进行写作时,非母语说话者(例如,讲汉语、日语、韩语或其它非英语语言的人)通常会犯语言使用错误。这些类型的错误可以包括语法错误和例如动词-宾语、形容词-名词、副词-动词等搭配的不当使用。
许多人具有用恰当的语法以非母语进行写作的能力,但他们仍然可能犯两个单词之间的搭配错误。还有其他人会同时犯语法错误和其它错误例如两个单词间的搭配错误。尽管拼写检查和语法检查程序可用来纠正语法错误,但尤其鉴于两个单词之间的搭配错误语法可能是正确,因此难以检测和/或纠正这些错误。因此,语法检查器一般几乎无法对检查与单词间搭配有关的错误提供帮助。在以下讨论中用英语作为非母语的例子,但这些问题在其它语界中同样存在。
例如,考虑以下包含使得句子即使语法上正确也不是道地的英语的搭配错误的句子。
1.Open the light(开灯).
2.Everybody hates the crowded traffic on weekends(人人都讨厌周末拥挤的交通).
3.This is a check of US$500(这是一张500美元的支票).
4.Icongratulate you for your success(我对你的成功表示祝贺).
这些句子的道地的英语版本应该是:
1.Turn on the light(开灯).
2.Everybody hates the heavy traffic on weekends(人人都讨厌周末拥挤的交通).
3.This is a check for US$500(这是一张500美元的支票).
4.Icongratulate you on your seccess(我对你的成功表示祝贺).
考虑汉语用户的情况,作为非英语母语说话者所面临的障碍的例子。在文化、背景和思考习惯方面,中国人常常会造出合乎语法却不自然的英语句子。例如,中国人往往将中文中的主语直接翻译成英语中的主语,对宾语和动词也同样。当用英语写作时,中国人常会遇到决定动词和介词、形容词和名词、动词和名词等之间搭配的困难。而且,在特殊的领域像商业领域,还需要特殊的写作技巧和风格。
非母语说话者出于阅读(一种解码过程)的目的主要会使用通用字典,但这些字典无法提供对写作(一种编码过程)的足够支持。它们仅提供单个单词的解释,并且它们通常不会提供解释相关短语和搭配的足够信息。而且,即使字典中提供了一些信息,要从字典中获得这类信息仍然很难。另一方面,目前广泛采用的语法检查工具对检查易犯的语法错误具有有限的能力,但不能检测搭配错误。
概述
提供本概述以便以简化的形式介绍一些将在以下详细描述中进一步描述的概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护主题的范围。
访问一句子,并给予该句子生成至少一查询。可以例如使用web搜索引擎将至少一查询与文档集合内的文本进行比较。可以基于对至少一查询和文档集合内的文本的比较来检测和/或纠正句子中的搭配错误。
附图简述
图1是一般计算环境的框图。
图2是用于检测和纠正搭配错误的系统的流程图。
图3是用于检测和纠正搭配错误的方法的流程图。
图4是查询生成模块的框图。
图5是检测搭配错误的方法的流程图。
图6是提出候选搭配纠正的方法的流程图。
详细描述
图1说明了可在其上实现本发明的合适的计算系统环境100的例子。所述计算系统环境100仅仅是合适的计算环境的一个例子,而并不打算对本发明的使用范围或功能提出任何限制。也不应该将所述计算环境100解释为对示范性操作环境100中所说明的任何元件或元件的组合有依赖或需求。
本发明可用于众多其他通用或专用的计算系统环境或配置。可能适用于本发明的公知计算系统、环境和/或配置的例子包括,但不限于:个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型计算机、大型计算机、电话系统、包括上述任何系统或装置等的分布式计算环境。
可以在诸如程序模块等由计算机执行的计算机可执行指令的上下文中描述本发明。一般,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。还可以在由通过通信网络链接的远程处理设备执行任务的分布式计算环境中实现本发明。在分布式计算环境中,程序模块可以位于本地和远程计算机存储介质包括存储器存储设备中。程序和模块执行的任务在附图的协助下在以下描述。本领域技术人员可以将描述和附图实现为处理器可执行指令,其可以被编写在任何形式的计算机可读介质上。
参阅图1,用于实现本发明的示例性系统包括一计算机110形式的通用计算设备。计算机110的组件可包括,但不限于:处理单元120、系统存储器130和将各种系统组件包括系统存储器耦合到处理单元120的系统总线121。所述系统总线121可以是多种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线和利用任何各种总线结构的局部总线。为了举例而非限制,此类体现结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线和周边元件扩展接口(PCI)总线也称为夹层(Mezzanine)总线。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是任何可以被计算机110访问的可用介质,包括易失性和非易失性介质、可移动和不可移动介质。为了举例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现信息存储的易失性和非易失性、可移动和不可移动介质,这些信息诸如计算机可读指令、数据结构、程序模块或其它数据。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字通用盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储器或其它磁性存储设备,或任何其它可用于存储所需信息且可由计算机110访问的介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中体现为计算机可读指令、数据结构、程序模块或其它数据,且包括任何信息传递介质。术语“已调制数据信号”指以编码信号中的信息的方式设置或改变其特征集中的一种或多种特征的信号。为了举例而非限制,通信介质包括有线介质例如有线网络或直接线连接,和无线介质例如声学、RF、红外线和其它无线介质。任何上述组合也应该包括在计算机可读介质的范围内。
所述系统存储器130包括易失性和非易失性存储器形式的计算机存储介质,例如只读存储器(ROM)131和随机存取存储器(RAM)132。包含例如在启动时有助于在计算机110内各元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常存储于ROM 131中。RAM 132通常包含可以被处理单元120立即访问和/或当前正进行操作的数据和/或程序模块。为了举例而非限制,图1说明了操作系统134、应用程序135、其它程序模块136和程序数据137。
所述计算机110还可以包括其它可移动/不可移动、易失性/非易失性的计算机存储介质。仅为了举例,图1说明了一向不可移动、非易失性磁性介质读取的硬盘驱动器141,一向可移动、非易失性磁盘152读取的磁盘驱动器151,和一向可移动、非易失性光盘156例如CD ROM或其它光介质读取的光盘驱动器155。可用于示例性操作环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于:盒式磁带、闪存卡、数字通用盘、数字录像带、固态RAM、固态ROM等。所述硬盘驱动器141通常通过不可移动存储器接口例如接口140连到系统总线121,所述磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口例如接口150连到系统总线121。
以上所述并在图1示出的驱动器和与它们相关联的计算机存储介质,为计算机110提供了针对计算机可读指令、数据结构、程序模块和其它数据的存储。图1中,例如硬盘驱动器141显示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。应该注意这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。在这里给予操作系统144、应用程序145、其它程序模块146和程序数据147不同的标号,以说明至少它们是不同的拷贝。
用户可以通过输入设备例如键盘162、话筒163和定点设备161(例如鼠标、跟踪球或触垫)来输入命令和信息。其它输入设备(未显示)可以包括操纵杆、游戏手柄、圆盘式卫星电视天线、扫描仪等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连到处理单元120,也可以通过其它接口和总线结构例如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也通过接口例如视频接口190连到系统总线121。除了监视器以外,计算机还可以包括其它外围输出设备例如扬声器197和打印机196,它们可以通过外围输出接口190连接。
所述计算机110可以通过逻辑连接到一台或多台远程计算机,例如远程计算机180上而在网络环境中运行。所述远程计算机180可以是个人计算机、手提计算机、服务器、路由器、网络PC、对等设备或其它通用网络节点,通常包括许多或所有与计算机110有关的上述元件。图1所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,也可以包括其它网络。这类网络环境在办公室、企业范围的计算机网络、内联网和因特网中很普遍。
当用于LAN网络环境时,所述计算机110通过网络接口或适配器170连到LAN171。当用于WAN网络环境时,所述计算机110通常包括一调制解调器172或其它通过WAN 173(例如互联网)建立通信的手段。可内置或外置的调制解调器172可以通过用户输入接口160或其它适当机制连到系统总线121。在网络环境中,相对于计算机110描述的程序模块或其部分可以存储在远程存储设备上。为了举例而非限制,图1说明了驻留在远程计算机180上的远程应用程序185。应该理解,所示网络连接是示例性的,还可以采用其它在计算机间建立通信连接的手段。
图2是用于检测和纠正文本中搭配错误的系统200的流程图。搭配错误有许多类型。在系统200的一个方面中,检测4种类型的搭配错误。搭配错误类型包括:
1.动词-名词(VN,例如*learn/acquire knowledge(学习/获取知识)),
2.介词-名词(PN,例如*on/in the morning(早上)),
3.形容词-名词(AN,例如*social/socialist country(社会/社会主义国家)),和
4.动词-副词(VA,例如situations change*largely/greatly(情况大大改变))。
预处理模块202处理文本以提供词性标记和文本的语法分析。可以使用众多不同类型的语法分析程序来处理文本。以下是一条例句:
I have recognized this person for years(我已经认识这个人好多年了).
预处理模块202对这个句子进行标记并将句子分成如下各块:
[NP I/PRP][VP have/VBP recognized/VBN][NP this/DT person/NN][(PP for/IN][NPyears.</s>/NNS]
查询生成模块204利用处理过的文本构造查询。一个示例中,对以上标识的每类搭配错误类型生成4组查询。例如,搭配错误类型可以是动词-名词、介词-名词、形容词-名词和动词-副词。生成的查询可以包括句子全文以及去除助词后的句子减少后部分。针对上述句子的示例减少后查询可以包括:“have recognized this person(已经认识这个人)”、“have recognized(已经认识)”、“this person(这个人)”和“recognizedperson(认识人)”。
将所述查询提交给搜索模块206。一实施例中,所述搜索模块可以是基于网络web的搜索引擎,例如MSN搜索(search.msn.com)、谷歌(Google(www.google.com))和/或雅虎(Yahoo!(www.yahoo.com))。由于web包含大量的文本,对检测搭配错误而言它可能是廉价的资源。错误检测模块208将查询生成模块204生成的查询与搜索模块206所获得的结果进行比较。错误纠正模块210提供了针对错误检测模块208所标识的错误的候选纠正。
图3是可以在图2所示系统200中实现的方法220的流程图。步骤222中,访问一条句子。所述句子可能包含已经被输入进文字处理程序中的文本,文字处理程序例如有华盛顿州雷蒙德市的微软公司提供的Microsoft Word。步骤224中,将所述句子语法分析成块,并标识句子中的词性。然后,基于步骤226中的语法分析生成查询。步骤228中,将所述查询提交到搜索引擎,例如MSN搜索、谷歌和/或雅虎。在步骤230通过将查询与来自搜索引擎的结果进行比较来检测句子中的搭配错误。在检测错误后,在步骤232中,向用户提供针对搭配错误的备选的分级候选。
图4是图2的查询生成模块204的框图。查询生成模块204接受经过语法分析的句子240,例如从预处理模块202处接收的经过语法分析的句子。基于经语法分析的句子240,查询生成模块204生成句子查询242,块查询244和单词查询246。给定以上标识的可能的搭配错误类型,如下检测一检查单词(即可能引起搭配错误的单词):VN型中的动词、PN型中的介词、AN型中的形容词和VA型中的副词。取决于类型,查询生成模块204生成如下不同的多组查询:
1.句子查询242:原始句子和减少后的句子(通过去除为每一类型预先定义的助词),被称为S-查询。
2.查询242:句子中相应的块对,被称为C-查询,和
3.单词查询246:句子中相应的中心词对,被称为W-查询。
如下提供句子“I have recognized this person for years”的VN型检测的示例查询,其中~指两个邻近单词可以是相互毗连或间隔1个单词。
S-杳询:[“I have recognized this person for years”]
S-查询:[“have recognized this person”]
C-查询:[“have recognized”~“this person”]
W-查询:[“recognized”~“person”]
用于生成每类查询的示例规则如下。
·VN:S-查询、一个C-查询V~N的和一个W-查询Vh~Nh[Nh表示相应的名词块的中心词]。
·PN:一个PN的C-查询,包含介词;
·AN:一个AN的C-查询,包含AN对;和
·VA:包含VA对的C-查询和包含VA中心词的W-查询。
图5是检测句子中的错误的方法250的流程图。在步骤251中,将由查询生成模块204生成的查询提交给搜索模块206。将由搜索模块206获得的搜索结果与查询进行比较。一示例中,所述结果包括利用网络搜索引擎检索到的文档的文本概述。步骤252中,将来自查询生成模块204的S-查询242与来自搜索模块的结果进行比较。然后,在步骤254中,作出是否有一个或多个S-查询与搜索模块结果相匹配的判断。如果一个或多个S-查询与搜索模块结果相匹配,即在步骤256中确定不存在搭配错误。
然而,如果匹配不存在,方法250继续至步骤258,其中将C-查询244与搜索模块结果进行比较。在步骤260中,确定是否有一个或多个C-查询与搜索模块结果严格匹配,以及该比较的得分是否高于阈值。一示例中,通过将C-查询块在搜索结果中出现的次数除以C-查询中单词在搜索结果中共同出现的次数来计算得分。如果得分高于阈值,则在步骤256中确定不存在搭配错误。
如果得分低于阈值,则方法250继续至步骤262,其中将W-查询与搜索引擎数据进行比较。步骤264判断W-查询和搜索引擎数据间是否存在严格匹配,和该比较的得分是否高于阈值。如果得分高于阈值,则在步骤256中确定不存在搭配错误。比较得分可以与C-查询比较得分类似。因此,可以通过将W-查询在搜索结果中出现的次数除以W-查询中的单词对共同出现的总次数来计算W-查询比较得分。如果得分低于阈值,方法250继续至步骤266,其中告知用户可能存在搭配错误。
图6是向用户提出可能的纠正后搭配的方法270的流程图。步骤272中,生成一查询模板。所述查询模板是基于被标识为错误的单词而生成的(即,上述正在检查的单词包括由图5中的方法250所确定的搭配错误)。查询模板是从用“+”替换引起搭配错误的正在检查的单词后的所输入的句子导出的。上述句子中,“recognized”被标识为正在检查的单词,因此基于该单词而开发查询模板。例如,针对VN检测的句子“I have recognized this person for years”的查询模板如下,其中+表示任何单词。
S-QT:[“I have+this person for years”]
S-QT:[“I have+this person”]
S-QT:[“have+this person for years”]
S-QT:[“I have+this person”]
C-QT:[“+this person for years”]
C-QT:[“+this person”]
生成查询模板的示例规则可以如下。
·VN:S-QT、C-QT(其中动词用+代替)。
·PN:S-QT、C-QT(其中介词用+代替)。
·AN:S-QT、C-QT(其中形容词用+代替);和
·VA:S-QT、C-QT(其中副词用+代替)。
步骤274中,将查询模板提交到搜索模块,该模块在本文中是搜索引擎。步骤276中,检索来自搜索引擎结果的串。所述串可以包含带有周围上下文单词的文本概述。将与查询模板匹配串标识为串候选,其中+的位置可以是任何一个单词。在步骤278中去除不含有搭配的候选(根据搭配类型,这由替换+的单词和串中的另一个单词形成)。留下的候选根据基于与串候选匹配的查询模板的相应权重的得分进行分级。例如,查询模板的权重可以基于查询模板中的单词数。通过对所有含有该候选的概述的权重进行求和而计算每个候选的得分。检索候选的查询模板(QTs)的得分可以如下表达:
得分(候选)=∑QTs权重(QT)
然后在步骤280中,将候选分级列表呈现给用户。例如,可以使用弹出菜单来呈现所述分级列表。用户可以从列表中选择一个选项来纠正搭配错误。
尽管已经用在结构特征和/或方法动作专用的语言对主题进行了描述,但应该理解,所附权利要求书所定义的主题并不必限于上述特定特征或动作。相反,上述特定特征和动作被公开为实施权利要求书的示例形式。

Claims (17)

1.一种处理文档中信息的方法,包括:
访问所述文档中文本的句子;
基于所述句子生成至少一查询;
将所述至少一查询与文档集合内的文本进行比较;和
基于所述对至少一查询和文档集合内文本的比较来检测搭配错误。
2.如权利要求1所述的方法,其特征在于,还包括对所述句子进行语法分析来标识其中包含的词性,且基于所标识的词性生成所述至少一查询。
3.如权利要求1所述的方法,其特征在于,还包括对所检测出的搭配错误提出备选的候选。
4.如权利要求3所述的方法,其特征在于,还包括对候选进行分级。
5.如权利要求1所述的方法,其特征在于,所述搭配错误的类型至少包括动词-名词、介词-名词、形容词-名词和动词-副词的至少其中之一。
6.如权利要求1所述的方法,其特征在于,还包括基于文本的句子生成包括所述句子的句子查询,生成包括所述文本句子的块的块查询和以及生成包括所述文本句子的中心词对的单词查询。
7.一种处理信息的方法,包括:
访问包含造成搭配错误的单词的句子;
生成至少一个包含句子各部分而不带有所述单词的查询;
将所述至少一个查询提交到搜索模块以获得搜索结果;和
基于搜索结果为所述句子中的所述单词标识至少一候选替换单词。
8.如权利要求7所述的方法,其特征在于,还包括标识候选替换单词的列表和对所述列表进行分级。
9.如权利要求7所述的方法,其特征在于,所述搜索模块是一基于网络的搜索引擎。
10.如权利要求9所述的方法,其特征在于,所述基于网络的搜索引擎包括MSN搜索、谷歌和雅虎的至少其中之一。
11.如权利要求7所述的方法,其特征在于,所述生成至少一查询包括生成一包括不带有所述单词的所述句子的句子查询。
12.如权利要求7所述的方法,其特征在于,所述生成至少一查询包括生成一包括不带有所述单词的所述句子各块的块查询。
13.如权利要求7所述的方法,其特征在于,所述生成至少一查询包括生成一包括不带有所述单词的所述句子中心词对的单词查询。
14.如权利要求7所述的方法,其特征在于,生成产生至少一查询包括生成一基于所述句子、所述句子的各块和所述句子的中心词对的查询模板。
15.一种处理文档中信息的方法,包括:
访问句子;
对句子进行语法分析来标识其中包含的词性;
基于所标识的词性生成多个查询;
将所述多个查询提交到搜索模块来获得搜索结果;
将所述多个查询和搜索结果进行比较;和
基于所述比较和所标识的词性来检测所述句子中的搭配错误。
16.如权利要求15所述的方法,其特征在于,所述多个查询包括含有句子的句子查询、含有句子块的块查询和含有句子中心词对的单词查询。
17.如权利要求15所述的方法,其特征在于,所述对句子进行语法分析包括标识动词-名词对、介词-名词对、形容词-名词对和动词-副词对的至少其中之一。
CNA2006800248782A 2005-07-08 2006-06-30 处理文档中的搭配错误 Pending CN101218573A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/177,136 US7574348B2 (en) 2005-07-08 2005-07-08 Processing collocation mistakes in documents
US11/177,136 2005-07-08

Publications (1)

Publication Number Publication Date
CN101218573A true CN101218573A (zh) 2008-07-09

Family

ID=37619276

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800248782A Pending CN101218573A (zh) 2005-07-08 2006-06-30 处理文档中的搭配错误

Country Status (10)

Country Link
US (1) US7574348B2 (zh)
EP (1) EP1899835B1 (zh)
JP (1) JP5362353B2 (zh)
KR (1) KR20080023341A (zh)
CN (1) CN101218573A (zh)
AU (1) AU2006269494A1 (zh)
CA (1) CA2614416C (zh)
MX (1) MX2008000176A (zh)
NO (1) NO20080112L (zh)
WO (1) WO2007008492A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837750B1 (ko) * 2006-08-25 2008-06-13 엔에이치엔(주) 성조를 이용하여 중국어를 검색하는 방법 및 상기 방법을수행하는 시스템
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
US20110055209A1 (en) * 2007-02-23 2011-03-03 Anthony Novac System and method for delivering content and advertisments
KR100978581B1 (ko) * 2008-05-08 2010-08-27 엔에이치엔(주) 웹 페이지 열람 중에 편리하게 사전 서비스를 제공하기위한 방법 및 시스템
US8473278B2 (en) * 2008-07-24 2013-06-25 Educational Testing Service Systems and methods for identifying collocation errors in text
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US8250072B2 (en) * 2009-03-06 2012-08-21 Dmitri Asonov Detecting real word typos
CN101930594B (zh) * 2010-04-14 2012-05-23 山东山大鸥玛软件有限公司 一种扫描文档图像的快速纠偏方法
US8725771B2 (en) * 2010-04-30 2014-05-13 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US10496714B2 (en) * 2010-08-06 2019-12-03 Google Llc State-dependent query response
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US9015080B2 (en) 2012-03-16 2015-04-21 Orbis Technologies, Inc. Systems and methods for semantic inference and reasoning
US8484017B1 (en) 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9189531B2 (en) 2012-11-30 2015-11-17 Orbis Technologies, Inc. Ontology harmonization and mediation systems and methods
US9298695B2 (en) * 2013-09-05 2016-03-29 At&T Intellectual Property I, Lp Method and apparatus for managing auto-correction in messaging
CN103678714B (zh) * 2013-12-31 2017-05-10 北京百度网讯科技有限公司 实体知识库的构建方法和装置
US20160087929A1 (en) * 2014-09-24 2016-03-24 Zoho Corporation Private Limited Methods and apparatus for document creation via email
US10691709B2 (en) 2015-10-28 2020-06-23 Open Text Sa Ulc System and method for subset searching and associated search operators
US10747815B2 (en) 2017-05-11 2020-08-18 Open Text Sa Ulc System and method for searching chains of regions and associated search operators
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
WO2019006550A1 (en) 2017-07-06 2019-01-10 Open Text Sa Ulc SYSTEM AND METHOD FOR VALUE-BASED REGION SEARCH AND RELATED SEARCH OPERATORS
US10824686B2 (en) * 2018-03-05 2020-11-03 Open Text Sa Ulc System and method for searching based on text blocks and associated search operators
US11551006B2 (en) * 2019-09-09 2023-01-10 International Business Machines Corporation Removal of personality signatures

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
GB8625468D0 (en) 1986-10-24 1987-04-15 Smiths Industries Plc Speech recognition apparatus
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5383120A (en) * 1992-03-02 1995-01-17 General Electric Company Method for tagging collocations in text
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5907839A (en) * 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US6173298B1 (en) * 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
GB2329047A (en) * 1997-09-05 1999-03-10 Sharp Kk A method of identifying collocates
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
GB2334115A (en) * 1998-01-30 1999-08-11 Sharp Kk Processing text eg for approximate translation
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
GB9821787D0 (en) * 1998-10-06 1998-12-02 Data Limited Apparatus for classifying or processing data
JP2001101186A (ja) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd 機械翻訳装置
GB0006721D0 (en) * 2000-03-20 2000-05-10 Mitchell Thomas A Assessment methods and systems
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US20020152219A1 (en) * 2001-04-16 2002-10-17 Singh Monmohan L. Data interexchange protocol
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365838A (zh) * 2013-07-24 2013-10-23 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法
CN103365838B (zh) * 2013-07-24 2016-04-20 桂林电子科技大学 基于多元特征的英语作文语法错误自动纠正方法

Also Published As

Publication number Publication date
JP5362353B2 (ja) 2013-12-11
WO2007008492A3 (en) 2007-06-21
AU2006269494A1 (en) 2007-01-18
NO20080112L (no) 2008-02-01
EP1899835B1 (en) 2019-06-26
JP2009500754A (ja) 2009-01-08
MX2008000176A (es) 2008-04-02
CA2614416A1 (en) 2007-01-18
EP1899835A2 (en) 2008-03-19
US7574348B2 (en) 2009-08-11
KR20080023341A (ko) 2008-03-13
US20070010992A1 (en) 2007-01-11
CA2614416C (en) 2014-05-27
EP1899835A4 (en) 2017-10-25
WO2007008492A2 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
CN101218573A (zh) 处理文档中的搭配错误
US9910886B2 (en) Visual representation of question quality
Szarvas et al. Cross-genre and cross-domain detection of semantic uncertainty
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
CN100452025C (zh) 自动检测文件中搭配错误的系统和方法
US20160062980A1 (en) Question Correction and Evaluation Mechanism for a Question Answering System
Atwell How to detect grammatical errors in a text without parsing it
US20150142418A1 (en) Error Correction in Tables Using a Question and Answer System
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
Saloot et al. An architecture for Malay Tweet normalization
CN101233484A (zh) 定义提取
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
Imran et al. An enhanced framework for extrinsic plagiarism avoidance for research article
Darwish Probabilistic methods for searching OCR-degraded Arabic text
Bond et al. Combining linguistic resources to create a machine-tractable Japanese-Malay dictionary
Padó et al. Cross-lingual bootstrapping of semantic lexicons: The case of framenet
US20050267735A1 (en) Critiquing clitic pronoun ordering in french
Powers Learning and application of differential grammars
US11087084B2 (en) Confidence models based on error-to-correction mapping
Xu et al. Contextualized latent semantic indexing: A new approach to automated Chinese essay scoring
Chaichi et al. Deploying natural language processing to extract key product features of crowdfunding campaigns: the case of 3D printing technologies on kickstarter
Saloot Corpus-driven Malay language tweet normalization
Ruch et al. Looking back or looking all around: comparing two spell checking strategies for documents edition in an electronic patient record.
Bao-Torayno et al. A Text Clustering Preprocessing Technique for Mixed Bisaya and English Short Message Service (SMS) Messages for Higher Education Institutions (HEIs) Enrolment-Related Inquiries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20080709