CN100371927C - 使用机器翻译技术标识释义的方法和系统 - Google Patents

使用机器翻译技术标识释义的方法和系统 Download PDF

Info

Publication number
CN100371927C
CN100371927C CNB2004100957902A CN200410095790A CN100371927C CN 100371927 C CN100371927 C CN 100371927C CN B2004100957902 A CNB2004100957902 A CN B2004100957902A CN 200410095790 A CN200410095790 A CN 200410095790A CN 100371927 C CN100371927 C CN 100371927C
Authority
CN
China
Prior art keywords
text
lexical
textual analysis
group
text fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2004100957902A
Other languages
English (en)
Other versions
CN1617134A (zh
Inventor
C·B·夸克
C·J·布罗克特
W·B·多兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1617134A publication Critical patent/CN1617134A/zh
Application granted granted Critical
Publication of CN100371927C publication Critical patent/CN100371927C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Abstract

本发明从关于一公共事件书写的一不同文档聚类获取一文本片段组。该文本片段组然后经受文本对齐技术,以从该文本中的文本片段标识释义。本发明也可用于生成释义。

Description

使用机器翻译技术标识释义的方法和系统
技术领域
本发明涉及标识文本中的释义,尤其涉及使用机器翻译技术来标识并生成释义。
背景技术
释义的识别和生成是自然语言处理系统的许多应用的一个关键方面。能够识别文本的两个不同片段在意义上等效令系统能够更智能地表现。本领域的工作的基本目标是生成一种当操纵诸如词汇、单词顺序、阅读级别和简明程度等特征时能够重述一段文本,而同时保留其语义内容的程序。
可从释义标识和生成获益的一个示例性应用包括问题答复系统。例如,考虑问题“John Doe何时辞职?”,其中实体“John Doe”是一个著名的人物。可能诸如全球计算机网络(或在全球计算机网络上发表文章的新闻报告系统)等大型数据语言资料库已包含了回答该问题的文本。事实上,这一语言资料库可能已包含了回答该问题的文本,并以与该问题完全一样的词句来表达。因此,常规的搜索引擎可以毫无困难地找出匹配该问题的文本,并由此返回适当的结果。
然而,当搜索诸如内联网上的较小的数据语言资料库时,这一问题将变得更困难。在这一情况下,即使小型数据语言资料库可包含回答该问题的文本,回答可以不同于该问题的词句来表达。作为示例,以下句子都回答了上述问题,但是以不同于该问题的词句来表达。
John Doe昨天辞职。
John Doe昨天离开他的职位。
John Doe昨天离开他的政府岗位。
John Doe昨天下台。
昨天,John Doe决定寻找新的职业挑战。
由于这些回答与问题不同地表达,仅在搜索的语言资料库中给出这些文本回答,常规的搜索引擎可能在返回较佳的结果时遇到困难。
解决释义识别和生成的问题的现有系统包括试图在有限的上下文中解决问题的大量手写代码工作。例如,大量手写代码系统试图在各种各样表达同一事物的不同方式和命令及控制系统可接受的形式之间建立映射。当然,这是极其困难的,因为代码的作者可能无法考虑到用户表达某一事物的每一不同的方式。因此,研究机构的焦点从手动工作改变为释义标识和生成的自动方法。
针对自动标识文本释义关系的系统的近期的作品包括D.Lin和P.Pantel的DIRT-DISCOVERY OF INFERENCE REULS FROM TEXT,Proceedings ofACMSIGKEDD Conference on Knowledge Discovery and Data Mining(知识发现和数据挖掘ACMSIGKDD研讨会学报)第323-328页(2001)。该DIRT文章在新闻专线数据的经分析的语言资料库中检查链接相同的“锚点(anchor point)”(即,相同或相似的单词)的依赖路径的分布性属性。并未充分利用新闻数据的任何特殊属性,因为所分析的语言资料库被简单地看作一个单语言数据的大型来源。基本思想是链接相同或相似单词的高频率依赖性图形路径本身可能在意义上相似。当用完一千兆字节的报纸数据时,系统标识诸如以下模式:
X由Y解答。
X解答Y。
X找出Y的解答。
X试图解答Y。
DIRT系统被限于十分有限的“三重”关系的种类,如“X动词Y”。
涉及释义标识的另一文章是Y.Shinyama、S.Sekine、K.Sudo和R.GRisham的“AUTOMATIC PARAPHRASE ACQUISITION FROM NEWS ARTICLES”,人类语言技术研讨会学报,圣地亚哥,加利福尼亚州(HLT 2002)。在Shinyama等人的文章中,观察到描述同一事件的不同报纸的文章通常举例说明了释义关系。该论文描述了一种依赖于命名的实体(如,人、地点、日期和地址)在同一话题或同一日的不同报纸上保持不变的假设的技术。使用现有的信息检索系统将文章聚合成,例如“谋杀”或“职员”分组或聚类(cluster)。使用统计附标来注释命名实体,并且数据然后服从于形态和句法分析,以生成合成依赖性树。在每一聚类内,基于其所包含的命名实体来聚合句子。例如,以下句子被聚合,因为它们共享相同的四个命名实体:
Nihon Yamamuri玻璃公司的副总裁被Osamu Kuroda晋升为总裁。
Nihon Yamamuri玻璃公司在周一决定将副总裁Osamu Kuroda晋升为总裁。
给定命名实体中的重叠,假定这些句子由释义关系链接。Shinyama等人然后试图使用信息提取领域的现有方法标识链接这些句子的模式。
Shinyama等人也试图学习十分简单的短语级模式,但是该技术受其对命名实体锚点的依赖的限制。没有这些简单标识的锚接,Shinyama等人不能从一对句子中学到任何东西。Shinyama等人学习的模式都集中在特定域中特定类型的实体和某一类型的事件之间的关系上。结果相当差,尤其是当训练句子几乎不包含命名实体时。
另一文章也涉及释义。在Barzilay R.和L.Lee的“LEARNING TO PARAPHRASE:AN UNSUPERVISED APPROACH USING MULTIPLE-SEQUENCE ALIGNMENT”,HLT/NAACL学报(2003),埃德蒙顿,加拿大中,使用议题检测软件来聚合来自单个来源,以及来自若干年的有价值数据的主题类似的报纸文章。更具体地,Barzilay等人试图标识描述恐怖事件的文章。他们然后聚合来自这些文章的句子,以找出共享一个基本总体形式或共享多个关键词的句子。这些聚类用作用于构建允许某些替代元素的句子的模板模型的基础。简言之,Barzilay等人集中在找出不同事件的类似描述上,即使这些事件可能在若干年前出现。这一按照形式分组句子的焦点意味着该技术无法找出某些更感兴趣的释义。
同样,Barzilay和Lee需要一种强单词顺序类似性,以将两个句子分类成相似的。例如,他们甚至无法将事件描述的主动/被动变化分类成相关的。Barzilay等人的学习的模板释义关系从共享一个总体固定的单词顺序的一组句子中得出。该系统学习的释义相当于该较大固定结构内的灵活性的区域。也应当注意,Barzilay和Lee看似在建议一种生成模式时在文学上是独一无二的。本部分所讨论的其它作品仅针对识别释义。
另一论文Barzilay和McKeown的“Extracting Paraphrases From a Parallel Corpus”,ACL/EACL学报(2001),依赖于单个源文档的多个翻译。然而,Barzilay和McKeown特别地将他们的作品与机器翻译技术区别开来。他们声称,如果没有相关的句子中单词之间的完整匹配,无法使用“在MT社团中基于纯净的平行语言资料库开发的方法”。由此,Barzilay和McKeown反对标准机器翻译技术可应用于学习单语言释义的任务的想法。
另一现有技术系统也涉及释义。该系统依赖于单个来源的多个翻译以构建释义关系的有限陈述表不。B.Pang、K.Knight和D.Marcu的“SYNTAX BASEDALIGNMENT OF MULTIPLE TRANSLATION:EXTRACTING PARAPHRASESAND GENERATING NEW SENTENCES”,NAACL-HLT学报,2003。
又一现有技术也涉及释义识别。Ibrahim Ali的“EXTRACTINGPARAPHRASES FROM ALIGNED CORPORA”,硕士论文,MIT(2002),位于HTTP://www.ai.mit.edu/people/jimmylin/papers/ibrahim02.pdf。在他的论文中,Ibrahim表明,句子被“对齐”或服从于“对齐”,并标识了释义。然而,其论文中使用的术语“对齐”指的是句子对齐而非单词或短语对齐,并且不涉及机器翻译系统中执行的常规单词和短语对齐。相反,其论文中讨论的对齐基于以下论文,试图将一种语言的句子与其另一种语言的对应翻译对齐:
Gale William A和Church Kenneth W.的“A PROGRAM FOR ALIGNINGSENTENCES IN BILINGUAL CORPORA”,计算语言协会学报(Proceedings of theAssociations for Computational Linguistics),177-184页(1991)。Ibrahim使用该算法将例如Jules Verne小说的多种英语翻译内的句子对齐。然而,句子结构可以在翻译之间显著的不同。一个翻译者表示成单个长句,而另一翻译者可将其映射成两个短句。这意味着单个小说的不同翻译中的句子的数量不匹配,并且需要某种自动化句子对齐过程来标识等效的句子。Ibrahim用于从这些对齐的单语言句子提取释义的总体技术是从Barzilay、McKeown的参考中陈述的多翻译概念加上Lin等人描述的DIRT框架的变异中得出。
发明内容
本发明从关于一公共事件书写的多个不同的文章(文章聚类)中获取一组文本片段。该组中的文本片段然后服从于单词/短语对齐技术,以标识释义。可使用解码器来从该文本片段对生成释义。
在一个实施例中,该组文本片段的来源是在彼此相近的一段时间内关于同一事件书写的不同文章。例如,该文本片段可以是从那些文章中提取的具体句子。例如,可以发现在几乎同一时刻关于同一事件书写的新闻文章的前两个句子通常包含十分相似的信息。因此,在一个实施例中,在几乎同一时间关于同一事件书写的多个不同文章的前两个句子被聚合在一起,并用作句子组的来源。当然,可形成文章的多个聚类,其中,相对大量的文章是关于各种不同事件书写的,并且其中,每一聚类包括关于同一事件书写的一组文章。
在一个实施例中,从一文章聚类导出的给定文本片段组中的文本片段然后对照该组中的其它文本片段来配对,并且给定配对的文本片段作为输入,使用单词/短语对齐(即机器翻译)技术来标识释义。尽管单词/短语对齐系统通常对不同语言的文本片段起作用,然而依照本发明的一个实施例,对齐系统作用于公共语言的文本片段。文本片段被简单地视为表达同一事物的不同方式。
在一个实施例中,可使用启发式或其它过滤技术来过滤文本片段组。在又一实施例中,所生成来标识单词/短语对齐系统中的释义的模型也用于标识随后的训练数据中的释义。
依照本发明的另一实施例,给定由对齐系统输出的释义和模型,使用一种解码算法来生成释义。
附图说明
图1是可在其中使用本发明的环境的一个实施例的框图。
图2是依照本发明的一个实施例的释义识别和生成系统的框图。
图2A示出了使用释义识别组件来选择经释义的文本片段组用于训练。
图3所示是图2所示的系统的操作的流程图。
图4示出了依照本发明的一个实施例两个配对的句子之间的一种示例性对齐。
具体实施方式
本发明涉及使用单词/短语对齐技术标识并潜在地生成释义关系。然而,在更详细讨论本发明之前,将讨论可在其中使用本发明的一个说明性环境。
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本发明的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明可在诸如由网络环境中的计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,用于实现本发明的示例系统包括以常规计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的局部总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和定位设备161(通常指鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口190连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN 173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
应当注意,本发明可在诸如参考图1所描述的计算机系统上实现。然而,本发明可在服务器、专用于消息处理的计算机或分布式系统上实现,在分布式系统中,本发明的不同部分在分布式计算系统的不同部分上实现。
图2是释义处理系统200的一个实施例的框图。系统200具有对文档数据库202的访问,并包括文档聚合系统204、文本片段选择系统206、单词/短语对齐系统210、输入文本标识系统211和输入文本生成系统212。图3所示是图2所示的系统200的操作的流程图。
文档数据库202说明性地包括由各种不同的通讯社写的各种不同的新闻文章。每一文章说明性地包括近似地指示该文章何时创作的时间戳(time stamp)。同样,来自不同通讯社的多个文章将说明性地关于各种不同的事件书写。
当然,尽管参考新闻文章描述本发明,然而也可以使用其它源文档,如描述公共过程的技术文章、描述公共医学过程的不同医学文章等等。
文档聚合系统204如图3的块214所示地访问文档数据库202。也应当注意,尽管在图2中示出了单个数据库202,也可以访问多个数据库。
聚合系统204标识文档数据库202中关于同一事件书写的文章。在一个实施例中,文章也被标识为在大约同一时刻书写(如,在彼此的预定时间阈值内,如需要,为一个月、一周、一天、几个小时等等)。被标识为关于同一事件书写(以及可能关于同一时间)的文章形成文档聚类218。这由图3的块216表明。
一旦将相关的源文章标识为聚类218,提取这些文章中期望的文本片段(如,句子、短语、标题、段落等等)。例如,新闻文章中的新闻惯例建议文章的前1-2个句子表示文章的剩余部分的概述。因此,依照本发明的一个实施例,文章(说明性地由不同的通讯社书写)被聚合成聚类218,并提供给文本片段选择系统206,在每一聚类218中提取每一文章的前两个句子。尽管本讨论参考句子进行,注意,这仅为示例性的,也可容易地使用其它文本片段。每一文章聚类218的句子作为对应于聚合的文章的句子组222输出。句子组222由文本片段选择系统206输出到单词/短语对齐系统210。这由图3的块220表明。
在使用了句子的具体示例中,以这一方式收集的许多句子看似为由不同通讯社的编辑出于风格的原因而略微地重写的某一单个原始源句子的版本。通常,这些句子组以观察到仅在小的方面加以区分,如出现在句子中的从句的顺序。
文本片段选择系统206对每一聚类生成句子组222。应当注意,单词/短语对齐系统210可通过基于该组中句子的整体检查提取单词或短语之间的映射来操作大量的句子组。然而,本讨论参考生成句子对并在这些对上执行对齐来进行,仅作为一个说明性实施例。由此,在一个实施例中,标识的句子组形成句子对。因此,文本片段选择系统206对照该组中的每一其它句子将该组中的每一句子配对,以对每一组生成句子对。在一个实施例中,句子对服从于可任选的过滤步骤,在另一实施例中,句子对直接输出到单词/短语对齐系统210。尽管将参考本发明的实施例描述过滤,然而应当注意,与过滤相关联的步骤是可任选的。
在一个说明性实施例中,文本片段选择系统206实现基于共享关键词内容单词过滤句子对的启发式过滤。例如,在一个说明性实施例中,系统206过滤句子对、移除那些不共享每一个的至少四个特征的至少三个单词的句子对。当然,过滤是可任选的,如果使用,则所实现的过滤算法可以大不相同。可使用各种不同的过滤技术的任一种,如在过去的结果上过滤(需要将单词/短语对齐系统210的输出循环反馈回文本片段选择系统206)、在不同数量的内容单词上过滤、在其它语义或句法信息上过滤等等。在任一情况下,这些句子组可被配对,并可被过滤并提供给单词/短语对齐系统210。
在一个说明性实施例中,单词/短语对齐系统210尝试了解在组222中的句子之间的词汇对应性,根据统计机器翻译文学实现一种常规的单词/短语对齐算法。例如,假定以下两个句子作为句子对被输入到机器翻译系统:
Storms and tornadoes killed at least 14 people as they ripped through the centralU.S.states of Kansas and Missouri.(风暴和龙卷风在横扫美国中部的堪萨斯州和密苏里州时杀死了至少14人。)
A swarm of tornadoes crashed through the Midwest,killing at least 19 people inKansas and Missouri.(一群龙卷风摧毁性地通过中西部,使堪萨斯州和密苏里州的至少19人死亡。)
这些句子具有公共的社论来源,尽管有一些不同。在任一情况下,它们说明性地由两个不同的通讯社在几乎同一时刻关于同一事件书写。句子中的差异包括“ripped through(横扫)”对应于“crashed through(摧毁性地通过)”、从句中的差异、“central U.S.States(美国中部州)”对应于“Midwest(中西部)”、单词“killed”和“killing”之间的形态差异以及遇难者数量上的差异。
图4示出了在依照常规对齐系统210对齐了单词和短语之后,句子中的单词和多个单词短语之间的对应性。对于大多数对应性,统计对齐算法在不同但平行的信息片段之间建立了链接,如连接单词的线所示。例如,名词“storms and tornadoes(风暴和龙卷风)”以及“a swarm of tornadoes(成群的龙卷风)”不是直接可比较的。因此,当获得了更多的数据时,“storms(风暴)”和“swarm(群)”之间的链接以及“strom”和“a(一)”之间的链接将消失。从句顺序的差异可从两个句子之间的链接的交叉模式中看到。
在一个说明性实施例中,使用P.F.Brown等人的“The Mathematics of Statistical Machine Translation:Parameter Estimation”,计算语言学(ComputationalLinguistics),19:263-312,(1993年6月)来实现单词/短语对齐系统210。当然,也可使用其它机器翻译或单词/短语对齐技术来标识单词和输入文本之间的关联。使用对齐系统210来开发对齐模型并在句子组上执行统计单词和/或短语对齐在图3中由块230表明。
单词/短语对齐系统210然后输出对齐的单词和短语232,以及它基于输入数据生成的对齐模型234。基本上,在上述对齐系统中,训练模型以标识单词对应性。对齐技术首先找出文本片段中单词之间的单词对齐,如图4所示。下一步,系统向每一对齐分配概率,并基于随后的训练数据优化该概率,以生成更准确的模型。输出对齐模型234和对齐的单词和短语232在图3中由块236示出。对齐模型234说明性地包括常规翻译模型参数,如分配给单词对齐的翻译概率、指示单词或短语在句子内移动的移动概率、以及指示单个单词可对应于另一文本片段中两个不同的单词的似然性或概率的丰富度概率(fertility probability)。
块237、238和239是用于引导系统进行自我训练的可任选处理步骤。它们在下文参考图2A更详细地描述。
在未使用程序引导的一个实施例中,系统211接收系统210的输出并标识彼此为释义的单词、短语或句子。标识的释义213由系统211示出。这由图3的块242表明。
对齐的短语和模型也可提供给输入文本生成系统212。系统212说明性地是接收单词和/或短语作为输入并生成该输入的释义238的常规解码器。由此,系统212可用于使用对齐的单词和短语232以及由对齐系统210生成的对齐模型来生成输入文本的释义。基于对齐的单词和短语以及对齐模型生成输入文本的释义由图3中的块240表明。一个说明性生成系统在Y.Wang和A.Waibel的“Decoding Algorithm in Statistical Machine Translation”,第35届计算语言学协会会议学报(Proceeding of35th Annual Meeting of the Association of Computational Linguistics)(1997)中有描述。
图2A类似于图2,除标识系统也用于程序引导训练之外。这由图3的块237-239进一步说明。例如,假定单词/短语对齐系统210如上文参考图2和3描述的输出了对齐模型234以及对齐的单词和短语232。然而,现在将每一文档聚类218的整个文本反馈到输入文本标识系统211用于标识补充句子组300(再次,句子仅作示例使用,也可使用其它文本片段),用于进一步训练系统。采用对齐模型234和对齐的单词和短语232,输入文本标识系统211可处理聚合的文档218中的文本,以从每一聚类中重新选择句子组300。这由块237表明。重新选择的句子组300然后被提供到单词/短语对齐系统210,它基于重新选择的句子组300生成或重新计算对齐模型234和对齐的单词和短语232及其关联的概率度量。对重新选择的句子组执行单词和短语对齐并生成对齐模型和对齐的单词和短语在图3中由块238和239表明。
现在,重新计算的对齐模型234和重新对齐的单词和短语232可再次被输入到输入文本标识系统211,并由输入文本标识系统211用于再次处理文档聚类218中的文本,以标识新的句子组。新的句子组可再次反馈到单词/短语对齐系统210,可继续该过程以进一步提炼系统的训练。
有各种各样使用本发明的系统处理的释义的应用。例如,释义处理系统的可能应用包括背景技术中描述的问题答复系统以及更一般的信息检索系统。这类系统可在基于查询返回一文档组时生成释义得分以确定两个文本片段的相似性。类似地,这类系统可使用释义生成能力执行查询扩充(生成单个、原始查询的多个形式),以找出更匹配的结果或改进回叫。
释义识别和生成的还有其它应用包括多个文档的概括。通过使用释义识别,自动文档概括系统可找出不同的文档中的类似段,以确定该文档组中的最显著的信息来生成概述。
释义识别和生成的另一应用是对话系统。这一系统可生成回响输入,但是被不同地表达来避免模仿完全相同的输入的响应。这使对话系统变得更自然或听上去是健谈的。
释义识别和生成也可用于文字处理系统。文字处理系统可用于自动生成风格上的重写,并向用户建议这些重写。例如,当用户正在创作文档并多次重复一个短语时,可能即使在同一段落中,这将是有益的。类似地,文字处理系统可包括标记遍及整个文档分布的重复信息(但是不同地表达)的特征。类似地,这一系统可包括将一段散文重写为段落的特征。
本发明也可用于命令和控制系统。人们通常使用各种各样的术语来要求事物。标识释义允许这一系统即使当输入以不同的方式表达时也可实现正确的命令和控制行动。
由此,依照本发明的一个实施例,描述公共事件的文本源被聚合。这些文本源中的预定义文本片段被提取成文本片段组。每一组中的文本片段被提供到对齐系统以标识释义。由此,本发明跨多个聚类标识了释义。可使用许多不同的聚类中的文本片段对来找出所标识的释义关系。另外,在一个实施例中,找出的释义然后可用于在稍后的训练过程中找出更多的释义。这在现有的释义识别系统中是高度有利的。
尽管参考具体实施例描述了本发明,然而,本领域的技术人员将认识到,可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims (27)

1.一种训练释义处理系统的方法,其特征在于,它包括:
接收一相关文本聚类;
从所述聚类中选择一文本片段组;
使用文本对齐来标识所述组中的文本片段中的文本之间的释义关系;以及
基于所述释义关系生成一释义。
2.如权利要求1所述的方法,其特征在于,使用文本对齐包括:
使用统计文本对齐来对齐所述组中的文本片段中的单词;以及
基于所对齐的单词标识所述释义关系。
3.如权利要求2所述的方法,其特征在于,使用文本对齐包括:
使用统计文本对齐来对齐所述组中的文本片段中的多单词短语;以及
基于所对齐的多单词短语标识所述释义关系。
4.如权利要求1所述的方法,其特征在于,使用文本对齐包括:
使用启发式单词对齐来对齐所述组中的文本片段中的单词;以及
基于所对齐的单词标识所述释义关系。
5.如权利要求4所述的方法,其特征在于,使用文本对齐包括:
使用启发式文本对齐来对齐所述组中的文本片段中的多单词短语;以及
基于所对齐的多单词短语标识所述释义关系。
6.如权利要求1所述的方法,其特征在于,它还包括:
基于所标识的释义关系计算一对齐模型。
7.如权利要求6所述的方法,其特征在于,它还包括:
接收一输入文本;以及
基于所述对齐模型生成所述输入文本的释义。
8.如权利要求1所述的方法,其特征在于,选择一文本片段组包括:
基于所述文本片段中的众多共享单词选择所述组的文本片段。
9.如权利要求1所述的方法,其特征在于,它还包括:
在接收一聚类之前,标识所述相关文本的聚类。
10.如权利要求9所述的方法,其特征在于,标识一聚类包括:
访问多个文档;以及
将由不同的作者关于一公共主题书写的文档标识为相关文档的聚类。
11.如权利要求10所述的方法,其特征在于,选择一文本片段组包括:
将每一聚类中的所述相关文档的期望文本片段分组成一相关文本片段组。
12.如权利要求11所述的方法,其特征在于,标识文档包括:
标识在彼此的预定时间内书写的文档。
13.如权利要求11所述的方法,其特征在于,访问多个文档包括:
访问关于一公共事件书写的多个不同的新闻文章。
14.如权利要求13所述的方法,其特征在于,访问多个不同的新闻文章包括:
访问由不同的通讯社书写的多个不同的新闻文章。
15.如权利要求14所述的方法,其特征在于,分组期望的文本片段包括:
将每一聚类中的每一新闻文章的第一预定数量的句子分组成所述相关文本片段组。
16.如权利要求15所述的方法,其特征在于,选择一文本片段组包括:
将一个给定的相关文本片段组中的每一句子与所述给定的相关文本片段组中的每一其它句子配对。
17.一种释义处理系统,其特征在于,它包括:
一聚合组件,它被配置成访问多个文档,并基于所述文档的主题聚合所述文档;
一文本对齐组件,它被配置成接收一文本片段组,并基于单词的对齐标识所述文本片段组中单词之间的释义关系;以及
一释义生成器,它接收文本输入,并基于从所述文本对齐组件接收到的释义关系生成所述文本输入的释义。
18.如权利要求17所述的释义处理系统,其特征在于,所述文本对齐组件被配置成基于所述单词的统计或启发式对齐生成一对齐模型。
19.如权利要求18所述的释义处理系统,其特征在于,所述文本对齐组件被配置成基于所述文本片段组中的多单词短语的对齐标识释义关系。
20.如权利要求17所述的释义处理系统,其特征在于,所述聚合组件被配置成聚合关于同一主题书写的文档。
21.如权利要求17所述的释义处理系统,其特征在于,所述聚合组件被配置成从所聚合的文档中提取预定文本片段以形成所述文本片段组。
22.如权利要求21所述的释义处理系统,其特征在于,它还包括:
一配对组件,它被配置成基于所述文本片段组标识多个文本片段对。
23.如权利要求22所述的释义处理系统,其特征在于,所述配对组件被配置成通过将给定的文本片段组中的每一文本片段与所述给定的文本片段组中的每一其它文本片段配对来标识多个文本片段对。
24.如权利要求17所述的释义处理系统,其特征在于,它还包括:
一数据存储器,它储存所述多个文档。
25.如权利要求24所述的释义处理系统,其特征在于,所述数据存储器储存由不同的通讯社关于一公共事件书写的多个不同新闻文章。
26.如权利要求25所述的释义处理系统,其特征在于,所述聚合组件被配置成基于所述新闻文章书写的时间聚合所述新闻文章。
27.如权利要求26所述的释义处理系统,其特征在于,所述数据存储器以一个或多个数据存储器实现。
CNB2004100957902A 2003-11-12 2004-11-12 使用机器翻译技术标识释义的方法和系统 Active CN100371927C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/706,102 US7412385B2 (en) 2003-11-12 2003-11-12 System for identifying paraphrases using machine translation
US10/706,102 2003-11-12

Publications (2)

Publication Number Publication Date
CN1617134A CN1617134A (zh) 2005-05-18
CN100371927C true CN100371927C (zh) 2008-02-27

Family

ID=34435622

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100957902A Active CN100371927C (zh) 2003-11-12 2004-11-12 使用机器翻译技术标识释义的方法和系统

Country Status (10)

Country Link
US (2) US7412385B2 (zh)
EP (1) EP1531402A3 (zh)
JP (1) JP2005149494A (zh)
KR (1) KR101130444B1 (zh)
CN (1) CN100371927C (zh)
AU (1) AU2004218705B2 (zh)
BR (1) BRPI0404348A (zh)
CA (1) CA2484410C (zh)
MX (1) MXPA04010820A (zh)
RU (1) RU2368946C2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092829A (zh) * 2011-10-27 2013-05-08 北京百度网讯科技有限公司 一种复述资源获取方法及系统

Families Citing this family (259)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7660740B2 (en) 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US8719041B2 (en) 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US8428934B2 (en) * 2010-01-25 2013-04-23 Holovisions LLC Prose style morphing
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US8190419B1 (en) 2006-09-11 2012-05-29 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US7552046B2 (en) * 2004-11-15 2009-06-23 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8719244B1 (en) 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8078451B2 (en) * 2006-10-27 2011-12-13 Microsoft Corporation Interface and methods for collecting aligned editorial corrections into a database
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
US20090326913A1 (en) * 2007-01-10 2009-12-31 Michel Simard Means and method for automatic post-editing of translations
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101286092A (zh) * 2007-04-11 2008-10-15 谷歌股份有限公司 具有第二语言模式的输入法编辑器
US20080294398A1 (en) * 2007-05-25 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for the automated construction of models of activities from textual descriptions of the activities
WO2009016631A2 (en) * 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8725490B2 (en) * 2007-10-18 2014-05-13 Yahoo! Inc. Virtual universal translator for a mobile device with a camera
US8275606B2 (en) * 2007-10-25 2012-09-25 Disney Enterprises, Inc. System and method for localizing assets using flexible metadata
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8612469B2 (en) 2008-02-21 2013-12-17 Globalenglish Corporation Network-accessible collaborative annotation tool
WO2009105735A2 (en) 2008-02-21 2009-08-27 Globalenglish Corporation Web-based tool for collaborative, social learning
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20090228427A1 (en) * 2008-03-06 2009-09-10 Microsoft Corporation Managing document work sets
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8494835B2 (en) * 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US10891659B2 (en) 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US8285706B2 (en) * 2009-06-10 2012-10-09 Microsoft Corporation Using a human computation game to improve search engine performance
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8386239B2 (en) * 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8478699B1 (en) * 2010-04-30 2013-07-02 Google Inc. Multiple correlation measures for measuring query similarity
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8484016B2 (en) 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120109623A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Stimulus Description Collections
US8903719B1 (en) * 2010-11-17 2014-12-02 Sprint Communications Company L.P. Providing context-sensitive writing assistance
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8838433B2 (en) * 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US8972240B2 (en) * 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
KR20130047471A (ko) * 2011-10-31 2013-05-08 한국전자통신연구원 자동번역 시스템의 패러프레이징 데이터 구축방법
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9754585B2 (en) 2012-04-03 2017-09-05 Microsoft Technology Licensing, Llc Crowdsourced, grounded language for intent modeling in conversational interfaces
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN104428734A (zh) 2012-06-25 2015-03-18 微软公司 输入法编辑器应用平台
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
EP2891078A4 (en) 2012-08-30 2016-03-23 Microsoft Technology Licensing Llc CHOICE OF CANDIDATE BASED ON CHARACTERISTICS
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9116880B2 (en) 2012-11-30 2015-08-25 Microsoft Technology Licensing, Llc Generating stimuli for use in soliciting grounded linguistic information
US9146919B2 (en) 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10223349B2 (en) 2013-02-20 2019-03-05 Microsoft Technology Licensing Llc Inducing and applying a subject-targeted context free grammar
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10656957B2 (en) 2013-08-09 2020-05-19 Microsoft Technology Licensing, Llc Input method editor providing language assistance
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9779087B2 (en) * 2013-12-13 2017-10-03 Google Inc. Cross-lingual discriminative learning of sequence models with posterior regularization
WO2015162737A1 (ja) * 2014-04-23 2015-10-29 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
KR101615621B1 (ko) * 2014-04-23 2016-04-27 한국과학기술원 동일 지시어 해소 시스템 및 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
CN113761848A (zh) 2014-07-25 2021-12-07 北京三星通信技术研究有限公司 文本编辑方法和装置
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
JP6190341B2 (ja) * 2014-09-04 2017-08-30 日本電信電話株式会社 データ生成装置、データ生成方法、及びプログラム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
JP6250013B2 (ja) 2014-11-26 2017-12-20 ネイバー コーポレーションNAVER Corporation コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法
TWI582615B (zh) * 2014-11-26 2017-05-11 納寶股份有限公司 用於提供譯文編輯器的設備和方法
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
WO2016122512A1 (en) * 2015-01-29 2016-08-04 Hewlett-Packard Development Company, L.P. Segmentation based on clustering engines applied to summaries
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN106156010B (zh) * 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
WO2017089252A1 (en) * 2015-11-25 2017-06-01 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105653620B (zh) * 2015-12-25 2020-05-22 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102589638B1 (ko) 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR101851785B1 (ko) * 2017-03-20 2018-06-07 주식회사 마인드셋 챗봇의 트레이닝 세트 생성 장치 및 방법
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10275452B2 (en) 2017-05-12 2019-04-30 International Business Machines Corporation Automatic, unsupervised paraphrase detection
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10423665B2 (en) * 2017-08-02 2019-09-24 Oath Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation
US10771529B1 (en) * 2017-08-04 2020-09-08 Grammarly, Inc. Artificial intelligence communication assistance for augmenting a transmitted communication
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
US10606943B2 (en) * 2017-10-09 2020-03-31 International Business Machines Corporation Fault injection in human-readable information
US20190163756A1 (en) * 2017-11-29 2019-05-30 International Business Machines Corporation Hierarchical question answering system
US10558762B2 (en) 2018-02-24 2020-02-11 International Business Machines Corporation System and method for adaptive quality estimation for machine translation post-editing
KR102637340B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
RU2699396C1 (ru) * 2018-11-19 2019-09-05 Общество С Ограниченной Ответственностью "Инвек" Нейронная сеть для интерпретирования предложений на естественном языке
US11151452B2 (en) * 2018-12-07 2021-10-19 Capital One Services, Llc Systems and methods for legal document generation
US11126794B2 (en) * 2019-04-11 2021-09-21 Microsoft Technology Licensing, Llc Targeted rewrites
US11449687B2 (en) 2019-05-10 2022-09-20 Yseop Sa Natural language text generation using semantic objects
US10817576B1 (en) * 2019-08-07 2020-10-27 SparkBeyond Ltd. Systems and methods for searching an unstructured dataset with a query
KR102240910B1 (ko) 2019-09-30 2021-04-14 광운대학교 산학협력단 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템
US11501088B1 (en) 2020-03-11 2022-11-15 Yseop Sa Techniques for generating natural language text customized to linguistic preferences of a user
US11210473B1 (en) * 2020-03-12 2021-12-28 Yseop Sa Domain knowledge learning techniques for natural language generation
KR102370729B1 (ko) 2021-06-03 2022-03-07 최연 문장 작성 시스템
US20230019081A1 (en) * 2021-07-16 2023-01-19 Microsoft Technology Licensing, Llc Modular self-supervision for document-level relation extraction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182026B1 (en) * 1997-06-26 2001-01-30 U.S. Philips Corporation Method and device for translating a source text into a target using modeling and dynamic programming
JP2002215619A (ja) * 2000-12-19 2002-08-02 Xerox Corp 翻訳文書からの翻訳文抽出方法
JP2002245037A (ja) * 2001-02-16 2002-08-30 Atr Onsei Gengo Tsushin Kenkyusho:Kk 句アラインメント方法
JP2002259374A (ja) * 2001-03-01 2002-09-13 Toshiba Corp 翻訳装置、翻訳方法及び翻訳プログラム
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4319711A (en) * 1977-10-11 1982-03-16 Robertshaw Controls Company Wall thermostat and the like
US4277784A (en) * 1979-07-13 1981-07-07 Commodore Electronics Limited Switch scanning means for use with integrated circuits
US4264034A (en) * 1979-08-16 1981-04-28 Hyltin Tom M Digital thermostat
US4337822A (en) * 1979-08-16 1982-07-06 Hyltin Tom M Digital thermostat
US4460125A (en) * 1981-05-14 1984-07-17 Robertshaw Controls Company Wall thermostat and the like
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
US5103078A (en) * 1990-02-01 1992-04-07 Boykin T Brooks Programmable hot water heater control method
US5107918A (en) * 1991-03-01 1992-04-28 Lennox Industries Inc. Electronic thermostat
US5495413A (en) * 1992-09-25 1996-02-27 Sharp Kabushiki Kaisha Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes
US5995920A (en) * 1994-12-22 1999-11-30 Caterpillar Inc. Computer-based method and system for monolingual document development
US5870700A (en) * 1996-04-01 1999-02-09 Dts Software, Inc. Brazilian Portuguese grammar checker
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US5960080A (en) * 1997-11-07 1999-09-28 Justsystem Pittsburgh Research Center Method for transforming message containing sensitive information
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6315211B1 (en) * 1999-12-03 2001-11-13 Emerson Electric Co. Hardwired or battery powered digital thermostat
AU2001255599A1 (en) * 2000-04-24 2001-11-07 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6961692B1 (en) * 2000-08-01 2005-11-01 Fuji Xerox Co, Ltd. System and method for writing analysis using the linguistic discourse model
US7043420B2 (en) * 2000-12-11 2006-05-09 International Business Machines Corporation Trainable dynamic phrase reordering for natural language generation in conversational systems
US7146308B2 (en) * 2001-04-05 2006-12-05 Dekang Lin Discovery of inference rules from text
CA2446262A1 (en) * 2001-05-04 2002-11-14 Paracel, Inc. Method and apparatus for high-speed approximate sub-string searches
US20030055625A1 (en) * 2001-05-31 2003-03-20 Tatiana Korelsky Linguistic assistant for domain analysis methodology
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
CN1391180A (zh) * 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7076422B2 (en) * 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
US7412385B2 (en) 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7496621B2 (en) * 2004-07-14 2009-02-24 International Business Machines Corporation Method, program, and apparatus for natural language generation
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182026B1 (en) * 1997-06-26 2001-01-30 U.S. Philips Corporation Method and device for translating a source text into a target using modeling and dynamic programming
JP2002215619A (ja) * 2000-12-19 2002-08-02 Xerox Corp 翻訳文書からの翻訳文抽出方法
JP2002245037A (ja) * 2001-02-16 2002-08-30 Atr Onsei Gengo Tsushin Kenkyusho:Kk 句アラインメント方法
JP2002259374A (ja) * 2001-03-01 2002-09-13 Toshiba Corp 翻訳装置、翻訳方法及び翻訳プログラム
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092829A (zh) * 2011-10-27 2013-05-08 北京百度网讯科技有限公司 一种复述资源获取方法及系统
CN103092829B (zh) * 2011-10-27 2015-11-25 北京百度网讯科技有限公司 一种复述资源获取方法及系统

Also Published As

Publication number Publication date
EP1531402A2 (en) 2005-05-18
KR20050045822A (ko) 2005-05-17
JP2005149494A (ja) 2005-06-09
CA2484410A1 (en) 2005-05-12
BRPI0404348A (pt) 2005-07-12
RU2368946C2 (ru) 2009-09-27
RU2004129675A (ru) 2006-03-20
CA2484410C (en) 2013-12-03
US7752034B2 (en) 2010-07-06
EP1531402A3 (en) 2006-05-31
MXPA04010820A (es) 2007-11-14
CN1617134A (zh) 2005-05-18
KR101130444B1 (ko) 2012-07-02
US7412385B2 (en) 2008-08-12
US20060053001A1 (en) 2006-03-09
AU2004218705A1 (en) 2005-05-26
US20050102614A1 (en) 2005-05-12
AU2004218705B2 (en) 2010-03-11

Similar Documents

Publication Publication Date Title
CN100371927C (zh) 使用机器翻译技术标识释义的方法和系统
US11914954B2 (en) Methods and systems for generating declarative statements given documents with questions and answers
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
Kuzman et al. Automatic genre identification: a survey
Brooke et al. GutenTag: an NLP-driven tool for digital humanities research in the Project Gutenberg corpus
US20060106595A1 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
Alruily et al. Crime profiling for the Arabic language using computational linguistic techniques
Kozlowski et al. Clustering of semantically enriched short texts
Radev et al. Evaluation of text summarization in a cross-lingual information retrieval framework
Kessler et al. Extraction of terminology in the field of construction
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
Malik et al. NLP techniques, tools, and algorithms for data science
Gotti et al. Harnessing open information extraction for entity classification in a French corpus
Anoop et al. A distributional semantics-based information retrieval framework for online social networks
Safeena et al. Quranic computation: A review of research and application
Asker et al. Classifying Amharic webnews
Rudrappa et al. HiTEK Pre-processing for Speech and Text: NLP
Xu et al. Exploiting paper contents and citation links to identify and characterise specialisations
US20230061773A1 (en) Automated systems and methods for generating technical questions from technical documents
Basha et al. Natural Language Processing: Practical Approach
Forss et al. Extracting People's Hobby and Interest Information from Social Media Content
Taylor Reduced Geographic Scope as a Strategy for Toponym Resolution
Samy et al. Landscaping language technologies using topic modeling and graph analysis: Overview of the spanish contribution
Jakubícek et al. Walking the tightrope between linguistics and language engineering
Tufiş Finding Translation Examples for Under-Resourced Language Pairs or for Narrow Domains; the Case for Machine Translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150519

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150519

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.