CN1617134A - 使用机器翻译技术处理释义的系统 - Google Patents
使用机器翻译技术处理释义的系统 Download PDFInfo
- Publication number
- CN1617134A CN1617134A CNA2004100957902A CN200410095790A CN1617134A CN 1617134 A CN1617134 A CN 1617134A CN A2004100957902 A CNA2004100957902 A CN A2004100957902A CN 200410095790 A CN200410095790 A CN 200410095790A CN 1617134 A CN1617134 A CN 1617134A
- Authority
- CN
- China
- Prior art keywords
- text
- lexical
- textual analysis
- group
- text fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明从关于一公共事件书写的一不同文档聚类获取一文本片段组。该文本片段组然后经受文本对齐技术,以从该文本中的文本片段标识释义。本发明也可用于生成释义。
Description
技术领域
本发明涉及标识文本中的释义,尤其涉及使用机器翻译技术来标识并生成释义。
背景技术
释义的识别和生成是自然语言处理系统的许多应用的一个关键方面。能够识别文本的两个不同片段在意义上等效令系统能够更智能地表现。本领域的工作的基本目标是生成一种当操纵诸如词汇、单词顺序、阅读级别和简明程度等特征时能够重述一段文本,而同时保留其语义内容的程序。
可从释义标识和生成获益的一个示例性应用包括问题答复系统。例如,考虑问题“John Doe何时辞职?”,其中实体“John Doe”是一个著名的人物。可能诸如全球计算机网络(或在全球计算机网络上发表文章的新闻报告系统)等大型数据语言资料库已包含了回答该问题的文本。事实上,这一语言资料库可能已包含了回答该问题的文本,并以与该问题完全一样的词句来表达。因此,常规的搜索引擎可以毫无困难地找出匹配该问题的文本,并由此返回适当的结果。
然而,当搜索诸如内联网上的较小的数据语言资料库时,这一问题将变得更困难。在这一情况下,即使小型数据语言资料库可包含回答该问题的文本,回答可以不同于该问题的词句来表达。作为示例,以下句子都回答了上述问题,但是以不同于该问题的词句来表达。
John Doe昨天辞职。
John Doe昨天离开他的职位。
John Doe昨天离开他的政府岗位。
John Doe昨天下台。
昨天,John Doe决定寻找新的职业挑战。
由于这些回答与问题不同地表达,仅在搜索的语言资料库中给出这些文本回答,常规的搜索引擎可能在返回较佳的结果时遇到困难。
解决释义识别和生成的问题的现有系统包括试图在有限的上下文中解决问题的大量手写代码工作。例如,大量手写代码系统试图在各种各样表达同一事物的不同方式和命令及控制系统可接受的形式之间建立映射。当然,这是极其困难的,因为代码的作者可能无法考虑到用户表达某一事物的每一不同的方式。因此,研究机构的焦点从手动工作改变为释义标识和生成的自动方法。
针对自动标识文本释义关系的系统的近期的作品包括D.Lin和P.Pantel的DIRT-DISCOVERY OF INFERENCE REULS FROM TEXT,Proceedings ofACMSIGKEDD Conference on Knowledge Discovery and Data Mining(知识发现和数据挖掘ACMSIGKDD研讨会学报)第323-328页(2001)。该DIRT文章在新闻专线数据的经分析的语言资料库中检查链接相同的“锚点(anchor point)”(即,相同或相似的单词)的依赖路径的分布性属性。并未充分利用新闻数据的任何特殊属性,因为所分析的语言资料库被简单地看作一个单语言数据的大型来源。基本思想是链接相同或相似单词的高频率依赖性图形路径本身可能在意义上相似。当用完一千兆字节的报纸数据时,系统标识诸如以下模式:
X由Y解答。
X解答Y。
X找出Y的解答。
X试图解答Y。
DIRT系统被限于十分有限的“三重”关系的种类,如“X动词Y”。
涉及释义标识的另一文章是Y.Shinyama、S.Sekine、K.Sudo和R.GRisham的“
AUTOMATIC PARAPHRASE ACQUISITION FROM NEWS ARTICLES”,人类语言技术研讨会学报,圣地亚哥,加利福尼亚州(HLT 2002)。在Shinyama等人的文章中,观察到描述同一事件的不同报纸的文章通常举例说明了释义关系。该论文描述了一种依赖于命名的实体(如,人、地点、日期和地址)在同一话题或同一日的不同报纸上保持不变的假设的技术。使用现有的信息检索系统将文章聚合成,例如“谋杀”或“职员”分组或聚类(cluster)。使用统计附标来注释命名实体,并且数据然后服从于形态和句法分析,以生成合成依赖性树。在每一聚类内,基于其所包含的命名实体来聚合句子。例如,以下句子被聚合,因为它们共享相同的四个命名实体:
Nihon Yamamuri玻璃公司的副总裁被Osamu Kuroda晋升为总裁。
Nihon Yamamuri玻璃公司在周一决定将副总裁Osamu Kuroda晋升为总裁。
给定命名实体中的重叠,假定这些句子由释义关系链接。Shinyama等人然后试图使用信息提取领域的现有方法标识链接这些句子的模式。
Shinyama等人也试图学习十分简单的短语级模式,但是该技术受其对命名实体锚点的依赖的限制。没有这些简单标识的锚接,Shinyama等人不能从一对句子中学到任何东西。Shinyama等人学习的模式都集中在特定域中特定类型的实体和某一类型的事件之间的关系上。结果相当差,尤其是当训练句子几乎不包含命名实体时。
另一文章也涉及释义。在Barzilay R.和L.Lee的“
LEARNING TO PARAPHRASE:AN UNSUPERVISED APPROACH USING MULTIPLE- SEQUENCE ALIGNMENT”,HLT/NAACL学报(2003),埃德蒙顿,加拿大中,使用议题检测软件来聚合来自单个来源,以及来自若干年的有价值数据的主题类似的报纸文章。更具体地,Barzilay等人试图标识描述恐怖事件的文章。他们然后聚合来自这些文章的句子,以找出共享一个基本总体形式或共享多个关键词的句子。这些聚类用作用于构建允许某些替代元素的句子的模板模型的基础。简言之,Barzilay等人集中在找出不同事件的类似描述上,即使这些事件可能在若干年前出现。这一按照形式分组句子的焦点意味着该技术无法找出某些更感兴趣的释义。
同样,Barzilay和Lee需要一种强单词顺序类似性,以将两个句子分类成相似的。例如,他们甚至无法将事件描述的主动/被动变化分类成相关的。Barzilay等人的学习的模板释义关系从共享一个总体固定的单词顺序的一组句子中得出。该系统学习的释义相当于该较大固定结构内的灵活性的区域。也应当注意,Barzilay和Lee看似在建议一种生成模式时在文学上是独一无二的。本部分所讨论的其它作品仅针对识别释义。
另一论文,Barzilay和McKeown的“
Extracting Paraphrases From a Parallel Corpus”,ACL/EACL学报(2001),依赖于单个源文档的多个翻译。然而,Barzilay和McKeown特别地将他们的作品与机器翻译技术区别开来。他们声称,如果没有相关的句子中单词之间的完整匹配,无法使用“在MT社团中基于纯净的平行语言资料库开发的方法”。由此,Barzilay和McKeown反对标准机器翻译技术可应用于学习单语言释义的任务的想法。
另一现有技术系统也涉及释义。该系统依赖于单个来源的多个翻译以构建释义关系的有限陈述表示。B.Pang、K.Knight和D.Marcu的“SYNTAX BASEDALIGNMENT OF MULTIPLE TRANSLATION:EXTRACTING PARAPHRASESAND GENERATING NEW SENTENCES”,NAACL-HLT学报,2003。
又一现有技术也涉及释义识别。Ibrahim Ali的“EXTRACTINGPARAPHRASES FROM ALIGNED CORPORA”,硕士论文,MIT(2002),位于HTTP://www.ai.mit.edu/people/jimmylin/papers/ibrahim02.pdf。在他的论文中,Ibrahim表明,句子被“对齐”或服从于“对齐”,并标识了释义。然而,其论文中使用的术语“对齐”指的是句子对齐而非单词或短语对齐,并且不涉及机器翻译系统中执行的常规单词和短语对齐。相反,其论文中讨论的对齐基于以下论文,试图将一种语言的句子与其另一种语言的对应翻译对齐:
Gale William A和Church Kenneth W.的“A PROGRAM FOR ALIGNINGSENTENCES IN BILINGUAL CORPORA”,计算语言协会学报(Proceedings of theAssociations for Computational Linguistics),177-184页(1991)。Ibrahim使用该算法将例如Jules Verne小说的多种英语翻译内的句子对齐。然而,句子结构可以在翻译之间显著的不同。一个翻译者表示成单个长句,而另一翻译者可将其映射成两个短句。这意味着单个小说的不同翻译中的句子的数量不匹配,并且需要某种自动化句子对齐过程来标识等效的句子。Ibrahim用于从这些对齐的单语言句子提取释义的总体技术是从Barzilay、McKeown的参考中陈述的多翻译概念加上Lin等人描述的DIRT框架的变异中得出。
发明内容
本发明从关于一公共事件书写的多个不同的文章(文章聚类)中获取一组文本片段。该组中的文本片段然后服从于单词/短语对齐技术,以标识释义。可使用解码器来从该文本片段对生成释义。
在一个实施例中,该组文本片段的来源是在彼此相近的一段时间内关于同一事件书写的不同文章。例如,该文本片段可以是从那些文章中提取的具体句子。例如,可以发现在几乎同一时刻关于同一事件书写的新闻文章的前两个句子通常包含十分相似的信息。因此,在一个实施例中,在几乎同一时间关于同一事件书写的多个不同文章的前两个句子被聚合在一起,并用作句子组的来源。当然,可形成文章的多个聚类,其中,相对大量的文章是关于各种不同事件书写的,并且其中,每一聚类包括关于同一事件书写的一组文章。
在一个实施例中,从一文章聚类导出的给定文本片段组中的文本片段然后对照该组中的其它文本片段来配对,并且给定配对的文本片段作为输入,使用单词/短语对齐(或机器翻译)技术来标识释义。尽管单词/短语对齐系统通常对不同语言的文本片段起作用,然而依照本发明的一个实施例,对齐系统对公共语言的文本片段起作用。文本片段被简单地视为表达同一事物的不同方式。
在一个实施例中,可使用启发式或其它过滤技术来过滤文本片段组。在又一实施例中,所生成来标识单词/短语对齐系统中的释义的模型也用于标识随后的训练数据中的释义。
依照本发明的另一实施例,给定由对齐系统输出的释义和模型,使用一种解码算法来生成释义。
附图说明
图1是可在其中使用本发明的环境的一个实施例的框图。
图2是依照本发明的一个实施例的释义识别和生成系统的框图。
图2A示出了使用释义识别组件来选择经释义的文本片段组用于训练。
图3所示是图2所示的系统的操作的流程图。
图4示出了依照本发明的一个实施例两个配对的句子之间的一种示例性对齐。
具体实施方式
本发明涉及使用单词/短语对齐技术标识并潜在地生成释义关系。然而,在更详细讨论本发明之前,将讨论可在其中使用本发明的一个说明性环境。
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本发明的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明可在诸如由网络环境中的计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。
参考图1,用于实现本发明的示例系统包括以常规计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的局部总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和定位设备161(通常指鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口190连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机420相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出了远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
应当注意,本发明可在诸如参考图1所描述的计算机系统上实现。然而,本发明可在服务器、专用于消息处理的计算机或分布式系统上实现,在分布式系统中,本发明的不同部分在分布式计算系统的不同部分上实现。
图2是释义处理系统200的一个实施例的框图。系统200具有对文档数据库202的访问,并包括文档聚合系统204、文本片段选择系统206、单词/短语对齐系统210、标识系统输入文本211和生成系统输入文本212。图3所示是图2所示的系统200的操作的流程图。
文档数据库202说明性地包括由各种不同的通讯社写的各种不同的新闻文章。每一文章说明性地包括近似地指示该文章何时创作的时间戳(time stamp)。同样,来自不同通讯社的多个文章将说明性地关于各种不同的事件书写。
当然,尽管参考新闻文章描述本发明,然而也可以使用其它源文档,如描述公共过程的技术文章、描述公共医学过程的不同医学文章等等。
文档聚合系统204如图3的块214所示地访问文档数据库202。也应当注意,尽管在图2中示出了单个数据库202,也可以访问多个数据库。
聚合系统204标识文档数据库202中关于同一事件书写的文章。在一个实施例中,文章也被标识为在大约同一时刻书写(如,在彼此的预定时间阈值内,如需要,为一个月、一周、一天、几个小时等等)。被标识为关于同一事件书写(以及可能关于同一时间)的文章形成文档聚类218。这由图3的块216表明。
一旦将相关的源文章标识为聚类218,提取这些文章中期望的文本片段(如,句子、短语、标题、段落等等)。例如,新闻文章中的新闻惯例建议文章的前1-2个句子表示文章的剩余部分的概述。因此,依照本发明的一个实施例,文章(说明性地由不同的通讯社书写)被聚合成聚类218,并提供给文本片段选择系统206,在每一聚类218中提取每一文章的前两个句子。尽管本讨论参考句子进行,注意,这仅为示例性的,也可容易地使用其它文本片段。每一文章聚类218的句子作为对应于聚合的文章的句子组222输出。句子组222由文本片段选择系统206输出到单词/短语对齐系统210。这由图3的块220表明。
在使用了句子的具体示例中,以这一方式收集的许多句子看似为由不同通讯社的编辑出于风格的原因而略微地重写的某一单个原始源句子的版本。通常,这些句子组以观察到仅在小的方面加以区分,如出现在句子中的从句的顺序。
文本片段选择系统206对每一聚类生成句子组222。应当注意,单词/短语对齐系统210可通过基于该组中句子的整体检查提取单词或短语之间的映射来操作大量的句子组。然而,本讨论参考生成句子对并在这些对上执行对齐来进行,仅作为一个说明性实施例。由此,在一个实施例中,标识的句子组形成句子对。因此,文本片段选择系统206对照该组中的每一其它句子将该组中的每一句子配对,以对每一组生成句子对。在一个实施例中,句子对服从于可任选的过滤步骤,在另一实施例中,句子对直接输出到单词/短语对齐系统210。尽管将参考本发明的实施例描述过滤,然而应当注意,与过滤相关联的步骤是可任选的。
在一个说明性实施例中,文本片段选择系统206实现基于共享关键词内容单词过滤句子对的启发式过滤。例如,在一个说明性实施例中,系统206过滤句子对、移除那些不共享每一个的至少四个特征的至少三个单词的句子对。当然,过滤是可任选的,如果使用,则所实现的过滤算法可以大不相同。可使用各种不同的过滤技术的任一种,如在过去的结果上过滤(需要将单词/短语对齐系统210的输出循环反馈回文本片段选择系统206)、在不同数量的内容单词上过滤、在其它语义或句法信息上过滤等等。在任一情况下,这些句子组可被配对,并可被过滤并提供给单词/短语对齐系统210。
在一个说明性实施例中,单词/短语对齐系统210尝试了解在组222中的句子之间的词汇对应性,根据统计机器翻译文学实现一种常规的单词/短语对齐算法。例如,假定以下两个句子作为句子对被输入到机器翻译系统210:
Storms and tornadoes killed at least 14 people as they ripped through the centralU.S.states of Kansas and Missouri.(风暴和龙卷风在横扫美国中部的堪萨斯州和密苏里州时杀死了至少14人。)
A swarm of tornadoes crashed through the Midwest,killing at least 19 people inKansas and Missouri.(一群龙卷风摧毁性地通过中西部,使堪萨斯州和密苏里州的至少19人死亡。)
这些句子具有公共的社论来源,尽管有一些不同。在任一情况下,它们说明性地由两个不同的通讯社在几乎同一时刻关于同一事件书写。句子中的差异包括“ripped through(横扫)”对应于“crashed through(摧毁性地通过)”、从句中的差异、“central U.S.States(美国中部州)”对应于“Midwest(中西部)”、单词“killed”和“killing”之间的形态差异以及遇难者数量上的差异。
图4示出了在依照常规对齐系统210对齐了单词和短语之后,句子中的单词和多个单词短语之间的对应性。对于大多数对应性,统计对齐算法在不同但平行的信息片段之间建立了链接,如连接单词的线所示。例如,名词“storms and tornadoes(风暴和龙卷风)”以及“a swarm of tornadoes(成群的龙卷风)”不是直接可比较的。因此,当获得了更多的数据时,“storms(风暴)”和“swarm(群)”之间的链接以及“strom”和“a(一)”之间的链接将消失。从句顺序的差异可从两个句子之间的链接的交叉模式中看到。
在一个说明性实施例中,使用P.F.Brown等人的“
The Mathematics of Statistical Machine Translation:Parameter Estimation”,计算语言学(ComputationalLinguistics),19:263-312,(1993年6月)来实现单词/短语对齐系统210。当然,也可使用其它机器翻译或单词/短语对齐技术来标识单词和输入文本之间的关联。使用对齐系统210来开发对齐模型并在句子组上执行统计单词和/或短语对齐在图3中由块230表明。
单词/短语对齐系统210然后输出对齐的单词和短语232,以及它基于输入数据生成的对齐模型234。基本上,在上述对齐系统中,训练模型以标识单词对应性。对齐技术首先找出文本片段中单词之间的单词对齐,如图4所示。下一步,系统向每一对齐分配概率,并基于随后的训练数据优化该概率,以生成更准确的模型。输出对齐模型234和对齐的单词和短语232在图3中由块236示出。
对齐模型234说明性地包括常规翻译模型参数,如分配给单词对齐的翻译概率、指示单词或短语在句子内移动的移动概率、以及指示单个单词可对应于另一文本片段中两个不同的单词的似然性或概率的丰富度概率(fertility probability)。
块237、238和239是用于引导系统进行自我训练的可任选处理步骤。它们在下文参考图2A更详细地描述。
在未使用程序引导的一个实施例中,系统211接收系统210的输出并标识彼此为释义的单词、短语或句子。标识的释义213由系统211示出。这由图3的块212表明。
对齐的短语和模型也可提供给生成系统输入文本212。系统212说明性地是接收单词和/或短语作为输入并生成该输入的释义238的常规解码器。由此,系统212可用于使用对齐的单词和短语232以及由对齐系统210生成的对齐模型来生成输入文本的释义。基于对齐的单词和短语以及对齐模型生成输入文本的释义由图3中的块240表明。一个说明性生成系统在Y.Wang和A.Waibel的“
Decoding Algorithm in Statistical Machine Translation”,第35届计算语言学协会会议学报(Proceeding of35th Annual Meeting of the Association of Computational Linguistics)(1997)中有描述。
图2A类似于图2,除标识系统也用于程序引导训练之外。这由图3的块237-239进一步说明。例如,假定单词/短语对齐系统210如上文参考图2和3描述的输出了对齐模型234以及对齐的单词和短语232。然而,现在将每一文档聚类218的整个文本反馈到标识系统211用于标识补充句子组300(再次,句子仅作示例使用,也可使用其它文本片段),用于进一步训练系统。采用对齐模型234和对齐的单词和短语232,标识系统211可处理聚合的文档218中的文本,以从每一聚类中重新选择句子组300。这由块237表明。重新选择的句子组300然后被提供到单词/短语对齐系统210,它基于重新选择的句子组300生成或重新计算对齐模型234和对齐的单词和短语232及其关联的概率度量。在重新选择的句子组上执行单词和短语对齐并生成对齐模型和对齐的单词和短语在图3中由块238和239表明。
现在,重新计算的对齐模型234和重新对齐的单词和短语232可再次被输入到标识系统211,并由系统211用于再次处理文档聚类218中的文本,以标识新的句子组。新的句子组可再次反馈到单词/短语对齐系统210,可继续该过程以进一步提炼系统的训练。
有各种各样使用本发明的系统处理的释义的应用。例如,释义处理系统的可能应用包括背景技术中描述的问题答复系统以及更一般的信息检索系统。这类系统可在基于查询返回一文档组时生成释义得分以确定两个文本片段的相似性。类似地,这类系统可使用释义生成能力执行查询扩充(生成单个、原始查询的多个形式),以找出更匹配的结果或改进回叫。
释义识别和生成的还有其它应用包括多个文档的概括。通过使用释义识别,自动文档概括系统可找出不同的文档中的类似段,以确定该文档组中的最显著的信息来生成概述。
释义识别和生成的另一应用是对话系统。这一系统可生成回响输入,但是被不同地表达来避免模仿完全相同的输入的响应。这使对话系统变得更自然或听上去是健谈的。
释义识别和生成也可用于文字处理系统。文字处理系统可用于自动生成风格上的重写,并向用户建议这些重写。例如,当用户正在创作文档并多次重复一个短语时,可能即使在同一段落中,这将是有益的。类似地,文字处理系统可包括标记遍及整个文档分布的重复信息(但是不同地表达)的特征。类似地,这一系统可包括将一段散文重写为段落的特征。
本发明也可用于命令和控制系统。人们通常使用各种各样的术语来要求事物。标识释义允许这一系统即使当输入以不同的方式表达时也可实现正确的命令和控制行动。
由此,依照本发明的一个实施例,描述公共事件的文本源被聚合。这些文本源中的预定义文本片段被提取成文本片段组。每一组中的文本片段被提供到对齐系统以标识释义。由此,本发明跨多个聚类标识了释义。可使用许多不同的聚类中的文本片段对来找出所标识的释义关系。另外,在一个实施例中,找出的释义然后可用于在稍后的训练过程中找出更多的释义。这在现有的释义识别系统中是高度有利的。
尽管参考具体实施例描述了本发明,然而,本领域的技术人员将认识到,可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。
Claims (30)
1.一种训练释义处理系统的方法,其特征在于,它包括:
接收一相关文本聚类;
从所述聚类中选择一文本片段组;以及
使用文本对齐来标识所述组中的文本片段中的文本之间的释义关系。
2.如权利要求1所述的方法,其特征在于,使用文本对齐包括:
使用统计文本对齐来对齐所述组中的文本片段中的单词;以及
基于所对齐的单词标识所述释义关系。
3.如权利要求2所述的方法,其特征在于,使用文本对齐包括:
使用统计文本对齐来对齐所述组中的文本片段中的多单词短语;以及基于所对齐的多单词短语标识所述释义关系。
4.如权利要求1所述的方法,其特征在于,使用文本对齐包括:
使用启发式单词对齐来对齐所述组中的文本片段中的单词;以及基于所对齐的单词标识所述释义关系。
5.如权利要求4所述的方法,其特征在于,使用文本对齐包括:
使用启发式文本对齐来对齐所述组中的文本片段中的多单词短语;以及基于所对齐的多单词短语标识所述释义关系。
6.如权利要求1所述的方法,其特征在于,它还包括:
基于所标识的释义关系计算一对齐模型。
7.如权利要求6所述的方法,其特征在于,它还包括:
接收一输入文本;以及
基于所述对齐模型生成所述输入文本的释义。
8.如权利要求1所述的方法,其特征在于,选择一文本片段组包括:
基于所述文本片段中的众多共享单词选择所述组的文本片段。
9.如权利要求1所述的方法,其特征在于,它还包括:
在接收一聚类之前,标识所述相关文本的聚类。
10.如权利要求9所述的方法,其特征在于,标识一聚类包括:
访问多个文档;以及
将由不同的作者关于一公共主题书写的文档标识为相关文档的聚类。
11.如权利要求10所述的方法,其特征在于,选择一文本片段组包括:
将每一聚类中的所述相关文档的期望文本片段分组成一相关文本片段组。
12.如权利要求11所述的方法,其特征在于,标识文档包括:
标识在彼此的预定时间内书写的文档。
13.如权利要求11所述的方法,其特征在于,访问多个文档包括:
访问关于一公共事件书写的多个不同的新闻文章。
14.如权利要求13所述的方法,其特征在于,访问多个不同的新闻文章包括:
访问由不同的通讯社书写的多个不同的新闻文章。
15.如权利要求14所述的方法,其特征在于,分组期望的文本片段包括:
将每一聚类中的每一新闻文章的预定数量的句子分组成所述相关文本片段组。
16.如权利要求15所述的方法,其特征在于,选择一文本片段组包括:
将给定的相关文本片段组中的每一句子与所述给定组中的每一其它句子配对。
17.一种释义处理系统,其特征在于,它包括:
一文本对齐组件,它被配置成接收一文本片段组,并基于单词的对齐标识所述文本片段组中单词之间的释义关系。
18.如权利要求17所述的释义处理系统,其特征在于,所述文本对齐组件被配置成基于所述单词的统计或启发式对齐生成一对齐模型。
19.如权利要求18所述的释义处理系统,其特征在于,所述文本对齐组件被配置成基于所述文本片段组中的多单词短语的对齐标识释义关系。
20.如权利要求17所述的释义处理系统,其特征在于,它还包括:
一聚合组件,它被配置成访问多个文档,并基于所述文档的主题聚合所述文档。
21.如权利要求20所述的释义处理系统,其特征在于,所述聚合组件被配置成聚合关于同一主题书写的文档。
22.如权利要求20所述的释义处理系统,其特征在于,所述聚合组件被配置成从所聚合的文档中提取预定文本片段以形成所述文本片段组。
23.如权利要求22所述的释义处理系统,其特征在于,它还包括:
一配对组件,它被配置成基于所述文本片段组标识多个文本片段对。
24.如权利要求23所述的释义处理系统,其特征在于,所述配对组件被配置成通过将给定的文本片段组中的每一文本片段与所述给定的文本片段组中的每一其它文本片段配对来标识多个文本片段对。
25.如权利要求20所述的释义处理系统,其特征在于,它还包括:
一数据存储,它储存所述多个文档。
26.如权利要求25所述的释义处理系统,其特征在于,所述数据存储储存由不同的通讯社关于一公共事件书写的多个不同新闻文章。
27.如权利要求26所述的释义处理系统,其特征在于,所述聚合组件被配置成基于所述新闻文件书写的时间聚合所述新闻文章。
28.如权利要求27所述的释义处理系统,其特征在于,所述数据存储以一个或多个数据存储实现。
29.如权利要求17所述的释义处理系统,其特征在于,它还包括:
一释义生成器,它接收文本输入,并基于所述释义关系生成所述文本输入的释义。
30.一种释义处理系统,其特征在于,它包括:
一释义生成器,它接收文本输入,并基于从一文本对齐组件接收的释义关系生成所述文本输入的释义,所述文本对齐组件被配置成接收多个文本片段,并基于单词的对齐标识所述文本片段中单词之间的释义关系。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/706,102 | 2003-11-12 | ||
US10/706,102 US7412385B2 (en) | 2003-11-12 | 2003-11-12 | System for identifying paraphrases using machine translation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1617134A true CN1617134A (zh) | 2005-05-18 |
CN100371927C CN100371927C (zh) | 2008-02-27 |
Family
ID=34435622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100957902A Active CN100371927C (zh) | 2003-11-12 | 2004-11-12 | 使用机器翻译技术标识释义的方法和系统 |
Country Status (10)
Country | Link |
---|---|
US (2) | US7412385B2 (zh) |
EP (1) | EP1531402A3 (zh) |
JP (1) | JP2005149494A (zh) |
KR (1) | KR101130444B1 (zh) |
CN (1) | CN100371927C (zh) |
AU (1) | AU2004218705B2 (zh) |
BR (1) | BRPI0404348A (zh) |
CA (1) | CA2484410C (zh) |
MX (1) | MXPA04010820A (zh) |
RU (1) | RU2368946C2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108292306A (zh) * | 2015-11-25 | 2018-07-17 | 皇家飞利浦有限公司 | 电子临床自由文本的阅读者驱动的释义 |
Families Citing this family (262)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
US8719041B2 (en) | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
US7941348B2 (en) | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
US8428934B2 (en) * | 2010-01-25 | 2013-04-23 | Holovisions LLC | Prose style morphing |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7584092B2 (en) * | 2004-11-15 | 2009-09-01 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
US7552046B2 (en) * | 2004-11-15 | 2009-06-23 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
JP4645242B2 (ja) * | 2005-03-14 | 2011-03-09 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US7937396B1 (en) * | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US8719244B1 (en) | 2005-03-23 | 2014-05-06 | Google Inc. | Methods and systems for retrieval of information items and associated sentence fragments |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
US7739254B1 (en) * | 2005-09-30 | 2010-06-15 | Google Inc. | Labeling events in historic news |
US20080040339A1 (en) * | 2006-08-07 | 2008-02-14 | Microsoft Corporation | Learning question paraphrases from log data |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US8626486B2 (en) * | 2006-09-05 | 2014-01-07 | Google Inc. | Automatic spelling correction for machine translation |
US8423908B2 (en) * | 2006-09-08 | 2013-04-16 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8024173B1 (en) * | 2006-09-11 | 2011-09-20 | WordRake Holdings, LLC | Computer processes for detecting and correcting writing problems associated with nominalizations |
JP5082374B2 (ja) * | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US8078451B2 (en) * | 2006-10-27 | 2011-12-13 | Microsoft Corporation | Interface and methods for collecting aligned editorial corrections into a database |
KR100911372B1 (ko) * | 2006-12-05 | 2009-08-10 | 한국전자통신연구원 | 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 |
US8447589B2 (en) * | 2006-12-22 | 2013-05-21 | Nec Corporation | Text paraphrasing method and program, conversion rule computing method and program, and text paraphrasing system |
US20090326913A1 (en) * | 2007-01-10 | 2009-12-31 | Michel Simard | Means and method for automatic post-editing of translations |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN104866469B (zh) | 2007-04-11 | 2018-10-02 | 谷歌有限责任公司 | 具有第二语言模式的输入法编辑器 |
US20080294398A1 (en) * | 2007-05-25 | 2008-11-27 | Justsystems Evans Research, Inc. | Method and apparatus for the automated construction of models of activities from textual descriptions of the activities |
WO2009016631A2 (en) * | 2007-08-01 | 2009-02-05 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8725490B2 (en) * | 2007-10-18 | 2014-05-13 | Yahoo! Inc. | Virtual universal translator for a mobile device with a camera |
US9910850B2 (en) * | 2007-10-25 | 2018-03-06 | Disney Enterprises, Inc. | System and method of localizing assets using text substitutions |
US20090119090A1 (en) * | 2007-11-01 | 2009-05-07 | Microsoft Corporation | Principled Approach to Paraphrasing |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
WO2009105735A2 (en) | 2008-02-21 | 2009-08-27 | Globalenglish Corporation | Web-based tool for collaborative, social learning |
US8612469B2 (en) | 2008-02-21 | 2013-12-17 | Globalenglish Corporation | Network-accessible collaborative annotation tool |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US20090228427A1 (en) * | 2008-03-06 | 2009-09-10 | Microsoft Corporation | Managing document work sets |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8504354B2 (en) * | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US20100082324A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Replacing terms in machine translation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8494835B2 (en) * | 2008-12-02 | 2013-07-23 | Electronics And Telecommunications Research Institute | Post-editing apparatus and method for correcting translation errors |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8396850B2 (en) * | 2009-02-27 | 2013-03-12 | Red Hat, Inc. | Discriminating search results by phrase analysis |
US8527500B2 (en) * | 2009-02-27 | 2013-09-03 | Red Hat, Inc. | Preprocessing text to enhance statistical features |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US20100299132A1 (en) * | 2009-05-22 | 2010-11-25 | Microsoft Corporation | Mining phrase pairs from an unstructured resource |
US10891659B2 (en) | 2009-05-29 | 2021-01-12 | Red Hat, Inc. | Placing resources in displayed web pages via context modeling |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8285706B2 (en) * | 2009-06-10 | 2012-10-09 | Microsoft Corporation | Using a human computation game to improve search engine performance |
US20100332217A1 (en) * | 2009-06-29 | 2010-12-30 | Shalom Wintner | Method for text improvement via linguistic abstractions |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8543381B2 (en) * | 2010-01-25 | 2013-09-24 | Holovisions LLC | Morphing text by splicing end-compatible segments |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
US8566078B2 (en) * | 2010-01-29 | 2013-10-22 | International Business Machines Corporation | Game based method for translation data acquisition and evaluation |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8478699B1 (en) * | 2010-04-30 | 2013-07-02 | Google Inc. | Multiple correlation measures for measuring query similarity |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US8484016B2 (en) | 2010-05-28 | 2013-07-09 | Microsoft Corporation | Locating paraphrases through utilization of a multipartite graph |
US20120330643A1 (en) * | 2010-06-04 | 2012-12-27 | John Frei | System and method for translation |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US20120109623A1 (en) * | 2010-11-01 | 2012-05-03 | Microsoft Corporation | Stimulus Description Collections |
US8903719B1 (en) | 2010-11-17 | 2014-12-02 | Sprint Communications Company L.P. | Providing context-sensitive writing assistance |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8838433B2 (en) * | 2011-02-08 | 2014-09-16 | Microsoft Corporation | Selection of domain-adapted translation subcorpora |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9098488B2 (en) | 2011-04-03 | 2015-08-04 | Microsoft Technology Licensing, Llc | Translation of multilingual embedded phrases |
US8972240B2 (en) * | 2011-05-19 | 2015-03-03 | Microsoft Corporation | User-modifiable word lattice display for editing documents and search queries |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
CN103092829B (zh) * | 2011-10-27 | 2015-11-25 | 北京百度网讯科技有限公司 | 一种复述资源获取方法及系统 |
KR20130047471A (ko) * | 2011-10-31 | 2013-05-08 | 한국전자통신연구원 | 자동번역 시스템의 패러프레이징 데이터 구축방법 |
US9348479B2 (en) | 2011-12-08 | 2016-05-24 | Microsoft Technology Licensing, Llc | Sentiment aware user interface customization |
US9378290B2 (en) | 2011-12-20 | 2016-06-28 | Microsoft Technology Licensing, Llc | Scenario-adaptive input method editor |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9754585B2 (en) | 2012-04-03 | 2017-09-05 | Microsoft Technology Licensing, Llc | Crowdsourced, grounded language for intent modeling in conversational interfaces |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
CN104428734A (zh) | 2012-06-25 | 2015-03-18 | 微软公司 | 输入法编辑器应用平台 |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US8959109B2 (en) | 2012-08-06 | 2015-02-17 | Microsoft Corporation | Business intelligent in-document suggestions |
US9767156B2 (en) | 2012-08-30 | 2017-09-19 | Microsoft Technology Licensing, Llc | Feature-based candidate selection |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9116880B2 (en) | 2012-11-30 | 2015-08-25 | Microsoft Technology Licensing, Llc | Generating stimuli for use in soliciting grounded linguistic information |
US9146919B2 (en) | 2013-01-16 | 2015-09-29 | Google Inc. | Bootstrapping named entity canonicalizers from English using alignment models |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10223349B2 (en) | 2013-02-20 | 2019-03-05 | Microsoft Technology Licensing Llc | Inducing and applying a subject-targeted context free grammar |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
CN105580004A (zh) | 2013-08-09 | 2016-05-11 | 微软技术许可有限责任公司 | 提供语言帮助的输入方法编辑器 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9779087B2 (en) * | 2013-12-13 | 2017-10-03 | Google Inc. | Cross-lingual discriminative learning of sequence models with posterior regularization |
KR101615621B1 (ko) * | 2014-04-23 | 2016-04-27 | 한국과학기술원 | 동일 지시어 해소 시스템 및 방법 |
WO2015162737A1 (ja) * | 2014-04-23 | 2015-10-29 | 株式会社東芝 | 音訳作業支援装置、音訳作業支援方法及びプログラム |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105335343A (zh) | 2014-07-25 | 2016-02-17 | 北京三星通信技术研究有限公司 | 文本编辑方法和装置 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
RU2639684C2 (ru) * | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
JP6190341B2 (ja) * | 2014-09-04 | 2017-08-30 | 日本電信電話株式会社 | データ生成装置、データ生成方法、及びプログラム |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
TWI590080B (zh) * | 2014-11-26 | 2017-07-01 | 納寶股份有限公司 | 內容參與翻譯設備和方法 |
JP6250013B2 (ja) | 2014-11-26 | 2017-12-20 | ネイバー コーポレーションNAVER Corporation | コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
WO2016122512A1 (en) * | 2015-01-29 | 2016-08-04 | Hewlett-Packard Development Company, L.P. | Segmentation based on clustering engines applied to summaries |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
RU2610241C2 (ru) * | 2015-03-19 | 2017-02-08 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
CN106156010B (zh) * | 2015-04-20 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 翻译训练方法、装置、系统、以及在线翻译方法及装置 |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105488025B (zh) * | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105653620B (zh) * | 2015-12-25 | 2020-05-22 | 上海智臻智能网络科技股份有限公司 | 智能问答系统的日志分析方法及装置 |
US11727198B2 (en) | 2016-02-01 | 2023-08-15 | Microsoft Technology Licensing, Llc | Enterprise writing assistance |
JP6671027B2 (ja) * | 2016-02-01 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 換言文生成方法、該装置および該プログラム |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN107861937B (zh) * | 2016-09-21 | 2023-02-03 | 松下知识产权经营株式会社 | 对译语料库的更新方法、更新装置以及记录介质 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR102589638B1 (ko) | 2016-10-31 | 2023-10-16 | 삼성전자주식회사 | 문장 생성 장치 및 방법 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR101851785B1 (ko) * | 2017-03-20 | 2018-06-07 | 주식회사 마인드셋 | 챗봇의 트레이닝 세트 생성 장치 및 방법 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10275452B2 (en) | 2017-05-12 | 2019-04-30 | International Business Machines Corporation | Automatic, unsupervised paraphrase detection |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10423665B2 (en) * | 2017-08-02 | 2019-09-24 | Oath Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
US11620566B1 (en) * | 2017-08-04 | 2023-04-04 | Grammarly, Inc. | Artificial intelligence communication assistance for improving the effectiveness of communications using reaction data |
CN107766337A (zh) * | 2017-09-25 | 2018-03-06 | 沈阳航空航天大学 | 基于深度语义关联的译文预测方法 |
US10606943B2 (en) | 2017-10-09 | 2020-03-31 | International Business Machines Corporation | Fault injection in human-readable information |
US20190163756A1 (en) * | 2017-11-29 | 2019-05-30 | International Business Machines Corporation | Hierarchical question answering system |
US10558762B2 (en) | 2018-02-24 | 2020-02-11 | International Business Machines Corporation | System and method for adaptive quality estimation for machine translation post-editing |
JP6970345B2 (ja) * | 2018-08-21 | 2021-11-24 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
KR102637340B1 (ko) | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 문장 매핑 방법 및 장치 |
RU2699396C1 (ru) * | 2018-11-19 | 2019-09-05 | Общество С Ограниченной Ответственностью "Инвек" | Нейронная сеть для интерпретирования предложений на естественном языке |
US11151452B2 (en) * | 2018-12-07 | 2021-10-19 | Capital One Services, Llc | Systems and methods for legal document generation |
US11126794B2 (en) * | 2019-04-11 | 2021-09-21 | Microsoft Technology Licensing, Llc | Targeted rewrites |
WO2020229889A1 (en) | 2019-05-10 | 2020-11-19 | Yseop Sa | Natural language text generation using semantic objects |
US10817576B1 (en) * | 2019-08-07 | 2020-10-27 | SparkBeyond Ltd. | Systems and methods for searching an unstructured dataset with a query |
KR102240910B1 (ko) | 2019-09-30 | 2021-04-14 | 광운대학교 산학협력단 | 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템 |
US11501088B1 (en) | 2020-03-11 | 2022-11-15 | Yseop Sa | Techniques for generating natural language text customized to linguistic preferences of a user |
US11210473B1 (en) * | 2020-03-12 | 2021-12-28 | Yseop Sa | Domain knowledge learning techniques for natural language generation |
US11983486B1 (en) | 2020-12-09 | 2024-05-14 | Yseop Sa | Machine learning techniques for updating documents generated by a natural language generation (NLG) engine |
KR102370729B1 (ko) | 2021-06-03 | 2022-03-07 | 최연 | 문장 작성 시스템 |
US20230019081A1 (en) * | 2021-07-16 | 2023-01-19 | Microsoft Technology Licensing, Llc | Modular self-supervision for document-level relation extraction |
US20230401286A1 (en) * | 2022-06-14 | 2023-12-14 | Oracle International Corporation | Guided augmention of data sets for machine learning models |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319711A (en) * | 1977-10-11 | 1982-03-16 | Robertshaw Controls Company | Wall thermostat and the like |
US4277784A (en) * | 1979-07-13 | 1981-07-07 | Commodore Electronics Limited | Switch scanning means for use with integrated circuits |
US4264034A (en) * | 1979-08-16 | 1981-04-28 | Hyltin Tom M | Digital thermostat |
US4337822A (en) * | 1979-08-16 | 1982-07-06 | Hyltin Tom M | Digital thermostat |
US4460125A (en) * | 1981-05-14 | 1984-07-17 | Robertshaw Controls Company | Wall thermostat and the like |
SE466029B (sv) | 1989-03-06 | 1991-12-02 | Ibm Svenska Ab | Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem |
US5103078A (en) * | 1990-02-01 | 1992-04-07 | Boykin T Brooks | Programmable hot water heater control method |
US5107918A (en) * | 1991-03-01 | 1992-04-28 | Lennox Industries Inc. | Electronic thermostat |
US5495413A (en) | 1992-09-25 | 1996-02-27 | Sharp Kabushiki Kaisha | Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes |
US5995920A (en) | 1994-12-22 | 1999-11-30 | Caterpillar Inc. | Computer-based method and system for monolingual document development |
US5870700A (en) | 1996-04-01 | 1999-02-09 | Dts Software, Inc. | Brazilian Portuguese grammar checker |
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
EP0932897B1 (en) * | 1997-06-26 | 2003-10-08 | Koninklijke Philips Electronics N.V. | A machine-organized method and a device for translating a word-organized source text into a word-organized target text |
US6098033A (en) | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
US5960080A (en) * | 1997-11-07 | 1999-09-28 | Justsystem Pittsburgh Research Center | Method for transforming message containing sensitive information |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6035269A (en) * | 1998-06-23 | 2000-03-07 | Microsoft Corporation | Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text |
US6188976B1 (en) | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US6315211B1 (en) * | 1999-12-03 | 2001-11-13 | Emerson Electric Co. | Hardwired or battery powered digital thermostat |
WO2001082111A2 (en) * | 2000-04-24 | 2001-11-01 | Microsoft Corporation | Computer-aided reading system and method with cross-language reading wizard |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US6961692B1 (en) * | 2000-08-01 | 2005-11-01 | Fuji Xerox Co, Ltd. | System and method for writing analysis using the linguistic discourse model |
US7043420B2 (en) | 2000-12-11 | 2006-05-09 | International Business Machines Corporation | Trainable dynamic phrase reordering for natural language generation in conversational systems |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
JP2002245037A (ja) * | 2001-02-16 | 2002-08-30 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 句アラインメント方法 |
JP3764058B2 (ja) * | 2001-03-01 | 2006-04-05 | 株式会社東芝 | 翻訳装置、翻訳方法及び翻訳プログラム |
US7146308B2 (en) | 2001-04-05 | 2006-12-05 | Dekang Lin | Discovery of inference rules from text |
JP2005500594A (ja) * | 2001-05-04 | 2005-01-06 | パラセル, インコーポレイテッド | 高速の近似部分文字列検索ための方法および装置 |
US20030055625A1 (en) | 2001-05-31 | 2003-03-20 | Tatiana Korelsky | Linguistic assistant for domain analysis methodology |
US7050964B2 (en) | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
CN1391180A (zh) * | 2001-06-11 | 2003-01-15 | 国际商业机器公司 | 外语写作辅助方法和辅助工具 |
JP2003263433A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 統計的機械翻訳機における翻訳モデルの生成方法 |
US7031911B2 (en) * | 2002-06-28 | 2006-04-18 | Microsoft Corporation | System and method for automatic detection of collocation mistakes in documents |
US7076422B2 (en) | 2003-03-13 | 2006-07-11 | Microsoft Corporation | Modelling and processing filled pauses and noises in speech recognition |
US7412385B2 (en) | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7496621B2 (en) | 2004-07-14 | 2009-02-24 | International Business Machines Corporation | Method, program, and apparatus for natural language generation |
US7908132B2 (en) | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
-
2003
- 2003-11-12 US US10/706,102 patent/US7412385B2/en active Active
-
2004
- 2004-10-08 CA CA2484410A patent/CA2484410C/en active Active
- 2004-10-08 AU AU2004218705A patent/AU2004218705B2/en not_active Ceased
- 2004-10-11 BR BR0404348-0A patent/BRPI0404348A/pt not_active IP Right Cessation
- 2004-10-12 RU RU2004129675/09A patent/RU2368946C2/ru not_active IP Right Cessation
- 2004-10-18 EP EP04024785A patent/EP1531402A3/en not_active Ceased
- 2004-10-27 KR KR1020040086343A patent/KR101130444B1/ko active IP Right Grant
- 2004-10-29 JP JP2004316990A patent/JP2005149494A/ja active Pending
- 2004-10-29 MX MXPA04010820A patent/MXPA04010820A/es active IP Right Grant
- 2004-11-12 CN CNB2004100957902A patent/CN100371927C/zh active Active
-
2005
- 2005-10-07 US US11/246,979 patent/US7752034B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108292306A (zh) * | 2015-11-25 | 2018-07-17 | 皇家飞利浦有限公司 | 电子临床自由文本的阅读者驱动的释义 |
Also Published As
Publication number | Publication date |
---|---|
RU2368946C2 (ru) | 2009-09-27 |
US7752034B2 (en) | 2010-07-06 |
EP1531402A3 (en) | 2006-05-31 |
CA2484410C (en) | 2013-12-03 |
EP1531402A2 (en) | 2005-05-18 |
US20060053001A1 (en) | 2006-03-09 |
AU2004218705B2 (en) | 2010-03-11 |
US7412385B2 (en) | 2008-08-12 |
KR101130444B1 (ko) | 2012-07-02 |
RU2004129675A (ru) | 2006-03-20 |
CA2484410A1 (en) | 2005-05-12 |
AU2004218705A1 (en) | 2005-05-26 |
KR20050045822A (ko) | 2005-05-17 |
US20050102614A1 (en) | 2005-05-12 |
BRPI0404348A (pt) | 2005-07-12 |
CN100371927C (zh) | 2008-02-27 |
MXPA04010820A (es) | 2007-11-14 |
JP2005149494A (ja) | 2005-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100371927C (zh) | 使用机器翻译技术标识释义的方法和系统 | |
JP7282940B2 (ja) | 電子記録の文脈検索のためのシステム及び方法 | |
CN104408078B (zh) | 一种基于关键词的中英双语平行语料库构建方法 | |
US8027948B2 (en) | Method and system for generating an ontology | |
US9754076B2 (en) | Identifying errors in medical data | |
KR20120026063A (ko) | 구조화되지 않은 자원으로부터의 문구 쌍의 마이닝 | |
JP2012520527A (ja) | ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
US9886480B2 (en) | Managing credibility for a question answering system | |
Kessler et al. | Extraction of terminology in the field of construction | |
Malik et al. | NLP techniques, tools, and algorithms for data science | |
US20230061773A1 (en) | Automated systems and methods for generating technical questions from technical documents | |
Osipov et al. | Technologies for semantic analysis of scientific publications | |
Makrynioti et al. | PaloPro: a platform for knowledge extraction from big social data and the news | |
US11461672B2 (en) | Plug-and-ingest framework for question answering systems | |
Kúdela et al. | Extracting parallel paragraphs from common crawl | |
WO2015033341A1 (en) | Polytope based summarization method | |
Karkaletsis et al. | Populating ontologies in biomedicine and presenting their content using multilingual generation | |
Xu et al. | Exploiting paper contents and citation links to identify and characterise specialisations | |
CN116069948B (zh) | 内容风控知识库构建方法、装置、设备及存储介质 | |
Linden et al. | Report on the Finnish Language | |
Tufiş | Finding Translation Examples for Under-Resourced Language Pairs or for Narrow Domains; the Case for Machine Translation | |
Samy et al. | Landscaping language technologies using topic modeling and graph analysis: Overview of the spanish contribution | |
Wu | Design of Chinese Corpus Based on Semantic Mining Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150519 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150519 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |