CN105210055A - 根据跨语种短语表的断词器 - Google Patents

根据跨语种短语表的断词器 Download PDF

Info

Publication number
CN105210055A
CN105210055A CN201480020924.6A CN201480020924A CN105210055A CN 105210055 A CN105210055 A CN 105210055A CN 201480020924 A CN201480020924 A CN 201480020924A CN 105210055 A CN105210055 A CN 105210055A
Authority
CN
China
Prior art keywords
phrase
stem
word
source language
affixe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480020924.6A
Other languages
English (en)
Other versions
CN105210055B (zh
Inventor
M·A·埃尔-沙尔维
A·A-M·T·M·沙拉比
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN105210055A publication Critical patent/CN105210055A/zh
Application granted granted Critical
Publication of CN105210055B publication Critical patent/CN105210055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语)短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入或者对于源语言语言学规则或源语言词法的在先知识。

Description

根据跨语种短语表的断词器
背景
断词器(也称为词态分析器)是一种接收单词并输出词素的自动化系统。例如,给定一个单词,断词器能够标识可能组成该单词的一个或多个词素的组合。词素是语言中最短的语法单元。单词的一个示例及其构成词素是单词“feeling”,在该单词被用作为名词时,其可包括单个词素“feeling”,而当该单词被用作为动词时,可包括两个词素“feel”和“ing”。
现有的断词器通常通过受监管的学习来创造,其中单词的示例及其词素通过人类判断来标注。这使得要制作断词器变得昂贵和耗时,尤其是对于高度词性变化的语言,诸如土耳其语。另一选项是使用词法数据和语言学规则。然而,取决于所涉及的语言,词法数据和语言学规则常常不可用。
断词器对于许多应用是非常有用的,这些应用包括但不限于信息检索、机器翻译以及语音处理。具体来说,断词器在处理诸如芬兰语、德语、土耳其语以及阿拉伯语之类的词态丰富的语言时是有用的。
下面描述的实施例不限于解决已知的断词器和/或构造断词器的方式的任何或所有缺点的实施方式。
概述
下面呈现了本发明的简要概述,以便向读者提供基本理解。本概述不是本公开的穷尽概览,并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是以简化形式呈现此处所公开的精选概念,作为稍后呈现的更详细的描述的序言。
描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语)短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入或者对于源语言语言学规则或源语言词法的在先知识。
通过结合附图参考以下详细描述,可易于领会并更好地理解许多附带特征。
附图简述
根据附图阅读以下具体实施方式,将更好地理解本发明,在附图中:
图1是使用断词器构建系统创建的能够访问跨语种短语表的断词器的示意图;
图2是跨语种短语表的示意图;
图3是使用跨语种短语表来创建断词器的方法的流程图;
图4是使用图1的装置来创建断词器的方法的示例的流程图;
图5示出了示例性基于计算的设备,其中可实现断词器和/或用于创建断词器的装置的各实施例。
在各个附图中使用相同的附图标记来指代相同的部件。
详细描述
下面结合附图提供的详细描述旨在作为本发明示例的描述,并不旨在表示可以构建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能,以及用于构建和操作本发明示例的步骤的序列。然而,可以通过不同的示例来实现相同或等效功能和序列。
尽管本发明的示例在此处被描述并解说成是在使用土耳其语-英语短语表的断词器构建系统(其中土耳其语被称为源语言或未知语言,而英语被称为目标语言或已知语言)中实现的,然而所描述的系统是作为示例而非限制提供的。如本领域技术人员将理解的,本发明示例适于应用在使用各种不同语言的各种不同类型的断词器系统中。
图1是使用断词器构建系统100创建的能够访问跨语种短语表108的断词器110的示意图。断词器110被创建以将诸如土耳其语之类的源语言的单词分割(或截断)成土耳其语词素。对于给定单词,断词器110可输出不止一个可能的分割以及与每个分割相关联的概率值。源语言是未知的,因为不存在对于断词器构建系统100可用的土耳其语的现有知识,除了以下将更详细解释的跨语种短语表。除了访问跨语种短语表之外,断词器构建系统不具有关于土耳其语语言学规则的知识、不具有土耳其语词典、不具有土耳其语单词通过人类判断分割成词素的示例。
断词器110可包括数据库、存储器或其它存储,用于保存以下中的一者或多者:词干词典、词缀列表、词缀-词干适用性矩阵、以及分割概率。断词器110还可包括计算机实现的规则、标准或其它处理,以接收源语言的单词并且使用数据库、存储器或其它存储中的该信息来将源语言单词分割成词素。对于给定单词,断词器110可输出多个方案以及与每个方案相关联的概率。
词干词典是词素列表,词素可被标识为名词、动词、形容词、副词、专有名词、或功能词。在此处描述的各示例中,词干词典可以是跨语种的,因为它可指示对于未知语言(例如土耳其语)中的一个词干,它对应于哪个已知语言(例如英语)词干。
词缀列表是从未知语言文本的示例中观察到的后缀和/或前缀的列表。术语“词缀”在此被用来表示前缀或后缀中的任一者或两者。词缀列表可用任何形式存储并且不限于以列表形式存储。
词缀-词干适用性矩阵是对于在未知语言中观察到的词缀和词干的组合的记录,并带有来自已知语言(例如英语)中的那些组合的含义的细节。例如,含义可以是特定后缀被用来赋予动词的第三人称现在时。词缀-词干适用性矩阵可用任何形式存储并且不限于以矩阵形式存储。
词缀适用性矩阵是在未知语言中观察到的一起出现的词缀的组合的记录,词缀适用性矩阵可用任何格式存储并且不限于以矩阵形式存储,并且可具有关于当词缀被组合在一起时的词缀序列的信息。
分割概率是表示给定单词由指定词素以指定次序形成的可能性的数字值。该数字值可被表示为百分比、0和1之间的值或其它方式。
断词器构建系统100是使用软件和/或硬件通过计算机实现的。其包括用于将来自短语表的一个或多个短语创建分组的块划分组件102;用于使用块划分组件102的输出来推导词干的词干推导组件104;以及用于形成词缀列表、词缀适用性矩阵、以及词缀-词干适用性矩阵的词缀推导组件106。断词器构建系统的输出包括词干、词缀列表、词缀适用性矩阵、词缀-词干适用性矩阵以及分割概率,以供在源语言断词器110处使用。
跨语种短语表108可以是数据库、存储或其它存储器,其保存每个源短语到可能的目标短语的映射,并带有相关联的概率。源短语包括想要针对其创建断词器的未知语言(诸如土耳其语)的一个或多个单词。目标短语包括已知语言(诸如英语)的一个或多个单词。映射可以表格的形式存储或者以任何其它适当的方式存储。以下参照图2更详细地讨论了其中使用表格格式的示例。
跨语种短语表、断词器构建系统100以及源断词器110一起形成用于分析单词的系统112。系统112的一个或多个组件可由下游的系统114使用,下游系统114包括但不限于机器翻译系统116、信息检索系统118、以及语音系统120。例如,输入到源断词器110的土耳其语单词可被分割成词素,使得各词素可由机器翻译系统116使用来更有效地将土耳其语单词翻译成另一语言的单词。这对于高度词性变化的语言(诸如土耳其语和芬兰语)尤其有用,因为减少了对于巨量的经翻译的配对来作为机器学习所需模型的训练数据的需求。在另一示例中,来自源语言断词器110的词素可被用来创建不同形式的查询单词以用于信息检索中(以扩展搜索查询)。在语音系统120的示例中,源语言断词器输出的词素被用作为语音系统120的输入,以使得语音识别系统能够更有效地翻译土耳其语语音。
替代地或另外地,此处所述的图1的各组件中的任意一个或多个的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如,但非限制,可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),图形处理单元(GPU)。
图2示出在土耳其语和英语之间进行映射的短语表200的至少一部分。每一行表示源短语和一个或多个可能的目标短语之间的映射,每个映射具有相关联的概率值。表的列202保存源短语,且在这一示例中,源短语是最左边的列。表的其它列204、206、208保存可能的目标短语以及概率值。为了清楚,图2中的示例仅具有几行;在实际中,可能存在数千万行。
表的行210具有源短语,即“birsaatlik”,其被映射到具有概率0.6702634的可能的目标短语“anhourly”,并且还被映射到具有概率0.6348674的可能的目标短语“aonehour”,并且还被映射到具有概率0.6297368的可能的目标短语“onehour”。
表的行212具有源短语,即“kapayincaya”,其被映射到具有概率0.5299705的可能的目标短语“theblink”,并且还被映射到具有概率0.5147306的可能的目标短语“blink”;并且还被映射到具有概率0.506618的可能的目标短语“blinkof”。
短语表可能已通过运行于平行句子上的被称为单词对齐(wordalignment)的自动化过程来生成。平行句子是给定语言的源句子及其在另一种语言中的翻译的配对。
图3是在断词器构建系统100处的操作的方法的流程图。方法访问跨语种短语表108并执行块划分300。块划分是将源语言(未知)中共享目标语言(已知)中的类似翻译的短语分组成块的过程。方法推断词干,302。这通过寻找源语言(未知)中被块中的短语所共享的词干来实现。如以下参照图4讨论的,可使用各种不同的寻找被共享的词干的方式。使用短语表中的词干的翻译以及对于目标语言(英语)中名词、动词、形容词、副词等的知识来将词干标识为名词或动词。与词干相关联的概率信息使用来自短语表的概率信息来计算。方法推断后缀,304,及其概率。这通过寻找后缀(或者当源语言使用前缀时寻找前缀,这与土耳其语不同)来实现,后缀是短语的不是块中的词干的那些部分。后缀(或前缀)的适用性通过检查短语表中短语的英语对应并且使用对于英语中那些英语对应的适用性的知识来寻找。
图4是使用图1的装置来创建断词器的方法的流程图。方法包括将短语表中具有在目标语言(已知)中的类似(或共享)翻译的源语言单词(未知)划块在一起(400)。现在给出块的一个示例,其中翻译具有公共(共享)单词(在这一示例中,该单词是tree):
|treeshows
|tree
其中翻译具有词性变化的单词的块的示例是:
|exaggerating
Abartmak|exaggerate
其中翻译具有多个单词以及共享的含义的块的示例是:
|couldnotopen
|ifyoucannotopen
对于每个块,找到共享的词干,402。例如,
在上述块中,共享的词干是
在上述块中,共享的词干是
以上示例解说了块划分组件(图1的102)可将短语表中的短语分配到块中的不同方式。短语表中的短语可以是不止一个块的成员。
块划分组件可通过从短语表中选择翻译以及搜索短语表以寻找具有映射到与所选择的翻译类似的一个或多个目标语言短语(例如,英语短语)的任何源语言短语(例如,土耳其语短语)来操作。相似度度量可以考虑字母、单词、短语、语义含义、以及词性变化。相似度度量可以是基于这些因素中的一个或多个的数字度量,并且它可与阈值或其它标准作比较以决定是否进行块划分。在其它示例中,该过程检查翻译中的单个单词的同一性。如果找到同一性,则进行块划分。如果没有找到同一性,则检查词性变化的单词的同一性。如果找到同一性,则进行块划分。如果没有找到同一性,则检查翻译中的两个或更多个单词的同一性。如果找到同一性,则进行块划分。如果没有找到同一性,则该过程继续从短语表中选择另一翻译。该过程可重复直到短语表的所有行都已被考虑。
图4的方法继续为每一个块寻找共享的词干。每个块包括源语言短语(例如,土耳其语短语)以及具有针对每一源语言短语的概率的候选翻译。对于块中的源语言短语,在候选翻译之间存在一定程度的相似性。词干推导过程搜索给定块的源语言短语(例如,土耳其语短语)以寻找每个短语的字符的序列,该序列在每个源语言短语中是相同的。这些序列中的一个被称为词干。在以上描述的示例中,词干是短语的开头的字符序列。然而,这不是必需的。在其中频繁使用前缀的其它语言中,词干可开始于单词中的稍后位置。
词干推导组件能够检查块的共享翻译以标识404为该块找到的词干在源语言短语(土耳其语短语)中是用作为名词还是动词还是任何其它词性(副词、形容词、功能词等)。为此,词干推导组件使用存储的有关目标语言中的词性(包括名词和动词)的知识。该知识可以规则的形式被封装,词干推导组件将该规则应用到翻译以标识是作为名词使用还是作为动词使用。词干推导组件将所得到的词干及其推导的适用性(名词或动词)存储在词缀-词干适用性矩阵中。
标识词干的过程还产生了短语的剩余部分,该剩余部分未被标识为词干的一部分。对于每个块,存在多个这样的剩余部分,块中的每一个源语言短语有一个。每个剩余部分被处理以标识词缀或词缀组合。例如,在以下块中,存在两个词缀
给定块(及因此给定词干)的词缀被存储在词缀列表中。词缀列表可被存储在词缀-词干适用性矩阵中。
块的翻译被用来标识词缀的翻译并且使用封装目标语言(例如英语)的知识的规则来推导406词缀的适用性。词缀的适用性可被存储在词缀-词干适用性矩阵中。
例如,如果以下映射在块中存在,则词干推导组件可推导词干“Abc”表示动词“walk”并且词缀“u”赋予动词walk的第三人称现在时,词缀“v”赋予动词walk的过去时“ed”形式,而词缀“y”赋予动词walk的进行时“ing”形式。
Abc---walk
Abcu---walks
Abcv---walked
Abcy---walking
如果在另一块中存在以下映射,则词干推导组件可推导词干“Def”表示动词play并且词缀“u”赋予动词play的第三人称现在时,词缀“v”赋予动词play的过去时“ed”形式,而词缀“y”赋予动词play的进行时“ing”形式。
Def---play
Defu---plays
Defv---played
Defy---playing
在这一示例中,对于两个块,词缀列表都是:u、v、y,并且词缀-词干适用性矩阵能够通过如下的存储来避免词缀列表的重复存储:
Abc(动词)>>walk
Def(动词)>>play
U>>第三人称现在时
V>>ed形式
Y>>ing形式
这是将被用于图1的源语言断词器110的推导的土耳其语词法的一部分的示例。
分割概率也可被存储以供图1的源语言断词器110使用。块划分组件获取与短语表中的每个翻译相关联的概率值。为块中的每个翻译整合这些概率值,这被用来推断从该块中推导出的词干。这给出与每个词干相关联的概率值。概率值可被存储在词缀-词干适用性矩阵中。给定动词的分割的概率可被计算为整个短语表中的不同块之间这一特定分割出现次数与最终形式的单词在短语表中的总的出现次数的比率。例如,推导的土耳其语词法的一部分可以是
具有概率75%;或者
具有概率25%。
当断词器收到单词时,它能够如以上所指示的以两种可能的方式对该单词进行分割,并且为每一种分割赋予概率。当断词器收到输入单词时,它将来自其词干存储中的词干与单词和出现在该单词中的以及具有也出现在该单词中的相关联词缀(来自该词干的词缀列表)的任何词干相匹配。断词器输出这些可能的分割以及词缀-词干适用性矩阵中与这些分割相关联的概率值。在一些情况下,断词器接收短语或句子作为输入并且能够基于上下文推导给定单词是被用作为名词还是用作为动词。在这种情况下,断词器能够基于所标识的上下文中的词性来选择恰适的分割。
图5示出可以被实现为任何形式的计算和/或电子设备,并且其中可以实现断词器构建系统和/或断词器的实施例的示例性基于计算的设备500的各组件。
基于计算的设备500包括一个或多个处理器502,所述处理器可以是微处理器、控制器或任何其他适当类型的处理器,以用于处理计算机可执行指令以控制该设备的操作,以便自动根据跨语种短语表创建针对源(未知)语言的断词器和/或将源语言单词截断成词素。在一些示例中,例如在使用片上系统架构的示例中,处理器502可以包括一个或多个固定功能块(亦称加速器),这些块以硬件(而非软件或固件)来实现构建断词器和/或操作断词器的方法的一部分。可以在基于计算的设备处提供包括操作系统504或任何其他合适的平台软件的平台软件以使得能够在该设备上执行应用软件。在一些示例中,块划分组件506可作为存储在存储器512的软件和/或使用硬件来提供。块划分组件506是图1的块划分组件的示例,并且能够执行例如图4的框400的方法。词干和词缀推导组件508在一些示例中可作为存储在存储器512的软件和/或使用硬件来提供。词干和词缀推导组件是图1的词干推导组件和词缀推导组件的示例。在一些示例中,词干和词缀推导组件能够执行图4的框402到406的方法。数据存储510可存储词干、词缀列表、词缀-词干适用性矩阵、分割概率、规则、阈值、短语表、单词、词素以及其它数据。
可以使用可由基于计算的设备500访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如诸如存储器512等计算机存储介质和通信介质。诸如存储器512等计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。相反,通信介质可以以诸如载波或其他传输机构等已调制数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的,计算机存储介质不包括通信介质。因此,计算机存储介质不应被解释为本质上是传播信号。传播信号可存在于计算机存储介质中,但是传播信号本身不是计算机存储介质的示例。虽然在基于计算的设备500中示出了计算机存储介质(存储器512),然而应当理解,该存储可以是分布式的或位于远处并经由网络或其他通信链路(例如,使用通信接口514)来访问。
基于计算的设备500还包括输入/输出控制器516,该输入/输出控制器被布置成向显示设备518输出显示信息,该显示设备可与基于计算的设备500分开或集成。该显示信息可以提供图形用户界面。输入/输出控制器516还被安排成接收并处理来自一个或多个设备的输入,如用户输入设备520(例如,鼠标、键盘、相机、话筒、或其他传感器)。在一些示例中,用户输入设备520可以检测语音输入、用户姿势或其他用户动作,并且可以提供自然用户界面(NUI)。这一用户输入可被用来指定要使用的短语表、输入要截断的单词、查看词缀-词干适用性矩阵、设置阈值、定义规则或用于其它目的。在一个实施例中,如果显示设备518是触敏显示设备,那么它还可担当用户输入设备520。输入/输出控制器516还可向除显示设备之外的设备输出数据,例如,本地连接的打印设备。
输入/输出控制器516、显示设备518以及用户输入设备520中的任一者可包括使用户能够按自然的、免受诸如鼠标、键盘、遥控器等输入设备所施加的人工约束的方式与基于计算的设备交互的NUI技术。可以提供的NUI技术的示例包括但不限于依赖于语音和/或话音识别、触摸和/或指示笔识别(触敏显示器)、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和话音、视觉、触摸、姿势以及机器智能的那些技术。可被使用NUI技术的其他示例包括意图和目的理解系统,使用深度相机(如立体相机系统、红外相机系统、rgb相机系统以及这些的组合)的运动姿势检测系统,使用加速度计/陀螺仪的运动姿势检测,面部识别,3D显示,头部、眼睛和注视跟踪,沉浸式增强现实和虚拟现实系统,以及用于使用电场传感电极(EEG和相关方法)的感测大脑活动的技术。
此处所使用的术语“计算机”或“基于计算的设备”是指带有处理能力以便它可以执行指令的任何设备。本领域技术人员可以理解,这样的处理能力被结合到许多不同设备,并且因此术语每个“计算机”和“基于计算的设备”包括个人电脑、服务器、移动电话(包括智能电话)、平板电脑、机顶盒、媒体播放器、游戏控制台、个人数字助理和许多其它设备。
本文描述的方法可由有形存储介质上的机器可读形式的软件来执行,例如计算机程序的形式,该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备,计算机存储设备包括计算机可读介质,诸如盘(disk)、拇指型驱动器、存储器等而不包括所传播的信号。传播信号可存在于有形存储介质中,但是传播信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。
这承认,软件可以是有价值的,单独地可交换的商品。它旨在包含运行于或者控制“哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片,或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等?描述?或者定义硬件配置以实现期望功能的软件。
本领域技术人员会认识到,用于存储程序指令的存储设备可分布在网络上。例如,远程计算机可以存储被描述为软件的进程的示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地,本地计算机可以根据需要下载软件的片段,或在本地终端上执行一些软件指令,并在远程计算机(或计算机网络)上执行另一些软件指令。本领域的技术人员还将认识到,通过利用本领域的技术人员已知的传统技术,软件指令的全部,或一部分可以通过诸如DSP、可编程逻辑阵列等等之类的专用电路来实现。
对精通本技术的人显而易见的是,此处给出的任何范围或设备值可以被扩展或改变,而不会丢失寻求的效果。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
可以理解,上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解,对“一个”项目的引用是指那些项目中的一个或多个。
此处所描述的方法的步骤可以在适当的情况下以任何合适的顺序,或同时实现。另外,在不偏离此处所描述的主题的精神和范围的情况下,可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合,以构成进一步的示例,而不会丢失寻求的效果。
此处使用了术语“包括”旨在包括已标识的方法的框或元件,但是这样的框或元件不包括排它性的列表,方法或设备可以包含额外的框或元件。
可以理解,上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例,但是,在不偏离本说明书的精神或范围的情况下,本领域的技术人员可以对所公开的实施例作出很多更改。

Claims (10)

1.一种自动构建用于将源语言的单词分割成词素的断词器的方法,包括:
在处理器处访问跨语种短语表,所述跨语种短语表包括多个源语言短语,每个源语言短语具有至少一个目标语言翻译;
对于来自所述跨语种短语表的源语言单词,使用所述跨语种短语表来推导并存储词素,所述词素包括单词的词干和词缀。
2.如权利要求1所述的方法,其特征在于,所述方法包括在所述处理器处访问与所述目标语言翻译相关联的概率值,以及使用所述概率值来计算与词干和词缀相关联的概率。
3.如权利要求1所述的方法,其特征在于,所述方法包括搜索所述跨语种短语表以寻找具有类似目标语言翻译的两个或更多个源语言短语的块。
4.如权利要求3所述的方法,其特征在于,所述方法包括通过寻找包括以下的任意一项的目标语言翻译来寻找类似目标语言翻译:相同的单个单词、多种词性变化形式中的任意形式的相同的目标语言单词、两个或更多个共享的目标语言单词。
5.如权利要求3所述的方法,其特征在于,所述方法包括搜索块的源语言短语以寻找词干,所述词干包括出现在所述块的每个源语言短语中的字符序列。
6.如权利要求5所述的方法,其特征在于,所述方法包括寻找多个词缀,所述词缀是所述块的源语言短语中的其它字符序列。
7.如权利要求5所述的方法,其特征在于,所述方法包括使用所述目标语言短语来推导所述词干是名词还是动词。
8.如权利要求1所述的方法,其特征在于,所述方法包括接收待分割成词素的源语言单词,以及寻找与该单词匹配的至少一个词干和词缀的组合。
9.如权利要求8所述的方法,其特征在于,所述方法包括输出与所述至少一个词干和词缀的组合相关联的概率值。
10.一种断词器构建系统,包括:
处理器,所述处理器被布置成访问跨语种短语表,所述跨语种短语表包括多个源语言短语,每个源语言短语具有至少一个目标语言翻译;
所述处理器被布置成对于来自所述跨语种短语表的源语言单词,使用所述跨语种短语表来推导并存储词素,所述词素包括单词的词干和词缀。
CN201480020924.6A 2013-04-11 2014-04-08 根据跨语种短语表的断词器 Active CN105210055B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/861,146 2013-04-11
US13/861,146 US9330087B2 (en) 2013-04-11 2013-04-11 Word breaker from cross-lingual phrase table
PCT/US2014/033242 WO2014168899A2 (en) 2013-04-11 2014-04-08 Word breaker from cross-lingual phrase table

Publications (2)

Publication Number Publication Date
CN105210055A true CN105210055A (zh) 2015-12-30
CN105210055B CN105210055B (zh) 2018-06-12

Family

ID=50694050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480020924.6A Active CN105210055B (zh) 2013-04-11 2014-04-08 根据跨语种短语表的断词器

Country Status (4)

Country Link
US (1) US9330087B2 (zh)
EP (1) EP2984587B1 (zh)
CN (1) CN105210055B (zh)
WO (1) WO2014168899A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109196496A (zh) * 2016-05-31 2019-01-11 微软技术许可有限责任公司 未知词预测器和内容整合的翻译器
CN113035170A (zh) * 2019-12-25 2021-06-25 中国科学院声学研究所 一种基于元音和谐的土耳其语的语音识别方法及系统

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US10606946B2 (en) * 2015-07-06 2020-03-31 Microsoft Technology Licensing, Llc Learning word embedding using morphological knowledge
CN109190124B (zh) * 2018-09-14 2019-11-26 北京字节跳动网络技术有限公司 用于分词的方法和装置
CN109614497B (zh) * 2018-11-14 2021-08-24 金色熊猫有限公司 基于知识图谱的对齐方法、装置及介质
US11328007B2 (en) 2019-02-04 2022-05-10 International Business Machines Corporation Generating a domain-specific phrasal dictionary
CN110889286B (zh) * 2019-10-12 2022-04-12 平安科技(深圳)有限公司 基于数据表的依赖关系识别方法、装置和计算机设备
US11886446B2 (en) * 2021-04-05 2024-01-30 Baidu Usa Llc Cross-lingual language models and pretraining of cross-lingual language models

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
CN101576909A (zh) * 2009-05-11 2009-11-11 内蒙古蒙科立软件有限责任公司 一种蒙古语数字化知识库系统构建方法
US20110320185A1 (en) * 2010-06-24 2011-12-29 Oded Broshi Systems and methods for machine translation
CN102681985A (zh) * 2012-05-16 2012-09-19 中国科学院计算技术研究所 一种面向形态丰富语言的翻译方法和系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297195A (ja) * 1989-03-02 1990-12-07 Nec Corp 形態素解析方式
US5475587A (en) * 1991-06-28 1995-12-12 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
DE19526264A1 (de) 1995-07-19 1997-04-10 Daimler Benz Ag Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
US7739102B2 (en) 2003-10-08 2010-06-15 Bender Howard J Relationship analysis system and method for semantic disambiguation of natural language
US7783476B2 (en) 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US20090326916A1 (en) 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
US8423350B1 (en) * 2009-05-21 2013-04-16 Google Inc. Segmenting text for searching
US8612206B2 (en) * 2009-12-08 2013-12-17 Microsoft Corporation Transliterating semitic languages including diacritics
US8856004B2 (en) * 2011-05-13 2014-10-07 Nuance Communications, Inc. Text processing using natural language understanding
US8874433B2 (en) * 2011-05-20 2014-10-28 Microsoft Corporation Syntax-based augmentation of statistical machine translation phrase tables
WO2012170817A1 (en) * 2011-06-10 2012-12-13 Google Inc. Augmenting statistical machine translation with linguistic knowledge

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
CN101576909A (zh) * 2009-05-11 2009-11-11 内蒙古蒙科立软件有限责任公司 一种蒙古语数字化知识库系统构建方法
US20110320185A1 (en) * 2010-06-24 2011-12-29 Oded Broshi Systems and methods for machine translation
CN102681985A (zh) * 2012-05-16 2012-09-19 中国科学院计算技术研究所 一种面向形态丰富语言的翻译方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BENJAMIN SNYDER ET AL: "Cross-lingual Propagation for Morphological Analysis", 《PROCEEDINGS OF THE TWENTY THIRD NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
DAUID YAROWSKY ET AL: "Inducing multilingual text analysis tools via robust projection across aligned corpora", 《PROCEEDINGS OF THE FIRST INTERNATIONAL CONFERENCE ON HUMAN LANGUAGE TECHNOLOGY RESEARCH》 *
JASON NARADOWSKY ET AL: "Unsupervised Bilingual Morpheme Segmentation and Alignment with Context-rich Hidden Semi-Markov Models", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
MONICA ROGATI ET AL: "Unsupervised learning of Arabic stemming using a parallel corpus", 《PROCEEDINGS OF THE 41ST ANNUAL MEETING ON ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
TAESUN MOON: ""Minimally supervised induction of morphology through bitexts"", 《UNIVERSITY OF TEXAS AT AUSTIN》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109196496A (zh) * 2016-05-31 2019-01-11 微软技术许可有限责任公司 未知词预测器和内容整合的翻译器
CN109196496B (zh) * 2016-05-31 2023-01-06 微软技术许可有限责任公司 未知词预测器和内容整合的翻译器
CN113035170A (zh) * 2019-12-25 2021-06-25 中国科学院声学研究所 一种基于元音和谐的土耳其语的语音识别方法及系统
CN113035170B (zh) * 2019-12-25 2022-07-12 中国科学院声学研究所 一种基于元音和谐的土耳其语的语音识别方法及系统

Also Published As

Publication number Publication date
CN105210055B (zh) 2018-06-12
EP2984587A2 (en) 2016-02-17
US9330087B2 (en) 2016-05-03
US20140309986A1 (en) 2014-10-16
WO2014168899A2 (en) 2014-10-16
EP2984587B1 (en) 2016-05-18
WO2014168899A3 (en) 2015-04-09

Similar Documents

Publication Publication Date Title
CN105210055A (zh) 根据跨语种短语表的断词器
US10055403B2 (en) Rule-based dialog state tracking
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US10289963B2 (en) Unified text analytics annotator development life cycle combining rule-based and machine learning based techniques
CN104428750A (zh) 代码片段的泛化和/或特化
US20190147038A1 (en) Preserving and processing ambiguity in natural language
US10261990B2 (en) Hybrid approach for short form detection and expansion to long forms
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
US20180246856A1 (en) Analysis method and analysis device
Priyadarshi et al. Towards the first Maithili part of speech tagger: Resource creation and system development
KR101985900B1 (ko) 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
KR101944274B1 (ko) 텍스트 기반의 상황 분류 장치 및 방법
Dredze et al. Twitter at the grammys: A social media corpus for entity linking and disambiguation
CN112541052B (zh) 确定问题的答案的方法、装置、设备及存储介质
US11687712B2 (en) Lexical analysis training of convolutional neural network by windows of different lengths with matrix of semantic vectors
US11899904B2 (en) Text input system with correction facility
US10083170B2 (en) Hybrid approach for short form detection and expansion to long forms
CN110472241A (zh) 生成去冗余信息句向量的方法及相关设备
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
JP6640618B2 (ja) 言語処理装置、方法、およびプログラム
KR101985901B1 (ko) 텍스트 콘텐츠 작성자의 메타정보 추론 서비스 제공 방법 및 컴퓨터 프로그램
KR101985904B1 (ko) 텍스트 콘텐츠를 소정의 단위로 분할하여 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
KR101985903B1 (ko) 텍스트 콘텐츠를 문장 단위로 분할하여 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
KR101985902B1 (ko) 형태소 특징 및 음절 특징을 고려한 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램
KR102346244B1 (ko) 신경망 기반 자동 슬롯 채우기 기술 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant