CN105210055B - 根据跨语种短语表的断词器 - Google Patents
根据跨语种短语表的断词器 Download PDFInfo
- Publication number
- CN105210055B CN105210055B CN201480020924.6A CN201480020924A CN105210055B CN 105210055 B CN105210055 B CN 105210055B CN 201480020924 A CN201480020924 A CN 201480020924A CN 105210055 B CN105210055 B CN 105210055B
- Authority
- CN
- China
- Prior art keywords
- language
- block
- stem
- word
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语)短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入或者对于源语言语言学规则或源语言词法的在先知识。
Description
背景
断词器(也称为词态分析器)是一种接收单词并输出词素的自动化系统。例如,给定一个单词,断词器能够标识可能组成该单词的一个或多个词素的组合。词素是语言中最短的语法单元。单词的一个示例及其构成词素是单词“feeling”,在该单词被用作为名词时,其可包括单个词素“feeling”,而当该单词被用作为动词时,可包括两个词素“feel”和“ing”。
现有的断词器通常通过受监管的学习来创造,其中单词的示例及其词素通过人类判断来标注。这使得要制作断词器变得昂贵和耗时,尤其是对于高度词性变化的语言,诸如土耳其语。另一选项是使用词法数据和语言学规则。然而,取决于所涉及的语言,词法数据和语言学规则常常不可用。
断词器对于许多应用是非常有用的,这些应用包括但不限于信息检索、机器翻译以及语音处理。具体来说,断词器在处理诸如芬兰语、德语、土耳其语以及阿拉伯语之类的词态丰富的语言时是有用的。
下面描述的实施例不限于解决已知的断词器和/或构造断词器的方式的任何或所有缺点的实施方式。
概述
下面呈现了本发明的简要概述,以便向读者提供基本理解。本概述不是本公开的穷尽概览,并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是以简化形式呈现此处所公开的精选概念,作为稍后呈现的更详细的描述的序言。
描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语)短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入或者对于源语言语言学规则或源语言词法的在先知识。
通过结合附图参考以下详细描述,可易于领会并更好地理解许多附带特征。
附图简述
根据附图阅读以下具体实施方式,将更好地理解本发明,在附图中:
图1是使用断词器构建系统创建的能够访问跨语种短语表的断词器的示意图;
图2是跨语种短语表的示意图;
图3是使用跨语种短语表来创建断词器的方法的流程图;
图4是使用图1的装置来创建断词器的方法的示例的流程图;
图5示出了示例性基于计算的设备,其中可实现断词器和/或用于创建断词器的装置的各实施例。
在各个附图中使用相同的附图标记来指代相同的部件。
详细描述
下面结合附图提供的详细描述旨在作为本发明示例的描述,并不旨在表示可以构建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能,以及用于构建和操作本发明示例的步骤的序列。然而,可以通过不同的示例来实现相同或等效功能和序列。
尽管本发明的示例在此处被描述并解说成是在使用土耳其语-英语短语表的断词器构建系统(其中土耳其语被称为源语言或未知语言,而英语被称为目标语言或已知语言)中实现的,然而所描述的系统是作为示例而非限制提供的。如本领域技术人员将理解的,本发明示例适于应用在使用各种不同语言的各种不同类型的断词器系统中。
图1是使用断词器构建系统100创建的能够访问跨语种短语表108的断词器110的示意图。断词器110被创建以将诸如土耳其语之类的源语言的单词分割(或截断)成土耳其语词素。对于给定单词,断词器110可输出不止一个可能的分割以及与每个分割相关联的概率值。源语言是未知的,因为不存在对于断词器构建系统100可用的土耳其语的现有知识,除了以下将更详细解释的跨语种短语表。除了访问跨语种短语表之外,断词器构建系统不具有关于土耳其语语言学规则的知识、不具有土耳其语词典、不具有土耳其语单词通过人类判断分割成词素的示例。
断词器110可包括数据库、存储器或其它存储,用于保存以下中的一者或多者:词干词典、词缀列表、词缀-词干适用性矩阵、以及分割概率。断词器 110还可包括计算机实现的规则、标准或其它处理,以接收源语言的单词并且使用数据库、存储器或其它存储中的该信息来将源语言单词分割成词素。对于给定单词,断词器110可输出多个方案以及与每个方案相关联的概率。
词干词典是词素列表,词素可被标识为名词、动词、形容词、副词、专有名词、或功能词。在此处描述的各示例中,词干词典可以是跨语种的,因为它可指示对于未知语言(例如土耳其语)中的一个词干,它对应于哪个已知语言 (例如英语)词干。
词缀列表是从未知语言文本的示例中观察到的后缀和/或前缀的列表。术语“词缀”在此被用来表示前缀或后缀中的任一者或两者。词缀列表可用任何形式存储并且不限于以列表形式存储。
词缀-词干适用性矩阵是对于在未知语言中观察到的词缀和词干的组合的记录,并带有来自已知语言(例如英语)中的那些组合的含义的细节。例如,含义可以是特定后缀被用来赋予动词的第三人称现在时。词缀-词干适用性矩阵可用任何形式存储并且不限于以矩阵形式存储。
词缀适用性矩阵是在未知语言中观察到的一起出现的词缀的组合的记录,词缀适用性矩阵可用任何格式存储并且不限于以矩阵形式存储,并且可具有关于当词缀被组合在一起时的词缀序列的信息。
分割概率是表示给定单词由指定词素以指定次序形成的可能性的数字值。该数字值可被表示为百分比、0和1之间的值或其它方式。
断词器构建系统100是使用软件和/或硬件通过计算机实现的。其包括用于将来自短语表的一个或多个短语创建分组的块划分组件102;用于使用块划分组件102的输出来推导词干的词干推导组件104;以及用于形成词缀列表、词缀适用性矩阵、以及词缀-词干适用性矩阵的词缀推导组件106。断词器构建系统的输出包括词干、词缀列表、词缀适用性矩阵、词缀-词干适用性矩阵以及分割概率,以供在源语言断词器110处使用。
跨语种短语表108可以是数据库、存储或其它存储器,其保存每个源短语到可能的目标短语的映射,并带有相关联的概率。源短语包括想要针对其创建断词器的未知语言(诸如土耳其语)的一个或多个单词。目标短语包括已知语言(诸如英语)的一个或多个单词。映射可以表格的形式存储或者以任何其它适当的方式存储。以下参照图2更详细地讨论了其中使用表格格式的示例。
跨语种短语表、断词器构建系统100以及源断词器110一起形成用于分析单词的系统112。系统112的一个或多个组件可由下游的系统114使用,下游系统114包括但不限于机器翻译系统116、信息检索系统118、以及语音系统 120。例如,输入到源断词器110的土耳其语单词可被分割成词素,使得各词素可由机器翻译系统116使用来更有效地将土耳其语单词翻译成另一语言的单词。这对于高度词性变化的语言(诸如土耳其语和芬兰语)尤其有用,因为减少了对于巨量的经翻译的配对来作为机器学习所需模型的训练数据的需求。在另一示例中,来自源语言断词器110的词素可被用来创建不同形式的查询单词以用于信息检索中(以扩展搜索查询)。在语音系统120的示例中,源语言断词器输出的词素被用作为语音系统120的输入,以使得语音识别系统能够更有效地翻译土耳其语语音。
替代地或另外地,此处所述的图1的各组件中的任意一个或多个的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如,但非限制,可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),图形处理单元(GPU)。
图2示出在土耳其语和英语之间进行映射的短语表200的至少一部分。每一行表示源短语和一个或多个可能的目标短语之间的映射,每个映射具有相关联的概率值。表的列202保存源短语,且在这一示例中,源短语是最左边的列。表的其它列204、206、208保存可能的目标短语以及概率值。为了清楚,图2 中的示例仅具有几行;在实际中,可能存在数千万行。
表的行210具有源短语,即“bir saatlik”,其被映射到具有概率0.6702634 的可能的目标短语“an hourly”,并且还被映射到具有概率0.6348674的可能的目标短语“a onehour”,并且还被映射到具有概率0.6297368的可能的目标短语“one hour”。
表的行212具有源短语,即“kapayincaya”,其被映射到具有概率0.5299705 的可能的目标短语“the blink”,并且还被映射到具有概率0.5147306的可能的目标短语“blink”;并且还被映射到具有概率0.506618的可能的目标短语“blink of”。
短语表可能已通过运行于平行句子上的被称为单词对齐(word alignment) 的自动化过程来生成。平行句子是给定语言的源句子及其在另一种语言中的翻译的配对。
图3是在断词器构建系统100处的操作的方法的流程图。方法访问跨语种短语表108并执行块划分300。块划分是将源语言(未知)中共享目标语言(已知)中的类似翻译的短语分组成块的过程。方法推断词干,302。这通过寻找源语言(未知)中被块中的短语所共享的词干来实现。如以下参照图4讨论的,可使用各种不同的寻找被共享的词干的方式。使用短语表中的词干的翻译以及对于目标语言(英语)中名词、动词、形容词、副词等的知识来将词干标识为名词或动词。与词干相关联的概率信息使用来自短语表的概率信息来计算。方法推断后缀,304,及其概率。这通过寻找后缀(或者当源语言使用前缀时寻找前缀,这与土耳其语不同)来实现,后缀是短语的不是块中的词干的那些部分。后缀(或前缀)的适用性通过检查短语表中短语的英语对应并且使用对于英语中那些英语对应的适用性的知识来寻找。
图4是使用图1的装置来创建断词器的方法的流程图。方法包括将短语表中具有在目标语言(已知)中的类似(或共享)翻译的源语言单词(未知)划块在一起(400)。现在给出块的一个示例,其中翻译具有公共(共享)单词 (在这一示例中,该单词是tree):
|tree shows
|tree
其中翻译具有词性变化的单词的块的示例是:
|exaggerating
Abartmak|exaggerate
其中翻译具有多个单词以及共享的含义的块的示例是:
|could not open
|if you cannot open
对于每个块,找到共享的词干,402。例如,
在上述块中,共享的词干是
在上述块中,共享的词干是
以上示例解说了块划分组件(图1的102)可将短语表中的短语分配到块中的不同方式。短语表中的短语可以是不止一个块的成员。
块划分组件可通过从短语表中选择翻译以及搜索短语表以寻找具有映射到与所选择的翻译类似的一个或多个目标语言短语(例如,英语短语)的任何源语言短语(例如,土耳其语短语)来操作。相似度度量可以考虑字母、单词、短语、语义含义、以及词性变化。相似度度量可以是基于这些因素中的一个或多个的数字度量,并且它可与阈值或其它标准作比较以决定是否进行块划分。在其它示例中,该过程检查翻译中的单个单词的同一性。如果找到同一性,则进行块划分。如果没有找到同一性,则检查词性变化的单词的同一性。如果找到同一性,则进行块划分。如果没有找到同一性,则检查翻译中的两个或更多个单词的同一性。如果找到同一性,则进行块划分。如果没有找到同一性,则该过程继续从短语表中选择另一翻译。该过程可重复直到短语表的所有行都已被考虑。
图4的方法继续为每一个块寻找共享的词干。每个块包括源语言短语(例如,土耳其语短语)以及具有针对每一源语言短语的概率的候选翻译。对于块中的源语言短语,在候选翻译之间存在一定程度的相似性。词干推导过程搜索给定块的源语言短语(例如,土耳其语短语)以寻找每个短语的字符的序列,该序列在每个源语言短语中是相同的。这些序列中的一个被称为词干。在以上描述的示例中,词干是短语的开头的字符序列。然而,这不是必需的。在其中频繁使用前缀的其它语言中,词干可开始于单词中的稍后位置。
词干推导组件能够检查块的共享翻译以标识404为该块找到的词干在源语言短语(土耳其语短语)中是用作为名词还是动词还是任何其它词性(副词、形容词、功能词等)。为此,词干推导组件使用存储的有关目标语言中的词性 (包括名词和动词)的知识。该知识可以规则的形式被封装,词干推导组件将该规则应用到翻译以标识是作为名词使用还是作为动词使用。词干推导组件将所得到的词干及其推导的适用性(名词或动词)存储在词缀-词干适用性矩阵中。
标识词干的过程还产生了短语的剩余部分,该剩余部分未被标识为词干的一部分。对于每个块,存在多个这样的剩余部分,块中的每一个源语言短语有一个。每个剩余部分被处理以标识词缀或词缀组合。例如,在以下块中,存在两个词缀和
给定块(及因此给定词干)的词缀被存储在词缀列表中。词缀列表可被存储在词缀-词干适用性矩阵中。
块的翻译被用来标识词缀的翻译并且使用封装目标语言(例如英语)的知识的规则来推导406词缀的适用性。词缀的适用性可被存储在词缀-词干适用性矩阵中。
例如,如果以下映射在块中存在,则词干推导组件可推导词干“Abc”表示动词“walk”并且词缀“u”赋予动词walk的第三人称现在时,词缀“v”赋予动词walk的过去时“ed”形式,而词缀“y”赋予动词walk的进行时“ing”形式。
Abc---walk
Abcu---walks
Abcv---walked
Abcy---walking
如果在另一块中存在以下映射,则词干推导组件可推导词干“Def”表示动词play并且词缀“u”赋予动词play的第三人称现在时,词缀“v”赋予动词 play的过去时“ed”形式,而词缀“y”赋予动词play的进行时“ing”形式。
Def---play
Defu---plays
Defv---played
Defy---playing
在这一示例中,对于两个块,词缀列表都是:u、v、y,并且词缀-词干适用性矩阵能够通过如下的存储来避免词缀列表的重复存储:
Abc(动词)>>walk
Def(动词)>>play
U>>第三人称现在时
V>>ed形式
Y>>ing形式
这是将被用于图1的源语言断词器110的推导的土耳其语词法的一部分的示例。
分割概率也可被存储以供图1的源语言断词器110使用。块划分组件获取与短语表中的每个翻译相关联的概率值。为块中的每个翻译整合这些概率值,这被用来推断从该块中推导出的词干。这给出与每个词干相关联的概率值。概率值可被存储在词缀-词干适用性矩阵中。给定动词的分割的概率可被计算为整个短语表中的不同块之间这一特定分割出现次数与最终形式的单词在短语表中的总的出现次数的比率。例如,推导的土耳其语词法的一部分可以是
和具有概率75%;或者
和具有概率25%。
当断词器收到单词时,它能够如以上所指示的以两种可能的方式对该单词进行分割,并且为每一种分割赋予概率。当断词器收到输入单词时,它将来自其词干存储中的词干与单词和出现在该单词中的以及具有也出现在该单词中的相关联词缀(来自该词干的词缀列表)的任何词干相匹配。断词器输出这些可能的分割以及词缀-词干适用性矩阵中与这些分割相关联的概率值。在一些情况下,断词器接收短语或句子作为输入并且能够基于上下文推导给定单词是被用作为名词还是用作为动词。在这种情况下,断词器能够基于所标识的上下文中的词性来选择恰适的分割。
图5示出可以被实现为任何形式的计算和/或电子设备,并且其中可以实现断词器构建系统和/或断词器的实施例的示例性基于计算的设备500的各组件。
基于计算的设备500包括一个或多个处理器502,所述处理器可以是微处理器、控制器或任何其他适当类型的处理器,以用于处理计算机可执行指令以控制该设备的操作,以便自动根据跨语种短语表创建针对源(未知)语言的断词器和/或将源语言单词截断成词素。在一些示例中,例如在使用片上系统架构的示例中,处理器502可以包括一个或多个固定功能块(亦称加速器),这些块以硬件(而非软件或固件)来实现构建断词器和/或操作断词器的方法的一部分。可以在基于计算的设备处提供包括操作系统504或任何其他合适的平台软件的平台软件以使得能够在该设备上执行应用软件。在一些示例中,块划分组件506可作为存储在存储器512的软件和/或使用硬件来提供。块划分组件506 是图1的块划分组件的示例,并且能够执行例如图4的框400的方法。词干和词缀推导组件508在一些示例中可作为存储在存储器512的软件和/或使用硬件来提供。词干和词缀推导组件是图1的词干推导组件和词缀推导组件的示例。在一些示例中,词干和词缀推导组件能够执行图4的框402到406的方法。数据存储510可存储词干、词缀列表、词缀-词干适用性矩阵、分割概率、规则、阈值、短语表、单词、词素以及其它数据。
可以使用可由基于计算的设备500访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可以包括例如诸如存储器512等计算机存储介质和通信介质。诸如存储器512等计算机存储介质包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于,RAM、 ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备,或者可用于存储信息以供计算设备访问的任何其他非传输介质。相反,通信介质可以以诸如载波或其他传输机构等已调制数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的,计算机存储介质不包括通信介质。因此,计算机存储介质不应被解释为本质上是传播信号。传播信号可存在于计算机存储介质中,但是传播信号本身不是计算机存储介质的示例。虽然在基于计算的设备500中示出了计算机存储介质(存储器512),然而应当理解,该存储可以是分布式的或位于远处并经由网络或其他通信链路(例如,使用通信接口514)来访问。
基于计算的设备500还包括输入/输出控制器516,该输入/输出控制器被布置成向显示设备518输出显示信息,该显示设备可与基于计算的设备500分开或集成。该显示信息可以提供图形用户界面。输入/输出控制器516还被安排成接收并处理来自一个或多个设备的输入,如用户输入设备520(例如,鼠标、键盘、相机、话筒、或其他传感器)。在一些示例中,用户输入设备520可以检测语音输入、用户姿势或其他用户动作,并且可以提供自然用户界面(NUI)。这一用户输入可被用来指定要使用的短语表、输入要截断的单词、查看词缀-词干适用性矩阵、设置阈值、定义规则或用于其它目的。在一个实施例中,如果显示设备518是触敏显示设备,那么它还可担当用户输入设备520。输入/输出控制器516还可向除显示设备之外的设备输出数据,例如,本地连接的打印设备。
输入/输出控制器516、显示设备518以及用户输入设备520中的任一者可包括使用户能够按自然的、免受诸如鼠标、键盘、遥控器等输入设备所施加的人工约束的方式与基于计算的设备交互的NUI技术。可以提供的NUI技术的示例包括但不限于依赖于语音和/或话音识别、触摸和/或指示笔识别(触敏显示器)、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和话音、视觉、触摸、姿势以及机器智能的那些技术。可被使用NUI技术的其他示例包括意图和目的理解系统,使用深度相机(如立体相机系统、红外相机系统、rgb相机系统以及这些的组合)的运动姿势检测系统,使用加速度计/陀螺仪的运动姿势检测,面部识别,3D显示,头部、眼睛和注视跟踪,沉浸式增强现实和虚拟现实系统,以及用于使用电场传感电极(EEG和相关方法)的感测大脑活动的技术。
此处所使用的术语“计算机”或“基于计算的设备”是指带有处理能力以便它可以执行指令的任何设备。本领域技术人员可以理解,这样的处理能力被结合到许多不同设备,并且因此术语每个“计算机”和“基于计算的设备”包括个人电脑、服务器、移动电话(包括智能电话)、平板电脑、机顶盒、媒体播放器、游戏控制台、个人数字助理和许多其它设备。
本文描述的方法可由有形存储介质上的机器可读形式的软件来执行,例如计算机程序的形式,该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备,计算机存储设备包括计算机可读介质,诸如盘(disk)、拇指型驱动器、存储器等而不包括所传播的信号。传播信号可存在于有形存储介质中,但是传播信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。
这承认,软件可以是有价值的,单独地可交换的商品。它旨在包含运行于或者控制“哑”或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片,或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等描述或者定义硬件配置以实现期望功能的软件。
本领域技术人员会认识到,用于存储程序指令的存储设备可分布在网络上。例如,远程计算机可以存储被描述为软件的进程的示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地,本地计算机可以根据需要下载软件的片段,或在本地终端上执行一些软件指令,并在远程计算机(或计算机网络)上执行另一些软件指令。本领域的技术人员还将认识到,通过利用本领域的技术人员已知的传统技术,软件指令的全部,或一部分可以通过诸如DSP、可编程逻辑阵列等等之类的专用电路来实现。
对精通本技术的人显而易见的是,此处给出的任何范围或设备值可以被扩展或改变,而不会丢失寻求的效果。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。
可以理解,上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解,对“一个”项目的引用是指那些项目中的一个或多个。
此处所描述的方法的步骤可以在适当的情况下以任何合适的顺序,或同时实现。另外,在不偏离此处所描述的主题的精神和范围的情况下,可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合,以构成进一步的示例,而不会丢失寻求的效果。
此处使用了术语“包括”旨在包括已标识的方法的框或元件,但是这样的框或元件不包括排它性的列表,方法或设备可以包含额外的框或元件。
可以理解,上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例,但是,在不偏离本说明书的精神或范围的情况下,本领域的技术人员可以对所公开的实施例作出很多更改。
Claims (9)
1.一种自动构建用于将源语言的单词分割成词素的断词器的方法,包括:
访问跨语种短语表,所述跨语种短语表包括多个源语言短语,每个源语言短语具有至少一个目标语言翻译;
对所述跨语种短语表应用块划分操作以通过搜索所述跨语种短语表以找出由共享目标语言中的类似翻译的两个或更多个源语言短语所组成的块来将源语言短语分组成块;
在每一个块中搜索不同源语言短语中的每一个以标识源语言单词的词干,每一个块中的词干包括在该块的不同源语言短语中的每一个中出现的相同的字符序列;
在每一个块中搜索不同源语言短语中的每一个以找出该块的词干的多个词缀,每一个块中的词缀包括在该块的不同源语言短语中的任意一个中的词干的字符之前或之后的字符序列;
生成包括源语言词干和词缀的一组词素;
响应于接收到源语言的用户查询,应用所述一组词素以自动创建所述用户查询中的一个或多个单词的一个或多个不同形式;以及
使用自动创建的所述用户查询中的单词的不同形式来执行扩展查询搜索。
2.如权利要求1所述的方法,其特征在于,所述方法还包括应用与所述目标语言翻译相关联的概率值来计算与搜索源语言词干和词缀相关联的概率。
3.如权利要求1所述的方法,其特征在于,其中所述词素被提供给语言识别系统以用于翻译一个或更多个源语言短语。
4.如权利要求1所述的方法,其特征在于,所述方法还包括通过寻找包括以下的任意一项的目标语言翻译来寻找类似目标语言翻译:相同的单个单词、多种词性变化形式中的任意形式的相同的目标语言单词、两个或更多个共享的目标语言单词。
5.如权利要求1所述的方法,其特征在于,所述方法还包括使用所述目标语言短语来推导所述词干是名词还是动词。
6.如权利要求1所述的方法,其特征在于,所述方法还包括接收待分割成词素的源语言单词,以及寻找与该单词匹配的至少一个词干和词缀的组合。
7.如权利要求6所述的方法,其特征在于,所述方法还包括输出与所述至少一个词干和词缀的组合相关联的概率值。
8.一种系统,包括:
通用计算设备;以及
包括能够由所述计算设备执行的程序模块的计算机程序,其中所述计算设备被所述计算机程序的程序模块指令以:
接收包括多个源语言短语的跨语种短语表,每个源语言短语具有至少一个目标语言翻译;
搜索所述跨语种短语表以找出由具有类似目标语言翻译的两个或更多个源语言短语所组成的块;
对于来自所述跨语种短语表的源语言单词,应用所述跨语种短语表来推导并存储一组词素,所述词素包括单词的词干和词缀,所述推导包括:
在每一个块中搜索不同源语言短语中的每一个以标识源语言单词的词干,每一个块中的词干包括在该块的不同源语言短语中的每一个中出现的相同的字符序列;以及
在每一个块中搜索不同源语言短语中的每一个以找出该块的词干的多个词缀,每一个块中的词缀包括在该块的不同源语言短语中的任意一个中的词干的字符之前或之后的字符序列;
响应于接收到源语言的用户查询,应用所述一组词素以自动创建所述用户查询中的一个或多个单词的一个或多个不同形式;以及
使用自动创建的所述用户查询中的单词的不同形式来执行扩展查询搜索。
9.一种具有存储于其中的计算机可执行指令的计算机可读存储器,所述指令致使计算设备执行一种方法,所述方法包括:
访问包括多个源语言短语的跨语种短语表,每个源语言短语具有至少一个目标语言翻译;
搜索所述跨语种短语表以找出由具有类似目标语言翻译的两个或更多个源语言短语所组成的块;
对于来自所述跨语种短语表的源语言单词,应用所述跨语种短语表来推导并存储一组词素,所述词素包括单词的词干和词缀,所述推导包括:
在每一个块中搜索不同源语言短语中的每一个以标识源语言单词的词干,每一个块中的词干包括在该块的不同源语言短语中的每一个中出现的相同的字符序列;以及
在每一个块中搜索不同源语言短语中的每一个以找出该块的词干的多个词缀,每一个块中的词缀包括在该块的不同源语言短语中的任意一个中的词干的字符之前或之后的字符序列;
响应于接收到源语言的用户查询,应用所述一组词素以自动创建所述用户查询中的一个或多个单词的一个或多个不同形式;以及
使用自动创建的所述用户查询中的单词的不同形式来执行扩展查询搜索。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/861,146 | 2013-04-11 | ||
US13/861,146 US9330087B2 (en) | 2013-04-11 | 2013-04-11 | Word breaker from cross-lingual phrase table |
PCT/US2014/033242 WO2014168899A2 (en) | 2013-04-11 | 2014-04-08 | Word breaker from cross-lingual phrase table |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105210055A CN105210055A (zh) | 2015-12-30 |
CN105210055B true CN105210055B (zh) | 2018-06-12 |
Family
ID=50694050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480020924.6A Active CN105210055B (zh) | 2013-04-11 | 2014-04-08 | 根据跨语种短语表的断词器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9330087B2 (zh) |
EP (1) | EP2984587B1 (zh) |
CN (1) | CN105210055B (zh) |
WO (1) | WO2014168899A2 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
CN104750687B (zh) * | 2013-12-25 | 2018-03-20 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
US10606946B2 (en) * | 2015-07-06 | 2020-03-31 | Microsoft Technology Licensing, Llc | Learning word embedding using morphological knowledge |
US10409903B2 (en) * | 2016-05-31 | 2019-09-10 | Microsoft Technology Licensing, Llc | Unknown word predictor and content-integrated translator |
CN109190124B (zh) * | 2018-09-14 | 2019-11-26 | 北京字节跳动网络技术有限公司 | 用于分词的方法和装置 |
CN109614497B (zh) * | 2018-11-14 | 2021-08-24 | 金色熊猫有限公司 | 基于知识图谱的对齐方法、装置及介质 |
US11328007B2 (en) | 2019-02-04 | 2022-05-10 | International Business Machines Corporation | Generating a domain-specific phrasal dictionary |
CN110889286B (zh) * | 2019-10-12 | 2022-04-12 | 平安科技(深圳)有限公司 | 基于数据表的依赖关系识别方法、装置和计算机设备 |
CN113035170B (zh) * | 2019-12-25 | 2022-07-12 | 中国科学院声学研究所 | 一种基于元音和谐的土耳其语的语音识别方法及系统 |
US11886446B2 (en) * | 2021-04-05 | 2024-01-30 | Baidu Usa Llc | Cross-lingual language models and pretraining of cross-lingual language models |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
CN101576909A (zh) * | 2009-05-11 | 2009-11-11 | 内蒙古蒙科立软件有限责任公司 | 一种蒙古语数字化知识库系统构建方法 |
CN102681985A (zh) * | 2012-05-16 | 2012-09-19 | 中国科学院计算技术研究所 | 一种面向形态丰富语言的翻译方法和系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02297195A (ja) * | 1989-03-02 | 1990-12-07 | Nec Corp | 形態素解析方式 |
US5475587A (en) * | 1991-06-28 | 1995-12-12 | Digital Equipment Corporation | Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms |
DE19526264A1 (de) | 1995-07-19 | 1997-04-10 | Daimler Benz Ag | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
US6233545B1 (en) * | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
US7739102B2 (en) | 2003-10-08 | 2010-06-15 | Bender Howard J | Relationship analysis system and method for semantic disambiguation of natural language |
US7783476B2 (en) | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
KR100912501B1 (ko) * | 2007-08-09 | 2009-08-17 | 한국전자통신연구원 | 번역 지식 구축 방법 및 장치 |
US8473279B2 (en) * | 2008-05-30 | 2013-06-25 | Eiman Al-Shammari | Lemmatizing, stemming, and query expansion method and system |
US20090326916A1 (en) | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
US8290961B2 (en) * | 2009-01-13 | 2012-10-16 | Sandia Corporation | Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix |
US8423350B1 (en) * | 2009-05-21 | 2013-04-16 | Google Inc. | Segmenting text for searching |
US8612206B2 (en) * | 2009-12-08 | 2013-12-17 | Microsoft Corporation | Transliterating semitic languages including diacritics |
WO2011163477A2 (en) * | 2010-06-24 | 2011-12-29 | Whitesmoke, Inc. | Systems and methods for machine translation |
US8856004B2 (en) * | 2011-05-13 | 2014-10-07 | Nuance Communications, Inc. | Text processing using natural language understanding |
US8874433B2 (en) * | 2011-05-20 | 2014-10-28 | Microsoft Corporation | Syntax-based augmentation of statistical machine translation phrase tables |
WO2012170817A1 (en) * | 2011-06-10 | 2012-12-13 | Google Inc. | Augmenting statistical machine translation with linguistic knowledge |
-
2013
- 2013-04-11 US US13/861,146 patent/US9330087B2/en not_active Expired - Fee Related
-
2014
- 2014-04-08 WO PCT/US2014/033242 patent/WO2014168899A2/en active Application Filing
- 2014-04-08 CN CN201480020924.6A patent/CN105210055B/zh active Active
- 2014-04-08 EP EP14723627.7A patent/EP2984587B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
CN101576909A (zh) * | 2009-05-11 | 2009-11-11 | 内蒙古蒙科立软件有限责任公司 | 一种蒙古语数字化知识库系统构建方法 |
CN102681985A (zh) * | 2012-05-16 | 2012-09-19 | 中国科学院计算技术研究所 | 一种面向形态丰富语言的翻译方法和系统 |
Non-Patent Citations (5)
Title |
---|
"Minimally supervised induction of morphology through bitexts";Taesun Moon;《University of Texas at Austin》;20081231;第2,12,14-15,19,31-32,37,55-57,59页 * |
Cross-lingual Propagation for Morphological Analysis;BENJAMIN SNYDER ET AL;《PROCEEDINGS OF THE TWENTY THIRD NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE》;20080713;全文 * |
Inducing multilingual text analysis tools via robust projection across aligned corpora;DAUID YAROWSKY ET AL;《PROCEEDINGS OF THE FIRST INTERNATIONAL CONFERENCE ON HUMAN LANGUAGE TECHNOLOGY RESEARCH》;20010318;全文 * |
Unsupervised Bilingual Morpheme Segmentation and Alignment with Context-rich Hidden Semi-Markov Models;JASON NARADOWSKY ET AL;《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》;20110619;全文 * |
Unsupervised learning of Arabic stemming using a parallel corpus;MONICA ROGATI ET AL;《PROCEEDINGS OF THE 41ST ANNUAL MEETING ON ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》;20030707;全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2014168899A3 (en) | 2015-04-09 |
US9330087B2 (en) | 2016-05-03 |
EP2984587A2 (en) | 2016-02-17 |
EP2984587B1 (en) | 2016-05-18 |
CN105210055A (zh) | 2015-12-30 |
WO2014168899A2 (en) | 2014-10-16 |
US20140309986A1 (en) | 2014-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105210055B (zh) | 根据跨语种短语表的断词器 | |
CN111428507B (zh) | 实体链指方法、装置、设备以及存储介质 | |
US10055403B2 (en) | Rule-based dialog state tracking | |
AU2017408800B2 (en) | Method and system of mining information, electronic device and readable storable medium | |
US10067913B2 (en) | Cross-lingual automatic query annotation | |
US20150286629A1 (en) | Named entity recognition | |
CN108091328A (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
WO2017127296A1 (en) | Analyzing textual data | |
US20170220561A1 (en) | Method of creating translation corpus | |
CN104428750A (zh) | 代码片段的泛化和/或特化 | |
US9613133B2 (en) | Context based passage retrieval and scoring in a question answering system | |
US11551002B2 (en) | Learned evaluation model for grading quality of natural language generation outputs | |
CN110678868B (zh) | 翻译支持系统、装置和方法以及计算机可读介质 | |
CN108121697A (zh) | 一种文本改写的方法、装置、设备和计算机存储介质 | |
TWI553491B (zh) | 問句處理系統及其方法 | |
US20230118506A1 (en) | Conversational aspect sentiment analysis for dialogue understanding | |
CN112784598A (zh) | 思维导图的生成方法、装置、设备及存储介质 | |
KR20160133349A (ko) | 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법 | |
WO2021129411A1 (zh) | 文本处理方法及装置 | |
CN106537387A (zh) | 检索/存储与事件相关联的图像 | |
WO2020052060A1 (zh) | 用于生成修正语句的方法和装置 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN112836523B (zh) | 一种单词翻译方法、装置、设备和一种可读存储介质 | |
CN110472241A (zh) | 生成去冗余信息句向量的方法及相关设备 | |
CN114492437B (zh) | 关键词识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |