CN102859515B - 复合词拆分 - Google Patents

复合词拆分 Download PDF

Info

Publication number
CN102859515B
CN102859515B CN201180009346.2A CN201180009346A CN102859515B CN 102859515 B CN102859515 B CN 102859515B CN 201180009346 A CN201180009346 A CN 201180009346A CN 102859515 B CN102859515 B CN 102859515B
Authority
CN
China
Prior art keywords
word
sub
compound word
language
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180009346.2A
Other languages
English (en)
Other versions
CN102859515A (zh
Inventor
安德鲁·M·戴
克劳斯·马赫赖
弗朗茨·约瑟夫·奥赫
阿肖克·C·波帕特
大卫·R·塔尔博特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102859515A publication Critical patent/CN102859515A/zh
Application granted granted Critical
Publication of CN102859515B publication Critical patent/CN102859515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

公开了包括编码于计算机存储介质上的计算机程序的用于分解复合词的方法、系统以及设备。在一个方面,方法包括:获得包括字符的序列的语言符号;识别作为所述语言符号的组分的两个或更多候选子词以及将所述子词变换成所述语言符号所需要的一个或多个形态学操作,其中,所述形态学操作中的至少一个涉及非词典词的使用;以及确定与每个子词相关联的成本和与每个形态学操作相关联的成本。

Description

复合词拆分
背景技术
本说明书总体涉及分解。
许多语言如英语、德语和瑞典语,使用复合词以便增加词汇量的大小,其中,复合词是两个或更多词的组合,其起到单一含义单元的作用,或者是包括两个或更多组分、部分或词素的词位。在一些语言中,复合词从其组成词位(或“组分”,或“子词”)的生成需要一个或多个形态学操作。
复合词拆分(或“分解”)是指将复合词拆分成它的相应组分的过程。虽然熟悉该语言的人通常可以识别复合词并将复合词拆分成该复合词的组分,但是对组分进行变换的形态学操作使得机器非常难以执行这些相同的任务。
当执行机器翻译时,基于短语的统计过程可以用来使用短语表而使源短语和目标短语对准。短语表存储多语种信息,机器可以使用所述多语种信息而使源短语和目标短语对准。在语言中之一有能力使词复合而其他语言没有该能力的情况下,源短语和目标短语的对准可能是困难的或者不可能。
发明内容
复合词拆分可以实现源短语与目标短语之间改进的对应性,从而改善机器翻译的质量。根据在本说明书中所描述的主题的创新方面,机器将复合词分解成它的组分,并且将每个组分从其源语言翻译成其目标语言。
总体上,在本说明书中所描述的主题的另一个创新方面可以以下述方法实施,所述方法包括下述操作:获得包括字符的序列的语言符号(token);识别作为所述语言符号的组分的两个或更多候选子词以及将所述子词变换成所述语言符号所需要的一个或多个形态学操作,其中,所述形态学操作中的至少一个涉及非词典词的使用;以及确定与每个子词相关联的成本和与每个形态学操作相关联的成本。这个方面的其它实施方式包括相应的系统、设备和计算机程序,它们配置成执行所述方法的操作,在计算机存储装置上进行编码。
这些和其它的实施方式分别可以可选地包括以下特征中的一个或多个特征。例如,所述操作可以包括:将与每个子词相关联的成本和与每个形态学操作相关联的成本进行组合;所述操作可以包括基于所组合的成本来确定将语言符号分解成候选子词,其中,所述确定分解语言符号可以包括当组合的成本满足预定阈值时确定将语言符号分解成候选子词;所述确定分解语言符号可以包括当组合的成本是与作为所述语言符号的组分的候选子词的所有被识别的组合相关联的最低的组合的成本时确定将语言符号分解成候选子词;所述操作可以包括:确定子词之间的拆分点的数量,以及确定与拆分点的数量相关联的成本;所述至少一个形态学操作可以涉及在候选子词中的两个候选子词之间插入非词典词、从语言符号中删除非词典词、将非词典词前置以作为候选子词中的一个或多个候选子词的前缀、将非词典词后置以作为候选子词中的一个或多个候选子词的后缀或将非词典词插入以作为候选子词中的一个或多个候选子词的中缀;非词典词可以是包括字符的在子词的语言中没有规定含义的子序列的连接词素。
总体上,在本说明书中所描述的主题的另一个创新方面可以以下述方法实施,所述方法包括下述操作:识别出现在第一词汇中的词以及每个词各自出现在第一词汇中的频率;使用出现在第一词汇中的词作为组分来分解出现在第二词汇中的词;以及输出用作组分来分解出现在第二词汇中的词的出现在第一词汇中的词,以作为通用复合词拆分器词汇。这个方面的其它实施方式包括相应的系统、设备和计算机程序,它们配置成执行所述方法的操作,在计算机存储装置上进行编码。
这些和其它的实施方式分别可以可选地包括以下特征中的一个或多个特征。例如,第一词汇可以是新闻语言模型词汇,而第二词汇可以是网络语言模型词汇;操作可以包括选择以多于预定次数用作组分来分解出现在第二词汇中的词的出现在第一词汇中的词,其中,输出用作组分来分解出现在第二词汇中的词的出现在第一词汇中的词以作为通用复合词拆分器词汇可以包括:输出选择的以多于预定次数用作组分来分解出现在第二词汇中的词的出现在所述第一词汇中的词;操作可以包括基于每个词各自出现在第一词汇中的频率来过滤来自通用复合词拆分器词汇的词。
总体上,在本说明书中所描述的主题的另一个创新方面可以以下述方法实施,所述方法包括下述操作:识别出现在第一词汇中的词以及每个词各自出现在第一词汇中的频率;使用出现在第一词汇中的词作为组分来分解出现在第二词汇中的词;输出用作组分来分解出现在第二词汇中的词的出现在第一词汇中的词,以作为通用复合词拆分器词汇;获得包括字符的序列的语言符号;识别作为所述语言符号的组分的并且出现在通用复合词拆分器词汇中的两个或更多候选子词以及将所述词变换成所述语言符号所需要的一个或多个形态学操作,其中,所述形态学操作中的至少一个涉及非词典词的使用;以及确定与每个词相关联的成本以及与每个形态学操作相关联的成本,其中,与每个词相关联的成本对应于词各自出现在第一词汇中的频率。这个方面的其它实施方式包括相应的系统、设备和计算机程序,它们配置成执行所述方法的操作,在计算机存储装置上进行编码。
总体上,在本说明书中所描述的主题的另一个创新方面可以以下述方法实施,所述方法包括下述操作:获得短语对的多语种短语表,所述短语对识别非英语源语言的单语言符号源词以及作为对各个单语言符号源词的翻译的多语言符号英语短语;识别至少部分地与源词匹配的一个或多个短语对;以及基于识别一个或多个短语对来确定所述源词可能是复合词。这个方面的其它实施方式包括相应的系统、设备和计算机程序,它们配置成执行所述方法的操作,在计算机存储装置上进行编码。
总体上,在本说明书中所描述的主题的另一个创新方面可以以下述方法实施,所述方法包括下述操作:将条目储存在依赖于语言的词频列表中,其中,每个条目都包括识别词的指纹的数据以及识别各个词在一个或多个语言中出现的频率的数据;获得候选复合词;以及基于将所述候选复合词与指纹中的一个相匹配来确定与所述候选复合词相关联的出现的频率。这个方面的其它实施方式包括相应的系统、设备和计算机程序,它们配置成执行所述方法的操作,在计算机存储装置上进行编码。这些和其它的实施方式每个可以可选地包括以下特征中的一个或多个特征。例如,条目可以是64位的条目,识别词的指纹的数据可以包括40位,并且识别各个词在一个或多个语言中出现的频率的数据可以包括24位。
在附图和下面的说明中阐述本说明书中描述的主题的一个或多个实施方式的细节。从说明书、附图和权利要求中,主题的其它潜在的特征、方面和优点将会变得明显。
附图说明
图1是说明将源语言中的复合词拆分成它的组分以用于翻译成目标语言的示图。
图2是用于多个语言的复合部分的单语种提取的示例训练程序过程的流程图。
图3是由通用复合词拆分系统用来进行复合词拆分的词素的部分列表。
图4示出了基于示例动态程序模型的复合词拆分过程的列表。
图5示出了从单语种语言模型词汇列表中提取的示例词位的列表。
图6示出了用于复合部分的后缀的词干和发生器末端词素的列表。
图7是由通用复合词拆分系统所支持的语言的列表。
图8是根据本公开的实施方法可以使用的网络架构的例子的示图。
图9是示例分解过程的流程图。
贯穿全文,同样的附图标记表示对应的部分。
具体实施方式
图1是说明通过通用复合词拆分系统100将源语言中的复合词拆分成它的组分以便翻译成目标语言的示图。系统100包括词汇数据库102、104、106和128、数据提供方数据库116、分解引擎108以及翻译引擎110。图1还示出了在状态“A”至“O”期间数据在系统100的部件之间的流动,这些状态未必按时间排序。
系统100使用组分(例如,在复合词词典中找到的组分)的列表作为复合词拆分器132的输入。然而,某些因素可能会增加分解过程的难度以及复合词的机器翻译的复杂性。一个因素涉及复合词的组分上出现的形态学变换。另一个因素涉及对复合词之内的拆分点的识别。
在一个示例实例中,对拆分点的识别可以基于可用于分解过程的数据(例如组分列表)。在某些情况下,使用有限量的数据可能会导致将组分排除在外。在其它情况下,噪声数据(例如复合词或组分列表中的拼错的词)可能导致分解过程不能识别组分,并且随后不能识别拆分点。在某些情况下,特定的复合词(例如,固有名称)不可以被拆分而是保持原样,这是因为如果将复合词拆分成其组分,那么复合词的含义会丧失。在其他情况下,组分列表可以被过滤以排除特定的组分,或者分解过程可以包括对特定短语的识别,所述特定短语将不被过程识别为复合词。
分解引擎108在复合词拆分过程中使用复合部分概率模型针对多个不同的语言来对复合词进行复合词拆分,该复合词拆分过程使用动态规划来实现。每种语言都可以展示具有各种复杂性的形态学,其中,一种语言的形态学可以比另一种语言的形态学更复杂。例如,语言可以包括但不限于:英国、德语、瑞典语、希腊语、匈牙利语和汉语。复合词拆分过程使用组分列表(例如包括复合词的组分的复合词词典),以便确定复合词的两个或更多的组分。组分列表是从大型语料库(例如与数据提供方数据库116相关联的自动化的新闻聚合器、词典等)中提取的识别的复合词组分的结果。复合词拆分过程学习每种语言的特定形态学操作,以便在该特定的语言中成功地将复合词拆分成其组分。由分解过程支持的语言的多语种信息存储在短语表中。例如,短语表可以从支持多于2500个语言对的统计机器翻译系统中导出。
如图1所示,系统100涉及将复合词“flowerpot(花盆)”从英语翻译成德语的过程。在状态“A”中,第一内容发生器112接收来自数据提供方数据库116的多种语言的语言模型词汇列表。在一些实施中,数据提供方数据库116包括自动化的新闻聚合器(例如包括对新闻文章的聚合的数据库)。语言模型词汇列表是如从新闻文章中导出的那样的在特定的语言中使用的词的聚合。在一些实施中,数据提供方数据库116包括由词典数据库提供的语言模型词汇列表。
在状态“B”中,第一内容发生器112从多种语言的语言模型词汇列表中导出词频列表。词频列表包括复合词的可能的组分的列表。在状态“C”中,第一内容发生器112提供了单个碎片表形式的第一词汇列表以存储在数据库102中。第一局部词汇列表114是词频列表中英语语言条目的示例子集。表条目包括语言代码114a(例如“en”表示英语)、由语言代码114a指示的语言中的词114b(例如“flower(花)”)以及表示词114b在语言模型词汇列表中出现的频率的频率计数114c(例如43,545,654)。频率计数114c可以表示词114b在语言模型词汇列表中出现的次数。例如,通过查词典或通过查看由自动化的新闻聚合器提供的多个新闻文章来确定频率计数。
如图1所示,在状态“D”中,第二内容发生器118也接收来自数据提供方数据库116的多种语言的语言模型词汇列表。在状态“E”中,第二内容发生器118从多种语言的语言模型词汇列表中导出复合词列表。在状态“F”中,第二内容发生器118提供第二词汇列表以存储在数据库104中。第二局部词汇列表124是复合词列表中英语语言条目的示例子集。
操作客户端设备的用户可以将用于翻译的输入串(例如“flowerpot”)输入到在显示设备上向用户显示的图形用户界面中包括的数据输入框中。用户可以选择输入串的源语言(例如英语)和翻译的目标语言(例如德语)。然后,用户可以激活翻译按钮。在状态“G”中,响应于翻译按钮的激活,输入串模块122接收输入串126(例如“flowerpot”)以及针对输入串126的源语言选择130(例如英语)。参考图3描述客户端设备及其操作环境的例子。
在“H”状态中,输入串模块122将输入串126与源语言的数据库128的内容进行比较。数据库128包括第三词汇,该第三词汇是由通用复合词拆分系统100所支持的每种语言的短语表。在状态“I”中,如果在数据库128中不存在输入串126的条目,则输入串模块122将输入串126与源语言的数据库104的内容进行比较。数据库104包含复合词列表,该复合词列表包括输入串126(例如在数据库条目124a中的“flowerpot”)。在状态“J”中,分解引擎108接收输入串126以及源语言选择130。
如图1所示,分解引擎108包括复合词拆分器132、成本模块134以及变换模块136。拆分器132将复合词(例如输入串126)拆分成它的组分,其中,所述组分可以包括一个或多个非词典词。拆分器132可以使用基于动态程序模型的复合词拆分过程来识别用于复合词(输入串126)的期望拆分序列(组分以及拆分点的数量和位置)。
在状态“K”中,拆分器132执行递归复合词拆分过程,以确定用于输入串126的期望拆分序列。复合词拆分过程使用输入串126的源语言(例如英语)的数据库102中包括的词频列表,以确定输入串126的拆分点和组分。复合词拆分过程在输入串126内递归地尝试不同的拆分点,由此得到多个不同的候选组分和拆分序列。成本模块134计算出拆分器132每次分解尝试的拆分序列的总概率或成本。拆分序列的总概率尤其包括由拆分点的数量和位置所确定的各个组分的频率计数的总和。
成本模块134将输入串126的期望拆分序列确定为输入串126的产生最高总频率计数的拆分序列。期望拆分序列可以是也可以不是最优的拆分序列。然后,具有最大数目的频率计数(最高概率)的拆分序列被设立为期望拆分序列。在一些实施方式中,总成本与拆分序列相关联,其中,拆分序列的概率越高(频率计数的总数目越大),拆分序列的总成本就越低。
在图1所示的例子中,使用拆分器132和成本模块134的分解引擎108确定输入串126(例如“flowerpot”)的期望拆分序列导致两个组分:组分138a(例如“flower(花)”)以及组分138b(例如“pot(盆)”)。源语言的词典可能包括组分138a、组分138b,其中,每个单独的组分是源语言中使用的词典词(例如在英文词典中发现“flower”和“pot”并且每个词可以在语言中单独使用)。在一些实施方式中,一个或多个组分可能是未包括在复合词的源语言的词典中的词。在这种情况下,变换模块136可以将非标准词组分变换成以后可以很容易地被翻译的标准词(例如通过给非标准词组分添加前缀和/或后缀、通过将组分中的一个字符改变成另一个字符等)。
在状态“L”中,翻译引擎110接收由分解引擎108所确定的期望拆分序列的分解的组分(组分138a(例如“flower”)以及组分138b(例如“pot”))以及目标语言选择140。在状态“M”中,翻译引擎110将组分138a、组分138b从源语言翻译成目标语言(例如组分138a、组分138b(分别为“flower”和“pot”,或者短语“flower”“pot”)被从英语翻译成德语)。翻译引擎110使用数据库106,所述数据库106包括第四词汇,该第四词汇是用于将源语言翻译成目标语言的翻译词典(例如英语德语词典)。翻译引擎110将组分138a、组分138b与词典中的条目进行比较,以便找到组分138a、组分138b从源语言(例如英语)到目标语言(例如德语)的翻译。在状态“N”中,输出串模块142接收翻译了的输出串144(例如“blumentoph”),该输出串是分解了的输入串126(例如“flowerpot”)从源语言(例如英语)到目标语言(例如德语)的输出串144(例如“blumentoph”)的翻译。
例如,在状态“O”中,用户可以在下述显示设备上显示给用户的图形用户界面中所包括的输出框中查看输出串144,所述显示设备是用户用来输入用于翻译的输入串的同一计算设备的显示设备。参考图3描述计算设备及其操作环境的例子。
图2是多个语言的复合部分的单语种提取的示例训练程序过程200的流程图。通用复合词拆分系统100可以执行过程200。
如图1所描述的,词频列表(例如第一局部词汇列表114是在词频列表中英语语言条目的示例子集)提供了被由拆分器132执行的复合词拆分过程使用的复合部分的源。词频列表和语言有关,并且包括从单语种数据提取的存储的复合部分候选的列表。第一内容发生器112可以针对由通用复合词拆分系统100所支持的每种语言都产生词频列表。通用复合词拆分系统100可以被训练成从语言模型词汇列表(例如由数据提供方数据库116所提供的语言模型词汇列表)中提取复合部分候选以产生词频列表。
在一些实施方式中,通用复合词拆分系统100将一个或多个过滤步骤与复合部分候选从语言模型词汇列表中的提取相结合,以便产生词频列表。分解引擎108使用词频列表作为通用复合词拆分器词汇。通用复合词拆分系统100使用被分成四个阶段的训练过程,其中,系统100自动将一个或多个过滤步骤施加于这些阶段,以产生所有语言的可以存储在数据库102中的词频列表。系统200示出了四个训练过程阶段202、204、206、208。例如,通用复合词拆分系统100可以执行训练过程的四个阶段202、204、206、208。
例如,参考图1和图2,当接收新闻语言模型词汇时(204),过程200开始(202)。新闻语言模型词汇可以包括在数据库(例如数据库116)中。然后执行训练过程的第一阶段(206)。在训练过程的第一阶段中,第一内容发生器112产生从由通用复合词拆分系统100所支持的多种语言的新闻语言模型词汇中导出的词频列表。新闻文章可以提供依赖于语言的词汇的数据库,从而得到包含下述词的新闻语言模型词汇,所述词具有比基于一般网络文本的模型词汇更少的拼写错误。此外,新闻文章可以提供包含较少的错误词或非词典词的新闻语言模型词汇(例如数据库具有较少的噪声)。在第一阶段中,第一内容发生器112根据一系列一个或多个过滤步骤来过滤新闻语言模型词汇中包括的依赖于语言的词汇。第一内容发生器112在映射化简的映射阶段(208)期间执行过滤步骤。映射化简的映射阶段执行下述化简过程,该化简过程聚合与每个词或语言符号在依赖于语言的词汇中出现的频率有关的若干计数。映射化简的映射阶段还化简新闻语言模型词汇中包括的依赖于语言的词汇的大小,以包括可能是复合词的潜在组分的条目。例如,第一过滤步骤可以过滤出固有名称(例如米歇尔(Michelle)、华盛顿(Washington)、五角大楼(Pentagon)等)。
训练过程的第一阶段202的完成的结果是输出通用复合词拆分器词汇(210)。通用复合词拆分器词汇被输出以作为存储在数据库102中的单个碎片表。第一局部词汇列表114示出了作为词的序列以及语言代码相应的频率计数的多个表条目。表条目以包括语言代码114a(例如“en”表示英语)、由语言代码114a所指定的语言中的词114b(例如“flower”)以及表示词114b在数据库210中出现的频率的频率计数114c(例如43,545,654)的格式被输入。
在一些实施方式中,单个碎片表包括由通用复合词拆分系统100所支持的语言中的每种语言的多个条目。序列开始条目被放置在每个针对语言的语言代码序列的开始处。序列开始条目包括指示特定语言代码的随后的表条目的数量的计数。数据库102中的英语语言条目的序列开始条目的例子是
[en]\0###!!!NumberOfEntries!!!###->nnnnn
其中,“[en]”是语言代码(英语),并且计数“nnnnn”指示英语语言的随后的表条目的数量。序列开始条目中的前导“0”确保该条目领先于该语言代码的所有其它条目。
再次参考图1和图2,接收网络语言模型词汇(212)。网络语言模型词汇可以包括在数据库(例如数据库116)中。然后执行训练过程的第二阶段(214)。在训练过程的第二阶段中,通用复合词拆分系统100进一步化简并过滤从继续映射化简的映射阶段的第一阶段输出的词频列表(通用复合词拆分器词汇)。网络语言模型词汇基于由通用复合词拆分系统100所支持的每种语言的任意网络文本。网络语言模型词汇包括用于每个支持语言的条目。在训练过程的第二阶段中,映射化简的映射阶段中的映射步骤使用通用复合词拆分系统100拆分接收的网络语言模型词汇。
在训练过程的第二阶段中,通用复合词拆分系统100使用数据库102中存储的词频列表作为到拆分器132的输入。分解引擎108尝试拆分网络语言模型词汇中包括的词。在执行训练过程的第二阶段时,词频列表中包括的被拆分器132用于拆分来自网络语言模型词汇的输入复合词的复合词组分被传递给化简器。化简器确定词频列表中的每个组分多久被使用一次(216)。确定其使用超过预定阈值水平的组分,导致用作通用复合词拆分器词汇的复合部分的输出(218)。第二阶段可以进一步减小词频列表的大小。在一些实施方式中,化简器包括在分解引擎108中。在一些实施方式中,化简器是包括在通用复合词拆分系统100中的模块。
例如,在第一阶段的实施之后,第一内容发生器112的输出包括第一局部词汇列表114。在第二阶段204中,分解引擎108接收输入串126(例如“flowerpot”),其中,输入串126包括在网络语言模型词汇中。使用第一局部词汇列表114作为到拆分器132的输入,第一部分词汇列114中包括的被拆分器132用来拆分输入串126的组分是词114b(“flower”)和词114d(“pot”)。在这个例子中,如果没有额外的词被拆分并且化简器的预定阈值水平等于一,那么化简器的输出将包括局部词汇列表:
[en]\0###!!!NumberOfEntries!!!###->2
[en]flower->43545654
[en]pot->4534453
化简器的输出包括被分解引擎108用来拆分网络语言模型词汇中包括的复合词的复合部分候选。用于由化简器使用的预定阈值水平的添加进一步确保了分解引擎108使用频繁得足以包括在词频列表中的复合部分候选。
在一些实施方式中,在执行第一阶段之后,通用复合词拆分器词汇可以包括复合词。假设分解引擎108的对组分的使用大于对复合词的使用,那么第二阶段可以从词频列表中过滤掉复合词。
参照图1和图2,执行训练过程的第三阶段(220)。在训练过程的第三阶段中,通用复合词拆分系统100可以将频率计数低于预定阈值水平的词从词频列表中移除。第三阶段可以进一步减小词频列表的大小。第三阶段提供可以用作通用复合词拆分器词汇的呈单一碎片表形式的最终词频列表(222)。
在一些实施方式中,执行第四阶段(224)。第四阶段可以是报告阶段,其可以输出最终统计(226)。例如,统计可以用于比较复合部分在多个语言中的数量。在另一个例子中,统计可以用于通用复合词拆分系统100的错误分析。过程结束(228)。
在一些实施方式中,复合词候选及其组分可以包括在双语种环境中。在双语种通用复合词拆分系统中,复合词被拆分为它的组分,然后从源语言被翻译成目标语言。例如,英语可以是源语言,而短语表可以提供从源语言(英语)到目标语言的翻译。在另一个例子中,英语可以是目标语言,而短语表可以提供从源语言到英语的翻译。
简单地说,一个示例过程可以包括:获得短语对的多语种短语表,所述短语对识别非英语源语言中的单语言符号源词,以及作为对各个单语言符号源词的翻译的多语言符号英语短语;识别至少部分与源词匹配的一个或多个短语对;以及基于识别一个或多个短语对来确定源词可能是复合词。
更详细地,在训练过程的一个阶段中,双语种通用复合词拆分系统可以自动生成翻译短语表。双语种通用复合词拆分系统执行的训练过程的随后阶段在英语不包括许多复合词的假设下运行。因此,训练阶段的执行可以涉及针对语言l中的单语言符号源词f搜索翻译短语表,该单语言符号源词f翻译成多语言符号英语短语e1,...,en。单语言符号源词f及其翻译了的多语言符号英语短语e1,…,en可以形成短语对(f,e1,...,en)。每个短语对可以是语言l中的单语言符号源词f到它的英语多语言符号短语e1,…,en的翻译的候选。
双语种通用复合词拆分系统可以取得多语言符号英语短语e1,…,en中包括的每个语言符号ei,并在词汇数据库(例如图1中的数据库106)中查找语言l的各个语言符号ei的相应翻译。在双语种提取过程中,双语种通用复合词拆分系统可以找到词汇数据库中至少部分与原始的源词w匹配的条目,其中,原始的源词w是复合词。包括词汇数据库中的额外查找,方程(1)可以表示由双语种提取过程产生的翻译对的形式。
PTcs(f)=(f;e1,…,en;g1,…,gn)(1)
在方程(1)中,PTcs(f)是源词f的翻译对,该源词在这种情况下可能是复合词。多语言符号英语短语e1,…,en包括源词f的英语翻译,而g1,…,gn是源词f的复合部分。PTcs表可以包括多个单语言符号源词f的条目。
在一些实施方式中,在训练过程中自动生成翻译短语表可能会将错误引入到翻译短语表中(例如包括不正确的词)。双语种提取过程也可能会将一定量的噪声或错误引入到分解过程中。然而,与图1所述的单语种提取过程相比,双语种提取过程可以是对可能的复合词连同其组成部分的更好的指示器。双语种通用复合词拆分系统可以用方程(1)中定义的元组(例如(f;e1,...,en;g1,…,gn))自动提取一个或多个形态学变换,其可能在将组成部分g1,…,gn结合在一起以形成复合词f时需要。例如,双语种通用复合词拆分系统可以使用公式(1)中定义的元组自动提取任何连接词素,其可能为结合德语复合词f的组成部分所需。
单语种和双语种通用复合词拆分系统可以使用训练程序来产生在复合词翻译过程中使用的最终词列表(例如分别为词频列表和翻译短语表)。训练过程的阶段可以使用一个或多个过滤步骤来控制最终词列表的大小并确保最终词列表的质量。对最终词列表的质量产生影响的一个因素是包含一个或多个无效复合部分。对最终词列表的质量产生影响的另外一个因素是排除一个或多个有效复合部分。
在一些实施方式中,通用复合词拆分系统可以包括白列表和黑列表(或“禁用列表”)。例如,白列表可以包括系统在最终词列表中总是包括的一个或多个词(例如组分、复合部分、复合词)。例如,黑列表可以包括系统总是或通常从最终词列表中排除的一个或多个词(例如组分、复合部分、复合词)。例如,黑列表和白列表可以用来学习或训练通用复合词拆分系统的参数或阈值,以提高系统的整体性能。
在一些实施方式中,复合词的创造可以包括一个或多个形态学操作。例如,德语复合词Verkehrszeichen(英语翻译:trafficsign(交通标志))包括两个名词Verkehr(traffic(交通))和Zeichen(sign(标志))。复合词Verkehrszeichen的创造包括额外的词素s-词素,该词素可以被称为连接词素,这是因为该词素将复合词Verkehrszeichen的两个组分Verkehr和Zeichen“连接”在一起。创造复合词Verkehrszeichen涉及额外的形态学操作,即在两个组分Verkehr和Zeichen之间插入字符“s”。字符“s”不是词典词,因为它自己本身在德语语言中没有含义。
德语语言的形态学操作可以涉及插入和删除小集合的候选字符中包括的几个字符。在其他语言(例如希腊语、匈牙利语)中,形态学操作可能更为复杂(例如更大集合的候选字符,组分中的一个或多个字符的替换等)。通用复合词拆分系统可以包括用于从中选择以便在形态学操作中使用的候选字符集。通用复合词拆分系统可以例如通过训练过程的各个阶段来学习如何检测用于创建特定语言的复合词的连接词素以及其它额外的形态学操作。
在一些实施方式中,形态学操作包括串s,t0A的对(s,t),其中,串s被串t替换,并且串s和t中的一个或多个字符包括在源语言字母表A中。克林(Kleene)操作符“*”对源语言词母表A操作,其中,串s和t可以是由符号“ε”表示的空(无效)串。通过使用其中每个串s、t都是字符集的克林*操作符,导致A*成为包括空串的A中符号之上所有串的集合。
用于德语语言中的形态学操作的示例串对是(es,ε),该串对将德语复合词Bundesagentur(英语翻译:federalagency(联邦机构))中的连接词素es建模成空串ε。复合词Bundesagentur的组分是Bund(联邦)和agentur(机构),而“es”是连接词素。
在一些实施方式中,为了学习用于从一个或多个部分(子词)创建复合词的形态学操作,通用复合词拆分系统确定复合词与其复合部分之间的差异。系统可以应用Levenshtein距离(编辑距离),这是一种用于使用可允许的编辑操作来测量两个序列(串)之间的差异的量的度量,所述可允许的编辑操作是插入、删除或替代单个字符。通用复合词拆分系统存储编辑距离和编辑操作。Levenshtein距离提供复合所需的形态学操作。系统施加逆操作(例如用串s替换串t),导致对复合词进行分解所需的操作。每个形态学操作都具有相关联的“成本”。
Levenshtein距离涉及具有均匀成本的编辑操作。然而,在一些实施方式中,对于学习用于分解的形态学操作而言可以期望均匀成本,以使得对于所有语言来说成本相同。在一些实施方式中,成本可以按照每种语言设置,其中,更复杂的语言可以导致较高的操作成本。
使用方程(1)中的翻译对,通用复合词拆分系统可以将Levenshtein距离施加到复合词(f)及其复合部分(g1,…,gn)两者中,以在可以是训练过程的阶段的学习过程中提取一个或多个形态学操作。例如,为了避免学习假的以及单元素(singleton)的操作(例如由拼写错误造成),通用复合词拆分系统可以明确地计数每个识别的形态学操作多久被使用一次。系统可保留其使用计数超过给定的预定阈值的操作。
图3是由通用复合词拆分系统用于复合词拆分的词素的部分列表300。列表300可以包括通用复合词拆分系统可以明确指定的词素。列表300可以包括例如通过前述训练过程的各个阶段而被系统学习的词素。列表300包括分别用于德语(de)和荷兰语(da)的词素302、304。在一些实施方式中,列表300中可以包括额外的语言的词素,其中,这些词素可以包括非词典词。词素包括连接词素306,所述连接词素306是部分列表300中包括的德语词素302的子集。例如,连接词素306可以出现在德语复合词的两个子词之间。如果通用复合词拆分系统将由训练过程的阶段使用的Levenshtein操作限制成仅包括插入(例如删除和替换的成本被设置为无穷大),那么训练过程的阶段的输出可以包括连接词素306的列表。
在形态丰富的语言(例如希腊语、匈牙利语)中,使用训练过程来学习词素会是困难的,这是因为形态学操作可能涉及删除和替换以及插入。连接词素是插入的例子。通用复合词拆分系统可以使用方程(1)中的翻译对,以在可以是训练过程的阶段的学习过程中提取一个或多个形态学操作。PTcs表中的针对多个单语言符号源词f包括的翻译对的质量可以影响对形态学操作的全范围(插入、删除以及替换)的学习。每个单语言符号源词f都可以有多个翻译,这增加了对翻译对进行选择的难度。此外,单语言符号源词f的正确翻译可能不包括在PTcs表中。
在一些实施方式中,通用复合词拆分系统可以细化用来确定PTcs表的条目的提取过程。例如,在第一步中,系统可以假设包括复合词的语言具有通过直接连接其复合部分而不使用任何额外的形态学操作而形成的大量的复合词。这种假设可以提供包括在通用复合词拆分器词汇中的第一组可靠的复合部分。例如,在第二步中,通用复合词拆分系统可以允许插入(连接词素的使用)作为使用在第一步中确定的通用复合词拆分器词汇中的复合部分的仅有形态学操作。
在一个示例实施中,系统只考虑包含两个复合部分的复合词,所述复合词从其源语言翻译成两个英文词。此外,发生在最初复合部分起始处或最后复合部分结束处的插入可能是各个复合部分本身的形态学变化。复合部分的这些被识别的形态学变化被添加到通用复合词拆分器词汇中。在复合词中额外的插入操作被认为是连接词素。系统可以将任何额外学习的连接词素添加到被通用复合词拆分系统用于复合词拆分的词素的列表中。例如,在第三步中,通用复合词拆分系统可以使用从第二步更新的通用复合词拆分器词汇以及词素列表,以对复合词执行可以包括一个或多个形态学操作的分解和翻译操作。
在其它实施方式中,并参照图1,拆分器132可以使用基于动态程序模型的复合词拆分过程来确定输入复合词的期望拆分序列(拆分点的数量和位置以及组分)。拆分器132可以接收输入的复合词,即语言符号其中,是字符的序列。拆分器132可以使用基于动态程序模型的复合词拆分过程来确定期望的拆分点序列,使得复合部分是语言符号w的组分,其中n0:=0,nK:=N,并且p(n0)=p(nK|·)≡1。
w = c 1 N → ( K ^ , n ^ 0 K ^ ) = arg max K , n 0 K { Pr ( c 1 N , K , n 0 K ) } - - - ( 2 )
w = c 1 N → ( K ^ , n ^ 0 K ^ ) = arg max K , n 0 K { Pr ( K ) · Pr ( c 1 N , n 0 K | K ) } - - - ( 3 )
w = c 1 N → ( K ^ , n ^ 0 K ^ ) = arg max K , n 0 K { p ( K ) · Π k = 1 K p ( c n k - 1 + 1 n k , n k - 1 | K ) · p ( n k | n k - 1 , K ) } - - - ( 4 )
参照图1,方程(2)要求拆分器132将语言符号w完全拆分成作为组分的词位的序列。因此,拆分器132可以找到组分并确定语言符号w的期望分段。在一些实施方式中,语言符号w的源语言(例如日耳曼语)的复合词的组分是词位。在一些实施方式中,语言符号w的源语言的复合词的组分可能不是有效词(即可以是非词典词)。例如,在希腊语中,方程(4)中使用的复合部分可能不是希腊词典中包括的有效词。在这种情况下,拆分器132可以将语言符号w拆分成可能不是有效的词典词的组分。分解引擎108中包括的变换模块136可以将每个非词典词的组分变换成词位。变换的词位用表示。决策规则可以被细化,如方程(5)、(6)以及(7)所示。
w = c 1 N → ( K ^ , n ^ 0 K ^ , g ^ 1 K ^ ) = arg max K , n 0 K , g 1 K { Pr ( c 1 N , K , n 0 K , g 1 K ) } - - - ( 5 )
w = c 1 N → ( K ^ , n ^ 0 K ^ , g ^ 1 K ^ ) = arg max K , n 0 K , g 1 K { Pr ( K ) · Pr ( c 1 N , n 0 K , g 1 K | K ) } - - - ( 6 )
w = c 1 N → ( K ^ , n ^ 0 K ^ , g ^ 1 K ^ ) = arg max K , n 0 K , g 1 K { p ( K ) · Π k = 1 K p ( c n k - 1 + 1 n k , n k - 1 , g 1 K | K ) · p ( n k | n k - 1 , K ) } - - - ( 7 )
表示的复合部分概率是零阶模型。复合部分概率依赖于拆分的数目K。分解引擎108可以用恒定的拆分处罚ξ来惩罚被拆分器132识别的每个拆分。于是概率可以独立于拆分的数目K。方程(8)可以表示用来确定复合词中的拆分点的决策规则,其中,复合部分概率独立于先前的拆分并且独立于拆分的数目。
w = c 1 N → ( K ^ , n ^ 0 K ^ , g ^ 1 K ^ ) = arg max K , n 0 K , g 1 K { ξ K · Π k = 1 K p ( c n k - 1 + 1 n k , n k - 1 , g 1 K | K ) · p ( n k | n k - 1 , K ) } - - - ( 8 )
在一些实施方式中,分解引擎108可以使用动态规划来找到复合词词源语言符号的期望拆分序列。成本函数可以确定每个复合词拆分的成本。成本函数可以根据每个组成部分(组分)的单独成本计算出分解的词的总成本。基于复合词拆分过程的动态程序模型可以使用辅助函数Q。
Q ( c 1 j ) = max n 0 k , g 1 k { ξ K · Π k = 1 K p ( c n k - 1 + 1 n k , n k - 1 , g 1 K ) } with n k = j - - - ( 9 )
因此,等于成本函数分配给前缀串的最小成本(最大概率),其中,拆分器132在位置使用K个拆分点。这导致递归方程(10)。
Q ( c 1 j ) = max n k , g k { ξ · Q ( c 1 n k - 1 ) · p ( c n k - 1 + 1 n k , n k - 1 , g 1 K ) } , - - - ( 10 )
在方程(11)中定义后指针B(j)。
B ( j ) = arg max n k , g k { ξ · Q ( c 1 n k - 1 ) · p ( c n k - 1 + 1 n k , n k - 1 , g 1 K ) } , - - - ( 11 )
在方程(11)中,是概率或成本函数。通过对方程(10)和方程(11)应用逆对数,概率数量可以解译为成本。
图4示出了基于示例动态程序模型的复合词拆分过程400(过程1)的列表。过程400在输入串的长度上是二次的。在一些实施方式中,"for"循环402可以变成:
″forj=i+1,...,min(i+l,N)do",其中,每个复合部分不超过预先定义的长度l。作为这种变化的结果,过程400在输入词的长度O(|w|)上变为线性,因为长度l是预先定义的常量。
在一些实施方式中,过程400的性能取决于成本函数cost(·)或概率多重知识源可以用来对概率进行建模。如参照图1所述的那样,词频列表(例如第一局部词汇列表114)可以将频率计数(例如频率计数114c)与潜在的复合部分候选(例如词114b)相关联。参考PTcs表前面描述了针对变换的词位复合部分gk的适当候选的生成。
如果忽略对gk的依赖,则概率中的子词可以指示复合部分候选,其可以用来形成语言符号w。复合部分候选连同与其相关联的频率计数一起,可以以单语种的方式从语言模型词汇列表中提取,或以双语种的方式从短语表中提取。先前在本说明书中描述了这些提取过程。针对复合部分概率的零阶模型的使用允许使用由语言模型词汇列表提供的unigram计数(频率计数)直接取代复合部分概率。在这种情况下,对于语言模型词汇列表中的每个条目,归一化常数即恒定的拆分处罚ξ保持相同。因此,归一化常数不影响复合部分概率,并且可以被省略。
图5示出了从单语种语言模型词汇列表中提取的示例词位的列表500。列表500包括词位(例如词位502)、该词位的相关联频率计数(例如频率计数502a)和表示该词位的语言的语言代码(例如语言代码502b)。参照图1,列表500可以通过通用复合词拆分系统(例如系统100)包括在数据库(例如数据库102)中,以供分解引擎(例如分解引擎108)使用。
概率对拆分位置nk-1的依赖指示了基于动态程序模型的复合词拆分过程(例如过程400)是在语言符号w的起始、中间还是末尾。然后,过程可以在起始词素、连接词素和末尾词素之间进行区分。如参照图3所述的那样,通用复合词拆分系统可以允许在训练过程中通过使用双语种短语表来明确设置词素或自动提取词素。
词素列表300可以包括起始词素、连接词素(例如词素306)以及末尾词素(例如词素308),它们可以分别用作前缀词素、中缀词素或后缀词素,以连接复合部分的序列从而形成复合词。在分解复合词时,通用复合词拆分系统可以将起始词素、连接词素和末尾词素分别检测为前缀词素、中缀词素或后缀词素。在一些实施方式中,在分解复合词时,通用复合词拆分系统可以删除或替换一个或多个词素。
图6示出了用于复合部分的后缀的词干602以及发生器604末尾词素的列表600。通用复合词拆分系统可以使用词干和发生器规则执行词素替换。部分列表600包括希腊语语言(例如语言代码“el”)的末尾词素。例如,使用基于动态程序模型的复合词拆分过程的通用复合词拆分系统来分解希腊词:χαρτοπαíζω(英语翻译:gamble(赌博)),如下所示。
χαρτοπαíζω→χαρτιá+παíζω
在这个例子中,复合部分χαρτο的后缀o源于词干后缀606,并且被发生器后缀608取代。在一些实施方式中,通用复合词拆分系统可以通过应用词干规则来进行对词素的删除,而非随后应用发生器规则。在一些实施方式中,图4中所示的过程400不可以处理在多个词素之间的直接转变,以避免词素序列的生成。为了实现这一点,紧接在另一个词素之后的那些词素的成本可以被设置为无穷大。
在一些实施方式中,通用复合词拆分系统中包括的通用预处理器提供了可定制的记分员界面以支持多个成本函数。例如,特定的记分员实现将成本分配给复合词的组分中的每个组分的记分功能。此外,记分员界面可以提供用于处理任意形态学操作的方法。一旦在训练过程中通用复合词拆分系统学习了形态学操作,那么该形态学操作可以包括在词素列表(例如列表300、列表600)中。
图7是通用复合词拆分系统支持的语言的列表700。列表700列出了根据语言的语系分组的语言。通用复合词拆分系统可以支持未在列表700中列出的额外的语言。在一些实施方式中,通用复合词拆分系统包括用于在系统所支持的每种语言的分解过程中使用的语言特定信息。语言特定信息可以包括依赖于语言的词频列表以及形态学操作或依赖于语言的词素的集合。
参照图1和图4,为了计算过程400的成本函数拆分器132从数据库102中存储的词频列表中检索复合部分候选的词频。例如,如果词频列表包括每种语言大约100,000个条目,每词的平均长度为20个字节,并且4个字节整数值用来存储词频,那么数据库102将需要大约115兆字节的存储空间来存储信息,以便分解模型支持50种语言。
在一些实施方式中,为了减少语言相关信息所需的存储量,通用复合词拆分系统计算打包的64位指纹(fingerprint),其中,保留40位给词的指纹以及24位给词的频率。因此,词频条目的查找表并不需要存储全词。通用复合词拆分系统对特定的复合词候选是否出现在词频列表中感兴趣,而不需要检索候选本身。因此,保留词频列表中的词的指纹是足够的。使用40位的指纹减少了冲突(不同的词有相同的指纹)的数目。40位指纹的使用导致19兆字节的存储器指纹以支持50种语言,这明显少于将全词存储在词频列表中所需的115兆字节。
例如,图1中的通用复合词拆分系统100尝试拆分英语复合词:flowerpot。参考图1,分解引擎108接收复合词。拆分器132可以执行过程400以尝试每一个拆分点,并根据成本函数决定导致最小成本的复合词拆分。在这个例子中,复合词将被拆分成两部分。拆分器132定位两个拆分点,其中,拆分点的数量用K来表示(例如K=2),而拆分点在复合词中的位置用n1和n2来表示。由于复合词“flowerpot”包括九个字符c1,…c9,所以存在8种在字符c1,...,c8中定位拆分点n1的可能性。例如,如果n1=6,则结束于第六个字符的组分候选是第一复合部分"flower"。拆分点n2的位置总是复合词中的最后一个字符。拆分点n2的位置是固定的并可以预先设置,此处n2=9。因此,剩余的字符c7,…,c9形成第二复合部分"pot"。尝试复合词“flowerpot”中所有可能的单一拆分导致下面的组分候选:
flowerpot→f+lowerpot
flowerpot→fl+owerpot
flowerpot→flo+werpot
flowerpot→flower+pot
flowerpot→flowerpo+t
在确定组分候选是否是复合词“flowerpot”的复合部分时,通过使用过程400,拆分器132使用词频列表中包括的那个候选的频率计数将成本与每个复合部分候选相关联。过程400通过对每个组分候选的成本求和来确定用于分解复合词的组分候选的总成本。例如,单一字母“f”可能频繁出现,对分解复合词的总成本贡献小的成本(高概率),但是词“lowerpot”很可能根本不会出现,对分解复合词的总成本贡献高的成本(低概率)。因此,将“flowerpot”拆分成“f”和“lowerpot”是不可能的。
在另一个例子中,组分“flower”经常出现在英语语言中,对用于分解复合词的总成本贡献小的成本(高概率),而组分“pot”也经常出现在英语语言中,对分解复合词的总成本贡献额外的小的成本(高概率)。过程400可以确定这种拆分的成本是最低的,因此所述组分是复合词的复合部分。拆分点n1的期望位置等于6。
例如,图1中的通用复合词拆分系统100尝试拆分德语复合词“Verkehrszeichen”(英文翻译:trafficsign(交通标志))。在将英语复合词“flowerpot”拆分成两个复合部分的例子中,复合词包括两个连接的词典词。然而,德语复合词“Verkehrszeichen”包括两个复合部分词典词,其中,在两个子词之间具有s词素或连接词素。参考图1,分解引擎108接收复合词。拆分器132可以执行过程400以尝试每一个拆分点,并根据成本函数决定导致最小成本的复合词拆分。在这个例子中,复合词将被拆分成三个部分,K=3。尝试复合词“Verkehrszeichen”中所有可能的双拆分导致下面的组分候选:
Verkehrszeichen→V+e+rkehrszeichen
Verkehrszeichen→V+er+kehrszeichen
Verkehrszeichen→V+erk+ehrszeichen
Verkehrszeichen→Verkehr+s+zeichen
Verkehrszeichen→Verkehrszeich+e+n
拆分器132在词频列表中查找每个潜在组分以确定其频率。过程400通过确定具有最低的成本(最高的概率)的复合词拆分来确定期望拆分点。这导致拆分点n1=7、n2=8以及n3=15的位置处的期望复合词拆分。在这个例子中,附加的s词素是连接词素,这是因为它连接复合部分Verkehr和zeichen。在一些实施方式中,通用复合词拆分系统100可以包括所有可能的连接词素的列表(例如列表300)。系统可以假定可能的连接词素以插入在两个复合部分之间。
例如,图1中的通用复合词拆分系统100尝试拆分希腊语复合词“χαρτóκουτο”(英文翻译:cardboardbox(纸板箱))。在拆分希腊语复合词“χαρτóκουτο”的例子中,系统100在两个复合部分之间插入连接词素。希腊语复合词的第一复合部分“χαρτó”可以在希腊语词典中找到。第二复合部分“κουτο”不是有效的希腊词,并且不能在希腊语词典中找到。
此外,虽然在希腊语词典中找到第一复合部分“χαρτó”,但是较常见的找到的复合部分的形式是“χαρτí”。参考图1,通用复合词拆分系统100的分解引擎108可以执行一个或多个词素替换。具体来说,分解引擎108中的变换模块136可以通过执行形态学操作gk而使用词素替代复合部分候选中的一个或多个复合部分候选的后缀,导致变换的复合部分候选。分解引擎108可以在词频列表中查找变换的复合部分候选,并确定其频率计数。拆分器132可以执行过程400以尝试每一个拆分点,并根据成本函数决定导致最小成本的复合词拆分。在这个例子中,复合词将被拆分成两部分。
拆分器132可以尝试复合词“χαρτóκουτο”中所有可能的双拆分,并且可以对一个或多个复合部分候选执行各种形态学操作gk,以将候选从非词典词变换成词典词。这导致下列复合部分候选以及形态学操作gk
χαρτóκουτο→χ+αρτóκουτο
χαρτóκουτο→χ+αρτíκουτοg1:ó/í
χαρτóκουτο→χ+αρτóκουτíg2:ο/í
χαρτóκουτο→χαρτí+κουτíg1:ó/í,g2:ο/í
χαρτóκουτο→χαρτíκουτ+οg1:ó/í,
χαρτóκουτο→χαρτíκουτ+íg2:ο/í
取决于语言,形态学操作gk可以变得任意复杂。此外,明确地列出每一种语言的所有形态学操作未必是可行的。因此,通过使用训练过程,形态学操作可以被找到并被提供给通用复合词拆分系统以作为额外知识源。
图8是可以根据本公开的实施方式使用的网络架构800的例子的示图。所有的要素都耦合到网络806。图8中的装置808、806、814中的每一个都可以用硬件组件、软件组件或固件组件或这些组件的任意组合来实施或与其相关联。例如,装置808、806、814可以用通用服务器、软件过程及引擎和/或各种嵌入式系统来实施或者与其相关联。
架构800包括一个或多个用户接入装置808(用户接入装置808a、用户接入装置808b、用户接入装置808c)以及计算机系统814。计算机系统814包括服务器802以及数据库804a、804b、804c、804d。在一些实施方式中,架构800表示支持包括一个或多个客户端(例如用户接入装置808a可以充当客户端)和/或一个或多个服务器(例如服务器802)的多个计算机系统的客户端/服务器系统,这些客户端和/或服务器通过网络806以连接的方式耦合以相互通信。在一些实施方式中,客户端直接连接至一个或多个服务器(没有经由网络806连接)。
用户接入装置808可以包括能够从网络806接收信息的装置。用户接入装置808可以表示各种形式的处理装置,所述处理装置包括但不限于通用计算机、专用计算机、桌上型计算机、膝上型计算机、手持式计算机、个人数字助理(PDA)、蜂窝式电话、网络设备、摄影机、智能电话、增强型通用分组无线业务(EGPRS)移动电话、媒体播放器、导航装置、电子邮件装置、游戏控制台或这些数据处理装置或其它数据处理装置中的任何两个或更多的组合。此外,用户接入装置808中的每一个都可以访问服务器802上的应用软件。
服务器802可以表示各种形式的服务器,包括但不限于网络(web)服务器、应用服务器、代理服务器、网络(network)服务器或服务器群(serverfarm)。例如,服务器802可以是执行被用户接入装置808访问的软件的应用服务器。在操作中,多个用户接入装置808可以经由网络806与服务器802通信。在一些实施方式中,架构800可以通过使用在用户接入装置808中之一上运行的网络浏览器来使得用户能够调用服务器802上可用的应用程序。每个应用程序可以单独访问来自一个或多个存储库资源(例如数据库804a、804b、804c、804d)的数据。例如,服务器802访问数据库804a、804b、804c、804d。
在一些实施方式中,用户接入装置808通过通信接口(未显示)无线地进行通信,通信接口在需要的情况下可以包括数字信号处理电路。可以设置通信接口以用于在各种模式或协议下进行通信,所述各种模式或协议尤其比如是全球移动通信系统(GSM)语音呼叫、短消息服务(SMS)、增强消息服务(EMS)或多媒体消息服务(MMS)消息、码分多址(CDMA)、时分多址(TDMA)、专用数据通道(PDC)、宽带码分多址(WCDMA)、码分多址2000(CDMA2000)或通用分组无线业务(GPRS)。例如,通信可以通过射频收发器(未显示)而发生。此外,短距离通信可以比如使用蓝牙(例如IEEE802.15x)、WiFi(例如802.11x)或其它这样的收发器而发生。
在一些实施方式中,架构800是跨越一个或多个网络如网络806的分布式客户端/服务器系统。网络806可以是大型计算机网络,如局域网(LAN)、广域网(WAN)、因特网、蜂窝网络或其组合,用于连接任何数目的移动客户端、固定客户端以及服务器。在一些实施方式中,用户接入装置808中的每一个都经由虚拟专用网(VPN)、安全外壳(SSH)隧道或其它安全的网络连接与服务器802通信。在一些实施方式中,网络806包括因特网、无线服务网络,并可以包括公共交换电话网络(PSTN)。在其它实施方式中,网络806包括企业网络(例如内联网)和一个或多个无线接入点。
用户接入装置808中的每一个都可以与服务器802建立其自己的会话。每个会话可以是半永久性的,因为会话可以在一个时间点建立并在另一个时间点撤销。每个会话都可以涉及在计算机系统814与每个单独用户接入装置之间的双向信息交换。例如,超文本传输协议(HTTP)会话使得能够将信息与单独的用户相关联。用户接入装置808中的一个或多个可以经由网络806与服务器802通信。为了运行应用程序,每个用户接入装置都可以与应用服务器802建立相应的会话。
例如,使用用户接入装置808a的用户可以经由网络806建立与服务器802的通信会话。服务器可以包括通用复合词拆分系统(例如图1所述的通用复合词拆分系统100)。用户可以用键盘816在显示装置818上显示的图形用户界面(GUI)中输入要翻译的复合词。响应于由用户对包括在GUI中的翻译按钮的激活,用户接入装置808a经由网络806将复合词传送给计算系统814。参考图1,包括通用复合词拆分系统100的服务器802接收该复合词,并将该复合词输入到输入串模块122中。然后,如本说明书中先前描述的那样,通用复合词拆分系统100对输入复合词执行分解和翻译过程。在执行这个过程时,系统100可以访问一个或多个数据库804a、804b、804c、804d,它们可以表示数据库102、104、106和128。根据通用复合词拆分系统的需要,系统100以及计算设备814可以包括另外的数据库。翻译引擎142输出翻译的输出串144。服务器802经由网络806发送翻译的输出串144至用户接入装置808a,以在显示装置808上的GUI中显示给用户。
图9是示例分解过程900的流程图。通用复合词拆分系统100、具体地即分解引擎108可以执行过程900。
例如,参考图1,当获得语言符号(904)时,过程900开始(902)。例如,输入串模块122获得语言符号(输入串126)。分解引擎108接收语言符号(输入串126)。分解引擎108识别语言符号中包括的两个或更多的候选子词(906)。如参考图1所述的那样,拆分器132执行过程400(图4中)以确定用于输入语言符号的两个或更多候选子词。分解引擎108识别一个或多个形态学操作(208)。变换模块136可以在分解过程中使用一个或多个形态学操作。分解引擎108、具体地即成本模块134确定每个子词的成本(210)。此外,分解引擎108和成本模块134确定每个形态学操作的成本(212)。过程结束(216)。
已经了描述若干实施方式。然而,将理解的是,在不脱离本公开的精神和范围的情况下可以进行各种修改。例如,上面示出的各种形式的流程可以通过重新排序、添加或移除步骤而使用。因此,其它的实施方式处在所附权利要求的范围内。
在本说明书中描述的本发明的实施方式以及所有的功能操作都可以用数字电子电路、或者用包括本说明书中公开的结构及其结构等价物的计算机软件、固件或硬件、或者用它们中的一个或多个的组合来实现。本发明的实施方式可以被实现为一个或多个计算机程序产品,即编码于计算机可读介质上的一个或多个计算机程序指令模块,用于由数据处理设备执行或控制数据处理设备的操作。计算机可读介质可以是机器可读的存储装置、机器可读的存储基板、存储装置、影响机器可读的传播信号的物质的组成或它们中的一个或多个的组合。术语“数据处理设备”包括用于处理数据的所有设备、装置以及机器,例如包括可编程处理器、计算机或者多个处理器或计算机。除了硬件之外,该设备还可以包括:为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件的代码;协议栈;数据库管理系统;操作系统;或它们中的一个或多个的组合。传播信号是人工产生的信号,例如机器生成的电信号、光信号或电磁信号,这些信号被产生用于编码用于传输给合适的接收设备的信息。
计算机程序(又称程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,包括编译语言或解释语言,并且计算机程序可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或其它适于在计算环境中使用的单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分(例如标记语言文档中存储的一个或多个脚本)中、在专用于所讨论的程序的单个文件中或在多个协调的文件(例如存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可以被部署为在一台计算机上执行,或者在位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。
本说明书中所述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器来执行,以通过对输入数据的操作以及生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且设备也可以通过它们来实施。
适合执行计算机程序的处理器例如包括通用微处理器和专用微处理器二者以及任何类型的数字式计算机的任何一个或多个处理器。一般来说,处理器将接收来自只读存储器或随机存取存储器或二者的指令和数据。计算机的基本元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储装置。一般来说,计算机还会包括用于存储数据的一个或多个大容量存储装置,或者与其可操作地耦合以从其接收数据或向其传送数据,或者这两种情况都有,用于存储数据的一个或多个大容量存储装置例如磁盘、磁光盘或光盘。然而,计算机无需必须具有这样的装置。此外,计算机可以嵌入在其它装置中,仅举几例,其它装置如平板电脑、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储装置,例如包括半导体存储装置如EPROM、EEPROM和快闪存储装置、磁盘如内部硬盘或可移动磁盘、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或结合在专用逻辑电路中。
为了提供与用户的交互,本发明的实施方式可以在下述计算机上实施,所述计算机例如具有:用于向用户显示信息的显示装置,例如CRT(阴极射线管)或LCD(液晶显示器)监视器;以及键盘和指示装置,例如鼠标或轨迹球,用户可以通过它们提供针对计算机的输入。其他种类的装置也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音输入、语音输入或触觉输入。
本发明的实施方式可以在下述计算系统中实施:该计算系统包括后端组件例如作为数据服务器;或者该系统包括中间设备组件,例如应用服务器;或者该系统包括前端组件,例如具有用户可以通过其与本发明的执行进行交互的图形用户界面或网络浏览器的客户端计算机;或者一个或多个这样的后端组件、中间设备组件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或媒介例如通信网络相互连接。通信网络的例子包括局域网(“LAN)和广域网(“WAN”)例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般都彼此远离并且典型地通过通信网络交互。借助于在各自的计算机上运行的并彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器之间的关系。
虽然本说明书包含了许多细节,但是这些细节不应该被解释为对本发明的或可能会要求保护的范围的限制,而是作为本发明的特定实施方式的特定特征的说明。在本说明书中在各个实施方式的上下文中描述的某些特征也可以以组合的方式在单个实施方式中实现。相反,在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的再组合的方式在多个实施方式中实现。此外,虽然在上面特征可以被描述为以某些组合起作用而且即使最初以如此方式要求保护,但是在某些情况下来自要求保护的组合中的一个或多个特征可以从组合中分离,并且要求保护的组合可以涉及再组合或再组合的变体。
类似地,虽然在附图中按特定顺序描绘了操作,但这不应被理解为需要将这些操作按所示的特定顺序或按连续的顺序执行,或将所有示出的操作都执行以实现希望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,在上述实施方式中各种系统组件的分离不应被理解为在所有实施方式中都需要这种分离,而是应当理解所述的程序组件和系统通常可以以单个软件产品集成在一起或被封装成多个软件产品。
因此,已描述了本发明的具体实施方式。其它实施方式处在所附权利要求的范围内。例如,权利要求中所述的操作可以按不同的顺序执行而且仍然能实现希望的结果。

Claims (10)

1.一种分解系统,包括:
用于获得在源语言中包括字符的序列的语言符号的装置;
用于识别作为所述语言符号的组分的两个或更多候选子词以及将所述候选子词变换成所述语言符号所需要的一个或多个形态学操作的装置,其中,所述形态学操作中的至少一个涉及非词典词的使用;
用于确定与每个候选子词相关联的成本和与每个形态学操作相关联的成本的装置;
用于执行基于动态程序模型的复合词拆分过程以基于成本来选择性地将所述语言符号分解成所述候选子词以获得一个或者多个词的装置,包括:
利用递归函数来确定针对所述语言符号中多个拆分点的最小成本;以及
选择性地将所述语言符号分解成具有所述最小成本的候选子词以获得所述一个或者多个词;以及
用于执行所述一个或者多个词从源语言到不同的目标语言的基于短语的统计机器翻译的装置,
其中,利用递归函数来确定针对多个拆分点的最小成本包括:在字符的序列中的位置的序列处并且使用恒定的拆分处罚来递归地计算针对多个拆分点的成本函数。
2.根据权利要求1所述的分解系统,还包括:
用于将与每个候选子词相关联的成本和与每个形态学操作相关联的成本进行组合的装置。
3.根据权利要求2所述的分解系统,其中,基于组合的成本来执行选择性地将所述语言符号分解成所述候选子词。
4.根据权利要求3所述的分解系统,其中,确定成本还包括:
从多个记分函数当中选择将成本分配给所述候选子词的定制记分函数。
5.根据权利要求1所述的分解系统,其中,所述至少一个形态学操作涉及下述中的至少一个:
在所述候选子词中的两个之间插入所述非词典词;
从所述语言符号中删除所述非词典词;
将所述非词典词前置,以作为所述候选子词中的一个或多个的前缀;
将所述非词典词后置,以作为所述候选子词中的一个或多个的后缀;以及
插入所述非词典词,以作为所述候选子词中的一个或多个的中缀。
6.根据权利要求1所述的分解系统,其中,所述非词典词包括连接词素。
7.根据权利要求1所述的分解系统,其中,所述非词典词包括所述字符的在所述子词的语言中没有规定含义的子序列。
8.根据权利要求1所述的分解系统,其中所述递归函数为:
Q ( c 1 j ) = max n k , g k { ξ · Q ( c 1 n k - 1 ) · p ( c n k - 1 + 1 n k , n k - 1 , g 1 K ) } ,
其中表示当所述基于动态程序模型的复合词拆分过程在字符的序列中从位置n1至位置nk的位置的序列处使用K个拆分点时,成本函数分配给所述语言符号的从c1至cj的字符的序列的最小成本,其中ξ表示恒定的拆分处罚,表示从非词典词g1至gk变换的词位的序列,j等于字符的序列中的字符的数目,并且k是从1至K的拆分点指数。
9.一种计算机实施的方法,包括:
获得在源语言中包括字符的序列的语言符号;
识别作为所述语言符号的组分的两个或更多候选子词以及将所述候选子词变换成所述语言符号所需要的一个或多个形态学操作,其中,所述形态学操作中的至少一个涉及非词典词的使用;
通过一台或多台计算机确定与每个候选子词相关联的成本和与每个形态学操作相关联的成本;
由一台或者多台计算机执行基于动态程序模型的复合词拆分过程以基于成本来选择性地将所述语言符号分解成所述候选子词,以获得一个或者多个词,包括:
利用递归函数来确定针对所述语言符号中多个拆分点的最小成本;以及
选择性地将所述语言符号分解成具有所述最小成本的候选子词以获得所述一个或者多个词;以及
由一台或者多台计算机执行所述一个或者多个词从源语言到不同的目标语言的基于短语的统计机器翻译,
其中,利用递归函数来确定针对多个拆分点的最小成本包括:在字符的序列中的位置的序列处并且使用恒定的拆分处罚来递归地计算针对多个拆分点的成本函数。
10.根据权利要求9所述的计算机实施的方法,其中所述递归函数为:
Q ( c 1 j ) = max n k , g k { ξ · Q ( c 1 n k - 1 ) · p ( c n k - 1 + 1 n k , n k - 1 , g 1 K ) } ,
其中表示当所述基于动态程序模型的复合词拆分过程在字符的序列中从位置n1至位置nk的位置的序列处使用K个拆分点时,成本函数分配给所述语言符号的从c1至cj的字符的序列的最小成本,其中ξ表示恒定的拆分处罚,表示从非词典词g1至gk变换的词位的序列,j等于字符的序列中的字符的数目,并且k是从1至K的拆分点指数。
CN201180009346.2A 2010-02-12 2011-02-11 复合词拆分 Active CN102859515B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US30409810P 2010-02-12 2010-02-12
US61/304,098 2010-02-12
PCT/US2011/024563 WO2011100573A1 (en) 2010-02-12 2011-02-11 Compound splitting

Publications (2)

Publication Number Publication Date
CN102859515A CN102859515A (zh) 2013-01-02
CN102859515B true CN102859515B (zh) 2016-01-13

Family

ID=44368156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180009346.2A Active CN102859515B (zh) 2010-02-12 2011-02-11 复合词拆分

Country Status (6)

Country Link
US (1) US9075792B2 (zh)
EP (1) EP2534585A4 (zh)
JP (1) JP5819860B2 (zh)
KR (1) KR101744861B1 (zh)
CN (1) CN102859515B (zh)
WO (1) WO2011100573A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US8308379B2 (en) 2010-12-01 2012-11-13 Digitaloptics Corporation Three-pole tilt control system for camera module
US9164988B2 (en) * 2011-01-14 2015-10-20 Lionbridge Technologies, Inc. Methods and systems for the dynamic creation of a translated website
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
JP5834772B2 (ja) * 2011-10-27 2015-12-24 カシオ計算機株式会社 情報処理装置及びプログラム
US8224836B1 (en) * 2011-11-02 2012-07-17 Google Inc. Searching in multiple languages
CN103197764B (zh) * 2012-01-10 2016-08-17 联想(北京)有限公司 拼音输入法及装置
US8990066B2 (en) * 2012-01-31 2015-03-24 Microsoft Corporation Resolving out-of-vocabulary words during machine translation
US9294667B2 (en) 2012-03-10 2016-03-22 Digitaloptics Corporation MEMS auto focus miniature camera module with fixed and movable lens groups
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US10261994B2 (en) * 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9070303B2 (en) * 2012-06-01 2015-06-30 Microsoft Technology Licensing, Llc Language learning opportunities and general search engines
US9081762B2 (en) * 2012-07-13 2015-07-14 Enyuan Wu Phrase-based dictionary extraction and translation quality evaluation
US9007520B2 (en) 2012-08-10 2015-04-14 Nanchang O-Film Optoelectronics Technology Ltd Camera module with EMI shield
US9001268B2 (en) 2012-08-10 2015-04-07 Nan Chang O-Film Optoelectronics Technology Ltd Auto-focus camera module with flexible printed circuit extension
US9055207B2 (en) 2012-12-31 2015-06-09 Digitaloptics Corporation Auto-focus camera module with MEMS distance measurement
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
US8756499B1 (en) 2013-04-29 2014-06-17 Google Inc. Gesture keyboard input of non-dictionary character strings using substitute scoring
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
CN104239343B (zh) * 2013-06-20 2018-04-27 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN104346325B (zh) * 2013-07-30 2017-05-10 富士通株式会社 信息处理方法和装置
CN104750687B (zh) 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
WO2016058138A1 (en) * 2014-10-15 2016-04-21 Microsoft Technology Licensing, Llc Construction of lexicon for selected context
US10552462B1 (en) * 2014-10-28 2020-02-04 Veritas Technologies Llc Systems and methods for tokenizing user-annotated names
CN105843811B (zh) * 2015-01-13 2019-12-06 华为技术有限公司 转换文本的方法和设备
US10347240B2 (en) * 2015-02-26 2019-07-09 Nantmobile, Llc Kernel-based verbal phrase splitting devices and methods
JP6524008B2 (ja) * 2016-03-23 2019-06-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN105912600B (zh) * 2016-04-05 2019-08-16 上海智臻智能网络科技股份有限公司 问答知识库及其建立方法、智能问答方法和系统
WO2018074895A1 (en) * 2016-10-21 2018-04-26 Samsung Electronics Co., Ltd. Device and method for providing recommended words for character input
CN107169169B (zh) * 2017-04-20 2020-05-05 上海交通大学 软式飞机机械式操纵系统的仿真实现方法
US10528407B2 (en) * 2017-07-20 2020-01-07 Vmware, Inc. Integrated statistical log data mining for mean time auto-resolution
US10572976B2 (en) 2017-10-18 2020-02-25 International Business Machines Corporation Enhancing observation resolution using continuous learning
CN107894979B (zh) * 2017-11-21 2021-09-17 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US11010553B2 (en) * 2018-04-18 2021-05-18 International Business Machines Corporation Recommending authors to expand personal lexicon
CN109165391A (zh) * 2018-07-27 2019-01-08 纤瑟(天津)新材料科技有限公司 一种利用偏旁部首信息的神经网络机器翻译系统及方法
CN111310452B (zh) * 2018-12-12 2024-06-18 北京汇钧科技有限公司 一种分词方法和装置
CN109871425A (zh) * 2019-02-12 2019-06-11 马三和 英文单词信息处理方法、装置及计算机可读存储介质
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
CN112434521A (zh) * 2020-11-13 2021-03-02 北京搜狗科技发展有限公司 词汇处理方法和装置
US20230196034A1 (en) * 2021-12-21 2023-06-22 International Business Machines Corporation Automatically integrating user translation feedback
US11886826B1 (en) * 2023-03-14 2024-01-30 Openai Opco Llc Systems and methods for language model-based text insertion

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050033565A1 (en) * 2003-07-02 2005-02-10 Philipp Koehn Empirical methods for splitting compound words with application to machine translation
US20060149558A1 (en) * 2001-07-17 2006-07-06 Jonathan Kahn Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US20090070095A1 (en) * 2007-09-07 2009-03-12 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US20090216752A1 (en) * 2008-02-27 2009-08-27 International Business Machines Corporation Search engine, search system, search method, and search program product
CN101576876A (zh) * 2009-03-03 2009-11-11 杜小勇 一种自动拆分英文复合词组的系统和方法

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4328561A (en) * 1979-12-28 1982-05-04 International Business Machines Corp. Alpha content match prescan method for automatic spelling error correction
JPS6126176A (ja) * 1984-07-17 1986-02-05 Nec Corp 言語処理用辞書
US4672571A (en) * 1984-10-24 1987-06-09 International Business Machines Corporation Compound word suitability for spelling verification
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US4777617A (en) * 1987-03-12 1988-10-11 International Business Machines Corporation Method for verifying spelling of compound words
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US5065318A (en) * 1989-04-24 1991-11-12 Sharp Kabushiki Kaisha Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
US6496793B1 (en) * 1993-04-21 2002-12-17 Borland Software Corporation System and methods for national language support with embedded locale-specific language driver identifiers
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6092036A (en) * 1998-06-02 2000-07-18 Davox Corporation Multi-lingual data processing system and system and method for translating text used in computer software utilizing an embedded translator
US6401060B1 (en) * 1998-06-25 2002-06-04 Microsoft Corporation Method for typographical detection and replacement in Japanese text
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
JP2001249922A (ja) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd 単語分割方式及び装置
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
US7516063B1 (en) * 2001-04-17 2009-04-07 Personalized Mass Media Corporation System and method for storing data using a machine readable vocabulary
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7634397B2 (en) * 2002-06-27 2009-12-15 Siebel Systems, Inc. Single server instance, multi-lingual applications based on loosely coupled metadata and presentation layers
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
JP4001283B2 (ja) * 2003-02-12 2007-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析装置および自然言語処理装置
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7555428B1 (en) * 2003-08-21 2009-06-30 Google Inc. System and method for identifying compounds through iterative analysis
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7814101B2 (en) * 2003-10-30 2010-10-12 Microsoft Corporation Term database extension for label system
US7580827B1 (en) * 2003-12-31 2009-08-25 Google Inc. Semantic unit recognition
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
EP1794004A4 (en) * 2004-08-13 2012-05-09 Examples Inc 5 UNIQUE KEYBOARD AND APPROXIMATION TIPS
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
WO2006086556A2 (en) * 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
JP2006243104A (ja) * 2005-03-01 2006-09-14 Canon Inc 音声合成方法
US7583205B2 (en) * 2005-07-28 2009-09-01 Research In Motion Limited Handheld electronic device with disambiguation of compound word text input
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
JP5011751B2 (ja) * 2006-02-27 2012-08-29 富士通株式会社 訳語情報出力処理プログラム,処理方法および処理装置
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
WO2008043582A1 (en) * 2006-10-13 2008-04-17 International Business Machines Corporation Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary
US8086599B1 (en) * 2006-10-24 2011-12-27 Google Inc. Method and apparatus for automatically identifying compunds
US7860707B2 (en) * 2006-12-13 2010-12-28 Microsoft Corporation Compound word splitting for directory assistance services
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US8645119B2 (en) * 2007-03-26 2014-02-04 Google Inc. Minimum error rate training with a large number of features for machine learning
US20080312902A1 (en) * 2007-06-18 2008-12-18 Russell Kenneth Dollinger Interlanguage communication with verification
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US20090091087A1 (en) * 2007-10-03 2009-04-09 Robert Andrew Wasmund Quiz-nested quiz game and system therefore
JP5239307B2 (ja) * 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US7827187B2 (en) * 2008-04-04 2010-11-02 International Business Machines Corporation Frequency partitioning: entropy compression with fixed size fields
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム
US8108391B1 (en) * 2009-03-12 2012-01-31 Google Inc. Identifying non-compositional compounds
US8392440B1 (en) * 2009-08-15 2013-03-05 Google Inc. Online de-compounding of query terms
US8781814B2 (en) * 2009-09-15 2014-07-15 Hewlett-Packard Development Company, L.P. Method for locating line breaks in text
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
US8612205B2 (en) * 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149558A1 (en) * 2001-07-17 2006-07-06 Jonathan Kahn Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20050033565A1 (en) * 2003-07-02 2005-02-10 Philipp Koehn Empirical methods for splitting compound words with application to machine translation
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US20090070095A1 (en) * 2007-09-07 2009-03-12 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US20090216752A1 (en) * 2008-02-27 2009-08-27 International Business Machines Corporation Search engine, search system, search method, and search program product
CN101576876A (zh) * 2009-03-03 2009-11-11 杜小勇 一种自动拆分英文复合词组的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Empirical Methods for Compound Splitting;Philipp Koehn et al.;《EACL "03 Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics》;20031231;187-193 *
Philipp Koehn et al..Empirical Methods for Compound Splitting.《EACL "03 Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics》.2003,187-193. *

Also Published As

Publication number Publication date
JP5819860B2 (ja) 2015-11-24
EP2534585A1 (en) 2012-12-19
KR101744861B1 (ko) 2017-06-08
KR20120129906A (ko) 2012-11-28
EP2534585A4 (en) 2018-01-24
US9075792B2 (en) 2015-07-07
WO2011100573A1 (en) 2011-08-18
JP2013519949A (ja) 2013-05-30
US20110202330A1 (en) 2011-08-18
CN102859515A (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
CN102859515B (zh) 复合词拆分
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
US8412517B2 (en) Dictionary word and phrase determination
US8010344B2 (en) Dictionary word and phrase determination
US8463598B2 (en) Word detection
CN104011712B (zh) 对跨语言查询建议的查询翻译进行评价
US10474751B2 (en) Machine-translation based corrections
KR101465770B1 (ko) 단어 확률 결정
US8594999B2 (en) Typing candidate generating method for enhancing typing efficiency
CN101815996A (zh) 检测名称实体和新词
CN101019113A (zh) 用于翻译系统的计算机实现的方法
CN103140849A (zh) 音译处理装置、程序、记录媒体及方法
Al‐Shawakfa et al. A comparison study of some Arabic root finding algorithms
CN101308512A (zh) 一种基于网页的互译翻译对抽取方法及装置
CN110866408B (zh) 数据库制作装置以及检索系统
KR20140059877A (ko) 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
Shafi et al. UNLT: Urdu natural language toolkit
Huang et al. Words without boundaries: Computational approaches to Chinese word segmentation
US20120265520A1 (en) Text processor and method of text processing
US9336317B2 (en) System and method for searching aliases associated with an entity
KR102422923B1 (ko) 감성 분석장치 및 그 제어 방법 그리고 신조어 및 이모티콘 추출 장치
Kwok et al. CHINET: a Chinese name finder system for document triage
Dashti et al. Correcting real-word spelling errors: A new hybrid approach
JP2009104520A (ja) 商標検索システム及び商標検索サーバ
JPH09160929A (ja) 文書処理装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder