CN101490666A - 对齐分层和顺序文档树以标识并行数据 - Google Patents

对齐分层和顺序文档树以标识并行数据 Download PDF

Info

Publication number
CN101490666A
CN101490666A CNA2007800263594A CN200780026359A CN101490666A CN 101490666 A CN101490666 A CN 101490666A CN A2007800263594 A CNA2007800263594 A CN A2007800263594A CN 200780026359 A CN200780026359 A CN 200780026359A CN 101490666 A CN101490666 A CN 101490666A
Authority
CN
China
Prior art keywords
tree
document
parallel
node
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800263594A
Other languages
English (en)
Inventor
M·周
C·牛
L·施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101490666A publication Critical patent/CN101490666A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档,并导致对并行文档的递归挖掘。

Description

对齐分层和顺序文档树以标识并行数据
背景
此处所使用的并行双语语料库指的是被标识为第二语言的文本数据译文的第一语言的文本数据。出于示例的目的,此处所讨论的文本数据是文档,但也可使用其它文本数据。
在一个文档是另一个文档的译文时,两个文档被称为并行的双语文档。因此,并行的双语语料库指的是作为第二语言的数据的语料库的译文的第一语言的数据的语料库。
在一组并行文档中,通常标识那些文档中互为译文的句子。这些句子被称为对齐的句子。因此,如果第一语言的文档与第二语言的并行文档相一致,并且两文档中的句子互相对齐(这表现在第一语言的句子与其第二语言的译文相对齐),则这两个文档被称为并行的、句子对齐的双语语料库。
当前对并行的双语语料库有广泛的需求。例如,这些语料库通常是用于训练统计机器翻译系统以及用于执行跨语言信息检索的关键资源。另外,某些这种语料库甚至被用于各种单语自然语言处理任务,如字义消歧和释义获取。
然而,对于大多数语言对而言,当前不易获得大规模的并行语料库。即使是在某些语料库可用的那些语言中,那些语料库中的数据也通常限于政府公文或新闻专线文本。对于不同语言对中的各种域而言,因为这些类型的文档中所使用的特定书写风格或域专用语言,这些语料库不能被容易地用来训练数据驱动的机器翻译系统或信息检索系统,或甚至不能用于上述单语自然语言处理程序。
近来,在广域网(如网站)上可获得的双语页面的数量迅猛增长。因此,开发了某些web挖掘系统来从万维网自动地获取并行的双语语料库。这些系统使用统一资源定位符(URL)并假定并行的网页是用便于网站维护的预定义模式来命名的。因此,在向这些系统给出双语网站URL时,它们使用预定义的URL模式来尝试发现该网站中的候选并行文档。基于内容的特征随后被用来验证候选对的翻译等效物。
这些类型的系统只有有限的成功率。例如,网页样式和网站维护机制存在各种差异。因此,双语网站通常对并行文档使用变化的命名方案,其不遵循预定义的模式。
另外,就带宽而言,这些基于URL模式的挖掘系统会导致问题。这些类型的挖掘过程在使用预定义的URL模式来发现可能的并行文档之前需要完全的主机爬行(full host crawling)来收集URL。因此,这些基于URL模式的系统通常需要高带宽和高成本,并导致缓慢的下载速度。由于甚至许多双语网站只具有很有限数量的并行文档,所以大部分的网络带宽被浪费在下载不具有翻译对应物的网页上。
另外,由于web文档的有噪声的性质,并行网页可能包括非翻译内容和许多词汇表外单词。这两者即使在标识了两个并行文档后也会降低句子对齐准确度。此外,常规的句子对齐器只在常规文本上操作而不考虑其它因素,如布局相似性。
提供以上讨论仅用作一般的背景信息,并不旨在帮助确定所要求保护的主题的范围。
概述
基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词来标识一组候选并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容。
在一实施例中,文档树遵循文档对象模型(DOM)来生成,DOM是用于导航有效的HTML文档的公知应用程序编程接口。为便于树对齐计算,在一实施例中,在该DOM树上执行微小的修改。在另一实施例中,一旦对齐了树,则标识并行超链接。随后下载对应于那些超链接的页面作为新的一组候选的并行页面。
提供本概述以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。
附图简述
图1是并行语料库挖掘系统的一个说明性实施例的框图。
图2是示出图1所示的系统的总体操作的一个说明性实施例的流程图。
图2A是示出两个页面的并行性验证的流程图。
图3A和3B示出对网页进行建模的文档树的实施例。
图4是示出用于执行树对齐的一个说明性实施例的流程图。
图5是一个说明性操作环境的框图。
详细描述
图1是根据一实施例的并行语料库挖掘系统100的框图。系统100被示为通过网络104耦合到文档102。网络104说明性地是广域网,如因特网,但也可以是局域网或不同类型的网络。当然,同样,文档102说明性地表示系统100可以通过网络104访问的一个或各种不同的站点上的数据或其它文本内容。
在一实施例中,系统100通过网络104从文档102检索数据并生成出于各种不同的原因中的一个而输出的并行的对齐的句子106,这些原因诸如供存储、供在机器翻译系统中使用、供在单语自然语言处理系统中使用、供在信息检索系统中使用等。这些不同的系统在图1中由框108指示。
图1所示的实施例示出系统100包括导航组件110、下载组件112以及页面验证和树对齐系统114。树对齐系统114自身说明性地包括并行性检查组件116、并行性验证器组件118、树对齐组件120以及句对齐组件122。
图2是更详细地示出系统100的操作的一个说明性实施例的流程图。图2是相对于万维网和因特网参考系统100的操作来描述的。然而,如上所述,也可使用任何其它类型的网络。
无论如何,导航组件110说明性地是可以将系统100导航至给定网页的常规的网络导航组件,如web浏览器。一旦将初始网站地址提供给导航组件110,则导航组件110导航至对应于该地址的网站。这由图2的框130指示。在一说明性实施例中,给定网站由用户或诸如爬行器等自动化网站位置机制或任何其它所需的输入设备来给出。
一旦到达给定网站,则下载组件112说明性地从该网站下载根页面和一级页面。一级页面是由根页面直接链接的那些页面。这由图2的框132指示。所下载的页面被称为图1中的候选页面134。候选页面被用来检查该网站是否是双语的。如果是,则处理候选页面以供系统114进行并行对标识、验证和树对齐。
存在若干方法来检查网站是否是双语的,并进一步从候选页面中标识可能并行的页面对。在该说明性实施例中,将锚文本与为该任务预定义的触发单词进行比较。如果候选页面134被链接到其它页面,则其将说明性地通过超链接来链接。对应于该超链接的文本在此被称为锚文本。并行性检查组件116随后检查所有已下载页面的锚文本以寻找触发单词。这由图2的框134指示。
触发单词是反映网页间的翻译等效物的单词。预定义触发单词(或触发串)的某些示例包括关于英语翻译的触发单词,如“English(英文)”或“English version(英文版)”。换言之,如果下载了法语网页,且一个超链接被标记为“English”或“English version”,则该触发文本可能指示该法语网页的翻译等效物存在并可通过该超链接来访问。其它语言也存在类似的触发单词,但可能稍有不同。例如,中文的触发单词可以是“Chinese(中文)”、“Chinese version(中文版)”、“simplified Chinese(简体中文)”、“traditional Chinese(繁体中文)”等。
在一实施例中,并行性检查组件116通过将锚文本与已知反映网页间的翻译等效物的预定义串的列表进行比较来检查锚文本以寻找触发单词。如图2的框136所示,如果在锚文本中未找到触发单词,则当前网站不是双语网站并且对于给定网站处理结束。然而,如果在框136处定位了触发单词,则将与触发单词(例如,English version和Chinese version)相关联的两个页面标识为图1中的可能并行的页面138。可能并行的页面138随后由下载组件112下载。这由图2的框140指示。
在处理中的该点处,这些页面被认为是尚未被验证的候选并行对(或可能并行的对)。因此,可能并行的页面138被提供给并行性验证器组件118。组件118验证可能并行的页面足够并行以被认为是翻译等效物,以便可以从其中获取对齐的双语数据。
在一实施例中,并行性验证器组件118说明性地是基于二元最大熵的分类器。然而,也可使用其它分类器或验证组件(基于规则的或统计的)。然而,在该说明性实施例中,该分类器在确定页面是否足够并行时使用三个特征。图2A是示出其中在并行性验证器组件118中使用这些特征的一个说明性实施例的流程图。这三个特征包括文件长度比率、HTML标签相似性和句子对齐分数。因此,为确定页面是否足够并行,组件118首先接收可能并行的页面138。这由图2A的框160指示。
组件118随后计算两个页面的文件长度比率。这由框162指示。文件长度比率相对直接且仅仅是表示所考虑的网页的每一个的文件的长度的比率。
组件118随后计算HTML标签相似性。这由图2A的框164指示。HTML标签相似性可使用各种方法中的任一种来计算。然而,一个说明性和示例性方法由图2A的框166、168和170指示。根据该说明性实施例,HTML标签相似性通过首先提取每一页面的所有HTML标签来确定。这由框166指示。每一页面的HTML标签随后被串接成一个串,以便为两个页面的每一个形成一个串接的串。随后,计算与页面相关联的两个标签串之间的最小编辑距离。在一实施例中,HTML标签相似性分数被定义为串接的串中匹配的标签的数量相对于串的总数的比率。也可使用用于确定相似性的其它技术。
无论如何,组件118还计算句子对齐分数,如图2A的框172所示。句子对齐分数也可以使用各种各样的不同的方法来计算。然而,在一示例性实施例中,句子对齐分数是两个页面上对齐的句子的数量与对应于该两个页面的两个文件中的句子的总数的比率。用于确定句子是否对齐的一个实施例是通过对齐该两个页面的文档对象模型树。这在下面将更详细地描述。
一旦为两个页面计算了这三个特征(文件长度比率、HTML标签相似性、和句子对齐分数),则组件118确定页面是否足够并行并输出关于该判定的指示。这由图2A的框174指示。在所讨论的该示例性实施例中,组件118是二元最大熵分类器且基于上述三个特征简单地将该两个网页分类为足够并行或不足够并行。该分类器可以使用任何所需的训练机制来训练,且一种这样的机制被称为公知的迭代缩放算法。
再次参考图1和图2,组件118验证可能并行的页面为足够并行。这由图2的框142指示。
如果如组件118在图2的框144处所示页面不足够并行,则两个候选页面的处理结束。然而,如果在框144处组件118确定该两个页面足够并行,则组件118确定页面是经验证的并行页面146并出于当前处理的目的是真正的翻译等效物,以便其可在生成并行句子并引用更多并行网页时使用。因此,组件118向树对齐组件120提交经验证的并行页面146以供对齐。
树对齐组件120首先获得经验证的并行页面146的每一个的文档树。文档树的每一节点都说明性地包括两个字段,第一个是HTML标签字段而第二个是与该节点相关联的文本。在一说明性示例中,文档树结构遵循文档对象模型(DOM),但有微小修改。DOM通过万维网联盟来发布,且是公知的用于有效HTML文档的应用程序编程接口。出于本示例的目的,将关于与每一网页相关联的作为DOM树的参考文档树结构来继续这一讨论,尽管可以理解,也可使用其它这种树结构。
一旦为经验证的并行页面146的每一个获得了DOM树,则树对齐组件120可以在该DOM树上说明性地执行任何所需的预处理来将其置于所需形式以供进一步处理。这由图2的框147指示。以下参考图3A和3B描述预处理的一个实施例。
一旦DOM树是所需形式,则树对齐组件120说明性地执行树对齐来对齐表示网页的DOM树。这由图2的框148指示。在该说明性实施例中,树对齐组件120是被用来对齐翻译等效物内容的随机DOM树对齐模型,该翻译等效物内容包括经验证的并行页面146对的DOM树中的双语文本块和超链接。以下参考图4更详细地描述树对齐步骤148。一旦对齐了DOM树并标识了并行文本块和超链接,则将并行文本块150提供给句子对齐组件122。
句子对齐组件122随后对齐并行文本块150中的句子并将其输出以供存储或供在另一系统中作为并行的对齐的句子106来使用。对齐来自并行文本块的这些句子可以用任何所需方式来完成且由图2的框152示出。在一示例性实施例中,利用并行网页之间的HTML结构相似性,并使用级联方法来对齐句子。首先,在该示例性实施例中,如上所述地对齐与DOM树节点相关联的文本块。随后,对于并行文本块的每一对,可以使用公知的句子对齐器来对齐句子。一种这样的句子对齐器对从一种语言到另一种语言的逐词翻译进行建模,而不考虑单词次序,并在最大似然性准则下,将该逐词翻译模型与表示不同语言的两个句子的长度的另一模型相组合。当然,也可使用其它类型的句子对齐。输出对齐的句子由图2的框154指示。
在将两个DOM树互相对齐之后,树对齐组件120还说明性地确定是否存在某些超链接。这由图2的框156指示。如果两个DOM树中没有对齐的超链接,则两个并行页面的处理完成。然而,如果对齐的DOM树中存在并行超链接,则这可被认为是到新的并行数据的锚。可以发现,使用两个对齐的DOM树中的并行超链接来引用并行的网页是标识并行的双语数据的通用且稳定的模式。因此,如果在图的框156处存在要跟随的并行超链接,则将那些并行超链接158提供给导航组件110且处理回退到图2的框140。导航组件110将系统100导航至与并行超链接158相关联的网页,并且下载组件112下载与该并行超链接相关联的页面作为可能并行的页面138。那些页面138随后被提交给并行性验证器组件118以供验证,等等。
图3A和3B示出在图2的框147处预处理DOM树的可任选步骤。众所周知,通过使用文档对象建模来表示网页,HTML文档的逻辑结构被表示为树,该树当然是分层的且是顺序的,其中每一节点都属于某种预定义的节点类型。某些这样的节点类型包括“文档(Document)”、“文档类型(DocumentType)”、“元素(Element)”、“文本(Text)”、“注释(Comment)”、“处理指令(ProcessingInstruction)”等。在所有这些类型的节点中,对于此处所讨论的一个实施例最重要的节点是对应于文档中的HTML标签的“元素”节点和对应于文档中的文本块的“文本”节点。
图3A示出表示HTML文档的常规DOM树200。可以看到,HTML文档中的节点包括头节点202和体节点204。头节点202具有对应于标题206和关于该标题的文本208的子节点。体节点204具有作为子DIV节点210的子节点,子DIV节点210自身具有一组子节点212和214。节点212具有子文本节点216,而节点214具有一串后代节点。节点214的第一后代是图像节点218,其后跟随替换节点220和文本节点222。
在预处理DOM树200的一说明性示例中,对齐组件120从文档模型树中消除除“元素”节点和“文本”节点之外的所有节点。另外,表示在不能显示图像时的文本替换的“替换alt)”属性由“文本”节点来表示。最后,“文本”(其必须是树中的叶节点)与其父“元素”节点一起被组合成单个节点,以使对齐模型的表示更简洁。
图3B示出从图3A的树200导出的预处理的树230。可以看到,文本节点208已与标题节点206组合在一起以形成组合节点232。类似地,树200的文本节点216及其父节点212被组合成树230中的组合节点234。另外,树200中的替换节点220被表示为文本节点并连同文本节点222一起与图像节点218组合以形成树230中的组合节点236。注意,尽管有这些微小的改变,但在当前描述中树230仍被称为DOM树。另外,这些改变仅是出于方便和简化模型的目的而做出的,而不是本发明构想必须做出的。同样,也可使用其它形式的文档树结构。
现在更详细地描述树对齐组件120在执行树对齐时的操作(如在图2的步骤148中)。根据一实施例,树对齐组件120包括将对齐定义为分层不变性过程和顺序次序不变性过程的树对齐模型。换言之,分层不变性过程意味着如果节点A与节点B相对齐,则节点A的子要么被删除要么与节点B的子相对齐。顺序次序不变性过程意味着如果节点A与节点B相对齐,则伴随节点A的兄弟节点必须或被删除或与伴随节点B的兄弟节点相对齐。因此,树中的节点的分层和顺序次序未被改变,虽然可以删除节点。
图4更详细地示出树对齐组件120的操作。如下所述,树的每一个都说明性地由多个不同的子树形成。这多个不同的子树被统称为子树的森林。树对齐组件通过迭代地寻找子树的最佳对齐并随后寻找包括这些子树的森林的最佳对齐来对齐表示两个网页的两个总体树。
在一实施例中,可以使用自底向上的方式。因此,在图4中,组件120从树底部处的子树开始并首先寻找表示两个网页的子树的最佳对齐。这由框300指示。下一步,给定在框300中找到的子树对齐,组件120寻找顺序子树的森林的最佳对齐。这由框302指示。基于任何所需的“优良度”准则(或优化准则),组件120随后确定在步骤300和302是否需要更多迭代。这由框304指示。迭代继续对齐子树和包含那些子树的森林,直到达到所需的对齐优良度为止。如上所述,该所需的总体对齐将标识并行文本块和超链接。如框306所示,组件120因此输出并行文本块和超链接。
为便于树对齐模型的更详细的演示,引入以下符号:给定HTML文档D,TD指的是对应的DOM树;
Figure A200780026359D00141
指的是TD的第i个节点(在此,节点的索引是按宽度优先的顺序的),且
Figure A200780026359D00142
指的是以
Figure A200780026359D00143
为根的子树,所以
Figure A200780026359D0014170546QIETU
指的是TD的根,且 T 1 D = T D ;
Figure A200780026359D00145
指的是包括以从
Figure A200780026359D00146
Figure A200780026359D00147
的各节点为根的子树的森林。
Figure A200780026359D00148
指的是节点
Figure A200780026359D00149
的文本;
Figure A200780026359D001410
指的是节点
Figure A200780026359D001411
的HTML标签;
Figure A200780026359D001412
指的是节点
Figure A200780026359D001413
的第j个子;
Figure A200780026359D001414
指的是
Figure A200780026359D001415
的从
Figure A200780026359D001416
Figure A200780026359D001417
的各子节点的连续序列;以
Figure A200780026359D001418
为根的子树被表示为
Figure A200780026359D001419
且以
Figure A200780026359D001420
为根的森林被表示为
Figure A200780026359D001421
最后,NULL指的是所引入的用于节点删除的空节点。
为适应DOM树的分层结构,定义了两个不同的翻译概率(该示例针对英语和法语,所以E表示英语而F表示法语):
Figure A200780026359D001422
其是将子树
Figure A200780026359D001423
翻译为子树
Figure A200780026359D001424
的概率;
Figure A200780026359D001425
其是将节点翻译为
Figure A200780026359D001427
的概率。
同样,
Figure A200780026359D001428
表示基于对齐A将森林
Figure A200780026359D001429
翻译为的概率。树对齐A被定义为从目标节点到源节点或空节点的映射。因此,Ai(或A[i,j])指的是子树
Figure A200780026359D001431
(或森林
Figure A200780026359D001432
)到法语子树(或森林)的映射模式。
给定两个HTML文档F(法语)和E(英语),树对齐任务被定义为搜索最大化以下概率的A:
Pr(A|TF,TE)∝Pr(TF|TE,A)Pr(A|TE)      等式1
其中Pr(A|TE)指的是给定TE时的对齐配置的先验知识。
通过引入表示在对齐配置中发生删除源或目标节点删除的概率的pd,对齐先验Pr(A|TE)可被假定为是以下二项式分布:
Pr ( A | T E ) ∝ ( 1 - p d ) L p d M           等式2
其中L是A中的非空对齐的计数,而M是A中TE节点删除的计数。
Pr(TF|TE,A)可被如下表示: Pr ( T F | T E , A ) = Pr ( T 1 F | T 1 E , A ) , 且取决于对齐配置A,
Figure A200780026359D00153
可被递归地计算如下:
如果
Figure A200780026359D00154
Figure A200780026359D00155
相对齐,且
Figure A200780026359D00156
的子与
Figure A200780026359D00157
的子相对齐,则:
Pr ( T l F | T i E , A ) = Pr ( N l F | N i E ) Pr ( N l F . TC [ 1 , K ] | N i E . TC [ 1 , K ′ ] , A )          等式3
其中K和K′分别是
Figure A200780026359D00159
Figure A200780026359D001510
的次数。
如果
Figure A200780026359D001511
被删除,并且
Figure A200780026359D001512
的子与
Figure A200780026359D001513
相对齐,则:
Pr ( T l F | T i E , A ) = Pr ( N l F | NULL ) Pr ( N l F . TC [ 1 , K ] | T i E , A )             等式4
其中K是
Figure A200780026359D001515
的次数。
如果
Figure A200780026359D001516
被删除,并且
Figure A200780026359D001517
Figure A200780026359D001518
的子相对齐,则:
Pr ( T l F | T i E , A ) = Pr ( T l F | T i E . TC [ 1 , K ] , A )                       等式5
其中K是
Figure A200780026359D001520
的次数。
为完成该对齐模型,需要估计
Figure A200780026359D001521
如上所述,仅具有未被改变的节点顺序次序的对齐配置才被认为是有效的。所以,可对应于A的以下三个对齐配置来递归地估计:
如果
Figure A200780026359D001523
Figure A200780026359D001524
相对齐,并且
Figure A200780026359D001525
Figure A200780026359D001526
相对齐,则:
Pr ( T [ m , n ] F | T [ i , j ] E , A ) = Pr ( N m F | N i E ) Pr ( T [ m + 1 , n ] F | T [ i + 1 , j ] E , A )               等式6
如果
Figure A200780026359D001528
被删除,并且
Figure A200780026359D001529
的子
Figure A200780026359D001530
Figure A200780026359D001531
相组合以与
Figure A200780026359D001532
相对齐,则:
Pr ( T [ m , n ] F | T [ i , j ] E , A ) = Pr ( N m F | NULL ) Pr ( N m F . TC [ 1 , K ] T [ m + 1 , n ] F | T [ i , j ] E , A )       等式7
其中K是
Figure A200780026359D001534
的次数。
如果
Figure A200780026359D001535
被删除,并且
Figure A200780026359D001536
的子
Figure A200780026359D001537
Figure A200780026359D001538
相组合以与相对齐,则:
Pr ( T [ m , n ] F | T [ i , j ] E , A ) = Pr ( N [ m , n ] F | N m F . TC [ 1 , K ] T [ i + 1 , j ] E , A )             等式8
其中K是
Figure A200780026359D00162
的次数。
最后,节点翻译概率被说明性地建模为 Pr ( N l F | N j E ) ≈ Pr ( N l F . l | N i E . l ) Pr ( N l F . t | N i E . t ) , 并且文本翻译概率Pr(tF|tE)通过对从英语到法语的不考虑单词次序的逐字翻译进行建模来建模。当然,也可使用其它模型。
在如此描述了该模型之后,必须估计该模型的参数。在一示例性实施例中,树对齐模型涉及三类参数,包括文本翻译概率Pr(tF|tE),其是将英语文本片段tE翻译为法语文本片段tF的概率;标签映射概率Pr(l|l′),其是两个标签相互映射的概率;以及上述节点删除概率pd。可以使用任何所需的和常规的参数估计技术。
还应注意,为实现以上参考图4描述的迭代对齐过程,可以使用自底向上的方式。可以理解,如果两棵树是最优地对齐的,则其子树的对齐必定也是最优的。因此,在解码过程中,可以应用动态编程技术来使用子树的最优树对齐以自底向上的方式来寻找最优树对齐。表1展示这种解码算法的伪代码。
表1
For i=|TF|到1(自底向上){
  For j=|TE|到1(自底向上){
       导出
Figure A200780026359D00164
Figure A200780026359D00165
之间的最佳对齐,并计算
       最佳对齐分数
        arg max A S A ( T i F . TC [ 1 , K i ] | T j E . TC [ 1 , K j ] ) } }
其中,|TF|和|TE|是TF和TE中节点的数目,Ki和Kj
Figure A200780026359D00168
的次数。
可以看到,移除所有布局信息(如HTML标签)并且只依赖于常规句子对齐的尝试标识并行web内容的常规方法可被改进。通过首先应用树对齐来对齐并行文本块,并随后使用更精细的对齐(如句子对齐)来从对齐的文本块中提取并行的句子,可以获得更好的性能。
图5示出了可在其上实现各实施例的合适计算系统环境400的示例。计算系统环境400仅为合适的操作环境的一个示例,并非旨在对所要求保护的主题的使用范围或功能提出任何局限。也不应该把计算环境400解释为对示例性操作环境400中示出的任一组件或其组合有任何依赖性或要求。
各实施例可用于各种其它通用或专用计算系统环境或配置。适合在各实施例中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型计算机、电话系统、包含上述系统或设备中的任一个的分布式计算环境等。
各实施例可在诸如程序模块等由计算机执行的计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。一些实施例被设计为在其中任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实施。在分布式计算环境中,程序模块位于包括存储器存储设备的本地和远程计算机存储介质中。
参考图5,用于实现一些实施例的示例性系统包括计算机410形式的通用计算设备。计算机410的组件可以包括,但不限于,处理单元420、系统存储器430和将包括系统存储器在内的各种系统组件耦合至处理单元420的系统总线421。系统总线421可以是几种类型的总线结构中的任何一种,包括存储器总线或存储控制器、外围总线、以及使用各种总线体系结构中的任一种的局部总线。作为示例,而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。
计算机410通常包括各种计算机可读介质。计算机可读介质可以是能由计算机410访问的任何可用介质,而且包含易失性、非易失性介质以及可移动和不可移动介质。作为示例而非局限,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机410访问的任何其它介质。通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并包括任意信息传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。以上的任何组合也应包括在计算机可读介质的范围内。
系统存储器430包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)431和随机存取存储器(RAM)432。基本输入/输出系统433(BIOS)包括如在启动时帮助在计算机410内的元件之间传输信息的基本例程,它通常储存在ROM 431中。RAM 432通常包含处理单元420可以立即访问和/或目前正在其上操作的数据和/或程序模块。作为示例而非局限,图5示出了操作系统434、应用程序435、其它程序模块436和程序数据437。
计算机410还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图5示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器441,从可移动、非易失性磁盘452中读取或向其写入的磁盘驱动器451,以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘456中读取或向其写入的光盘驱动器455。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器441通常由不可移动存储器接口,诸如接口440连接至系统总线421,磁盘驱动器451和光盘驱动器455通常由可移动存储器接口,诸如接口450连接至系统总线421。
上文讨论并在图5中示出的驱动器及其相关联的计算机存储介质为计算机410提供了计算机可读指令、数据结构、程序模块和其它数据的存储。在图5中,例如,硬盘驱动器441被示为存储操作系统444、应用程序445、其它程序模块446和程序数据447。注意,这些组件可以与操作系统434、应用程序435、其它程序模块436和程序数据437相同,也可以与它们不同。操作系统444、应用程序445、其它程序模块446和程序数据447在这里被标注了不同的标号是为了说明至少它们是不同的副本。
用户可以通过诸如键盘462、话筒463和定点设备461等输入设备将命令和信息输入至计算机410中,定点设备461诸如是鼠标、轨迹球或触摸垫。其它输入设备(未示出)可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口460连接至处理单元420,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器491或其它类型的显示设备也经由接口,诸如视频接口490连接至系统总线421。除监视器以外,计算机也可以包括其它外围输出设备,诸如扬声器497和打印机496,它们可以通过输出外围接口495连接。
计算机410使用到诸如远程计算机480等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机480可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且一般包括以上关于计算机410描述的许多或所有的元件。图5中所示的逻辑连接包括局域网(LAN)471和广域网(WAN)473,但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机410通过网络接口或适配器470连接至LAN 471。当在WAN联网环境中使用时,计算机410通常包括调制解调器472或用于通过诸如因特网等WAN 473建立通信的其它装置。调制解调器472可以是内置或外置的,它可以通过用户输入接口460或其它适当的机制连接至系统总线421。在网络化环境中,相对于计算机410所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例,而非限制,图5示出了远程应用程序485驻留在远程计算机480上。可以理解,所示的网络连接是示例性的,且可以使用在计算机之间建立通信链路的其它手段。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (20)

1.一种从可通过网络(104)访问的一个或多个较大语料库(102)中标识并行的双语语料库的方法,包括:
选择第一语言的第一数据子集和第二语言的第二数据子集(140);
获得对应于所述第一和第二数据子集的每一个的树结构(230)(147),每一树结构(230)都具有表示所述对应的数据子集的分层地和顺序地安排的节点(202-236);
根据分层地和顺序地不变的对齐来对齐所述对应于所述数据子集的每一个的树结构(230)(148);
基于所述树结构(230)的对齐(148)来标识所述数据子集的并行文本片段(150)(148);以及
输出所述并行文本片段(150)的指示(154)。
2.如权利要求1所述的方法,其特征在于,所述第一和第二数据子集包括具有到其它文档的超链接的第一和第二文档(138),并且所述方法还包括:
基于所述树结构(230)的对齐(148)来标识所述第一和第二文档(138)中的并行超链接(158)(156),所述并行超链接(158)分别链接到第一语言的后续文档和第二语言的后续文档。
3.如权利要求2所述的方法,其特征在于,还包括:
获得对应于所述后续文档的每一个的树结构(230);
对齐对应于所述后续文档的所述树结构(230)(148);以及
标识所述后续文档中的并行文本片段(150)(148)。
4.如权利要求3所述的方法,其特征在于,还包括:
标识所述后续文档中的并行超链接(158)(156)。
5.如权利要求4所述的方法,其特征在于,还包括:
递归地重复以下步骤:
获得对应于所述后续文档的每一个的树结构(230)(147);
对齐对应于所述后续文档的所述树结构(230)(148);
标识所述后续文档中的并行文本片段(150)(148);以及
标识所述后续文档中的并行超链接(158)(156)。
6.如权利要求1所述的方法,其特征在于,选择所述第一语言的第一数据子集和所述第二语言的第二数据子集包括:
访问来自给定网站的页面(132);
标识所述页面上的一组预定义触发单词中的一个或多个(136);以及
基于标识所述触发单词(136)从所述给定网站中选择第一和第二页面(134)(140)。
7.如权利要求6所述的方法,其特征在于,访问页面包括:
下载所述给定网站的根页面和链接到所述根页面的一级页面(132)。
8.如权利要求6所述的方法,其特征在于,选择所述第一数据子集和所述第二数据子集包括:
验证所述第一和第二页面之间的足够的并行性(142)。
9.如权利要求1所述的方法,其特征在于,获得树结构包括:
获得对应于所述数据子集的每一个的文档对象模型树(200)。
10.一种在第一和第二文档中标识并行的双语数据的方法,所述第一文档是第一语言的,而所述第二文档是第二语言的,所述方法包括:
分别获得代表所述第一和第二文档(146)的布局的文档树结构(230),所述文档树结构(230)包括对应于所述第一和第二文档(146)中的文本的节点;
通过互相对齐所述树结构中的节点同时保留所述文档树结构(230)中的所述节点的顺序和分层来对齐所述文档树结构(230)(148);以及
标识并行的双语文本片段(150)为对应于所述文档树结构(230)中的对齐的节点的文本片段(148)。
11.如权利要求10所述的方法,其特征在于,所述第一和第二文档(146)的每一个都包括网页,并且其中对齐文本包括对齐所标识的并行的双语文本片段(150)中的句子(106)(152)。
12.如权利要求10所述的方法,其特征在于,每一文档树结构(230)包括多个子树结构,并且其中对齐所述文档树结构(230)包括:
对齐所述子树结构中的节点(300)以获得子树对齐;以及
基于所述子树对齐来对齐所述多个子树结构(302)以对齐所述文档树结构(230)。
13.如权利要求12所述的方法,其特征在于,还包括:
迭代地重复对齐所述子树结构中的节点(300)的步骤(304)以获得子树对齐并基于所述子树对齐来对齐所述多个子树结构(302)。
14.如权利要求12所述的方法,其特征在于,对齐所述多个子树结构(300)包括:
对齐所述多个子树结构(300),同时维护所述多个子树结构相对于彼此的以及所述子树结构中的节点相对于彼此的分层和顺序。
15.如权利要求10所述的方法,其特征在于,获得文档树结构包括:
获得文档对象模型树结构(200);以及
通过将文本节点与所述文本节点的父节点进行组合并通过删除不在所述文档对象模型中的预定义节点子集中的节点来修正所述文档对象模型树结构(200)(147)。
16.一种并行语料库挖掘系统,包括:
被配置为接收网页(134)并基于所述网页标识可能并行的页面(138)的并行性检查组件(116);
被配置为接收所述可能并行的页面(138)并验证所述可能并行的页面(138)具有所需级别的并行性以获取经验证的页面(146)的验证组件(118);以及
被配置为对齐对应于所述经验证的页面(146)的树结构(230)以标识并行文本片段(150)和并行超链接(158)的树对齐组件(120)。
17.如权利要求16所述的系统,其特征在于,还包括:
被配置为对齐所标识的并行文本片段(150)中的句子的句子对齐组件(122)。
18.如权利要求16所述的系统,其特征在于,所述树结构(230)具有分层地且顺序地安排的节点,并且其中所述树对齐组件(120)被配置为以顺序地不变的且分层地不变的对齐来对齐所述树结构(230)。
19.如权利要求18所述的系统,其特征在于,所述树结构(230)每一个都包括由多个子树依赖性结构形成的总体树结构(230),并且其中所述树对齐组件(120)被配置为迭代地计算对齐所述总体树结构(230)中的子树依赖性结构的概率,并基于所计算的对齐所述子树依赖性结构的概率来计算对齐所述总体树结构(230)的概率。
20.如权利要求16所述的系统,其特征在于,所述并行超链接(158)链接到页面,并且其中所述系统被配置为递归地将所述超链接(158)所链接的页面标识为可能并行的页面(138)并将所述可能并行的页面(138)提交给所述并行性验证组件(118)。
CNA2007800263594A 2006-07-10 2007-06-28 对齐分层和顺序文档树以标识并行数据 Pending CN101490666A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/483,941 US7805289B2 (en) 2006-07-10 2006-07-10 Aligning hierarchal and sequential document trees to identify parallel data
US11/483,941 2006-07-10

Publications (1)

Publication Number Publication Date
CN101490666A true CN101490666A (zh) 2009-07-22

Family

ID=38920078

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800263594A Pending CN101490666A (zh) 2006-07-10 2007-06-28 对齐分层和顺序文档树以标识并行数据

Country Status (6)

Country Link
US (2) US7805289B2 (zh)
EP (1) EP2038767A4 (zh)
JP (1) JP2009543255A (zh)
CN (1) CN101490666A (zh)
CA (1) CA2654088A1 (zh)
WO (1) WO2008013650A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667177B (zh) * 2009-09-23 2011-10-26 清华大学 双语文本的对齐方法及装置
CN103329122A (zh) * 2011-01-18 2013-09-25 苹果公司 使用多个表示的文档存储
US9063911B2 (en) 2009-01-02 2015-06-23 Apple Inc. Identification of layout and content flow of an unstructured document
CN110674082A (zh) * 2019-09-24 2020-01-10 北京字节跳动网络技术有限公司 移除在线文档的方法、装置、电子设备及计算机可读介质

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
WO2008083503A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US20100153569A1 (en) * 2007-03-09 2010-06-17 Ghost, Inc. System and Method for a Virtual Hosted Operating System
US7765236B2 (en) * 2007-08-31 2010-07-27 Microsoft Corporation Extracting data content items using template matching
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8630972B2 (en) * 2008-06-21 2014-01-14 Microsoft Corporation Providing context for web articles
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US8543580B2 (en) * 2008-12-23 2013-09-24 Microsoft Corporation Mining translations of web queries from web click-through data
EP2211277A1 (en) * 2009-01-19 2010-07-28 BRITISH TELECOMMUNICATIONS public limited company Method and apparatus for generating an integrated view of multiple databases
US20110029899A1 (en) * 2009-08-03 2011-02-03 FasterWeb, Ltd. Systems and Methods for Acceleration and Optimization of Web Pages Access by Changing the Order of Resource Loading
WO2011035455A1 (en) * 2009-09-25 2011-03-31 Yahoo! Inc. Acquisition of out-of-vocabulary translations by dynamically learning extraction rules
US9208249B2 (en) * 2009-09-30 2015-12-08 Microsoft Technology Licensing, Llc Profiler for page rendering
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
US8271869B2 (en) 2010-10-08 2012-09-18 Microsoft Corporation Identifying language translations for source documents using links
US20120101721A1 (en) * 2010-10-21 2012-04-26 Telenav, Inc. Navigation system with xpath repetition based field alignment mechanism and method of operation thereof
US9471565B2 (en) 2011-07-29 2016-10-18 At&T Intellectual Property I, L.P. System and method for locating bilingual web sites
KR101449551B1 (ko) * 2011-10-19 2014-10-14 한국전자통신연구원 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
US9779087B2 (en) * 2013-12-13 2017-10-03 Google Inc. Cross-lingual discriminative learning of sequence models with posterior regularization
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9530161B2 (en) * 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
CN104657351A (zh) * 2015-02-12 2015-05-27 中国科学院软件研究所 双语对齐语料的加工方法及装置
US10545920B2 (en) * 2015-08-04 2020-01-28 International Business Machines Corporation Deduplication by phrase substitution within chunks of substantially similar content
US9959271B1 (en) 2015-09-28 2018-05-01 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
CN105677764B (zh) * 2015-12-30 2020-05-08 百度在线网络技术(北京)有限公司 信息提取方法和装置
CN105808530B (zh) * 2016-03-23 2019-11-08 苏州大学 一种统计机器翻译中的翻译方法和装置
US20180260389A1 (en) * 2017-03-08 2018-09-13 Fujitsu Limited Electronic document segmentation and relation discovery between elements for natural language processing
CN108829801B (zh) * 2018-06-06 2020-11-20 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2272091B (en) 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
WO2000072502A1 (de) 1999-05-22 2000-11-30 Sc-Info+Inno Gmbh+Co. Verfahren zum verifizieren der unversehrtheit und urheberschaft sowie zum ver- und entschlüsseln von texten
US7757097B2 (en) 1999-09-03 2010-07-13 Purdue Research Foundation Method and system for tamperproofing software
US6812941B1 (en) 1999-12-09 2004-11-02 International Business Machines Corp. User interface management through view depth
CN1174332C (zh) * 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
US6519580B1 (en) 2000-06-08 2003-02-11 International Business Machines Corporation Decision-tree-based symbolic rule induction system for text categorization
US7065652B1 (en) 2000-06-21 2006-06-20 Aladdin Knowledge Systems, Ltd. System for obfuscating computer code upon disassembly
US7016829B2 (en) 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7146358B1 (en) * 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US20030233542A1 (en) 2002-06-18 2003-12-18 Benaloh Josh D. Selectively disclosable digital certificates
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US7607086B2 (en) 2003-11-18 2009-10-20 Microsoft Corporation System and method for pre-processing input events
US7233931B2 (en) 2003-12-26 2007-06-19 Lee Shih-Jong J Feature regulation for hierarchical decision learning
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US7891008B2 (en) 2004-06-12 2011-02-15 Microsoft Corporation Profile protection
US20060026438A1 (en) 2004-07-29 2006-02-02 Microsoft Corporation Anonymous aliases for on-line communications
US7551572B2 (en) * 2005-10-21 2009-06-23 Isilon Systems, Inc. Systems and methods for providing variable protection
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9063911B2 (en) 2009-01-02 2015-06-23 Apple Inc. Identification of layout and content flow of an unstructured document
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document
CN101667177B (zh) * 2009-09-23 2011-10-26 清华大学 双语文本的对齐方法及装置
CN103329122A (zh) * 2011-01-18 2013-09-25 苹果公司 使用多个表示的文档存储
US8959116B2 (en) 2011-01-18 2015-02-17 Apple Inc. Storage of a document using multiple representations
CN103329122B (zh) * 2011-01-18 2015-07-08 苹果公司 使用多个表示的文档存储
CN110674082A (zh) * 2019-09-24 2020-01-10 北京字节跳动网络技术有限公司 移除在线文档的方法、装置、电子设备及计算机可读介质
CN110674082B (zh) * 2019-09-24 2023-03-14 北京字节跳动网络技术有限公司 移除在线文档的方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
JP2009543255A (ja) 2009-12-03
US8073679B2 (en) 2011-12-06
CA2654088A1 (en) 2008-01-31
EP2038767A2 (en) 2009-03-25
WO2008013650A2 (en) 2008-01-31
US20080010056A1 (en) 2008-01-10
US7805289B2 (en) 2010-09-28
EP2038767A4 (en) 2012-06-13
US20100286978A1 (en) 2010-11-11
WO2008013650A3 (en) 2008-03-27

Similar Documents

Publication Publication Date Title
CN101490666A (zh) 对齐分层和顺序文档树以标识并行数据
CN106682192B (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
US8364462B2 (en) Cross lingual location search
US8589366B1 (en) Data extraction using templates
US11222053B2 (en) Searching multilingual documents based on document structure extraction
Shi et al. A dom tree alignment model for mining parallel data from the web
US20180293302A1 (en) Natural question generation from query data using natural language processing system
CN108959559B (zh) 问答对生成方法和装置
US10970466B2 (en) Inserting links that aid action completion
US20080019281A1 (en) Reuse of available source data and localizations
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
CN104102721A (zh) 信息推荐方法和装置
US9514113B1 (en) Methods for automatic footnote generation
US20080168049A1 (en) Automatic acquisition of a parallel corpus from a network
US20220292160A1 (en) Automated system and method for creating structured data objects for a media-based electronic document
GB2569858A (en) Constructing content based on multi-sentence compression of source content
US10558631B2 (en) Enhancing textual searches with executables
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
US20180293508A1 (en) Training question dataset generation from query data
AT&T
US11645472B2 (en) Conversion of result processing to annotated text for non-rich text exchange
Nielsen et al. Environmental impact assessment reports in Wikidata and a Wikibase
CN107168997A (zh) 基于人工智能的网页原创评估方法、装置及存储介质
KR20230036792A (ko) 자연어 처리 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090722