CN102375824A - 获取内容彼此相对应的多种语言文本的装置和方法 - Google Patents
获取内容彼此相对应的多种语言文本的装置和方法 Download PDFInfo
- Publication number
- CN102375824A CN102375824A CN2010102535050A CN201010253505A CN102375824A CN 102375824 A CN102375824 A CN 102375824A CN 2010102535050 A CN2010102535050 A CN 2010102535050A CN 201010253505 A CN201010253505 A CN 201010253505A CN 102375824 A CN102375824 A CN 102375824A
- Authority
- CN
- China
- Prior art keywords
- key images
- expansion
- text
- key
- multilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
公开了一种用于获取内容彼此相对应的多种语言文本的装置,包括:关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和文本获取单元,其被配置为确定预定的信息源中与该关键图像相匹配的关键图像匹配信息,并根据预定规则从该关键图像匹配信息提取得到内容彼此相对应的多种语言文本。还公开一种用于获取内容彼此相对应的多种语言文本的方法。根据本发明实施例的解决方案可以改善所获取的多种语言对齐文本的精确度,此外还能够提高获取多种语言对齐文本的效率。
Description
技术领域
本发明总体上涉及信息处理的技术领域,更具体地说,涉及一种获取内容彼此相对应的多种语言文本的装置和方法。
背景技术
伴随着信息技术的持续迅猛发展,信息的种类和内容等也极大地丰富起来。内容相同或者类似的信息往往会以多种不同语言的形式出现在不同的信息源(例如网站,数据库等)中。有些情况下需要汇集内容相同或者类似的多种语言的文本信息,以便进行后续的一些分析和处理,例如进行统计机器翻译,构建特定的数据库等等。在下面的描述中,为了简便起见,将内容相同或类似的多种语言的文本称为“内容彼此相对应的多种语言文本”或者简称为“多种语言对齐文本”,其中,“对齐”指这些文本的内容是相同的或类似的,即,内容彼此相对应。
现有的方法在获取多种语言对齐文本时通常使用关键词作为检索信息,这种方法存在一些缺陷。例如,如何选择关键词存在困难,哪些关键词可以代表文本的内容难以确定,这使得最终获得的多种语言对齐文本精确度不高,例如,可能由于关键词选择得不适当而导致获得的多种语言文本的内容彼此自检相似程度不高。此外,在获取不同语言的文本时,需要把关键词翻译为需获取的语言后才可能进行检索,如果没有需获取语言的翻译知识则不能获得与该语言对应的文本。这大大限制了获取多种语言对齐文本的能力,降低了文本处理的效率。
发明内容
鉴于现有技术中存在的上述问题,需要提供一种能够提高多种语言对齐文本获取的效率的技术方案。
为了解决上述现有技术中提及的至少一个问题,根据本发明的各实施例的装置和方法通过利用与待获取的多种语言对齐文本相关的关键图像来获取多种语言对齐文本。由于图像信息的选择和获得不需要多种语言的翻译知识,且多种语言对齐文本在内容方面往往与相同的图像具有相关性,因此这种解决方案可以改善最终获取的多种语言对齐文本的精确度,即,确保所获得的多种语言文本在内容上是高度相关的。此外,由于不必将关键字翻译为所需语言而进行检索,因此这种解决方案还能够提高获取多种语言对齐文本的效率。
本发明的一个实施例提供一种用于获取内容彼此相对应的多种语言文本的装置,包括:
关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和
文本获取单元,其被配置为确定预定的信息源中与关键图像相匹配的关键图像匹配信息,并根据预定规则从该关键图像匹配信息提取得到内容彼此相对应的多种语言文本。
本发明的另一个实施例还提供一种用于获取内容彼此相对应的多种语言文本的方法,包括步骤:
生成与待获取的多种语言文本的内容相关的关键图像;
确定预定的信息源中与所生成的关键图像相匹配的关键图像匹配信息;和
根据预定规则从该关键图像匹配信息中提取得到内容彼此相对应的多种语言文本。
本发明的又一个实施例提供一种翻译设备,其配备有如上所述的用于获取内容彼此相对应的多种语言文本的装置,以便获得将由所述翻译设备进行翻译的、内容彼此相对应的多种语言文本。
本发明的又一个实施例提供一种存储有机器可读取的指令代码的程序产品,该指令代码由机器读取并执行时,可执行如上所述的获取内容彼此相对应的多种语言文本的方法。
本发明的又一个实施例提供一种承载有如上所述的程序产品的存储介质。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,使其相对于在依据本发明实际制造的示例性装置中的其它部件变得更大。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图2是示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图3是示出了根据本发明的又一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图4是示出了根据本发明的再一个实施例的获取内容彼此相对应的多种语言文本的装置的简化框图;
图5是示出了根据本发明的实施例的获取内容彼此相对应的多种语言文本的装置所执行的处理的一个具体示例的流程简图;
图6是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的方法的流程简图;
图7是示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的方法的流程简图;
图8是示出了根据本发明的又一个实施例的获取内容彼此相对应的多种语言文本的方法的流程简图;
图9是示出了根据本发明的再一个实施例的获取内容彼此相对应的多种语言文本的方法的流程简图;以及
图10是示出了可用于实施根据本发明的实施例的获取内容彼此相对应的多种语言文本的装置和方法的通用计算机系统的结构简化框图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1是示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的装置100的简化框图。如图所示,装置100包括关键图像生成单元110和文本获取单元120。关键图像生成单元110被配置为生成与待获取的多种语言文本的内容相关的关键图像。文本获取单元120被配置为确定预定的信息源中与关键图像相匹配的关键图像匹配信息,并根据预定规则从关键图像匹配信息提取得到内容彼此相对应的多种语言文本。
关键图像生成单元110可以通过各种适当的方式来生成关键图像。例如,如果存在待获取的内容彼此相对应的多种语言文本(即多种语言对齐文本)中某种语言的文本,则可从这种文本中包括的图像中选择与该文本的内容相关的图像作为关键图像。如果只知道与待获取多种语言对齐文本的内容相关的关键字,则可从利用该关键字检索得到的信息中选择关键图像。
至于选择与文本等信息的内容相关的关键图像的处理,例如可以采用如下方法。对文本进行语法分析以便抽取其中各种文本组成单元,例如词素等。对于图像则获得与之对应的文本信息。例如,如果图像是一副有关足球赛的图片,则从预定的语料库中抽取与该场景(即足球赛)相关的词素,诸如球场、球员、足球、球门、得分,等等。然后,将针对文本和针对图像获得的词素等进行匹配,满足预定的匹配度的则认为该图像是与该文本的内容相关的图像。当然,本领域技术人员也可以利用任何合适的现有方法来实现这一过程。例如,作者为Chong Wang,David Blei和LiFei-Fei(2009),名称为″Simultaneous Image Classification andAnnotation″,发表于Intl.Conf.on Computer Vision(CVPR)的文献中公开的方法。相关技术的介绍例如可以从http://en.wikipedia.org/wiki/Automatic_image_annotation获得。
一般地,在各种现有的信息源,例如各种网站、数据库等中,内容相同或者类似的文本往往与相同的图像关联在一起,因此,文本获取单元120通过利用关键图像生成单元110所生成的关键图,可以确定信息源中内容方面与该关键图像具有相关性的信息,或称为关键图像匹配信息。从这些关键图像匹配信息就可以提取得到内容彼此相对应的多种语言文本,即,多种语言对齐文本。这种提取根据实际情况可以采取各种预定规则,例如,可以从关键图像匹配信息中提取出与该关键图像距离最近的文本信息作为多种语言对齐文本。或者可以根据关键图像匹配信息的布局规律来提取多种语言对齐文本信息。例如,有些网页的布局规律是将图片置于相关文本内容的下方或者其他方位,则可根据这种布局规律从关键图像匹配信息中提取该关键图像下方或者上述的其他方位的文本信息来组成多种语言对齐文本。
关键图像生成单元110所生成的关键图像可以是一个或者更多个。在生成多个关键图像的情况下,文本获取单元120可以分别利用每一个关键图像执行与上述类似的处理,并且由每一次处理得到的多种语言文本组成最终的多种语言对齐文本。
容易理解,由于关键图像比关键字包含更多层面的信息,因此与待获取多种语言对齐文本的内容的相关性也就更高,以这种关键图像为基础获取的多种语言对齐文本的精确度将更高。此外,与利用关键字检索相比,利用关键图像来确定多种语言对齐文本无需各种语言的知识,使得多种语言对齐文本的获取过程更为便捷、高效。
图2示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的装置200的简化框图。装置200中的关键图像生成单元210包括关键字匹配确定子单元212和关键图像选择子单元216。关键字匹配确定子单元212根据与待获取的多种语言对齐文本的内容相关的关键字来确定预定信息源中与该关键字相匹配的关键字匹配信息。利用关键字来查找关键字匹配信息的过程可以通过各种现有的方法来完成,细节不再逐一描述。然后,关键图像选择子单元216从关键字匹配信息中选择出合适的关键图像。例如,可以从多条关键字匹配信息中选择出现频率最高的图像作为关键图像。或者,可以对关键字匹配信息中包括的图像进行聚类处理,再从聚类得到的图像中选择与待获取的多种语言对齐文本的内容最相关的图像作为关键图像。例如,可通过参照上述图1描述的选择与文本的内容相关的图像的各种方法来选择关键图像。
装置200中的文本获取单元220的配置以及操作例如可以与图1中的装置100中包括的文本获取单元120的相同,细节在此不再赘述。
在根据该实施例的装置200中,由于从通过关键字获得的关键字匹配信息中选择关键图像,相比于从预先得知的某一种语言的文本中选择关键图像,进一步扩充了关键图像的获取范围,使得有可能找到更精确地代表本文的内容的关键图像,有助于进一步提高最终获取的多种语言对齐文本的精确度。此外,
图3示出了根据本发明的又一个实施例的获取内容彼此相对应的多种语言文本的装置300的简化框图。与图1所示的装置100类似,装置300包括关键图像生产单元310和文本获取单元,此外还包括关键信息扩展单元330,其从由文本获取单元所320确定的关键图像匹配信息中选择与待获取的多种语言对齐文本的内容相关的关键图像。为了与关键图像生成单元310所生成的关键图像相区别,将由关键信息扩展单元330生成的关键图像称为“扩展的关键图像”。文本获取单元320进一步利用由该扩展的关键图像,确定预定的信息源中与该扩展的关键图像相匹配的、扩展的关键图像匹配信息,并从中提取内容与已经获取的多种语言对齐文本的内容相对应的、扩展的多种语言文本。下文将这种获取扩展的多种语言文本的处理称为“扩展的获取处理”。
装置300中的关键图像生成单元310和文本获取单元320的配置以及操作例如可以与图1中的装置100中包括的文本获取单元120的类似,细节在此不再赘述。
在根据该实施例的装置300中,由于利用扩展的关键图像再次进行获取多种语言对齐文本的处理,而且这种扩展的关键图像是从先前已经获得的关键图像匹配信息中选择因而相对于待获取的多种语言对齐文本具有更优的内容相关性,所以最终获得的多种语言对齐文本精确度将进一步提高。此外,获得的多种语言对齐文本的内容更丰富。
此外,本领域技术人员理解,上述的扩展的获取处理可以进行一次或者更多次。可以根据实际情况预先设定停止的条件,例如,如果这种扩展的获取处理进行了预定的次数则停止,或者,如果已经获得了足够量的多种语言对齐文本则停止这种扩展的获取处理。
图4示出了根据本发明的再一个实施例的获取内容彼此相对应的多种语言文本的装置400的简化框图。与图2所示的装置200类似,装置400包括关键图像生产单元410和文本获取单元420,之外还包括关键信息扩展单元430,其从由文本获取单元所确定的关键图像匹配信息中选择与待获取的多种语言文本的内容相关的关键字。为了与最初确定的与待获取多种语言对齐文本相关的关键字相区别,将由关键信息扩展单元430选择的关键字称为“扩展的关键字”。关键字匹配信息确定子单元412进一步利用该扩展的关键字来确定预定的信息源中与该扩展的关键字相匹配的、扩展的关键字匹配信息。关键图像选择子单元416则进一步从该扩展的关键字匹配信息中选择与待获取的多种语言文本对齐文本的内容相关的关键图像。为了与关键图像选择子单元416首次生成的关键图像相区别,将在这种情况下由关键图像选择子单元416基于扩展的关键字所生成的关键图像称为“扩展的关键图像”。文本获取单元420进一步利用该扩展的关键图像确定预定的信息源中与该扩展的关键图像相匹配的、扩展的关键图像匹配信息并从中提取内容与已经获取的多种语言对齐文本的内容相对应的、扩展的多种语言文本。下文将这种获取扩展的多种语言文本的处理称为“扩展的获取处理”。
与上述根据图3的装置300的情形类似,在根据该实施例的装置400中,由于利用扩展的关键字和扩展的关键图像再次进行获取多种语言对齐文本的处理,而且这种扩展的关键字和关键图像是基于先前已经获得的关键图像匹配信息来选择因而相对于待获取的多种语言对齐文本具有更优的内容相关性,所以最终获得的多种语言对齐文本精确度将进一步提高。此外,获得的多种语言对齐文本的内容更丰富。
类似地,上述这种扩展的获取处理可以进行一次或者更多次。可以根据实际情况预先设定停止的条件,例如,如果这种扩展的获取处理进行了预定的次数则停止,或者,如果已经获得了足够量的多种语言对齐文本则停止这种扩展的获取处理。
装置400中的关键图像生成单元410和文本获取单元420的配置以及操作例如可以与图2中的装置200中包括的关键图像生成单元210和文本获取单元220的类似,细节在此不再赘述。
图5示出了根据本发明各个实施例的获取内容彼此相对应的多种语言文本的装置所执行的处理500的一个具体示例的流程简图。如图所示,从信息502中提取与待获取的多种语言对齐文本的内容相关的关键图像506。信息502如上所述例如可以是预先存在的、待获取的多种语言对齐文本中某种语言的文本,或者是利用与待获取的多种语言对齐文本的内容相关的关键字而获得的关键字匹配信息。接着,基于该关键图像506确定预定的信息源(在该例中为互联网)中与该关键图像506匹配的信息508,例如,检索包含该关键图像506的网页。然后,从该信息508中提取得到多种语言对齐文本510。在该例子中,还可以从信息508中选择扩展的关键图像,并基于该扩展的关键图像再次执行确定与该扩展的关键图像匹配的扩展的关键图像匹配信息的处理、以及从该扩展的关键图像匹配信息提取扩展的多种语言对齐文本的处理,并将由此得到的扩展的多种语言对齐文本添加到先前获取的多种语言对齐文本中,以便形成最终的多种语言对齐文本。如上所述,这种通过扩展的关键图像获取扩展的多种语言对齐文本的处理可以执行一次或者多次,依据具体情况而定。例如,这种扩展处理可以通过上述图3中示出的装置300来执行。
当然,在可替选的例子中,还可以从信息508中选择扩展的关键字,基于该扩展的关键字获得扩展的关键图像,并利用该扩展的关键图像再次执行确定与该扩展的关键图像匹配的扩展的关键图像匹配信息的处理、以及从该扩展的关键图像匹配信息提取扩展的多种语言对齐文本的处理,并将由此得到的扩展的多种语言对齐文本添加到先前获取的多种语言对齐文本中,以便形成最终的多种语言对齐文本。同理,这种通过扩展的关键字获取扩展的多种语言对齐文本的处理也可以执行一次或者多次,依据具体情况而定。例如,这种扩展处理可以通过上述图4中示出的装置400来执行。
图6示出了根据本发明的一个实施例的获取内容彼此相对应的多种语言文本的方法600的流程简图。如图所示,方法600开始于S610。在步骤S620,生成与待获取的多种语言文本的内容相关的关键图像。在步骤S630,确定预定的信息源中与所生成的关键图像相匹配的关键图像匹配信息。在步骤S640,根据预定规则从关键图像匹配信息中提取得到内容彼此相对应的多种语言文本。该方法于S650结束。
根据该实施例的方法600的各步骤的处理例如可通过上述图1中示出的装置100来实现,并且可获得类似的技术益处。具体细节可参见上述针对图1的描述,在此不再赘述。
图7示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的方法700的流程简图。该方法700包括的步骤S730和S740的处理与图6中示出的步骤S630和S640的处理类似,细节在此不再逐一详述。其中步骤S720包括利用与待获取的多种语言对齐文本的内容相关的关键字来选择关键图像的子步骤S722和S726。根据该实施例的方法700的各步骤的处理例如可通过上述图2中示出的装置200来实现,并且可获得类似的技术益处。具体操作细节可参见上述针对图2的描述,在此不再赘述。
图8示出了根据本发明的再一个实施例的获取内容彼此相对应的多种语言文本的方法800的流程简图。如图所示,方法800中包括的步骤S820,S830和S840例如可以与图6和7中示出的对应步骤类似地执行。该方法800还包括由步骤S830-S860组成的扩展的获取处理。在该扩展的获取处理中,在步骤S860从已经获得的关键图像匹配信息(例如通过步骤S830获得)中选择扩展的关键图像,在步骤S830利用该扩展的关键图像确定扩展的关键图像匹配信息,然后在步骤S840从该扩展的关键图像匹配信息获取扩展的多种语言对齐文本。该扩展的多种语言对齐文本可被添加到先前已经获取的多种语言对齐文本中,以便形成最终的多种语言对齐文本。容易理解,这种扩展的获取处理可以执行一次或者循环地执行多次。在执行多次的情况下,可以在步骤S850判断是否停止这种扩展的获取处理,即,是否停止多种语言对齐文本的获取。例如,如果扩展的获取处理已经执行了预定的次数或者已经获取了足够量的多种语言对齐文本则结束这种扩展的获取处理。根据该实施例的方法800的各步骤的处理例如可通过上述图3中示出的装置300来实现,并且可获得类似的技术益处。具体操作细节可参见上述针对图3的描述,在此不再赘述。
图9示出了根据本发明的另一个实施例的获取内容彼此相对应的多种语言文本的方法900的流程简图。如图所示,方法900中包括的步骤S920,S930和S940例如可以与图6和7中示出的对应步骤类似地执行。该方法900还包括由步骤S920-960组成的扩展的获取处理。在该扩展的获取处理中,在步骤S960从已经获得的关键图像匹配信息(例如通过步骤S930获得)中选择扩展的关键字,在步骤S920通过该扩展的关键字选择扩展的关键图像。在步骤S930利用该扩展的关键图像确定扩展的关键图像匹配信息,然后在步骤S940从该扩展的关键图像匹配信息中提取扩展的多种语言对齐文本。该扩展的多种语言对齐文本可被添加到先前已经获取的多种语言对齐文本中,以便形成最终的多种语言对齐文本。容易理解,这种扩展的获取处理可以执行一次或者循环地执行多次。在执行多次的情况下,可以在步骤S950判断是否停止这种扩展的获取处理,即,是否停止多种语言对齐文本的获取。例如,如果扩展的获取处理已经执行了预定的次数或者已经获取了足够量的多种语言对齐文本则结束这种扩展的获取处理。根据该实施例的方法900的各步骤的处理例如可通过上述图4中示出的装置400来实现,并且可获得类似的技术益处。具体操作细节可参见上述针对图4的描述,在此不再赘述。
此外,可将如上述图1-5示出的本发明实施例的装置配备到翻译设备中,从而该翻译设备可执行获取内容彼此相对应的多种语言文本的处理,例如如上图6-9所示的处理,以便获得将由该翻译设备进行翻译的、内容彼此相对应的多种语言文本。这种翻译设备也应当被认为涵盖在本发明的保护范围之内。
上面已通过框图、流程图和/或实施例进行了详细描述,阐明了根据本发明的实施例的装置和/或方法的不同实施方式。当这些框图、流程图和/或实施例包含一个或多个功能和/或操作时,本领域的技术人员明白,这些框图、流程图和/或实施例中的各功能和/或操作可以通过各种硬件、软件、固件或实质上它们的任意组合而单独地和/或共同地实施。在一种实施方式中,本说明书中描述的主题的几个部分可通过特定用途集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成形式实现。然而,本领域的技术人员会认识到,本说明书中描述的实施方式的一些方面能够全部或部分地在集成电路中以在一个或多个计算机上运行的一个或多个计算机程序的形式(例如,以在一个或多个计算机系统上运行的一个或多个计算机程序的形式)、以在一个或多个处理器上运行的一个或多个程序的形式(例如,以在一个或多个微处理器上运行的一个或多个程序的形式)、以固件的形式、或以实质上它们的任意组合的形式等效地实施,并且,根据本说明书中公开的内容,设计用于本公开的电路和/或编写用于本公开的软件和/或固件的代码完全是在本领域技术人员的能力范围之内。
例如,上述图1-5中所示的用于获取内容彼此相对应的多种语言对齐文本的装置中各个组成模块、单元、子单元可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能。
图10是示出了可用来实现根据本发明实施例的同步检测装置和方法的通用计算机系统的结构简图。计算机系统1000只是一个示例,并非暗示对本发明的方法和装置的使用范围或者功能的局限。也不应将计算机系统1000解释为对示例性操作系统1000中示出的任一组件或其组合具有依赖或需求。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1703的程序执行各种处理。在RAM 1003中,还根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件也连接到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1009经由网络例如因特网执行通信处理。根据需要,驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上,使得从中读出的计算机程序可根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
因此,本发明还提出了一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的获取内容彼此相对应的多种语言对齐文本的方法。相应地,用于承载这种程序产品的上面列举的各种存储介质也包括在本发明的公开中。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而用于在这些特征、要素、步骤或组件之间进行标识。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
通过上面对本发明的实施例的描述可知,本发明涵盖的技术方案包括但不限于如下附记所描述的内容:
附记1.一种用于获取内容彼此相对应的多种语言文本的装置,包括:
关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和
文本获取单元,其被配置为确定预定的信息源中与所述关键图像相匹配的关键图像匹配信息,并根据预定规则从所述关键图像匹配信息提取得到内容彼此相对应的多种语言文本。
附记2.如附记1所述的装置,其中
所述关键图像生成单元包括:
关键字匹配信息确定子单元,其被配置为确定所述预定的信息源中与关键字匹配的关键字匹配信息,其中所述关键字与待获取的多种语言文本的内容相关;以及
关键图像选择子单元,其被配置为从所述关键字匹配信息中选择所述关键图像。
附记3.如附记2所述的装置,其中,所述关键图像选择子单元通过对所述关键字匹配信息中包含的图像进行聚类处理来选择关键图像。
附记4.如附记1所述的装置,还包括
关键信息扩展单元,其被配置为:
从由所述文本获取单元所确定的所述关键图像匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键图像;
其中
所述文本获取单元被配置为进一步利用由所述关键信息扩展单元所选择的所述扩展的关键图像,确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息,并根据预定规则从所述扩展的关键图像匹配信息提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本。
附记5.如附记2或3所述的装置,还包括
关键信息扩展单元,其被配置为:
从由所述文本获取单元所确定的所述关键图像匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键字;
其中
所述关键字匹配信息确定子单元被配置为进一步利用由所述关键信息扩展单元所选择的所述扩展的关键字,确定所述预定的信息源中与所述扩展的关键字相匹配的、扩展的关键字匹配信息;
所述关键图像选择子单元被配置为进一步从所述扩展的关键字匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键图像;以及
所述文本获取单元被配置为进一步利用所述扩展的关键图像确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息,并根据预定规则从所述扩展的关键图像匹配信息提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本。
附记6.一种用于获取内容彼此相对应的多种语言文本的方法,包括步骤:
生成与待获取的多种语言文本的内容相关的关键图像;
确定预定的信息源中与所生成的关键图像相匹配的关键图像匹配信息;和
根据预定规则从所述关键图像匹配信息中提取得到内容彼此相对应的多种语言文本。
附记7.如附记6所述的方法,其中
所述的生成关键图像的步骤包括下列子步骤:
利用与待获取的多种语言文本的内容相关的关键字来确定所述预定的信息源中与该关键字匹配的关键字匹配信息;以及
从所述关键字匹配信息中选择所述关键图像。
附记8.如附记7所述的方法,其中,所述的选择关键图像的子步骤通过对所述关键字匹配信息中包含的图像进行聚类处理来选择关键图像。
附记9.如附记6所述的方法,还包括
从通过所述的确定关键图像匹配信息的步骤所获得的关键图像匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键图像;以及
其中
所述的确定关键图像匹配信息的步骤进一步包括确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息;
所述的提取多种语言文本的步骤进一步包括根据预定规则从所述扩展的关键图像匹配信息中提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本;以及
重复地执行所述的选择扩展的关键图像的步骤、确定扩展的关键图像匹配信息的步骤和从所述扩展的关键图像匹配信息提取扩展的多语言文本的步骤预定的次数,并将每一次重复执行所生成的扩展的多种语言文本添加到先前已经获取的多种语言文本,以便得到最终的内容彼此相对应的多种语言文本。
附记10.如附记7或8所述的方法,还包括
从通过所述的确定关键图像匹配信息的步骤所获得的关键图像匹配信息中选择与待获取的多种语言文本的内容相关的、扩展的关键字;以及
其中
所述的确定关键字匹配信息的子步骤进一步包括利用所述扩展的关键字来确定所述预定的信息源中与所述扩展的关键字相匹配的、扩展的关键字匹配信息;
所述的选择关键图像的子步骤进一步包括从所述扩展的关键字匹配信息选择与待获取的多种语言文本的内容相关的、扩展的关键图像;
所述的确定关键图像匹配信息的步骤进一步包括确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息;
所述的提取多种语言文本的步骤进一步包括根据预定规则从所述扩展的关键图像匹配信息中提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本;以及
重复地执行所述的选择扩展的关键字的步骤、所述的利用扩展的关键字确定扩展的关键字匹配信息的子步骤、所述的从扩展的关键字匹配信息选择扩展的关键图像的子步骤、所述的确定扩展的关键图像匹配信息的步骤、以及所述的从扩展的关键图像匹配信息提取扩展的多种语言文本的步骤预定的次数,并将每一次重复执行所获取的扩展的多种语言文本添加到先前已经获取的多种语言文本,以便得到最终的内容彼此相对应的多种语言文本。
附记11.一种翻译设备,其配备有如附记1-5中任意一项所述的用于获取内容彼此相对应的多种语言文本的装置,以便获得将由所述翻译设备进行翻译的、内容彼此相对应的多种语言文本。
附记12.一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行如附记6-10中任一项所述的获取内容彼此相对应的多种语言文本的方法。
附记13.一种承载有如附记12所述的程序产品的存储介质。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
Claims (10)
1.一种用于获取内容彼此相对应的多种语言文本的装置,包括:
关键图像生成单元,其被配置为生成与待获取的多种语言文本的内容相关的关键图像;和
文本获取单元,其被配置为确定预定的信息源中与所述关键图像相匹配的关键图像匹配信息,并根据预定规则从所述关键图像匹配信息提取得到内容彼此相对应的多种语言文本。
2.如权利要求1所述的装置,其中
所述关键图像生成单元包括:
关键字匹配信息确定子单元,其被配置为确定所述预定的信息源中与关键字匹配的关键字匹配信息,其中所述关键字与待获取的多种语言文本的内容相关;以及
关键图像选择子单元,其被配置为从所述关键字匹配信息中选择所述关键图像。
3.如权利要求2所述的装置,其中,所述关键图像选择子单元通过对所述关键字匹配信息中包含的图像进行聚类处理来选择关键图像。
4.如权利要求1所述的装置,还包括
关键信息扩展单元,其被配置为:
从由所述文本获取单元所确定的所述关键图像匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键图像;
其中
所述文本获取单元被配置为进一步利用由所述关键信息扩展单元所选择的所述扩展的关键图像,确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息,并根据预定规则从所述扩展的关键图像匹配信息提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本。
5.如权利要求2或3所述的装置,还包括
关键信息扩展单元,其被配置为:
从由所述文本获取单元所确定的所述关键图像匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键字;
其中
所述关键字匹配信息确定子单元被配置为进一步利用由所述关键信息扩展单元所选择的所述扩展的关键字,确定所述预定的信息源中与所述扩展的关键字相匹配的、扩展的关键字匹配信息;
所述关键图像选择子单元被配置为进一步从所述扩展的关键字匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键图像;以及
所述文本获取单元被配置为进一步利用所述扩展的关键图像确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息,并根据预定规则从所述扩展的关键图像匹配信息提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本。
6.一种用于获取内容彼此相对应的多种语言文本的方法,包括步骤:
生成与待获取的多种语言文本的内容相关的关键图像;
确定预定的信息源中与所生成的关键图像相匹配的关键图像匹配信息;和
根据预定规则从所述关键图像匹配信息中提取得到内容彼此相对应的多种语言文本。
7.如权利要求6所述的方法,其中
所述的生成关键图像的步骤包括下列子步骤:
利用与待获取的多种语言文本的内容相关的关键字来确定所述预定的信息源中与该关键字匹配的关键字匹配信息;以及
从所述关键字匹配信息中选择所述关键图像。
8.如权利要求6所述的方法,还包括
从通过所述的确定关键图像匹配信息的步骤所获得的关键图像匹配信息中选择与待获取的多种语言文本的内容相关的扩展的关键图像;以及
其中
所述的确定关键图像匹配信息的步骤进一步包括确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息;
所述的提取多种语言文本的步骤进一步包括根据预定规则从所述扩展的关键图像匹配信息中提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本;以及
重复地执行所述的选择扩展的关键图像的步骤、确定扩展的关键图像匹配信息的步骤和从所述扩展的关键图像匹配信息提取扩展的多语言文本的步骤预定的次数,并将每一次重复执行所生成的扩展的多种语言文本添加到先前已经获取的多种语言文本,以便得到最终的内容彼此相对应的多种语言文本。
9.如权利要求7所述的方法,还包括
从通过所述的确定关键图像匹配信息的步骤所获得的关键图像匹配信息中选择与待获取的多种语言文本的内容相关的、扩展的关键字;以及
其中
所述的确定关键字匹配信息的子步骤进一步包括利用所述扩展的关键字来确定所述预定的信息源中与所述扩展的关键字相匹配的、扩展的关键字匹配信息;
所述的选择关键图像的子步骤进一步包括从所述扩展的关键字匹配信息选择与待获取的多种语言文本的内容相关的、扩展的关键图像;
所述的确定关键图像匹配信息的步骤进一步包括确定所述预定的信息源中与所述扩展的关键图像相匹配的、扩展的关键图像匹配信息;
所述的提取多种语言文本的步骤进一步包括根据预定规则从所述扩展的关键图像匹配信息中提取内容与已经获取的多种语言文本的内容相对应的、扩展的多种语言文本;以及
重复地执行所述的选择扩展的关键字的步骤、所述的利用扩展的关键字确定扩展的关键字匹配信息的子步骤、所述的从扩展的关键字匹配信息选择扩展的关键图像的子步骤、所述的确定扩展的关键图像匹配信息的步骤、以及所述的从扩展的关键图像匹配信息提取扩展的多种语言文本的步骤预定的次数,并将每一次重复执行所获取的扩展的多种语言文本添加到先前已经获取的多种语言文本,以便得到最终的内容彼此相对应的多种语言文本。
10.一种翻译设备,其配备有如权利要求1-5中任意一项所述的用于获取内容彼此相对应的多种语言文本的装置,以便获得将由所述翻译设备进行翻译的、内容彼此相对应的多种语言文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010253505.0A CN102375824B (zh) | 2010-08-12 | 2010-08-12 | 获取内容彼此相对应的多种语言文本的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010253505.0A CN102375824B (zh) | 2010-08-12 | 2010-08-12 | 获取内容彼此相对应的多种语言文本的装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102375824A true CN102375824A (zh) | 2012-03-14 |
CN102375824B CN102375824B (zh) | 2014-10-22 |
Family
ID=45794448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010253505.0A Expired - Fee Related CN102375824B (zh) | 2010-08-12 | 2010-08-12 | 获取内容彼此相对应的多种语言文本的装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102375824B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463591A (zh) * | 2016-06-02 | 2017-12-12 | 百度(美国)有限责任公司 | 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 |
CN112183122A (zh) * | 2020-10-22 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 文字识别方法和装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120478A1 (en) * | 2001-12-21 | 2003-06-26 | Robert Palmquist | Network-based translation system |
CN1979467A (zh) * | 2005-12-08 | 2007-06-13 | 国际商业机器公司 | 用于翻译的装置及方法 |
US20080243475A1 (en) * | 2007-03-16 | 2008-10-02 | Steven Scott Everhart | Web content translation system, method, and software |
CN101477520A (zh) * | 2009-01-16 | 2009-07-08 | 中兴通讯股份有限公司 | 识别互译方法、系统及具有该系统的电子产品 |
CN101751439A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于层次聚类的图像检索方法 |
CN102053991A (zh) * | 2009-10-30 | 2011-05-11 | 国际商业机器公司 | 用于多语言文档检索的方法及系统 |
-
2010
- 2010-08-12 CN CN201010253505.0A patent/CN102375824B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120478A1 (en) * | 2001-12-21 | 2003-06-26 | Robert Palmquist | Network-based translation system |
CN1979467A (zh) * | 2005-12-08 | 2007-06-13 | 国际商业机器公司 | 用于翻译的装置及方法 |
US20080243475A1 (en) * | 2007-03-16 | 2008-10-02 | Steven Scott Everhart | Web content translation system, method, and software |
CN101751439A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于层次聚类的图像检索方法 |
CN101477520A (zh) * | 2009-01-16 | 2009-07-08 | 中兴通讯股份有限公司 | 识别互译方法、系统及具有该系统的电子产品 |
CN102053991A (zh) * | 2009-10-30 | 2011-05-11 | 国际商业机器公司 | 用于多语言文档检索的方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463591A (zh) * | 2016-06-02 | 2017-12-12 | 百度(美国)有限责任公司 | 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 |
CN107463591B (zh) * | 2016-06-02 | 2020-12-11 | 百度(美国)有限责任公司 | 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统 |
CN112183122A (zh) * | 2020-10-22 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 文字识别方法和装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102375824B (zh) | 2014-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100721406B1 (ko) | 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법 | |
US9959340B2 (en) | Semantic lexicon-based input method editor | |
US20120030157A1 (en) | Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
CN109145110B (zh) | 标签查询方法和装置 | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US9830316B2 (en) | Content availability for natural language processing tasks | |
CN109815390B (zh) | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 | |
JP2016110587A (ja) | 圧縮プログラムおよび検索プログラム | |
CN110825840A (zh) | 词库扩充方法、装置、设备及存储介质 | |
CN113495874A (zh) | 信息处理装置和计算机可读取介质 | |
CN102375824B (zh) | 获取内容彼此相对应的多种语言文本的装置和方法 | |
US9720910B2 (en) | Using business process model to create machine translation dictionaries | |
US10643152B2 (en) | Learning apparatus and learning method | |
CN111783433A (zh) | 一种文本检索纠错方法和装置 | |
KR102261710B1 (ko) | 인공지능 기반의 다국어 관광 콘텐츠 관리 방법, 장치 및 컴퓨터-판독가능 기록 매체 | |
EP3012748A1 (en) | Information management device, and information management method | |
US11487817B2 (en) | Index generation method, data retrieval method, apparatus of index generation | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN104050156A (zh) | 用于提取最大名词短语的装置、方法以及电子设备 | |
US20170220585A1 (en) | Sentence set extraction system, method, and program | |
CN113761254A (zh) | 信息处理装置、信息处理方法和存储介质 | |
US10909154B2 (en) | Search system, search method and search program | |
US20230342385A1 (en) | Method for analyzing document for desired content and exracting same, electronic device employing method, and non-transitory storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20141022 Termination date: 20180812 |