CN103714055A

CN103714055A - 从图片中自动提取双语词典的方法及装置

Info

Publication number: CN103714055A
Application number: CN201310746535.9A
Authority: CN
Inventors: 王海峰; 马艳军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2014-04-09
Anticipated expiration: 2033-12-30
Also published as: CN103714055B

Abstract

本发明提出一种从图片中自动提取双语词典的方法及装置，其中，从图片中自动提取双语词典的方法包括：分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注，根据第一语言图片语义标注器和第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对；以及采用最大期望（EM）算法对生成的双语句对进行词对齐，提取出双语词典词条。本发明实施例，通过生成至少两个双语句对，采用EM算法对双语句对进行词对齐，从而可以从图片中自动提取出双语词典词条，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

Description

从图片中自动提取双语词典的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种从图片中自动提取双语词典的方法及装置。

背景技术

互联网技术的发展让我们的知识面更加广阔，获取的知识也日益丰富。不过问题也随之而来，有些网络只有详尽的英文或者其他外文资料而没有我们熟悉的汉语资料，这就给我们工作和生活带来极大的不便。

目前网络中有很多翻译系统，这些翻译系统可以通过双语词典为我们提供翻译服务，即利用双语词典将一种我们不熟悉的语言翻译成我们熟悉的语言。而双语词典对于一个翻译系统而言非常重要。

现有技术中一般利用双语文本（如联合国用多种语言发布的文档）或双语网页（如多种语言的网站）来获取双语句对，并双语从句对中抽取双语词典。

由此可见，现有双语词典的生成主要依赖双语文本和网页资源。而随着信息技术的快速发展，信息载体多种多样，包括文字、图片和多媒体等，其中，图片具有包含数据量大、表现形式丰富形象等特点，因而作为信息载体的图片应用范围越来越广，如果能从图片中抽取出双语词典词条，将会极大地丰富和完善双语词典，因此，迫切需要提供一种可以从图片中提取双语词典的技术方案。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种从图片中自动提取双语词典的方法。该方法可以从图片中自动提取出双语词典词条，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

本发明的第二个目的在于提出一种从图片中自动提取双语词典的装置。

为了实现上述目的，本发明第一方面实施例的从图片中自动提取双语词典的方法，包括以下步骤：

分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注，根据第一语言图片语义标注器和第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对；以及

采用最大期望EM算法对生成的双语句对进行词对齐，提取出双语词典词条。

本发明实施例的从图片中自动提取双语词典的方法，通过生成多个双语句对，然后采用EM算法对生成的双语句对进行词对齐，从而可以从图片中自动提取出双语词典，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

为了实现上述目的，本发明第二方面实施例的从图片中自动提取双语词典的装置，包括：生成模块以及对齐提取模块。

本发明实施例的从图片中自动提取双语词典的装置，通过生成模块生成至少两个双语句对，通过对齐提取模块采用EM算法对双语句对进行词对齐，从而可以从图片中自动提取出双语词典词条，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的从图片中自动提取双语词典的方法的流程图；

图2a是根据本发明一个实施例的图片示意图；

图2b是根据本发明另一个实施例的图片示意图；

图2c是根据本发明又一个实施例的图片示意图；

图3是根据本发明一个实施例的采用第一EM算法提取双语词典的方法的流程图；

图4是根据本发明一个实施例的采用第二EM算法提取双语词典的方法的流程图；

图5是根据本发明另一个实施例的从图片中自动提取双语词典的方法的流程图；

图6是根据本发明一个实施例的从图片中自动提取双语词典的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述本发明实施例的从图片中自动提取双语词典的方法及装置。

图1是根据本发明一个实施例的从图片中自动提取双语词典的方法的流程图。

如图1所示，从图片中自动提取双语词典的方法包括以下步骤：

S101，分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注，根据第一语言图片语义标注器和第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。

在本发明的实施例中，可以采用不同语言的图片语义标注器例如第一语言图片语义标注器和第二语言图片语义标注器将一副图片转换为对应语言语义标签，也就是反应该图片内容的多语言词语列表。由于标注方法的不同，不同语言的图片语义标注器所标记出的语义标签并非一一对应。比如，对于图片G，其对应的中文和英文语义标签分别为C_G={c₁,c₂,c₃,…,e_m}和E_G={e₁,e₂,e₃,…,e_n}，那么<C_G,E_G>就是一个双语句对。每个图片能够产生一个由语义标签构成的双语句对，利用大量图片可以生成海量的双语句对。

其中，图片语义标注器可以按顺序比如按照从左到右或者从上到下的顺序输出双语句对，也可以无序输出双语句对，生成由语义标签构成的双语句对。

例如，分别采用中文图片语义标注器和英文图片语义标注器对图2a所示的图片进行标注，获得的包含中文语义标签和中文语义标签的双语句对为：

中文语义标签：道路黄色的落叶树木椅子

英文语义标签：“path”“leaves”“tree”

由于中英文的图片标注器存在标注效果的差异，图片中标出的实体不一定完全匹配，例如英文图片标注器没有标出“chair”。

同样地，分别采用中文图片语义标注器和英文图片语义标注器对图2b所示的图片进行标注，获得的包含中文语义标签和中文语义标签的双语句对为：

中文语义标签：绿色树木楼房草坪

英文语义标签：“rocks”“people”“green”“tree”

同样地，分别采用中文图片语义标注器和英文图片语义标注器对图2c所示的图片进行标注，获得的包含中文语义标签和中文语义标签的双语句对为：

中文语义标签：绿色草坪树木

英文语义标签：“green”“grass”“trees”“sky”

需要说明的是，由于图2a-2c不是彩色图片，所以从图2a-2c中看不出颜色，但实际上与图2a-2c对应的图片是彩色图片，因此，可以显示出对应物体的颜色。

S102，采用最大期望（EM）算法对生成的双语句对进行词对齐，提取出双语词典词条。

在本发明的实施例中，当第一语言图片语义标注器和第二语言图片语义标注器的输出为无序输出时，可以采用第一EM算法对生成的双语句对进行词对齐。当第一语言图片语义标注器和第二语言图片语义标注器的输出为有序输出时，可以采用第二EM算法对生成的双语句对进行词对齐。

其中，如图3所示，采用第一EM算法对生成的双语句对进行词对齐，提取出双语词典词条，包括如下步骤：

S301，获得两个双语句对中所有词语之间的对齐概率。

初始假设第一语言句子中的每个词语以等概率与第二语言句子中的每个词语对齐。

S302，判断对齐概率是否达到设定阈值，若达到，则执行步骤S303，若未达到，执行步骤S304。

由于该实施例是针对无序语义标签进行对齐，因此，不考虑第二语言词语的位置，通过在大规模双语句对上进行迭代，出现次数高的词对概率逐步增大，当对齐概率大于阈值时，则将其取出作为双语词典词条，其中，该阈值可以灵活设置，例如为0.8。

S303，提取出双语词典词条，操作结束。

S304，根据对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率。

在本实施例中，第一对齐概率公式为：

其中，e表示第一语言的句子，f表示第二语言的句子，E_i与F_Ei是互相对齐的词，a表示对齐方式，i表示第一语言的词语在第一语言的句子中的位置，m表示第一语言的句子长度。

S305，对各种对齐方式对应的概率进行归一化处理，对归一化处理结果进行计数统计。

S306，根据计数统计结果更新对齐概率，转向步骤S302。

上述实施例可以对包含无序语义标签的双语句对进行词对齐，从而提取出双语词典词条。

另外，如图4所示，采用第二EM算法对生成的双语句对进行词对齐，提取出双语词典词条，包括如下步骤：

S401，获得两个双语句对中所有词语之间的对齐概率。

S402，判断对齐概率是否达到设定阈值，若达到，则执行步骤S403，若未达到，执行步骤S404。

在该实施例中，该设定阈值可以根据需要设置，例如为0.9或0.8等。

S403，提取出双语词典词条，操作结束。

S404，根据对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率。

在本实施例中，第二对齐概率公式为：

其中，d(j|i,m,n)表示位置关系概率，e表示第一语言的句子，f表示第二语言的句子，E_i与F_Ei是互相对齐的词，a表示对齐方式，i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置，m、n分别表示第一语言的句子长度和表示第一语言的句子长度，0≤j≤n且i-w≤j≤i+w，w表示窗口大小。

由于该实施例是针对有序语义标签进行对齐，因此，第二对齐概率公式是在第一对齐概率公式的基础上增加了位置关系概率，同时，对j的取值范围进行限制：i-w≤j≤i+w，即i与j的位置差不能超过w；其中，w是窗口大小，即要求第一语言的词语对应到第二语言，例如中文的词语对应到英文，位置不会发生大幅变化，从而提高对齐准确率。

例如，包含中英文语义标签的双语句对为：

中文语义标签：道路黄色的落叶树木椅子

英文语义标签：“path”“leaves”“tree”

如果设窗口大小w=1，则限制“树木”不能与“path”对齐，因为树木是第3个词，而path是第1个词，两者位置相差2，大于窗口要求的大小1。

S405，对各种对齐方式对应的概率进行归一化处理，对归一化处理结果进行计数统计。

S406，根据计数统计结果更新对齐概率，转向步骤S402。

上述实施例可以有效地对包含有序语义标签的双语句对进行词对齐，从而提取出双语词典词条。

上述从图片中自动提取双语词典的方法实施例，通过生成多个双语句对，然后采用EM算法对生成的双语句对进行词对齐，从而可以从图片中自动提取出双语词典，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

图5是根据本发明另一个实施例的从图片中自动提取双语词典的方法的流程图，在该实施例中，采用的双语为语言A和语言B，假设语言A为中文，语言B为英文，当然，语言A和语言B还可以分别为其他语言。

如图5所示，从图片中自动提取双语词典的方法包括以下步骤：

S501，分别采用中文图片语义标注器和英文图片语义标注器对两个图片进行标注，生成两个包含中文语义标签和英文语义标签的双语句对。

在该实施例中，假设生成有语言A和语言B的两个句对：

第一个句对为：

语言A：b c

语言B：x y

第二个句对为：

语言A：b

语言B：y

S502，判断语义标签是否有序，若无序，执行步骤S503，若有序，执行步骤S504。

在本实施例中，假设语义标签是无序的。

S503，采用第一EM算法对生成的双语句对进行词对齐，转向步骤S505。

采用第一EM算法对生成的双语句对进行词对齐可以包括以下步骤：

S5031，均匀设置词语之间的对齐概率。

在本实施例中，设置后的对齐概率为：

t(x|b)=1/2

t(y|b)=1/2

t(x|c)=1/2

t(y|c)=1/2

其中，t(x|b)表示x和b的对齐概率，t(y|b)表示y和b的对齐概率，t(x|c)表示x和c的对齐概率，t(y|c)表示y和c的对齐概率。

S5032，计算对齐概率

其中e是语言A的句子，f是语言B的句子，E_i与F_Ei是互相对齐的词，a表示对齐方式，如下面连线所示。

在本实施例中，当b与x对齐，c与y对齐时，P(a,f|e)=1/2*1/2=1/4；当b与y对齐，c与x对齐时，P(a,f|e)=1/2*1/2=1/4；当b与y对齐时，P(a,f|e)=1/2。

S5033，对P(a,f|e)进行归一化处理，得到P(a|e,f)=P(a,f|e)/ΣP(a,f|e)。

在本实施例中，当b与x对齐，c与y对齐时，P(a|e,f)=1/4/2/4=1/2；当b与y对齐，c与x对齐时，P(a|e,f)=1/4/2/4=1/2；当b与y对齐时，P(a|e,f)=1/2/1/2=1。

S5034，进行计数统计。

S5034，更新对齐概率，转向步骤S5032，直至部分对齐概率达到预定阈值。

在本实施例中，更新后的对齐概率为：

t(x|b)=1/2/4/2=1/4，t(y|b)=3/2/4/2=3/4，t(x|c)=1/2/1=1/2，t(y|c)=1/2/1=1/2。

根据更新后的对齐概率计算P(a,f|e)，具体地，当b与x对齐，c与y对齐时，P(a,f|e)=1/4*1/2=1/8；当b与y对齐，c与x对齐时，P(a,f|e)=3/4*1/2=3/8；当b与y对齐时，P(a,f|e)=3/4。

然后计算P(a|e,f)，具体地，当b与x对齐，c与y对齐时，P(a|e,f)=1/4；当b与y对齐，c与x对齐时，P(a|e,f)=1/4/2/4=3/4；当b与y对齐时，P(a|e,f)=1。

紧接着进行计数统计，具体地，tc(x|b)=1/4，tc(y|b)=3/4+1=7/4，tc(x|c)=3/4，tc(y|c)=1/4。

然后进行对齐概率更新，具体地，t(x|b)=1/8，t(y|b)=7/8，t(x|c)=3/4，t(y|c)=1/4。

再次重复执行上述步骤S5032-S5035，直至t(x|b)=0.0001，t(y|b)=0.9999，t(x|c)=0.9999，t(y|c)=0.0001。

S504，采用第二EM算法对生成的双语句对进行词对齐。

S505，提取出双语词典词条。

在本实施例中，提取出的双语词典词条为：b和y，c和x，即可以将y翻译b，x翻译成c。

上述从图片中自动提取双语词典的方法实施例，通过生成两个双语句对，然后采用EM算法对生成的双语句对进行词对齐，从而可以从图片中自动提取出双语词典词条，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

如图6所示，从图片中自动提取双语词典的装置包括生成模块610和对齐提取模块620，其中：

生成模块610用于分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注，根据上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对；对齐提取模块620用于采用最大期望EM算法对生成的上述双语句对进行词对齐，提取出双语词典词条。

具体地，上述生成模块610可以根据上述第一语言图片语义标注器和上述第二语言图片语义标注器的有序或无序输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。

当上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出为无序输出时，上述对齐提取模块620可采用第一EM算法对生成的上述双语句对进行词对齐，具体实现过程包括：获得两个双语句对中所有词语之间的对齐概率；判断上述对齐概率是否达到设定阈值，若达到，则提取出双语词典词条，若未达到，则根据上述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率；对各种对齐方式对应的概率进行归一化处理，对归一化处理结果进行计数统计；根据计数统计结果更新上述对齐概率，重复执行上述判断上述对齐概率是否达到设定阈值的操作。其中，上述第一对齐概率公式为：e表示第一语言的句子，f表示第二语言的句子，E_i与F_Ei是互相对齐的词，a表示对齐方式，i表示第一语言的词语在第一语言的句子中的位置，m表示第一语言的句子长度。详细的实现过程可参见图1、图3和图5，此处不赘述。

同样地，当上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出为有序输出时，上述对齐提取模块620可采用第二EM算法对生成的上述双语句对进行词对齐，具体实现过程包括：获得两个双语句对中所有词语之间的对齐概率；判断上述对齐概率是否达到设定阈值，若达到，则提取出双语词典词条，若未达到，则根据上述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率；对各种对齐方式对应的概率进行归一化处理，对归一化处理结果进行计数统计；根据计数统计结果更新上述对齐概率，重复执行上述判断上述对齐概率是否达到设定阈值的操作。其中，上述第二对齐概率公式为：

d(j|i,m,n)表示位置关系概率，e表示第一语言的句子，f表示第二语言的句子，E_i与F_Ei是互相对齐的词，a表示对齐方式，i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置，m、n分别表示第一语言的句子长度和表示第一语言的句子长度，0≤j≤n且i-w≤j≤i+w，w表示窗口大小。详细的实现过程可参见图1、图4和图5，此处不赘述。

上述从图片中自动提取双语词典的装置实施例，通过生成模块生成至少两个双语句对，通过对齐提取模块采用EM算法对双语句对进行词对齐，从而可以从图片中自动提取出双语词典词条，而不需要依赖双语文本和网页资源，且实现简单、准确率高。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种从图片中自动提取双语词典的方法，其特征在于，包括：

分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注，根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对；以及

采用最大期望EM算法对生成的所述双语句对进行词对齐，提取出双语词典词条。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对，包括：

根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。

3.如权利要求1所述的方法，其特征在于，所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括：

当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时，采用第一EM算法对生成的所述双语句对进行词对齐；或者

当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输出时，采用第二EM算法对生成的所述双语句对进行词对齐。

4.如权利要求3所述的方法，其特征在于，所述采用第一EM算法对生成的所述双语句对进行词对齐，提取出双语词典词条，包括：

获得两个双语句对中所有词语之间的对齐概率；

判断所述对齐概率是否达到设定阈值，若达到，则提取出双语词典词条，若未达到，则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率；对各种对齐方式对应的概率进行归一化处理，对归一化处理结果进行计数统计；根据计数统计结果更新所述对齐概率，重复执行所述判断所述对齐概率是否达到设定阈值的操作。

5.如权利要求4所述的方法，其特征在于，所述第一对齐概率公式为：

6.如权利要求3所述的方法，其特征在于，所述采用第二EM算法对生成的所述双语句对进行词对齐，提取出双语词典词条，包括：

获得两个双语句对中所有词语之间的对齐概率；

判断所述对齐概率是否达到设定阈值，若达到，则提取出双语词典词条，若未达到，则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率；对各种对齐方式对应的概率进行归一化处理，对归一化处理结果进行计数统计；根据计数统计结果更新所述对齐概率，重复执行所述判断所述对齐概率是否达到设定阈值的操作。

7.如权利要求6所述的方法，其特征在于，所述第二对齐概率公式为：

8.一种从图片中自动提取双语词典的装置，其特征在于，包括：

生成模块，用于分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注，根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出，生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对；以及

对齐提取模块，用于采用最大期望EM算法对生成的所述双语句对进行词对齐，提取出双语词典词条。

9.如权利要求8所述的装置，其特征在于，所述生成模块，具体用于：

10.如权利要求8所述的装置，其特征在于，所述对齐提取模块，具体用于：

11.如权利要求10所述的装置，其特征在于，所述对齐提取模块，具体用于：

获得两个双语句对中所有词语之间的对齐概率；

12.如权利要求11所述的装置，其特征在于，所述第一对齐概率公式为：

13.如权利要求10所述的装置，其特征在于，所述对齐提取模块，具体用于：

获得两个双语句对中所有词语之间的对齐概率；

14.如权利要求13所述的装置，其特征在于，所述第二对齐概率公式为：