CN103714055A - 从图片中自动提取双语词典的方法及装置 - Google Patents

从图片中自动提取双语词典的方法及装置 Download PDF

Info

Publication number
CN103714055A
CN103714055A CN201310746535.9A CN201310746535A CN103714055A CN 103714055 A CN103714055 A CN 103714055A CN 201310746535 A CN201310746535 A CN 201310746535A CN 103714055 A CN103714055 A CN 103714055A
Authority
CN
China
Prior art keywords
language
alignment
bilingual
sentence
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310746535.9A
Other languages
English (en)
Other versions
CN103714055B (zh
Inventor
王海峰
马艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310746535.9A priority Critical patent/CN103714055B/zh
Publication of CN103714055A publication Critical patent/CN103714055A/zh
Application granted granted Critical
Publication of CN103714055B publication Critical patent/CN103714055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种从图片中自动提取双语词典的方法及装置,其中,从图片中自动提取双语词典的方法包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望(EM)算法对生成的双语句对进行词对齐,提取出双语词典词条。本发明实施例,通过生成至少两个双语句对,采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。

Description

从图片中自动提取双语词典的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种从图片中自动提取双语词典的方法及装置。
背景技术
互联网技术的发展让我们的知识面更加广阔,获取的知识也日益丰富。不过问题也随之而来,有些网络只有详尽的英文或者其他外文资料而没有我们熟悉的汉语资料,这就给我们工作和生活带来极大的不便。
目前网络中有很多翻译系统,这些翻译系统可以通过双语词典为我们提供翻译服务,即利用双语词典将一种我们不熟悉的语言翻译成我们熟悉的语言。而双语词典对于一个翻译系统而言非常重要。
现有技术中一般利用双语文本(如联合国用多种语言发布的文档)或双语网页(如多种语言的网站)来获取双语句对,并双语从句对中抽取双语词典。
由此可见,现有双语词典的生成主要依赖双语文本和网页资源。而随着信息技术的快速发展,信息载体多种多样,包括文字、图片和多媒体等,其中,图片具有包含数据量大、表现形式丰富形象等特点,因而作为信息载体的图片应用范围越来越广,如果能从图片中抽取出双语词典词条,将会极大地丰富和完善双语词典,因此,迫切需要提供一种可以从图片中提取双语词典的技术方案。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种从图片中自动提取双语词典的方法。该方法可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
本发明的第二个目的在于提出一种从图片中自动提取双语词典的装置。
为了实现上述目的,本发明第一方面实施例的从图片中自动提取双语词典的方法,包括以下步骤:
分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及
采用最大期望EM算法对生成的双语句对进行词对齐,提取出双语词典词条。
本发明实施例的从图片中自动提取双语词典的方法,通过生成多个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
为了实现上述目的,本发明第二方面实施例的从图片中自动提取双语词典的装置,包括:生成模块以及对齐提取模块。
本发明实施例的从图片中自动提取双语词典的装置,通过生成模块生成至少两个双语句对,通过对齐提取模块采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的从图片中自动提取双语词典的方法的流程图;
图2a是根据本发明一个实施例的图片示意图;
图2b是根据本发明另一个实施例的图片示意图;
图2c是根据本发明又一个实施例的图片示意图;
图3是根据本发明一个实施例的采用第一EM算法提取双语词典的方法的流程图;
图4是根据本发明一个实施例的采用第二EM算法提取双语词典的方法的流程图;
图5是根据本发明另一个实施例的从图片中自动提取双语词典的方法的流程图;
图6是根据本发明一个实施例的从图片中自动提取双语词典的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考附图描述本发明实施例的从图片中自动提取双语词典的方法及装置。
图1是根据本发明一个实施例的从图片中自动提取双语词典的方法的流程图。
如图1所示,从图片中自动提取双语词典的方法包括以下步骤:
S101,分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
在本发明的实施例中,可以采用不同语言的图片语义标注器例如第一语言图片语义标注器和第二语言图片语义标注器将一副图片转换为对应语言语义标签,也就是反应该图片内容的多语言词语列表。由于标注方法的不同,不同语言的图片语义标注器所标记出的语义标签并非一一对应。比如,对于图片G,其对应的中文和英文语义标签分别为CG={c1,c2,c3,…,em}和EG={e1,e2,e3,…,en},那么<CG,EG>就是一个双语句对。每个图片能够产生一个由语义标签构成的双语句对,利用大量图片可以生成海量的双语句对。
其中,图片语义标注器可以按顺序比如按照从左到右或者从上到下的顺序输出双语句对,也可以无序输出双语句对,生成由语义标签构成的双语句对。
例如,分别采用中文图片语义标注器和英文图片语义标注器对图2a所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:
中文语义标签:道路黄色的落叶树木椅子
英文语义标签:“path”“leaves”“tree”
由于中英文的图片标注器存在标注效果的差异,图片中标出的实体不一定完全匹配,例如英文图片标注器没有标出“chair”。
同样地,分别采用中文图片语义标注器和英文图片语义标注器对图2b所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:
中文语义标签:绿色 树木 楼房 草坪
英文语义标签:“rocks”“people”“green”“tree”
同样地,分别采用中文图片语义标注器和英文图片语义标注器对图2c所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:
中文语义标签:绿色草坪树木
英文语义标签:“green”“grass”“trees”“sky”
需要说明的是,由于图2a-2c不是彩色图片,所以从图2a-2c中看不出颜色,但实际上与图2a-2c对应的图片是彩色图片,因此,可以显示出对应物体的颜色。
S102,采用最大期望(EM)算法对生成的双语句对进行词对齐,提取出双语词典词条。
在本发明的实施例中,当第一语言图片语义标注器和第二语言图片语义标注器的输出为无序输出时,可以采用第一EM算法对生成的双语句对进行词对齐。当第一语言图片语义标注器和第二语言图片语义标注器的输出为有序输出时,可以采用第二EM算法对生成的双语句对进行词对齐。
其中,如图3所示,采用第一EM算法对生成的双语句对进行词对齐,提取出双语词典词条,包括如下步骤:
S301,获得两个双语句对中所有词语之间的对齐概率。
初始假设第一语言句子中的每个词语以等概率与第二语言句子中的每个词语对齐。
S302,判断对齐概率是否达到设定阈值,若达到,则执行步骤S303,若未达到,执行步骤S304。
由于该实施例是针对无序语义标签进行对齐,因此,不考虑第二语言词语的位置,通过在大规模双语句对上进行迭代,出现次数高的词对概率逐步增大,当对齐概率大于阈值时,则将其取出作为双语词典词条,其中,该阈值可以灵活设置,例如为0.8。
S303,提取出双语词典词条,操作结束。
S304,根据对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率。
在本实施例中,第一对齐概率公式为:
其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。
S305,对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计。
S306,根据计数统计结果更新对齐概率,转向步骤S302。
上述实施例可以对包含无序语义标签的双语句对进行词对齐,从而提取出双语词典词条。
另外,如图4所示,采用第二EM算法对生成的双语句对进行词对齐,提取出双语词典词条,包括如下步骤:
S401,获得两个双语句对中所有词语之间的对齐概率。
S402,判断对齐概率是否达到设定阈值,若达到,则执行步骤S403,若未达到,执行步骤S404。
在该实施例中,该设定阈值可以根据需要设置,例如为0.9或0.8等。
S403,提取出双语词典词条,操作结束。
S404,根据对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率。
在本实施例中,第二对齐概率公式为:
Figure BDA0000450104070000051
其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第一语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。
由于该实施例是针对有序语义标签进行对齐,因此,第二对齐概率公式是在第一对齐概率公式的基础上增加了位置关系概率,同时,对j的取值范围进行限制:i-w≤j≤i+w,即i与j的位置差不能超过w;其中,w是窗口大小,即要求第一语言的词语对应到第二语言,例如中文的词语对应到英文,位置不会发生大幅变化,从而提高对齐准确率。
例如,包含中英文语义标签的双语句对为:
中文语义标签:道路黄色的落叶树木椅子
英文语义标签:“path”“leaves”“tree”
如果设窗口大小w=1,则限制“树木”不能与“path”对齐,因为树木是第3个词,而path是第1个词,两者位置相差2,大于窗口要求的大小1。
S405,对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计。
S406,根据计数统计结果更新对齐概率,转向步骤S402。
上述实施例可以有效地对包含有序语义标签的双语句对进行词对齐,从而提取出双语词典词条。
上述从图片中自动提取双语词典的方法实施例,通过生成多个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
图5是根据本发明另一个实施例的从图片中自动提取双语词典的方法的流程图,在该实施例中,采用的双语为语言A和语言B,假设语言A为中文,语言B为英文,当然,语言A和语言B还可以分别为其他语言。
如图5所示,从图片中自动提取双语词典的方法包括以下步骤:
S501,分别采用中文图片语义标注器和英文图片语义标注器对两个图片进行标注,生成两个包含中文语义标签和英文语义标签的双语句对。
在该实施例中,假设生成有语言A和语言B的两个句对:
第一个句对为:
语言A:b c
语言B:x y
第二个句对为:
语言A:b
语言B:y
S502,判断语义标签是否有序,若无序,执行步骤S503,若有序,执行步骤S504。
在本实施例中,假设语义标签是无序的。
S503,采用第一EM算法对生成的双语句对进行词对齐,转向步骤S505。
采用第一EM算法对生成的双语句对进行词对齐可以包括以下步骤:
S5031,均匀设置词语之间的对齐概率。
在本实施例中,设置后的对齐概率为:
t(x|b)=1/2
t(y|b)=1/2
t(x|c)=1/2
t(y|c)=1/2
其中,t(x|b)表示x和b的对齐概率,t(y|b)表示y和b的对齐概率,t(x|c)表示x和c的对齐概率,t(y|c)表示y和c的对齐概率。
S5032,计算对齐概率
Figure BDA0000450104070000061
其中e是语言A的句子,f是语言B的句子,Ei与FEi是互相对齐的词,a表示对齐方式,如下面连线所示。
在本实施例中,当b与x对齐,c与y对齐时,P(a,f|e)=1/2*1/2=1/4;当b与y对齐,c与x对齐时,P(a,f|e)=1/2*1/2=1/4;当b与y对齐时,P(a,f|e)=1/2。
S5033,对P(a,f|e)进行归一化处理,得到P(a|e,f)=P(a,f|e)/ΣP(a,f|e)。
在本实施例中,当b与x对齐,c与y对齐时,P(a|e,f)=1/4/2/4=1/2;当b与y对齐,c与x对齐时,P(a|e,f)=1/4/2/4=1/2;当b与y对齐时,P(a|e,f)=1/2/1/2=1。
S5034,进行计数统计。
在本实施例中,tc(x|b)=1/2,tc(y|b)=1/2+1=3/2,tc(x|c)=1/2,tc(y|c)=1/2,其中,tc(x|b)表示两个句对中b与x的对齐概率和,tc(y|b)表示两个句对中b与y的对齐概率和,tc(x|c)表示两个句对中c与x的对齐概率和,tc(y|c)表示两个句对中c与y的对齐概率和。
S5034,更新对齐概率,转向步骤S5032,直至部分对齐概率达到预定阈值。
在本实施例中,更新后的对齐概率为:
t(x|b)=1/2/4/2=1/4,t(y|b)=3/2/4/2=3/4,t(x|c)=1/2/1=1/2,t(y|c)=1/2/1=1/2。
根据更新后的对齐概率计算P(a,f|e),具体地,当b与x对齐,c与y对齐时,P(a,f|e)=1/4*1/2=1/8;当b与y对齐,c与x对齐时,P(a,f|e)=3/4*1/2=3/8;当b与y对齐时,P(a,f|e)=3/4。
然后计算P(a|e,f),具体地,当b与x对齐,c与y对齐时,P(a|e,f)=1/4;当b与y对齐,c与x对齐时,P(a|e,f)=1/4/2/4=3/4;当b与y对齐时,P(a|e,f)=1。
紧接着进行计数统计,具体地,tc(x|b)=1/4,tc(y|b)=3/4+1=7/4,tc(x|c)=3/4,tc(y|c)=1/4。
然后进行对齐概率更新,具体地,t(x|b)=1/8,t(y|b)=7/8,t(x|c)=3/4,t(y|c)=1/4。
再次重复执行上述步骤S5032-S5035,直至t(x|b)=0.0001,t(y|b)=0.9999,t(x|c)=0.9999,t(y|c)=0.0001。
S504,采用第二EM算法对生成的双语句对进行词对齐。
S505,提取出双语词典词条。
在本实施例中,提取出的双语词典词条为:b和y,c和x,即可以将y翻译b,x翻译成c。
上述从图片中自动提取双语词典的方法实施例,通过生成两个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
图6是根据本发明一个实施例的从图片中自动提取双语词典的装置的结构示意图。
如图6所示,从图片中自动提取双语词典的装置包括生成模块610和对齐提取模块620,其中:
生成模块610用于分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;对齐提取模块620用于采用最大期望EM算法对生成的上述双语句对进行词对齐,提取出双语词典词条。
具体地,上述生成模块610可以根据上述第一语言图片语义标注器和上述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
当上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出为无序输出时,上述对齐提取模块620可采用第一EM算法对生成的上述双语句对进行词对齐,具体实现过程包括:获得两个双语句对中所有词语之间的对齐概率;判断上述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据上述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新上述对齐概率,重复执行上述判断上述对齐概率是否达到设定阈值的操作。其中,上述第一对齐概率公式为:e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。详细的实现过程可参见图1、图3和图5,此处不赘述。
同样地,当上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出为有序输出时,上述对齐提取模块620可采用第二EM算法对生成的上述双语句对进行词对齐,具体实现过程包括:获得两个双语句对中所有词语之间的对齐概率;判断上述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据上述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新上述对齐概率,重复执行上述判断上述对齐概率是否达到设定阈值的操作。其中,上述第二对齐概率公式为:
Figure BDA0000450104070000082
d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第一语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。详细的实现过程可参见图1、图4和图5,此处不赘述。
上述从图片中自动提取双语词典的装置实施例,通过生成模块生成至少两个双语句对,通过对齐提取模块采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (14)

1.一种从图片中自动提取双语词典的方法,其特征在于,包括:
分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及
采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对,包括:
根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
3.如权利要求1所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时,采用第一EM算法对生成的所述双语句对进行词对齐;或者
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输出时,采用第二EM算法对生成的所述双语句对进行词对齐。
4.如权利要求3所述的方法,其特征在于,所述采用第一EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条,包括:
获得两个双语句对中所有词语之间的对齐概率;
判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。
5.如权利要求4所述的方法,其特征在于,所述第一对齐概率公式为:
Figure FDA0000450104060000011
其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。
6.如权利要求3所述的方法,其特征在于,所述采用第二EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条,包括:
获得两个双语句对中所有词语之间的对齐概率;
判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。
7.如权利要求6所述的方法,其特征在于,所述第二对齐概率公式为:
Figure FDA0000450104060000021
其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第一语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。
8.一种从图片中自动提取双语词典的装置,其特征在于,包括:
生成模块,用于分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及
对齐提取模块,用于采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条。
9.如权利要求8所述的装置,其特征在于,所述生成模块,具体用于:
根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
10.如权利要求8所述的装置,其特征在于,所述对齐提取模块,具体用于:
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时,采用第一EM算法对生成的所述双语句对进行词对齐;或者
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输出时,采用第二EM算法对生成的所述双语句对进行词对齐。
11.如权利要求10所述的装置,其特征在于,所述对齐提取模块,具体用于:
获得两个双语句对中所有词语之间的对齐概率;
判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。
12.如权利要求11所述的装置,其特征在于,所述第一对齐概率公式为:
Figure FDA0000450104060000031
其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。
13.如权利要求10所述的装置,其特征在于,所述对齐提取模块,具体用于:
获得两个双语句对中所有词语之间的对齐概率;
判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。
14.如权利要求13所述的装置,其特征在于,所述第二对齐概率公式为:
Figure FDA0000450104060000032
其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第一语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。
CN201310746535.9A 2013-12-30 2013-12-30 从图片中自动提取双语词典的方法及装置 Active CN103714055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310746535.9A CN103714055B (zh) 2013-12-30 2013-12-30 从图片中自动提取双语词典的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310746535.9A CN103714055B (zh) 2013-12-30 2013-12-30 从图片中自动提取双语词典的方法及装置

Publications (2)

Publication Number Publication Date
CN103714055A true CN103714055A (zh) 2014-04-09
CN103714055B CN103714055B (zh) 2017-03-15

Family

ID=50407046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310746535.9A Active CN103714055B (zh) 2013-12-30 2013-12-30 从图片中自动提取双语词典的方法及装置

Country Status (1)

Country Link
CN (1) CN103714055B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649277A (zh) * 2016-12-29 2017-05-10 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN111881900A (zh) * 2020-07-01 2020-11-03 腾讯科技(深圳)有限公司 语料生成、翻译模型训练、翻译方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
JP5153839B2 (ja) * 2010-08-20 2013-02-27 ヤフー株式会社 対訳辞書生成装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101194253A (zh) * 2005-06-14 2008-06-04 微软公司 来源于单语和可用双语语料库的搭配翻译
CN101620615A (zh) * 2009-08-04 2010-01-06 西南交通大学 一种基于决策树学习的自动图像标注与翻译的方法
CN101908042A (zh) * 2010-08-09 2010-12-08 中国科学院自动化研究所 一种双语联合语义角色的标注方法
JP5153839B2 (ja) * 2010-08-20 2013-02-27 ヤフー株式会社 対訳辞書生成装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乔荣华等: "基于语义分类的文物图像标注研究", 《计算机技术与发展》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649277A (zh) * 2016-12-29 2017-05-10 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN106649277B (zh) * 2016-12-29 2020-07-03 语联网(武汉)信息技术有限公司 一种词典录入方法及系统
CN111881900A (zh) * 2020-07-01 2020-11-03 腾讯科技(深圳)有限公司 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN111881900B (zh) * 2020-07-01 2022-08-23 腾讯科技(深圳)有限公司 语料生成、翻译模型训练、翻译方法、装置、设备及介质

Also Published As

Publication number Publication date
CN103714055B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN104679850B (zh) 地址结构化方法及装置
US9652454B2 (en) Phrase-based dictionary extraction and translation quality evaluation
US10474642B2 (en) Multibyte heterogeneous log preprocessing
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
KR102157202B1 (ko) 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체
CN102447701B (zh) 一种网络信息交互方法及网络安全系统
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN102693244B (zh) 用于识别非结构化文本中的信息的方法和装置
CN108563629B (zh) 一种日志解析规则自动生成方法和装置
CN104239290A (zh) 基于依存树的统计机器翻译方法及系统
CN103823796A (zh) 一种翻译系统及翻译方法
CN103995885A (zh) 实体名的识别方法和装置
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN103942192A (zh) 一种双语最大名词组块分离-融合的翻译方法
CN103699528A (zh) 翻译译文的提供方法、装置和系统
CN103955450A (zh) 一种新词自动提取方法
CN103473223A (zh) 一种基于句法树的规则抽取及翻译方法
CN104516870A (zh) 一种译文检查方法及其系统
CN103714055A (zh) 从图片中自动提取双语词典的方法及装置
CN103559172B (zh) 多语混合文本的分句方法和装置
CN107862045B (zh) 一种基于多特征的跨语言剽窃检测方法
CN105373527A (zh) 一种省略恢复方法及问答系统
CN105426355A (zh) 一种音节粒度的藏语句法组块识别方法及装置
WO2022134577A1 (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant