CN103714055B - 从图片中自动提取双语词典的方法及装置 - Google Patents
从图片中自动提取双语词典的方法及装置 Download PDFInfo
- Publication number
- CN103714055B CN103714055B CN201310746535.9A CN201310746535A CN103714055B CN 103714055 B CN103714055 B CN 103714055B CN 201310746535 A CN201310746535 A CN 201310746535A CN 103714055 B CN103714055 B CN 103714055B
- Authority
- CN
- China
- Prior art keywords
- language
- alignment
- probability
- sentence
- bilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出一种从图片中自动提取双语词典的方法及装置,其中,从图片中自动提取双语词典的方法包括:分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及采用最大期望(EM)算法对生成的双语句对进行词对齐,提取出双语词典词条。本发明实施例,通过生成至少两个双语句对,采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种从图片中自动提取双语词典的方法及装置。
背景技术
互联网技术的发展让我们的知识面更加广阔,获取的知识也日益丰富。不过问题也随之而来,有些网络只有详尽的英文或者其他外文资料而没有我们熟悉的汉语资料,这就给我们工作和生活带来极大的不便。
目前网络中有很多翻译系统,这些翻译系统可以通过双语词典为我们提供翻译服务,即利用双语词典将一种我们不熟悉的语言翻译成我们熟悉的语言。而双语词典对于一个翻译系统而言非常重要。
现有技术中一般利用双语文本(如联合国用多种语言发布的文档)或双语网页(如多种语言的网站)来获取双语句对,并双语从句对中抽取双语词典。
由此可见,现有双语词典的生成主要依赖双语文本和网页资源。而随着信息技术的快速发展,信息载体多种多样,包括文字、图片和多媒体等,其中,图片具有包含数据量大、表现形式丰富形象等特点,因而作为信息载体的图片应用范围越来越广,如果能从图片中抽取出双语词典词条,将会极大地丰富和完善双语词典,因此,迫切需要提供一种可以从图片中提取双语词典的技术方案。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种从图片中自动提取双语词典的方法。该方法可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
本发明的第二个目的在于提出一种从图片中自动提取双语词典的装置。
为了实现上述目的,本发明第一方面实施例的从图片中自动提取双语词典的方法,包括以下步骤:
分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及
采用最大期望EM算法对生成的双语句对进行词对齐,提取出双语词典词条。
本发明实施例的从图片中自动提取双语词典的方法,通过生成多个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
为了实现上述目的,本发明第二方面实施例的从图片中自动提取双语词典的装置,包括:生成模块以及对齐提取模块。
本发明实施例的从图片中自动提取双语词典的装置,通过生成模块生成至少两个双语句对,通过对齐提取模块采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的从图片中自动提取双语词典的方法的流程图;
图2a是根据本发明一个实施例的图片示意图;
图2b是根据本发明另一个实施例的图片示意图;
图2c是根据本发明又一个实施例的图片示意图;
图3是根据本发明一个实施例的采用第一EM算法提取双语词典的方法的流程图;
图4是根据本发明一个实施例的采用第二EM算法提取双语词典的方法的流程图;
图5是根据本发明另一个实施例的从图片中自动提取双语词典的方法的流程图;
图6是根据本发明一个实施例的从图片中自动提取双语词典的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考附图描述本发明实施例的从图片中自动提取双语词典的方法及装置。
图1是根据本发明一个实施例的从图片中自动提取双语词典的方法的流程图。
如图1所示,从图片中自动提取双语词典的方法包括以下步骤:
S101,分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据第一语言图片语义标注器和第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
在本发明的实施例中,可以采用不同语言的图片语义标注器例如第一语言图片语义标注器和第二语言图片语义标注器将一副图片转换为对应语言语义标签,也就是反应该图片内容的多语言词语列表。由于标注方法的不同,不同语言的图片语义标注器所标记出的语义标签并非一一对应。比如,对于图片G,其对应的中文和英文语义标签分别为CG={c1,c2,c3,…,em}和EG={e1,e2,e3,…,en},那么<CG,EG>就是一个双语句对。每个图片能够产生一个由语义标签构成的双语句对,利用大量图片可以生成海量的双语句对。
其中,图片语义标注器可以按顺序比如按照从左到右或者从上到下的顺序输出双语句对,也可以无序输出双语句对,生成由语义标签构成的双语句对。
例如,分别采用中文图片语义标注器和英文图片语义标注器对图2a所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:
中文语义标签:道路黄色的落叶树木椅子
英文语义标签:“path”“leaves”“tree”
由于中英文的图片标注器存在标注效果的差异,图片中标出的实体不一定完全匹配,例如英文图片标注器没有标出“chair”。
同样地,分别采用中文图片语义标注器和英文图片语义标注器对图2b所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:
中文语义标签:绿色 树木 楼房 草坪
英文语义标签:“rocks”“people”“green”“tree”
同样地,分别采用中文图片语义标注器和英文图片语义标注器对图2c所示的图片进行标注,获得的包含中文语义标签和中文语义标签的双语句对为:
中文语义标签:绿色草坪树木
英文语义标签:“green”“grass”“trees”“sky”
需要说明的是,由于图2a-2c不是彩色图片,所以从图2a-2c中看不出颜色,但实际上与图2a-2c对应的图片是彩色图片,因此,可以显示出对应物体的颜色。
S102,采用最大期望(EM)算法对生成的双语句对进行词对齐,提取出双语词典词条。
在本发明的实施例中,当第一语言图片语义标注器和第二语言图片语义标注器的输出为无序输出时,可以采用第一EM算法对生成的双语句对进行词对齐。当第一语言图片语义标注器和第二语言图片语义标注器的输出为有序输出时,可以采用第二EM算法对生成的双语句对进行词对齐。
其中,如图3所示,采用第一EM算法对生成的双语句对进行词对齐,提取出双语词典词条,包括如下步骤:
S301,获得两个双语句对中所有词语之间的对齐概率。
初始假设第一语言句子中的每个词语以等概率与第二语言句子中的每个词语对齐。
S302,判断对齐概率是否达到设定阈值,若达到,则执行步骤S303,若未达到,执行步骤S304。
由于该实施例是针对无序语义标签进行对齐,因此,不考虑第二语言词语的位置,通过在大规模双语句对上进行迭代,出现次数高的词对概率逐步增大,当对齐概率大于阈值时,则将其取出作为双语词典词条,其中,该阈值可以灵活设置,例如为0.8。
S303,提取出双语词典词条,操作结束。
S304,根据对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率。
在本实施例中,第一对齐概率公式为:
其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。
S305,对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计。
S306,根据计数统计结果更新对齐概率,转向步骤S302。
上述实施例可以对包含无序语义标签的双语句对进行词对齐,从而提取出双语词典词条。
另外,如图4所示,采用第二EM算法对生成的双语句对进行词对齐,提取出双语词典词条,包括如下步骤:
S401,获得两个双语句对中所有词语之间的对齐概率。
S402,判断对齐概率是否达到设定阈值,若达到,则执行步骤S403,若未达到,执行步骤S404。
在该实施例中,该设定阈值可以根据需要设置,例如为0.9或0.8等。
S403,提取出双语词典词条,操作结束。
S404,根据对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率。
在本实施例中,第二对齐概率公式为:
其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第一语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。
由于该实施例是针对有序语义标签进行对齐,因此,第二对齐概率公式是在第一对齐概率公式的基础上增加了位置关系概率,同时,对j的取值范围进行限制:i-w≤j≤i+w,即i与j的位置差不能超过w;其中,w是窗口大小,即要求第一语言的词语对应到第二语言,例如中文的词语对应到英文,位置不会发生大幅变化,从而提高对齐准确率。
例如,包含中英文语义标签的双语句对为:
中文语义标签:道路黄色的落叶树木椅子
英文语义标签:“path”“leaves”“tree”
如果设窗口大小w=1,则限制“树木”不能与“path”对齐,因为树木是第3个词,而path是第1个词,两者位置相差2,大于窗口要求的大小1。
S405,对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计。
S406,根据计数统计结果更新对齐概率,转向步骤S402。
上述实施例可以有效地对包含有序语义标签的双语句对进行词对齐,从而提取出双语词典词条。
上述从图片中自动提取双语词典的方法实施例,通过生成多个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
图5是根据本发明另一个实施例的从图片中自动提取双语词典的方法的流程图,在该实施例中,采用的双语为语言A和语言B,假设语言A为中文,语言B为英文,当然,语言A和语言B还可以分别为其他语言。
如图5所示,从图片中自动提取双语词典的方法包括以下步骤:
S501,分别采用中文图片语义标注器和英文图片语义标注器对两个图片进行标注,生成两个包含中文语义标签和英文语义标签的双语句对。
在该实施例中,假设生成有语言A和语言B的两个句对:
第一个句对为:
语言A:b c
语言B:x y
第二个句对为:
语言A:b
语言B:y
S502,判断语义标签是否有序,若无序,执行步骤S503,若有序,执行步骤S504。
在本实施例中,假设语义标签是无序的。
S503,采用第一EM算法对生成的双语句对进行词对齐,转向步骤S505。
采用第一EM算法对生成的双语句对进行词对齐可以包括以下步骤:
S5031,均匀设置词语之间的对齐概率。
在本实施例中,设置后的对齐概率为:
t(x|b)=1/2
t(y|b)=1/2
t(x|c)=1/2
t(y|c)=1/2
其中,t(x|b)表示x和b的对齐概率,t(y|b)表示y和b的对齐概率,t(x|c)表示x和c的对齐概率,t(y|c)表示y和c的对齐概率。
S5032,计算对齐概率其中e是语言A的句子,f是语言B的句子,Ei与FEi是互相对齐的词,a表示对齐方式,如下面连线所示。
在本实施例中,当b与x对齐,c与y对齐时,P(a,f|e)=1/2*1/2=1/4;当b与y对齐,c与x对齐时,P(a,f|e)=1/2*1/2=1/4;当b与y对齐时,P(a,f|e)=1/2。
S5033,对P(a,f|e)进行归一化处理,得到P(a|e,f)=P(a,f|e)/ΣP(a,f|e)。
在本实施例中,当b与x对齐,c与y对齐时,P(a|e,f)=1/4/2/4=1/2;当b与y对齐,c与x对齐时,P(a|e,f)=1/4/2/4=1/2;当b与y对齐时,P(a|e,f)=1/2/1/2=1。
S5034,进行计数统计。
在本实施例中,tc(x|b)=1/2,tc(y|b)=1/2+1=3/2,tc(x|c)=1/2,tc(y|c)=1/2,其中,tc(x|b)表示两个句对中b与x的对齐概率和,tc(y|b)表示两个句对中b与y的对齐概率和,tc(x|c)表示两个句对中c与x的对齐概率和,tc(y|c)表示两个句对中c与y的对齐概率和。
S5034,更新对齐概率,转向步骤S5032,直至部分对齐概率达到预定阈值。
在本实施例中,更新后的对齐概率为:
t(x|b)=1/2/4/2=1/4,t(y|b)=3/2/4/2=3/4,t(x|c)=1/2/1=1/2,t(y|c)=1/2/1=1/2。
根据更新后的对齐概率计算P(a,f|e),具体地,当b与x对齐,c与y对齐时,P(a,f|e)=1/4*1/2=1/8;当b与y对齐,c与x对齐时,P(a,f|e)=3/4*1/2=3/8;当b与y对齐时,P(a,f|e)=3/4。
然后计算P(a|e,f),具体地,当b与x对齐,c与y对齐时,P(a|e,f)=1/4;当b与y对齐,c与x对齐时,P(a|e,f)=1/4/2/4=3/4;当b与y对齐时,P(a|e,f)=1。
紧接着进行计数统计,具体地,tc(x|b)=1/4,tc(y|b)=3/4+1=7/4,tc(x|c)=3/4,tc(y|c)=1/4。
然后进行对齐概率更新,具体地,t(x|b)=1/8,t(y|b)=7/8,t(x|c)=3/4,t(y|c)=1/4。
再次重复执行上述步骤S5032-S5035,直至t(x|b)=0.0001,t(y|b)=0.9999,t(x|c)=0.9999,t(y|c)=0.0001。
S504,采用第二EM算法对生成的双语句对进行词对齐。
S505,提取出双语词典词条。
在本实施例中,提取出的双语词典词条为:b和y,c和x,即可以将y翻译b,x翻译成c。
上述从图片中自动提取双语词典的方法实施例,通过生成两个双语句对,然后采用EM算法对生成的双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
图6是根据本发明一个实施例的从图片中自动提取双语词典的装置的结构示意图。
如图6所示,从图片中自动提取双语词典的装置包括生成模块610和对齐提取模块620,其中:
生成模块610用于分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;对齐提取模块620用于采用最大期望EM算法对生成的上述双语句对进行词对齐,提取出双语词典词条。
具体地,上述生成模块610可以根据上述第一语言图片语义标注器和上述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
当上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出为无序输出时,上述对齐提取模块620可采用第一EM算法对生成的上述双语句对进行词对齐,具体实现过程包括:获得两个双语句对中所有词语之间的对齐概率;判断上述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据上述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新上述对齐概率,重复执行上述判断上述对齐概率是否达到设定阈值的操作。其中,上述第一对齐概率公式为:e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。详细的实现过程可参见图1、图3和图5,此处不赘述。
同样地,当上述第一语言图片语义标注器和上述第二语言图片语义标注器的输出为有序输出时,上述对齐提取模块620可采用第二EM算法对生成的上述双语句对进行词对齐,具体实现过程包括:获得两个双语句对中所有词语之间的对齐概率;判断上述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据上述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新上述对齐概率,重复执行上述判断上述对齐概率是否达到设定阈值的操作。其中,上述第二对齐概率公式为:d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第一语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。详细的实现过程可参见图1、图4和图5,此处不赘述。
上述从图片中自动提取双语词典的装置实施例,通过生成模块生成至少两个双语句对,通过对齐提取模块采用EM算法对双语句对进行词对齐,从而可以从图片中自动提取出双语词典词条,而不需要依赖双语文本和网页资源,且实现简单、准确率高。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (8)
1.一种从图片中自动提取双语词典的方法,其特征在于,包括:
分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及
采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对,包括:
根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
3.如权利要求2所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时,采用第一EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第一对齐概率公式为:
其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。
4.如权利要求2所述的方法,其特征在于,所述采用最大期望EM算法对生成的所述双语句对进行词对齐包括:
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输 出时,采用第二EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第二对齐概率公式为:
其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第二语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。
5.一种从图片中自动提取双语词典的装置,其特征在于,包括:
生成模块,用于分别采用第一语言图片语义标注器和第二语言图片语义标注器对至少两个图片进行标注,根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对;以及
对齐提取模块,用于采用最大期望EM算法对生成的所述双语句对进行词对齐,提取出双语词典词条,其中,所述对齐提取模块具体用于获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作。
6.如权利要求5所述的装置,其特征在于,所述生成模块,具体用于:
根据所述第一语言图片语义标注器和所述第二语言图片语义标注器的有序或无序输出,生成至少两个均包含第一语言语义标签和第二语言语义标签的双语句对。
7.如权利要求6所述的装置,其特征在于,所述对齐提取模块,具体用于:
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为无序输出时,采用第一EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第一对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处 理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第一对齐概率公式为:
其中,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i表示第一语言的词语在第一语言的句子中的位置,m表示第一语言的句子长度。
8.如权利要求6所述的装置,其特征在于,所述对齐提取模块,具体用于:
当所述第一语言图片语义标注器和所述第二语言图片语义标注器的输出为有序输出时,采用第二EM算法对生成的所述双语句对进行词对齐,其中,获得两个双语句对中所有词语之间的对齐概率;判断所述对齐概率是否达到设定阈值,若达到,则提取出双语词典词条,若未达到,则根据所述对齐概率采用第二对齐概率公式分别计算每个双语句对中各种对齐方式对应的概率;对各种对齐方式对应的概率进行归一化处理,对归一化处理结果进行计数统计;根据计数统计结果更新所述对齐概率,重复执行所述判断所述对齐概率是否达到设定阈值的操作,其中所述第二对齐概率公式为:
其中,d(j|i,m,n)表示位置关系概率,e表示第一语言的句子,f表示第二语言的句子,Ei与FEi是互相对齐的词,a表示对齐方式,i、j分别表示第一语言的词语在第一语言的句子中的位置和第二语言的词语在第二语言的句子中的位置,m、n分别表示第一语言的句子长度和表示第二语言的句子长度,0≤j≤n且i-w≤j≤i+w,w表示窗口大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310746535.9A CN103714055B (zh) | 2013-12-30 | 2013-12-30 | 从图片中自动提取双语词典的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310746535.9A CN103714055B (zh) | 2013-12-30 | 2013-12-30 | 从图片中自动提取双语词典的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103714055A CN103714055A (zh) | 2014-04-09 |
CN103714055B true CN103714055B (zh) | 2017-03-15 |
Family
ID=50407046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310746535.9A Active CN103714055B (zh) | 2013-12-30 | 2013-12-30 | 从图片中自动提取双语词典的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103714055B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649277B (zh) * | 2016-12-29 | 2020-07-03 | 语联网(武汉)信息技术有限公司 | 一种词典录入方法及系统 |
CN111881900B (zh) * | 2020-07-01 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101194253A (zh) * | 2005-06-14 | 2008-06-04 | 微软公司 | 来源于单语和可用双语语料库的搭配翻译 |
CN101620615A (zh) * | 2009-08-04 | 2010-01-06 | 西南交通大学 | 一种基于决策树学习的自动图像标注与翻译的方法 |
CN101908042A (zh) * | 2010-08-09 | 2010-12-08 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5153839B2 (ja) * | 2010-08-20 | 2013-02-27 | ヤフー株式会社 | 対訳辞書生成装置、方法及びプログラム |
-
2013
- 2013-12-30 CN CN201310746535.9A patent/CN103714055B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101194253A (zh) * | 2005-06-14 | 2008-06-04 | 微软公司 | 来源于单语和可用双语语料库的搭配翻译 |
CN101620615A (zh) * | 2009-08-04 | 2010-01-06 | 西南交通大学 | 一种基于决策树学习的自动图像标注与翻译的方法 |
CN101908042A (zh) * | 2010-08-09 | 2010-12-08 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
Non-Patent Citations (1)
Title |
---|
基于语义分类的文物图像标注研究;乔荣华等;《计算机技术与发展》;20070731;第17卷(第7期);第200-203页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103714055A (zh) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104035975B (zh) | 一种利用中文在线资源实现远程监督人物关系抽取的方法 | |
CN102360383B (zh) | 一种面向文本的领域术语与术语关系抽取方法 | |
CN104156352A (zh) | 一种中文事件的处理方法及系统 | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
CN103942192B (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
CN101763344A (zh) | 训练基于短语的翻译模型的方法、机器翻译方法及其装置 | |
CN109740159B (zh) | 用于命名实体识别的处理方法及装置 | |
CN102447701A (zh) | 一种网络信息交互方法及网络安全系统 | |
US20200089756A1 (en) | Preserving and processing ambiguity in natural language | |
CN103473223A (zh) | 一种基于句法树的规则抽取及翻译方法 | |
WO2022262320A1 (zh) | 基于知识图谱的配电网cim模型信息补全方法及系统 | |
WO2017028422A1 (zh) | 知识库的构建方法及装置 | |
CN110209781B (zh) | 一种文本处理方法、装置以及相关设备 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
Tachicart et al. | Lexical differences and similarities between Moroccan dialect and Arabic | |
CN103714055B (zh) | 从图片中自动提取双语词典的方法及装置 | |
CN115374189A (zh) | 基于区块链的食品安全溯源方法、装置及设备 | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
CN102663108A (zh) | 基于复杂网络模型并行化标签传播算法的药物社团发现方法 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN106997346A (zh) | 一种基于无监督方式对教学视频进行指代消解的方法 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
WO2021072848A1 (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
KR102148331B1 (ko) | 시각장애인용 컨텐츠 제공 시스템, 방법 및 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |