CN112464634B - 基于互信息熵的跨语言实体自动对齐方法及系统 - Google Patents
基于互信息熵的跨语言实体自动对齐方法及系统 Download PDFInfo
- Publication number
- CN112464634B CN112464634B CN202011535427.3A CN202011535427A CN112464634B CN 112464634 B CN112464634 B CN 112464634B CN 202011535427 A CN202011535427 A CN 202011535427A CN 112464634 B CN112464634 B CN 112464634B
- Authority
- CN
- China
- Prior art keywords
- entity
- named
- named entity
- mutual information
- information entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于互信息熵的跨语言实体自动对齐方法及系统,首先计算出基于对齐语料的库的单语言词向量,然后计算跨语言实体对齐的概率分布,并且计算跨语言的实体互信息熵作为跨语言实体对齐的量度,可以对大规模跨语言实体对齐语料进行实体提取和对齐,构建跨语言实体对齐库,对齐效率和准确率都比较高。
Description
技术领域
本发明是关于自然语言处理技术领域,特别是关于一种基于互信息熵的跨语言实体自动对齐方法及系统。
背景技术
实体链接(Entity linking),或者实体对齐,就是将文本段落中的命名实体字符串映射到知识库中对应的实体上,是将字符串(String)映射到实体(Entity)的一种方法,广泛应用于知识图谱构建过程中。实体链接的难点在于两个方面,即多词一义和一词多义,多词一义是指实体可能有多个指标,实体的标准名、别名、名称缩写等都可以用来指代该实体;一词多义是指一个指标可以指代多个实体;解决一词多义问题要利用知识库中实体信息进行实体消歧,单一知识库中的实体信息相对较少,如果能利用多个知识库中的实体信息进行实体消歧,一词多义的问题将会得到更好的解决。单语言的实体对齐,主要是通过比较字符串的相似度,并结合文本上下文实现实体提取,而跨语言实体大部分是不相似的,需要将不同语种的字符串映射到实体的过程,对跨语言知识图谱构建是一个必须要解决的重点问题。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于互信息熵的跨语言实体自动对齐方法及系统,其构建了跨语言对齐知识库,从大规模的非结构化对齐语料中提取双语实体,依据互信息熵信息,建立双语实体的对齐关系,对齐效率和准确率都比较高。
为实现上述目的,本发明提供了一种基于互信息熵的跨语言实体自动对齐方法,其包括:计算出输入的平行语料库中的第一语言文本的字符级别的词向量,并且计算出所述平行语料库中的第二语言文本的字符级别的词向量;对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合;对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,并且对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量;计算出所述第一命名实体集合中各个实体的概率分布,并且计算出所述第二命名实体集合中各个实体的概率分布;根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;并且求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵;若所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵,则将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。
在本发明的一实施方式中,所述第一命名实体集合为:E1={K1,K2,…,Kr},其中,K1,K2,…,Kr表示所述第一命名实体集合中的各个实体;所述第二命名实体集合为:E2={L1,L2,…,Lw},其中,L1,L2,…,Lw表示所述第二命名实体集合中的各个实体;第一命名实体集合的第m个实体向量为:VE1m=[a1m,a2m,a3m,…,aNm],其中,a1m,a2m,a3m,…,aNm分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值;所述第二命名实体集合的第n个实体向量为:VE2n=[b1n,b2n,b3n,…,bNn],其中,b1n,b2n,b3n,…,bNn分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
在本发明的一实施方式中,所述概率分布的计算式为:P1m=Km/(a1m+a2m+a3m+…+aNm),其中,P1m表示所述第一命名实体集合中的第m个实体Km的概率分布;以及P2n=Ln/(b1n+b2n+b3n+…+bNn),其中,P2n表示所述第二命名实体集合中的第n个实体Ln的概率分布。
在本发明的一实施方式中,所述互信息熵的计算式如下:D(E1m|E2n)=Σ(P1m*log(P1m/P2n)),其中,D(E1m|E2n)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵D(E2n|E1m)=Σ(P2n*log(P2n/P1m)),其中,D(E2n|E1m)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
基于同样的发明构思,本发明还提供了一种基于互信息熵的跨语言实体自动对齐系统,其包括:词向量计算模块、实体识别模块、实体向量计算模块、概率分布计算模块、互信息熵计算模块、实体对齐模块。词向量计算模块用于计算出输入的平行语料库中的第一语言文本的字符级别的词向量,还用于计算出所述平行语料库中的第二语言文本的字符级别的词向量。实体识别模块用于对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合。实体向量计算模块与所述词向量计算模块以及所述实体识别模块均相耦合,用于对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,还用于对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量。概率分布计算模块与所述实体识别模块以及所述实体向量计算模块相耦合,用于计算出所述第一命名实体集合中各个实体的概率分布,还用于计算出所述第二命名实体集合中各个实体的概率分布。互信息熵计算模块与所述概率分布计算模块相耦合,用于根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;还用于求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵。实体对齐模块与所述互信息熵计算模块相耦合,用于当所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵时,将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。
在本发明的一实施方式中,所述第一命名实体集合为:E1={K1,K2,…,Kr},其中,K1,K2,…,Kr表示所述第一命名实体集合中的各个实体;所述第二命名实体集合为:E2={L1,L2,…,Lw},其中,L1,L2,…,Lw表示所述第二命名实体集合中的各个实体;第一命名实体集合的第m个实体向量为:VE1m=[a1m,a2m,a3m,…,aNm],其中,a1m,a2m,a3m,…,aNm分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值;所述第二命名实体集合的第n个实体向量为:VE2n=[b1n,b2n,b3n,…,bNn],其中,b1n,b2n,b3n,…,bNn分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
在本发明的一实施方式中,所述概率分布的计算式为:P1m=Km/(a1m+a2m+a3m+…+aNm),其中,P1m表示所述第一命名实体集合中的第m个实体Km的概率分布;以及P2n=Ln/(b1n+b2n+b3n+…+bNn),其中,P2n表示所述第二命名实体集合中的第n个实体Ln的概率分布。
在本发明的一实施方式中,所述互信息熵的计算式如下:D(E1m|E2n)=Σ(P1m*log(P1m/P2n)),其中,D(E1m|E2n)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵;以及D(E2n|E1m)=Σ(P2n*log(P2n/P1m)),其中,D(E2n|E1m)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施方式所述方法的步骤。
基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一实施方式所述方法的步骤。
与现有技术相比,根据本发明的基于互信息熵的跨语言实体自动对齐方法及系统,其构建了跨语言对齐知识库,从大规模的非结构化对齐语料中提取双语实体,依据互信息熵信息,建立双语实体的对齐关系,从而实现跨语言对齐知识库中词条数量的补充,对齐效率和准确率都比较高。
附图说明
图1是根据本发明一实施方式的基于互信息熵的跨语言实体自动对齐方法的步骤组成;
图2是根据本发明一实施方式的基于互信息熵的跨语言实体自动对齐系统的模块组成。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
图1是根据本发明一实施方式的基于互信息熵的跨语言实体自动对齐方法,其包括:步骤S1~步骤S6。
在步骤S1中计算出输入的平行语料库中的第一语言文本的字符级别的词向量,并且计算出所述平行语料库中的第二语言文本的字符级别的词向量。
具体而言,本实施方式中分别对两种语言的文本单独采用Skip-gram和CBOW算法计算字符级别的词向量,对第一语言文本的词向量记为V1,对第二语言文本的词向量记为V2,向量V1和V2的维度都为N。如此,词向量的计算更加快速和准确。
在步骤S2中对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合。
可选地,可以采用CRF或者BiLSTM+CRF的方法分别对第一语言文本和第二语言文本进行命名实体识别。命名实体包括人名、地名、组织结构名等。其中,所述第一命名实体集合为:E1={K1,K2,…,Kr},其中,K1,K2,…,Kr表示所述第一命名实体集合中的各个实体。所述第二命名实体集合为:E2={L1,L2,…,Lw},其中,L1,L2,…,Lw表示所述第二命名实体集合中的各个实体。
在步骤S3中对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,并且对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量。
其中,第一命名实体集合的第m个实体向量表示为:VE1m=[a1m,a2m,a3m,…,aNm],其中,a1m,a2m,a3m,…,aNm分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值。
所述第二命名实体集合的第n个实体向量为:VE2n=[b1n,b2n,b3n,…,bNn],其中,b1n,b2n,b3n,…,bNn分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
在步骤S4中计算出所述第一命名实体集合中各个实体的概率分布,并且计算出所述第二命名实体集合中各个实体的概率分布。
计算概率分布的式子如下:P1m=P1m=Km/(a1m+a2m+a3m+…+aNm),其中,P1m表示所述第一命名实体集合中的第m个实体Km的概率分布。且P2n=Ln/(b1n+b2n+b3n+…+bNn),其中,P2n表示所述第二命名实体集合中的第n个实体Ln的概率分布。
在步骤S5中根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;并且求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵。
计算互信息熵的式子如下:D(E1m|E2n)=Σ(P1m*log(P1m/P2n)),其中,D(E1m|E2n)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵。D(E2n|E1m)=Σ(P2n*log(P2n/P1m)),其中,D(E2n|E1m)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
在步骤S6中若所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵,则将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。也即如果两个实体的互信息熵互为最大值,则将两个实体进行跨语言对齐。
由此,本实施方式的基于互信息熵的跨语言实体自动对齐方法首先计算出基于对齐语料的库的单语言词向量,然后计算跨语言实体对齐的概率分布,并且计算跨语言的实体互信息熵作为跨语言实体对齐的量度,可以对大规模跨语言实体对齐语料进行实体提取和对齐,构建跨语言实体对齐库,对齐效率和准确率都比较高。
基于同样的发明构思,如图2所示,一实施方式中还提供了一种基于互信息熵的跨语言实体自动对齐系统,其包括:词向量计算模块10、实体识别模块11、实体向量计算模块12、概率分布计算模块13、互信息熵计算模块14、实体对齐模块15。
词向量计算模块10用于计算出输入的平行语料库中的第一语言文本的字符级别的词向量,还用于计算出所述平行语料库中的第二语言文本的字符级别的词向量。本实施方式中分别对两种语言的文本单独采用Skip-gram和CBOW算法计算字符级别的词向量,对第一语言文本的词向量记为V1,对第二语言文本的词向量记为V2,向量V1和V2的维度都为N。如此,词向量的计算更加快速和准确。
实体识别模块11用于对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合。其中,所述第一命名实体集合为:E1={K1,K2,…,Kr},其中,K1,K2,…,Kr表示所述第一命名实体集合中的各个实体。所述第二命名实体集合为:E2={L1,L2,…,Lw},其中,L1,L2,…,Lw表示所述第二命名实体集合中的各个实体。
实体向量计算模块12与所述词向量计算模块10以及所述实体识别模块11均相耦合,用于对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,还用于对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量。其中,第一命名实体集合的第m个实体向量为:VE1m=[a1m,a2m,a3m,…,aNm],其中,a1m,a2m,a3m,…,aNm分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值。所述第二命名实体集合的第n个实体向量为:VE2n=[b1n,b2n,b3n,…,bNn],其中,b1n,b2n,b3n,…,bNn分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
概率分布计算模块13与所述实体识别模块11以及所述实体向量计算模块12相耦合,用于计算出所述第一命名实体集合中各个实体的概率分布,还用于计算出所述第二命名实体集合中各个实体的概率分布。
所述概率分布的计算式为:P1m=Km/(a1m+a2m+a3m+…+aNm),其中,P1m表示所述第一命名实体集合中的第m个实体Km的概率分布;P2n=Ln/(b1n+b2n+b3n+…+bNn),其中,P2n表示所述第二命名实体集合中的第n个实体Ln的概率分布。
互信息熵计算模块14与所述概率分布计算模块13相耦合,用于根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;还用于求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵。
所述互信息熵的计算式如下:D(E1m|E2n)=Σ(P1m*log(P1m/P2n)),其中,D(E1m|E2n)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵;D(E2n|E1m)=Σ(P2n*log(P2n/P1m)),其中,D(E2n|E1m)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
实体对齐模块15与所述互信息熵计算模块14相耦合,用于当所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵时,将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。
基于同样的发明构思,一实施方式中还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于互信息熵的跨语言实体自动对齐方法的步骤。
基于同样的发明构思,一实施方式中还一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于互信息熵的跨语言实体自动对齐方法的步骤。
综上,根据本实施方式的基于互信息熵的跨语言实体自动对齐方法及系统,其构建了跨语言对齐知识库,从大规模的非结构化对齐语料中提取双语实体,依据互信息熵信息,建立双语实体的对齐关系,从而实现跨语言对齐知识库中词条数量的补充,对齐效率和准确率都比较高。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (10)
1.一种基于互信息熵的跨语言实体自动对齐方法,其特征在于,包括:
计算出输入的平行语料库中的第一语言文本的字符级别的词向量,并且计算出所述平行语料库中的第二语言文本的字符级别的词向量;
对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合;
对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,并且对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量;
计算出所述第一命名实体集合中各个实体的概率分布,并且计算出所述第二命名实体集合中各个实体的概率分布;
根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;并且求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵;
若所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵,则将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。
2.如权利要求1所述的基于互信息熵的跨语言实体自动对齐方法,其特征在于,
所述第一命名实体集合为:E1={K1,K2,…,Kr},其中,K1,K2,…,Kr表示所述第一命名实体集合中的各个实体;
所述第二命名实体集合为:E2={L1,L2,…,Lw},其中,L1,L2,…,Lw表示所述第二命名实体集合中的各个实体;
第一命名实体集合的第m个实体向量为:VE1m=[a1m,a2m,a3m,…,aNm],其中,a1m,a2m,a3m,…,aNm分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值;
所述第二命名实体集合的第n个实体向量为:VE2n=[b1n,b2n,b3n,…,bNn],其中,b1n,b2n,b3n,…,bNn分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
3.如权利要求2所述的基于互信息熵的跨语言实体自动对齐方法,其特征在于,所述概率分布的计算式为:
P1m=Km/(a1m+a2m+a3m+…+aNm),其中,P1m表示所述第一命名实体集合中的第m个实体Km的概率分布;以及
P2n=Ln/(b1n+b2n+b3n+…+bNn),其中,P2n表示所述第二命名实体集合中的第n个实体Ln的概率分布。
4.如权利要求3所述的基于互信息熵的跨语言实体自动对齐方法,其特征在于,所述互信息熵的计算式如下:
D(E1m|E2n)=Σ(P1m*log(P1m/P2n)),其中,D(E1m|E2n)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵;以及
D(E2n|E1m)=Σ(P2n*log(P2n/P1m)),其中,D(E2n|E1m)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
5.一种基于互信息熵的跨语言实体自动对齐系统,其特征在于,包括:
词向量计算模块,用于计算出输入的平行语料库中的第一语言文本的字符级别的词向量,还用于计算出所述平行语料库中的第二语言文本的字符级别的词向量;
实体识别模块,用于对所述第一语言文本进行命名实体识别,得到第一命名实体集合,并且对所述第二语言文本进行命名实体识别,得到第二命名实体集合;
实体向量计算模块,与所述词向量计算模块以及所述实体识别模块均相耦合,用于对所述第一语言文本的字符级别的词向量采用加权平均算法得到所述第一命名实体集合中的各个实体向量,还用于对所述第二语言文本的字符级别的词向量采用加权平均算法得到所述第二命名实体集合中的各个实体向量;
概率分布计算模块,与所述实体识别模块以及所述实体向量计算模块相耦合,用于计算出所述第一命名实体集合中各个实体的概率分布,还用于计算出所述第二命名实体集合中各个实体的概率分布;
互信息熵计算模块,与所述概率分布计算模块相耦合,用于根据所述第一命名实体集合中各个实体的概率分布以及所述第二命名实体集合中各个实体的概率分布来求取所述第一命名实体集合中的各个实体相对于所述第二命名实体集合中的各个实体的互信息熵;还用于求取所述第二命名实体集合中的各个实体相对于所述第一命名实体集合中的各个实体的互信息熵;
实体对齐模块,与所述互信息熵计算模块相耦合,用于当所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的另一实体的互信息熵大于所述第一命名实体集合中的某一实体相对于所述第二命名实体集合中的除了该另一实体之外的各个实体的互信息熵,并且所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的某一实体的互信息熵大于所述第二命名实体集合中的另一实体相对于所述第一命名实体集合中的除了该某一实体之外的各个实体的互信息熵时,将所述第一命名实体集合中的某一实体与所述第二命名实体集合中的另一实体对齐。
6.如权利要求5所述的基于互信息熵的跨语言实体自动对齐系统,其特征在于,
所述第一命名实体集合为:E1={K1,K2,…,Kr},其中,K1,K2,…,Kr表示所述第一命名实体集合中的各个实体;
所述第二命名实体集合为:E2={L1,L2,…,Lw},其中,L1,L2,…,Lw表示所述第二命名实体集合中的各个实体;
第一命名实体集合的第m个实体向量为:VE1m=[a1m,a2m,a3m,…,aNm],其中,a1m,a2m,a3m,…,aNm分别表示所述第一命名实体集合的第m个实体向量在所述第一语言文本不同位置的词向量的数值;
所述第二命名实体集合的第n个实体向量为:VE2n=[b1n,b2n,b3n,…,bNn],其中,b1n,b2n,b3n,…,bNn分别表示所述第二命名实体集合的第n个实体向量在所述第二语言文本不同位置的词向量的数值。
7.如权利要求6所述的基于互信息熵的跨语言实体自动对齐系统,其特征在于,所述概率分布的计算式为:
P1m=Km/(a1m+a2m+a3m+…+aNm),其中,P1m表示所述第一命名实体集合中的第m个实体Km的概率分布;以及
P2n=Ln/(b1n+b2n+b3n+…+bNn),其中,P2n表示所述第二命名实体集合中的第n个实体Ln的概率分布。
8.如权利要求7所述的基于互信息熵的跨语言实体自动对齐系统,其特征在于,所述互信息熵的计算式如下:
D(E1m|E2n)=Σ(P1m*log(P1m/P2n)),其中,D(E1m|E2n)表示所述第一命名实体集合中的第m个实体相对于所述第二命名实体集合中的第n个实体的互信息熵;以及
D(E2n|E1m)=Σ(P2n*log(P2n/P1m)),其中,D(E2n|E1m)表示所述第二命名实体集合中的第n个实体相对于所述第一命名实体集合中的第m个实体的互信息熵。
9.一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011535427.3A CN112464634B (zh) | 2020-12-23 | 2020-12-23 | 基于互信息熵的跨语言实体自动对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011535427.3A CN112464634B (zh) | 2020-12-23 | 2020-12-23 | 基于互信息熵的跨语言实体自动对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464634A CN112464634A (zh) | 2021-03-09 |
CN112464634B true CN112464634B (zh) | 2023-09-05 |
Family
ID=74803354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011535427.3A Active CN112464634B (zh) | 2020-12-23 | 2020-12-23 | 基于互信息熵的跨语言实体自动对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112464634B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908712A (zh) * | 2017-11-10 | 2018-04-13 | 哈尔滨工程大学 | 基于术语提取的跨语言信息匹配方法 |
CN111753024A (zh) * | 2020-06-24 | 2020-10-09 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779087B2 (en) * | 2013-12-13 | 2017-10-03 | Google Inc. | Cross-lingual discriminative learning of sequence models with posterior regularization |
CN108009182B (zh) * | 2016-10-28 | 2020-03-10 | 京东方科技集团股份有限公司 | 一种信息提取方法和装置 |
-
2020
- 2020-12-23 CN CN202011535427.3A patent/CN112464634B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908712A (zh) * | 2017-11-10 | 2018-04-13 | 哈尔滨工程大学 | 基于术语提取的跨语言信息匹配方法 |
CN111753024A (zh) * | 2020-06-24 | 2020-10-09 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
Non-Patent Citations (1)
Title |
---|
中文短文本聚合模型研究;刘震;陈晶;郑建宾;华锦芝;肖淋峰;;软件学报(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112464634A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018202580B2 (en) | Contextual pharmacovigilance system | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
Gomaa et al. | Short answer grading using string similarity and corpus-based similarity | |
US10755028B2 (en) | Analysis method and analysis device | |
CN110929498B (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
US10108661B2 (en) | Using synthetic events to identify complex relation lookups | |
US11327971B2 (en) | Assertion-based question answering | |
CN112560485A (zh) | 一种实体链接方法、装置、电子设备及存储介质 | |
US9348806B2 (en) | High speed dictionary expansion | |
CN113722441B (zh) | 一种相似文本的生成方法、装置、设备及存储介质 | |
CN114861635A (zh) | 一种中文拼写纠错方法、装置、设备及存储介质 | |
CN112836019B (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 | |
CN110580337A (zh) | 一种基于实体相似度计算的专业实体消歧实现方法 | |
US10229156B2 (en) | Using priority scores for iterative precision reduction in structured lookups for questions | |
CN112464634B (zh) | 基于互信息熵的跨语言实体自动对齐方法及系统 | |
CN113408280A (zh) | 负例构造方法、装置、设备和存储介质 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN116483979A (zh) | 基于人工智能的对话模型训练方法、装置、设备及介质 | |
CN110188181B (zh) | 领域关键词确定方法、装置、电子设备和存储介质 | |
KR101706827B1 (ko) | 개체 간 사회 관계 추출 장치 및 방법 | |
KR101983477B1 (ko) | 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템 | |
Li et al. | PRIS at Knowledge Base Population 2013. | |
CN113627186B (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN113420545B (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |