CN103778142A - 一种基于条件随机场的缩略词扩展解释识别方法 - Google Patents

一种基于条件随机场的缩略词扩展解释识别方法 Download PDF

Info

Publication number
CN103778142A
CN103778142A CN201210404108.8A CN201210404108A CN103778142A CN 103778142 A CN103778142 A CN 103778142A CN 201210404108 A CN201210404108 A CN 201210404108A CN 103778142 A CN103778142 A CN 103778142A
Authority
CN
China
Prior art keywords
initialism
feature
sequence
expansion
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210404108.8A
Other languages
English (en)
Inventor
刘杰
陈季梦
黄亚楼
刘天笔
王嫄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201210404108.8A priority Critical patent/CN103778142A/zh
Publication of CN103778142A publication Critical patent/CN103778142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于条件随机场的缩略词扩展解释识别方法,涉及机器学习领域和缩略词识别任务。本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,并采用条件随机场这一结构化模型来识别缩略词的扩展解释。针对缩略词识别任务的具体特点,发明设计并抽取了三类特征,包括拼写特征、与缩略词的对应特征、上下文相关特征,并对模型进行了改进。所设计的模型考虑了缩略词扩展解释的上下文信息和结构信息,并具有潜在稀疏特征学习能力,发明进一步设计了多种特征函数及其组合方法,从而更好地从文本序列中识别出可能的扩展解释。

Description

一种基于条件随机场的缩略词扩展解释识别方法
技术领域
本发明涉及机器学习领域和缩略词识别任务,尤其涉及一种基于条件随机场的缩略词扩展解释识别方法。
背景技术
目前,针对英文缩略词及其解释的自动识别与抽取方法主要有基于规则的方法和全监督的机器学习方法。这些方法通常要求在文本中必须出现缩略词,然后设计不同的规则和特征在该缩略词附近某窗口大小内匹配可能出现的扩展解释候选。
发明人在实现本发明的过程中,发现现有技术方法中至少存在以下缺点和不足:
1)归纳缩略词抽取规则复杂,耗费人力资源。
2)忽略了大多数的缩略词及其扩展解释并不成对出现这一现象。若是爬取的源数据中未包含同时出现的缩略词与扩展解释,或缩略词与扩展解释并未在小窗口中同时出现,则将遗漏可能的扩展解释。
3)另外,传统方法通常采用特征定义的方式利用这一上下文语境信息,而从未使用模型来表示文本的上下文关系。
发明内容
本发明提供了一种基于条件随机场的缩略词扩展解释识别方法。本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,并采用条件随机场(CRF,Conditional Random Fields)来识别缩略词的扩展解释。CRF模型考虑了缩略词扩展解释的上下文信息和结构信息,可更好地从文本序列中识别出可能的扩展解释。所述方法包括将缩略词扩展解释识别任务建模为序列识别问题;利用CRF来识别缩略词扩展解释;具有潜在稀疏特征学习能力的条件随机场的方法;研究多种特征函数的设计及其组合方法;缩略词与其对应的拓展解释的三类特征的设计及应用。详见下文描述:
所述将缩略词扩展解释识别任务建模为序列识别问题,包括缩略词的扩展解释识别任务,序列标注模型,序列识别标签设计。
所述缩略词的扩展解释识别任务,是指在序列文本中识别出解释某缩略词的短语的过程。因为单独识别出扩展解释短语中的一个或部分词,并不能完整地解释缩略词,而只有全部识别出扩展解释,才能解释缩略词的意义,所以该任务可认为是序列识别的过程。由于缩略词的扩展解释具有上下文的序列特征,因此本发明将其建模为序列标注模型,而不是简单的对单个词进行标注。
所述序列标注模型定义为,给定一个缩略词q和一个包含序列单词x=(x1,...,xn)的句子,从所有可能的序列标注中挑选出最有可能的序列标注y=(y1,...,yn)。因此,将从解得的标签序列y中得知是否该句子包含与缩略词对应的候选解释,无需缩略词与扩展解释在文中成对出现。
所述序列识别标签设计,在自然语言任务中,常用两种NP标签来表示一个连续的短语(chunk):短语的开始(B-NP),短语的其他词(I-NP)。在本发明中,发明人也用“B”来表示扩展解释的开始,“I”来表示扩展解释中的其他词,而其他不相干的词则标记为“O”。
所述利用CRF来识别缩略词扩展解释,指CRF在建模时考虑了数据的内容信息和数据之间标签的结构和动态变化等信息,在序列标注任务中,CRF要学习一个从观测序列x=(x1,...,xn)到标注序列y=(y1,...,yn)的函数映射关系 P ( y | x ; θ ) = 1 Z ( x ; θ ) exp { θ T F ( y , x ) } .
所述具有潜在稀疏特征学习能力的条件随机场(SNCRF,Sparse Neural Conditional Random Fields)的方法,是为了解决现实中的特征稀疏问题。在CRF中引入一个神经网络算子δ(xt;α),以便从稀疏的原始数据特征中学习到潜在的有效特征,如图2所示。而CRF则变换为如下公式所示。
P ( y | x ; θ , α ) = 1 Z ( x ; θ ) exp { Σ t θ T F ( y , δ ( x t ; α ) , t ) }
所述多种特征函数的设计及其组合方法,CRF通常使用两类特征函数,分别是本地的状态特征函数和边的转移特征函数。状态特征函数仅计算单个节点的特征值,而转移特征函数则计算节点之间边的特征值。CRF中边和节点的特征被区分对待,一方面这反映出两者的特征类型不同,但另一方面,这也削减了两者之间的联系。因此本发明引进一种新的特征函数,同时考虑边和节点对模型的影响。训练CRF模型时,可仅使用两类特征函数,也可同时使用三类特征函数。
所述缩略词与其对应的拓展解释的三类特征,包括拼写特征,与缩略词的对应特征,上下文相关特征。拼写特征描述的是一个需标注的目标单词本身的拼写结构特征,并未考虑它与对应缩略词的关系。与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系,这是识别该词是否是给定缩略词的扩展解释的重要依据。上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系,这是一个与文本序列相关的特征。
本发明通过利用所设计的SNCRF模型从三类稀疏特征中学习出潜在的有效特征,同时考虑上下文相关的特征定义和结构化模型两个角度,使其在上下文相关的文本中识别缩略词的扩展解释更具优势。
附图说明
图1为一个缩略词扩展解释序列标注示例;
图2为一个改进的CRF模型:带特征抽取器与节点-边联合的特征函数;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了更好地识别出序列文本中的缩略词扩展解释,本发明将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,并采用条件随机场来识别缩略词的扩展解释。
为了将缩略词扩展解释识别任务建模为序列识别问题,用NP标签来描述所需识别的单词的标签类别。用“B”来表示扩展解释的开始,“I”来表示扩展解释中的其他词,而其他不相干的词则标记为“O”。一个完整的缩略词扩展解释应是以B为开头,以最后一个连续的I为结尾。如图1所示,是一个缩略词为“BBC”的句子的序列标注示例,其中“British Broadcasting Corporation”的类别标签是“B-I-I”,而其他的单词则都是“O”。
序列标注模型定义为,给定一个缩略词q和一个包含序列单词x=(x1,...,xn)的句子,从所有可能的序列标注中挑选出最有可能的序列标注y=(y1,...,yn)。需要学习如下CRF模型,
P ( y | x ; θ ) = 1 Z ( x ; θ ) exp { θ T F ( y , x ) }
其中,F(y,x)是输入的观测序列x到输出的序列y的特征函数,θ是矢量参数,Z(x;θ)是标准化因子,是所有可能的标注序列情况之和,
Z(x;θ)=∑y′exp{θTF(y′,x)}
给定一个序列训练集合为了估计出最有可能的标注序列
Figure BSA00000792601700032
CRF的参数估计可用最大化对数似然得出,如下公式所示。
θ ^ = max θ { Σ t = 1 N lo g e P ( y ( t ) | x ( t ) ; θ ) - U ( θ ) }
其中是正则化函数,用于防止过拟合。
CRF是一个较成熟的序列识别模型,现已存在多种有效的优化推导算法:Viterbi算法和置信传播算法。
如上所述,本发明采用CRF可以快速地从文本序列中识别出缩略词的拓展解释,并计算出与该缩略词的相似度分值,从而为该缩略词的拓展解释进行排序。然而,由于现实中特征较为稀疏,初始输入的特征不一定有效。为了解决这一问题,本发明在CRF中引入了神经网络算子,从稀疏的原始数据特征中学习到潜在的有效特征。所述具有潜在稀疏特征学习能力的条件随机场SNCRF就是这一改进的CRF方法。
SNCRF在CRF中引入一个神经网络算子δ(xt;α),以便从稀疏的原始数据特征中学习到潜在的有效特征,如图2所示。具体方法如下,
考虑一组序列观测值
Figure BSA00000792601700035
及其标签
Figure BSA00000792601700036
用一个长串表示y,使yt∈y={1,...,C},用二进制来编码每个yt。例:当yt=2,C=4时,yt转换为[0,1,0,0]T。非线性SNCRF模型可表示为,
P ( y | x ; θ , α ) = 1 Z ( x ; θ ) exp { Σ t θ T F ( y , δ ( x t ; α ) , t ) }
其中
Figure BSA00000792601700038
δ(xt;α)是一个非线性特征抽取函数,可由参数α控制。SNCRF像是一个多层神经网络,可同时优化分类器和隐藏层特征,如图2所示。在实现过程中,发明人选用了神经网络作为特征抽取器δ(xt;α),如下公式所示。
δ t ( x t ; α ) = ρ ( Σ k = 1 H w t , k δ h k ( x ) + b t δ )
h k ( x ) = ρ ( Σ j = 1 D w k , j h x j + b k h )
其中,i=1,...,M,ρ是一个非线性转换函数,参数α包括了特征抽取过程中所需要调节的所有参数,包括w和b。
采用SNCRF可以学习出稀疏特征的有效表示,尤其在复杂任务中具有明显优势。
所述多种特征函数的设计及其组合方法。传统CRF通常使用两类特征函数,分别是本地的状态特征函数和边的转移特征函数。
状态特征函数仅计算单个节点的特征值,如下公式所示,
F v ( x t , y t ) = Σ t f v ( δ ( x t ) , y t )
其中,δ(xt)是一个节点的特征抽取器,对于含大量特征的复杂模型可以先抽取较能反映标签信息的特征再进行训练,以便降低数据维度。对于传统的CRF而言,δ(xt)输出即为xt本身。假设,δ(xt)是d维,s是标签空间的大小,这种状态特征有s×d个。
转移特征函数则计算节点之间边的特征值。设序列中的节点之间的边集合为E,<u,v>∈E,且u,v∈V,对x上某一边(y′,y),其转移特征函数如下公式所示。
F e ( x t , y t ) = &Sigma; t f e ( y u , y v )
其中
Figure BSA00000792601700042
对每一个节点这种转移特征有s2个。
CRF中边和节点的特征被区分对待,一方面这反映出两者的特征类型不同,但另一方面,这也削减了两者之间的联系。因此本发明引进一种新的特征函数,同时考虑边和节点对模型的影响,如以下公式所示。
F ve ( y , x ) = &Sigma; ve f ve ( &delta; ( x v ) , y v , y u )
此类特征的作用相当于在模型中显式地增加了ds2个边和节点联合的特征,即增加了内容特征与上下文相关的联合特征,用特征的结构化联合增强模型的结构化,可更好的预测结构化数据的序列。
训练CRF模型时,可仅使用两类特征函数,也可同时使用三类特征函数。同时采用三类特征函数的模型明显要优于其他组合。
为了更好的识别语句中的扩展解释,本发明抽取了三种类型的特征,具体描述如下:
拼写特征:拼写特征描述的是一个需标注的目标单词本身的拼写结构特征,并未考虑它与对应缩略词的关系。如单词中是否存在大写字母,是否存在数字,或者是否存在除字母数字外的特殊符号。这类特征非常重要,因为人们常用这类拼写信息来强调缩略词的扩展解释。
与缩略词的对应特征:这类特征描述需标注的单词与给定缩略词之间的对应关系,这是识别该词是否是给定缩略词的扩展解释的重要依据。如该词的首字母是否出现在缩略词中,该词的大写字母或特殊字母是否出现在缩略词中。
上下文相关特征:以上两类特征描述的都是一个单词的特征,而单词周围的单词是否是扩展解释中的一员也是非常关键的一个指向因素。本发明设置了窗口大小为3的文本窗口,包括需标注的目标单词本身,该词的前一个单词,该词的后一个单词。判断当目标单词的首字母或大写字母在缩略词t位置中时它的前一个单词的首字母或大写字母是否在缩略词中t-1的位置;判断当目标单词的首字母或大写字母在缩略词t位置中时它的后一个单词的首字母或大写字母是否在缩略词中t+1的位置。
综上所述,本发明提供了一种基于条件随机场的缩略词扩展解释识别方法。可将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,设计合适的特征与标签,并采用具有潜在稀疏特征学习能力的条件随机场来识别缩略词的扩展解释。SNCRF模型考虑了缩略词扩展解释的上下文信息和结构信息,具备优秀的稀疏特征学习能力,可更好地从文本序列中识别出可能的扩展解释。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于条件随机场的缩略词扩展解释识别系统,其特征在于:将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务,并采用条件随机场(CRF,Conditional Random Fields)来识别缩略词的扩展解释。所述方法包括将缩略词扩展解释识别任务建模为序列识别问题,用NP标签来标注一个序列文本,用“B”来表示扩展解释的开始,“I”来表示扩展解释中的其他词,而其他不相干的词则标记为“O”;所述利用CRF来识别缩略词扩展解释,学习从观测文本序列的特征矩阵x=(x1,...,xn)到标注序列向量y=(y1,...,yn)的函数映射关系
Figure FSA00000792601600011
所述具有潜在稀疏特征学习能力的条件随机场(SNCRF,Sparse Neural Conditional Random Fields)的方法,是为了解决现实中的特征稀疏问题。在CRF中引入一个神经网络算子δ(xt;α),以便从稀疏的原始数据特征中学习到潜在的有效特征,从而学习如何更好地识别给定缩略词的扩展解释,如 P ( y | x ; &theta; , &alpha; ) = 1 Z ( x ; &theta; ) exp { &Sigma; t &theta; T F ( y , &delta; ( x t ; &alpha; ) , t ) } ; 所述多种特征函数的设计及其组合方法,包括本地的状态特征函数,边的转移特征函数,同时考虑边和节点的特征函数,状态特征函数仅计算单个节点的特征值,转移特征函数则计算节点之间边的特征值,同时考虑边和节点的特征函数则同时计算点和边的特征值。所述缩略词与其对应的拓展解释的三类特征,包括拼写特征,与缩略词的对应特征,上下文相关特征,拼写特征描述的是一个需标注的目标单词本身的拼写结构特征,与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系,上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系。
2.根据权利要求1所述的基于条件随机场的缩略词扩展解释识别系统,其特征在于将传统的缩略词与扩展解释对的识别任务建模成一个序列标记任务。
所述对缩略词的扩展解释识别任务建模成序列标注任务,是指将从序列文本中识别出解释某缩略词的短语这一过程建模为从文本中抽取序列特征,为序列特征自动标注标签。缩略词的序列标注模型定义为,给定一个缩略词q和一个包含序列单词x=(x1,...,xn)的句子,从所有可能的序列标注中挑选出最有可能的序列标注y=(y1,...,yn)。所述序列识别标签设计,用“B”来表示扩展解释的开始,“I”来表示扩展解释中的其他词,而其他不相干的词则标记为“O”。
3.根据权利要求1所述的利用CRF来识别缩略词扩展解释,其特征在于,
学习从观测文本序列的特征矩阵x=(x1,...,xn)到标注序列向量y=(y1,...,yn)的函数映射关系,从中学习最能识别出缩略词扩展解释的参数,
P ( y | x ; &theta; ) = 1 Z ( x ; &theta; ) exp { &theta; T F ( y , x ) }
其中,F(y,x)是输入的观测序列x到输出的序列y的特征函数,θ是矢量参数,Z(x;θ)是标准化因子,是所有可能的标注序列情况之和,
Z(x;θ)=∑y′exp{θTF(y′,x)}
给定一个序列训练集合
Figure FSA00000792601600014
为了估计出最有可能的标注序列
Figure FSA00000792601600015
CRF的参数估计可用最大化对数似然得出,如下公式所示。
&theta; ^ = max &theta; { &Sigma; t = 1 N lo g e P ( y ( t ) | x ( t ) ; &theta; ) - U ( &theta; ) }
其中
Figure FSA00000792601600022
是正则化函数,用于防止过拟合。
所述CRF采用Viterbi算法和置信传播算法。
4.根据权利要求1所述具有潜在稀疏特征学习能力的条件随机场模型SNCRF,其特征在于,在CRF中引入了神经网络算子,从稀疏的原始数据特征中学习到潜在的有效特征。
SNCRF在CRF中引入一个神经网络算子δ(xt;α),以便从稀疏的原始数据特征中学习到潜在的有效特征。具体方法如下,
考虑一组序列观测值
Figure FSA00000792601600023
及其标签
Figure FSA00000792601600024
用一个长串表示y,使yt∈y={1,...,C},用二进制来编码每个yt。例:当yt=2,C=4时,yt转换为[0,1,0,0]T。非线性SNCRF模型可表示为,
P ( y | x ; &theta; , &alpha; ) = 1 Z ( x ; &theta; ) exp { &Sigma; t &theta; T F ( y , &delta; ( x t ; &alpha; ) , t ) }
其中
Figure FSA00000792601600026
δ(xt;α)是一个非线性特征抽取函数,可由参数α控制。SNCRF像是一个多层神经网络,可同时优化分类器和隐藏层特征,如图2所示。在实现过程中,发明人选用了神经网络作为特征抽取器δ(xt;α),如下公式所示。
&delta; t ( x t ; &alpha; ) = &rho; ( &Sigma; k = 1 H w t , k &delta; h k ( x ) + b t &delta; )
h k ( x ) = &rho; ( &Sigma; j = 1 D w k , j h x j + b k h )
其中,i=1,...,M,ρ是一个非线性转换函数,参数α包括了特征抽取过程中所需要调节的所有参数,包括w和b。
5.根据权利要求1所述多种特征函数的设计及其组合方法,其特征在于,本地的状态特征函数,边的转移特征函数,同时考虑边和节点的特征函数及其组合。
所述状态特征函数仅计算单个节点的特征值,如下公式所示,
F v ( x t , y t ) = &Sigma; t f v ( &delta; ( x t ) , y t )
其中,δ(xt)是一个节点的特征抽取器,对于含大量特征的复杂模型可以先抽取较能反映标签信息的特征再进行训练,以便降低数据维度。对于传统的CRF而言,δ(xt)输出即为xt本身。假设,δ(xt)是d维,s是标签空间的大小,这种状态特征有s×d个。
所述转移特征函数则计算节点之间边的特征值。设序列中的节点之间的边集合为E,<u,v>∈E,且u,v∈V,对x上某一边(y′,y),其转移特征函数如下公式所示。
F e ( x t , y t ) = &Sigma; t f e ( y u , y v )
其中对每一个节点这种转移特征有s2个。
所述同时考虑边和节点的特征函数,如以下公式所示。
F ve ( y , x ) = &Sigma; ve f ve ( &delta; ( x v ) , y v , y u )
此类特征的作用相当于在模型中显式地增加了ds2个边和节点联合的特征,即增加了内容特征与上下文相关的联合特征,用特征的结构化联合增强模型的结构化,可更好的预测结构化数据的序列。
所述特征函数的多种组合方式,在训练CRF模型时,可仅使用两类特征函数,也可同时使用三类特征函数。同时采用三类特征函数的模型明显要优于其他组合。
6.根据权利要求1所述缩略词与其对应的拓展解释的三类特征,其特征在于文本序列的拼写特征,与缩略词的对应特征,上下文相关特征。
拼写特征描述的是一个需标注的目标单词本身的拼写结构特征,如单词中是否存在大写字母,是否存在数字,或者是否存在除字母数字外的特殊符号。这类特征非常重要,因为人们常用这类拼写信息来强调缩略词的扩展解释。
与缩略词的对应特征是描述需标注的单词与给定缩略词之间的对应关系,如该词的首字母是否出现在缩略词中,该词的大写字母或特殊字母是否出现在缩略词中。
上下文相关特征描述的是需标注单词周围的其他单词与缩略词的对应关系,本发明设置了窗口大小为3的文本窗口,包括需标注的目标单词本身,该词的前一个单词,该词的后一个单词。判断当目标单词的首字母或大写字母在缩略词t位置中时它的前一个单词的首字母或大写字母是否在缩略词中t-1的位置;判断当目标单词的首字母或大写字母在缩略词t位置中时它的后一个单词的首字母或大写字母是否在缩略词中t+1的位置。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
CN201210404108.8A 2012-10-23 2012-10-23 一种基于条件随机场的缩略词扩展解释识别方法 Pending CN103778142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210404108.8A CN103778142A (zh) 2012-10-23 2012-10-23 一种基于条件随机场的缩略词扩展解释识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210404108.8A CN103778142A (zh) 2012-10-23 2012-10-23 一种基于条件随机场的缩略词扩展解释识别方法

Publications (1)

Publication Number Publication Date
CN103778142A true CN103778142A (zh) 2014-05-07

Family

ID=50570385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210404108.8A Pending CN103778142A (zh) 2012-10-23 2012-10-23 一种基于条件随机场的缩略词扩展解释识别方法

Country Status (1)

Country Link
CN (1) CN103778142A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298752A (zh) * 2014-10-15 2015-01-21 扬州大学 基于web网页资源的程序代码缩略词的自动扩充方法
CN105512511A (zh) * 2015-11-24 2016-04-20 南开大学 一种基于一致性多非负矩阵分解的聚类方法
CN107430600A (zh) * 2014-12-12 2017-12-01 慧与发展有限责任合伙企业 可扩展的web数据提取
CN108241631A (zh) * 2016-12-23 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN110889281A (zh) * 2019-11-21 2020-03-17 深圳无域科技技术有限公司 一种缩略词展开式的识别方法及装置
CN111090737A (zh) * 2018-10-24 2020-05-01 北京嘀嘀无限科技发展有限公司 词库更新方法、装置、电子设备及可读存储介质
CN111159017A (zh) * 2019-12-17 2020-05-15 北京中科晶上超媒体信息技术有限公司 一种基于槽填充的测试用例生成方法
CN117875311A (zh) * 2024-01-11 2024-04-12 北京领初医药科技有限公司 一种缩略语句匹配方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1357854A (zh) * 2000-12-05 2002-07-10 黄佑民 用于猜测英语缩写词的电子游戏装置
CN201167393Y (zh) * 2008-01-31 2008-12-17 中兴通讯股份有限公司 一种具有首字母快捷操作方式的移动终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1357854A (zh) * 2000-12-05 2002-07-10 黄佑民 用于猜测英语缩写词的电子游戏装置
CN201167393Y (zh) * 2008-01-31 2008-12-17 中兴通讯股份有限公司 一种具有首字母快捷操作方式的移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIE LIU ET AL.: ""Learning Conditional Random Fields with Latent Sparse Features for Acronym Expansion Finding"", 《PROCEEDINGS OF THE 20TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298752A (zh) * 2014-10-15 2015-01-21 扬州大学 基于web网页资源的程序代码缩略词的自动扩充方法
CN104298752B (zh) * 2014-10-15 2017-08-08 扬州大学 基于web网页资源的程序代码缩略词的自动扩充方法
CN107430600A (zh) * 2014-12-12 2017-12-01 慧与发展有限责任合伙企业 可扩展的web数据提取
CN105512511A (zh) * 2015-11-24 2016-04-20 南开大学 一种基于一致性多非负矩阵分解的聚类方法
CN105512511B (zh) * 2015-11-24 2018-07-06 南开大学 一种对异质网络中的节点进行聚类的方法
CN108241631A (zh) * 2016-12-23 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN111090737A (zh) * 2018-10-24 2020-05-01 北京嘀嘀无限科技发展有限公司 词库更新方法、装置、电子设备及可读存储介质
CN110889281A (zh) * 2019-11-21 2020-03-17 深圳无域科技技术有限公司 一种缩略词展开式的识别方法及装置
CN110889281B (zh) * 2019-11-21 2023-10-17 深圳无域科技技术有限公司 一种缩略词展开式的识别方法及装置
CN111159017A (zh) * 2019-12-17 2020-05-15 北京中科晶上超媒体信息技术有限公司 一种基于槽填充的测试用例生成方法
CN117875311A (zh) * 2024-01-11 2024-04-12 北京领初医药科技有限公司 一种缩略语句匹配方法、装置及存储介质
CN117875311B (zh) * 2024-01-11 2024-06-21 北京领初医药科技有限公司 一种缩略语句匹配方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN103778142A (zh) 一种基于条件随机场的缩略词扩展解释识别方法
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN109933792B (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
US11783179B2 (en) System and method for domain- and language-independent definition extraction using deep neural networks
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN112883153B (zh) 基于信息增强bert的关系分类方法及装置
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN112580362A (zh) 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
CN112528658A (zh) 层次化分类方法、装置、电子设备和存储介质
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
Mou et al. Recognizing entailment and contradiction by tree-based convolution
CN110941700B (zh) 一种基于多任务联合学习的论辩挖掘系统及其工作方法
CN103699568A (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其系统
Lalrempuii et al. Sentiment classification of crisis related tweets using segmentation
Aziz et al. Arabic fake news detection for Covid-19 using deep learning and machine learning
CN113076741A (zh) 一种基于多语言文本数据分析方法
Singh et al. Multilingual Sentiment Analysis of Tweetsusing a newModel SATV

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140507