CN104881397A - 缩写词扩展方法和装置 - Google Patents
缩写词扩展方法和装置 Download PDFInfo
- Publication number
- CN104881397A CN104881397A CN201410068944.2A CN201410068944A CN104881397A CN 104881397 A CN104881397 A CN 104881397A CN 201410068944 A CN201410068944 A CN 201410068944A CN 104881397 A CN104881397 A CN 104881397A
- Authority
- CN
- China
- Prior art keywords
- full name
- name word
- abb
- word
- kind candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种在多个语境中对缩写词进行扩展的方法和装置。该方法包括:在多个语境中,将与缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词;在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将其确定为第二类候选全称词;将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定第三类候选全称词;以及根据多个语境与第一类候选全称词和/或第二类候选词的对应关系以及置信度来构建训练数据集,学习分类模型,确定第三类候选全称词的置信度,从而确定缩写词在各个语境中对应的全称词。
Description
技术领域
本发明信息处理领域,更具体地涉及一种缩写词扩展方法和装置。
背景技术
实体链接(Entity linking)是将非结构化文本,如新闻,博客,论坛,微博等中的实体,如人,地点,组织与互联网知识库,如Wikipedia,DBPedia进行关联的技术。实体链接技术可以用于知识库的构建与动态更新,将文本内容语义化。然而,在实体链接过程中,实体名的形式往往为缩写形式,如“CNPC”,“ABC”等。由于每一个缩写词可以指代多个实体,例如“ABC”即可以用来指代“American Broadcasting Company”又可以用来指代“Agricultural Bank of China”,因此增加了实体链接中的消除歧义的难度。因此,确定这些缩写词的全称形式是实体链接首要解决的问题。
因此需要一种能够对缩写词进行扩展的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种在多个语境中对缩写词进行扩展的方法,包括:在多个语境中,将与缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词,并设置第一类候选全称词的置信度;在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为缩写词在该语境中的第二类候选全称词,并设置第二类候选全称词的置信度;在不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定缩写词在各语境中的第三类候选全称词;以及根据多个语境与第一类候选全称词和/或第二类候选词的对应关系以及第一类候选全称词和/或第二类候选词的置信度来构建训练数据集,利用训练数据集学习分类模型,基于分类模型来确定第三类候选全称词的置信度,从而确定缩写词在各个语境中对应的全称词。
根据本发明的一个方面,提供了一种在多个语境中对缩写词进行扩展的装置,包括:第一类候选全称词确定单元,第一类候选全称词确定单元被配置为在多个语境中,将与缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词,并设置第一类候选全称词的置信度;第二类候选全称词确定单元,第二类候选全称词确定单元被配置为在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为缩写词在该语境中的第二类候选全称词,并设置第二类候选全称词的置信度;第三类候选全称词确定单元,第三类候选全称词确定单元被配置为在不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定缩写词在各语境中的第三类候选全称词;以及第三类候选全称词置信度确定单元,第三类候选全称词置信度确定单元被配置为根据多个语境与第一类候选全称词和/或第二类候选词的对应关系以及第一类候选全称词和/或第二类候选词的置信度来构建训练数据集,利用训练数据集学习分类模型,基于分类模型来确定第三类候选全称词的置信度,从而确定缩写词在各个语境中对应的全称词。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过本发明,可以利用缩写词出现的多个语境的上下文信息进行协同扩展来得到与该缩写词对应的全称词(也称为扩展词)。从而可以在高召回率前提下,获得更精确的全称词候选,有效减少消歧处理的工作量。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出根据本发明的一个实施例的缩写词扩展方法的示例性流程图;
图2是互联网知识库中关于缩写词“IBM”的相关信息的示意图;
图3是互联网知识库中关于缩写词“ABC”的消岐页面的示意图;
图4是示出根据本发明的一个实施例的缩写词扩展装置400的示例性配置的框图
图5是示出可以用于实施本发明的文本提取方法和装置的计算设备的举例的结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本发明提出一种基于“协同+反馈”的缩写词扩展技术,该技术利用缩写词出现的多个语境的上下文信息进行协同扩展来得到与该缩写词对应的全称词(也称为扩展词)。这里,“语境”可以是一篇文档、一个章节、一个段落、甚至一句话。
例如,实体名“ABC”出现在n个文档中,可以利用n个文档中“ABC”的上下文对所有的“ABC”进行协同扩展,而不是分别利用这n个文档对“ABC”进行单独扩展。因为,“ABC”在第i个文档中的上下文可以辅助“ABC”在第j个文档中的扩展。同时,该技术利用互联网知识库和数据得到与“ABC”对应的全称词候选集合,并将该全称词候选集合反馈到相关文档上下文,利用上下文进一步精炼全称词候选集合。该技术可以在高召回率前提下,获得更精确的全称词候选,从而有效减少消歧处理的工作量。
下面,以文档1至文档5五篇文档作为五个语境、“ABC”为给定缩写词为例,详细说明根据本发明的一个实施例的缩写词扩展方法。
图1示出了根据本发明的一个实施例的缩写词扩展方法的示意图。
首先,在步骤S110中,将与给定缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词,并设置第一类候选全称词的置信度。
具体地,对于给定的缩写词“ABC”,首先抽取该缩写词的局部上下文,如选取缩写词前后各m个词作为缩写词的局部上下文。然后利用全称词与缩写词的共现模式关系,例如“全称词(缩写词)”或“缩写词(全称词)”这样格式,从缩写词的上下文中抽取缩写词的全称词。
在该实施例中,在文档1中找到了“ABC(American BroadcastingCompany)”,在文档2中找到“ABC(Agricultural Bank of China)”。
为了方便说明,将通过以上共现模式找到的与给定缩写词“ABC”对应的全称词称为该缩写词的第一类候选全称词,即,“AmericanBroadcasting Company”和“Agricultural Bank of China”都是“ABC”的第一类候选全称词,并将其在文档1和文档2中的置信度都设置为1.0。
我们假设,如果在一个语境中出现了给定缩写词与对应的全称词的共现模式,则与该缩写词对应的全称词是唯一确定的。例如,在一篇文档中,如果出现了“ABC(American Broadcasting Company)”,那么在该文档中再次出现的“ABC”一定表示“American Broadcasting Company”,而不会是其它。如果在一篇文档的不同位置处,例如不同段落分别出现了“ABC(American Broadcasting Company)”和“ABC(Agricultural Bankof China)”,则可以以一个段落作为一个语境,即“ABC(AmericanBroadcasting Company)”和“ABC(Agricultural Bank of China)”是在不同语境中,来执行根据本发明的缩写词扩展方法。
在一个实施例中,可以通过表格来更清楚地示出根据本发明的缩写词扩展方法的各个步骤。例如,可以将步骤S110的执行结果填入到表1中。在表1中,包括5列,分别是缩写词、文档ID、全称ID、全称名和置信度。其中,缩写词是给定的缩写词,在该实施例中是“ABC”;文档ID是各个语境的标号,在该实施例中是D1-D5,分别指代文档1至文档5;全称ID是在文档中出现的全称名的标号,在该实施例中,D1中出现了“ABC(American Broadcasting Company)”,其全称名为”AmericanBroadcasting Company”,全称ID为F1,D2中出现了“ABC(Agricultural Bank of China)”,其全称名为“Agricultural Bankof China”,全称ID为F2;置信度表示在该文档中,“ABC”指代相应全称名的置信度,例如表1中第一行C(F1,D1)=1.0表示ABC在文档1中指代“American Broadcasting Company”的置信度为1.0。
将在步骤S110中通过共现模式找到的第一类全称词填入表格中,如果不存在具有共现模式关系的缩写词和全称词,则填NIL。将第一类全称词的置信度填为1.0,否则为NIL。此时的状态可以用表1表示。
表1.
通过步骤S110,一些文档(D1和D2)中的缩写词已经找到了全称形式并确定了置信度。对于在步骤S110中没有找到全称形式的文档,执行步骤S120:在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为缩写词在该语境中的第二类候选全称词,并设置第二类候选全称词的置信度。
其中,可以根据第二类候选全称词与缩写词的距离(例如,全称词与缩写词之间的句子的数目)来确定第二类候选全称词的置信度。
其中,可以对不存在与缩写词具有共现模式关系的全称词的文档建立索引INDEX。然后将第一类候选全称词作为检索词检索文档索引INDEX。
在该具体实施例中,分别将“American Broadcasting Company”(其全称ID为F1)和“Agricultural Bank of China”(其全称ID为F2)作为检索词在文档3-5中进行检索。例如,在文档3中检索到文档3中含有全称F1,文档5中含有全称F2,可以对表1中的内容进行更新得到表2来表示执行步骤S120之后的状态。在这种情况下,可以将F1在文档3中的置信度设置为F1到缩写词“ABC”的距离的函数,例如,可以设置C(F1,D3)=e-distance(F1),其中,distance(F1)表示在文档3中F1到“ABC”的距离。类似地,F2在文档5的置信度C(F2,D5)=e-distance(F2),其中,distance(F2)表示在文档5中F2到“ABC”的距离。。
表2.
如果在一个语境中确定具有多个第二类候选全称词,例如,文档3中同时含有全称词F1和F2,那么此时的状态可以用表3表示。
表3.
这里,将F1在文档3中的置信度设置为e-distance(F1),F2在文档3的置信度设置为e-distance(F2),其中,distance(F1)表示在文档3中F1到“ABC”的距离,distance(F2)表示在文档3中F2到“ABC”的距离。为了表述简单,下面仍以在文档3中只含有全称词F1为例进行说明。
接下来,在步骤S130中,在不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定缩写词在各语境中的第三类候选全称词。
缩写词的可能的全称还可以从互联网知识库,如Wikipedia,DBPedia,BaiduBaike中得到。例如,可以包括以下来源:重定向链接(见图2)、首段中的黑体字(见图2)、消歧页面(见图3)以及锚文本与实体的链接关系等。通过这些网络信息,可以构建缩写词的全局全称词集合。
遍历全局全称词集合中与在步骤S110中确定的第一类候选全称词不同的全称词作为检索词在文档索引INDEX中进行检索。如果某个文档含有某个全称词,则将该全称词称为第三类候选全称词。
例如,基于网络信息,还可以获得与“ABC”对应的ABC DevelopmentCorporation、Asahi Broadcasting Corporation、Associated BritishCorporation、Australian Broadcasting Corporation等多个全称词候选,其全称ID分别为F3、F4、F5和F6。
分别在文档3至文档5中遍历除“American Broadcasting Company”和“Agricultural Bank of China”之外的全称词候选,确定在文档4中含有全称词F3和F4,文档5中含有全称词F5和F6,那么此时的状态可以用表4表示。
表4.
通过以上步骤,可以得到大部分文档中缩写词的全称词候选(有些文档可能不能找到缩写词的扩展词)。D1中缩写词的全称ID为F1、D2中缩写词的全称ID为F2、D3中缩写词的全称ID为F1、D4中缩写词的全称ID为F3,F4、D5中缩写词的全称ID为F2,F5,F6。
接下来,在步骤S140中,根据多个语境与第一类候选全称词和/或第二类候选词的对应关系以及第一类候选全称词和/或第二类候选词的置信度来构建训练数据集,利用训练数据集来学习分类模型,基于分类模型来确定第三类候选全称词的置信度,从而确定缩写词在各个语境中的全称词。
从以上表4中可以看到,第一类候选全称词的置信度已经设置为1.0,第二类候选全称词的置信度为全称词到缩写词的距离的函数值,如D1中的F1、D2中的F2、D3中的F1以及D5中的F2,而第三类候选全称词的置信度还不确定。下面将介绍计算第三类候选全称词的置信度的方法的一个实施例。
首先,根据表4可以得到表5。
表5
D1(ABC) | D2(ABC) | D3(ABC) | D4(ABC) | D5(ABC) | |
F1 | 1 | 0 | 1 | 0 | 0 |
F2 | 0 | 1 | 0 | 0 | 1 |
F3 | 0 | 0 | 0 | 1 | 0 |
F4 | 0 | 0 | 0 | 1 | 0 |
F5 | 0 | 0 | 0 | 0 | 1 |
F6 | 0 | 0 | 0 | 0 | 1 |
在表5中,表示文档D1-D5和全称词F1-F6的对应关系。如果在某篇文档中存在该全称词,则在相应的表格中填1,否则就填0。
根据表5可以分别对文档D1-D5构建训练数据集。
文档D1
<f(F1,D1),f(F2,D1),+1> | <f(F2,D1),f(F1,D1),-1> |
<f(F1,D1),f(F3,D1),+1> | <f(F3,D1),f(F1,D1),-1> |
<f(F1,D1),f(F4,D1),+1> | <f(F4,D1),f(F1,D1),-1> |
<f(F1,D1),f(F5,D1),+1> | <f(F5,D1),f(F1,D1),-1> |
<f(F1,D1),f(F6,D1),+1> | <f(F6,D1),f(F1,D1),-1> |
文档D2
<f(F2,D2),f(F1,D2),+1> | <f(F1,D2),f(F2,D2),-1> |
<f(F2,D2),f(F3,D2),+1> | <f(F3,D2),f(F2,D2),-1> |
<f(F2,D2),f(F4,D2),+1> | <f(F4,D2),f(F2,D2),-1> |
<f(F2,D2),f(F5,D2),+1> | <f(F5,D2),f(F2,D2),-1> |
<f(F2,D2),f(F6,D2),+1> | <f(F6,D2),f(F2,D2),-1> |
文档D3
<f(F1,D3),f(F2,D3),+1> | <f(F2,D3),f(F1,D3),-1> |
<f(F1,D3),f(F3,D3),+1> | <f(F3,D3),f(F1,D3),-1> |
<f(F1,D3),f(F4,D3),+1> | <f(F4,D3),f(F1,D3),-1> |
<f(F1,D3),f(F5,D3),+1> | <f(F5,D3),f(F1,D3),-1> |
<f(F1,D3),f(F6,D3),+1> | <f(F6,D3),f(F1,D3),-1> |
文档D4(C(F3,D4))C(F4,D4))
<f(F3,D4),f(F1,D4),+1> | <f(F1,D4),f(F3,D4),-1> |
<f(F3,D4),f(F2,D4),+1> | <f(F2,D4),f(F3,D4),-1> |
<f(F3,D4),f(F4,D4),+1> | <f(F4,D4),f(F3,D4),-1> |
<f(F3,D4),f(F5,D4),+1> | <f(F5,D4),f(F3,D4),-1> |
<f(F3,D4),f(F6,D4),+1> | <f(F6,D4),f(F3,D4),-1> |
<f(F4,D4),f(F1,D4),+1> | <f(F1,D4),f(F4,D4),-1> |
<f(F4,D4),f(F2,D4),+1> | <f(F2,D4),f(F4,D4),-1> |
<f(F4,D4),f(F5,D4),+1> | <f(F5,D4),f(F4,D4),-1> |
<f(F4,D4),f(F6,D4),+1> | <f(F6,D4),f(F4,D4),-1> |
文档5
<f(F2,D5),f(F1,D5),+1> | <f(F2,D5),f(F1,D5),-1> |
<f(F2,D5),f(F3,D5),+1> | <f(F2,D5),f(F3,D5),-1> |
<f(F2,D5),f(F4,D5),+1> | <f(F2,D5),f(F4,D5),-1> |
<f(F2,D5),f(F5,D5),+1> | <f(F2,D5),f(F5,D5),-1> |
<f(F2,D5),f(F6,D5),+1> | <f(F2,D5),f(F6,D5),-1> |
其中,+1和-1是类别标签。例如,在<f(F1,D1),f(F2,D1),+1>中,+1表示f(F1,D1)比f(F2,D1)大,即在文档1中“ABC”对应的全称词是F1的置信度要比是F2的置信度高;在<f(F2,D1),f(F1,D1),-1>中,-1表示f(F2,D1)比f(F1,D1)小,即在文档1中“ABC”对应的全称词是F2的置信度要比是F1的置信度低。
f(F1,D1)是由D1中的n个训练特征构成的n维向量。训练特征可以包括但不限于以下特征:
利用以上所述的训练特征构建训练数据集,然后可以使用RankingSVM(排序支持向量机)算法学习一个分类模型,基于该分类模型可以得到C(F3,D4)、C(F4,D4)、C(F5,D5)和C(F6,D5)的排序结果,再根据排序结果分别对C(F3,D4)、C(F4,D4)、C(F5,D5)和C(F6,D5)打分,从而可以确定C(F3,D4)、C(F4,D4)、C(F5,D5)和C(F6,D5)的值。
最后,基于各类候选全称词的置信度,可以确定给定缩写词在各个语境中对应的全称词。
本领域技术人员可以理解,也可以使用其他分类算法,例如ListNet算法、SVM(支持向量机)算法、贝叶斯算法等分类算法来学习分类模型,
图4是示出根据本发明的一个实施例的在多个语境中对缩写词进行扩展的装置400的示例性配置的框图。
如图4所示,对缩写词进行扩展的装置400包括第一类候选全称词确定单元410、第二类候选全称词确定单元420、第三类候选全称词确定单元430、第三类候选全称词置信度确定单元440。
其中,第一类候选全称词确定单元410被配置为在多个语境中,将与缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词,并设置第一类候选全称词的置信度。
第二类候选全称词确定单元420被配置为在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为缩写词在该语境中的第二类候选全称词,并设置第二类候选全称词的置信度。
第三类候选全称词确定单元430被配置为在不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定缩写词在各语境中的第三类候选全称词。
第三类候选全称词置信度确定单元440被配置为根据多个语境与第一类候选全称词和/或第二类候选词的对应关系以及第一类候选全称词和/或第二类候选词的置信度来构建训练数据集,利用训练数据集学习分类模型,基于分类模型来确定第三类候选全称词的置信度,从而确定缩写词在各个语境中对应的全称词。
其中,第二类候选全称词确定单元420还被配置为:根据第二类候选全称词与缩写词的距离来确定第二类候选全称词的置信度。
其中,第一类候选全称词确定单元还被配置为将第一类候选全称词的置信度设置为1.0。
其中,对缩写词进行扩展的装置400还包括索引建立单元(未示出),索引建立单元被配置为对不存在具有共现模式关系的缩写词和全称词的语境建立索引。
其中,第三类候选全称词置信度确定单元440还被配置为使用排序支持向量机算法、支持向量机算法、ListNet算法、或贝叶斯算法来学习排序模型。
其中,网络信息包括:重定向链接、首段中的黑体字、消歧页面以及锚文本与实体的链接关系。
其中,第一类候选全称词确定单元410还被配置为基于缩写词的局部上下文来确定在各个语境中是否存在与缩写词具有共现模式关系的全称词。
其中,缩写词和与其对应的全称词的共现模式关系为“全称词(缩写词)”或“缩写词(全称词)”。
其中,第三类候选全称词置信度确定单元440还被配置为利用多个语境的训练特征来构建训练集。
关于对缩写词进行扩展的装置400的各个部分的操作和功能的细节可以参照结合图1-3描述的本发明的在多个语境中对缩写词进行扩展的方法的实施例,这里不再详细描述。
在此需要说明的是,图4所示的对缩写词进行扩展的装置400及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图4所示的结构框图进行修改。
本发明提出一种基于“协同+反馈”的缩写词扩展技术,该技术利用缩写词出现的多个语境的上下文信息进行协同扩展来得到与该缩写词对应的全称词。通过本发明,可以在高召回率前提下,获得更精确的全称词候选,从而有效减少消歧处理的工作量。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中,也根据需要存储当CPU501执行各种处理等等时所需的数据。CPU501、ROM502和RAM503经由总线504彼此链路。输入/输出接口505也链路到总线504。
下述部件链路到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可链路到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种在多个语境中对缩写词进行扩展的方法,包括:
在多个语境中,将与所述缩写词具有共现模式关系的全称词确定为所述缩写词的第一类候选全称词,并设置第一类候选全称词的置信度;
在不存在具有共现模式关系的缩写词和全称词的语境中,将所述第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为所述缩写词在该语境中的第二类候选全称词,并设置所述第二类候选全称词的置信度;
在所述不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与所述缩写词对应的全称词作为检索词进行检索,确定所述缩写词在各语境中的第三类候选全称词;以及
根据所述多个语境与第一类候选全称词和/或第二类候选词的对应关系以及所述第一类候选全称词和/或所述第二类候选词的置信度来构建训练数据集,利用所述训练数据集学习分类模型,基于所述分类模型来确定所述第三类候选全称词的置信度,从而确定所述缩写词在各个语境中对应的全称词。
附记2、根据附记1所述的方法,其中设置所述第二类候选全称词的置信度包括:根据所述第二类候选全称词与所述缩写词的距离来确定所述第二类候选全称词的置信度。
附记3、根据附记1或2所述的方法,其中,设置第一类候选全称词的置信度包括将所述第一类候选全称词的置信度设置为1.0。
附记4、根据附记1或2所述的方法,其中,对所述不存在具有共现模式关系的缩写词和全称词的语境建立索引。
附记5、根据附记1或2所述的方法,其中,使用排序支持向量机算法、支持向量机算法、ListNet算法、或贝叶斯算法来学习分类模型。
附记6、根据附记1或2所述的方法,其中,所述网络信息包括:重定向链接、首段中的黑体字、消歧页面以及锚文本与实体的链接关系。
附记7、根据附记1或2所述的方法,其中,基于所述缩写词的局部上下文来确定在各个语境中是否存在与所述缩写词具有所述共现模式关系的全称词。
附记8、根据附记1或2所述的方法,其中,所述缩写词和与其对应的全称词的共现模式关系为“全称词(缩写词)”或“缩写词(全称词)”。
附记9、根据附记1或2所述的方法,其中,根据所述多个语境与第一类候选全称词和/或第二类候选词的对应关系以及所述第一类候选全称词和/或所述第二类候选词的置信度来构建训练数据集包括利用所述多个语境的训练特征来构建训练数据集。
附记10、一种在多个语境中对缩写词进行扩展的装置,包括:
第一类候选全称词确定单元,所述第一类候选全称词确定单元被配置为在多个语境中,将与所述缩写词具有共现模式关系的全称词确定为所述缩写词的第一类候选全称词,并设置第一类候选全称词的置信度;
第二类候选全称词确定单元,所述第二类候选全称词确定单元被配置为在不存在具有共现模式关系的缩写词和全称词的语境中,将所述第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为所述缩写词在该语境中的第二类候选全称词,并设置所述第二类候选全称词的置信度;
第三类候选全称词确定单元,所述第三类候选全称词确定单元被配置为在所述不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与所述缩写词对应的全称词作为检索词进行检索,确定所述缩写词在各语境中的第三类候选全称词;以及
第三类候选全称词置信度确定单元,所述第三类候选全称词置信度确定单元被配置为根据所述多个语境与第一类候选全称词和/或第二类候选词的对应关系以及所述第一类候选全称词和/或所述第二类候选词的置信度来构建训练数据集,利用所述训练数据集学习分类模型,基于所述分类模型来确定所述第三类候选全称词的置信度,从而确定所述缩写词在各个语境中对应的全称词。
附记11、根据附记10所述的装置,其中,所述第二类候选全称词确定单元还被配置为:根据所述第二类候选全称词与所述缩写词的距离来确定所述第二类候选全称词的置信度。
附记12、根据附记10或11所述的装置,其中,所述第一类候选全称词确定单元还被配置为将所述第一类候选全称词的置信度设置为1.0。
附记13、根据附记10或11所述的装置,还包括索引建立单元,所述索引建立单元被配置为对所述不存在具有共现模式关系的缩写词和全称词的语境建立索引。
附记14、根据附记10或11所述的装置,其中,所述第三类候选全称词置信度确定单元还被配置为使用排序支持向量机算法、支持向量机算法、ListNet算法、或贝叶斯算法来学习排序模型。
附记15、根据附记10或11所述的装置,其中,所述网络信息包括:重定向链接、首段中的黑体字、消歧页面以及锚文本与实体的链接关系。
附记16、根据附记10或11所述的装置,其中,所述第一类候选全称词确定单元还被配置为基于所述缩写词的局部上下文来确定在各个语境中是否存在与所述缩写词具有所述共现模式关系的全称词。
附记17、根据附记10或11所述的装置,其中,所述缩写词和与其对应的全称词的共现模式关系为“全称词(缩写词)”或“缩写词(全称词)”。
附记18、根据附记10或11所述的装置,其中,所述第三类候选全称词置信度确定单元还被配置为利用所述多个语境的训练特征来构建训练数据集。
Claims (10)
1.一种在多个语境中对缩写词进行扩展的方法,包括:
在多个语境中,将与所述缩写词具有共现模式关系的全称词确定为所述缩写词的第一类候选全称词,并设置第一类候选全称词的置信度;
在不存在具有共现模式关系的缩写词和全称词的语境中,将所述第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为所述缩写词在该语境中的第二类候选全称词,并设置所述第二类候选全称词的置信度;
在所述不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与所述缩写词对应的全称词作为检索词进行检索,确定所述缩写词在各语境中的第三类候选全称词;以及
根据所述多个语境与第一类候选全称词和/或第二类候选词的对应关系以及所述第一类候选全称词和/或所述第二类候选词的置信度来构建训练数据集,利用所述训练数据集学习分类模型,基于所述分类模型来确定所述第三类候选全称词的置信度,从而确定所述缩写词在各个语境中对应的全称词。
2.根据权利要求1所述的方法,其中设置所述第二类候选全称词的置信度包括:根据所述第二类候选全称词与所述缩写词的距离来确定所述第二类候选全称词的置信度。
3.根据权利要求1或2所述的方法,其中,设置第一类候选全称词的置信度包括将所述第一类候选全称词的置信度设置为1.0。
4.根据权利要求1或2所述的方法,其中,对所述不存在具有共现模式关系的缩写词和全称词的语境建立索引。
5.根据权利要求1或2所述的方法,其中,使用排序支持向量机算法、支持向量机算法、ListNet算法、或贝叶斯算法来学习分类模型。
6.根据权利要求1或2所述的方法,其中,所述网络信息包括:重定向链接、首段中的黑体字、消歧页面以及锚文本与实体的链接关系。
7.根据权利要求1或2所述的方法,其中,基于所述缩写词的局部上下文来确定在各个语境中是否存在与所述缩写词具有所述共现模式关系的全称词。
8.根据权利要求1或2所述的方法,其中,所述缩写词和与其对应的全称词的共现模式关系为“全称词(缩写词)”或“缩写词(全称词)”。
9.根据权利要求1或2所述的方法,其中,根据所述多个语境与第一类候选全称词和/或第二类候选词的对应关系以及所述第一类候选全称词和/或所述第二类候选词的置信度来构建训练数据集包括利用所述多个语境的训练特征来构建训练数据集。
10.一种在多个语境中对缩写词进行扩展的装置,包括:
第一类候选全称词确定单元,所述第一类候选全称词确定单元被配置为在多个语境中,将与所述缩写词具有共现模式关系的全称词确定为所述缩写词的第一类候选全称词,并设置第一类候选全称词的置信度;
第二类候选全称词确定单元,所述第二类候选全称词确定单元被配置为在不存在具有共现模式关系的缩写词和全称词的语境中,将所述第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将该第一类候选全称词确定为所述缩写词在该语境中的第二类候选全称词,并设置所述第二类候选全称词的置信度;
第三类候选全称词确定单元,所述第三类候选全称词确定单元被配置为在所述不存在具有共现模式关系的缩写词和全称词的语境中,将基于网络信息获取的与第一类候选全称词不同的所有其他与所述缩写词对应的全称词作为检索词进行检索,确定所述缩写词在各语境中的第三类候选全称词;以及
第三类候选全称词置信度确定单元,所述第三类候选全称词置信度确定单元被配置为根据所述多个语境与第一类候选全称词和/或第二类候选词的对应关系以及所述第一类候选全称词和/或所述第二类候选词的置信度来构建训练数据集,利用所述训练数据集学习分类模型,基于所述分类模型来确定所述第三类候选全称词的置信度,从而确定所述缩写词在各个语境中对应的全称词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410068944.2A CN104881397B (zh) | 2014-02-27 | 2014-02-27 | 缩写词扩展方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410068944.2A CN104881397B (zh) | 2014-02-27 | 2014-02-27 | 缩写词扩展方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104881397A true CN104881397A (zh) | 2015-09-02 |
CN104881397B CN104881397B (zh) | 2018-01-30 |
Family
ID=53948892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410068944.2A Expired - Fee Related CN104881397B (zh) | 2014-02-27 | 2014-02-27 | 缩写词扩展方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104881397B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107622311A (zh) * | 2017-10-09 | 2018-01-23 | 深圳市唯特视科技有限公司 | 一种基于语境翻译的机器人模仿学习方法 |
CN108170662A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 缩简词的消歧方法和消歧设备 |
CN108628631A (zh) * | 2018-05-14 | 2018-10-09 | 北京理工大学 | 一种对参数中的缩写词进行自动扩展的方法 |
CN109800332A (zh) * | 2018-12-04 | 2019-05-24 | 北京明略软件系统有限公司 | 处理字段名的方法、装置、计算机存储介质及终端 |
CN110889281A (zh) * | 2019-11-21 | 2020-03-17 | 深圳无域科技技术有限公司 | 一种缩略词展开式的识别方法及装置 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
WO2021159757A1 (zh) * | 2020-09-09 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030139921A1 (en) * | 2002-01-22 | 2003-07-24 | International Business Machines Corporation | System and method for hybrid text mining for finding abbreviations and their definitions |
US20050033569A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for automatically identifying gene/protein terms in medline abstracts |
CN101593179A (zh) * | 2008-05-26 | 2009-12-02 | 国际商业机器公司 | 文档搜索方法和装置及文档处理器 |
CN103229137A (zh) * | 2010-09-29 | 2013-07-31 | 国际商业机器公司 | 基于上下文的首字母缩略词和缩写词的歧义消除 |
-
2014
- 2014-02-27 CN CN201410068944.2A patent/CN104881397B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030139921A1 (en) * | 2002-01-22 | 2003-07-24 | International Business Machines Corporation | System and method for hybrid text mining for finding abbreviations and their definitions |
US20050033569A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for automatically identifying gene/protein terms in medline abstracts |
CN101593179A (zh) * | 2008-05-26 | 2009-12-02 | 国际商业机器公司 | 文档搜索方法和装置及文档处理器 |
CN103229137A (zh) * | 2010-09-29 | 2013-07-31 | 国际商业机器公司 | 基于上下文的首字母缩略词和缩写词的歧义消除 |
Non-Patent Citations (3)
Title |
---|
DAVID SANCHEZ ET AL: "Automatic extraction of acronym definitions from the Web", 《APPLIED INTELLIGENCE》 * |
KAZEM TAGHVA ET AL: "Recognizing Acronyms and Their Definitions", 《INTERNATIONAL JOURNAL ON DOCUMENT ANALYSIS AND RECOGNITION》 * |
陈季梦 等: "基于半监督CRF的缩略词扩展解释识别", 《计算机工程》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170662A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 缩简词的消歧方法和消歧设备 |
CN107622311A (zh) * | 2017-10-09 | 2018-01-23 | 深圳市唯特视科技有限公司 | 一种基于语境翻译的机器人模仿学习方法 |
CN108628631A (zh) * | 2018-05-14 | 2018-10-09 | 北京理工大学 | 一种对参数中的缩写词进行自动扩展的方法 |
CN108628631B (zh) * | 2018-05-14 | 2019-02-15 | 北京理工大学 | 一种对参数中的缩写词进行自动扩展的方法 |
CN109800332A (zh) * | 2018-12-04 | 2019-05-24 | 北京明略软件系统有限公司 | 处理字段名的方法、装置、计算机存储介质及终端 |
CN110889281A (zh) * | 2019-11-21 | 2020-03-17 | 深圳无域科技技术有限公司 | 一种缩略词展开式的识别方法及装置 |
CN110889281B (zh) * | 2019-11-21 | 2023-10-17 | 深圳无域科技技术有限公司 | 一种缩略词展开式的识别方法及装置 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
US11914959B2 (en) | 2020-03-12 | 2024-02-27 | Boe Technology Group Co., Ltd. | Entity linking method and apparatus |
WO2021159757A1 (zh) * | 2020-09-09 | 2021-08-19 | 平安科技(深圳)有限公司 | 基于模型的缩写数据的实体识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104881397B (zh) | 2018-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720610B2 (en) | Relation extraction across sentence boundaries | |
CN104881397A (zh) | 缩写词扩展方法和装置 | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
CN104239300B (zh) | 从文本中挖掘语义关键词的方法和设备 | |
CN101785000B (zh) | 词概率确定方法和系统 | |
CN109739973A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN102314440B (zh) | 利用网络维护语言模型库的方法和系统 | |
US10795878B2 (en) | System and method for identifying answer key problems in a natural language question and answering system | |
CN110275962B (zh) | 用于输出信息的方法和装置 | |
WO2016020757A1 (en) | Method and system to associate meaningful expressions with abbreviated names | |
KR102560521B1 (ko) | 지식 그래프 생성 방법 및 장치 | |
CN110874535A (zh) | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN107765883A (zh) | 输入法的候选词语的排序方法和排序设备 | |
Shi et al. | Effidit: Your ai writing assistant | |
CN115129850A (zh) | 基于学术异质网络表示学习的参考文献引荐方法及设备 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN116595124A (zh) | 跨语言隐性关联知识发现方法、装置、设备和存储介质 | |
CN112445959A (zh) | 检索方法、检索装置、计算机可读介质及电子设备 | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
JP7161255B2 (ja) | 文書作成支援装置、文書作成支援方法、及び、文書作成プログラム | |
CN105095194A (zh) | 抽取姓名词典和翻译规则表的方法和设备 | |
CN110046346B (zh) | 一种语料意图监控的方法和装置、终端设备 | |
CN111274818B (zh) | 词向量的生成方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180130 Termination date: 20190227 |
|
CF01 | Termination of patent right due to non-payment of annual fee |