CN104035916A - 标准化标注工具的方法和设备 - Google Patents
标准化标注工具的方法和设备 Download PDFInfo
- Publication number
- CN104035916A CN104035916A CN201310072432.9A CN201310072432A CN104035916A CN 104035916 A CN104035916 A CN 104035916A CN 201310072432 A CN201310072432 A CN 201310072432A CN 104035916 A CN104035916 A CN 104035916A
- Authority
- CN
- China
- Prior art keywords
- mark
- similarity
- class
- attribute
- tool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了标准化标注工具的方法和设备。根据本发明的标准化标注工具的方法包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
Description
技术领域
本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种标准化标注工具的方法和设备。
背景技术
近年来,随着自然语言处理技术的发展,设计和实现了很多自然语言处理工具,如词性标注工具、句法分析工具、命名实体识别工具等。每一类别的工具又有多种类型的实现,这些不同类别的工具以及同一类别工具的不同种类的实现有可能采用不同的标注体系。这导致难以有效集成不同类别的工具,难以利用同一类别工具的不同种类实现的标注结果。
例如,存在多个词性标注工具和一个句法分析工具。句法分析工具需要利用多个词性标注工具的输出结果。假设以上各个工具的标注体系均不相同。在这种情况下,词性标注工具的标注体系均不同于句法分析工具的标注体系,导致句法分析工具无法有效利用前级的数据。而且,多个词性标注工具的标注结果不能以统一的标注体系输出,不利于来自多个词性标注工具的标注结果的共同使用。
可见,自然语言处理工具的标注体系不统一,阻碍了自然语言处理工具的有效集成,降低了工具之间的互操作性。
因此,需要标准化标注工具的标注体系。然而,由于有很多自然语言处理工具,现有标注体系较多,每种标注体系又有很多种输出标记,所以采用人工的方式,逐个比对各个标注工具的各个标注体系的各个输出标记,以确定其对应关系是十分繁重的工作。
因此,期望自动地且高效地实现标注工具的标准化。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种能够自动地、高效地标准化标注工具的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种用于标准化标注工具的方法,其包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
根据本发明的另一个方面,提供了一种用于标准化标注工具的设备,其包括:选择装置,被配置为选择与待标准化的非标准工具对应的标准工具;相似度计算装置,被配置为:对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及确定装置,被配置为根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明实施例的标准化标注工具的方法的流程图;
图2示出了根据本发明实施例的实例相似度的计算方法的流程图;
图3示出了根据本发明实施例的实例相似度的另一计算方法的流程图;
图4示出了根据本发明实施例的标准化标记工具的设备的结构方框图;以及
图5示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
本发明的主要思想是为了实现标注工具的标准化,需要确定非标准工具与标注工具之间输出标记的对应关系。而输出标记又与输出标注类和输出标注属性分别存在一一对应的关系。其中,输出标注类表明被标注对象所属的类别,输出标注属性表明被标注对象所具有的属性。输出标记本身提供的信息有限,而输出标注类和输出标注属性能够提供输出标记的语义信息,可用于推测标记的意义,从而利于确定标记之间的对应关系。因此,可以根据输出标注类和/或输出标注属性的相似度来确定输出标记之间的对应关系。具体地,可以从体现输出标注类和输出标注属性的语义的标签和/或描述来计算相应的相似度。此外,发明人创造性地提出了实例相似度的概念,巧妙地运用了标注体系中的指示词,从实例出发,确定输出标注类和/或输出标注属性的相似度。在利用各种相似度的同时,引入了约束条件,以进一步提高结果的正确性。
下面将参照图1描述根据本发明的实施例的标准化标注工具的方法的流程。
图1示出了根据本发明实施例的标准化标注工具的方法的流程图。如图1所示,根据本发明的标注工具标准化方法,包括如下步骤:选择与待标准化的非标准工具对应的标准工具(步骤S1);对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性(步骤S2);以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系(步骤S3)。
在步骤S1中,首先针对待标准化的非标准工具,选择与其对应的标注工具,也即与之具有相同功能的标注工具。
可以将标注工具按功能划分为若干类别,如词性标注工具类、句法分析工具类等,并且每一种工具类中至少有一种标准的标注工具。
实际上,各个工具类中包括的标准工具可以不断增加,即每当本发明处理一个新的标注工具时,首先判断该标注工具是否为标准工具,例如可通过将标注工具使用的标注体系与其按功能所述的工具类的标准标注体系作比较,判断该标注工具是否为标准工具。
如果判断为是,即该标注工具为该工具类中的标准工具,可将其加入到该工具类中,因此,该工具类的标准工具的数量增加了一个。
如果判断为否,即该标注工具不是该工具类中的标准工具,则对其进行根据本发明的方法的处理。当找到该标注工具的输出标记与标准标注工具的输出标记之间的对应关系之后,自然可以将该标注工具的输出结果转化为标准标注体系的标记,从而使得该标注工具也成为标准的标注工具。这样这个标注工具可以作为一个新的标准标注工具加入到现有的工具类中。
此外,如果一个标注工具采用标准标注体系,但目前没有与之对应的工具类,则可以创建一个新的工具类,将其作为该工具类的标准工具。
也即,工具类的类别和每个工具类中的标准工具的数量都是动态增加的。
如上文提到的那样,不同类别的工具类之间可能存在前后级的处理关系。具体地,工具类之间的关系包括前置关系和后置关系,具有前置关系或后置关系的工具类对应的标准工具可被直接集成为新的工具。
例如,词性标注工具与句法分析工具就存在着前后级关系,因此,对于词性标注工具而言,其具有相对于句法分析工具的前置关系,对于句法分析工具而言,其具有相对于词性标注工具的后置关系。
为了描述各个工具类,可以采用如下的方式记录每个工具类的多个属性。
如下面的表1所示,工具类的属性包括但不限于:工具类的统一标识符“URI”、工具类的名称“NAME”、工具类的描述“COMMENT”、工具类与顶层概念工具类“Tool”的子类关系“SUBCLASSOF”、工具类之间的前置关系和后置关系“PREPOSITION”和“POSTPOSITION”、工具类的标注标准“ANNOATIONSTANDARD”(即标准标注体系)、工具类的标准标注体系对应的指示词“INDICATOR_TAG”等。
表1:工具类的属性
属性名称 | 属性说明 |
URI | 工具类的统一标识符 |
NAME | 工具类名称 |
COMMENT | 工具类说明,描述 |
SUBCLASSOF | 描述工具类和顶层概念工具类之间的子类关系 |
PREPOSITION | 前置关系 |
POSTPOSITION | 后置关系 |
ANNOATIONSTANDARD | 工具类的标注标准 |
INDICATOR_TAG | 指示词 |
每个工具类可以具有统一资源标识符URI,URI的命名规则可以为http://domain/nameOfToolClass。其中“domain”是一级域名,可以是公司或组织的域名,“nameOfToolClass”为工具类的名称。
工具类的描述“COMMENT”是指从功能等角度给出的对工具类的描述或注释。例如,词性标注类的中文描述为“对于给定的句子,确定其中的每个词的词性”。
工具类与顶层概念工具类“Tool”的子类关系“SUBCLASSOF”是指逻辑上抽象出一个所有具体工具类的父类,即顶层概念工具类“Tool”,因此所有具体工具类都是它的子类。
工具类之间的前置关系和后置关系“PREPOSITION”和“POSTPOSITION”如前所述,不再赘述。
工具类的标注标准“ANNOATIONSTANDARD”,即标准标注体系。应注意,一个工具类可能对应多种标准的标注体系。举例来说,词性标注工具在处理不同的语言时,需要使用不同的标注体系。在处理英文时,可以采用Penn tag set(http://www.anc.org/OANC/penn.html)作为标准标注体系,在处理中文时,可以采用北大词性标注体系作为标准标注体系。
除了以上属性之外,还需为工具类的标准标注体系中的标记选择对应的指示词。指示词为与标准标注体系中的标记对应的词的示例。
以词性标注为例,选择Penn tag set为标准标注体系,为该体系中的标记选择指示词,其应为单一词性的词,如“国家”只有名词词性,“美丽”只有形容词词性等。
指示词属性构造模式可以为“INDICATOR_”+“TAG”,TAG为词性标记,例如,名词指示词属性用“INDICATOR_NN”表示,形容词指示词用属性“INDICATOR_ADJ”表示。作为示例,“国家_NN”表明作为指示词的“国家”在标准标注体系中应被标记为“NN”,表明其是名词。
可以用工具本体来描述某一个具体工具。仍以词性标注工具为例。每个工具本体有统一资源标识符URI,URI的命名规则可以为
http://domain/nameOfToolClass/nameOfTool。其中“domain”是一级域名,可以是公司或组织的域名,“nameOfToolClass”为工具类的名称,“nameOfTool”为工具的名称。作为示例,给出:
http://www.fujitsu.com/cn/frdc/POS/Beidapos.owl。工具类名称为POS,即词性标注工具类,工具的名称为Beidapos,即一个按北大标注体系进行标注的具体的词性标注工具。
工具本体包括输出标注类和属性。
输出标注类表明被标注对象所属的类别。以词性标注工具本体为例,本体中的输出标注类就是词性类,如名词类、动词类、形容词类等。以命名实体识别本体为例,输出标注类包括人名类、机构名类、地理名词类。
以下给出了作为一种输出标注类的形容词类的定义的示例。
作为示例,列出了类的“URI”、类的父类(由“subClassOf”表示)、类的标签(“label”)、类的描述(“comment”)。其中输出标注类(形容词类)的URI在上面的词性标注工具本体的URI基础上增加了“adjective”,表明其为形容词类。其父类为词性标注标记类。其具有英文的描述和标签。
从上述示例可以看出,输出标注类的标签和描述从语义的角度对输出标注类进行了说明和注释。输出标注类与标记又存在一一对应的关系,如名词类与标记“NN”对应。因此,在下文中,可以根据输出标注类的标签和/或描述的相似度来判断标记之间的对应关系。此外,父类信息可被应用到约束条件中。
工具本体的属性包括两大类,一类是整体地反映了具体工具的信息的属性,包括但不限于表2中所示出的那些。
表2:工具本体属性列表
其中,annotation_system属性表明工具采用的标注体系,可以利用这个属性来判断该工具是否使用对应工具类的标准标注体系,从而确定该工具是否是标准工具。
另一种属性是输出标注属性。输出标注属性表明被标注对象所具有的属性。以下给出了命名实体识别工具的输出标注属性的定义的示例。
作为示例,列出了输出标注属性的“URI”、输出标注属性的父属性,由“subPropertyOf”表示、输出标注属性的标签(“label”),输出标注属性的描述(“comment”)、输出标注属性的定义域(“domain”)和输出标注属性的值域(“range”)。
由于输出标注属性表明了被标注对象所具有的属性,因此,输出标注属性与标记存在一一对应的关系。如简体人名与标记“SN”对应。因此,在下文中,可以根据输出标注属性的标签和/或描述的相似度来判断标记之间的对应关系。输出标注属性的其它信息可用于约束条件。
在步骤S2中,对于非标准工具的每一个输出标注类,计算其与标准工具的每一个输出标注类的相似度;和/或对于非标准工具的每一个输出标注属性,计算其与标准工具的每一个输出标注属性的相似度。
根据本发明的方法,可以从标签、描述、实例三个角度计算输出标注类/输出标注属性的相似度。可以基于标签相似度、描述相似度、实例相似度中的至少一种来计算输出标注类/输出标注属性的相似度。并且,可以结合相关的约束条件进一步优化输出标注类/输出标注属性的相似度的计算。
如上所述,输出标注类和输出标注属性分别具有标签和描述,标签和描述从语义的角度,对输出标注类和输出标注属性进行了说明。根据这两个信息,可以获知输出标注类和输出标注属性的含义,进而明确标记的含义。因此,可以通过计算输出标注类的标签之间的字符串相似度来计算输出标注类的标签相似度,可以通过计算输出标注属性的标签之间的字符串相似度来计算输出标注属性的标签相似度。类似地,可以通过计算输出标注类的描述之间的字符串相似度来计算输出标注类的描述相似度,可以通过计算输出标注属性的描述之间的字符串相似度来计算输出标注属性的描述相似度。
基于字符串的相似度计算方法对于本领域技术人员而言是熟知的。可以采用本领域中任何适当的基于字符串的相似度计算方法来计算标签之间的相似度和描述之间的相似度。
例如,可以使用欧式距离、余弦距离、Levenshtein距离、Jaro Winkler距离、Jaccard距离之一来计算字符串相似度。
对于标签/描述的字符串所采用的语言彼此不一致的情形,可以通过将其中一种翻译为另一种的方式统一标签的字符串所使用的语言,以进行上述基于字符串的相似度计算方法。
下面参考图2描述实例相似度的计算方法。
图2示出了根据本发明实施例的实例相似度的计算方法的流程图。如图2所示,根据本发明的实例相似度的计算方法,包括如下步骤:
获得包含指示词的文本(步骤S21);使用非标准工具和标准工具分别对所述文本进行标注(步骤S22);以及根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度(步骤S23)。
在步骤S21中,获得包含指示词的文本。
如上所述,指示词是与标准工具使用的标准标注体系中的标记对应的词的示例。通过观察标准工具和非标准工具对同一指示词给出的标记的情况,可以推测标记之间的对应关系。
获得包含指示词的文本的方法不受限制。作为示例,可以对给定文本进行分句,然后过滤掉不含指示词的句子,标准是只要含有一个指示词就保留该句子,剩余句子构成待标注文本,即所获得的包含指示词的文本。
在步骤S22中,使用非标准工具和标准工具分别对步骤S21中获得的文本进行标注。
在步骤S23中,根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度。
作为一种示例,可以将非标准工具针对某个指示词给出的标记中具有最高出现频率的标记认定为与标准工具针对所述指示词给出的标记相对应,并将其出现频率作为相应的实例相似度。
这是因为这种情况表明,非标准工具对于非常具有指示作用的指示词倾向于给出该标记,而由于指示词的指示作用,标准工具针对该指示词给出的标记很可能是唯一的“正确的标准标记”(为描述简明起见,在下文中假设标准工具对指示词给出的标记是唯一且正确的)。因此,可以推断:在非标准工具针对指示词也是正确的假设情形下,非标准工具对某个指示词给出的标记中出现频率最高的标记是正确的标记,并应与标准工具针对该指示词给出的标记对应。
举例来说,使用标准工具ST和非标准工具AT分别处理五个带有指示词“国家”的文本,每个文本中有一个“国家”。得到的输出如下面的表3所示。
表3:工具输出结果对比表
句子 | 工具ST输出标记 | 工具AT输出标记 |
句子1 | 国家/NN | 国家/名词 |
句子2 | 国家/NN | 国家/名词 |
句子3 | 国家/NN | 国家/动词 |
句子4 | 国家/NN | 国家/名词 |
句子5 | 国家/NN | 国家/名词 |
可见,工具AT针对指示词“国家”给出的标记中,“名词”的出现频率是0.8,“动词”的出现频率是0.2。根据上述排序,可以判定工具AT针对指示词“国家”更倾向于给出“名词”这个标记。因此,推断“NN”更可能和“名词”对应,可以将出现频率0.8作为“NN”所对应的输出标注类/输出标注属性与“名词”所对应的输出标注类/输出标注属性之间的实例相似度。
当然,“NN”和“动词”的实例相似度可以是相应的出现概率0.2。
这样,每种词性,即每种输出标注类、每种输出标注属性都能通过对指示词的实际标注来获得实例相似度。
还可以利用作为上述实例相似度计算方法的改进的下述方法来计算实例相似度。
图3示出了根据本发明实施例的实例相似度的另一计算方法的流程图。如图3所示,根据本发明的实例相似度的另一计算方法,包括如下步骤:获得包含指示词的文本(步骤S31);使用非标准工具和标准工具分别对所述文本进行标注(步骤S32);以及根据所述非标准工具针对所述指示词给出的标记的出现频率以及所述非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度(步骤S33)。
图3所示的实例相似度计算方法中的步骤S31和步骤S32与图2所示的实例相似度计算方法中的步骤S21和步骤S22完全相同。图3中示出的方法与图2中示出的方法的区别在于,还根据非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率计算实例相似度。
这是因为考虑到了标注工具在进行标注的过程中,实际上是针对一个待标注对象给出了一组候选标注结果,即候选标记。标注工具同时会给出这些候选标记对应的概率,并且选择其中概率最大的标记作为输出结果。因此,标注工具输出的标记本身带有一个对应的概率,且这个概率反映了标注工具对该标记的置信度。这一信息对于评价标记之间的对应关系存在参考意义,因此可以被利用在实例相似度的计算中。
作为示例,给出了如下的公式1和公式2。
其中,pt1(word,l|si)表示标准工具t1针对句子si中的指示词word给出的标记l对应的概率,pt2(word,l′|si)表示非标准工具t2针对句子si中的指示词word给出的标记l’对应的概率;f(pt1(word,l|si),pt2(word,l′|si))表示将上述两个概率进行组合的任意适当函数,在公式2中示意性地示出了将两个概率相乘后开方的函数,本发明不限于此。公式2还可以是两个概率相加后取平均等。
θ(l,l′|si)为取值0或1的二值函数,当句子si中指示词WORD分别被标记为l和l’时,取值为1,否则为0。n表示句子数,即样本数。
计算所得的p(l,l’)可作为标记l和l’对应的输出标注类/输出标注属性的实例相似度。
在上述公式1中,θ(l,l′|si)和n体现了组合l与l’同时出现的出现频率,即上述第一种实例相似度考虑到的因素。新引入的两个概率pt1(word,l|si)、pt2(word,l′|si)从标注工具本身给出的概率的角度,影响实例相似度的取值。
对于不同组合的l与l’,可以计算相应的实例相似度。
除了上述标签相似度、描述相似度、实例相似度之外,计算输出标注类/输出标注属性的相似度时,还可以引入约束条件。
例如,约束条件可以包括但不限于输出标注类的父类是否一致、输出标注属性的父属性是否一致、输出标注属性的定义域是否一致、输出标注属性的值域是否一致中的至少一个。
为了进一步根据约束条件的可信度对约束条件的影响进行调整,可以对于每个约束条件给出相应的先验概率,该先验概率表明对应的约束条件的可靠程度。
在上述根据标签相似度、描述相似度、实例相似度,并结合约束条件,计算输出标注类/输出标注属性的相似度过程中,对于本领域技术人员而言,显然的是可以利用标签相似度、描述相似度、实例相似度中的至少一个的任意组合,并结合或不结合约束条件进行输出标注类/输出标注属性的相似度的计算。
以下给出公式3-5,作为计算输出标注类/输出标注属性的相似度的示例。
其中,p(t~ti)表示考虑约束条件的输出标注类/输出标注属性t与输出标注类/输出标注属性ti的相似度,表示不考虑约束条件的输出标注类/输出标注属性t与输出标注类/输出标注属性ti的相似度,α为加权系数,取值为[0,1]。
simlab(t,ti)表示输出标注类/输出标注属性t与输出标注类/输出标注属性ti的标签相似度,simcom(t,ti)表示输出标注类/输出标注属性t与输出标注类/输出标注属性ti的描述相似度,siminst(t,ti)表示输出标注类/输出标注属性t与输出标注类/输出标注属性ti的实例相似度。β为加权系数,取值为[0,1]。
为考虑约束条件的先验概率的约束验证函数,其计算方式如公式5所示。n为约束条件的个数,为约束cj的先验概率(置信度),体现其合理性,取值为[0,1]。rji为是否满足约束的指示变量,取值为0或1,当输出标注类/输出标注属性t与输出标注类/输出标注属性ti违背约束cj时,rji取值为0,否则rji取值为1。
在步骤S3中,根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
如上所述,输出标注类/输出标注属性与标记之间存在一一对应的关系。因此,可以根据非标准工具和标准工具的输出标注类/输出标注属性的相似度判断出输出标注类/输出标注属性的对应关系,然后相应地得到非标准工具和标准工具的标记之间的对应关系。
在此方式中,可以将具有最大相似度的输出标注类确定为彼此对应的输出标注类,将具有最大相似度的输出标注属性确定为彼此对应的输出标注属性。
也可以根据非标准工具和标准工具的输出标注类/输出标注属性的相似度,直接得到非标准工具和标准工具的标记之间的对应关系。
在此方式中,可以将输出标注类之间的相似度和对应的输出标注属性之间的相似度加权求和,将加权和最大的输出标注类和输出标注属性对应的标记确定为彼此对应的标记。
本领域技术人员应能理解,也可以只采用输出标注类之间的相似度或只采用输出标注属性之间的相似度,来确定标记之间的对应关系。
经过了上述的步骤S1-S3,可以得到标准工具的标记和非标准工具的标记之间的对应关系。基于所获得的对应关系,可以将非标准工具的输出标记转换为标准输出标记,使得非标准工具的输出标准化。
下面,将参照图4描述根据本发明实施例的标准化标记工具的设备。
图4示出了根据本发明实施例的标准化标记工具的设备的结构方框图。如图4所示,根据本发明的标记工具标准化设备400包括:选择装置41,被配置为选择与待标准化的非标准工具对应的标准工具;相似度计算装置42,被配置为:对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及确定装置43,被配置为根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
在一个实施例中,选择装置41被进一步配置为:将标注工具按功能划分为多个工具类,每个工具类具有一个或多个标准工具;以及选择与待标准化的非标准工具对应的工具类中的一个标准工具。
在一个实施例中,所述工具类之间的关系包括前置关系和后置关系,具有前置关系和/或后置关系的工具类对应的标准工具可被直接集成为新的工具。
在一个实施例中,所述选择装置41被进一步配置为:通过将标注工具使用的标注体系与工具类的标准标注体系作比较,判断标注工具是否为标准工具;并且在判断为是的情况下,将标注工具加入该工具类;以及在判断为否的情况下,对标注工具进行标准化处理。
在一个实施例中,所述相似度计算装置42被配置为:根据标签相似度、描述相似度、实例相似度的至少一个,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
在一个实施例中,所述相似度计算装置42被配置为还结合给定的约束条件,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
在一个实施例中,相似度计算装置42包括标签相似度计算单元421,其被配置为:通过计算所述输出标注类的标签之间的字符串相似度来计算所述输出标注类的标签相似度;以及通过计算所述输出标注属性的标签之间的字符串相似度来计算所述输出标注属性的标签相似度。
在一个实施例中,相似度计算装置42包括描述相似度计算单元422,其被配置为:通过计算所述输出标注类的描述之间的字符串相似度来计算所述输出标注类的描述相似度;以及通过计算所述输出标注属性的描述之间的字符串相似度来计算所述输出标注属性的描述相似度。
在一个实施例中,相似度计算装置42还包括翻译单元424,其被配置为通过翻译来将不同语言的所述标签或描述的字符串统一为同一语言,以利于计算所述字符串相似度。
在一个实施例中,标签相似度计算单元421和描述相似度计算单元422被进一步配置为:使用欧式距离、余弦距离、Levenshtein距离、JaroWinkler距离、Jaccard距离之一来计算所述字符串相似度。
在一个实施例中,相似度计算装置42包括实例相似度计算单元423,其被配置为:获得包含指示词的文本,所述指示词为与所述标准工具使用的标准标注体系中的标记对应的词的示例;使用所述非标准工具和所述标准工具分别对所述文本进行标注;根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度。
在一个实施例中,实例相似度计算单元423被进一步配置为:根据所述非标准工具针对所述指示词给出的标记的出现频率以及所述非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率,计算所述实例相似度。
在一个实施例中,约束条件包括所述输出标注类的父类是否一致、所述输出标注属性的父属性是否一致、所述输出标注属性的定义域是否一致、所述输出标注属性的值域是否一致中的至少一个;每个所述约束条件具有先验概率,表明该约束条件的可靠程度。
在一个实施例中,确定装置43包括:第一判断单元431,其被配置为:根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注类之间的对应关系;和/或根据所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注属性之间的对应关系;以及第一确定单元432,被配置为:根据所述输出标注类之间的对应关系和/或所述输出标注属性之间的对应关系,确定所述非标准工具和所述标准工具的标记之间的对应关系。
在一个实施例中,第一判断单元431将具有最大相似度的输出标注类确定为彼此对应的输出标注类;所述第一判断单元431将具有最大相似度的输出标注属性确定为彼此对应的输出标注属性。
在一个实施例中,确定装置43包括:第二确定单元433,其被配置为:根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度和/或所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,直接判断所述非标准工具和所述标准工具的标记之间的对应关系。
在一个实施例中,第二确定单元433将所述输出标注类之间的相似度和对应的所述输出标注属性之间的相似度的加权和最大的所述输出标注类和所述输出标注属性对应的标记确定为彼此对应的标记。
由于在根据本发明的标记工具标准化设备中所包括的各个装置和单元中的处理分别与上面描述的标记工具标准化方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中,还根据需要存储当CPU501执行各种处理等等时所需的数据。CPU 501、ROM502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种用于标准化标注工具的方法,包括:
选择与待标准化的非标准工具对应的标准工具;
对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或
对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;
根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
2.如附记1所述的方法,其中根据标签相似度、描述相似度、实例相似度的至少一个,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
3.如附记2所述的方法,其中通过如下步骤计算所述实例相似度:
获得包含指示词的文本,所述指示词为与所述标准工具使用的标准标注体系中的标记对应的词的示例;
使用所述非标准工具和所述标准工具分别对所述文本进行标注;
根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度。
4.如附记3所述的方法,其中还根据所述非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率,计算所述实例相似度。
5.如附记2所述的方法,其中通过计算所述输出标注类的标签之间的字符串相似度来计算所述输出标注类的标签相似度;通过计算所述输出标注属性的标签之间的字符串相似度来计算所述输出标注属性的标签相似度。
6.如附记2所述的方法,其中通过计算所述输出标注类的描述之间的字符串相似度来计算所述输出标注类的描述相似度;通过计算所述输出标注属性的描述之间的字符串相似度来计算所述输出标注属性的描述相似度。
7.如附记2所述的方法,其中还结合给定的约束条件,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
8.如附记7所述的方法,其中所述约束条件包括所述输出标注类的父类是否一致、所述输出标注属性的父属性是否一致、所述输出标注属性的定义域是否一致、所述输出标注属性的值域是否一致中的至少一个;每个所述约束条件具有先验概率,表明该约束条件的可靠程度。
9.如附记1所述的方法,其中所述确定步骤包括:
根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注类之间的对应关系;和/或
根据所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注属性之间的对应关系;
并且
根据所述输出标注类之间的对应关系和/或所述输出标注属性之间的对应关系,确定所述非标准工具和所述标准工具的标记之间的对应关系。
10.如附记1所述的方法,其中所述确定步骤包括:
根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度和/或所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,直接判断所述非标准工具和所述标准工具的标记之间的对应关系。
11.一种用于标准化标注工具的设备,包括:
选择装置,被配置为选择与待标准化的非标准工具对应的标准工具;
相似度计算装置,被配置为:
对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或
对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;
确定装置,被配置为根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
12.如附记11所述的设备,其中所述相似度计算装置被进一步配置为:根据标签相似度、描述相似度、实例相似度的至少一个,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
13.如附记12所述的设备,其中所述相似度计算装置包括实例相似度计算单元,其被配置为:
获得包含指示词的文本,所述指示词为与所述标准工具使用的标准标注体系中的标记对应的词的示例;
使用所述非标准工具和所述标准工具分别对所述文本进行标注;
根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度。
14.如附记13所述的设备,其中所述实例相似度计算单元被进一步配置为:
根据所述非标准工具针对所述指示词给出的标记的出现频率以及所述非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率,计算所述实例相似度。
15.如附记12所述的设备,其中所述相似度计算装置包括标签相似度计算单元,其被配置为:通过计算所述输出标注类的标签之间的字符串相似度来计算所述输出标注类的标签相似度;以及通过计算所述输出标注属性的标签之间的字符串相似度来计算所述输出标注属性的标签相似度。
16.如附记12所述的设备,其中所述相似度计算装置包括描述相似度计算单元,其被配置为:通过计算所述输出标注类的描述之间的字符串相似度来计算所述输出标注类的描述相似度;以及通过计算所述输出标注属性的描述之间的字符串相似度来计算所述输出标注属性的描述相似度。
17.如附记12所述的设备,其中所述相似度计算装置被配置为还结合给定的约束条件,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
18.如附记17所述的设备,其中所述约束条件包括所述输出标注类的父类是否一致、所述输出标注属性的父属性是否一致、所述输出标注属性的定义域是否一致、所述输出标注属性的值域是否一致中的至少一个;每个所述约束条件具有先验概率,表明该约束条件的可靠程度。
19.如附记11所述的设备,其中所述确定装置包括:
第一判断单元,其被配置为:
根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注类之间的对应关系;和/或
根据所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注属性之间的对应关系;
以及
第一确定单元,其被配置为:根据所述输出标注类之间的对应关系和/或所述输出标注属性之间的对应关系,确定所述非标准工具和所述标准工具的标记之间的对应关系。
20.如附记11所述的设备,其中所述确定装置包括:第二确定单元,其被配置为:
根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度和/或所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,直接判断所述非标准工具和所述标准工具的标记之间的对应关系。
Claims (10)
1.一种用于标准化标注工具的方法,包括:
选择与待标准化的非标准工具对应的标准工具;
对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或
对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及
根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
2.如权利要求1所述的方法,其中根据标签相似度、描述相似度、实例相似度的至少一个,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
3.如权利要求2所述的方法,其中通过如下步骤计算所述实例相似度:
获得包含指示词的文本,所述指示词为与所述标准工具使用的标准标注体系中的标记对应的词的示例;
使用所述非标准工具和所述标准工具分别对所述文本进行标注;
根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度。
4.如权利要求3所述的方法,其中还根据所述非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率,计算所述实例相似度。
5.如权利要求2所述的方法,其中通过计算所述输出标注类的标签之间的字符串相似度来计算所述输出标注类的标签相似度;通过计算所述输出标注属性的标签之间的字符串相似度来计算所述输出标注属性的标签相似度;以及
其中通过计算所述输出标注类的描述之间的字符串相似度来计算所述输出标注类的描述相似度;通过计算所述输出标注属性的描述之间的字符串相似度来计算所述输出标注属性的描述相似度。
6.如权利要求2所述的方法,其中还结合给定的约束条件,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。
7.如权利要求6所述的方法,其中每个所述约束条件具有先验概率,表明该约束条件的可靠程度。
8.如权利要求1所述的方法,其中所述确定步骤包括:
根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注类之间的对应关系;和/或
根据所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,判断所述非标准工具和所述标准工具的所述输出标注属性之间的对应关系;
并且
根据所述输出标注类之间的对应关系和/或所述输出标注属性之间的对应关系,确定所述非标准工具和所述标准工具的标记之间的对应关系。
9.如权利要求1所述的方法,其中所述确定步骤包括:
根据所述非标准工具和所述标准工具的所述输出标注类之间的相似度和/或所述非标准工具和所述标准工具的所述输出标注属性之间的相似度,直接判断所述非标准工具和所述标准工具的标记之间的对应关系。
10.一种用于标准化标注工具的设备,包括:
选择装置,被配置为选择与待标准化的非标准工具对应的标准工具;
相似度计算装置,被配置为:
对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或
对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及
确定装置,被配置为根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310072432.9A CN104035916B (zh) | 2013-03-07 | 2013-03-07 | 标准化标注工具的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310072432.9A CN104035916B (zh) | 2013-03-07 | 2013-03-07 | 标准化标注工具的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104035916A true CN104035916A (zh) | 2014-09-10 |
CN104035916B CN104035916B (zh) | 2017-05-24 |
Family
ID=51466687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310072432.9A Expired - Fee Related CN104035916B (zh) | 2013-03-07 | 2013-03-07 | 标准化标注工具的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104035916B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297826A (zh) * | 2020-06-28 | 2021-08-24 | 上海交通大学 | 在自然语言文本上进行标记的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997048058A1 (en) * | 1996-06-14 | 1997-12-18 | Logovista Corporation | Automated translation of annotated text |
US5930746A (en) * | 1996-03-20 | 1999-07-27 | The Government Of Singapore | Parsing and translating natural language sentences automatically |
CN101551800A (zh) * | 2008-03-31 | 2009-10-07 | 富士通株式会社 | 标注信息生成装置、查询装置及共享系统 |
CN101866342A (zh) * | 2009-04-16 | 2010-10-20 | 富士通株式会社 | 生成或显示网页标注的方法和装置以及信息共享系统 |
CN101908042A (zh) * | 2010-08-09 | 2010-12-08 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
WO2012048306A3 (en) * | 2010-10-08 | 2012-06-21 | Multimodal Technologies, Llc | Structured searching of dynamic structured document corpuses |
CN102880612A (zh) * | 2011-07-14 | 2013-01-16 | 富士通株式会社 | 图像标注方法及其装置 |
-
2013
- 2013-03-07 CN CN201310072432.9A patent/CN104035916B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930746A (en) * | 1996-03-20 | 1999-07-27 | The Government Of Singapore | Parsing and translating natural language sentences automatically |
WO1997048058A1 (en) * | 1996-06-14 | 1997-12-18 | Logovista Corporation | Automated translation of annotated text |
CN101551800A (zh) * | 2008-03-31 | 2009-10-07 | 富士通株式会社 | 标注信息生成装置、查询装置及共享系统 |
CN101866342A (zh) * | 2009-04-16 | 2010-10-20 | 富士通株式会社 | 生成或显示网页标注的方法和装置以及信息共享系统 |
CN101908042A (zh) * | 2010-08-09 | 2010-12-08 | 中国科学院自动化研究所 | 一种双语联合语义角色的标注方法 |
WO2012048306A3 (en) * | 2010-10-08 | 2012-06-21 | Multimodal Technologies, Llc | Structured searching of dynamic structured document corpuses |
CN102880612A (zh) * | 2011-07-14 | 2013-01-16 | 富士通株式会社 | 图像标注方法及其装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297826A (zh) * | 2020-06-28 | 2021-08-24 | 上海交通大学 | 在自然语言文本上进行标记的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104035916B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Large-scale analysis of the accuracy of the journal classification systems of Web of Science and Scopus | |
Kolyvakis et al. | Biomedical ontology alignment: an approach based on representation learning | |
US10229154B2 (en) | Subject-matter analysis of tabular data | |
US7428517B2 (en) | Data integration and knowledge management solution | |
Ibrahim et al. | Class diagram extraction from textual requirements using natural language processing (NLP) techniques | |
Usino et al. | Document similarity detection using k-means and cosine distance | |
Williams et al. | Understanding and inferring units in spreadsheets | |
Liu et al. | Automating tissue bank annotation from pathology reports–comparison to a gold standard expert annotation set | |
CN113808758B (zh) | 一种检验数据标准化的方法、装置、电子设备和存储介质 | |
Annervaz et al. | Natural language requirements quality analysis based on business domain models | |
Byrne et al. | Automatic extraction of archaeological events from text | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
Samosir et al. | Identifying Requirements Association Based on Class Diagram Using Semantic Similarity | |
CN104035916A (zh) | 标准化标注工具的方法和设备 | |
CN114936271A (zh) | 自然语言转换数据库查询语句的方法、设备及介质 | |
Liu et al. | DPWord2Vec: better representation of design patterns in semantics | |
Zhou et al. | Automatic acquisition of linguistic patterns for conceptual modeling | |
Zhang et al. | Metallic materials ontology population from LOD based on conditional random field | |
Zhao et al. | Natural language query for technical knowledge graph navigation | |
Schlutter et al. | Improving Trace Link Recovery Using Semantic Relation Graphs and Spreading Activation | |
Nicholson et al. | Dotting the “i” of interoperability in FAIR cancer-registry data sets | |
El-Ghalayini et al. | Deriving conceptual data models from domain ontologies for bioinformatics | |
Azeroual | A text and data analytics approach to enrich the quality of unstructured research information | |
Jiang et al. | A refinement strategy for identification of scientific software from bioinformatics publications | |
Wang et al. | Set-based Noise Elimination for Is-a Relations in a Large-Scale Lexical Taxonomy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170524 Termination date: 20190307 |