CN103678281B - 对文本进行自动标注的方法和装置 - Google Patents
对文本进行自动标注的方法和装置 Download PDFInfo
- Publication number
- CN103678281B CN103678281B CN201310752962.8A CN201310752962A CN103678281B CN 103678281 B CN103678281 B CN 103678281B CN 201310752962 A CN201310752962 A CN 201310752962A CN 103678281 B CN103678281 B CN 103678281B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- name
- attribute
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出一种对文本进行自动标注的方法和装置,其中,对文本进行自动标注的方法包括以下步骤:对文本中的词汇进行识别;将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;将识别出的实词标注为知识库中的实体知识;基于对实词的标注结果,将识别出的代词标注为代词指代的内容;以及基于对实词和代词的标注结果,将识别出的属性名标注为知识库中对应的属性名。本发明实施例的对文本进行自动标注的方法,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种对文本进行自动标注的方法和装置。
背景技术
词法分析和处理是NLP(Natural Language Processing,传统自然语言处理)的一项基础技术,其主要功能包括WordSeg(Word Segmentation,自然语言文本切词)、PosTag(Part-of-Speech Tagging,词性标注)以及NER(Named Entity Recognition,专名识别)。经过词法分析和处理之后的文本,将被切分成词汇的形式,且每个词汇将被赋予特定的词性(例如,动词、名词、形容词等)以及专名类别(人名、地名、机构名)等信息。大量的上层应用技术,例如搜索引擎技术、深度问答技术、机器翻译技术等都是建立在上述分析结果的基础之上。
但是,在实现本发明的过程中发明人发现现有技术至少存在以下问题:词法分析仅仅只是停留在对词汇字面语义的分析上,对于更深层的语义知识、词汇代表的实体意义,现有的词法分析无法给出更多有效信息,因此无法有效完成基于词法分析结果进行的后续应用,用户体验差。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的第一个目的在于提出一种对文本进行自动标注的方法。该方法根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
本发明的第二个目的在于提出一种对文本进行自动标注的装置。
为了实现上述目的,本发明第一方面实施例的对文本进行自动标注的方法,包括以下步骤:对文本中的词汇进行识别;将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;将识别出的实词标注为所述知识库中的实体知识;基于对实词的标注结果,将识别出的代词标注为所述代词指代的内容;以及基于对实词和代词的标注结果,将识别出的属性名标注为所述知识库中对应的属性名。
本发明实施例的对文本进行自动标注的方法,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
为了实现上述目的,本发明第二方面实施例的对文本进行自动标注的装置,包括:识别模块,用于对文本中的词汇进行识别;第一标注模块,用于将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;第二标注模块,用于将识别出的实词标注为所述知识库中的实体知识;第三标注模块,用于基于对实词的标注结果,将识别出的代词标注为所述代词指代的内容;以及第四标注模块,用于基于对实词和代词的标注结果,将识别出的属性名标注为所述知识库中对应的属性名。
本发明实施例的对文本进行自动标注的装置,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展,并以此拓展出极其广阔的应用前景。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1是根据本发明一个实施例的对文本进行自动标注的方法的流程图;
图2是根据本发明一个实施例的文本的示意图;
图3是对图2所示文本进行自动标注后的示意图;
图4是根据本发明一个实施例的将识别出的实词标注为知识库中的实体知识的流程图;
图5是根据本发明一个实施例的基于关联空间的语义相似度计算的示意图;
图6是传统网页搜索的结果示意图;
图7是根据本发明一个实施例的网页搜索结果示意图;
图8是根据本发明另一个实施例的网页搜索结果示意图;
图9是根据本发明一个实施例的对文本进行自动标注的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考附图描述本发明实施例的对文本进行自动标注的方法和装置。
图1是根据本发明一个实施例的对文本进行自动标注的方法的流程图。
如图1所示,对文本进行自动标注的方法包括以下步骤:
S101,对文本中的词汇进行识别。
为了将知识库中海量的结构化信息引入传统的文本处理应用之中,实现文本与知识之间的推理和扩展,在本发明实施例中,需要对文本中的词汇进行识别。由于实体知识库(简称知识库)中的实体知识包括实体标识、属性和属性值,因此,需要对文本中与知识库中的实体、属性和属性值完全相同或相近的词汇进行识别,以便与知识库建立对应关系。
在本实施例中,假定对图2所示文本进行识别,则可以识别出“央视”、“李娜”等实词,“他们”等代词,表示属性的词汇“官方微博”,表示属性值的词汇“北京时间27日”。
S102,将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式。
在本发明的实施例中,首先对识别出的表示属性值的词汇进行标注,以便将其规范化成知识库中的属性值类型的表达形式,从而生成的属性值知识能够参与知识库知识推理和计算。其中,知识库中的属性值具有不同的属性值类型,每个属性值类型具有固定的格式。具体地,属性值类型可以包括:数字(以及对应单位)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源(url、uri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举类(如星座、血型)等。
在识别过程中,同一个词汇有可能会存在多种属性值类型。例如:“刘德华(1961-),香港人…”中的“1961”既可能表示数字也可能表示时间,甚至还可能表示邮编,而且表示数字或者时间时,“1961”是缺少单位的。因此,在识别过程中需要对文本中的词汇的属性值进行类别择优和单位补全。
在识别出属性值类型之后,需要对属性值的表达形式进行归一化处理即进行格式转换。针对不同属性值类型进行的归一化处理包括:数值单位的归一换算(如172cm->1.72米)、时间的归一化表示(如1961年11月11日->{时区:北京时间;日期:1961-11-11;时分秒:00:00:00;})、比较的格式化(一比二->{左实体:1;右实体:2;得分差:-1})以及枚举类的表达归一(天蝎->天蝎座,O->O型血)等。
经过步骤S102,可以识别出图2所示文本中的属性值,并将其标注为知识库中对应属性值所属类型的格式,如图3中用A标识部分。
S103,将识别出的实词标注为知识库中的实体知识。
在本发明的实施例中,如图4所示,该步骤S103可以包括如下步骤:
S401,根据当前实词获得文本关键词,根据文本关键词从知识库中获得与文本关键词相关的候选实体集合。
具体地,根据当前实词和同义词资源获得文本关键词。
举例来说,文本“李娜和小威的WTA中,李娜输给对手几分?”中,“李娜”、“小威”、“WTA”是实词。在知识库中,“李娜”的同义词资源有很多,有可能是歌唱家李娜,也有可能是影视演员李娜,则可以获得“李娜”为文本关键词以及跟“李娜”相关的候选实体集合。
S402,计算候选实体集合中每个候选实体与文本关键词对应的文本上下文的语义相关度。
在本发明的实施例中,采用基于关联空间的语义相似度计算公式计算候选实体集合中每个候选实体与文本关键词对应的文本上下文的语义相关度。如图5所示,上述基于关联空间的语义相似度计算公式可以为:
其中,rel(vi,vj)表示vi和vj之间的相关度;E表示候选实体集合中的候选实体;T表示文本关键词对应的文本上下文;re表示从候选实体E中提取出的关联维度;rt表示从文本T中提取出的关联维度;vi表示出现在实体E中且映射到关联维度re之上的所有词汇;vj表示出现在文本T中且映射到关联维度rt之上的所有词汇;表示关联空间的全集,关联空间包括:词性类别、专名类别等词汇类别,文本T和实体E中的每一个词汇都可以通过词性或者专名等类别映射到R空间的某个特定维度r上。当然,本领域的技术人员可以对上述基于关联空间的语义相似度计算公式进行形式修改。
具体地,以全网的网页文本为例,假设文本与实体属性值的词汇空间统一为V,每一个υ∈V必定存在一个投影函数f(υ)=r∈R,其中R空间主要由词性、专名类型等词法分析组成,如下,
其中,PER(人名)、LOC(地名)等为专名,n(名词)、v(动词)等为动词,υ只能隶属于一个特定的r,如果υ同时隶属于多个r,则根据专名>词性>其他的优先级来进行选择。
据此,可以在R这样的一个空间上计算文本与实体之间的相似度Pcoref(E,T),
其中,在sim(re,rt)中,re与rt必须一致,而sim(re,rt)则主要取决于实体e和文本t中隶属于re和rt的词汇中,关联度rel(υi,υj)最高的一对,
其中,rel(υi,υj)为一个阶梯函数,分别从完全匹配、互信息匹配两个层面计算其相似度,
其中,
δmatch为人工设置的权重,p(υi|e)p(υj|t)分别表示词汇υi,υj在实体e以及文本t中的重要程度。
其中,Pr(υi,υj)表示υi,υj在全网的网页文本中共同出现的概率,Pr(υi),Pr(υj)表示υi,υj在全网网页文本中分别出现的概率。
通过这一方式,可以有效地避免某些常见噪音词汇权重过大,从而影响相似度计算结果的现象。
S403,根据语义相关度确定与文本关键词对应的实体,将当前实词标注为所确定的实体对应的实体知识。
上例中的多个候选实体“李娜”,根据关联空间的语义相似度计算公式,由于文本中含有“WTA”,即国际女子职业网球协会,因此可计算出语义相关度最高的实体“李娜”对应的实体知识为中国著名网球运动员李娜。
经过上述步骤,可以将图2所示文本中的实词标注为知识库中的实体知识,如图3中用B标识部分。
S104,基于对实词的标注结果,将识别出的代词标注为代词指代的内容。
在本发明的实施例中,基于对实词的标注结果,可通过实体知识对代词进行验证,对候选实体进行分类判断,从而更准确地识别出代词所指的实体。例如:文本“李娜告诉姜山,他在场外应该多多提醒场上的她的打法问题。”现有技术无法判断“他”和“她”究竟指代的是“李娜”还是“姜山”。然而通过将实词标注为知识库中的实体知识,可以知道“李娜性别女”、“姜山性别男”,还可以知道“李娜是职业网球运动员”以及“姜山是职业网球教练”。因此通过性别和“场上运动员”以及“场下教练”等语义分析,可以得知“他”指代的是“姜山”,而“她”指代的是“李娜”。
经过步骤S104,可以识别出图2所示文本中的代词标注为代词指代的内容,如图3中用C标识部分,“他们”和“自己”均指代“中央电视台体育频道”。
S105,基于对实词和代词的标注结果,将识别出的属性名标注为知识库中对应的属性名。
在本发明的实施例中,基于对实词和代词的标注结果,获得文本中的属性名对应的实体,然后从所获得的实体的所有属性名中获得与文本中的属性名语义相似度最高的属性名,最后将文本中的属性名标注为所获得的属性名。
具体地,本步骤主要包括属性名的实体指代补全以及属性名的表述形式映射。其中,属性名的实体指代补全的方法为通过句法依存对文本中的句子结构进行判断,并识别出存在主语缺失的句子片段,之后为句子片段自动补充通用代词,例如:“他”或“它”等。然后使用步骤S104的方法对“他”或“它”进行标注,获得“他”或“它”所指代的实体。获取实体之后,将实体的所有属性名结合上下文进行语义相似度计算,从而获得相似度最高的属性名,并对其进行标注,从而完成对文本中属性名的标注。
以图2为例,根据步骤S103和步骤S104的标注,步骤S105可以将图2所示文本中的属性名标注为知识库中对应的属性名,如图3中用D标识部分。具体地,“李娜”、“威廉姆斯”和“中央电视台体育频道”这几个实体均有“官方微博”这个属性名。因此,可根据标注的结果,获取属性名“官方微博”对应的实体“李娜”、“威廉姆斯”、“中央电视台体育频道”。然后结合上下文“体育频道通过官方微博道歉”,可得知与“官方微博”属性名语义相似度最高的属性名为“中央电视台体育频道”的“官方微博”。因此,通过文本中的属性名“官方微博”获得“中央电视台体育频道”这个实体,然后“中央电视台体育频道”这个实体的其中一个属性名为“官微”,是个网址链接。“官微”与“官方微博”的语义相似度最高,因此可将文本中的属性名“官方微博”标注为“中央电视台体育频道”这个实体的属性名“官微”。
本发明实施例的对文本进行自动标注的方法,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展。该方法是知识图谱与传统NLP(Natural Language Processing,传统自然语言处理)技术形成互补的基础,能够进一步推进传统NLP技术的发展,影响所有涉及到NLP技术的网络服务,最终极大提升相关产品的用户体验。
在本发明的实施例中,对文本进行自动标注的方法可应用到网页搜索中。具体地,可根据文本关键词以及对应的实体知识来建立搜索引擎。举例来说,在传统的网页搜索中,主要是通过文本关键词的方式从搜索引擎中获取候选实体的。例如:搜索关键词为“留学ABC王强”。传统的网页搜索得到的结果如图6所示。然而,基于本发明的标注方法,不仅可以通过文本关键词,并且进一步根据网页中每个实体知识来建立搜索引擎。在知识库中,我们知道“留学ABC王强”与“新东方创始人王强”是同一人,因此用户可获得到所有描述“新东方创始人王强”的网页信息。不同于传统的网页搜索仅仅只是将“留学ABC王强”改写成网页中更容易出现的关键词“新东方王强”,而本发明的标注方法可以将用户的查询锁定至“新东方的王强”这个知识库中的实体上,因此可以搜索到任何与实体“新东方的王强”相关的网页和信息,甚至可以将王强写的书推荐给用户。搜索结果如图7、图8所示。
除了对传统的网页搜索的帮助之外,对文本进行自动标注的方法还可以服务于深度问答、机器翻译等高阶自然语言处理应用技术之中。例如,如图3所示,在深度问答中,用户提问:“李娜和小威的WTA比赛中,李娜输给对手几分?”用户首先可通过本发明的标注方法,得知文本中的“对手”指的是“世界女子网球第一的小威廉姆斯”这个实体。其次,可以从“WTA总决赛:李娜一比二小威无缘冠军”的文本中,得知左实体“李娜”得分1,右实体“小威廉姆斯”得分2,最终得到得分差为-1,右实体胜,通过在知识库中得到最终答案:“李娜输了1分”。
图9是根据本发明一个实施例的对文本进行自动标注的装置的结构示意图。
如图9所示,对文本进行自动标注的装置包括:识别模块100、第一标注模块200、第二标注模块300、第三标注模块400以及第四标注模块500。
具体地,识别模块100用于对文本中的词汇进行识别。
为了将知识库中海量的结构化信息引入传统的文本处理应用之中,实现文本与知识之间的推理和扩展,在本发明实施例中,识别模块100需要对文本中的词汇进行识别。由于实体知识库(简称知识库)中的实体知识包括实体标识、属性和属性值,因此,识别模块100需要对文本中与知识库中的实体、属性和属性值完全相同或相近的词汇进行识别,以便与知识库建立对应关系。
在本实施例中,假定对图2所示文本进行识别,则识别模块100可以识别出“央视”、“李娜”等实词,“他们”等代词,表示属性的词汇“官方微博”,表示属性值的词汇“北京时间27日”。
第一标注模块200用于将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式。
在本发明的实施例中,首先第一标注模块200对识别出的表示属性值的词汇进行标注,以便将其规范化成知识库中的属性值类型的表达形式,从而生成的属性值知识能够参与知识库知识推理和计算。其中,知识库中的属性值具有不同的属性值类型,每个属性值类型具有固定的格式。具体地,属性值类型可以包括:数字(以及对应单位)、时间(日期、时分秒)、时间区间(XX日至YY日、AA点至BB点)、资源(url、uri等)、电话/邮编、位置/方向(如食堂、南边)、工具/材料(如毛线、工资)、比较(如一比二)、方式手段(如手术、低音)、枚举类(如星座、血型)等。
在识别过程中,同一个词汇有可能会存在多种属性值类型。例如:“刘德华(1961-),香港人…”中的“1961”既可能表示数字也可能表示时间,甚至还可能表示邮编,而且表示数字或者时间时,“1961”是缺少单位的。因此,在识别过程中需要对文本中的词汇的属性值进行类别择优和单位补全。
在识别出属性值类型之后,需要对属性值的表达形式进行归一化处理即进行格式转换。针对不同属性值类型进行的归一化处理包括:数值单位的归一换算(如172cm->1.72米)、时间的归一化表示(如1961年11月11日->{时区:北京时间;日期:1961-11-11;时分秒:00:00:00;})、比较的格式化(一比二->{左实体:1;右实体:2;得分差:-1})以及枚举类的表达归一(天蝎->天蝎座,O->O型血)等。
第二标注模块300用于将识别出的实词标注为知识库中的实体知识。
在本发明的实施例中,第二标注模块300先根据当前实词和同义词资源获得文本关键词。然后第二标注模块300采用基于关联空间的语义相似度计算公式计算候选实体集合中每个候选实体与文本关键词对应的文本上下文的语义相关度。如图5所示,上述基于关联空间的语义相似度计算公式为:
其中,rel(vi,vj)表示vi和vj之间的相关度;E表示候选实体集合中的候选实体;T表示文本关键词对应的文本上下文;re表示从候选实体E中提取出的关联维度;rt表示从文本T中提取出的关联维度;vi表示出现在实体E中且映射到关联维度re之上的所有词汇;vj表示出现在文本T中且映射到关联维度rt之上的所有词汇;表示关联空间的全集,关联空间包括:词性类别、专名类别等词汇类别,文本T和实体E中的每一个词汇都可以通过词性或者专名等类别映射到R空间的某个特定维度r上。
当然,本领域的技术人员可以对上述基于关联空间的语义相似度计算公式进行形式修改。
具体地,以全网的网页文本为例,假设文本与实体属性值的词汇空间统一为V,每一个υ∈V必定存在一个投影函数f(υ)=r∈R,其中R空间主要由词性、专名类型等词法分析组成,如下,
其中,PER(人名)、LOC(地名)等为专名,n(名词)、v(动词)等为动词,υ只能隶属于一个特定的r,如果υ同时隶属于多个r,则根据专名>词性>其他的优先级来进行选择。
据此,可以在R这样的一个空间上计算文本与实体之间的相似度Pcoref(E,T),
其中,在sim(re,rt)中,re与rt必须一致,而sim(re,rt)则主要取决于实体e和文本t中隶属于re和rt的词汇中,关联度rel(υi,υj)最高的一对,
其中,rel(υi,υj)为一个阶梯函数,分别从完全匹配、互信息匹配两个层面计算其相似度,
其中,
δmatch为人工设置的权重,p(υi|e)p(υj|t)分别表示词汇υi,υj在实体e以及文本t中的重要程度。
其中,Pr(υi,υj)表示υi,υj全网的网页中共同出现的概率,Pr(υi),Pr(υj)表示υi,υj在全网网页中分别出现的概率。
通过这一方式,可以有效地避免某些常见噪音词汇权重过大从而影响相似度计算结果的现象。
上例中的多个候选实体“李娜”,根据关联空间的语义相似度计算公式,由于文本中含有“WTA”,即国际女子职业网球协会,因此可计算出语义相关度最高的实体“李娜”实际是指中国著名网球运动员李娜。
第三标注模块400用于基于对实词的标注结果,将识别出的代词标注为代词指代的内容。
在本发明的实施例中,基于对实词的标注结果,第三标注模块400可通过实体知识对代词进行验证,对候选实体进行分类判断,从而更准确的识别出代词所指的实体。例如:文本“李娜告诉姜山,他在场外应该多多提醒场上的她的打法问题。”现有技术无法判断“他”和“她”究竟指代的是“李娜”还是“姜山”。然而通过将实词标注为知识库中的实体知识,可以知道“李娜性别女”、“姜山性别男”,还可以知道“李娜是职业网球运动员”以及“姜山是职业网球教练”。因此通过性别和“场上运动员”以及“场下教练”等语义分析,可以得知“他”指代的是“姜山”,而“她”指代的是“李娜”。
第四标注模块500用于基于对实词和代词的标注结果,将识别出的属性名标注为知识库中对应的属性名。
在本发明的实施例中,基于对实词和代词的标注结果,第四标注模块500获得文本中的属性名对应的实体,然后从所获得的实体的所有属性名中获得与文本中的属性名语义相似度最高的属性名,最后将文本中的属性名标注为所获得的属性名。
具体地,第四标注模块500主要用于属性名的实体指代补全以及属性名的表述形式映射。其中,第四标注模块500通过句法依存对文本中的句子结构进行判断,并识别出存在主语缺失的句子片段,之后为句子片段自动补充通用代词,例如:“他”或“它”等。然后根据第三标注模块400对“他”或“它”进行标注,以获得“他”或“它”所指代的实体。第四标注模块500获取实体之后,将实体的所有属性名结合上下文进行语义相似度计算,从而获得相似度最高的属性名,第四标注模块500对其进行标注,从而完成对文本中属性名的标注。
以图2为例,第四标注模块500可以将图2中文本的属性名标注为知识库中对应的属性名,如图3中用D标识部分。具体地,“李娜”、“威廉姆斯”、“中央电视台体育频道”这几个实体均有“官方微博”这个属性名。因此,可根据标注的结果,获取属性名“官方微博”对应的实体“李娜”、“威廉姆斯”、“中央电视台体育频道”。然后结合上下文“体育频道通过官方微博道歉”,可得知与“官方微博”属性名语义相似度最高的属性名为“中央电视台体育频道”的“官方微博”。因此,通过文本中的属性名“官方微博”获得“中央电视台体育频道”这个实体,然后“中央电视台体育频道”这个实体的其中一个属性名为“官微”,是个网址链接。“官微”与“官方微博”的语义相似度最高,因此可将文本中的属性名“官方微博”标注为“中央电视台体育频道”这个实体的属性名“官微”。
本发明实施例的对文本进行自动标注的装置,根据知识库中的实体知识对文本进行自动标注,深度地整合了知识库中实体知识,从而将知识库中海量的结构化信息引入传统的文本处理应用之中,实现了文本与实体知识之间的推理和扩展。该方法是知识图谱与传统NLP(Natural Language Processing,传统自然语言处理)技术形成互补的基础,能够进一步推进传统NLP技术的发展,影响所有涉及到NLP技术的网络服务,最终极大提升相关产品的用户体验。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (12)
1.一种对文本进行自动标注的方法,其特征在于,包括:
对文本中的词汇进行识别;
将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;
将识别出的实词标注为所述知识库中的实体知识;
基于对实词的标注结果,将识别出的代词标注为所述代词指代的内容;以及
基于对实词和代词的标注结果,获得所述文本中的属性名对应的实体;
从所获得的实体的所有属性名中获得与所述文本中的属性名语义相似度最高的属性名,将所述文本中的属性名标注为所获得的属性名。
2.如权利要求1所述的方法,其特征在于,所述知识库中的所述实体知识包括实体标识、属性和属性值,所述属性值具有不同的属性值类型,每个属性值类型具有固定的格式。
3.如权利要求2所述的方法,其特征在于,所述将识别出的实词标注为所述知识库中的实体知识包括:
根据当前实词获得文本关键词,根据所述文本关键词从所述知识库中获得与所述文本关键词相关的候选实体集合;
计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度;
根据所述语义相关度确定与所述文本关键词对应的实体,将当前实词标注为所确定的实体对应的实体知识。
4.如权利要求3所述的方法,其特征在于,所述根据当前实词获得文本关键词包括:
根据当前实词和同义词资源获得文本关键词。
5.如权利要求3所述的方法,其特征在于,所述计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度包括:
采用基于关联空间的语义相似度计算公式计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度。
6.如权利要求5所述的方法,其特征在于,所述基于关联空间的语义相似度计算公式为:
其中,rel(vi,vj)表示vi和vj之间的相关度,E表示所述候选实体集合中的候选实体,T表示所述文本关键词对应的文本上下文;re表示从候选实体E中提取出的关联维度;rt表示从文本T中提取出的关联维度;vi表示出现在实体E中且映射到关联维度re之上的所有词汇,vj表示出现在文本T中且映射到关联维度rt之上的所有词汇,表示关联空间的全集。
7.一种对文本进行自动标注的装置,其特征在于,包括:
识别模块,用于对文本中的词汇进行识别;
第一标注模块,用于将识别出的表示属性值的词汇标注为知识库中对应属性值所属类型的格式;
第二标注模块,用于将识别出的实词标注为所述知识库中的实体知识;
第三标注模块,用于基于对实词的标注结果,将识别出的代词标注为所述代词指代的内容;以及
第四标注模块,用于基于对实词和代词的标注结果,获得所述文本中的属性名对应的实体,并从所获得的实体的所有属性名中获得与所述文本中的属性名语义相似度最高的属性名,将所述文本中的属性名标注为所获得的属性名。
8.如权利要求7所述的装置,其特征在于,所述知识库中的所述实体知识包括实体标识、属性和属性值,所述属性值具有不同的属性值类型,每个属性值类型具有固定的格式。
9.如权利要求8所述的装置,其特征在于,所述第二标注模块,具体用于:
根据当前实词获得文本关键词,根据所述文本关键词从所述知识库中获得与所述文本关键词相关的候选实体集合;
计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度;
根据所述语义相关度确定与所述文本关键词对应的实体,将当前实词标 注为所确定的实体对应的实体知识。
10.如权利要求9所述的装置,其特征在于,所述第二标注模块,具体用于:根据当前实词和同义词资源获得文本关键词。
11.如权利要求9所述的装置,其特征在于,所述第二标注模块,具体用于:
采用基于关联空间的语义相似度计算公式计算所述候选实体集合中每个候选实体与所述文本关键词对应的文本上下文的语义相关度。
12.如权利要求11所述的装置,其特征在于,所述基于关联空间的语义相似度计算公式为:
其中,rel(vi,vj)表示vi和vj之间的相关度,E表示所述候选实体集合中的候选实体,T表示所述文本关键词对应的文本上下文;re表示从候选实体E中提取出的关联维度;rt表示从文本T中提取出的关联维度;vi表示出现在实体E中且映射到关联维度re之上的所有词汇,vj表示出现在文本T中且映射到关联维度rt之上的所有词汇,表示关联空间的全集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310752962.8A CN103678281B (zh) | 2013-12-31 | 2013-12-31 | 对文本进行自动标注的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310752962.8A CN103678281B (zh) | 2013-12-31 | 2013-12-31 | 对文本进行自动标注的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678281A CN103678281A (zh) | 2014-03-26 |
CN103678281B true CN103678281B (zh) | 2016-10-19 |
Family
ID=50315890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310752962.8A Active CN103678281B (zh) | 2013-12-31 | 2013-12-31 | 对文本进行自动标注的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678281B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978356B (zh) * | 2014-04-10 | 2019-09-06 | 阿里巴巴集团控股有限公司 | 一种同义词的识别方法及装置 |
CN103995847B (zh) * | 2014-05-06 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 信息搜索方法及其装置 |
CN105354199B (zh) * | 2014-08-20 | 2019-10-08 | 北京羽扇智信息科技有限公司 | 一种基于场景信息的实体含义识别方法和系统 |
CN105373527B (zh) * | 2014-08-27 | 2020-11-27 | 中兴通讯股份有限公司 | 一种省略恢复方法及问答系统 |
CN104462326A (zh) * | 2014-12-02 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 人物关系分析方法、提供人物信息的方法及装置 |
CN105869640B (zh) * | 2015-01-21 | 2019-12-31 | 上海墨百意信息科技有限公司 | 识别针对当前页面中的实体的语音控制指令的方法和装置 |
CN105550336B (zh) * | 2015-12-22 | 2018-12-18 | 北京搜狗科技发展有限公司 | 单一实体实例的挖掘方法和装置 |
CN107092605B (zh) * | 2016-02-18 | 2019-12-31 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN107292463A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种对应用程序进行项目评估的方法及系统 |
CN107665188B (zh) * | 2016-07-27 | 2021-01-29 | 科大讯飞股份有限公司 | 一种语义理解方法及装置 |
CN108257676B (zh) * | 2016-12-28 | 2020-03-03 | 北京搜狗科技发展有限公司 | 一种医案信息的处理方法、装置和设备 |
CN106897364B (zh) * | 2017-01-12 | 2021-02-23 | 上海大学 | 基于事件的中文指代语料库构建方法 |
CN106909670B (zh) * | 2017-02-28 | 2020-12-18 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息分享方法及装置 |
CN107247709B (zh) * | 2017-07-28 | 2021-03-16 | 广州多益网络股份有限公司 | 一种百科词条标签的优化方法及系统 |
CN107590123B (zh) * | 2017-08-07 | 2022-07-05 | 大众问问(北京)信息科技有限公司 | 车载中地点上下文指代消解方法及装置 |
CN108874878B (zh) * | 2018-05-03 | 2021-02-26 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110889274B (zh) * | 2018-08-17 | 2022-02-08 | 北大方正集团有限公司 | 信息质量评估方法、装置、设备及计算机可读存储介质 |
CN110874534B (zh) * | 2018-08-31 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN109635075B (zh) * | 2018-12-11 | 2023-02-07 | 广州市西美信息科技有限公司 | 一种文本内容划词标识的方法及装置 |
CN109614501B (zh) * | 2018-12-13 | 2020-09-25 | 浙江工商大学 | 一种基于知识图谱的工业隐患规范化上报方法及系统 |
CN109871428B (zh) * | 2019-01-30 | 2022-02-18 | 北京百度网讯科技有限公司 | 用于确定文本相关度的方法、装置、设备和介质 |
CN111753095A (zh) * | 2019-03-29 | 2020-10-09 | 富士通株式会社 | 用于生成知识库的方法和装置 |
CN110414680A (zh) * | 2019-07-23 | 2019-11-05 | 国家计算机网络与信息安全管理中心 | 基于众包标注的知识加工系统 |
CN111310421B (zh) * | 2020-03-12 | 2023-08-01 | 掌阅科技股份有限公司 | 一种文本批量标记方法、终端及计算机存储介质 |
CN112560408A (zh) * | 2020-12-18 | 2021-03-26 | 广东轩辕网络科技股份有限公司 | 一种文本标注方法、装置、终端及存储介质 |
CN112836062B (zh) * | 2021-01-13 | 2022-05-13 | 哈尔滨工程大学 | 一种文本语料库的关系抽取方法 |
CN112837771B (zh) * | 2021-01-25 | 2022-09-13 | 山东浪潮智慧医疗科技有限公司 | 一种融合文本分类与词法分析的体检异常项归一化方法 |
CN113763135A (zh) * | 2021-09-18 | 2021-12-07 | 京东科技信息技术有限公司 | 商品数据对比方法、装置、电子设备和存储介质 |
CN117195897A (zh) * | 2023-09-08 | 2023-12-08 | 北京三维天地科技股份有限公司 | 一种基于nlp的物料描述智能拆分方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770453A (zh) * | 2008-12-31 | 2010-07-07 | 华建机器翻译有限公司 | 基于领域本体结合机器学习模型的汉语文本共指消解方法 |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2406731A4 (en) * | 2009-03-13 | 2012-08-22 | Invention Machine Corp | SYSTEM AND METHOD FOR THE AUTOMATIC SEMANTIC MARKING OF NATURAL LANGUAGE TEXTS |
-
2013
- 2013-12-31 CN CN201310752962.8A patent/CN103678281B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770453A (zh) * | 2008-12-31 | 2010-07-07 | 华建机器翻译有限公司 | 基于领域本体结合机器学习模型的汉语文本共指消解方法 |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103678281A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678281B (zh) | 对文本进行自动标注的方法和装置 | |
Kozlowski et al. | The geometry of culture: Analyzing the meanings of class through word embeddings | |
Spinde et al. | Automated identification of bias inducing words in news articles using linguistic and context-oriented features | |
Paetzold et al. | Semeval 2016 task 11: Complex word identification | |
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
Zhang et al. | Automatic synonym extraction using Word2Vec and spectral clustering | |
CN105760439B (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
Meyer et al. | What psycholinguists know about chemistry: Aligning Wiktionary and WordNet for increased domain coverage | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN102750316A (zh) | 基于语义共现模型的概念关系标签抽取方法 | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
CN108334493A (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
Fu et al. | Learning semantic hierarchies: A continuous vector space approach | |
CN106202035B (zh) | 基于组合方法的越南语兼类词消歧方法 | |
Parameswarappa et al. | Kannada word sense disambiguation using decision list | |
De Benedictis et al. | Glossboot: Bootstrapping multilingual domain glossaries from the web | |
CN104881400B (zh) | 基于联想网络的语义相关性计算方法 | |
Schulz et al. | Machine vs. human translation of SNOMED CT terms | |
CN104199838A (zh) | 一种基于标签消歧的用户模型建构方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |