CN110162793A - 一种命名实体的识别方法及相关设备 - Google Patents

一种命名实体的识别方法及相关设备 Download PDF

Info

Publication number
CN110162793A
CN110162793A CN201910448555.5A CN201910448555A CN110162793A CN 110162793 A CN110162793 A CN 110162793A CN 201910448555 A CN201910448555 A CN 201910448555A CN 110162793 A CN110162793 A CN 110162793A
Authority
CN
China
Prior art keywords
participle
entity
target
cooccurrence relation
relationship characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910448555.5A
Other languages
English (en)
Inventor
代嘉慧
苗艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910448555.5A priority Critical patent/CN110162793A/zh
Publication of CN110162793A publication Critical patent/CN110162793A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种命名实体的识别方法及相关设备,可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。该方法包括:获取待识别的目标文本;对所述目标文本进行分词,得到N个分词,其中N≥2;根据实体共现关系确定每个所述分词对应的离散实体关系特征;将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。

Description

一种命名实体的识别方法及相关设备
技术领域
本发明涉及自然语言处理领域,特别涉及一种命名实体的识别方法及相关设备。
背景技术
命名实体识别是指识别文本中的命名性指称项,在不同领域有不同的体现。娱乐视频领域的命名实体识别具有标题长度短、语法结构弱等特点,若果没有先验指示,仅凭一条句子很难正确识别相关实体,且由于实体数量多,变化快,训练语料往往无法完全覆盖。
一种传统的方法是将句子中的词进行词典匹配,得到一种词典特征,该方法能够有效增加训练集中未见实体词的召回,挖掘一些比较普通的实体词,但该方法指导性较弱,且无法解决多类型歧义实体词的准确识别。
发明内容
本发明提供了一种命名实体的识别方法及相关设备,可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。
本发明第一方面提供了一种命名实体的识别方法,包括:
获取待识别的目标文本;
对所述目标文本进行分词,得到N个分词,其中N≥2;
根据实体共现关系确定每个所述分词对应的离散实体关系特征;
将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
可选地,所述根据实体共现关系确定每个所述分词对应的离散实体关系特征包括:
确定目标分词,所述目标分词为所述N个分词中的任意一个分词;
判断所述目标分词与所述N个分词中至少一个其他分词是否存在实体共现关系;
若是,则根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征。
可选地,所述根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征包括:
当所述目标分词仅与所述至少一个其他分词中的一个分词存在实体共现关系时,根据所述目标分词与所述至少一个其他分词的一个分词的实体共现关系确定所述目标分词对应的第一实体关系特征,其中,所述第一实体关系特征属于所述离散实体关系特征。
可选地,所述根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征包括:
当所述目标分词与所述至少一个其他分词中的M个分词均存在实体共现关系时,确定所述目标分词与所述M个分词中的分词的实体共现次数,其中,1<M<N;
根据所述实体共现次数确定所述目标分词与所述至少一个其他分词的目标实体共现关系;
根据所述目标实体共现关系确定所述目标分词对应的第一实体关系特征。
可选地,所述方法还包括:
当所述目标分词与所述至少一个其他分词中的每个分词均不存在实体共现关系时,确定所述目标分词对应的第二实体关系特征,其中,所述第二实体关系特征属于所述离散实体关系特征。
本发明第二方面提供了一种命名实体的识别装置,包括:
获取单元,用于获取待识别的目标文本;
分词单元,用于对所述目标文本进行分词,得到N个分词,其中N≥2;
确定单元,用于根据实体共现关系确定每个所述分词对应的离散实体关系特征;
处理单元,用于将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
可选地,所述确定单元包括:
确定模块,用于确定目标分词,所述目标分词为所述N个分词中的任意一个分词;
判断模块,用于判断所述目标分词与所述N个分词中至少一个其他分词是否存在实体共现关系;
处理模块,用于当所述目标分词与所述至少一个其他分词存在实体共现关系时,则根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征。
可选地,所述处理模块具体用于:
当所述目标分词仅与所述至少一个其他分词中的一个分词存在实体共现关系时,根据所述目标分词与所述至少一个其他分词的一个分词的实体共现关系确定所述目标分词对应的第一实体关系特征,其中,所述第一实体关系特征属于所述离散实体关系特征。
可选地,所述处理模块还具体用于:
当所述目标分词与所述至少一个其他分词中的M个分词均存在实体共现关系时,确定所述目标分词与所述M个分词中的分词的实体共现次数,其中,1<M<N;
根据所述实体共现次数确定所述目标分词与所述至少一个其他分词的目标实体共现关系;
根据所述目标实体共现关系确定所述目标分词对应的第一实体关系特征。
可选地,所述处理模块还具体用于:
当所述目标分词与所述至少一个其他分词中的每个分词均不存在实体共现关系时,确定所述目标分词对应的第二实体关系特征,其中,所述第二实体关系特征属于所述离散实体关系特征。
本发明三方面提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述所述的命名实体的识别方法的步骤。
本发明第四方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的命名实体的识别方法的步骤。
综上所述,可以看出,本发明中通过实体共现关系对待识别的目标分本中的N个分词进行实体特征识别,并对识别后的实体关系特征进行标注,得到离散实体关系特征,之后将离散实体关系特征输入命名实体识别模型,得到命名实体。由于该实体共现关系是两个实体同时出现的共现关系,将经过该实体共现关系进行实体特征标注的分词输入命名识别模型,使得命名实体识别模型具有了比较灵活地处理实体共现的能力,同时可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。
附图说明
图1为本发明所提供的命名实体的识别方法的流程示意图;
图2为本发明所提供的命名实体的识别装置的虚拟结构示意图;
图3为本发明所提供的命名实体的识别装置的硬件结构示意图。
具体实施方式
本发明的说明书和权利要求书及上述附图内的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面从命名实体的识别装置的角度对本发明的命名实体的识别方法进行说明,该命名实体的识别装置可以是服务器,也可以是服务器内的服务单元,具体不做限定。
请参阅图1,图1为本发明实施例提供的一种命名实体的识别方法的流程示意图,包括:
101、获取待识别的目标文本。
本实施例中,命名实体的识别装置可以获取待识别的目标文本,例如用户在视频应用软件中输入文本进行视频查找时,命名实体的识别装置可以获取到该目标文本,例如用户输入的待识别的目标文本“速度与激情7主题曲《SeeYouAgain》现场版,断眉麻神嗨爆全场”。
102、对目标文本进行分词,得到N个分词。
本实施例中,命名实体的识别装置在得到目标文本之后,可以对目标文本进行分词,得到N个分词,其中,N≥2。此处可以通过通用的分词工具对目标文本进行分词,也可以通过自定义的分词工具对目标文本进行分词,具体不做限定,只要能对目标文本进行分词,得到N个分词即可。
103、根据实体共现关系确定每个分词对应的离散实体关系特征。
本实施例中,命名实体的识别装置可以通过实体共现关系对N个分词中的每个分词进行实体特征标注,以得到每个分词对应的离散实体特征。具体的,可以通过预先设置的实体关系词典中的实体共现关系对每个分词进行实体关系特征标注,以得到每个分词对应的离散实体关系特征。
需要说明的是,该实体关系词典为目标文本对应的目标实体类型中实体共现的关系数据,该实体共现为至少两个实体同时出现。例如该目标文本对应的目标实体类型为娱乐视频领域,则该实体关系词典即为娱乐视频领域中至少两个实体共现的关系数据。
下面对如何生成实体关系词典进行说明:
生成目标实体类型对应的至少一种实体共现关系;
确定至少一种实体共现关系对应的实体关系数据;
对至少一种实体共现关系对应的实体关系数据进行数据清洗,以得到实体关系词典。
本实施例中,首先可以确定目标实体类型(例如视频专辑、游戏、音乐三大类实体类型,当然也还可以包括其他的实体类型,具体不做限定)对应的至少一种实体共现关系(表1中以十种具有针对性的实体共现关系为例进行说明,当然也还可以根据实际情况进行添加或删除,具体不做限定)。
表1
也就是说,可以提前定义目标实体类型对应的至少一种实体共现关系,如表1中的实体共现关系:PERSON-ALBUM,例如实体“周杰伦”与实体《头文字D》,“周杰伦”为一个实体,“头文字D”也为一个实体,这两个实体同时出现,即认为是一条“演唱者与演唱者的视频专辑”实体共现关系。其中,上述所述的视频专辑可以为电影、电视剧、动漫以及综艺等等视频类型。
需要说明的是,娱乐视频领域有较为完备的知识图谱,可以比较容易获取实体之间的关系数据,例如电影《速度与激情7》主题曲《see you again》,或者电视剧《悬崖》演员张嘉译等。且实体共现关系经常出现在视频文本中,如:悬崖,张嘉译宋佳终相见,不容易,正是因为这种实体共现关系的约束力,使得能够识别出此处的实体“悬崖”应为张嘉译演绎的电视剧,实体悬崖为ALBUM实体,而不是其他类型实体。
需要说明的是,该表1中的左侧的实体与右侧的实体同时出现,则认为是一个实体共现关系,例如N个分词中存在一个分词对应左侧的ALBUM实体,则从N个分词中查找是否存在对应于右侧的MUSIC实体、PERSON实体或者ALIAS实体,若该分词与MUSIC实体同时存在,则确定该分词与MUSIC实体对应的分词为一条ALBUM-MUSIC的实体共现关系。下面对实体间的共现关系进行举例说明:
比如:“悬崖:张嘉译以为小宋佳遇害,疯了一样冲了上去!”,实体“悬崖”与实体“张嘉译”同时出现,也就是表1中的ALBUM-PERSON共现关系,所以在识别的时候能够识别出这里的实体“悬崖”指的是视频专辑实体。
比如:“刘德华《慢慢习惯》《拆弹专家》主题曲太好听”,“拆弹专家”也是“华晨宇”的一首歌,这里的实体“拆弹专家”跟实体“刘德华”同时出现,也就是表1中的ALBUM-PERSON关系,所以在识别的时候能够准确的识别出此处的实体“拆弹专家”为视频专辑而不是音乐。
其次,在得到至少一种实体共现关系之后,可以通过如下两种方式确定至少一种实体共现关系对应的实体关系数据,下面分别进行说明:
一、从目标领域对应的知识图谱中查找与至少一种实体共现关系相匹配的实体关系数据。
可以提前构建目标领域(例如娱乐视频领域,当然也可以是其他领域,具体不做限定)对应的知识图谱,其中,该目标领域为目标实体类型对应的领域,该目标领域对应的知识图谱中包括实体和实体之间关系的数据,例如该目标领域为视频娱乐领域,该视频娱乐领域对应的知识图谱中即包括了视频专辑与视频专辑的演员,以及视频专辑的发行日期,视频专辑中包括的歌曲等等数据,或音乐与音乐的演唱者,以及音乐的发行日期,音乐的时长,音乐的背景资料等等数据。由于上述已经得到了至少一种实体共现关系,可以从目标领域对应的知识图谱中查找与至少一种实体共现关系相匹配的实体关系数据。例如该实体共现关系为“PERSON-ALBUM”,则从知识图谱中查找某PERSON与其相关视频专辑的关系,之后获取该实体共现关系的数据。
二、从目标实体类型对应的语料库中挖掘与至少一种实体共现关系相匹配的实体共现关系数据。
可以提前构建目标实体类型对应的语料库,或者直接从网络上爬取目标实体类型对应的语料,该语料库包括目标实体类型对应的多个句子,例如百度百科中包含的所有关于目标实体类型的句子,或者是视频网站中所有视频的名称,具体不限定。此处,可以从目标实体类型对应的语料库中挖掘与至少一个实体共现关系相匹配的实体关系数据。例如“《不能说的秘密》是周杰伦自导自演的电影处女作,由桂纶镁、黄秋生、曾恺玹等主演,于2007年7月31日在中国大陆上映”为一条实体共现关系的数据,由于同时包括了实体“周杰伦”以及实体“《不能说的秘密》”,则认为该句子中包含实体共现关系,例如“周杰伦女儿近照曝光”,由于只有实体“周杰伦”,则不认为该句子中包含实体共现关系。
最后,在确定至少一种实体共现关系对应的实体关系数据之后,可以对该实体关系数据进行数据清洗,以得到实体关系词典。也就是说,由于该实体关系数据中可能会包括一些数据噪声、敏感词等等,或者说该实体关系数据中包含不规范的数据,例如“偶像练习生张艺兴CUT”,并不是一个视频专辑,该条数据需要清理掉,此时即可以通过数据清洗的方式清洗掉实体关系数据中的数据噪声、敏感词,得到实体关系词典。还可以结合目标领域对应的知识图谱中的实体数据、共现频次(实体同时出现的次数)等信息对实体关系数据进行清洗,例如实体“周杰伦”和实体“青花瓷”,两个实体共现了1000次,那认为这条关系是有效的,而比如实体“周杰伦”和实体“xxx”这两个实体共现了2次,那则可以认为这个实体共现关系并没有什么意思,就不保留。
上述对生成实体关系词典的方式进行了说明,下面对如何根据实体关系词典中的实体共现关系确定每个分词对应的离散实体关系特征进行说明:
在一个实施例中,根据实体共现关系确定每个所述分词对应的离散实体关系特征包括:
步骤A:确定目标分词,目标分词为N个分词中的任意一个分词。
本步骤中,可以随机从N个分词中挑选一个分词,将其确定为目标分词。
步骤B:判断目标分词与N个分词中至少一个其他分词是否存在实体共现关系。
本步骤中,可以根据实体关系词典中的实体共现关系判断目标分词与N个分词中的至少一个其他分词是否存在实体共现关系,也就是说,可以根据实体关系词典中各个实体共现关系对应的实体共现数据来确定目标分词是否与N个分词中的至少一个其他分词同时存在,若是,则确定该目标分词与至少一个其他分词存在实体共现关系,执行步骤C,若否,则确定该目标分词与至少一个其他分词不存在实体共现关系,执行步骤D。
步骤C:若是,则根据目标分词与至少一个其他分词的实体共现关系确定目标分词的离散实体关系特征。
本步骤中,当目标分词与至少一个其他分词存在实体共现关系时,此时,包括了两种情况:1、目标分词仅与至少一个其他分词中的一个分词存在实体共现关系;2、目标分词与至少一个其他分词中的M分词存在实体共现关系,1<M<N。
对于第1种情况,则可以直接根据目标分词与至少一个其他分词的一个分词的实体共现关系以及预设的标注体系为目标分词标注对应的第一实体关系特征。
需要说明的是,该预设的标注体系可以采取与命名实体识别模型相同的标注体系:BIESO。在该标注体系下,以上述10种实体共现关系为例进行说明,可以生成10*4+1种离散特征,结合表2进行举例说明:
表2
结合表2,以目标分词与至少一个分词中的一个分词存在实体共现关系为ALBUM-MUSIC为例进行说明:ALBUM-MUSIC-B表示,目标分词可以与至少一个其他分词中的一个分词拼接成实体共现关系,如“你好旧时光”中的“你好”,且目标文本中出现了该实体词的相关音乐信息,如主题曲、插曲等等。反之亦然。
需要说明的是,表2中的实体关系特征BIESO的表现形式仅为举例说明,并不代表对其的限定,另外,此处以BIES为第一实体关系特征,O为第二实体关系特征为例进行说明。
对于第2种情况,确定目标分词与M个分词中的分词的实体共现次数,并根据实体共现次数确定目标分词与至少一个其他分词目标实体共现关系,并根据目标实体共现关系确定目标分词对应的第一实体关系特征。也就是说,可以首先确定目标分词与M个分词中的每个分词的实体共现次数,并将次数最多的分词与目标分词之间的实体共现关系作为目标实体共现关系(当然也还可以将实体共现次数大于预设阈值的分词与目标分词之间的实体共现关系作为目标实体共现关系,具体不做限定),之后根据该目标实体共现关系为目标分词标注对应的第一实体关系特征。同时将N个分词中除M个分词之外的其他分词标注第二实体关系特征,其中,该第一实体关系特征以及第二实体关系特征均属于离散实体关系特征。
步骤D:当目标分词与至少一个其他分词中的每个分词均不存在实体共现关系时,确定目标分词对应的第二实体关系特征,其中,第二实体关系特征属于离散实体关系特征。
本步骤中,当目标分词与至少一个其他分词中的每个分词均不存在实体共现关系,则直接将目标分词标注第二实体关系特征。
104、将每个分词对应的离散实体关系特征输入命名实体识别模型,以得到每个分词的命名实体。
本实施例中,命名实体的识别装置在得到每个分词对应的离散实体关系特征之后,将每个分词对应的离散实体关系特征输入命名实体识别模型,得到每个分词的命名实体。其中,该命名识别模型为现有的通过神经网络训练得到的识别命名实体的模型。
具体的,可以首先通过Embedding实现由离散实体关系特征向连续实体关系特征的转化,之后对连续实体关系特征进行识别,以得到每个分词的命名实体。
下面结合一个具体应用场景进行说明:
在视频软件中输入了“速度与激情7主题曲《SeeYouAgain》现场版,断眉麻神嗨爆全场!”,命名实体的识别装置获取到输入的句子“速度与激情7主题曲《SeeYouAgain》现场版,断眉麻神嗨爆全场!”,之后对句子进行分词,得到N个分词“速度与激情、7、主题曲、seeyouagain、现场版、断眉、麻神、嗨爆、全场”,之后基于实体共现关系对N个分词中的每个分词进行实体特征标注,得到每个分词对应的离散实体关系特征(基于表2的显示形式进行显示):
由于分词时采用的是最大正向匹配,因此得到的分词不是速度与激情7,而是速度与激情和7两个实体词。
之后对目标文本对应的离散实体关系特征进行连续化(此处通过embedding对离散实体关系特征进行连续化处理),得到:
B-ALBUM-MUSIC对应一个向量v1,E-ALBUM-MUSIC对应一个向量v2,O对应一个向量v3,S-MUSIC-ALBUM对应一个向量v4,具体到句子里即为:速度与激情这个位置对应向量v1,7对应向量v2,因此上述输入的文本可以进行如下连续向量表示:
[v1,v2,v3,v4,v3,v3,v3,v3,v3]。
并将该连续向量[v1,v2,v3,v4,v3,v3,v3,v3,v3]进行命名实体的识别,得到每个分词的命名实体“速度与激情7的主题曲现场版”。
综上所述,可以看出,本发明中通过实体共现关系对待识别的目标分本中的N个分词进行实体特征识别,并对识别后的实体关系特征进行标注,得到离散实体关系特征,之后将离散实体关系特征输入命名实体识别模型,得到命名实体。由于该实体共现关系是两个实体同时出现的共现关系,将经过该实体共现关系进行实体特征标注的分词输入命名识别模型,使得命名实体识别模型具有了比较灵活地处理实体共现的能力,同时可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。
上面对本发明实施例提供的命名实体的识别方法进行说明,下面结合图2对本发明实施例提供的命名实体的识别装置进行说明。
请参阅图2,图2为本发明实施例提供的命名实体的识别装置的实施例示意图,该命名实体的识别装置包括:
获取单元201,用于获取待识别的目标文本;
分词单元202,用于对所述目标文本进行分词,得到N个分词,其中N≥2;
确定单元203,用于根据实体共现关系确定每个所述分词对应的离散实体关系特征;
处理单元204,用于将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
可选地,所述确定单元203包括:
确定模块2031,用于确定目标分词,所述目标分词为所述N个分词中的任意一个分词;
判断模块2032,用于判断所述目标分词与所述N个分词中至少一个其他分词是否存在实体共现关系;
处理模块2033,用于当所述目标分词与所述至少一个其他分词存在实体共现关系时,则根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征。
可选地,所述处理模块2033具体用于:
当所述目标分词仅与所述至少一个其他分词中的一个分词存在实体共现关系时,根据所述目标分词与所述至少一个其他分词的一个分词的实体共现关系确定所述目标分词对应的第一实体关系特征,其中,所述第一实体关系特征属于所述离散实体关系特征。
可选地,所述处理模块2033还具体用于:
当所述目标分词与所述至少一个其他分词中的M个分词均存在实体共现关系时,确定所述目标分词与所述M个分词中的分词的实体共现次数,其中,1<M<N;
根据所述实体共现次数确定所述目标分词与所述至少一个其他分词的目标实体共现关系;
根据所述目标实体共现关系确定所述目标分词对应的第一实体关系特征。
可选地,所述处理模块2033还具体用于:
当所述目标分词与所述至少一个其他分词中的每个分词均不存在实体共现关系时,确定所述目标分词对应的第二实体关系特征,其中,所述第二实体关系特征属于所述离散实体关系特征。
本实施例内的命名实体的识别装置的各单元之间的交互方式如前述图1所示实施例内的描述,具体此处不再赘述。
综上所述,可以看出,本发明中通过实体共现关系对待识别的目标分本中的N个分词进行实体特征识别,并对识别后的实体关系特征进行标注,得到离散实体关系特征,之后将离散实体关系特征输入命名实体识别模型,得到命名实体。由于该实体共现关系是两个实体同时出现的共现关系,将经过该实体共现关系进行实体特征标注的分词输入命名识别模型,使得命名实体识别模型具有了比较灵活地处理实体共现的能力,同时可以增加对普通语义较强的实体词的召回以及增加了歧义实体的识别准确率。
上面图2从模块化功能实体的角度对本发明实施例中的命名实体的识别装置进行了描述,下面从硬件处理的角度对本发明实施例中的命名实体的识别装置进行详细描述,请参阅图3,本发明实施例中的命名实体的识别装置300一个实施例,包括:
输入装置301、输出装置302、处理器303和存储器304(其中处理器303的数量可以一个或多个,图3中以一个处理器303为例)。在本发明的一些实施例中,输入装置301、输出装置302、处理器303和存储器304可通过总线或其它方式连接,其中,图3中以通过总线连接为例。
其中,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
获取待识别的目标文本;
对所述目标文本进行分词,得到N个分词,其中N≥2;
根据实体共现关系确定每个所述分词对应的离散实体关系特征;
将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
通过调用存储器304存储的操作指令,处理器303,还用于执行图1对应的实施例中的任一方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述命名实体的识别方法。
本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述命名实体的识别方法。
本发明实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待识别的目标文本;
对所述目标文本进行分词,得到N个分词,其中N≥2;
根据实体共现关系确定每个所述分词对应的离散实体关系特征;
将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
在具体实施过程中,处理器执行程序时可以实现图1对应的实施例中任一实施方式。
本文中的设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在命名实体的识别设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待识别的目标文本;
对所述目标文本进行分词,得到N个分词,其中N≥2;
根据实体共现关系确定每个所述分词对应的离散实体关系特征;
将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
在具体实施过程中,执行计算机程序产品时可以实现图1对应的实施例中任一实施方式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程命名实体的识别设备的处理器以产生一个机器,使得通过计算机或其他可编程命名实体的识别设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程命名实体的识别设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程命名实体的识别设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (12)

1.一种命名实体的识别方法,其特征在于,包括:
获取待识别的目标文本;
对所述目标文本进行分词,得到N个分词,其中N≥2;
根据实体共现关系确定每个所述分词对应的离散实体关系特征;
将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述根据实体共现关系确定每个所述分词对应的离散实体关系特征包括:
确定目标分词,所述目标分词为所述N个分词中的任意一个分词;
判断所述目标分词与所述N个分词中至少一个其他分词是否存在实体共现关系;
若是,则根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征包括:
当所述目标分词仅与所述至少一个其他分词中的一个分词存在实体共现关系时,根据所述目标分词与所述至少一个其他分词的一个分词的实体共现关系确定所述目标分词对应的第一实体关系特征,其中,所述第一实体关系特征属于所述离散实体关系特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征包括:
当所述目标分词与所述至少一个其他分词中的M个分词均存在实体共现关系时,确定所述目标分词与所述M个分词中的分词的实体共现次数,其中,1<M<N;
根据所述实体共现次数确定所述目标分词与所述至少一个其他分词的目标实体共现关系;
根据所述目标实体共现关系确定所述目标分词对应的第一实体关系特征。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述目标分词与所述至少一个其他分词中的每个分词均不存在实体共现关系时,确定所述目标分词对应的第二实体关系特征,其中,所述第二实体关系特征属于所述离散实体关系特征。
6.一种命名实体的识别装置,其特征在于,包括:
获取单元,用于获取待识别的目标文本;
分词单元,用于对所述目标文本进行分词,得到N个分词,其中N≥2;
确定单元,用于根据实体共现关系确定每个所述分词对应的离散实体关系特征;
处理单元,用于将每个所述分词对应的离散实体关系特征输入命名实体识别模型,以得到每个所述分词的命名实体。
7.根据权利要求6所述的装置,其特征在于,所述确定单元包括:
确定模块,用于确定目标分词,所述目标分词为所述N个分词中的任意一个分词;
判断模块,用于判断所述目标分词与所述N个分词中至少一个其他分词是否存在实体共现关系;
处理模块,用于当所述目标分词与所述至少一个其他分词存在实体共现关系时,则根据所述目标分词与所述至少一个其他分词的实体共现关系确定所述目标分词的离散实体关系特征。
8.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
当所述目标分词仅与所述至少一个其他分词中的一个分词存在实体共现关系时,根据所述目标分词与所述至少一个其他分词的一个分词的实体共现关系确定所述目标分词对应的第一实体关系特征,其中,所述第一实体关系特征属于所述离散实体关系特征。
9.根据权利要求7所述的装置,其特征在于,所述处理模块还具体用于:
当所述目标分词与所述至少一个其他分词中的M个分词均存在实体共现关系时,确定所述目标分词与所述M个分词中的分词的实体共现次数,其中,1<M<N;
根据所述实体共现次数确定所述目标分词与所述至少一个其他分词的目标实体共现关系;
根据所述目标实体共现关系确定所述目标分词对应的第一实体关系特征。
10.根据权利要求7所述的装置,其特征在于,所述处理模块还具体用于:
当所述目标分词与所述至少一个其他分词中的每个分词均不存在实体共现关系时,确定所述目标分词对应的第二实体关系特征,其中,所述第二实体关系特征属于所述离散实体关系特征。
11.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行权利要求1至5中任一项所述的命名实体的识别方法的步骤。
12.一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述权利要求1至5中任一项所述的命名实体的识别方法的步骤。
CN201910448555.5A 2019-05-27 2019-05-27 一种命名实体的识别方法及相关设备 Pending CN110162793A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910448555.5A CN110162793A (zh) 2019-05-27 2019-05-27 一种命名实体的识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910448555.5A CN110162793A (zh) 2019-05-27 2019-05-27 一种命名实体的识别方法及相关设备

Publications (1)

Publication Number Publication Date
CN110162793A true CN110162793A (zh) 2019-08-23

Family

ID=67629165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910448555.5A Pending CN110162793A (zh) 2019-05-27 2019-05-27 一种命名实体的识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN110162793A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN111079435A (zh) * 2019-12-09 2020-04-28 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN116383413A (zh) * 2023-06-05 2023-07-04 湖南云略信息技术有限公司 基于医疗数据提取的知识图谱更新方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4942526A (en) * 1985-10-25 1990-07-17 Hitachi, Ltd. Method and system for generating lexicon of cooccurrence relations in natural language
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
CN109670050A (zh) * 2018-12-12 2019-04-23 科大讯飞股份有限公司 一种实体关系预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4942526A (en) * 1985-10-25 1990-07-17 Hitachi, Ltd. Method and system for generating lexicon of cooccurrence relations in natural language
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN109670050A (zh) * 2018-12-12 2019-04-23 科大讯飞股份有限公司 一种实体关系预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
乐娟等: "基于HMM的京剧机构命名实体识别算法", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516654A (zh) * 2019-09-03 2019-11-29 北京百度网讯科技有限公司 视频场景的实体识别方法、装置、电子设备和介质
CN111079435A (zh) * 2019-12-09 2020-04-28 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN111079435B (zh) * 2019-12-09 2021-04-06 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN116383413A (zh) * 2023-06-05 2023-07-04 湖南云略信息技术有限公司 基于医疗数据提取的知识图谱更新方法和系统
CN116383413B (zh) * 2023-06-05 2023-08-29 湖南云略信息技术有限公司 基于医疗数据提取的知识图谱更新方法和系统

Similar Documents

Publication Publication Date Title
JP7123122B2 (ja) 認知的洞察を使用したビデオ・シーンの移動
US10762297B2 (en) Semantic hierarchical grouping of text fragments
CN109582948B (zh) 评价观点抽取的方法及装置
CN110162793A (zh) 一种命名实体的识别方法及相关设备
CN106462640B (zh) 对多媒体内容进行的场境搜索
CN106937172A (zh) 基于人工智能的视频播放时的互动方法及装置
US20140164371A1 (en) Extraction of media portions in association with correlated input
CN113377971B (zh) 多媒体资源生成方法、装置、电子设备以及存储介质
CN108307229A (zh) 一种影音数据的处理方法及设备
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
EP3109775A1 (en) Multimedia content providing method and device
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
CN110427478A (zh) 一种基于知识图谱的问答搜索方法及系统
US20200349179A1 (en) Dynamic faceted search on a document corpus
CN112287168A (zh) 用于生成视频的方法和装置
CN109979450A (zh) 信息处理方法、装置及电子设备
CN106021234A (zh) 标签提取方法及系统
CN110046637A (zh) 一种合同段落标注模型的训练方法、装置及设备
CN108804452A (zh) 多媒体资源封面展示方法及装置
US20140161423A1 (en) Message composition of media portions in association with image content
CN110827058A (zh) 多媒体推广资源插入方法、设备以及计算机可读介质
CN113516491B (zh) 推广信息展示方法、装置、电子设备及存储介质
CN104462272B (zh) 搜索需求分析方法和装置
CN111401044A (zh) 一种标题生成方法、装置、终端设备及存储介质
CN109561339A (zh) 视频文件的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination