CN110929520A - 非命名实体对象抽取方法、装置、电子设备及存储介质 - Google Patents

非命名实体对象抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110929520A
CN110929520A CN201911177807.1A CN201911177807A CN110929520A CN 110929520 A CN110929520 A CN 110929520A CN 201911177807 A CN201911177807 A CN 201911177807A CN 110929520 A CN110929520 A CN 110929520A
Authority
CN
China
Prior art keywords
words
feature words
characteristic
word
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911177807.1A
Other languages
English (en)
Other versions
CN110929520B (zh
Inventor
齐云飞
梁秀钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911177807.1A priority Critical patent/CN110929520B/zh
Publication of CN110929520A publication Critical patent/CN110929520A/zh
Application granted granted Critical
Publication of CN110929520B publication Critical patent/CN110929520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供一种非命名实体对象抽取方法、装置、电子设备及存储介质。该方法包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。本申请实施例通过综合词性标注、依存句法分析和命名实体的识别模型来对非命名实体对象进行识别,提高了识别的准确性。

Description

非命名实体对象抽取方法、装置、电子设备及存储介质
技术领域
本申请涉及对象抽取技术领域,具体而言,涉及一种非命名实体对象抽取方法、装置、电子设备及存储介质。
背景技术
在现在大数据技术和计算机基础得到高速提升的背景下,人工智能(ArtificialIntelligence,AI)被推上了技术顶峰,而AI中桂冠则是自然语言处理(natural languageprocessing,NLP),在NLP任务有一项特别的任务称作命名实体识别(Named EntityRecognition,NER),主要是从一段句子中抽取涉及命名实体,如:人名、地名、组织机构名等。这些命名实体之所以可以抽取出来,终其原因是由于这些名词有很高的内聚性,而和上下文的关联性并不是太强。
目前在工业界针对抽取非命名实体的抽取,只是将命名实体抽取的方法直接借鉴过来,无论其模型是通过统计学判定、词性标注还是通过神经网络,共同原始依然是根据互信息来判断当前词是否为待抽取的实体。这种非命名实体抽取的方式抽取结果不够准确。
发明内容
本申请实施例的目的在于提供一种非命名实体对象抽取方法、装置、电子设备及存储介质,用以解决现有技术中对非命名实体抽取不够准确的问题。
第一方面,本申请实施提供一种非命名实体对象抽取方法,包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
本申请实施例通过综合词性标注、依存句法分析和命名实体的识别模型来对非命名实体对象进行识别,提高了识别的准确性。
进一步地,所述对所述待处理文本进行分词处理,包括:利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。本申请实施例通过利用隐马尔科夫模型训练获得的分词模型对待处理文本进行分词,能够获得准确的分词。
进一步地,所述对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息,包括:从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。本申请实施例通过预先对每个特征词进行词性标注,然后根据词性信息构建路径,从构建的多条路径中选择最优的目标路径,从而提高了词性标注的准确性,进而提高了对非命名实体识别的准确性。
进一步地,所述对所述多个特征词进行依存句法分析,包括:利用StanfordcoreNLP对所述多个特征词进行依存句法分析。本申请实施例通过Stanford coreNLP获得了各个特征词之间的依存关系。
进一步地,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。本申请实施例通过构建命名实体识别模型可以准确地从多个特征词中识别命名实体,进而可以获得非命名实体。
进一步地,所述利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词,包括:利用命名实体识别模型从多个特征词中获得命名实体对应的特征词;将所述命名实体对应的特征词删除,获得所述初选特征词。本申请实施例通过删除确定为命名实体的特征词,缩小了非命名实体对象的识别范围。
进一步地,所述根据所述初选特征词的词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词,包括:根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:将所述初选特征词中的非名词剔除,获得剔除后初选特征词;从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。本申请实施例通过预设规则从初选特征中再次筛选获得非命名实体对象,提高了非命名实体对象的识别准确性。
另一方面,本申请实施例提供一种非命名实体对象抽取装置,包括:
文本获取模块,用于获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
词性标注模块,用于对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
关系分析模块,用于对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
实体分析模块,用于利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
目标词确定模块,用于根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供一种非命名实体对象抽取方法流程示意图;
图2为本申请实施例提供一种词性标注的流程示意图;
图3为本申请实施例提供的装置结构示意图;
图4为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
命名实体(named entity)所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。所谓非命名实体首先是一种实体,在自然语言中实体是指一种有别与其他词的可独立存在的对象,该对象一般是以名词形式表示,在实体中所谓非命名实体指的是除命名实体(人名、地名、组织结构名等)之外,且合乎具体业务需求的实体,该需求依业务不同和发生变化。如:美白、暗黄、熬夜、补水等词。
命名实体的判断准则是判断词与词之间的互信息(一个词中包含另一个词的信息量是多少),即如果前一个字是“蝙”,则下一个字有99%可能性是“蝠”。这种方法对于命名实体的识别是非常有效的。但是对于非命名实体,如抽取“美白”这个词,效果就不是非常好,因为在和“美”组成的词语中,如:“美好”、“美丽”、“美貌”、“美食”等等,“美白”只是其中一个中可能而已。如果采用抽取命名实体的方式抽取非命名实体,那么抽取的准确率较低。
为解决上述问题,本申请实施例提供一种非命名实体对象抽取方法,如图1所示,该方法包括:
步骤101:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
步骤102:对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
步骤103:对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
步骤104:利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
步骤105:根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
下面针对上述步骤101-步骤105进行详细说明,应当说明的是,执行下述各方法实施例的执行主体为抽取装置,该抽取装置可以是台式电脑、笔记本电脑、平板电脑、智能手机以及智能穿戴式电子设备等。
在步骤101中,获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词。
其中,待处理文本可以是一句中文句子,也可以是一段中文段落或一篇中文文章。为了能够更加准确、快速的对非命名实体对象进行抽取,若待处理文本为一段中文段落或一篇中文文章,那么可以将中文段落或文章划分成多个句子。在划分时,可以根据段落或文章中的句号进行划分。
在划分成一个个句子之后,对每个句子进行分词处理,获得多个特征词。其中,中文分词是指将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法有多种,大致可以分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。不同的分词方法对同一文本进行分词获得的结果可能不同。例如:待处理文本为:杭州西湖风景很好,是旅游胜地!基于统计的分词方法分词后获得的结果可以为:杭州|西湖|风景|很|好||是|旅游|胜地|!基于理解的分词方法对应的分词结果为:杭州|西湖|风景|很|好|,|是|旅游胜地|!每个特征词通过“|”进行分割。
在步骤102中,对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息。
词性是词汇基本的语法属性,词性标注,又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。词性标注的方法可以分为基于规则和基于统计的方法,例如:基于最大熵的词性标注、基于统计最大概率输出词性和基于隐马尔可夫模型(Hidden MarkovModel,HMM)。
可以理解的是,一个特征词可能有多个词性,例如:“一把青菜”中的“把”有三个词性,即名词、动词和习用词(尚未成为成语)。但是在其对应的句子中,只有一个词性,因此,通过词性标注可以确定每个特征词对应的目标词性信息。
在步骤103中,对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系。
其中,句法分析是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的句法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。
依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。
通过依存句法分析,可以获得每个特征词与上下文的关系。可以理解的是,上下文是指该特征词与其他特征词之间的关系,例如:主谓关系、动宾关系、间宾关系、定中关系、状中结构、并列关系等等。可以理解的是,可以采用Stanford coreNLP工具对多个特征词进行依存句法分析。
在步骤104中,利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词。
其中,命名实体识别模型可以从待处理文本中识别出命名性指称项。狭义上,是识别出人名、地名和组织机构名这三类命名实体。当然,在特定领域中,会相应地定义领域内的各种实体类型。命名实体识别的方法有多种,例如:基于规则的方法、基于特征模板的方法、基于神经网络的方法等,命名实体识别模型可以基于上述方法构建。
应当说明的是,在利用命名实体识别模型对多个特征词进行分析后,可以从待处理文本中抽取命名实体,并将剩下的特征词作为非命名实体的初选特征词。
在步骤105中,根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
其中,在获得初选特征词之后,初选特征词中可能包含一些既不属于命名实体的特征词,又不属于非命名实体的特征词,因此,需要根据初选特征词的目标词性信息以及初选特征词与上下文的关系进一步筛选,获得目标特征词。
本申请实施例通过综合词性标注、依存句法分析和命名实体的识别模型来对非命名实体对象进行识别,提高了识别的准确性。
在上述实施例的基础上,所述对所述待处理文本进行分词处理,包括:
利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。
在具体的实施过程中,在隐马尔可夫模型中,我们不知道模型经过的状态序列,只知道状态的概率函数,即,观察到的事件是状态的随机函数,因此,该模型是一个双重的随机过程。其中,模型的状态转换过程是不可观察的,即隐蔽的,可观察事件的随机过程是隐蔽的观察状态转换过程的随机函数。隐马尔可夫模型可以用五个元素来描述,包括2个状态集合和三个概率矩阵:
(1)隐含状态S
这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到,(例如S1,S2,S3等等)。
(2)可观测状态O
在模型中与隐含状态相关联,可通过直接观测而得到。(例如O1,O2,O3等等,可观测状态的数目不一定要和隐含状态的数目一致。
(3)初始状态概率矩阵π
表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1,P(S2)=P2,P(S3)=p3,则初始状态概率矩阵π=[p1 p2 p3]。
(4)隐含状态转移概率矩阵A
描述了HMM模型中各个状态之间的转移概率。其中Aij=P(Sj|Si),1≤i,j≤N,表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。
(5)观测状态转移概率矩阵B
令N代表隐含状态数目,M代表可观测状态数目,则Bij=P(Oi|Sj),1≤i≤M,1≤j≤N表示在t时刻、隐含状态是sj条件下,观察状态为Oi的概率。
在对隐马尔可夫模型进行训练时,可以采用四个隐含状态,分别为'S','B','M','E',分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到HMM的各个参数,然后使用维特比算法来解释测试集,得到分词结果。
本申请实施例通过隐马尔可夫模型训练获得的分词模型对待处理文本进行分词,能够获得准确的分词。
在上述实施例的基础上,本申请实施例提供一种词性标注的流程示意图,如图2所示,包括:
步骤201:从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数。
在具体的实施过程中,先从待标注的LOB语料库中选出来部分语料,叫做训练语料。其中,一个训练语料可以为一个句子,也可以是一段文字等。对训练语料中的每个语料逐词进行词性的人工标注,获得每个语料词对应的词性信息,以及该语料词被标记为对应词性信息的次数。
在构建完成训练语料之后,可以从该训练语料中获取每个特征词分别对应的词性信息。例如:待处理文本为:一把青菜,分词后的特征词分别为:一|把|青菜,“一”对应的词性信息为处所词(s),“把”对应的词性信息为名词(n)、动词(v)和习用语(l),“青菜”对应的词性信息为名词(n)。
步骤202:根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息。
在具体的实施过程中,将多个特征词的词性信息进行排列组合,构成多条路径,接着上面的例子,可以构建三条路径,分别是:s-n-n;s-v-n;s-l-n,可以看出,每条路径都包括多个特征词分别对应的一个词性信息。
步骤203:根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率。
在具体的实施过程中,仍接着上述举例,第一条路径的概率计算公式为:P(s,n,n|一,把,青菜)=P(一|s)*P(把|n)*P(青菜|n),第二条路径的概率计算公式为:P(s,v,n|一,把,青菜)=P(一|s)*P(把|v)*P(青菜|n),第三条路径的概率计算公式为:P(s,l,n|一,把,青菜)=P(一|s)*P(把|l)*P(青菜|n)。
其中:
Figure BDA0002288163670000101
步骤204:将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
在具体的实施过程中,在计算获得每条路径对应的概率值后,将概率值最大的哪条路径作为目标路径,目标路径中每个特征词对应的词性信息为目标词性信息。
本申请实施例通过根据各特征词的词性信息构建多条路径,然后从多条路径中选择一条概率值最大的,以获得每个特征词对应的目标词性信息,消除了兼类词歧义,提高了对词性标注的准确性。
在上述实施例的基础上,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:
获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
在具体的实施过程中,预先收集多个属于命名实体的特征词,和多个属于非命名实体的特征词,应当说明的是,在收集特征词时,可以根据待处理文本所涉及的领域进行收集,尽量多的收集与待处理文本所处领域的命名实体和非命名实体。并且,属于命名实体的特征词的数量可以与非命名实体的特征词的数量相当,或者属于命名实体的特征词的数量占总特征词数量的2/3等。属于命名实体的特征词构成正样本,属于非命名实体的特征词构成了负样本。
在训练时,将属于命名实体的特征词和属于非命名实体的特征词作为输入,输入到神经网络模型中,该神经网络模型输出对应输入的预测结果,利用预测结果和输入的特征词对应的标签(命名实体或非命名实体)对神经网络中的参数进行调整,最终获得训练完成的命名实体识别模型。
在获得训练好的命名实体识别模型后,该命名实体识别模型能够较准确的抽取到属于命名实体的特征词。因此,可以利用该命名实体识别模型对待处理文本对应的多个特征词进行识别,获得多个属于命名实体的特征词。然后将属于命名实体的特征词删除处理,剩下的即为属于非命名实体的初选特征词。
在上述实施例的基础上,所述根据所述初选特征词的词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词,包括:
根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:
将所述初选特征词中的非名词剔除,获得剔除后初选特征词;
从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。
在具体的实施过程中,由于初选特征词是通过命名实体识别模型抽取出命名实体后剩下的特征词,因此,初选特征词中可能包含有一些既不是命名实体,又不是非命名实体的特征词,例如:代词、连词等。因此,需要对初选特征词进行再次筛选。在筛选时,可以按照如下规则进行:
(1)非命名实体对应的特征词应当是名词,因此,将初选特征词中词性不是名词的特征词剔除;
(2)根据每个剔除后初选特征词与上下文的关系,将与主语存在定中结构或状中结构的特征词作为目标特征词,以及将与宾语存在定中结构或状中结构的特征词作为目标特征词。
例如:“这款化妆品的美白效果真是好啊”,通过句法分析可以得到,“效果”和“美白”是补充关系,而两者都是对名词“化妆品”的形容词修饰关系,即“定中结构(ATT)”,所以可以将“美白”提取出来,作为目标特征词。
应当说明的是,对于不同领域,不同场景,其对应的规则可能不同,例如:对词性的要求,对上下文关系的要求等,因此,可以根据实际需求对上述预设规则进行调整,本申请实施例不对预设规则的具体内容进行限定。
本申请实施例通过将词性标注、依存句法分析和命名实体识别进行组合,提取和甄别自然语言中非命名实体,相较于目前直接使用命名实体识别方式判断,提高了抽取的精度。
图3为本申请实施例提供的装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括:文本获取模块301、词性标注模块302、关系分析模块303、实体分析模块304和目标词确定模块305,其中:
文本获取模块301用于获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;词性标注模块302用于对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;关系分析模块303用于对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;实体分析模块304用于利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;目标词确定模块305用于根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
在上述实施例的基础上,文本获取模块301具体用于:
利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。
在上述实施例的基础上,词性标注模块302具体用于:
从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;
根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;
根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;
将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
在上述实施例的基础上,关系分析模块303具体用于:
利用Stanford coreNLP对所述多个特征词进行依存句法分析。
在上述实施例的基础上,该装置还包括模型训练模块,用于:
获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
在上述实施例的基础上,实体分析模块304具体用于:
利用命名实体识别模型从多个特征词中获得命名实体对应的特征词;
将所述命名实体对应的特征词删除,获得所述初选特征词。
在上述实施例的基础上,关系分析模块303具体用于:
根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:
将所述初选特征词中的非名词剔除,获得剔除后初选特征词;
从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。
综上所述,本申请实施例通过将词性标注、依存句法分析和命名实体识别进行组合,提取和甄别自然语言中非命名实体,相较于目前直接使用命名实体识别方式判断,提高了抽取的精度。
图4为本申请实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;其中,
所述处理器401和存储器402通过所述总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种非命名实体对象抽取方法,其特征在于,包括:
获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行分词处理,包括:
利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息,包括:
从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;
根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;
根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;
将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个特征词进行依存句法分析,包括:
利用Stanford coreNLP对所述多个特征词进行依存句法分析。
5.根据权利要求1所述的方法,其特征在于,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:
获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
6.根据权利要求1所述的方法,其特征在于,所述利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词,包括:
利用命名实体识别模型从多个特征词中获得命名实体对应的特征词;
将所述命名实体对应的特征词删除,获得所述初选特征词。
7.根据权利要求1所述的方法,其特征在于,所述根据所述初选特征词的词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词,包括:
根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:
将所述初选特征词中的非名词剔除,获得剔除后初选特征词;
从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。
8.一种非命名实体对象抽取装置,其特征在于,包括:
文本获取模块,用于获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
词性标注模块,用于对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
关系分析模块,用于对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
实体分析模块,用于利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
目标词确定模块,用于根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。
CN201911177807.1A 2019-11-25 2019-11-25 非命名实体对象抽取方法、装置、电子设备及存储介质 Active CN110929520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911177807.1A CN110929520B (zh) 2019-11-25 2019-11-25 非命名实体对象抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911177807.1A CN110929520B (zh) 2019-11-25 2019-11-25 非命名实体对象抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110929520A true CN110929520A (zh) 2020-03-27
CN110929520B CN110929520B (zh) 2023-12-08

Family

ID=69851293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911177807.1A Active CN110929520B (zh) 2019-11-25 2019-11-25 非命名实体对象抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110929520B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738008A (zh) * 2020-07-20 2020-10-02 平安国际智慧城市科技股份有限公司 基于多层模型的实体识别方法、装置、设备及存储介质
CN112381143A (zh) * 2020-11-13 2021-02-19 长城计算机软件与系统有限公司 基于机器学习的变量自动分类方法及系统
CN112818665A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 结构化地址信息的方法、装置、电子设备及存储介质
CN113887232A (zh) * 2021-12-07 2022-01-04 北京云迹科技有限公司 一种对话信息的命名实体识别方法、装置和电子设备
CN114330341A (zh) * 2020-10-09 2022-04-12 阿里巴巴集团控股有限公司 命名实体识别方法和命名实体识别装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246795A (ja) * 2012-05-29 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、方法、及びプログラム
CN106681981A (zh) * 2015-11-09 2017-05-17 北京国双科技有限公司 中文词性的标注方法和装置
CN107608970A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246795A (ja) * 2012-05-29 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置、方法、及びプログラム
CN106681981A (zh) * 2015-11-09 2017-05-17 北京国双科技有限公司 中文词性的标注方法和装置
CN107608970A (zh) * 2017-09-29 2018-01-19 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置
CN109472026A (zh) * 2018-10-31 2019-03-15 北京国信云服科技有限公司 一种同时针对多个命名实体的精准情感信息提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵红丹等: "基于隐马尔科夫模型的词性标注", 《安阳师范学院学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738008A (zh) * 2020-07-20 2020-10-02 平安国际智慧城市科技股份有限公司 基于多层模型的实体识别方法、装置、设备及存储介质
CN111738008B (zh) * 2020-07-20 2021-04-27 深圳赛安特技术服务有限公司 基于多层模型的实体识别方法、装置、设备及存储介质
CN114330341A (zh) * 2020-10-09 2022-04-12 阿里巴巴集团控股有限公司 命名实体识别方法和命名实体识别装置
CN112381143A (zh) * 2020-11-13 2021-02-19 长城计算机软件与系统有限公司 基于机器学习的变量自动分类方法及系统
CN112381143B (zh) * 2020-11-13 2023-12-05 新长城科技有限公司 基于机器学习的变量自动分类方法及系统
CN112818665A (zh) * 2021-01-29 2021-05-18 上海寻梦信息技术有限公司 结构化地址信息的方法、装置、电子设备及存储介质
CN113887232A (zh) * 2021-12-07 2022-01-04 北京云迹科技有限公司 一种对话信息的命名实体识别方法、装置和电子设备

Also Published As

Publication number Publication date
CN110929520B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN111222305B (zh) 一种信息结构化方法和装置
CN109800310A (zh) 一种基于结构化表达的电力运维文本分析方法
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN105912629A (zh) 一种智能问答方法及装置
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
Jayaweera et al. Hidden markov model based part of speech tagger for sinhala language
CN111177375A (zh) 一种电子文档分类方法及装置
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
Khorjuvenkar et al. Parts of speech tagging for Konkani language
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
Srinivasagan et al. An automated system for tamil named entity recognition using hybrid approach
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN109241521A (zh) 一种基于引用关系的科技文献高关注度句子提取方法
CN114298048A (zh) 命名实体识别方法及装置
Behera An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia.
Parveen et al. Clause Boundary Identification using Classifier and Clause Markers in Urdu Language
CN109727591B (zh) 一种语音搜索的方法及装置
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant