CN113553853B - 命名实体识别方法、装置、计算机设备及存储介质 - Google Patents
命名实体识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113553853B CN113553853B CN202111084894.3A CN202111084894A CN113553853B CN 113553853 B CN113553853 B CN 113553853B CN 202111084894 A CN202111084894 A CN 202111084894A CN 113553853 B CN113553853 B CN 113553853B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- entity
- participle
- trigger
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及一种命名实体识别方法、装置、计算机设备和存储介质。方法包括:随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;基于触发词词典,对待识别文本进行命名实体识别。利用实体触发词与命名实体之间的关系,对待识别的命名实体进行识别,不需要对语料库中所有的文本进行人工标注,提高了识别效率,降低了识别成本。
Description
技术领域
本申请涉及信息检索技术领域,特别是涉及一种命名实体识别方法、装备、计算机设备及存储介质。
背景技术
随着互联网和信息产业的高速发展,海量的文本数据不断产生,如何高效地从海量的文本数据中获得有用的信息成为现在的研究热点,信息抽取技术应运而生,而命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的命名实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,因此,对它的研究具有重要意义和价值。
在相关技术中,主要是通过使用实体标注工具,如文本数据标注工具YEDDA等,对语料库中所有语料的命名实体进行人工标注。但是在语料库的数据数量庞大时,对所述有语料库进行人工标注过程,需要消耗较高的成本和较长的时间。
发明内容
基于此,有必要针对上述技术问题,提供一种能够灵活有效地识别有害语音的方法、装置、计算机设备和存储介质。
一种命名实体识别方法,该方法包括:
随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;
基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;
基于触发词词典,对待识别文本进行命名实体识别。
在其中一个实施例中,第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
在其中一个实施例中,第一预设算法为基于统计模型的分词算法;相应地,基于第一预设算法,确定训练文本库中每一文本中的分词,包括:
按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
根据每一候选分词在每一文本中的出现次数,确定每一候选分词在所述训练文本库中的总出现次数;
对于任一文本中的任一候选分词,若任一候选分词的总出现次数大于预设阈值,则将任一候选分词作为任一文本中的分词。
在其中一个实施例中,第二预设算法为四位序列标注法BMES、三位序列标注法BIO或另一种四位序列标注法BIOES。
在其中一个实施例中,触发词词典是由多组词对所构成的;其中,每一词对包括一个实体触发词以及所述一个实体触发词对应的命名实体集合;相应地,所述基于触发词词典,对待识别文本进行命名实体识别,包括:
对待识别文本进行分词,得到待识别文本的分词序列;
对于分词序列中的任一分词,在触发词词典中查找是否存在实体触发词与任一分词相同的词对,若存在,则根据查找到的词对对命名实体进行识别。
在其中一个实施例中,根据查找到的词对对命名实体进行识别,包括:
将查找到的词对作为任一分词匹配的词对,在分词序列中查找是否存在满足预设条件的分词;
若存在,则将查找到的分词作为待识别文本中的命名实体,预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含。
在其中一个实施例中,触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将任一分词记为A,将分词序列中满足预设条件的分词记为B;相应地,预设条件还包括在实际相对位置信息与参考相对位置信息相匹配;所述实际相对位置信息指的是在待识别文本中所述A与所述B之间的相对位置信息,参考相对位置信息指的是在触发词词典中所述A与所述B之间的相对位置信息。
一种命名实体识别装置,该装置包括:
分词模块,用于随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定所述训练文本库中每一文本中的分词;
标注模块,用于基于第二预设算法,对所述训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建模块,用于构建触发词词典,所述触发词词典用于存储所述训练文本库中存在对应关系的命名实体及实体触发词;
识别模块,用于基于所述触发词词典,对待识别文本进行命名实体识别。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;
基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;
基于触发词词典,对待识别文本进行命名实体识别。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;
基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;
基于触发词词典,对待识别文本进行命名实体识别。
上述命名实体方法、装置、计算机设备和存储介质,随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;基于触发词词典,对待识别文本进行命名实体识别。利用实体触发词与命名实体之间的关系,对待识别的命名实体进行识别,不需要对语料库中所有的文本进行人工标注,提高了识别效率,降低了识别成本。
附图说明
图1为一个实施例中命名实体识别方法的流程示意图;
图2为另一个实施例中命名实体识别方法的流程示意图;
图3为又另一个实施例中命名实体识别方法的流程示意图;
图4为一个实施例命名实体识别装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种专业名词,但除非特别说明,这些专业名词不受这些术语限制。这些术语仅用于将一个专业名词与另一个专业名词区分。举例来说,在不脱离本申请的范围的情况下,第三预设阈值与第四预设阈值可以相同可以不同。
随着互联网和信息产业的高速发展,海量的文本数据不断产生,如何高效地从海量的文本数据中获得有用的信息成为现在的研究热点,信息抽取技术应运而生,而命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的命名实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,因此,对它的研究具有重要意义和价值。
在相关技术中,主要是通过使用实体标注工具,如文本数据标注工具YEDDA等,对语料库中所有语料的命名实体进行人工标注。但是在语料库的数据数量庞大时,对所述有语料库进行人工标注过程,需要消耗较高的成本和较长的时间。
针对上述相关技术中存在的问题,本发明实施例提供了一种基于多源数据的电力智能客服知识图谱构建方法,参见图1,以该方法应用于服务器,且执行主体为服务器为例进行说明,该方法包括如下步骤:
步骤101,随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;
步骤102,基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
步骤103,构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;
步骤104,基于所述触发词词典,对待识别文本进行命名实体识别。
在自然语言处理领域中,语料库是指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料,在本发明实施例中,语料库中存储的文本可以是文章、句子、短语等,在此不对语料库中每一文本的字数作具体限定。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
在步骤101之前,计算机会获取并建立命名实体语料库,以电力系统所需要的命名实体识别为例,从多个来源获取数据组成语料库,以确保语料库的丰富程度,如可以从电网企业内部数据库中的电力相关数据、政府网站、电力企业网站、电力行业期刊中的相关数据信息等中获取与电力相关的数据,并对获取的数据进行帅选、清晰、整理,去除重复和无用的信息,整理成完整的命名实体识别语料库。
步骤101中会从语料库中随机选取一部分的文本对命名实体识别模型进行训练,而对命名实体识别模型的训练可以是在需要进行命名实体识别之前就将模型训练好,也可以是在获取待识别的语料库后选取一部分文本对模型进行训练。在进行命名实体识别之前,出需要建立语料库之外,还需对语料库中的文本进行分词处理,对于中文而言,词是承载语义的最小单元,由词构成语句,又由语句构成篇章,所以在对文本进行标注、实体识别之前,需要将文本划分为最小单的集合。中文分词可以采用机械分词算法,按照一定的策略将带识别的语料库中的文本与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则识别出一个词,由此对文本进行分词处理。在机械分词算法中的匹配方法有多种,在此不对采用的而具体匹配方式作具体限定。
在一个实施例中,采用BIO标注法对训练文本进行标注,将每个词元素标注为“B-X”、“I-X”或“O”。其中,“B-X”表示此词元素所在片段属于X类型且此词元素在此片段的首部,“I-X”表示此词元素所在片段属于X类型且此词元素在此片段的中间,“O”表示此词元素不属于任何类型。以电力系统为例,可以进一步用BIO标注法定义所有的电力命名实体(地名、公司名、组织名、价格、故障名称等),将会有许多B和I的类别,如B-LOC表示开头片段中的地名、B-COM表示开头片段中的公司名、I-LOC表示中间片段中的地名等;如对于句子“中国南方电网公司是中央管理的国有重要骨干企业”,可标注为“中国_B-LOC 南方电网公司_B-COM 是_O 中央_B-ORG 管理_O 的_O 国有_O 重要_O 骨干_O 企业_B-ORG _O”。
实体触发词是一组特定的词或短语,可以根据这些词或短语及其与命名实体之间的关系,推测中句子中的命名实体。例如对于句子“南方电网公司总部位于GZ”,可以推测出“GZ”是句子中的位置实体,能够识别出这个实体是因为有短语“位于”的提示,也就是说明在“位于”后面有一个位置实体。这样的词就称之为“实体触发词”。同样地,如果在其他句子中出现“位于”,那“位于”后面一般都跟着一个位置实体。在步骤102 和步骤103中,对已经分词处理过的文本进行命名实体标注和实体触发词标注,并将两者之间的对应关系已数据的方式存储在计算机中,形成触发词词典。
用x=[x1,x2,…,xn]表示标注的训练文本库DL中的一个句子,该句子对应的实体识
别标签序列为y=[y1,y2,…,yn],其中yi的值可以为{O,B-LOC,I-LOC,B-COM,I-COM,…}。综
上,可以将标注的语料表示为DL={(xi,yi)},将未标注的语料库示为DU={xi}。对实体触发词
进行标注,用T(x,y)表示一组标注的触发词,其中的每一个触发词与一个实
体索引e和一组词索引{wi}相关联。本方案使用实体的第一个字(或单词)的索引作为整个
实体的索引,可表示为t=({w1,w2,…}e),其中wi和e是[1,|x|]范围内的整数。例如,对于句
子“南方电网公司总部位于GZ”,触发词“位于”可以表示为T1=({9,10}11),“位”和“于”在该
句子中的位置索引分别为9和10,并且其指向的实体“GZ”的位置索引从11开始。在添加了触
发词的相关信息之后,原来的语料表示形式从DL={(xi,yi)}变为DT={(xi,yi,T(xi,yi))}。
本发明实施例提供的方法中,随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;基于触发词词典,对待识别文本进行命名实体识别。利用实体触发词与命名实体之间的关系,对待识别的命名实体进行识别,不需要对语料库中所有的文本进行人工标注,提高了识别效率,降低了识别成本。
结合上述实施例的内容,在一个实施例中,第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
其中,基于词表的分词算法主要包括:正向最大匹配法、逆向最大匹配法及N-最短路径方法。基于统计模型的分词算法主要是基于N-gram语言模型的分词方法。基于序列标注模型的分词算法包括:基于HMM的分词方法、基于CRF的分词方法、基于词感知机的分词方法及基于深度学习的端到端的分词方法。分词是自然语言机器处理的基本工作,种类繁多,在此不作具体限定。
在本发明实施例提供的方法中,第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法,良好的分词基础能够提高命名实体识别的效率和效果,并且节约成本。
结合上述实施例的内容,在一个实施例中,参见图2,第一预设算法为基于统计模型的分词算法,相应地,本实施例不对基于第一预设算法,确定所述训练文本库中每一文本中的分词的方式作具体限定,包括但不限于:
步骤201,按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
步骤202,根据每一候选分词在每一文本中的出现次数,确定每一候选分词在训练文本库中的总出现次数;
步骤203,对于任一文本中的任一候选分词,若任一候选分词的总出现次数大于预设阈值,则将任一候选分词作为任一文本中的分词。
需要说明的是,语料库中的每一文本在存储的时候,所有字符均是按照文本本身的意思的顺序存储的,并且在命名实体识别的时候是需要考虑语义的,所以在对每一文本进行分词处理的时候,按照语料库中的文本存储的字符顺序进行分词。在本实施例中,采用的是基于统计模型的分词算法。在步骤201中,预设数量可以是2个字、3个字、4个字等,具体根据文本内容确定分词中字的个数,且不同的命名实体对应的预设数量可以相同也可以不同,以人名为例,正常情况下人名不会超过4个字,但是对于地名来说就有可能超过4个字。并且在本方案中,分词的定义是依据候选分词出现的次数判定的,在此也可以通过计算候选词与其相似的候选词出现次数比进行判定,相似候选词即存在相同字的却不同数量字的候选词,例如“葡萄”和“葡萄酒”,在不同的语料库中可能是不同的候选词。
在本发明实施例中提供的方法中,第一预设算法为基于统计模型的分词算法,相应地,按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;根据每一候选分词在每一文本中的出现次数,确定每一候选分词在训练文本库中的总出现次数;对于任一文本中的任一候选分词,若任一候选分词的总出现次数大于预设阈值,则将任一候选分词作为任一文本中的分词。采用基于统计模型的分词算法,能够得到更好的分词效果,能够提高命名实体识别的效果,并且由于是计算候选词出现的次数,能够大大地减少计算量和计算成本。
结合上述实施例的内容,在一个实施例中,本实施例不对第二预设算法做具体限定,包括但不限于第二预设算法为四位序列标注法BMES、三位序列标注法BIO或四位序列标注法BIOES。
标注是在进行命名实体识别之后,将所得到的结果展示出来的方法,在对命名实体识别模型训练之前,采用人工标注的方法对训练文本进行标注,再将标注结果输入至计算机中,是的计算机能够利用已知的标注结果对模型进行训练学习。BMES 四位序列标注法:B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词。我/S 是/S 广/B 东/M 人/E (符号标注,‘东’是‘广’和‘人’的中间部分,凑成‘广东人’这个实体)我/ 是/ 广东人/ (标注上分出来的实体块)。BIO 三位标注 (B-begin,I-inside,O-outside):B-X 代表实体X的开头, I-X代表实体的结尾 O代表不属于任何类型的。BIOES (B-begin,I-inside,O-outside,E-end,S-single):B 表示开始,I表示内部, O表示非实体,E实体尾部,S表示改词本身就是一个实体。在具体实施例应用中,可以根据需要对标注的类型作更详细的定义。
本发明实施例提供的方法中,第二预设算法为四位序列标注法BMES、三位序列标注法BIO或另一种四位序列标注法BIOES,对训练文本的精确标注有利于提高命名实体识别的效果。
结合上述实施例的内容,在一个实施例中,触发词词典是由多组词对所构成的;其中,每一词对包括一个实体触发词以及一个实体触发词对应的命名实体集合,相应地,参见图3,本实施例不对基于触发词词典,对待识别文本进行命名实体识别的方式作具体限定,包括但不仅限于:
步骤301,对待识别文本进行分词,得到待识别文本的分词序列;
步骤302,对于分词序列中的任一分词,在触发词词典中查找是否存在实体触发词与任一分词相同的词对,若存在,则根据查找到的词对对命名实体进行识别。
需要说明的是,在对待识别文本进行命名实体识别之前,也需先对带识别文本进行分词处理,得到待识别文本的分词序列,该分词序列中包含了若干分词。根据触发词词典中的每一词对包含的关系,将每一分词与每一词对进行匹配,若待识别文本的分词序列中存在实体触发词,则待识别文本中可能存在命名实体。在此,可以利用计算机中预先设定的模块提取实体触发词的特征信息,经该特征信息的特征向量与待识别文本的句子向量进行拼接,得到新的句子向量,利用新的句子向量对待识别文本进行分析。
在本发明实施例提供的方法中,触发词词典是由多组词对所构成的;其中,每一词对包括一个实体触发词以及一个实体触发词对应的命名实体集合;相应地,对待识别文本进行分词,得到待识别文本的分词序列;对于分词序列中的任一分词,在触发词词典中查找是否存在实体触发词与任一分词相同的词对,若存在,则根据查找到的词对对命名实体进行识别。利用实体触发词原理,先对一部分语料进行标注,得到触发词词典,在根据触发词词典对待识别文本进行命名实体识别,实现了利用“小样本数据(即小规模数据)”,实现较好的实体识别效果,避免了使用大规模数据进行训练所产生的高昂的成本。
结合上述实施例的内容,在一个实施例中,本实施例不对根据查找到的词对对命名实体进行识别的方式作具体限定,包括但不限于:
将所述查找到的词对作为所述任一分词匹配的词对,在所述分词序列中查找是否存在满足预设条件的分词;
若存在,则将查找到的分词作为所述待识别文本中的命名实体,所述预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含。
需要说明的是,触发词词典中包含的每一词对都有一组对应关系,即一个实体触发词对应的是一个命名实体集合,在该命名实体集合中可能有一个词,也有可能有多个词。在待识别文本的分词序列中找到对应的实体触发词后,将该实体触发词对应的命名实体集合中的所有命名实体与该实体触发词对应位置的分词进行匹配,若匹配成功,则说明给分词是一个命名实体。
在本发明实施例提供的方法中,将所述查找到的词对作为所述任一分词匹配的词对,在所述分词序列中查找是否存在满足预设条件的分词;若存在,则将查找到的分词作为所述待识别文本中的命名实体,所述预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含。利用实体触发词与命名实体之间的关系,对待识别的命名实体进行识别,不需要对语料库中所有的文本进行人工标注,提高了识别效率,降低了识别成本。
结合上述实施例的内容,在一个实施例中,触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将任一分词记为A,将分词序列中满足预设条件的分词记为B;相应地,预设条件还包括在实际相对位置信息与参考相对位置信息相匹配;实际相对位置信息指的是在待识别文本中A与B之间的相对位置信息,参考相对位置信息指的是在触发词词典中A与B之间的相对位置信息。
以句子“南方电网公司总部位于GZ”为例,可以推测出“GZ”是句子中的位置实体,能够识别出这个实体是因为有短语“位于”的提示,也就是说明在“位于”后面有一个位置实体,而“位于”作为实体触发词时,在紧跟其后的位置有一个位置实体,当识别到的实体不是在“位于”之后的,也不算匹配成功。
在本发明实施例提供的方法中,触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将任一分词记为A,将分词序列中满足预设条件的分词记为B;相应地,预设条件还包括在实际相对位置信息与参考相对位置信息相匹配;实际相对位置信息指的是在待识别文本中A与B之间的相对位置信息,参考相对位置信息指的是在触发词词典中A与B之间的相对位置信息。在触发词词典中增加有关实体触发词与对应的命名实体之间其他的关系限定,进一步对触发词进行限定,能够提高命名实体识别的效果。
应该理解的是,虽然图1、图2及图3的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2及图3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,上述阐述的技术方案在实际实施过程中可以作为独立实施例来实施,也可以彼此之间进行组合并作为组合实施例实施。另外,在对上述本发明实施例内容进行阐述时,仅基于方便阐述的思路,按照相应顺序对不同实施例进行阐述,如按照数据流流向的顺序,而并非是对不同实施例之间的执行顺序进行限定,也不是对实施例内部步骤的执行顺序进行限定。相应地,在实际实施过程中,若需要实施本发明提供的多个实施例,则不一定需要按照本发明阐述实施例时所提供的执行顺序,而是可以根据需求安排不同实施例之间的执行顺序。
结合上述实施例的内容,在一个实施例中,参见图4,提供了一种基于多源数据的电力智能客服知识图谱构建装置,包括:分词模块401、标注模块402、构建模块403及识别模块404,其中:
分词模块,用于随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定所述训练文本库中每一文本中的分词;
标注模块,用于基于第二预设算法,对所述训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建模块,用于构建触发词词典,所述触发词词典用于存储所述训练文本库中存在对应关系的命名实体及实体触发词;
识别模块,用于基于所述触发词词典,对待识别文本进行命名实体识别。
在一个实施例中,分词单元401包括:
第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
在一个实施例中,第一预设算法为基于统计模型的分词算法;相应地,分词单元401包括:
按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
根据每一候选分词在每一文本中的出现次数,确定每一候选分词在所述训练文本库中的总出现次数;
对于任一文本中的任一候选分词,若任一候选分词的总出现次数大于预设阈值,则将任一候选分词作为任一文本中的分词。
在一个实施例中,标注模块402包括第二预设算法为四位序列标注法BMES、三位序列标注法BIO或另一种四位序列标注法BIOES。
在一个实施例中,触发词词典是由多组词对所构成的;其中,每一词对包括一个实体触发词以及所述一个实体触发词对应的命名实体集合;相应地,识别模块404包括:
对待识别文本进行分词,得到待识别文本的分词序列;
对于分词序列中的任一分词,在触发词词典中查找是否存在实体触发词与任一分词相同的词对,若存在,则根据查找到的词对对命名实体进行识别。
在一个实施例中,识别模块404包括:
将查找到的词对作为任一分词匹配的词对,在分词序列中查找是否存在满足预设条件的分词;
若存在,则将查找到的分词作为待识别文本中的命名实体,预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含。
在一个实施例中,识别模块404包括:
触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将任一分词记为A,将分词序列中满足预设条件的分词记为B;相应地,预设条件还包括在实际相对位置信息与参考相对位置信息相匹配;所述实际相对位置信息指的是在待识别文本中所述A与所述B之间的相对位置信息,参考相对位置信息指的是在触发词词典中所述A与所述B之间的相对位置信息。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设阈值。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多源数据的电力智能客服知识图谱构建方法。
本领域技术人员可以理解,图5示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;
基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;
基于触发词词典,对待识别文本进行命名实体识别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
根据每一候选分词在每一文本中的出现次数,确定每一候选分词在所述训练文本库中的总出现次数;
对于任一文本中的任一候选分词,若任一候选分词的总出现次数大于预设阈值,则将任一候选分词作为任一文本中的分词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:第二预设算法为四位序列标注法BMES、三位序列标注法BIO或四位序列标注法BIOES。
在一个实施例中,触发词词典是由多组词对所构成的;其中,每一词对包括一个实体触发词以及所述一个实体触发词对应的命名实体集合;相应地,处理器执行计算机程序时还实现以下步骤:
对待识别文本进行分词,得到待识别文本的分词序列;
对于分词序列中的任一分词,在触发词词典中查找是否存在实体触发词与任一分词相同的词对,若存在,则根据查找到的词对对命名实体进行识别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将查找到的词对作为任一分词匹配的词对,在分词序列中查找是否存在满足预设条件的分词;
若存在,则将查找到的分词作为待识别文本中的命名实体,预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将任一分词记为A,将分词序列中满足预设条件的分词记为B;相应地,预设条件还包括在实际相对位置信息与参考相对位置信息相匹配;所述实际相对位置信息指的是在待识别文本中所述A与所述B之间的相对位置信息,参考相对位置信息指的是在触发词词典中所述A与所述B之间的相对位置信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定训练文本库中每一文本中的分词;
基于第二预设算法,对训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建触发词词典,触发词词典用于存储训练文本库中存在对应关系的命名实体及实体触发词;
基于触发词词典,对待识别文本进行命名实体识别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
根据每一候选分词在每一文本中的出现次数,确定每一候选分词在所述训练文本库中的总出现次数;
对于任一文本中的任一候选分词,若任一候选分词的总出现次数大于预设阈值,则将任一候选分词作为任一文本中的分词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:第二预设算法为四位序列标注法BMES、三位序列标注法BIO或另一种四位序列标注法BIOES。
在一个实施例中,触发词词典是由多组词对所构成的;其中,每一词对包括一个实体触发词以及所述一个实体触发词对应的命名实体集合;相应地,计算机程序被处理器执行时还实现以下步骤:
对待识别文本进行分词,得到待识别文本的分词序列;
对于分词序列中的任一分词,在触发词词典中查找是否存在实体触发词与任一分词相同的词对,若存在,则根据查找到的词对对命名实体进行识别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将查找到的词对作为任一分词匹配的词对,在分词序列中查找是否存在满足预设条件的分词;
若存在,则将查找到的分词作为待识别文本中的命名实体,预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将任一分词记为A,将分词序列中满足预设条件的分词记为B;相应地,预设条件还包括在实际相对位置信息与参考相对位置信息相匹配;所述实际相对位置信息指的是在待识别文本中所述A与所述B之间的相对位置信息,参考相对位置信息指的是在触发词词典中所述A与所述B之间的相对位置信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种命名实体识别方法,其特征在于,所述方法包括:
随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定所述训练文本库中每一文本中的分词;
基于第二预设算法,对所述训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建触发词词典,所述触发词词典用于存储所述训练文本库中存在对应关系的命名实体及实体触发词;
对待识别文本进行分词,得到所述待识别文本的分词序列,在所述触发词词典中查找是否存在实体触发词与所述分词序列中的任一分词相同的词对,若存在,则将所述查找到的词对作为所述任一分词匹配的词对,在所述分词序列中查找是否存在满足预设条件的分词;
若存在,则将查找到的分词作为所述待识别文本中的命名实体,所述预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含,其中,所述触发词词典是由多组词对所构成的,每一词对包括一个实体触发词以及所述一个实体触发词对应的命名实体集合,所述触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将所述任一分词记为A,将所述分词序列中满足所述预设条件的分词记为B;相应地,所述预设条件还包括实际相对位置信息与参考相对位置信息相匹配;所述实际相对位置信息指的是在所述待识别文本中所述A与所述B之间的相对位置信息,所述参考相对位置信息指的是在所述触发词词典中所述A与所述B之间的相对位置信息。
2.根据权利要求1 所述的方法,其特征在于,所述第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
3.根据权利要求2所述的方法,其特征在于,所述第一预设算法为基于统计模型的分词算法;相应地,所述基于第一预设算法,确定所述训练文本库中每一文本中的分词,包括:
按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
根据每一候选分词在每一文本中的出现次数,确定每一候选分词在所述训练文本库中的总出现次数;
对于任一文本中的任一候选分词,若所述任一候选分词的总出现次数大于预设阈值,则将所述任一候选分词作为所述任一文本中的分词。
4.根据权利要求1 所述的方法,其特征在于,所述第二预设算法为四位序列标注法BMES、三位序列标注法BIO或另一种四位序列标注法BIOES。
5.一种命名实体识别装置,其特征在于,所述装置包括:
分词模块,用于随机从语料库中选取预设数量的文本组成训练文本库,并基于第一预设算法,确定所述训练文本库中每一文本中的分词;
标注模块,用于基于第二预设算法,对所述训练文本库中每一文本中的分词进行标注;其中,分词的标注结果为命名实体或实体触发词;
构建模块,用于构建触发词词典,所述触发词词典用于存储所述训练文本库中存在对应关系的命名实体及实体触发词;
第一识别模块,用于对待识别文本进行分词,得到所述待识别文本的分词序列,在所述触发词词典中查找是否存在实体触发词与所述分词序列中的任一分词相同的词对,若存在,则将所述查找到的词对作为所述任一分词匹配的词对,在所述分词序列中查找是否存在满足预设条件的分词;
第二识别模块,用于若存在,则将查找到的分词作为所述待识别文本中的命名实体,所述预设条件包括被所述任一分词匹配的词对中的命名实体集合所包含,其中,所述触发词词典是由多组词对所构成的,每一词对包括一个实体触发词以及所述一个实体触发词对应的命名实体集合,所述触发词词典中还存储有实体触发词与命名实体之间的相对位置信息,将所述任一分词记为A,将所述分词序列中满足所述预设条件的分词记为B;相应地,所述预设条件还包括实际相对位置信息与参考相对位置信息相匹配;所述实际相对位置信息指的是在所述待识别文本中所述A与所述B之间的相对位置信息,所述参考相对位置信息指的是在所述触发词词典中所述A与所述B之间的相对位置信息。
6.根据权利要求5所述的装置,其特征在于,所述第一预设算法为基于词表的分词算法、基于统计模型的分词算法或基于序列标注模型的分词算法。
7.根据权利要求6所述的装置,其特征在于,所述第一预设算法为基于统计模型的分词算法;相应地,所述基于第一预设算法,确定所述训练文本库中每一文本中的分词,包括:
按照每一文本中的字符排列顺序,将每一文本中连续的预设数量个字符组合成为候选分词;
根据每一候选分词在每一文本中的出现次数,确定每一候选分词在所述训练文本库中的总出现次数;
对于任一文本中的任一候选分词,若所述任一候选分词的总出现次数大于预设阈值,则将所述任一候选分词作为所述任一文本中的分词。
8.根据权利要求5所述的装置,其特征在于,所述第二预设算法为四位序列标注法BMES、三位序列标注法BIO或另一种四位序列标注法BIOES 。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084894.3A CN113553853B (zh) | 2021-09-16 | 2021-09-16 | 命名实体识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111084894.3A CN113553853B (zh) | 2021-09-16 | 2021-09-16 | 命名实体识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553853A CN113553853A (zh) | 2021-10-26 |
CN113553853B true CN113553853B (zh) | 2022-01-21 |
Family
ID=78134627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111084894.3A Active CN113553853B (zh) | 2021-09-16 | 2021-09-16 | 命名实体识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553853B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227479B (zh) * | 2022-12-29 | 2024-05-17 | 易方达基金管理有限公司 | 一种实体识别方法、装置、计算机设备和可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428501A (zh) * | 2019-01-09 | 2020-07-17 | 北大方正集团有限公司 | 命名实体的识别方法、识别系统及计算机可读存储介质 |
CN112241457A (zh) * | 2020-09-22 | 2021-01-19 | 同济大学 | 一种融合扩展特征的事理知识图谱事件检测方法 |
CN112818683A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于触发词规则和Attention-BiLSTM的中文人物关系提取方法 |
CN113360667B (zh) * | 2021-05-31 | 2022-07-26 | 安徽大学 | 基于多任务学习的生物医学触发词检测和命名实体识别方法 |
-
2021
- 2021-09-16 CN CN202111084894.3A patent/CN113553853B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113553853A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110781276B (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN112417823B (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
Tschuggnall et al. | Enhancing authorship attribution by utilizing syntax tree profiles | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
JP6495124B2 (ja) | 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
US20120197894A1 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |