CN109858040B - 命名实体识别方法、装置和计算机设备 - Google Patents

命名实体识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN109858040B
CN109858040B CN201910164478.0A CN201910164478A CN109858040B CN 109858040 B CN109858040 B CN 109858040B CN 201910164478 A CN201910164478 A CN 201910164478A CN 109858040 B CN109858040 B CN 109858040B
Authority
CN
China
Prior art keywords
text
frequent sequence
frequent
sequence
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910164478.0A
Other languages
English (en)
Other versions
CN109858040A (zh
Inventor
刘志煌
杨凡
黄斐
龚磊
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910164478.0A priority Critical patent/CN109858040B/zh
Publication of CN109858040A publication Critical patent/CN109858040A/zh
Application granted granted Critical
Publication of CN109858040B publication Critical patent/CN109858040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请涉及一种命名实体识别方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取当前业务场景的频繁序列文本模式对应的正则表达式,将待提取文本与所述正则表达式进行模式匹配,根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果。该方法基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。

Description

命名实体识别方法、装置和计算机设备
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种命名实体识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又作为“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、作品名词、特定意义的网络词汇、其他专有名词等,以及时间、数量、货币、比例数值等文字。命名实体识别在实际应用中有广泛的应用场景,比如兴趣点的实体名称,搜索的实体确定,支付中的支付主题确定等。
命名实体识别在各个领域中已有广泛的应用,目前进行命名实体识别的方法主要如基于深度学习模型的方法。而对于字模型的深度学习神经网络模型,随着字标签数目增加,调参工作量很大,导致命名实体识别效率低。
发明内容
基于此,有必要针对命名实体识别效率低的技术问题,提供一种命名实体识别方法、装置、计算机可读存储介质和计算机设备。
一种命名实体识别方法,包括:
获取当前业务场景的频繁序列文本模式对应的正则表达式;
将待提取文本与所述正则表达式进行模式匹配;
根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果。
一种命名实体识别装置,其特征在于,所述装置包括:
正则获取模块,用于获取当前业务场景的频繁序列文本模式对应的正则表达式;
正则匹配模块,用于将待提取文本与所述正则表达式进行模式匹配;
实体识别模块,用于根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述各实施例所述的方法的步骤。
一种计算机可读存储介质,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述各实施例所述的方法的步骤。
上述命名实体识别方法、装置、计算机可读存储介质和计算机设备,利用了业务场景中业务文本数据存在文本模式频繁出现的特征,挖掘得到频繁序列文本模式,并将频繁序列文本模式转换成正则表达式,利用匹配的正则表达式抽取待提取文本的命名实体。该方法基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。
附图说明
图1为一个实施例中命名实体识别方法的应用环境图;
图2为一个实施例中命名实体识别方法的流程示意图;
图3为一个实施例中挖掘得到频繁序列文本模式的步骤的流程示意图;
图4为一个实施例中对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式的步骤的流程示意图;
图5为另一个实施例中命名实体识别装置的结构框图;
图6为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中命名实体识别方法的应用环境图。参照图1,该命名实体识别方法应用于命名实体识别系统。该命名实体系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110运行有业务处理平台,如搜索平台或支付平台,用户在终端的业务处理平台操作(如搜索或付款)产生业务文本数据。服务器120获取当前业务场景的频繁序列文本模式对应的正则表达式,将待提取文本与正则表达式进行模式匹配,根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种命名实体识别方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该命名实体识别方法具体包括如下步骤:
S202,获取当前业务场景的频繁序列文本模式对应的正则表达式。
其中,当前业务场景是指本申请的命名实体识别方法在当前时刻正在应用的业务场景。频繁序列文本模式基于对当前业务场景的业务文本数据挖掘得到。本申请的命名实体识别方法,适用于有文本模式频繁出现的应用场景。
文本模式是指文本序列元素的组成方式,即文本元素之间有一定顺序,构成了序列。在文本数据中,序列元素包括字符、字、词、短语、句子,即序列包括字符序列、字序列、词序列、短语序列、句序列。文本模式频繁出现是指文本序列元素共现达到一定的最小支持度阈值。在文本更新的业务场景中,若存在文本模式,且文本模式的序列元素经常同时更新,那么该业务场景就可以使用本发明方法挖掘命名实体。常见的业务场景如搜索平台大量重复或者类似的搜索信息,支付平台高频的支付订单信息,监测平台频繁出现的设备告警信息等。
为了形式化描述该方法,以
Figure GDA0002907543490000031
表示命名实体,X表示
Figure GDA0002907543490000032
相关上文,Y表示
Figure GDA0002907543490000041
相关下文。当相关上下文在序列中与命名实体共现频率超过一定阈值,那么该上下文序列元素与实体
Figure GDA0002907543490000042
之间构成频繁序列文本模式。由此可见,频繁序列文本模式包括命名实体以及命名实体的上文和/或下文。
以序列
Figure GDA0002907543490000043
为例,其中带“”为命名实体文本,抽象化表示为
Figure GDA0002907543490000044
不带“”为命名实体相关上下文,上文和下文分别表示为X和Y。序列
Figure GDA0002907543490000045
出现频率为3,支持度为0.75,假设设定最小支持度阈值为0.5,那么序列
Figure GDA0002907543490000046
构成的序列满足阈值要求,构成了频繁序列文本模式。序列
Figure GDA0002907543490000047
出现频率为4,支持度为1,那么序列
Figure GDA0002907543490000048
构成的序列也满足阈值要求,也构成频繁序列文本模式。序列
Figure GDA0002907543490000049
出现频率为3,支持度为0.75,序列
Figure GDA00029075434900000410
构成的序列也满足阈值要求,构成频繁序列文本模式。故以上序列中满足最小支持度阈值的频繁序列文本模式包括
Figure GDA00029075434900000411
三种模式。
具体地,在地图应用中,如地图搜索命令“我想去图书馆”,“我想去体育馆”,其中,文本模式“我想去
Figure GDA00029075434900000412
”频繁出现达到了最小支持度阈值,则“我想去
Figure GDA00029075434900000413
”构成了地图应用场景中频繁序列文本模式。又例如,在支付平台中,如订单数据“美团合作商家订单-一点点都可广场店”,“美团合作商家订单-小夜曲菜馆”,其中,文本模式“美团合作商家订单--
Figure GDA00029075434900000414
”频繁出现达到了最小支持度阈值,则“美团合作商家订单--
Figure GDA00029075434900000415
”构成了支付应用场景中频繁序列文本模式。其中,
Figure GDA00029075434900000416
表示命名实体。
本申请中,对于应用的业务场景的文本数据,可先进行业务文本数据挖掘,找到其中的频繁序列文本模式,进而采用本申请的命名实体识别方法,进行命名实体识别。以支付平台的应用场景为例,支付场景中的订单文本数据,订单文本的一般形式如表1所示。
表1订单文本
Figure GDA00029075434900000417
Figure GDA0002907543490000051
通过对表1的订单业务文本数据挖掘,找到其中的频繁序列文本模式,包括“
Figure GDA0002907543490000052
-消费”、“美团合作商家订单-
Figure GDA0002907543490000053
”,“
Figure GDA0002907543490000054
-扫码”,“
Figure GDA0002907543490000055
-扫码支付”,“
Figure GDA0002907543490000056
-微信支付”,其中,
Figure GDA0002907543490000057
表示命名实体。基于挖掘得到的频繁序列文本模式的结果,表明该业务场景能够采用本申请的命名实体识别方法,进行命名实体识别。
正则表达式是对字符串(包括普通字符(例如,a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:
1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
2.可以通过正则表达式,从字符串中获取我们想要的特定部分。
正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,如元字符\,表示将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如,“\\n”匹配\n。又如元字符*,表示匹配前面的子表达式任意次。例如,zo*能匹配“z”,又如元字符.匹配除换行符(\n、\r)之外的任何单个字符。本申请中,采用的是传统的正则表达式元字符,故本实施例中不对全部的元字符做详细描述。
对于对表1的订单业务文本数据挖掘,找到的频繁序列文本模式,如“
Figure GDA0002907543490000059
店消费”,转换正则表达式为“(.*店)消费”,“美团合作商家订单-
Figure GDA0002907543490000058
馆”转换正则表达式为“美团合作商家订单-(.*馆)”。
S204,将待提取文本与正则表达式进行模式匹配。
若对当前业务场景的业务文本数据挖掘得到的频繁序列文本模式有多个,则对应的正则表达式也有多个。具体地,将待提取文本的字符串与正则表达式的字符串相匹配,判断待提取文本的字符串是否满足正则表达式字符串的规则,若满足,则该待提取文本与该正则表达式匹配,可利用该正则表达式进行命名实体文本提取。例如,待提取文本“美团合作商家订单-CoCo都可广场店”与正则表达式“美团合作商家订单-(.*店)”匹配。
一种实施方式中,将待提取文本与正则表达式进行模式一一进行匹配,找到与待提取文本匹配的正则表达式,其中,匹配的正则表达式可能有多个。另一种实施方式中,对正则表达式根据频繁序列文本模式的长度进行优先级排序,将待提取文本根据优先级与正则表达式进行模式匹配,找到匹配的正则表达式即停止匹配,其中,匹配的正则表达式的结果只有一个。
S206,根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果。
具体地,根据匹配的正则表达式,抽取待提取文本中的文本信息,得到待提取文本的命名实体。如,“沈阳市沈北新区庞缘时尚美发店消费”匹配正则表达式“(.*店)消费”,“美团合作商家订单-小夜曲菜馆”匹配正则表达式“美团合作商家订单-(.*馆)”,从而获取“沈阳市沈北新区庞缘时尚美发店”、“小夜曲菜馆”等命名实体。
具体地,若匹配的正则表达式有多个,则分别利用正则表达式,抽取得到命名实体结果后,将长度最长的命名实体结果作为待提取文本的最终命名实体提取结果。
上述的命名实体识别方法,利用了业务场景中业务文本数据存在文本模式频繁出现的特征,挖掘得到频繁序列文本模式,并将频繁序列文本模式转换成正则表达式,利用匹配的正则表达式抽取待提取文本的命名实体。该方法基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。
在一个实施例中,对当前业务场景的业务文本数据挖掘得到的频繁序列文本模式,如图3所示,包括以下步骤:
S302,获取业务场景下的多条文本数据。
具体地,文本数据为业务场景下的业务数据。以支付平台为例,文本数据包括“北亭广场店-支付扫码”和“旗舰店-扫码”。
在一个实施例中,还对获取的多条文本数据进行预处理。
预处理的目的在于减少无效文本信息对业务文本数据挖掘的干扰,即删除业务文本信息中的干扰信息。对于中文文本挖掘而言,干扰信息包括但不限于以下三种:1、只含有字母和数字的文本信息;2、空文本和重复文本;3、中文繁体。
对应的预处理为:1、去除只含有字母和数字的文本信息;2、去除空文本和重复文本;3、中文简繁体转换。
S304,挖掘各条文本数据中满足最小支持度阈值的各个长度的频繁字序列模式,得到候选频繁序列文本模式。
对当前业务场景的业务文本数据,挖掘得到频繁序列文本模式,可采用Prefixspan算法。具体地,以字序列作为序列模式挖掘的对象,基于Prefixspan算法挖掘文本中满足最小支持度阈值的各个长度的频繁字序列模式。同时,使用多最小支持度策略,最小支持度的计算方法如下所示。
min_sup=a×n
其中n为训练集长度,a为最小支持率,最小支持率参数根据训练数据集的量级进行调整,同时本发明运用了一种“滚雪球”的方法和思路,即每一轮挖掘都设置较高的支持度,保证序列模式挖掘的准确性,通过多轮迭代挖掘提高查全率。
下面结合具体案例对挖掘过程进行详细说明,预处理后的文本数据包括:北亭广场店-支付扫码和旗舰店-扫码。设定最小支持度阈值为0.5,采用Prefixspan算法进行挖掘得到频繁序列文本模式的具体过程如下:
1、找出单位长度为1的字序列前缀和对应投影数据集。
在PrefixSpan算法中的前缀prefix通俗意义讲就是序列数据前面部分的子序列。如果用严格的数学描述,前缀是这样的:对于序列A={a1,a2,...ana1,a2,...an}和序列B={b1,b2,...bmb1,b2,...bm},n≤mn≤m,满足a1=b1,a2=b2...an-1=bn-1a1=b1,a2=b2...an-1=bn-1,而
Figure GDA0002907543490000081
则称A是B的前缀。比如对于序列数据B=<a(abc)(ac)d(cf)>,而A=<a(abc)a>,则A是B的前缀。当然B的前缀不止一个,比如<a>,<aa>,<a(ab)>也都是B的前缀。在PrefixSpan算法中,相同前缀对应的所有后缀的结合我们称为前缀对应的投影数据集。
对于上述的预处理后的文本数据,长度为1的字序列前缀以及对应频率如表2所示。
表2长度为1的字序列前缀以及对应频率
广 -
1 1 1 1 2 2 1 1 2 2 1 1
2、统计字序列前缀出现频率并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集字序列模式。
根据表2,支持度高于最小支持度阈值为50%的一项前缀如表3所示:
表3一项前缀以及对应频率
Figure GDA0002907543490000082
3、对所有长度为i且满足最小支持度要求的前缀递归挖掘:
1)挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;
2)统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回;
3)令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行第3步;
4、返回该字序列数据集中所有的频繁字序列模式。
根据表3,最小支持度为50%符合的二项前缀如表4所示:
表4最小持度为50%符合的二项前缀
Figure GDA0002907543490000091
根据表4,最小支持度为50%符合的三项前缀如表5所示:
表5最小支持度为50%符合的三项前缀
Figure GDA0002907543490000092
根据表5,最小支持度为50%符合的四项前缀如表6所示:
表6最小支持度为50%符合的四项前缀
四项前缀 后缀
店-扫码 (无后缀)
由于四项前缀“店-扫码”的投影数据集合为空,结束递归,返回符合最小支持度阈值的n项候选频繁序列模式包括:
长度为1序列模式:
Figure GDA0002907543490000093
店、
Figure GDA0002907543490000094
-、
Figure GDA0002907543490000095
扫、
Figure GDA0002907543490000096
长度为2序列模式:
Figure GDA0002907543490000097
店-、
Figure GDA0002907543490000098
-扫、
Figure GDA0002907543490000099
扫码
长度为3序列模式:
Figure GDA0002907543490000101
店-扫、
Figure GDA0002907543490000102
-扫码
长度为4序列模式:
Figure GDA0002907543490000103
店-扫码
S306,对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式。
合并是指将至少两个候选频繁序列文本模式合成一种频繁序列文本模式。删除是指删除不符合要求的候选频发序列文本模式。对候选频繁序列文本模式进行合并和/或删除处理,能够减少用于匹配的最终频繁序列文本模式的数量,提高命名实体识别效率。
具体地,对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式的步骤,如图4所示,包括:
S402,删除不符合要求的候选频繁序列文本模式。
具体地,不符合要求的候选频繁序列文本模式包括:长度为1的候选频繁序列文本模式、只含有字母和数字的候选频繁序列文本模式以及预设的特殊候选频繁序列文本模式。如删除长度为1序列模式:
Figure GDA0002907543490000104
店、
Figure GDA0002907543490000105
-、
Figure GDA0002907543490000106
扫、
Figure GDA0002907543490000107
码。
通常而言,长度为1的候选频繁序列文本模式较短,其内容包含在长度更长的候选频繁序列文本模式中,例如,长度为1序列模式“
Figure GDA0002907543490000108
店”的内容,包含在长度为2的候选频繁序列文本模式“
Figure GDA0002907543490000109
店-”中,而长度更长的候选频繁序列文本模式更能够精确地提取命名识体,故本实施例中,首先删除长度为1的候选频繁序列文本模式。同理,只含有字母和数字的候选频繁序列文本模式所记载的信息量有限,且在中文文本挖掘中,纯字母和数字的候选频率序列文本不利于精确地提取命名识体,本实施例中,还删除只含有字母和数字的候选频繁序列文本模式。
预设的特殊候选频繁序列文本模式由人工进行添加,可根据实际应用场景进行设置,例如,对于挖掘订单文本中的商户实体,日期时间、车牌、纯数字信息具有一定的规律,被挖掘为候选频繁序列文本模式。但日期时间、车牌、纯数字信息并不能够挖掘得到商户实体名称,通过将其设置特殊候选频繁序列文本模式,直接过滤。
S404,合并相同字前缀的候选频繁序列文本模式。
相同字前缀是指两个或两个以上的候选频繁序列模式中命名实体以外的信息,如命名实体的上文或下文以相同的字作为前缀。例如,
Figure GDA0002907543490000111
模式都以相同上文X为前缀,则可以
Figure GDA0002907543490000112
为相同字前缀的候选频繁序列文本模式。例如,以订单文本为例,
Figure GDA0002907543490000113
店-微信支付、
Figure GDA0002907543490000114
店(PC订单)、
Figure GDA0002907543490000115
店-消费、
Figure GDA0002907543490000116
店-扫码支付、
Figure GDA0002907543490000117
店-条码支付、
Figure GDA0002907543490000118
店)POS端渠道等候选频繁序列文本模式中的命名实体的下文都以“店”为字前缀,符合要求,则将这些候选频繁序列文本模式合并为一种模式。合并规则为将相同字前缀的候选频繁序列文本模式中不同的字符用或并列。如,
Figure GDA0002907543490000119
店-微信支付、
Figure GDA00029075434900001110
店(PC订单)、
Figure GDA00029075434900001111
店-消费、
Figure GDA00029075434900001112
店-扫码支付、
Figure GDA00029075434900001113
店-条码支付、
Figure GDA00029075434900001114
店)POS端渠道合并为
Figure GDA00029075434900001115
店[-微信支付|(PC订单)|-消费|-扫码支付|-条码支付|)POS端渠道],其中“[]”内表示可选项,“|”表示或。
通过将相同字前缀的候选频繁序列文本模式合并,能够将具有相同规律的文本拼接为一种模式,进而转换为正则表达式后,提高命名实体的提取效率。
S406,删除候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式。
具体地,如果某个序列A所有的项集在序列B中的项集都可以找到,则A就是B的子序列。根据该定义,对于序列A={a1,a2,...an}和序列B={b1,b2,...bm},n≤m,如果存在数字序列1≤j1≤j2≤...≤jn≤m,满足
Figure GDA00029075434900001116
则称A是B的子序列。反之,B是A的超序列。
超序列本身含有更多的参考信息,即超序列包含子序列未包含的上下文辅助词,保留超序列作为模式,删除子序列。例如,
Figure GDA00029075434900001117
Figure GDA00029075434900001118
的超序列,且
Figure GDA00029075434900001119
模式包含了更多的上下文参考信息Y,保留模式
Figure GDA00029075434900001120
同理
Figure GDA00029075434900001121
Figure GDA00029075434900001122
Figure GDA00029075434900001123
的超序列,且
Figure GDA00029075434900001124
模式包含了更多的上下文参考信息X,保留模式
Figure GDA00029075434900001125
以超序列“
Figure GDA00029075434900001126
(
Figure GDA00029075434900001127
店)-小程序点餐”与子序列“
Figure GDA00029075434900001128
(
Figure GDA00029075434900001129
店)”为例,超序列在子序列的基础上还包括了上下文辅助词信息“-小程序点餐”,因此保留超序列模式,删除子序列模式。又例如,对于提取的长度为1序列模式“
Figure GDA00029075434900001130
店”为长度为2的序列模式“
Figure GDA00029075434900001131
店-”的子序列,而长度为2的序列模式“
Figure GDA00029075434900001132
店-”为长度为3的序列模式“
Figure GDA00029075434900001133
店-扫”的子序列,长度为3的序列模式“
Figure GDA00029075434900001134
店-扫”的子序列为长度为4的序列模式“
Figure GDA0002907543490000121
店-扫码”的子序列,根据超频繁序列文本模式和子频繁序列文本模式的处理规则,将频繁序列文本模式“
Figure GDA0002907543490000122
店”“
Figure GDA0002907543490000123
店-”和“
Figure GDA0002907543490000124
店-扫”删除,保留频繁序列文本模式“
Figure GDA0002907543490000125
店-扫码”。
由于超频繁序列文本模式包括了子频繁序列文本模式的内容,通过将子频繁序列文本模式删除,能够进一步提高命名实体提取处理的效率。
S408,合并候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
具有部分相同模式是指两个或两个以上的候选频繁序列文本模式的结构中,存在部分命名实体模式相同,能够合并成一种模式。如,
Figure GDA0002907543490000126
Figure GDA0002907543490000127
Figure GDA0002907543490000128
为相同前缀模式,合并相同前缀模式后为:
Figure GDA0002907543490000129
其中“[]”内表示可选项,“|”表示或。例如:“
Figure GDA00029075434900001210
(
Figure GDA00029075434900001211
店)-支付订单”与“
Figure GDA00029075434900001212
(
Figure GDA00029075434900001213
店)-买单合”并为:
Figure GDA00029075434900001214
(
Figure GDA00029075434900001215
店)[-支付订单|-买单]。
又如,“
Figure GDA00029075434900001216
Figure GDA00029075434900001217
”为相同后缀模式,合并后为:[X1|X2]
Figure GDA00029075434900001218
例如,“美团合作商家订单-
Figure GDA00029075434900001219
(
Figure GDA00029075434900001220
店)”与“微信支付
Figure GDA00029075434900001221
(
Figure GDA00029075434900001222
店)”合并为:[美团合作商家订单-|微信支付]
Figure GDA00029075434900001223
(
Figure GDA00029075434900001224
店)。部分相同模式的多个频繁序列文本模式互为包括的关系,通过合并处理后,能够得到一个频繁序列文本模式,进而转换为正则表达式后,提高命名实体的提取效率。
本实施例中,通过对候选频繁序列文本模式进行合并和/或删除处理,能够减少用于匹配的最终频繁序列文本模式的数量,提高命名实体识别效率。
在另一个实施例中,该命名实体识别方法还包括:根据预设的衍生规则,对候选频繁序列文本模式进行衍生,扩展候选频繁序列文本模式的数量。
衍生是指根据一个候选频繁序列文本模式,衍生出多个相近的其它的候选频繁序列文本模式。其中,衍生规则可根据应用环境的特点进行设置。通过衍生,能够基于现有的候选频繁序列文本模式,扩展出相似的候选频繁序列文本模式,从而提高命名实体提取的宽度。
一种实施方式中,衍生规则为在候选频繁序列文本模式的命名实体与上下文之间添加分隔符,得到衍生的候选频繁序列文本模式。分隔符包括标点符号、字母、数字。例如,
Figure GDA00029075434900001225
衍生规则为
Figure GDA00029075434900001226
其中“-”可以为标点符号、字母、数字替换。通过符号衍生,能够适应多变的业务文本,扩大了频繁序列文本模式匹配范围,进一步提高实体提取的精确度。
一种实施方式中,衍生规则为根据候选频繁序列文本模式的上下文的相似词,得到衍生的候选频繁序列文本模式。其中,相似词可通过对候选频繁序列文本模式的上下文进行词向量分析,得到对应的相似词,并根据相似词衍生得到候选频繁序列文本模式。假设Y1、Y2为相似词,则
Figure GDA0002907543490000131
衍生规则为
Figure GDA0002907543490000132
例:
Figure GDA0002907543490000133
店消费衍生规则为
Figure GDA0002907543490000134
店买单。通过相似词衍生,扩展候选频繁序列文本模式的数量,扩大了频繁序列文本模式匹配范围,进一步提高实体提取的精确度。
一种实施方式中,该命名实体识别方法还包括:根据频繁序列文本模式的长度设置频繁序列文本模式的优先级。
优先级是指匹配的先后顺序,优先级越高的频繁序列文本模式,在待提取文本与正则表达式匹配的过程中,其对应的正则表达式越优先进行匹配。
具体地,根据频繁序列文本模式长度设置频繁序列文本模式的优先级。其中,频繁序列文本模式长度是指频繁序列文本模式的全部字符的长度。频繁序列文本模式长度越长,表明其复杂度越高。复杂度越高的频繁序列文本模式,其信息量越多,提取的命名实体越精确。例如,频繁序列文本模式“付款-
Figure GDA0002907543490000138
购物超市
Figure GDA0002907543490000135
微信支付”的长度比频繁序列文本模式“
Figure GDA0002907543490000136
超市订单
Figure GDA0002907543490000137
支付”的长度要长,复杂度越高,其优先级也要高。
进一步地,若频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
具体地,如果对于序列A和B,序列C既是A的子序列,也是B的子序列,那么称序列C为序列A和B的公共子序列,公共子序列不唯一。如果序列C是序列A和B所有公共子序列中长度最大的子序列,那么称序列C为A和B的最长公共子序列。如果模式A与模式B的最长公共子序列C的长度满足给定最长公共子序列长度阈值,那么模式A与模式B互为交叉模式。交叉模式中,模式复杂度与该模式长度正相关。
一个待提取文本可能同时符合几种模式,从匹配的精确度考虑,复杂模式优先匹配。同时,已匹配优先级高的模式,不会进入下一层模式进行判断。
形式化表示为:
Figure GDA0002907543490000141
Figure GDA0002907543490000142
的最长公共子序列为
Figure GDA0002907543490000143
Figure GDA0002907543490000144
假设给定最长公共子序列长度阈值为2,那么
Figure GDA0002907543490000145
Figure GDA0002907543490000146
互为交叉模式,同时模式
Figure GDA0002907543490000147
长度大于模式
Figure GDA0002907543490000148
故模式
Figure GDA0002907543490000149
Figure GDA00029075434900001410
复杂度大于模式
Figure GDA00029075434900001411
模式
Figure GDA00029075434900001412
比模式
Figure GDA00029075434900001413
优先匹配。
例如,待提取文本为二维码付款-北亭广场购物超市订单微信支付,其匹配的频繁序列文本模式1为:付款-
Figure GDA00029075434900001414
购物超市
Figure GDA00029075434900001415
微信支付,其匹配的频繁序列文本模式2为:
Figure GDA00029075434900001416
超市订单
Figure GDA00029075434900001417
支付,模式1和模式2的公共字串为“
Figure GDA00029075434900001418
超市
Figure GDA00029075434900001419
支付”,待提取文本备注文本同时符合模式1和模式2,而模式1序列更长、复杂度更高,优先匹配。
在另一个实施例中,将待提取文本与正则表达式进行模式匹配的步骤,包括:获取各频繁序列文本模式的优先级信息,根据频繁序列文本模式的优先级信息,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。即在待提取文本与正则表达式匹配的过程中,按照根据频繁序列文本模式所确定的优先级,依次将待提取文本与正则表达式匹配,直至找到匹配的正则表达式。
在另一个实施例中,在根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果的步骤之后,包括:利用预设过滤词库中的各过滤词对命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。其中,过滤词库由人工根据进行添加,过滤词库中的过滤词可以为高频词,例如,从新闻文本中提取高频词作为过滤词库的过滤词。高频词所具有的实际意义较少,通过将其作为过滤词对命名实体提取结果的文本进行过滤,提高命名实体的精度。
在另一个实施例中,命名实体识别方法还包括:利用预设文本模式对待提取文本进行处理,提取得到命名实体。
具体地,文本中部分数据本身不含实体信息,如订单文本中含有“个体户|小微|小微商户|个体工商户|微店|滴滴快车|滴滴打车”等的备注,通过人工预先将这部分增加了预设文本模式,若文本数据中包括这些文本,则利用设文本模式对待提取文本进行处理,提取得到命名实体。
在一个具体的实施例中,命名实体识别方法包括以下步骤:
1、获取业务场景下的多条文本数据。
2、挖掘各条文本数据中满足最小支持度阈值的各个长度的频繁字序列模式,得到候选频繁序列文本模式。
3、根据预设的衍生规则,对候选频繁序列文本模式进行衍生,扩展候选频繁序列文本模式的数量。
4、删除不符合要求的候选频繁序列文本模式。
5、合并相同字前缀的候选频繁序列文本模式。
6、删除候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式。
7、合并候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
通过上述处理,挖掘得到业务场景下业务文本数据的频繁序列文本模式。
8、根据频繁序列文本模式长度设置频繁序列文本模式的优先级。
9、若频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
10、设置过滤词库。
通过上述步骤,为命名实体识别设置了提取规则。
11、获取各频繁序列文本模式的优先级信息。
12、根据频繁序列文本模式的优先级,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。
13、利用预设过滤词库中的各过滤词对命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。
上述的命名实体识别方法,基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。该方法解决了现有技术调参工作量大、依赖先验知识库、依赖特征选取等问题。该方法可以广泛使用在命名实体识别相关的各种场景中,有助于挖掘分析中关键的命名实体信息和更加方便地进行数据挖掘。可以广泛应用于命名实体识别的各种应用场景及其相关产品中。如在地图搜索应用程序中,通过该发明对索引文本数据进行命名实体识别,能够识别出相关地名的实体信息;在告警信息提醒应用程序中,通过该发明对告警信息进行实体识别,可以挖掘告警内容的相关实体;在支付订单数据中,该技术能够识别订单相关的实体名称等信息,从而给商户分析和交叉营销等应用提供关键决策;在商户风控、贷款征信等产品中根据挖掘的商户名、门店等提供更全面的商户展示,更好地进行商户信息的挖掘。除此以外,命名实体识别技术的相关应用场景都属于该申请的潜在应用场景。
应该理解的是,虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图5所示,提供一种命名实体识别装置,该装置包括正则获取模块502、正则匹配模块504和实体识别模块506。其中:
正则获取模块502,用于获取当前业务场景的频繁序列文本模式对应的正则表达式。
正则匹配模块504,用于将待提取文本与正则表达式进行模式匹配。
实体识别模块506,用于根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果。
上述命名实体识别装置,利用了业务场景中业务文本数据存在文本模式频繁出现的特征,挖掘得到频繁序列文本模式,并将频繁序列文本模式转换成正则表达式,利用匹配的正则表达式抽取待提取文本的命名实体。该方法基于频繁序列模式挖掘算法自动化挖掘实体识别模式,从有限的模式中提取识别规则得到频繁序列文本模式,进行转换成正则表达式进行提取,无需进行调参,节约了调参时间,进一步提高了命名实体识别效率。
在另一个实施例中,正则匹配模块包括:
优先级获取模块,用于获取各频繁序列文本模式的优先级信息。
匹配模块,用于根据频繁序列文本模式的优先级信息,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。
在另一个实施例中,命名实体识别装置还包括过滤模块,用于利用预设过滤词库中的各过滤词对命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。
在另一个实施例中,命名实体识别装置还包括:
文本获取模块,用于获取业务场景下的多条文本数据。
挖掘模块,用于挖掘各条文本数据中满足最小支持度阈值的各个长度的频繁字序列模式,得到候选频繁序列文本模式。
处理模块,用于对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式。
在另一个实施例中,处理模块,用于删除不符合要求的候选频繁序列文本模式,合并相同字前缀的候选频繁序列文本模式,删除候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式,合并候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
在另一个实施例中,命名实体识别装置还包括:衍生模块,用于根据预设的衍生规则,对候选频繁序列文本模式进行衍生,扩展候选频繁序列文本模式的数量。
在另一个实施例中,命名实体识别装置还包括:优先级设置模块,用于根据频繁序列文本模式的长度设置频繁序列文本模式的优先级。
在另一个实施例中,优先级设置模块,还用于若频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
图6示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器。如图6所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现命名实体识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行命名实体识别方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的命名实体识别装置可以实现为一种计算机程序的形式,计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该命名实体识别装置的各个程序模块,比如,图5所示的正则获取模块、正则匹配模块和实体识别模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的命名实体识别方法中的步骤。
例如,图6所示的计算机设备可以通过如图5所示的命名实体识别装置中的正则获取模块执行获取当前业务场景的频繁序列文本模式对应的正则表达式的步骤。计算机设备可通过正则匹配模块执行将待提取文本与正则表达式进行模式匹配的步骤。计算机设备可通过实体识别模块执行根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取当前业务场景的频繁序列文本模式对应的正则表达式;
将待提取文本与正则表达式进行模式匹配;
根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果。
在另一个实施例中,将待提取文本与正则表达式进行模式匹配的步骤,包括:
获取各频繁序列文本模式的优先级信息;
根据频繁序列文本模式的优先级信息,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。
在另一个实施例中,在根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果的步骤之后,包括:
利用预设过滤词库中的各过滤词对命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。
在另一个实施例中,计算机程序被处理器执行时,处理器还执行以下步骤:
获取业务场景下的多条文本数据;
挖掘各条文本数据中满足最小支持度阈值的各个长度的频繁字序列模式,得到候选频繁序列文本模式;
对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式。
在另一个实施例中,对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式的步骤,包括:
删除不符合要求的候选频繁序列文本模式;
合并相同字前缀的候选频繁序列文本模式;
删除候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式;
合并候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
在另一个实施例中,计算机程序被处理器执行时,处理器还执行以下步骤:
根据预设的衍生规则,对候选频繁序列文本模式进行衍生,扩展候选频繁序列文本模式的数量。
在另一个实施例中,计算机程序被处理器执行时,处理器还执行以下步骤:
根据频繁序列文本模式的长度设置频繁序列文本模式的优先级。
其中,若频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取当前业务场景的频繁序列文本模式对应的正则表达式;
将待提取文本与正则表达式进行模式匹配;
根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果。
在另一个实施例中,将待提取文本与正则表达式进行模式匹配的步骤,包括:
获取各频繁序列文本模式的优先级信息;
根据频繁序列文本模式的优先级,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。
在另一个实施例中,在根据匹配的正则表达式,从待提取文本中抽取对应的文字信息,得到待提取文本的命名实体提取结果的步骤之后,包括:
利用预设过滤词库中的各过滤词对命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。
在另一个实施例中,计算机程序被处理器执行时,处理器还执行以下步骤:
获取业务场景下的多条文本数据;
挖掘各条文本数据中满足最小支持度阈值的各个长度的频繁字序列模式,得到候选频繁序列文本模式;
对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式。
在另一个实施例中,对候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式的步骤,包括:
删除不符合要求的候选频繁序列文本模式;
合并相同字前缀的候选频繁序列文本模式;
删除候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式;
合并候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
在另一个实施例中,计算机程序被处理器执行时,处理器还执行以下步骤:
根据预设的衍生规则,对候选频繁序列文本模式进行衍生,扩展候选频繁序列文本模式的数量。
在另一个实施例中,计算机程序被处理器执行时,处理器还执行以下步骤:
根据频繁序列文本模式的长度设置频繁序列文本模式的优先级。
其中,若频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种命名实体识别方法,包括:
获取当前业务场景的频繁序列文本模式对应的正则表达式;其中,频繁序列文本模式基于对当前业务场景的业务文本数据挖掘得到;文本模式是指文本序列元素的组成方式;当相关上下文在序列中与命名实体共现频率超过一定阈值,那么该上下文序列元素与实体之间构成频繁序列文本模式;
将待提取文本与所述正则表达式进行模式匹配;
根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果;
所述方法还包括:
获取业务场景下的多条文本数据;
找出单位长度为1的字序列前缀和对应投影数据集;统计字序列前缀出现频率并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集字序列模式;对所有长度为i且满足最小支持度要求的前缀递归挖掘,返回字序列数据集中所有的频繁字序列模式,得到候选频繁序列文本模式;其中,递规挖掘为:挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归,统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回,令i=i+1,前缀为合并单项后的各个新前缀,分别执行递归挖掘;
对所述候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式。
2.根据权利要求1所述的方法,其特征在于,所述将待提取文本与所述正则表达式进行模式匹配的步骤,包括:
获取各所述频繁序列文本模式的优先级信息;
根据所述频繁序列文本模式的优先级信息,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。
3.根据权利要求1所述的方法,其特征在于,在所述根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果的步骤之后,包括:
利用预设过滤词库中的各过滤词对所述命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。
4.根据权利要求1所述的方法,其特征在于,对所述候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式的步骤,包括:
删除不符合要求的候选频繁序列文本模式;
合并相同字前缀的候选频繁序列文本模式;
删除所述候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式;
合并所述候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设的衍生规则,对所述候选频繁序列文本模式进行衍生,扩展所述候选频繁序列文本模式的数量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述频繁序列文本模式的长度设置所述频繁序列文本模式的优先级。
7.根据权利要求6所述的方法,其特征在于,若所述频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
8.一种命名实体识别装置,其特征在于,所述装置包括:
正则获取模块,用于获取当前业务场景的频繁序列文本模式对应的正则表达式;其中,频繁序列文本模式基于对当前业务场景的业务文本数据挖掘得到;文本模式是指文本序列元素的组成方式;当相关上下文在序列中与命名实体共现频率超过一定阈值,那么该上下文序列元素与实体之间构成频繁序列文本模式;
正则匹配模块,用于将待提取文本与所述正则表达式进行模式匹配;
实体识别模块,用于根据匹配的所述正则表达式,从所述待提取文本中抽取对应的文字信息,得到所述待提取文本的命名实体提取结果;
所述命名实体识别装置还包括:
文本获取模块,用于获取业务场景下的多条文本数据;
挖掘模块,用于找出单位长度为1的字序列前缀和对应投影数据集;统计字序列前缀出现频率并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集字序列模式;对所有长度为i且满足最小支持度要求的前缀递归挖掘,返回字序列数据集中所有的频繁字序列模式,得到候选频繁序列文本模式;其中,递规挖掘为:挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归,统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回,令i=i+1,前缀为合并单项后的各个新前缀,分别执行递归挖掘;
处理模块,用于对所述候选频繁序列文本模式进行合并和/或删除处理,得到频繁序列文本模式。
9.根据权利要求8所述的装置,其特征在于,所述正则匹配模块包括:
优先级获取模块,用于获取各所述频繁序列文本模式的优先级信息;
匹配模块,用于根据所述频繁序列文本模式的优先级信息,按序将对应的正则表达式与待提取的文本进行匹配,直至找到匹配的正则表达式。
10.根据权利要求8所述的装置,其特征在于,所述命名实体识别装置还包括过滤模块,用于利用预设过滤词库中的各过滤词对所述命名实体提取结果的文本进行过滤,得到待提取文本的命名实体。
11.根据权利要求8所述的装置,其特征在于,所述处理模块,用于删除不符合要求的候选频繁序列文本模式;合并相同字前缀的候选频繁序列文本模式;删除所述候选频繁序列文本模式中超频繁序列文本模式对应的子频繁序列文本模式;合并所述候选频繁序列文本模式中具有部分相同模式的频繁序列文本模式,得到频繁序列文本模式。
12.根据权利要求8所述的装置,其特征在于,所述命名实体识别装置还包括:衍生模块,用于根据预设的衍生规则,对所述候选频繁序列文本模式进行衍生,扩展所述候选频繁序列文本模式的数量。
13.根据权利要求8所述的装置,其特征在于,所述命名实体识别装置还包括:优先级设置模块,用于根据所述频繁序列文本模式的长度设置所述频繁序列文本模式的优先级。
14.根据权利要求13所述的装置,其特征在于,所述优先级设置模块,还用于若频繁序列文本模式中存在满足长度阈值的最长公共子序列的多个频繁序列文本模式,则将多个频繁序列文本模式中长度最长的频繁序列文本模式设置最高优先级。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
16.一种计算机可读存储介质,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201910164478.0A 2019-03-05 2019-03-05 命名实体识别方法、装置和计算机设备 Active CN109858040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910164478.0A CN109858040B (zh) 2019-03-05 2019-03-05 命名实体识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910164478.0A CN109858040B (zh) 2019-03-05 2019-03-05 命名实体识别方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN109858040A CN109858040A (zh) 2019-06-07
CN109858040B true CN109858040B (zh) 2021-05-07

Family

ID=66899946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910164478.0A Active CN109858040B (zh) 2019-03-05 2019-03-05 命名实体识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN109858040B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668333A (zh) * 2019-10-15 2021-04-16 华为技术有限公司 命名实体的识别方法和设备、以及计算机可读存储介质
CN111079436B (zh) * 2019-12-20 2021-09-21 中南大学 一种地质命名实体的提取方法及装置
CN113051919B (zh) * 2019-12-26 2023-04-04 中国电信股份有限公司 一种识别命名实体的方法和装置
CN111309858B (zh) * 2020-01-20 2023-03-07 腾讯科技(深圳)有限公司 信息识别方法、装置、设备及介质
CN113496132B (zh) * 2020-04-07 2024-04-12 深圳爱根斯通科技有限公司 二维码识别方法、装置、电子设备及存储介质
CN111782907B (zh) * 2020-07-01 2024-03-01 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN113255345B (zh) * 2021-06-10 2021-10-15 腾讯科技(深圳)有限公司 一种语义识别方法、相关装置以及设备
CN115687579B (zh) * 2022-09-22 2023-08-01 广州视嵘信息技术有限公司 文档标签生成及匹配方法、装置和计算机设备
CN115618824B (zh) * 2022-10-31 2023-10-27 上海苍阙信息科技有限公司 数据集的标注方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122122A1 (en) * 2011-03-07 2012-09-13 Health Fidelity, Inc. Systems and methods for processing patient history data
CN108304372A (zh) * 2017-09-29 2018-07-20 腾讯科技(深圳)有限公司 实体提取方法和装置、计算机设备和存储介质
CN108363701A (zh) * 2018-04-13 2018-08-03 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108874952A (zh) * 2018-05-31 2018-11-23 福建师范大学 一种基于分布式日志的最大频繁序列模式挖掘方法
CN109359176A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 数据提取方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081494A (ja) * 2009-10-05 2011-04-21 Tokyo Electric Power Co Inc:The 文書データ解析装置、方法及びプログラム
CN108647194B (zh) * 2018-04-28 2022-04-19 北京神州泰岳软件股份有限公司 信息抽取方法及装置
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122122A1 (en) * 2011-03-07 2012-09-13 Health Fidelity, Inc. Systems and methods for processing patient history data
CN108304372A (zh) * 2017-09-29 2018-07-20 腾讯科技(深圳)有限公司 实体提取方法和装置、计算机设备和存储介质
CN108363701A (zh) * 2018-04-13 2018-08-03 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108874952A (zh) * 2018-05-31 2018-11-23 福建师范大学 一种基于分布式日志的最大频繁序列模式挖掘方法
CN109359176A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 数据提取方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109858040A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
CN109858040B (zh) 命名实体识别方法、装置和计算机设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111400432B (zh) 事件类型信息处理方法、事件类型识别方法及装置
CN107657048B (zh) 用户识别方法及装置
CN109299258B (zh) 一种舆情事件检测方法、装置及设备
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN111143547B (zh) 一种基于知识图谱的大数据显示方法
CN112148843A (zh) 文本处理方法、装置、终端设备和存储介质
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN111191454A (zh) 一种实体匹配的方法及装置
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN111651574A (zh) 事件类型识别方法、装置、计算机设备和存储介质
CN112347767A (zh) 一种文本处理方法、装置及设备
CN112149422A (zh) 一种基于自然语言的企业新闻动态监测方法
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN105589916B (zh) 显式和隐式兴趣知识的提取方法
CN110347934B (zh) 一种文本数据过滤方法、装置及介质
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN107169065B (zh) 一种特定内容的去除方法和装置
CN114840642A (zh) 事件抽取方法、装置、设备及存储介质
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN111767730B (zh) 一种事件类型识别方法及装置
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant