CN110348017A - 一种文本实体检测方法、系统及相关组件 - Google Patents
一种文本实体检测方法、系统及相关组件 Download PDFInfo
- Publication number
- CN110348017A CN110348017A CN201910636562.8A CN201910636562A CN110348017A CN 110348017 A CN110348017 A CN 110348017A CN 201910636562 A CN201910636562 A CN 201910636562A CN 110348017 A CN110348017 A CN 110348017A
- Authority
- CN
- China
- Prior art keywords
- labeled data
- mark
- entity
- sequence
- object statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本实体检测方法,所述文本实体检测方法包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。本方法能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请还公开了一种文本实体检测系统、一种计算机可读存储介质及一种电子设备,具有以上有益效果。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备。
背景技术
新同类实体挖掘是一种开放域实体抽取技术。不同于传统命名实体识别技术仅仅针对某些特定类别实体的识别,新同类实体挖掘更侧重于对给定的某任意开放类别实体所构成的种子实体集合进行分析,利用实体抽取的技术从相关开放领域的无标注语料中挖掘出更多与该集合中的实体同属一类的新实体。例如给出种子实体集合包含{中国,德国}等国家名,抽取系统可以挖掘出{日本,法国}之类的其他实体。新同类实体挖掘广泛应用于网页搜索、物品推荐、知识图谱补全等重要技术中。
相关技术中通常利用深度学习的序列标注神经模型实现实体挖掘,但是这种方法需要大量高质量人工标注数据作为训练模型的原料,目前开放领域类别的命名实体识别训练资源还相当稀缺,无法进行有效的实体抽取。
因此,如何在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种文本实体检测方法、系统、一种计算机可读存储介质及一种电子设备,能够在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。
为解决上述技术问题,本申请提供一种文本实体检测方法,该文本实体检测方法包括:
利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
利用所述局部标注数据训练序列标注神经模型;
利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
可选的,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括:
基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。
可选的,根据所述匹配结果生成所述目标语句对应的标注数据包括:
为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;
根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。
可选的,查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据包括:
查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;
将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;
其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。
可选的,利用所述局部标注数据训练序列标注神经模型包括:
对所述局部标注数据执行数据增强操作得到扩充标注数据;
利用所述局部标注数据和所述扩充标注数据训练所述序列标注神经模型。
可选的,对所述局部标注数据执行数据增强操作得到扩充标注数据包括:
对所述局部标注数据中正例对应的语句实例进行掩盖处理,并替换为所述种子实体集合中对应的其他语句实例,得到所述扩充标注数据。
可选的,所述序列标注神经模型具体为双向长短期记忆-条件随机场模型;其中,所述双向长短期记忆-条件随机场模型包括输入层、双向长短期记忆层和条件随机场层。
本申请还提供了一种文本实体检测系统,该文本实体检测系统包括:
标注模块,用于利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
标注数据修改模块,用于查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
训练模块,用于利用所述局部标注数据训练序列标注神经模型;
实体挖掘模块,用于利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本实体检测方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本实体检测方法执行的步骤。
本申请提供了一种文本实体检测方法,包括利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;利用所述局部标注数据训练序列标注神经模型;利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
本申请将实体挖掘问题转化为序列标注问题,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据,利用无标注语料词频表将每一个语句实例的标注数据转化为局部标注数据,最终利用局部标注数据训练序列标注神经模型,利用训练后的序列标注神经模型得到所有目标语句的实体集合。本申请在将标注数据转化为局部标注数据的过程中增加了待训练语句的数量,可以在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。本申请同时还提供了一种文本实体检测系统、一种计算机可读存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本实体检测方法的流程图;
图2为本申请实施例提供的另一种文本实体检测方法的流程图;
图3为本申请实施例提供的一种远程监督标注数据的生成方式示意图;
图4为本申请实施例提供的一种局部标注数据的转化方式示意图;
图5为本申请实施例提供的一种基于序列标注神经模型的新同类实体挖掘框架示意图;
图6为本申请实施例提供的一种局部表述数据生成过程示意图;
图7为本申请实施例提供的一种文本实体检测系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例提供的一种文本实体检测方法的流程图。
具体步骤可以包括:
S101:利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
其中,本实施例不限定目标语句中的句子数量,目标语句中的一句话相当于一个语句实例,种子实体集合中包括预先设置的多个实体,实体指句子中以名词形式存在的个体。
本步骤首先利用种子实体集合对每一个语句实例进行匹配得到匹配结果,当语句实例中存在与种子实体集合中相同的实体时则说明匹配命中。可以理解的是,语句实例中既可以包括匹配命中的实体也可以包括匹配未命中的实体,综合语句实例的匹配结果可以生成对应的标注数据。
具体的,生成标注数据的过程可以为:为匹配命中的实体打上正例的序列标签,为匹配未命中的实体打上未标注实例的序列标签,最终生成标注数据。举例说明S101的操作过程:种子实体集合中包括的种子实体为李白、杜甫和白居易,语句实例为“白居易和小明去旅游”,“白居易”匹配命中。将匹配命中的实体标记为A,将匹配未写命中的实体标记为B,因此得到的标注数据为:白(A)居(A)易(A)和(B)小(B)明(B)去(B)旅(B)游(B)。
S102:查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
其中,无标识语料词频表为无标注语料中词频前N名的词语的集合,通过查询目标语句中与无标注语料词频表匹配的语句实例能够确定目标语句中的反例,进而修改标注数据得到局部标注数据。继续利用上面的例子进行说明,在语句实例“白居易和小明去旅游”中与无标注语料词频表匹配的语句实例为“旅游”因此可以判定“旅游”为反例,在确定目标语句中的正例和反例的基础上,本实施例可以修改标注数据得到局部标注数据。
具体的,生成局部标注数据的过程可以包括以下操作:查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。通过上述方式可以将目标语句中的语句实例划分为三类:正例、反例和待检未标注实例,可以将正例标注为A、反例标注为B,待检未标注梳理标注为A或B。继续利用“白居易和小明去旅游”进行说明,在S101中得到的标注数据为AAABBBBBB,“去旅游”为无标注语料词频表中的词,因此通过本实施例的修改得到的局部标注数据可以包括以下8种情况:AAAAAABBB、AAAAABBBB、AAAABABBB、AAABAABBB、AAAABBBBB、AAABABBBB、AAABBABBB和AAABBBBBB。
S103:利用所述局部标注数据训练序列标注神经模型;
其中,本实施例中的序列标注神经模型可以为双向长短期记忆-条件随机场模型;其中,所述双向长短期记忆-条件随机场模型包括输入层、双向长短期记忆层和条件随机场层。局部标注数据的生成极大地增加了训练样本的数量,也可以避免由于不完全标注所生成的错误标注结果,从而防止错误的标注数据给后续模型训练带来错误的信息。
S104:利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
作为一种可行的实施方式,在得到目标语句的实体集合之后,可以利用得到的新实体扩充知识库,以便利用扩充后的知识库执行文本搜索操作。作为另一种可行的实施方式,在得到目标语句的新实体集合后,可以将新实体集合与已有的实体集合进行合并,利用合并后的实体集合进行商品推荐等操作。例如原实体集合包括苹果和西瓜,新实体集合包括草莓和樱桃,进行实体集合合并后,可以为搜索过苹果和西瓜的用户推荐草莓和樱桃。
本实施例将实体挖掘问题转化为序列标注问题,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据,利用无标注语料词频表将每一个语句实例的标注数据转化为局部标注数据,最终利用局部标注数据训练序列标注神经模型,利用训练后的序列标注神经模型得到所有目标语句的实体集合。本实施例在将标注数据转化为局部标注数据的过程中增加了待训练语句的数量,可以在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。
下面请参见图2,图2为本申请实施例提供的另一种文本实体检测方法的流程图,具体步骤可以包括:
S201:基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。
S202:为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;
请参见图3,图3为远程监督标注数据的生成方式示意图。图3中以国家名实体为例,远程监督将种子实体集合作为词表对无标注语料中的每个语句实例进行匹配,将存在实体匹配结果的语句实例作为正例,并对匹配得到的实体打上序列标签,生成标注数据。本实施例对于无标注语句“从美国到日本旅游”,存在实体匹配结果“美国”,将其作为正例,并生成标注数据。图中,“B”代表实体序列的头部标签,“I”代表实体序列的内部标签,“O”代表非实体标签,标上颜色的标签即为每个位置真正标记的标签。由此得到对“从美国到日本旅游”的标注序列为“OBIOOOOO”。基于这种方式能够自动地得到大量标注数据。
S203:根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。
S204:查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;
S205:将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;
其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。
然而,受限于种子实体集合,按照上述步骤得到的标注数据将不可避免地带有不完全标注问题。例如图3中,语句中的“日本”也是国家名,但由于其不包含在种子实体集合内,生成标注数据时没有将其标记为“B”和“I”。因此本实施例可以通过修改待检实体序列标签得到局部标注数据的方式实现局部标注数据转化方式。请参见图4,图4为本申请实施例提供的一种局部标注数据的转化方式示意图。其中,局部标注只对确定的位置进行标注。对于图中的原始标注数据,位置“美”、“国”的标签即为确定,本实施例对其进行保留。
然而,实体序列在文本中的实际分布非常稀疏,仅仅靠种子实体集合能够确定出的标签非常有限。对此,本实施例又加入一份包含了出现在无标注语料中的词频前200高词语的常用词表,与种子实体集合相区别,用于确定待标注语句中的非实体。例如图中的常用词“旅游”出现在语句中,可以进一步确定位置“旅”、“游”的标签为“O”、“O”。最终,对于图3的待标注实例,能够确定出的位置有:“美-B”、“国-I”、“旅-O”、“游-O”。对于其他位置,本实施例使用某个有别于B、I、O的标记,例如“·”代表位置的标签取值可以是{B、I、O}中的任意一个。基于此,最终可得到“从美国到日本旅游”的局部标注序列为“·BI···OO”,其实际代表的是满足条件的可能标注序列的集合,例如“OBIOOOOO”、“OBIOBIOO”包含在其中,而“OBIOOOBI”则不包含在其中。相较于原始标注数据,局部标注数据虽然增加了标注序列的可能情形(“·BI···OO”有81种可能情形,而“OBIOOOOO”是唯一的),但避免了由于不完全标注所生成的错误标注结果(“OBIOOOOO”对“从美国到日本旅游”而言是错误的),从而防止错误的标注数据给后续模型训练带来错误的信息。
S206:对所述局部标注数据执行数据增强操作得到扩充标注数据;
作为一种可行的实施方式,本步骤可以对所述局部标注数据中正例对应的语句实例进行掩盖处理,并替换为所述种子实体集合中对应的其他语句实例,得到所述扩充标注数据。请参见图5,图5为本申请实施例提供的一种基于序列标注神经模型的新同类实体挖掘框架示意图。如图5所示,本实施例将第二部分得到的局部标注数据作为原始训练数据,从中抽取一定比例的标注实例进行数据增强操作,并扩充到原始训练数据中。数据增强操作部分包含两种操作模式,分别是遮盖以及替换。具体的,遮盖操作包括:将语句中匹配得到的实体位置均替换为<UNK>符号,意为该位置的字符未知,例如图中“世博会在美国举办”->“世博会在<UNK><UNK>举办”;替换操作包括:将语句中匹配得到的实体随机替换为出现在种子实体集合中的其他与之等长的实体,例如图中“世博会在美国举办”->“世博会在中国举办”
S207:利用所述局部标注数据和所述扩充标注数据训练所述序列标注神经模型。
本实施例使用扩充后的标注数据对图5右侧的序列标注神经模型进行训练。本实施例可以采用双向长短期记忆-条件随机场模型作为序列标注神经模型,其结构分为三层:输入层、双向长短期记忆层,以及条件随机场层。
1)输入层:其作用是接收语句序列级别的训练数据x1,x2,…xn作为输入,并通过查询事先建立的索引关系,将其映射到向量级别的输入表示e1,e2,…en。
2)双向长短期记忆层:其作用是对输入层得到的输入表示抽取更丰富的高维特征,从而进一步得到隐层表示。对于t时刻的输入表示et,其对应的隐层表示为ht,其中ht由正向隐层表示和逆向隐层表示拼接得到。
3)基于局部标注学习的条件随机场层:设序列标注的标签个数为k,对于输入序列x=x1,x2,…xn,对其相应的隐层输出h1,h2,…hn进行降维,可以得到维数为n×k的分值矩阵P,矩阵中的某一个元素Pi,j代表第i个输入状态xi被标注为标签j的得分。对于某一组标注序列y=y1,y2,…yn,定义它的得分Score如式(1)所示:
其中,A是转移得分矩阵,Ai,j代表从标签i转移到标签j的得分。
在模型训练过程中,本实施例使用P(Z|x)代表输入序列x标记为局部标注数据对应标注路径集合Z中所有标注序列的条件概率总和,具体形式如式(2)所示:
其中,Z是所有局部标注序列集合,是Z中的某一条标注序列,Y是所有可能的标注序列集合
基于式(2),本实施例通过最小化如式(3)的损失函数来更新参数:
Loss(θ,x,Z)=-logP(Z|x); (3)
其中,θ是模型参数集合。
在对任意输入序列x′预测标注序列时,模型选取满足式(4)的标注序列y′作为最佳标注序列:
最终,本实施例使用训练得到的序列标注神经模型对剩余的无标注语料进行序列标注,并从中提取出标注出的实体,进行去重和排序,从而得到候选实体集合。
S208:利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
本实施例基于远程监督自动生成足量标注数据,极大地省去人工标注数据所耗费的成本;本实施例将远程监督标注数据转化为局部标注数据,改善了弱标注数据的质量;本实施例使用数据增强操作对有限的弱标注数据进行扩充,缓和了模型训练时的过拟合现象;本实施例基于序列标注神经模型训练实体抽取器,从训练数据中自动抽取更丰富的特征,提升了新同类实体挖掘的性能。
下面通过实际应用中的例子说明上述实施例的操作过程。
环境配置:本方案在linux系统上开发相应的装置,基于python3.5编程语言实现装置内部的全部内容。其中,序列标注神经模型的代码由python中的tensorflow包编写实现。
种子实体集合以及无标注语料的准备见表1:
表1种子实体集合及无标注语料表
表1以国家名实体为例,按照表1所示的例子收集一定数量的种子实体集合(如表1左侧所示)以及一定规模的带有国家名描述的无标注语料(如表1右侧所示)。
局部标注数据的实际生成过程见图6,图6为本申请实施例提供的一种局部表述数据生成过程示意图:
如图6的例子所示,在具体实施过程中,本方案采用最大正向匹配规则在语句中标注出实体边界,并同时借助常用词表确定出语句中的非实体边界,最终转化为局部标注数据。图中,上方的左侧给出了常用词表中的一些词条;上方右侧部分对实体和非实体的边界进行了预标识,其中实体的左右边界在语句中以方括号标识,出现在常用词表中的非实体的左右边界以圆括号标识;下侧是按照上侧生成的局部标注数据,其中标签B代表实体的头部,标签I代表实体的内部,标签O代表非实体,UNK代表该位置可能是{B,I,O}中的任意一个。
数据增强操作的实施过程:
在具体实施时,本方案尝试了如下的参数组合:遮盖实例占总实例的比率={0,0.05,0.1,0.2},替换实例比率={0,0.05,0.1,0.2}。最终,经测定后,对于国家名实体,本实施例采用0的遮盖比率和0.1的替换比率进行数据增强操作。
序列标注神经模型的配置细节:
序列标注神经模型采用tensorflow编写实现,其中含有若干超参数,本专利在实施过程中对超参数设定如表2所示:
表2超参数设定表
候选实体集合的生成方式:本方案按照前文所述的方法训练得到实体抽取器,在相同领域的其他无标注语料上预测标签,根据标签得到候选的实体序列,并对其进行去重、按照频数由大到小排序,最终生成候选实体集合。
请参见图7,图7为本申请实施例提供的一种文本实体检测系统的结构示意图;
该系统可以包括:
标注模块100,用于利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
标注数据修改模块200,用于查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
训练模块300,用于利用所述局部标注数据训练序列标注神经模型;
实体挖掘模块400,用于利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
本实施例将实体挖掘问题转化为序列标注问题,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据,利用无标注语料词频表将每一个语句实例的标注数据转化为局部标注数据,最终利用局部标注数据训练序列标注神经模型,利用训练后的序列标注神经模型得到所有目标语句的实体集合。本实施例在将标注数据转化为局部标注数据的过程中增加了待训练语句的数量,可以在不受无标注语料的质量和规模限制的前提下实现高质量的实体挖掘。
进一步的,标注模块100包括:
设置单元,用于基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。
标签生成单元,用于为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;
标注数据生成单元,用于根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。
进一步的,标注数据修改模块用于查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;还用于将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。
进一步的,训练模块300包括:
数据增强单元,用于对所述局部标注数据执行数据增强操作得到扩充标注数据;
模型训练单元,用于利用所述局部标注数据和所述扩充标注数据训练所述序列标注神经模型。
进一步的,模型训练单元,用于对所述局部标注数据中正例对应的语句实例进行掩盖处理,并替换为所述种子实体集合中对应的其他语句实例,得到所述扩充标注数据。
进一步的,所述序列标注神经模型具体为双向长短期记忆-条件随机场模型;其中,所述双向长短期记忆-条件随机场模型包括输入层、双向长短期记忆层和条件随机场层。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种文本实体检测方法,其特征在于,包括:
利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
利用所述局部标注数据训练序列标注神经模型;
利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
2.根据权利要求1所述文本实体检测方法,其特征在于,利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果包括:
基于远程监督的方式将所述种子实体集合中的每一种子实体与所述目标语句中的每个语句实例进行匹配,并将匹配成功的语句实体设置为正例,将匹配失败的语句实体设置为未标注实例。
3.根据权利要求2所述文本实体检测方法,其特征在于,根据所述匹配结果生成所述目标语句对应的标注数据包括:
为所述正例生成实体序列标签,为所述未标注实例生成非实体序列标签;
根据所述正例和所述未标注实例在所述目标语句中的位置信息排列所述实体序列标签和所述非实体序列标签,得到所述标注数据。
4.根据权利要求3所述文本实体检测方法,其特征在于,查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据包括:
查询所述未标注实例中与无标注语料词频表匹配的语句实例,将匹配未命中的未标注实例设置为待检未标注实例;
将所述标注数据中所有所述待检未标注实例对应的序列标签修改为待检实体序列标签得到所述局部标注数据;
其中,所述待检实体序列标签包括当任一所述待检未标注实例为正例或负例时所有所述待检未标注实例的序列标签组合。
5.根据权利要求1所述文本实体检测方法,其特征在于,利用所述局部标注数据训练序列标注神经模型包括:
对所述局部标注数据执行数据增强操作得到扩充标注数据;
利用所述局部标注数据和所述扩充标注数据训练所述序列标注神经模型。
6.根据权利要求5所述文本实体检测方法,其特征在于,对所述局部标注数据执行数据增强操作得到扩充标注数据包括:
对所述局部标注数据中正例对应的语句实例进行掩盖处理,并替换为所述种子实体集合中对应的其他语句实例,得到所述扩充标注数据。
7.根据权利要求1所述文本实体检测方法,其特征在于,所述序列标注神经模型具体为双向长短期记忆-条件随机场模型;其中,所述双向长短期记忆-条件随机场模型包括输入层、双向长短期记忆层和条件随机场层。
8.一种文本实体检测系统,其特征在于,包括:
标注模块,用于利用种子实体集合对目标语句中的每个语句实例进行匹配得到匹配结果,并根据所述匹配结果生成所述目标语句对应的标注数据;
标注数据修改模块,用于查询所述目标语句中与无标注语料词频表匹配的语句实例,并根据查询结果修改所述标注数据得到局部标注数据;
训练模块,用于利用所述局部标注数据训练序列标注神经模型;
实体挖掘模块,用于利用训练后的序列标注神经模型对所述目标语句中的无标注语料进行序列标注,以便得到所述目标语句的实体集合。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本实体检测方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述文本实体检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636562.8A CN110348017B (zh) | 2019-07-15 | 2019-07-15 | 一种文本实体检测方法、系统及相关组件 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910636562.8A CN110348017B (zh) | 2019-07-15 | 2019-07-15 | 一种文本实体检测方法、系统及相关组件 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348017A true CN110348017A (zh) | 2019-10-18 |
CN110348017B CN110348017B (zh) | 2022-12-23 |
Family
ID=68175288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910636562.8A Active CN110348017B (zh) | 2019-07-15 | 2019-07-15 | 一种文本实体检测方法、系统及相关组件 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348017B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859937A (zh) * | 2020-07-20 | 2020-10-30 | 上海汽车集团股份有限公司 | 一种实体识别方法及装置 |
CN112380832A (zh) * | 2020-11-13 | 2021-02-19 | 苏州大学 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN112766485A (zh) * | 2020-12-31 | 2021-05-07 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
WO2023226367A1 (zh) * | 2022-05-23 | 2023-11-30 | 华为云计算技术有限公司 | 样本标注的校对方法、装置、计算设备集群和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
-
2019
- 2019-07-15 CN CN201910636562.8A patent/CN110348017B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859937A (zh) * | 2020-07-20 | 2020-10-30 | 上海汽车集团股份有限公司 | 一种实体识别方法及装置 |
CN112380832A (zh) * | 2020-11-13 | 2021-02-19 | 苏州大学 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN112380832B (zh) * | 2020-11-13 | 2024-01-30 | 苏州大学 | 文本匹配方法、装置、电子设备及计算机可读存储介质 |
CN112766485A (zh) * | 2020-12-31 | 2021-05-07 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
CN112766485B (zh) * | 2020-12-31 | 2023-10-24 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
WO2023226367A1 (zh) * | 2022-05-23 | 2023-11-30 | 华为云计算技术有限公司 | 样本标注的校对方法、装置、计算设备集群和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110348017B (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348017A (zh) | 一种文本实体检测方法、系统及相关组件 | |
CN109388793B (zh) | 实体标注方法、意图识别方法及对应装置、计算机存储介质 | |
CN109918532A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN108416384A (zh) | 一种图像标签标注方法、系统、设备及可读存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
US11860684B2 (en) | Few-shot named-entity recognition | |
CN110459282A (zh) | 序列标注模型训练方法、电子病历处理方法及相关装置 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
KR20100038378A (ko) | 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN104809105B (zh) | 基于最大熵的事件论元及论元角色的识别方法及系统 | |
CN110442840A (zh) | 序列标注网络更新方法、电子病历处理方法及相关装置 | |
CN106874411A (zh) | 一种表格的搜索方法及搜索平台 | |
CN112711660A (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN108304373A (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN110472248A (zh) | 一种中文文本命名实体的识别方法 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN115203338A (zh) | 一种标签及标签实例推荐方法 | |
CN106407387A (zh) | 一种针对医疗诊断文本的概念连接方法 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
Wang et al. | Knowledge mining with scene text for fine-grained recognition | |
CN113947087A (zh) | 一种基于标签的关系构建方法、装置、电子设备及存储介质 | |
CN110472063A (zh) | 社交媒体数据处理方法、模型训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |