CN108920461A - 一种多类型且含复杂关系的实体抽取方法及装置 - Google Patents

一种多类型且含复杂关系的实体抽取方法及装置 Download PDF

Info

Publication number
CN108920461A
CN108920461A CN201810669866.XA CN201810669866A CN108920461A CN 108920461 A CN108920461 A CN 108920461A CN 201810669866 A CN201810669866 A CN 201810669866A CN 108920461 A CN108920461 A CN 108920461A
Authority
CN
China
Prior art keywords
entity
character
vector
sample
bilstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810669866.XA
Other languages
English (en)
Other versions
CN108920461B (zh
Inventor
吴杰
杨曦
沈满
刘奕夫
周游宇
布恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Geospace Information Technology Co ltd
Original Assignee
WUDA GEOINFORMATICS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUDA GEOINFORMATICS CO Ltd filed Critical WUDA GEOINFORMATICS CO Ltd
Priority to CN201810669866.XA priority Critical patent/CN108920461B/zh
Publication of CN108920461A publication Critical patent/CN108920461A/zh
Application granted granted Critical
Publication of CN108920461B publication Critical patent/CN108920461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于大数据抽取技术领域,提供一种多类型且含复杂关系的实体抽取方法及装置,所述方法包括:构建训练样本;构建样本的分词特征;建立skip‑gram神经网络模型将字符转为向量;针对每种不同类型实体建立一个实体抽取BiLSTM‑CRF模型;根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果。本发明针对不同的BiLSTM‑CRF模型分别建立模型进行实体抽取,保证了每种类型的实体提取的准确性,另外,在本方法中,提取实体的同时,也提取了实体在文本中的位置,并且利用位置关系建立实体间的正则表达式,优化了模型提取的过多的且复杂的实体。

Description

一种多类型且含复杂关系的实体抽取方法及装置
技术领域
本发明属于大数据抽取技术领域,尤其涉及一种多类型且含复杂关系的实体抽取方法及装置。
背景技术
互联网上公布的新闻、评论、公告、公示、博客等各种文字信息大部分都属于非结构化长文本数据,对于不同的行业领域,有不同的应用价值;但是不同题材的、或者同题材但是不同发布网站的、或不同的撰写者写的文本,其内容、格式、结构各不相同;并且长文本的信息量比短文本大很多,如实体类型多、同一种类型的实体对于不同的含义又有不同的类别、各种类型的实体之间存在直接或者间接的关联关系等。
现有的技术虽然也能提取出实体,但是是基于短文本数据的,短文本因其长度有限,其内容信息比较少,含有的实体类型和同一类型的实体数量也很少,现有技术不能解决长文本中多种类型的实体共现的问题;现有技术方案将通过模型提取出实体作为最终结果,对提取的实体没有针对上下文的实际语义情况做后续处理。现有技术方案将提取实体作为结束条件,并且在同一个模型中同时提取所有类型的实体,在含有多种实体类型和复杂实体关系的长文本数据中,会导致提取不同类型的实体时错误率增加。
目前情况下,从形式各异的长文本中获取有效且正确的实体信息是较困难的,因此本发明旨在解决从混合的长文本中提取多种类型的有复杂关系的实体,以满足不同的价值需求。
发明内容
鉴于上述问题,本发明的目的在于提供一种多类型且含复杂关系的实体抽取方法及装置,旨在解决现有技术中,从形式各异的长文本中获取有效且正确的实体信息较为困难等技术问题。
本发明采用如下技术方案:
一方面,所述多类型且含复杂关系的实体抽取方法包括下述步骤:
步骤S1、构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;
步骤S2、构建样本的分词特征:将步骤S1中的语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;
步骤S3、建立skip-gram神经网络模型将字符转为向量;
步骤S4、针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型;
步骤S5、根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整距离正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。
进一步的,步骤S1中假设有M种不同类型的实体,则需生成M份标注不同类型实体的标注样本,其中同一种类型内的实体单元标注相同。
进一步的,步骤S1中具体的实体标注模式为:
若一个文本字符串是一个实体,那么文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”;若一个文本字符串是一个实体但是只有一个字符,那么直接标注为”S-实体类型名”;语料数据中不是实体的字符全部标注为“O”。
进一步的,步骤S2中所述分词特征为对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”;若字符是所在分词的最后一个字符,标注为“E”;若字符是所在分词的中间字符,标注为“I”;若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。
进一步的,步骤S3具体过程如下:
利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim。
进一步的,步骤S4中建立的BiLSTM-CRF模型是双向长短记忆神经网络算法BiLSTM和条件机场算法CRF的组合模型,每个BiLSTM-CRF模型输入对应类型的样本进行迭代训练,每个BiLSTM-CRF模型的迭代次数为epoch;该BiLSTM-CRF模型从下至上具体结构为:
输入层:样本中选择n个样本,字符长度最长的样本的的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,输出到向量计算层的所有字符长度为n*max_len;
向量计算层:获取输入层的样本字符,查找每个字符对应的步骤S2中的分词特征和步骤S3的文件vocb中的字符向量,同时把分词特征映射表达成seg_dim维度的分词特征向量,每个字符的分词特征向量和字符向量顺序拼接,那么最后输出到下一层的单个字符的向量长度是char_dim+seg_dim,所有的输出样本的样本表示向量表达成n*max_len*(char_dim+seg_dim)的空间向量形式;
BiLSTM层:该层内部包含3个网络层,分别为前向计算层、反向计算层和合并层,前向计算层、反向计算层分别有lstm_dim个节点,获取向量计算层输出的样本表示向量,分别进行前向计算和反向计算,合并层将前向计算和反向计算的计算结果进行合并拼接,得到单个字符向量长度为2*lstm_dim,最后BiLSTM层的输出向量长度是n*max_len*2*lstm_dim;
CRF层:获取BiLSTM层的输出向量,计算每个字符分别属于“B”“I”“O”“S”4种标注的概率值,最后输出样本的计算结果的长度为n*max_len*4;
输出层:获取CRF层输出样本的每个字符的标注概率,取最大概率值作为该字符的估计标注,并根据步骤S2中“B”“I”“O”“S”的含义连接单词,标注每个实体所处文本中的位置。
进一步的,步骤S5中预设值α=0.85。
另一方面,所述多类型且含复杂关系的实体抽取装置包括:
样本构建单元,用于构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;
分词单元,用于构建样本的分词特征:将语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;
转换单元,用于建立skip-gram神经网络模型将字符转为向量;
模型建立单元,用于针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型;
提取优化单元,用于根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。
本发明的有益效果是:相对于现在技术方案中的使用一个模型同时提取不同类型的实体,本发明针对不同的类型的长短文本的语料数据分别进行实体标注,并且创建标注样本,从而建立模型进行实体抽取,保证了每种类型的实体提取的准确性;另外,在复杂实体关系的长文本数据中,现有的技术方案存在错误提取的问题,在本发明方法中,创建实体抽取BiLSTM-CRF模型并提取实体的同时,也提取了实体在文本中的位置信息,并且利用位置关系建立实体间的正则表达式,更准确的优化提取出众多实体。
附图说明
图1是本发明实施例提供的多类型且含复杂关系的实体抽取方法流程图;
图2是BiLSTM-CRF是模型原理框图;
图3是本发明实施例提供的多类型且含复杂关系的实体抽取装置原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
如图1所示,本发明实施例提供的多类型且含复杂关系的实体抽取方法包括下述步骤:
步骤S1、构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本。
本步骤中,假设设置有M种不同类型的实体,则需生成M份标注不同类型实体的标注样本,其中同一种类型内的实体单元标注相同。步骤S1中具体的实体标注模式为:若一个文本字符串是一个实体,那么文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”;若一个文本字符串是一个实体但是只有一个字符,那么直接标注为”S-实体类型名”;语料数据中不是实体的字符全部标注为“O”。
步骤S2、构建样本的分词特征:将步骤S1中的语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征。
本步骤S2中将步骤S1中的文本语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;所谓分词特征,即为对分词结果中的每个字符进行标注,其中具体的标注方式为:若字符是所在分词的第一个字符,标注为“B”;若字符是所在分词的最后一个字符,标注为“E”;若字符是所在分词的中间字符,标注为“I”;若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。
步骤S3、建立skip-gram神经网络模型将字符转为向量。
在步骤S3中,建立skip-gram神经网络模型将字符转为向量,具体的过程如下:利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim,一般情况下,char_dim设置为100。
步骤S4、针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型。
在步骤S4中,针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型,在本实施例中,本步骤建立了M个不同类型的BiLSTM-CRF模型,建立的BiLSTM-CRF模型是双向长短记忆神经网络算法BiLSTM和条件机场算法CRF的组合模型,每个BiLSTM-CRF模型输入对应类型的样本进行迭代训练,分别得到最优的模型,每个BiLSTM-CRF模型的迭代次数为epoch,统一设置为10000;当迭代次数epoch达到上限,那么BiLSTM-CRF模型建立完成。Epoch设置足够大,那么BiLSTM-CRF模型的准确性就会很高并且足够稳定,本发明中设置为10000,已经足够大。
如图2所示,该BiLSTM-CRF模型从下至上具体结构为:
输入层:样本中选择n个样本,字符长度最长的样本的的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,输出到向量计算层的所有字符长度为n*max_len;
向量计算层:获取输入层的样本字符,查找每个字符对应的步骤S2中的分词特征和步骤S3的文件vocb中的字符向量,同时把分词特征映射表达成seg_dim维度的分词特征向量,这里设置seg_dim的值为20,每个字符的分词特征向量和字符向量顺序拼接,那么最后输出到下一层的单个字符的向量长度是char_dim+seg_dim,所有的输出样本的样本表示向量表达成n*max_len*(char_dim+seg_dim)的空间向量形式;本层在输入层和BiLSTM层之间,主要作用是分词特征和字符向量查找,以及将分词特征映射成seg_dim维度的分词特征向量。图2中未示出本层。
BiLSTM层:该层内部包含3个网络层,如图2所示,从下至上分别为前向计算层、反向计算层和合并层,前向计算层、反向计算层分别有lstm_dim个节点,设置lstm_dim=100,获取向量计算层输出的样本表示向量,分别进行前向计算和反向计算,合并层将前向计算和反向计算的计算结果进行合并拼接,得到单个字符向量长度为2*lstm_dim=200,最后BiLSTM层的输出向量长度是n*max_len*2*lstm_dim;
CRF层:获取BiLSTM层的输出向量,计算每个字符分别属于“B”“I”“O”“S”4种标注的概率值,最后输出样本的计算结果的长度为n*max_len*4;
输出层:获取CRF层输出样本的每个字符的标注概率,取最大概率值作为该字符的估计标注,并根据步骤S2中“B”“I”“O”“S”的含义连接单词,标注每个实体所处文本中的位置。
相对于现有技术中的使用一个模型同时提取不同类型的实体,本方案针对不同类型的实体分别建立BiLSTM-CRF模型,在含有多种BiLSTM-CRF模型的文本数据中,保证每种类型的实体提取准确定更高。
步骤S5、根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。
所述距离正则表达式的含义是:根据要抽取的M种类型的实体的含义和定义,定义一些实体类型之间可能存在的一些关系,并以正则表达式的形式记录在文件中,文件名为“rules”。
如实体类型m1和实体类型m2在文本中所处位置之间包含的字符数量应该不大于q个。BiLSTM-CRF模型出来的结果中,当m1类型实体和m2类型实体分别提取了mm1和mm2个,分别计算2种类型的实体两两之间的距离,当距离小于等于q的关系对中的实体分别做保留。
本步骤根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,准确度k计算的是BiLSTM-CRF模型+距离正则表达式整个模型的精度。但是k不满足条件不用修正BiLSTM-CRF模型,仅仅需要修改距离正则表达式。
准确度k计算过程如下:每次随机从步骤S1的样本中选择ns个作为验证集,这里ns=100,验证集的数据带有实际标注。假设一个验证集实际标注的非“O”的数量为n1,通过BiLSTM-CRF模型估计再经过距离正则表达式计算后得到的预测结果中与实际标注的非“O”的字符完全相同的数量是n2,那么本次训练模型的准确度为n2/n1。
若准确度k连续若干次(比如10次)计算均小于预设值(这里的预设值α设置为0.85),则重新调整正则表达式再次计算准确度,具体调整过程如下:当准确度连续k次达不到要求,即小于0.85,那么就调整正则表达式,每次调整时定量增大已设定的距离正则表达式的距离值并重新计算抽取准确度,当距离值增大2倍时,仍不满足条件则删除该项距离正则表达式重新建立距离正则表达式,如果连续若干次抽取的数据的准确度都大于0.85,那么就结束调整距离正则表达式。
若准确度大于或等于预设值时,则确定当前距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式,在本步骤方法中,采用不同的BiLSTM-CRF模型提取不同的实体和实体在文中的位置,再根据需求建立关系正则表达式,可以更准确的优化提取出来众多的实体。
实施例二:
如图3所示,本发明提供一种多类型且含复杂关系的实体抽取装置,用于完成本发明提供的多类型且含复杂关系的实体抽取方法,所述多类型且含复杂关系的实体抽取装置包括:
样本构建单元,用于构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;
分词单元,用于构建样本的分词特征:将语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;
转换单元,用于建立skip-gram神经网络模型将字符转为向量;
模型建立单元,用于针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型;
提取优化单元,用于根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。
本实施例提供的各个功能单元对应实现了实施例一中的步骤S1-S5,具体实现过程这里不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种多类型且含复杂关系的实体抽取方法,其特征在于,所述方法包括下述步骤:
步骤S1、构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;
步骤S2、构建样本的分词特征:将步骤S1中的语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;
步骤S3、建立skip-gram神经网络模型将字符转为向量;
步骤S4、针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型;
步骤S5、根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整距离正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。
2.如权利要求1所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S1中假设有M种不同类型的实体,则需生成M份标注不同类型实体的标注样本,其中同一种类型内的实体单元标注相同。
3.如权利要求2所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S1中具体的实体标注模式为:
若一个文本字符串是一个实体,那么文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”;若一个文本字符串是一个实体但是只有一个字符,那么直接标注为”S-实体类型名”;语料数据中不是实体的字符全部标注为“O”。
4.如权利要求3所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S2中所述分词特征为对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”;若字符是所在分词的最后一个字符,标注为“E”;若字符是所在分词的中间字符,标注为“I”;若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。
5.如权利要求4所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S3具体过程如下:
利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim。
6.如权利要求5所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S4中建立的BiLSTM-CRF模型是双向长短记忆神经网络算法BiLSTM和条件机场算法CRF的组合模型,每个BiLSTM-CRF模型输入对应类型的样本进行迭代训练,每个BiLSTM-CRF模型的迭代次数为epoch;该BiLSTM-CRF模型从下至上具体结构为:
输入层:样本中选择n个样本,字符长度最长的样本的的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,输出到向量计算层的所有字符长度为n*max_len;
向量计算层:获取输入层的样本字符,查找每个字符对应的步骤S2中的分词特征和步骤S3的文件vocb中的字符向量,同时把分词特征映射表达成seg_dim维度的分词特征向量,每个字符的分词特征向量和字符向量顺序拼接,那么最后输出到下一层的单个字符的向量长度是char_dim+seg_dim,所有的输出样本的样本表示向量表达成n*max_len*(char_dim+seg_dim)的空间向量形式;
BiLSTM层:该层内部包含3个网络层,分别为前向计算层、反向计算层和合并层,前向计算层、反向计算层分别有lstm_dim个节点,获取向量计算层输出的样本表示向量,分别进行前向计算和反向计算,合并层将前向计算和反向计算的计算结果进行合并拼接,得到单个字符向量长度为2*lstm_dim,最后BiLSTM层的输出向量长度是n*max_len*2*lstm_dim;
CRF层:获取BiLSTM层的输出向量,计算每个字符分别属于“B”“I”“O”“S”4种标注的概率值,最后输出样本的计算结果的长度为n*max_len*4;
输出层:获取CRF层输出样本的每个字符的标注概率,取最大概率值作为该字符的估计标注,并根据步骤S2中“B”“I”“O”“S”的含义连接单词,标注每个实体所处文本中的位置。
7.如权利要求6所述多类型且含复杂关系的实体抽取方法,其特征在于,步骤S5中预设值α=0.85。
8.一种多类型且含复杂关系的实体抽取装置,其特征在于,所述装置包括:
样本构建单元,用于构建训练样本:对混合的有长短文本的语料数据按字符进行实体标注,并且对不同类型的实体分别创建标注样本;
分词单元,用于构建样本的分词特征:将语料数据按照单个文本进行分词,并对每个分词进行标注,作为语料的分词特征;
转换单元,用于建立skip-gram神经网络模型将字符转为向量;
模型建立单元,用于针对每种不同类型实体建立一个实体抽取BiLSTM-CRF模型;
提取优化单元,用于根据不同类型实体间或者同一类型的不同具体实体单元之间的关系建立距离正则表达式,优化实体提取结果,具体优化过程如下:根据BiLSTM-CRF模型和距离正则表达式计算最后的实体抽取准确度,若准确度k连续若干次计算均小于预设值,则重新调整距离正则表达式再次计算准确度,若准确度k大于或等于预设值时,确定当前距离正则表达式为最终的距离正则表达式,保存所有BiLSTM-CRF模型以及最终的距离正则表达式。
CN201810669866.XA 2018-06-26 2018-06-26 一种多类型且含复杂关系的实体抽取方法及装置 Active CN108920461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810669866.XA CN108920461B (zh) 2018-06-26 2018-06-26 一种多类型且含复杂关系的实体抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810669866.XA CN108920461B (zh) 2018-06-26 2018-06-26 一种多类型且含复杂关系的实体抽取方法及装置

Publications (2)

Publication Number Publication Date
CN108920461A true CN108920461A (zh) 2018-11-30
CN108920461B CN108920461B (zh) 2022-03-08

Family

ID=64421323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810669866.XA Active CN108920461B (zh) 2018-06-26 2018-06-26 一种多类型且含复杂关系的实体抽取方法及装置

Country Status (1)

Country Link
CN (1) CN108920461B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614538A (zh) * 2018-12-17 2019-04-12 广东工业大学 一种农产品价格数据的提取方法、装置及设备
CN109815253A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 一种查询语句的主语实体识别方法及装置
CN111126067A (zh) * 2019-12-23 2020-05-08 北大方正集团有限公司 实体关系抽取方法及装置
CN111274804A (zh) * 2020-01-17 2020-06-12 珠海市新德汇信息技术有限公司 基于命名实体识别的案件信息提取方法
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN112149423A (zh) * 2020-10-16 2020-12-29 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112257435A (zh) * 2020-09-11 2021-01-22 安徽中科新辰技术有限公司 一种基于人工智能分词技术的警情数据治理方法
CN112541075A (zh) * 2020-10-30 2021-03-23 中科曙光南京研究院有限公司 一种警情文本的标准案发时间提取方法及系统
CN112559769A (zh) * 2020-12-15 2021-03-26 上海钛米机器人股份有限公司 问答数据库的生成方法和装置
CN113468335A (zh) * 2020-03-30 2021-10-01 海信集团有限公司 实体隐含关系抽取方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266041A1 (en) * 2006-05-11 2007-11-15 Microsoft Corporation Concept of relationshipsets in entity data model (edm)
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266041A1 (en) * 2006-05-11 2007-11-15 Microsoft Corporation Concept of relationshipsets in entity data model (edm)
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
CN108153851A (zh) * 2017-12-21 2018-06-12 北京工业大学 一种基于规则和语义的通用论坛主题帖页面信息抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUOYU WANG ET.AL: "USING HYBRID NEURAL NETWORK TO ADDRESS", 《PROCEEDINGS OF CCIS2014 》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614538A (zh) * 2018-12-17 2019-04-12 广东工业大学 一种农产品价格数据的提取方法、装置及设备
CN109815253A (zh) * 2018-12-26 2019-05-28 出门问问信息科技有限公司 一种查询语句的主语实体识别方法及装置
CN111858838A (zh) * 2019-04-04 2020-10-30 拉扎斯网络科技(上海)有限公司 一种菜系标定方法、装置、电子设备和非易失性存储介质
CN111126067A (zh) * 2019-12-23 2020-05-08 北大方正集团有限公司 实体关系抽取方法及装置
CN111126067B (zh) * 2019-12-23 2022-02-18 北大方正集团有限公司 实体关系抽取方法及装置
CN111274804A (zh) * 2020-01-17 2020-06-12 珠海市新德汇信息技术有限公司 基于命名实体识别的案件信息提取方法
CN113468335A (zh) * 2020-03-30 2021-10-01 海信集团有限公司 实体隐含关系抽取方法及设备
CN112257435A (zh) * 2020-09-11 2021-01-22 安徽中科新辰技术有限公司 一种基于人工智能分词技术的警情数据治理方法
CN112257435B (zh) * 2020-09-11 2024-05-14 安徽中科新辰技术有限公司 一种基于人工智能分词技术的警情数据治理方法
CN112149423A (zh) * 2020-10-16 2020-12-29 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112149423B (zh) * 2020-10-16 2024-01-26 中国农业科学院农业信息研究所 一种面向领域实体关系联合抽取的语料标注方法及系统
CN112541075A (zh) * 2020-10-30 2021-03-23 中科曙光南京研究院有限公司 一种警情文本的标准案发时间提取方法及系统
CN112541075B (zh) * 2020-10-30 2024-04-05 中科曙光南京研究院有限公司 一种警情文本的标准案发时间提取方法及系统
CN112559769A (zh) * 2020-12-15 2021-03-26 上海钛米机器人股份有限公司 问答数据库的生成方法和装置
CN112559769B (zh) * 2020-12-15 2024-04-16 上海钛米机器人股份有限公司 问答数据库的生成方法和装置

Also Published As

Publication number Publication date
CN108920461B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN108920461A (zh) 一种多类型且含复杂关系的实体抽取方法及装置
CN111125331B (zh) 语义识别方法、装置、电子设备及计算机可读存储介质
CN108920460A (zh) 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN112417880B (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
Huang et al. Copner: Contrastive learning with prompt guiding for few-shot named entity recognition
CN104899304B (zh) 命名实体识别方法及装置
Dong et al. A commodity review sentiment analysis based on BERT-CNN model
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN109359291A (zh) 一种命名实体识别方法
CN109492099A (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN109325112A (zh) 一种基于emoji的跨语言情感分析方法和装置
CN107220386A (zh) 信息推送方法和装置
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN103544309A (zh) 一种中文垂直搜索的检索串拆分方法
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法
CN108595506A (zh) 需求匹配方法及装置、存储介质、终端
CN110414009A (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN106649250A (zh) 一种情感新词的识别方法及装置
CN115587594A (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
Qiu et al. QA4IE: A question answering based framework for information extraction
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN109308311A (zh) 一种多源异构数据融合系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 430223 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan community, Donghu Development Zone, Wuhan City, Hubei Province

Patentee after: Geospace Information Technology Co.,Ltd.

Address before: 430223 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan community, Donghu Development Zone, Wuhan City, Hubei Province

Patentee before: WUDA GEOINFORMATICS Co.,Ltd.