CN110134959A - 命名实体识别模型训练方法及设备、信息抽取方法及设备 - Google Patents
命名实体识别模型训练方法及设备、信息抽取方法及设备 Download PDFInfo
- Publication number
- CN110134959A CN110134959A CN201910402380.4A CN201910402380A CN110134959A CN 110134959 A CN110134959 A CN 110134959A CN 201910402380 A CN201910402380 A CN 201910402380A CN 110134959 A CN110134959 A CN 110134959A
- Authority
- CN
- China
- Prior art keywords
- entity
- training text
- training
- text
- markup information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013135 deep learning Methods 0.000 claims abstract description 16
- 230000000155 isotopic effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了一种命名实体识别模型训练方法及设备、信息抽取方法及设备。所述本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;基于匹配结果,获得相应训练文本的有效命名实体标注;获得训练文本集中的各训练文本的向量表示;基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
Description
技术领域
以下描述涉及信息抽取领域,更具体地说,涉及一种命名实体识别模型训练方法及设备、信息抽取方法及设备。
背景技术
现在,信息抽取是各个行业所面临的一个比较普遍的问题。例如,在工业界,在业务人员处理各种业务问题过程中,各种类型的文章是业务人员的重要参考材料,业务人员每日需要挖掘文章中的重要信息,但海量文章却令人脑难以负荷。以深圳证券交易所(简称“深交所”)的工作内容为例,2016年全年共披露265985篇公告,2017年共披露291607篇公告,随着上市公司数量日益增多,这一数字也会逐年增加,不但为合规检查带来压力,也给投资者带来极大的信息负载。
此外,标签的准确程度在很大程度上影响着信息抽取。为了使用人工智能技术来进行信息抽取,通常通过人工来进行标注数据,可是人工标注存在两个问题,一是标准不一,例如,对于“40000”,可能被标注为“4万”,也可能被标注为“40,000”,这不利于模型的学习;二是人工本身也会出错,一些较长的数字、小数可能被标注错误。
此外,在实际应用中,工作人员除了通过人眼观察进行人工抽取外,也以一定的规则进行结构化数据的抽取。例如,某几个关键词后面的就是待抽取的某个字段,但规则表达依赖的变量和维度是非常有限的(例如,当所限定的规则为“于”之前的内容就是实体“企业名”,这样的规则比较刚性,泛用性差)。因此规则表达所限定的边界是非常刚性的,随着语料库的增大,一旦不包含命名实体的语句和包含实体的语句有一定的相似,就会产生一个假阳性的错误抽取。
一般的信息抽取方法通常会采用基于规则的方法。在基于规则的方法中,使用分词逐句对文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;对预处理过的文本采用对应匹配抽取方式进行对应的信息抽取操作。然而,在基于规则的方法中,由于需要大量的人工工作来制定抽取的专家规则,这与高成本低效率的人工查询公告实体并没有本质区别。此外,大量的人工工作通常会存在疏漏,因此,制定的规则并不是完全准确的,例如,某个公司的实体规则制定一旦出现了错误,在实际应用中就会导致实体识别出现错误、无法实现信息抽取或信息抽取出现错误。
发明内容
为解决上述的至少一个问题,本发明提供一种命名实体识别模型训练方法及设备、信息抽取方法及设备。
根据本发明构思的一方面,提供一种命名实体识别模型的训练方法。所述训练方法包括:获取具有半标注信息的训练文本集;对于所述训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;基于匹配结果,获得相应训练文本的有效命名实体标注;获得训练文本集中的各训练文本的向量表示;基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤可包括:基于半标注信息中的实体所属类型的一个或多个变体格式,从相应训练文本中搜索所述一个或多个变体格式,从而进行半标注信息中的实体与相应训练文本中的实体的匹配。
可选地,所述实体所属类型的一个或多个变体格式可从预设的正则查找库中获得。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤还可包括:当半标注信息中的实体为百分数类型时,基于百分数类型的一个或多个变体格式,从相应训练文本中搜索具有所述百分数类型的一个或多个变体格式的数据;将搜索到的数据与半标注信息中的实体进行比较,以确定是否匹配。
可选地,所述将搜索到的数据与半标注信息中的实体进行比较以确定是否匹配的步骤可包括以下项中的至少一个:计算搜索到的数据与半标注信息中的实体之间的绝对差,如果所述绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的;对半标注信息中的实体进行不同位数的取整运算,如果搜索到的数据与取整运算获得的结果之间的绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤还可包括:当半标注信息中的实体为日期类型时,基于日期类型的一个或多个变体格式,从相应训练文本中搜索具有所述日期类型的一个或多个变体格式的数据。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤还可包括:当半标注信息的实体为数值或金额类型时,基于数值或金额类型的一个或多个变体格式,从相应训练文本中搜索具有所述数值或金额类型的一个或多个变体格式的数据。
可选地,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤还可包括:当半标注信息中的实体为与名称相关的类型时,基于与名称相关的类型的一个或多个变体格式,从相应训练文本中搜索具有所述与名称相关的类型的一个或多个变体格式的数据。
可选地,所述获得练文本集中的各训练文本的向量表示可包括:将训练文本按字粒度进行切分,利用字向量模型获得每个字的分布式表征;或者将训练文本进行分词处理,利用词向量模型获得训练文本的词向量表示。
可选地,基于深度学习的命名实体识别模型可包括深度神经网络和条件随机域层。
可选地,字向量模型或词向量模型可基于所述训练文本集中的各训练文本的语料库或者通用的语料库来获得。
根据本发明构思的另一方面,提供一种信息抽取方法。所述信息抽取方法包括:利用如如上所述的训练方法,得到目标命名实体识别模型;获得目标文本的向量表示;将目标文本的向量表示输入到所述目标命名实体识别模型,得到所述目标文本中的命名实体;基于所得到的命名实体输出从所述目标文本中抽取的信息。
根据本发明构思的另一方面,提供一种命名实体识别模型的训练设备。所述训练设备包括:匹配单元,被配置为:对于具有半标注信息的训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;标注单元,被配置为:基于匹配结果,获得相应训练文本的有效命名实体标注;获取单元,被配置为:获得训练文本集中的各训练文本的向量表示;以及训练单元,被配置为:基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
可选地,匹配单元还可被配置为:基于半标注信息中的实体所属类型的一个或多个变体格式,从相应训练文本中搜索所述一个或多个变体格式,从而进行半标注信息中的实体与相应训练文本中的实体的匹配。
可选地,所述实体所属类型的一个或多个变体格式可从预设的正则查找库中获得。
可选地,匹配单元还可被配置为:当半标注信息中的实体为百分数类型时,基于百分数类型的一个或多个变体格式,从相应训练文本中搜索具有所述百分数类型的一个或多个变体格式的数据;将搜索到的数据与半标注信息中的实体进行比较,以确定是否匹配。
可选地,匹配单元还可被配置为执行以下项中的至少一个:计算搜索到的数据与半标注信息中的实体之间的绝对差,如果所述绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的;对半标注信息中的实体进行不同位数的取整运算,如果搜索到的数据与取整运算获得的结果之间的绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的。
可选地,匹配单元还可被配置为:当半标注信息中的实体为日期类型时,基于日期类型的一个或多个变体格式,从相应训练文本中搜索具有所述日期类型的一个或多个变体格式的数据。
可选地,匹配单元还可被配置为:当半标注信息的实体为数值或金额类型时,基于数值或金额类型的一个或多个变体格式,从相应训练文本中搜索具有所述数值或金额类型的一个或多个变体格式的数据。
可选地,匹配单元还可被配置为:当半标注信息中的实体为与名称相关的类型时,基于与名称相关的类型的一个或多个变体格式,从相应训练文本中搜索具有所述与名称相关的类型的一个或多个变体格式的数据。
可选地,获取单元还可被配置为:将训练文本按字粒度进行切分,利用字向量模型获得每个字的分布式表征;或者将训练文本进行分词处理,利用词向量模型获得训练文本的词向量表示。
可选地,基于深度学习的命名实体识别模型可包括深度神经网络和条件随机域层。
可选地,字向量模型或词向量模型可基于所述训练文本集中的各训练文本的语料库或者通用的语料库来获得。
根据本发明构思的另一方面,提供一种信息抽取设备。所述信息抽取设备包括:模型获取单元,被配置为:利用如上所述的训练设备,得到目标命名实体识别模型;以及信息抽取单元,被配置为:获得目标文本的向量表示;将目标文本的向量表示输入到所述目标命名实体识别模型,得到所述目标文本中的命名实体;基于所得到的命名实体输出从所述目标文本中抽取的信息。
本发明构思所提出的命名实体识别模型的训练方法及设备、信息抽取方法及设备提出了匹配方法(也可被称为“归一化方法”)和深度学习相结合的基于半标注信息的信息抽取的方法,在标注的数据量较少的情况下有效地实现信息抽取。此外,本发明构思所提出的命名实体识别模型的训练方法及设备、信息抽取方法及设备泛用性更强,能够仅通过新实体标签即可适用于不同的场景。此外,由于通过匹配方法获得准确的实体标签,因此能够获得置信度较高的信息抽取结果。
附图说明
图1是根据示例实施例的命名实体识别模型的训练方法的流程图。
图2是根据示例实施例的对日期类型的实体进行匹配的公告的示图。
图3是根据示例实施例的获得相应训练文本的有效命名实体标注的示图。
图4是根据示例实施例的信息抽取方法的流程图。
图5是根据示例实施例的命名实体识别模型的训练设备的示图。
图6是根据示例实施例的信息抽取设备的示图。
具体实施方式
本发明可具有各种变形和各种实施例,应理解,本发明不限于这些实施例,而是包括本发明的精神和范围内的所有变形、等同物和替换。例如,在此描述的操作的顺序仅是示例,并且不受限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚地那样被改变。此外,为了更加清楚和简明,可省略本领域中已知的特征的描述。在本发明的示例实施例中使用的术语仅用于描述特定实施例,而不是为了限制示例实施例。除非上下文另有清楚的指示,否则在此使用的单数形式也意图包括复数形式。
图1是根据示例实施例的命名实体识别模型的训练方法的流程图。
参照图1,在步骤101中,获取具有半标注信息的训练文本集。根据示例实施例,半标注信息可以是存在于各个训练文本集中的结构表(例如,表格形式的数据),然而,这仅是示例性的,本发明构思不限于此,其他形式的数据也是可行的。在另一示例中,如果训练文本集中存在不具有半标注信息的训练文本,则可以对不具有半标注信息的训练文本进行预处理来生成半标注信息。根据示例实施例,训练文本集可以是如上所述的深交所披露的多篇公告,然而,这仅是示例性的,本发明构思不限于此。
在步骤103中,执行实体匹配。具体地说,对于训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配。
根据示例实施例,“匹配”也可被称为“归一化”,是为了解决共指消解的现象。例如,对于半标注信息中的“4.32%”,在训练文本中出现的实体可能是“百分之四点三二”、“4.321%”、“4.32个百分点”等等,这些实体的含义均为4.32%,但是命名实体识别模型无法全部辨别,因此需要通过匹配将与其关联的共指来映射到训练文本中出现的实体。
在一个示例中,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤可包括:基于半标注信息中的实体所属类型的一个或多个变体格式,从相应训练文本中搜索一个或多个变体格式,从而进行半标注信息中的实体与相应训练文本中的实体的匹配。
根据示例实施例,半标注信息中的实体所属类型可包括:百分数类型(例如,百分比小数)、日期类型、数值或金额类型、与名称相关的类型(例如,企业名或机构名、人名、地名等)等。
根据示例实施例,实体所属类型的一个或多个变体格式从预设的正则查找库中获得。换言之,可以以正则查找库的形式预先定义实体所属类型的一个或多个变体格式,使用正则查找库中预先定义的一个或多个变体格式替换实体的格式,在相应训练文本中进行搜索,从而实现半标注信息中的实体与相应训练文本中的实体的匹配。然而,这仅是示例性的,本发明构思不限于此,其他方式也是可行的。
在一个示例中,当半标注信息中的实体为百分数类型时,基于百分数类型的一个或多个变体格式,从相应训练文本中搜索具有百分数类型的一个或多个变体格式的数据;将搜索到的数据与半标注信息中的实体进行比较,以确定是否匹配。例如,可通过正则查找库找出相应训练文本中的所有的百分数类型的数据,然后将找到的百分数类型的数据与半标注信息(例如,结构表)中的百分数类型的数据进行比较,以确定是否匹配。
在一个示例中,可计算搜索到的数据与半标注信息中的实体之间的绝对差,如果所述绝对差小于预设阈值(例如,该预设阈值可以是预先设置的一个极小数,诸如,1e-10,然而示例不限于此)时,则确定搜索到的数据与半标注信息中的实体之间是匹配的。
在另一个示例中,可对半标注信息中的实体进行不同位数的取整运算,如果搜索到的数据与取整运算获得的结果之间的绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的。例如,可通过对半标注信息中的百分数类型的数据进行四舍五入来实现取整运算,将四舍五入所获得的数据与训练文本中的百分数类型的数据进行比较,以确定是否匹配,然而,这仅是示例性的,本发明构思不限于此,可通过其他各种方法来实现不同位数的取整运算。
根据示例实施例,可仅采用以上两种方法之一来确定百分数类型的实体是否匹配,也可同时采用以上两种方法进行双匹配来更加准确地确定百分数类型的实体是否匹配。
在一个示例中,当半标注信息中的实体为日期类型时,基于日期类型的一个或多个变体格式,从相应训练文本中搜索具有日期类型的一个或多个变体格式的数据。如果能够搜索到具有日期类型的一个或多个变体格式的数据,则确定半标注信息中的实体与与相应训练文本中的实体匹配。例如,可通过正则查找库确定半标注信息(例如,结构表)中的日期的一个或多个变体格式,针对每个变体格式在训练文本中进行搜索。例如,可以以“年、月、日”的格式在训练文本中进行搜索,还可以以“.”或“-”连接“年、月、日”的格式在训练文本中进行搜索。然而,这仅是示例性的,本发明构思不限于此。
以图2的公告为例,来进行描述。
在图2中,表格(即,结构表)内的数据为半标注信息中的实体,表格上面的文字段落为训练文本(可被称为数据原文)。半标注信息中的实体为“减持期间”的值“2014.5.27”,利用正则查找库可确定其变体格式可以是“2014.5.27”、“2014.05.27”、“14.5.27”、“14.05.27”、“2014-5-27”、“2014-05-27”、“14-5-27”、“14-05-27”、“2014年5月27日”、“2014年05月27日”、“14年5月27日”、“14年05月27日”等,可使用所有的变体格式或其中的一个或多个变体格式对训练文本进行搜索匹配。经过搜索匹配后,半标注信息中的实体“2014.5.27”能够与训练文本中的实体“2014年5月27日”匹配,从而可在步骤105中,基于匹配结果,将训练文本中的实体“2014年5月27日”进行有效命名实体标注。
在一个示例中,当半标注信息的实体为数值或金额类型时,基于数值或金额类型的一个或多个变体格式,从相应训练文本中搜索具有数值或金额类型的一个或多个变体格式的数据。例如,在正则查找库中,数值和金额的数据的变体格式可以是对数值和长金额字段进行加减分位符和/或中文表示,诸如,4000000的变体格式可以是“4,000,000”、“4百万”、“四百万”等,可使用所有的变体格式或其中的一个或多个变体格式对训练文本进行搜索匹配。
在一个示例中,当半标注信息中的实体为与名称相关的类型时,基于与名称相关的类型的一个或多个变体格式,从相应训练文本中搜索具有所述与名称相关的类型的一个或多个变体格式的数据。例如,在正则查找库中,与名称相关的类型的一个或多个变体格式可以是与名称相关实体中的全角、半角类型的括号的变体格式或无括号的变体格式。
继续参照图1,在步骤105中,可基于匹配结果,获得相应训练文本的有效命名实体标注。如图3所示为根据示例实施例的获得相应训练文本的有效命名实体标注的示图。
参照图3,通过按照如上所述的方法进行搜索匹配305之后,将训练文本(公告原文)303中的实体与半标注信息301中的“公司名称”、“减持数量”、“控股额度”、“行权日期”的数据进行匹配(例如,通过例如正则查找库,使用企业名称实体中的半角符号为全角符号的变体格式、减持数量中的30,000为阿拉伯数字加中文“万”的变体格式“3万”、控股额度中的“48.2%”为阿拉伯数字加中文“百分点”的变体格式“48.2个百分点”、行权日期中的0305为文字“月、日”的变体格式“3月5日”,来对训练文本303进行搜索匹配),然后基于匹配结果,获得训练文本的有效命名实体标注,即,图3中的有效标注的数据样例307。
继续参照图1,在步骤107中,获得训练文本集中的各训练文本的向量表示。具体地说,获得练文本集中的各训练文本的向量表示可包括:将训练文本按字粒度进行切分(例如,“我不是本人”可表示为“我/不/是/本/人”的序列形式),利用字向量模型获得每个字的分布式表征(distributed表征);或者,将训练文本进行分词处理(例如,“我不是本人”可表示为“我/不是/本人”的序列形式),利用词向量模型获得训练文本的词向量表示。在一个示例中,字向量模型或词向量模型可基于训练文本集中的各训练文本的语料库或者通用的语料库来获得。
在步骤109中,可基于步骤107获得的训练文本集中的各训练文本的向量表示及步骤105获得的有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。具体地说,可将步骤107获得的训练文本集中的各训练文本的向量表示输入到基于深度学习的命名实体识别模型,通过比较基于深度学习的命名实体识别模型的输出与步骤105获得的有效命名实体标注来不断优化基于深度学习的命名实体识别模型,从而得到目标命名实体识别模型。
在一个示例中,基于深度学习的命名实体识别模型可包括深度神经网络和条件随机域层(CRF层)。步骤107获得的训练文本集中的各训练文本的向量表示可输入到深度神经网络,深度神经网络的输出可输入到CRF层,通过比较CRF层的输出与步骤105获得的有效命名实体标注,来不断优化深度神经网络和CRF层。然而,这仅是示例性的,本发明构思不限于此,其他示例的基于深度学习的命名实体识别模型也是可行的。
图4是根据示例实施例的信息抽取方法的流程图。
参照图4,在步骤401中,可通过利用参照图1所描述的训练方法,得到目标命名实体识别模型。
在步骤403中,获得目标文本的向量表示。在此,获得目标文本的向量表示的方法与图1中的步骤107获得训练文本集中的各训练文本的向量表示的方法类似,为了简明,省略重复的描述。
在步骤405中,将步骤403中获得的目标文本的向量表示输入到步骤401中获得的目标命名实体识别模型,得到目标文本中的命名实体。
在步骤407中,可基于所得到的命名实体输出从目标文本中抽取的信息。
图5是根据示例实施例的命名实体识别模型的训练设备500的示图。
参照图5,训练设备500可包括匹配单元501、标注单元503、获取单元505、训练单元507。
匹配单元501可被配置为:对于具有半标注信息的训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配。
根据示例实施例,匹配单元501还可被配置为:基于半标注信息中的实体所属类型的一个或多个变体格式,从相应训练文本中搜索一个或多个变体格式,从而进行半标注信息中的实体与相应训练文本中的实体的匹配。根据示例实施例,实体所属类型的一个或多个变体格式从预设的正则查找库中获得。
如上所述,半标注信息中的实体所属类型可包括:百分数类型(例如,百分比小数)、日期类型、数值或金额类型、与名称相关的类型(例如,企业名或机构名、人名、地名等)等。
根据示例实施例,匹配单元501还可被配置为:当半标注信息中的实体为百分数类型时,基于百分数类型的一个或多个变体格式,从相应训练文本中搜索具有百分数类型的一个或多个变体格式的数据;将搜索到的数据与半标注信息中的实体进行比较,以确定是否匹配。
根据示例实施例,匹配单元501还可被配置为执行以下项中的至少一个:计算搜索到的数据与半标注信息中的实体之间的绝对差,如果绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的;对半标注信息中的实体进行不同位数的取整运算,如果搜索到的数据与取整运算获得的结果之间的绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的。
根据示例实施例,匹配单元501还可被配置为:当半标注信息中的实体为日期类型时,基于日期类型的一个或多个变体格式,从相应训练文本中搜索具有日期类型的一个或多个变体格式的数据。
根据示例实施例,匹配单元501还可被配置为:当半标注信息的实体为数值或金额类型时,基于数值或金额类型的一个或多个变体格式,从相应训练文本中搜索具有数值或金额类型的一个或多个变体格式的数据。
根据示例实施例,匹配单元501还可被配置为:当半标注信息中的实体为与名称相关的类型时,基于与名称相关的类型的一个或多个变体格式,从相应训练文本中搜索具有与名称相关的类型的一个或多个变体格式的数据。
在此,匹配单元501可执行参照图1所描述的步骤103的操作,为了简明将省略重复的描述。
标注单元503可被配置为:基于匹配结果,获得相应训练文本的有效命名实体标注。在此,标注单元503可执行参照图1所描述的步骤105的操作,为了简明将省略重复的描述。
获取单元505可被配置为:获得训练文本集中的各训练文本的向量表示。根据示例实施例,获取单元505还可被配置为:将训练文本按字粒度进行切分,利用字向量模型获得每个字的分布式表征;或者将训练文本进行分词处理,利用词向量模型获得训练文本的词向量表示。根据示例实施例,字向量模型或词向量模型可基于训练文本集中的各训练文本的语料库或者通用的语料库来获得。在此,获取单元505可执行参照图1所描述的步骤107的操作,为了简明将省略重复的描述。
训练单元507可被配置为:基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。根据示例实施例,基于深度学习的命名实体识别模型可包括深度神经网络和条件随机域层。在此,训练单元507可执行参照图1所描述的步骤109的操作,为了简明将省略重复的描述。
根据本发明构思的示例实施例,训练设备500的上述结构仅是示例性的,训练设备500可包括更多或更少的单元,例如,训练设备500还可包括输入单元(未示出),以接收或获取具有半标注信息的训练文本集。
图6是根据示例实施例的信息抽取设备600的示图。
参照图6,信息抽取设备600可包括模型获取单元601以及信息抽取单元603。
模型获取单元601可被配置为:利用如图5所述的训练设备500,得到目标命名实体识别模型。
信息抽取单元603可被配置为:获得目标文本的向量表示;将目标文本的向量表示输入到所述目标命名实体识别模型,得到所述目标文本中的命名实体;基于所得到的命名实体输出从所述目标文本中抽取的信息。在此信息抽取单元603可执行参照图4所描述的步骤403至步骤407的操作,为了简明将省略重复的描述。
本发明构思所提出的命名实体识别模型的训练方法及设备、信息抽取方法及设备提出了匹配方法(也可被称为“归一化方法”)和深度学习相结合的基于半标注信息的信息抽取的方法,在标注的数据量较少的情况下有效地实现信息抽取。此外,本发明构思所提出的命名实体识别模型的训练方法及设备、信息抽取方法及设备泛用性更强,能够仅通过新实体标签即可适用于不同的场景。此外,由于通过匹配方法获得准确的实体标签,因此能够获得置信度较高的信息抽取结果。
根据本发明构思的示例实施例,图1和图4描述的方法的各个步骤以及图5和图6的描述的各个单元及其操作可被编写为程序或软件。可基于附图中示出的框图和流程图以及说明书中的对应描述,使用任何编程语言来编写程序或软件。在一个示例中,程序或软件可包括被一个或多个处理器或计算机直接执行的机器代码,诸如,由编译器产生的机器代码。在另一个示例中,程序或软件包括被一个或多个处理器或计算机使用解释器执行的更高级代码。程序或软件可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中。在一个示例中,程序或软件或一个或多个非暂时性计算机可读存储介质可被分布在计算机系统上。换言之,本发明还提供一种计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行图1和图4所描述的方法的程序指令。
根据本发明构思的示例实施例,图1和图4描述的方法的各个步骤以及图5和图6的描述的各个单元及其操作可被实现在包括处理器和存储器的计算装置上。存储器存储有用于控制处理器实现如上所述的各个单元的操作的程序指令。换言之,本发明还提供一种计算装置。该计算装置可包括:处理器以及存储器。该存储器可存储有当被处理器执行时使得处理器执行图1和图4所描述的方法的程序指令。
虽然上面参照图1至图6已经详细描述了本发明的特定示例实施例,但是在不脱离本发明构思的精神和范围的情况下,可以以各种形式对本发明进行修改。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、或装置中的组件以不同的方式组合,和/或被其他组件或它们的等同物代替或补充,则可实现合适的结果。因此,本公开的范围不是通过具体实施方式所限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在本公开中。
Claims (10)
1.一种命名实体识别模型的训练方法,其特征在于,包括:
获取具有半标注信息的训练文本集;
对于所述训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;
基于匹配结果,获得相应训练文本的有效命名实体标注;
获得训练文本集中的各训练文本的向量表示;
基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
2.如权利要求1所述的训练方法,其特征在于,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤包括:
基于半标注信息中的实体所属类型的一个或多个变体格式,从相应训练文本中搜索所述一个或多个变体格式,从而进行半标注信息中的实体与相应训练文本中的实体的匹配。
3.如权利要求2所述的训练方法,其特征在于,所述实体所属类型的一个或多个变体格式从预设的正则查找库中获得。
4.如权利要求2所述的训练方法,其特征在于,所述将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配的步骤还包括:
当半标注信息中的实体为百分数类型时,基于百分数类型的一个或多个变体格式,从相应训练文本中搜索具有所述百分数类型的一个或多个变体格式的数据;
将搜索到的数据与半标注信息中的实体进行比较,以确定是否匹配。
5.如权利要求4所述的训练方法,其特征在于,所述将搜索到的数据与半标注信息中的实体进行比较以确定是否匹配的步骤包括以下项中的至少一个:
计算搜索到的数据与半标注信息中的实体之间的绝对差,如果所述绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的;
对半标注信息中的实体进行不同位数的取整运算,如果搜索到的数据与取整运算获得的结果之间的绝对差小于预设阈值时,则确定搜索到的数据与半标注信息中的实体之间是匹配的。
6.一种信息抽取方法,其特征在于,包括:
利用如权利要求1-5任一项所述的训练方法,得到目标命名实体识别模型;
获得目标文本的向量表示;
将目标文本的向量表示输入到所述目标命名实体识别模型,得到所述目标文本中的命名实体;
基于所得到的命名实体输出从所述目标文本中抽取的信息。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有当被处理器执行时使得处理器执行权利要求1至6中的任一项所述的方法的程序指令。
8.一种计算装置,其特征在于,包括:
处理器;
存储器,存储有当被处理器执行时使得处理器执行权利要求1至6中的任一项所述的方法的程序指令。
9.一种命名实体识别模型的训练设备,其特征在于,包括:
匹配单元,被配置为:对于具有半标注信息的训练文本集中的各训练文本,将训练文本的半标注信息中的实体与相应训练文本中的实体进行匹配;
标注单元,被配置为:基于匹配结果,获得相应训练文本的有效命名实体标注;
获取单元,被配置为:获得训练文本集中的各训练文本的向量表示;
训练单元,被配置为:基于训练文本集中的各训练文本的向量表示及有效命名实体标注,训练基于深度学习的命名实体识别模型,得到目标命名实体识别模型。
10.一种信息抽取设备,其特征在于,包括:
模型获取单元,被配置为:利用如权利要求9所述的训练设备,得到目标命名实体识别模型;
信息抽取单元,被配置为:获得目标文本的向量表示;将目标文本的向量表示输入到所述目标命名实体识别模型,得到所述目标文本中的命名实体;基于所得到的命名实体输出从所述目标文本中抽取的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910402380.4A CN110134959B (zh) | 2019-05-15 | 2019-05-15 | 命名实体识别模型训练方法及设备、信息抽取方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910402380.4A CN110134959B (zh) | 2019-05-15 | 2019-05-15 | 命名实体识别模型训练方法及设备、信息抽取方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134959A true CN110134959A (zh) | 2019-08-16 |
CN110134959B CN110134959B (zh) | 2023-10-20 |
Family
ID=67574105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910402380.4A Active CN110134959B (zh) | 2019-05-15 | 2019-05-15 | 命名实体识别模型训练方法及设备、信息抽取方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134959B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110837727A (zh) * | 2019-10-23 | 2020-02-25 | 深圳价值在线信息科技股份有限公司 | 一种文档模板生成方法、装置、终端设备及介质 |
CN111259134A (zh) * | 2020-01-19 | 2020-06-09 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
CN111859937A (zh) * | 2020-07-20 | 2020-10-30 | 上海汽车集团股份有限公司 | 一种实体识别方法及装置 |
CN112183096A (zh) * | 2020-08-21 | 2021-01-05 | 南京中新赛克科技有限责任公司 | 基于无监督模型与状态感知机的命名实体抽取系统及方法 |
CN113591464A (zh) * | 2021-07-28 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295292A (zh) * | 2007-04-23 | 2008-10-29 | 北大方正集团有限公司 | 一种基于最大熵模型建模和命名实体识别的方法及装置 |
CN101770453A (zh) * | 2008-12-31 | 2010-07-07 | 华建机器翻译有限公司 | 基于领域本体结合机器学习模型的汉语文本共指消解方法 |
CN108228564A (zh) * | 2018-01-04 | 2018-06-29 | 苏州大学 | 在众包数据上进行对抗学习的命名实体识别方法 |
US20180189265A1 (en) * | 2015-06-26 | 2018-07-05 | Microsoft Technology Licensing, Llc | Learning entity and word embeddings for entity disambiguation |
CN109145095A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 地名信息匹配方法、信息匹配方法、装置及计算机设备 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
US20190103091A1 (en) * | 2017-09-29 | 2019-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and apparatus for training text normalization model, method and apparatus for text normalization |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN109726397A (zh) * | 2018-12-27 | 2019-05-07 | 网易(杭州)网络有限公司 | 中文命名实体的标注方法、装置、存储介质和电子设备 |
-
2019
- 2019-05-15 CN CN201910402380.4A patent/CN110134959B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295292A (zh) * | 2007-04-23 | 2008-10-29 | 北大方正集团有限公司 | 一种基于最大熵模型建模和命名实体识别的方法及装置 |
CN101770453A (zh) * | 2008-12-31 | 2010-07-07 | 华建机器翻译有限公司 | 基于领域本体结合机器学习模型的汉语文本共指消解方法 |
US20180189265A1 (en) * | 2015-06-26 | 2018-07-05 | Microsoft Technology Licensing, Llc | Learning entity and word embeddings for entity disambiguation |
CN109145095A (zh) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | 地名信息匹配方法、信息匹配方法、装置及计算机设备 |
US20190103091A1 (en) * | 2017-09-29 | 2019-04-04 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and apparatus for training text normalization model, method and apparatus for text normalization |
CN108228564A (zh) * | 2018-01-04 | 2018-06-29 | 苏州大学 | 在众包数据上进行对抗学习的命名实体识别方法 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN109726397A (zh) * | 2018-12-27 | 2019-05-07 | 网易(杭州)网络有限公司 | 中文命名实体的标注方法、装置、存储介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
刘晓娟等: "基于关联数据的命名实体识别", 《情报学报》, vol. 38, no. 2, pages 191 - 200 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110717049B (zh) * | 2019-08-29 | 2020-12-04 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110837727A (zh) * | 2019-10-23 | 2020-02-25 | 深圳价值在线信息科技股份有限公司 | 一种文档模板生成方法、装置、终端设备及介质 |
CN110837727B (zh) * | 2019-10-23 | 2023-12-01 | 深圳价值在线信息科技股份有限公司 | 一种文档模板生成方法、装置、终端设备及介质 |
CN111259134A (zh) * | 2020-01-19 | 2020-06-09 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
CN111259134B (zh) * | 2020-01-19 | 2023-08-08 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
CN111859937A (zh) * | 2020-07-20 | 2020-10-30 | 上海汽车集团股份有限公司 | 一种实体识别方法及装置 |
CN112183096A (zh) * | 2020-08-21 | 2021-01-05 | 南京中新赛克科技有限责任公司 | 基于无监督模型与状态感知机的命名实体抽取系统及方法 |
CN113591464A (zh) * | 2021-07-28 | 2021-11-02 | 百度在线网络技术(北京)有限公司 | 变体文本检测方法、模型训练方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110134959B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134959A (zh) | 命名实体识别模型训练方法及设备、信息抽取方法及设备 | |
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
Sommerschield et al. | Machine learning for ancient languages: A survey | |
Curtotti et al. | Corpus based classification of text in Australian contracts | |
US11741318B2 (en) | Open information extraction from low resource languages | |
US11238410B1 (en) | Methods and systems for merging outputs of candidate and job-matching artificial intelligence engines executing machine learning-based models | |
US12001797B2 (en) | System and method of automatic topic detection in text | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN111091002A (zh) | 一种中文命名实体的识别方法 | |
CN115063119A (zh) | 基于招聘行为数据的自适应性的招聘决策系统及方法 | |
Pimpalkar et al. | Job Applications Selection and Identification: Study of Resumes with Natural Language Processing and Machine Learning | |
CN115099310A (zh) | 训练模型、对企业进行行业分类的方法和装置 | |
CN110287495A (zh) | 一种电力营销专业词识别方法及系统 | |
Rizinski et al. | Sentiment Analysis in Finance: From Transformers Back to eXplainable Lexicons (XLex) | |
Shatalov et al. | Named entity recognition problem for long entities in english texts | |
US11379435B2 (en) | System and method for automated document generation | |
Paparrigopoulou et al. | Greek Literary Papyri Dating Benchmark | |
Khan et al. | Analysis of Cursive Text Recognition Systems: A Systematic Literature Review | |
CN110717029A (zh) | 一种信息处理方法和系统 | |
Thiele et al. | Terminology based visualization of interfaces in interdisciplinary research networks | |
Chauhan | NEU at WNUT-2020 task 2: Data augmentation to tell BERT that death is not necessarily informative | |
Daudert et al. | CoSACT: A collaborative tool for fine-grained sentiment annotation and consolidation of text | |
Bouhoun et al. | Information Retrieval Using Domain Adapted Language Models: Application to Resume Documents for HR Recruitment Assistance | |
Wu et al. | Automatic semantic knowledge extraction from electronic forms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment | ||
TG01 | Patent term adjustment |