CN111611775B - 一种实体识别模型生成方法、实体识别方法及装置、设备 - Google Patents

一种实体识别模型生成方法、实体识别方法及装置、设备 Download PDF

Info

Publication number
CN111611775B
CN111611775B CN202010407453.1A CN202010407453A CN111611775B CN 111611775 B CN111611775 B CN 111611775B CN 202010407453 A CN202010407453 A CN 202010407453A CN 111611775 B CN111611775 B CN 111611775B
Authority
CN
China
Prior art keywords
text
word
character
training
approximate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010407453.1A
Other languages
English (en)
Other versions
CN111611775A (zh
Inventor
杨贺羽
李晓东
付博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Neusoft Xikang Medical Systems Co ltd
Original Assignee
Shenyang Neusoft Xikang Medical Systems Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Neusoft Xikang Medical Systems Co ltd filed Critical Shenyang Neusoft Xikang Medical Systems Co ltd
Priority to CN202010407453.1A priority Critical patent/CN111611775B/zh
Publication of CN111611775A publication Critical patent/CN111611775A/zh
Application granted granted Critical
Publication of CN111611775B publication Critical patent/CN111611775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种实体识别模型生成方法、装置及设备以及一种实体识别方法、装置及设备,包括:利用标准文本数据训练得到分词与词向量的映射模型;对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。

Description

一种实体识别模型生成方法、实体识别方法及装置、设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种实体识别模型生成方法、装置及设备,一种实体识别方法、装置及设备。
背景技术
在利用命名实体识别技术构建实体识别模型的过程中,通常是采用有监督的模型训练方法,通过大量具有标签的训练数据进行训练,得到相应的实体识别模型。其中,训练数据的数量对于训练得到的实体识别模型的性能具有重要的影响。
但是,在一些领域中,较难大量获取具有标签的训练数据,当训练数据较少,在数量上不能满足实体识别模型训练的需要时,会导致训练得到的实体识别模型的性能不佳,对待识别文本进行识别得到的实体识别结果不够准确。
发明内容
有鉴于此,本申请实施例提供一种实体识别模型生成方法、装置及设备,一种实体识别方法、装置及设备,能够在原有训练数据较少的情况下扩充训练数据,能够较为准确的识别实体以及实体类别。
为解决上述问题,本申请实施例提供的技术方案如下:
第一方面,提供一种实体识别模型生成方法,所述方法包括:
利用标准文本数据训练得到分词与词向量的映射模型;
对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;
通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;
获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;
利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。
在第一方面的第一种可能的实现方式中,所述通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句,包括:
将所述第一分词输入所述分词与词向量的映射模型,得到所述第一分词的词向量;
通过所述分词与词向量的映射模型查找与所述第一分词的词向量在相似度上满足预设条件的词向量作为第一近似词向量,将所述第一近似词向量对应的分词确定为所述第一分词对应的近似词;
将所述第一训练文本中的第一分词替换为该第一分词对应的近似词,生成所述第一训练文本对应的近似句。
在第一方面的第二种可能的实现方式中,所述获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示,包括:
利用所述第一训练文本训练字向量模型;
将所述第一训练文本输入所述字向量模型,得到所述第一训练文本中各个字符的字向量作为所述第一训练文本中各个字符的特征表示;
将所述第一训练文本对应的近似句输入所述字向量模型,得到所述第一训练文本对应的近似句中各个字符的字向量作为所述第一训练文本对应的近似句中各个字符的特征表示。
在第一方面的第三种可能的实现方式中,所述获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示,包括:
确定所述第一训练文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
将所述第一训练文本中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本中各个字符的特征表示;
确定所述第一训练文本对应的近似句中各个字符的分词特征向量;
将所述第一训练文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本对应的近似句中各个字符的特征表示。
在第一方面的第四种可能的实现方式中,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:
将所述第一训练文本中各个字符的实体类别标签、字符序列标签添加为所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签;
将所述第一训练文本中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第一训练数据;
所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签作为第二训练数据;
利用所述第一训练数据以及所述第二训练数据,共同训练生成实体识别模型。
在第一方面的第五种可能的实现方式中,所述实体识别模型由双向长短期记忆网络Bi-LSTM层、全连接层以及条件随机场CRF层组成;
或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
在第一方面的第六种可能的实现方式中,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:
将所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据;
利用所述第三训练数据,以最小化目标函数为训练目标训练生成实体识别模型,所述目标函数为各个目标训练数据对应的组合函数之和取负,所述目标训练数据分别为所述第三训练数据中的每一条;
所述组合函数为似然函数与正则项之差;所述似然函数由所述目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到;所述正则项表征所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和;所述标签组合由所述实体类别标签、所述字符序列标签进行组合后生成;
所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本中各个字符的特征表示输入所述实体识别模型得到,所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入所述实体识别模型得到。
在第一方面的第七种可能的实现方式中,所述实体识别模型由Bi-LSTM层、全连接层以及CRF层组成;
或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
第二方面,提供一种实体识别方法,所述方法包括:
获取待识别文本中各个字符的特征表示;
将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述第一方面、第一方面的第一种至第五种可能的实现方式中的任一种所述的实体识别模型生成方法生成的;
根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
在第二方面的第一种可能的实现方式中,所述获取待识别文本中各个字符的特征表示,包括:
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量作为所述待识别文本中各个字符的特征表示;所述字向量模型是利用第一训练文本训练得到的;
或者,
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量;所述字向量模型是利用第一训练文本训练得到的;
确定所述待识别文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
将所述待识别文本中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本中各个字符的特征表示。
第三方面,提供一种实体识别方法,所述方法包括:
对待识别文本进行分词,得到所述待识别文本包括的第二分词;
通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句;所述分词与词向量的映射模型是利用标准文本数据训练得到的;
获取所述待识别文本中各个字符的特征表示以及所述待识别训练文本对应的近似句中各个字符的特征表示;
将所述待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述第一方面的第六种或者第七种可能的实现方式所述的实体识别模型生成方法生成的;
根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
在第三方面的第一种可能的实现方式中,所述通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句,包括:
将所述第二分词输入所述分词与词向量的映射模型,得到所述第二分词的词向量;
通过所述分词与词向量的映射模型查找与所述第二分词的词向量在相似度上满足预设条件的词向量作为第二近似词向量,将所述第二近似词向量对应的分词确定为所述第二分词对应的近似词;
将所述待识别文本中的第二分词替换为该第二分词对应的近似词,生成所述待识别文本对应的近似句。
在第三方面的第二种可能的实现方式中,所述获取所述待识别文本中各个字符的特征表示以及所述待识别训练文本对应的近似句中各个字符的特征表示,包括:
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量作为所述待识别文本中各个字符的特征表示;所述字向量模型是利用第一训练文本训练得到的;
将所述待识别文本对应的近似句输入所述字向量模型,得到所述待识别文本对应的近似句中各个字符的字向量作为所述待识别文本对应的近似句中各个字符的特征表示;
或者,
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量;所述字向量模型是利用第一训练文本训练得到的;
确定所述待识别文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
将所述待识别文本中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本中各个字符的特征表示;
将所述待识别文本对应的近似句输入所述字向量模型,得到所述待识别文本对应的近似句中各个字符的字向量;
确定所述待识别文本对应的近似句中各个字符的分词特征向量;
将所述待识别文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本对应的近似句中各个字符的特征表示。
第四方面,提供一种实体识别模型生成装置,所述装置包括:
映射模型生成单元,用于利用标准文本数据训练得到分词与词向量的映射模型;
第一分词生成单元,用于对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;
第一近似句生成单元,用于通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;
第一特征表示获取单元,用于获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;
实体识别模型生成单元,用于利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。
第五方面,提供一种实体识别装置,所述装置包括:
第二特征表示获取单元,用于获取待识别文本中各个字符的特征表示;
第一标签生成单元,用于将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述第一方面、第一方面的第一种至第五种可能的实现方式中的任一种所述的实体识别模型生成方法生成的;
第一实体识别单元,用于根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
第六方面,提供一种实体识别装置,所述装置包括:
第二分词生成单元,用于对待识别文本进行分词,得到所述待识别文本包括的第二分词;
第二近似句生成单元,用于通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句;所述分词与词向量的映射模型是利用标准文本数据训练得到的;
第三特征表示获取单元,用于获取所述待识别文本中各个字符的特征表示以及所述待识别训练文本对应的近似句中各个字符的特征表示;
第二标签生成单元,用于将所述待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述第一方面的第六种或者第七种可能的实现方式所述的实体识别模型生成方法生成的;
第二实体识别单元,用于根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
第七方面,提供一种实体识别模型生成设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第一方面任一种可能的实现方式所述的实体识别模型生成方法。
第八方面,提供一种实体识别设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第二方面任一种可能的实现方式所述的实体识别方法、或者上述第三方面任一种可能的实现方式所述的实体识别方法。
第九方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述第一方面任一种可能的实现方式所述的实体识别模型生成方法、或者上述第二方面任一种可能的实现方式所述的实体识别方法、或者上述第三方面任一种可能的实现方式所述的实体识别方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的实体识别模型生成方法中,首先对第一训练文本进行分词,得到第一分词,通过由标准文本数据训练得到分词与词向量的映射模型得到第一分词的近似词,根据第一分词的近似词生成第一训练文本对应的近似句,获取第一训练文本中各个字符以及第一训练文本对应的近似句中的各个字符的特征表示,利用第一训练文本中各个字符的特征表示、实体类别标签和字符序列标签以及第一训练文本对应的近似句中各个字符的特征表示训练生成实体识别模型。
由于第一训练文本对应的近似句是通过第一训练文本得到的,可以实现在原有第一训练文本的基础上,通过得到第一训练文本对应的近似句来增加训练数据的数量,使得在原有的训练数据较少的情况下通过获取近似句来进一步增加训练数据的数量,提高训练得到的实体识别模型的性能。并且由于分词与词向量的映射模型是由标准文本数据训练得到的,标准文本数据相较于第一训练数据所覆盖的数据范围更广、种类更多,所以通过分词与词向量的映射模型得到的第一训练文本对应的近似句覆盖的范围更广,近似句的种类更多。这使得用于训练实体识别模型的训练数据在种类和范围上得到了扩展,得到的实体识别模型性能更优。
附图说明
图1为本申请实施例提供的实体类别标签示意图;
图2为本申请实施例提供的一种实体识别模型生成方法的流程图;
图3为本申请实施例提供的一种生成第一训练文本对应的近似句的方法的流程图;
图4为本申请实施例提供的一种通过分词与词向量的映射模型生成第一训练文本对应的近似句的方法的流程图;
图5为本申请实施例提供的一种实体识别模型训练方法的示意图;
图6为本申请实施例提供的一种实体识别方法的流程图;
图7为本申请实施例提供的一种实体识别方法的示意图;
图8为本申请实施例提供的另一种实体识别方法的流程图;
图9为本申请实施例提供的另一种实体识别方法的应用场景示意图;
图10为本申请实施例提供的一种实体识别模型生成装置的结构示意图;
图11为本申请实施例提供的一种实体识别装置的结构示意图;
图12为本申请实施例提供的另一种实体识别装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
发明人对传统的实体识别模型的研究中发现,传统的实体识别模型是采用有监督的模型训练方法进行训练的,通过使用具有标签标记的训练数据进行训练得到实体识别模型。其中,训练数据的数量会影响到实体识别模型的性能,但是,在一些领域中,较难大量获取具有标签的训练数据,当训练数据的数量较少时,会导致实体识别模型学习到的特征不足,使得实体识别模型的识别结果不够准确。
例如,在信息安全领域中,需要构建对于恶意信息的实体识别模型,以便从信息中识别恶意信息实体。现有的恶意信息数据的数量较少,并且恶意信息数据本身不易察觉、难以获取,导致可以作为训练数据的恶意信息数据较少,根据现有的训练数据训练得到的实体识别模型难以较为准确的进行恶意信息实体的识别
在医疗领域中,需要构建对于电子病历的实体识别模型。作为示例,如图1所示,当电子病历数据的文本数据为“上腹剧痛伴随着头晕”时,先对文本数据进行实体标记,将“上腹”标记为“身体部位”标签,将“剧痛”和“头晕”分别标记为“症状”标签,将标记好的文本数据作为训练数据用于实体识别模型的训练。通过大量的训练数据,可以构建针对电子病历的实体识别模型。
但是,对于传统的电子病历的实体识别模型,构建所使用的训练数据存在着数量较少的问题。训练数据是根据公开的电子病历数据进行标签标记得到的,由于电子病历数据中包含了患者的个人隐私信息,这使得具有电子病历数据的组织以及机构考虑到患者的个人隐私问题,不会公开以及共享电子病历数据,导致可以用于作为训练数据的电子病历较少。并且,由于电子病历数据中涉及到多种症状、疾病名称、药物种类等,标注工作需要具有医学知识的专业人员完成,这使得具有专业的标注的训练数据较少,难以满足电子病历的实体识别模型训练的需要。
基于此,本申请实施例提供了一种实体识别模型生成方法,该方法包括:首先,利用标准文本数据训练得到分词与词向量的映射模型;其次,对第一训练文本进行分词,得到第一训练文本包括的第一分词,通过分词与词向量的映射模型确定第一分词的近似词,由第一分词的近似词生成第一训练文本对应的近似句;再次,获取第一训练文本中各个字符的特征表示以及第一训练文本对应的近似句中各个字符的特征表示;最后,利用第一训练文本中各个字符的特征表示、第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。由此可以通过生成的近似句来增加训练数据的数量,提高了生成的实体识别模型的性能。
为了便于理解本申请,下面结合附图对本申请实施例提供的一种实体识别模型生成方法进行说明。
参见图2所示,该图为本申请实施例提供的一种实体识别模型生成方法的流程图,该方法包括步骤S201-S205:
S201:利用标准文本数据训练得到分词与词向量的映射模型。
需要说明的是,标准文本数据可以是与需要识别的实体相关领域的专业的文本数据,可以通过对相关领域中的文献或者是书籍中的文本数据处理得到。例如,在当需要训练的实体识别模型为针对电子病历的实体识别模型时,标准文本数据可以是与医学相关的文本数据,可以通过从相关医学文献以及医学书籍中获取的文本数据处理得到。本申请实施例中不限定获取文本数据的方法,例如,可以从网络中的与该领域相关的数据库中获取文本数据。
在一种可能的实现方式中,可以通过将获取到的文本数据先进行预处理,再对处理后的文本数据进行分词,得到分词结果,最后将分词结果中的停用词进行删除处理,得到标准文本数据。
在进行分词之前,可以对文本数据进行预处理,以便后续进行分词,对文本数据进行预处理可以包括以下三个步骤:
第一步:统一文本数据中字符的全半角格式,将全部的字符格式调整为全角或者半角;
第二步:去除文本数据中的超文本标记语言标记标签等噪音字符;
第三步:将与时间相关的字符统一使用一个文本数据中未出现的字符进行表示。
对处理后的文本数据进一步进行分词处理,本申请实施例中不限定分词处理所使用的工具,例如可以使用jieba分词组件进行分词,得到分词结果。
将分词结果中的停用词,也就是语句中的功能词或者是没有实际含义的词,进行删除,得到标准文本数据。其中,停用词主要包括英文字符、数字、数学字符、标点符号以及使用频率较高的单汉字等。
本申请实施例中,可以采用word2vec工具对标准文本数据进行训练,得到分词与词向量的映射模型,其中,分词与词向量的映射模型可以根据输入的分词,输出该分词对应的词向量。根据分词与词向量的映射模型输入的分词以及对应的输出的词向量可以得到词向量映射表,用于查找分词对应的词向量。通过分词与词向量的映射模型可以得到分词对应的近似词,根据近似词可以得到近似句,由此可以实现对于训练数据在数量上的扩充。当采用大量的标准文本数据训练分词与词向量的映射模型时,得到的分词与词向量的映射模型中具有的分词和词向量的映射关系较多,可以得到更为丰富的近似句,可以进一步提高训练数据的数量。
S202:对第一训练文本进行分词,得到第一训练文本包括的第一分词。
第一训练文本可以为具有标签标记的可以用于实体识别模型训练的文本数据,通过对第一训练文本进行分词,可以得到第一训练文本中包括的第一分词,其中,第一分词是指对第一训练文本进行分词处理后得到的分词。对第一训练文本进行分词,是便于通过确定第一分词的近似词来生成第一训练文本对应的近似句。
在进行分词之前,可以对第一训练文本进行预处理。预处理可以与上述S201中对文本数据进行预处理的方法相同,包括统一字符的全半角格式、去除噪音字符以及替换时间相关的字符。
本申请实施例中不限定分词的方法,可以通过分词工具进行分词,得到第一分词。以“上腹剧痛”为例,当第一训练文本中具有“上腹剧痛”时,通过对第一训练文本进行分词,得到的第一分词中具有“上腹”和“剧痛”两个分词。
S203:通过分词与词向量的映射模型确定第一分词的近似词,由第一分词的近似词生成第一训练文本对应的近似句。
需要说明的是,可以通过将第一分词输入分词与词向量的映射模型中,通过得到的第一分词的词向量找寻第一分词的近似词。第一分词的近似词可以是与第一分词含义相同,或者是词汇范围相同的词。以“上腹”为例,“上腹”对应的近似词可以为“下腹”或者是“腹部”等描述相同或者是近似的身体部位的分词。
由于标准文本数据中具有数量较多、种类丰富的分词,所以训练得到的分词与词向量的映射模型中具有数目较多、范围较广的分词以及各个分词与对应的词向量的映射关系,通过分词与词向量的映射模型可以从较大的词汇范围中确定第一分词的近似词,得到的第一分词的近似词可以扩展第一分词的含义。另外,本申请实施例中不限定第一分词的近似词的数量,第一分词的近似词可以为一个或者是多个。
通过得到的第一分词的近似词,可以对第一分词进行相应的替换得到第一训练文本的近似句。第一训练文本对应的近似句为与第一训练文本句子含义相同或者相近的句子。第一训练文本对应的近似句和第一训练文本的语义相近,可以作为训练数据,对实体识别模型进行训练,由此可以实现对训练数据进行数量上的扩充。仍以“上腹剧痛”为例,若第一分词中“上腹”和“剧痛”对应的近似词分别为“腹部”和“疼痛”,得到的“上腹剧痛”对应的近似句可以为“腹部疼痛”。“腹部疼痛”与“上腹剧痛”在语义上近似,可以作为训练数据对实体识别模型进行训练,可以起到扩充训练数据的数量的作用。
需要说明的是,可以通过第一分词的词向量来确定第一分词的近似词,并通过对第一分词进行替换得到第一训练文本的近似句,对应的具体实施方式请参见下文。
S204:获取第一训练文本中各个字符的特征表示以及第一训练文本对应的近似句中各个字符的特征表示。
可以理解的是,由于实体是由字符组成的,在进行实体识别时,是对于字符进行识别判断的,所以在进行实体识别模型训练时,提取字符的特征表示作为实体识别模型的训练数据。第一训练文本对应的近似句中的字符与第一训练文本中的字符可能不相同,在对应的句子中的作用也可能不相同,获取第一训练文本中各个字符的特征表示以及第一训练文本对应的近似句中各个字符的特征表示,以便进行实体识别模型的训练。
需要说明的是,字符的特征表示可以为字符的字向量或者是字符的字向量和分词特征向量拼接得到的向量,对应的具体实施方式请参见下文。
S205:利用第一训练文本中各个字符的特征表示、第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。
第一训练文本是用于作为训练数据的训练文本,第一训练文本中的各个字符具有对应的实体类别标签和字符序列标签。实体类别标签是用于表示该字符所属实体的类别,字符序列标签是用于表示该字符是否属于实体以及在实体中所处的位置。
通过第一训练文本中各个字符的特征表示、第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签生成实体识别模型,可以在原有第一训练文本的基础上增加第一训练文本对应的近似句作为训练数据,增加了训练数据的数量。
本申请实施例中,不限定字符的实体类别标签以及字符序列标签的标记方法,可以采用现有的命名实体识别的实体标注方法进行标注。例如,实体类别标签可以分为“身体部位(body)”,“疾病名称(dise)”,“症状(symp)”,“治疗(cure)”,“检查(chec)”,“药品名称(drug)”。对于字符序列标签可以采用BIOES或者BIO标记方式进行标记。以BIOES标记方式为例,B为实体的开头,I为实体的中间,E为实体的最后,S为单个字符表示的实体,O为其他非实体字符。
仍以“上腹剧痛”为例,其中,“上腹”对应的实体类别可以为“身体部位(body)”,“剧痛”对应的实体类别可以为“症状(symp)”,对“上腹剧痛”进行各个字符的实体类别标签以及字符序列标签的标记,得到的各个字符对应的实体类别标签和字符序列标签分别为“B-body”,“E-body”,“B-symp”和“E-symp”。
另外,本申请实施例还提供了两种生成实体识别模型的实施方式,具体实施方式请参见下文。
基于上述S201至S205的内容可知,在本申请实施例提供的实体识别模型生成方法中,先利用标准文本数据训练得到分词与词向量的映射模型,对第一训练文本进行分词,得到第一分词,通过分词与词向量的映射模型,得到第一分词的近似词,并由得到的第一分词的近似词对第一训练文本中的第一分词进行替换,得到第一训练文本对应的近似句。将第一训练文本对应的近似句作为训练数据之一,训练得到实体识别模型,通过获取第一训练模型对应的近似句,可以增加训练数据的数量。并且由于分词与词向量的映射模型是由标准文本数据训练得到的,所以通过分词与词向量的映射模型得到的第一训练文本对应的近似句一方面可以覆盖更为广泛的训练数据的范围,另一方面可以生成多样的表述方式,实现了训练数据的多样性。这使得用于训练实体识别模型的训练数据在数量、种类和范围上得到了扩展,得到的实体识别模型性能更优。此外,通过生成第一训练文本对应的近似句还可以实现对第一训练数据进行错字纠正,使得训练得到的实体识别模型对于实体以及实体类别识别的准确度较高。
对于上述S203中确定第一分词的近似词和通过第一分词的近似词生成第一训练文本对应的近似句的方法,在一种可能的实施方式中,可以通过分词与词向量的映射模型先确定第一分词的词向量,根据第一分词的词向量确定第一分词的近似词,再确定第一训练文本的近似句,参见图3所示,该图为本申请实施例提供的一种通过分词与词向量的映射模型生成第一训练文本对应的近似句的方法的流程图,具体可以包括步骤S2031-S2033。
S2031:将第一分词输入分词与词向量的映射模型中,得到第一分词的词向量。
由上述S201可知,分词与词向量的映射模型可以通过输入的分词得到该分词对应的词向量,将第一分词输入到分词与词向量的映射模型中,可以得到与第一分词对应的词向量。
S2032:通过分词与词向量的映射模型查找与第一分词的词向量在相似度上满足预设条件的词向量作为第一近似词向量,将第一近似词向量对应的分词确定为第一分词对应的近似词。
可以通过得到的第一分词的词向量查找与第一分词的词向量具有相似度的词向量作为第一近似词向量。其中,对于两个词向量E1=[e11,e12,e13,……,e1n]和E2=[e21,e22,e23,……,e2n],词向量相似度的计算公式为:
/>
其中,i<n,n为词向量的维度。
由于分词与词向量的映射模型可以生成具有分词与词向量对应的词向量映射表,所以,可以通过确定的第一分词的词向量计算与其他词向量的相似度,将相似度满足预设条件的词向量作为第一近似词向量,将第一近似词向量对应的分词作为第一分词对应的近似词。第一分词的近似词为与第一分词长度相等的分词。其中,预设条件可以为相似度大于等于预设的相似度阈值,在一种可能的实施方式中,相似度阈值可以等于最高的相似度数值。
另外,当分词与词向量的映射模型查找到的词向量在与第一分词的相似度上不能满足预设条件时或分词与词向量的映射模型中不包含第一分词时,可以不确定该第一分词的近似词,在生成近似句时不对该第一分词进行替换。
S2033:将第一训练文本中的第一分词替换为第一分词对应的近似词,生成第一训练文本对应的近似句。
将第一训练文本中的第一分词依次替换成该分词对应的近似词,可以得到第一训练文本对应的近似句。在本申请实施例中,第一训练文本对应的近似句可以为一个或者是多个。当第一分词的近似词是相似度最高的近似词时,第一训练文本的近似句为一个;当第一分词的近似词的相似度为大于相似度阈值时,第一分词对应的近似词可以为多个,相对应的第一训练文本的近似句可以为多个。
以“上腹剧痛”为例,“上腹剧痛”为第一训练文本中的一个句子,对“上腹剧痛”进行分词得到“上腹”和“剧痛”。通过分词与词向量的映射模型分别确定“上腹”和“剧痛”的词向量,并查找第一近似词向量,通过第一近似词向量确定“上腹”和“剧痛”的近似词。当预设条件是第一近似词向量为相似度最高的词向量时,“上腹”的近似词可以确定为“下腹”,“剧痛”的近似词可以确定为“疼痛”。对应的第一训练文本的近似句为“下腹疼痛”。当预设条件是第一近似词向量为相似度大于等于相似度阈值的词向量时,“上腹”的近似词可以确定为“下腹”或者是“腹部”等,“剧痛”的近似词可以确定为“疼痛”或者是“刺痛”等。对应的第一训练文本的近似句为“下腹疼痛”、“下腹刺痛”、“腹部疼痛”以及“腹部刺痛”。
本申请实施例通过第一分词的词向量确定第一近似词向量,通过第一近似词向量确定第一分词的近似词,并通过将第一分词进行替换,得到第一训练文本对应的近似句。通过确定第一近似词向量来确定第一分词的近似词,可以使得确定的第一分词的近似词与第一分词在语义上相同或者相似。通过将第一分词替换为第一分词的近似词,得到的第一训练文本对应的近似句在语义与结构上与第一训练文本更为接近,使得将第一训练文本对应的近似句作为训练数据之一进行实体识别模型的训练效果更佳。
在一种可能的实施方式中,还提供了一种通过第一训练文本的句子得到近似句的方法,参见图4所示,该图为本申请实施例提供的一种生成第一训练文本对应的近似句的方法的流程图,该方法包括步骤S401-S406。
S401:对第一训练文本中的句子Si进行分词,得到句子Si的分词集合Wi
其中,句子Si为第一训练文本中第i个句子,i<A,A为第一训练文本中句子的个数。
S402:判断分词集合Wi是否为空,若分词集合Wi为空,执行S406;若分词集合Wi不为空,执行S403。
Wi为第一训练文本中第i个句子分词后得到的分词集合。
S403:从分词集合Wi中提取分词wi,m,判断分词wi,m的长度是否大于1;若分词wi,m的长度大于1,执行S404;若分词wi,m的长度等于1,执行S405。
分词wi,m为第i个句子的分词集合中的第m个分词,其中m<B,B为第i个句子中分词的个数。
S404:通过分词与词向量的映射模型确定分词wi,m的近似词zi,m,将分词wi,m替换为近似词zi,m,若无法确定分词wi,m的近似词或者分词与词向量的映射模型中不包含分词wi,m,则分词wi,m保持不变。
需要说明的是,本申请实施例中的近似词zi,m为与分词wi,m相似度最高且长度相等的近似词。近似词zi,m为第i个句子的分词集合中的第m个分词对应的近似词。
S405:将分词wi,m从分词集合Wi放入近似词集合Zi中,返回S402。
近似词集合Zi为与第一训练文本中第i个句子的分词集合Wi对应的近似词集合。
S406:将近似词集合Zi中的分词wi,m按照在句子Si中的顺序组合成句,得到句子Si的近似句。
基于上述S401至S406的内容可知,本申请实施例提供的生成近似句的方法通过对分词集合是否为空进行判断,可以对第一训练文本中的第一分词依次进行近似词的确定以及替换,得到与第一训练文本中各个分词的顺序相对应的第一训练文本对应的近似句。该第一训练文本对应的近似句与第一训练文本的分词结构相同,便于作为训练数据对实体识别模型进行训练。
基于上述S204获取第一训练文本以及第一训练文本对应的近似句中各个字符的特征表示中的内容可知,字符的特征表示可以为字符的字向量或者是字符的字向量和分词特征向量拼接得到的向量,本申请实施例提供了一种各个字符的特征表示为各个字符的字向量(也就是S204)的具体实施方式,其具体包括以下三步:
第一步:利用第一训练文本训练字向量模型。
其中,第一训练文本可以为电子病历文本数据通过预处理得到的,对于电子病历文本数据进行预处理的方法可以与上述S201中对文本数据进行预处理的方法相同。通过wrod2vec工具训练第一训练文本,得到字向量模型,该字向量模型可以根据输入的字符输出对应该字符的字向量。
另外,在通过wrod2vec工具训练第一训练文本之前,需要对第一训练文本字符分割处理。字符分割处理可以为:将第一训练文本通过分隔符以字符为单位进行字符分割。也就是在每个字符之间插入分隔符用来分割字符,分隔符可以为空格或者是其他分隔符。
在进行字符分割处理之前,还可以删除第一训练文本中的停用词,这是由于停用词一般不具有实际含义,将停用词作为训练数据会影响到字向量模型的训练效果,所以在进行字符分割处理之前删除第一训练文本中的停用词,提高得到的字向量模型的性能。
第二步:将第一训练文本输入字向量模型,得到第一训练文本中各个字符的字向量作为第一训练文本中各个字符的特征表示。
将第一训练文本输入训练好的字向量模型中,可以得到字向量模型输出的第一训练文本中各个字符对应的字向量,将各个字符对应的字向量作为各个字符的特征表示。
第三步:将第一训练文本对应的近似句输入字向量模型,得到第一训练文本对应的近似句中各个字符的字向量作为第一训练文本对应的近似句中各个字符的特征表示。
将第一训练文本对应的近似句输入训练好的字向量模型中,得到字向量模型输出的近似句中各个字符对应的字向量,将各个字符的字向量作为近似句中各个字符的特征表示。
在本申请实施例中,通过将各个字符对应的字向量作为各个字符的特征表示,可以从字符级的维度上获取特征。并且在从原有第一训练文本中的各个字符提取字向量作为特征表示的基础上,增加了从第一训练文本对应的近似句中的各个字符提取字向量作为特征表示,使得用于训练的特征表示的数量增加,提高了实体识别模型的识别性能。
由于仅采用字符的字向量作为特征表示难以体现字符在句子中的分词维度上的特征,所以,进一步的,将字符的字向量和分词特征向量进行拼接作为各个字符的特征表示,可以体现出各个字符在字符和分词两个维度的特征。本申请实施例提供了另一种获取字符的特征表示(也就是S204)的具体实施方式,其具体包括以下四步:
第一步:利用第一训练文本训练字向量模型。
第二步:将第一训练文本输入字向量模型,得到第一训练文本中各个字符的字向量;将第一训练文本对应的近似句输入字向量模型,得到第一训练文本对应的近似句中各个字符的字向量。
本申请实施例中不限定利用第一训练文本训练字向量模型以及通过字向量模型获取字符的字向量的方法,可以与上述实施例中利用第一训练文本训练字向量模型以及获取字符的字向量的方法相同,在此不再赘述。
第三步:确定第一训练文本中各个字符的分词特征向量;确定第一训练文本对应的近似句中各个字符的分词特征向量。
在一种可能的确定分词特征向量的方法中,可以包括以下三个步骤:
步骤一:遍历句子,以词为基本单位,进行标记。将由单独字符组成的词标记为“0”,将多个字符组成的词中的每个字标记为“2”。
例如,当句子为“长期精神紧张是高血压患病的危险因素”时,第一步进行标记后得到的该句子的分词特征为[2,2,2,2,2,2,0,2,2,2,2,2,0,2,2,2,2]。句子中的“是”和“的”对应的标记为“0”,其余字符对应的标记为“2”。
步骤二:对句子进行第二次遍历,将由多个字符组成的词中第一个字符标记为“1”,最后一个字符标记为“3”。
仍以上述的句子为例,第二步处理后得到的分词特征为[1,3,1,2,2,3,0,1,2,3,1,3,0,1,3,1,3]。
由此,通过各个字符对应的特征就可以得到由各个字符组成的分词。例如,上述句子得到的分词为“长期”、“精神紧张”、“是”、“高血压”、“患病”、“的”、“危险”、“因素”。
步骤三:对得到的各个字符的分词特征进行向量表示。
需要说明的是,对于相同的分词特征对应的向量可以相同,对字符的分词特征进行向量表示可以通过随机初始化得到对应的字符的分词特征向量。
第四步:将第一训练文本中各个字符的字向量与分词特征向量进行拼接,作为第一训练文本中各个字符的特征表示;将第一训练文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为第一训练文本对应的近似句中各个字符的特征表示。
本申请实施例中不限定字向量和分词特征向量的拼接方式,可以先将字向量和分词特征向量的向量维度进行统一,再进行字向量和分词特征向量的拼接,也可以直接将向量维度不统一的字向量和分词特征向量进行拼接,将拼接后的向量作为特征表示。
在本申请实施例中,通过获取各个字符的字向量和分词特征向量进行拼接作为特征表示,在获取字符级特征的基础上获取各个字符在分词的维度的特征,从两个维度获取字符的特征作为特征表示,可以提高实体识别模型的实体识别的准确率。
由上述S205可知,在训练生成实体识别模型时,可以对第一训练文本对应的近似句进行不同的处理,与第一训练文本中各个字符的特征表示、第一训练文本中各个字符的实体类别标签、字符序列标签组成不同种类的训练数据。相对应的,对于不同的训练数据,具有两种实体识别模型的训练方法。
在第一种可能的实施方式中,本申请实施例提供了一种生成实体识别模型(也就是S205)的具体实施方式,可以通过对第一训练文本的近似句中的各个字符进行对应的实体类别标签和字符序列标签进行标记,将标记后的第一训练文本的近似句作为训练数据进行实体识别模型的训练,其具体包括以下四步。
第一步:将第一训练文本中各个字符的实体类别标签、字符序列标签添加为第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签。
由于第一训练文本中各个字符具有已标注的实体类别标签和字符序列标签,而第一训练文本对应的近似句中的字符个数是与第一训练文本中的字符个数相同,所以可以根据第一训练文本中各个字符具有的实体类别标签和字符序列标签对对应的第一训练文本的近似句中各个字符进行实体类别标签和字符序列标签的标记。
仍以“上腹剧痛”为例,对“上腹剧痛”进行各个字符的实体类别标签以及字符序列标签的标记,得到的各个字符对应的实体类别标签和字符序列标签分别为“B-body”,“E-body”,“B-symp”和“E-symp”。若“上腹剧痛”对应的近似句为“下腹疼痛”时,根据“上腹剧痛”中各个字符的实体类别标签和字符序列标签,对对应的“下腹疼痛”中各个字符进行标签的添加。得到的“下腹疼痛”中各个字符的实体类别标签和字符序列标签分别为“B-body”,“E-body”,“B-symp”和“E-symp”。
第二步:将第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签作为第一训练数据。
第一训练数据是由第一训练文本中各个字符的特征表示以及各个字符的实体类别标签和字符序列标签组成的。
第三步:将第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签作为第二训练数据。
第二训练数据是由第一训练文本对应的近似句中各个字符的特征表示以及各个字符的实体类别标签和字符序列标签组成的。
第四步:利用第一训练数据以及第二训练数据,共同训练生成实体识别模型。
通过第一训练数据和第二训练数据训练得到实体识别模型,得到的实体识别模型可以通过输入待识别文本,输出待识别文本中各个字符对应的实体类别标签和/或字符序列标签。
需要说明的是,实体识别模型由Bi-LSTM(Bidirectional Long Short-TermMemory,双向长短期记忆网络)层、全连接层以及CRF(Conditional Random Fields,条件随机场)层组成或者由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
本申请实施例根据第一训练文本中各个字符对应的实体类别标签和字符序列标签,对第一训练文本对应的近似句中的各个字符进行相应的实体类别标签和字符序列标签的标记,将标记后的第一训练文本对应的近似句中各个字符的特征表示以及实体类别标签和字符序列标签作为第二训练数据,通过第一训练数据和第二训练数据进行模型训练,在原有的第一训练数据的基础上增加第二训练数据,增加了对于实体识别模型训练数据的数量,使得得到的实体识别模型的识别性能更优。
为了便于理解上述实体识别模型的训练方法,下面结合示例进行说明。
在本示例中,各个字符的特征表示是字向量和分词特征向量进行拼接得到的,实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
以“上腹疼痛伴随着头晕”作为一条第一训练文本为例,“上腹疼痛伴随着头晕”对应的近似句为“下腹剧痛跟随着头昏”,将“上腹疼痛伴随着头晕”中各个字符的实体类别标签、字符序列标签“B-body”,“E-body”,“B-symp”、“E-symp”、“O”、“O”、“O”、“B-symp”和“E-symp”添加为“下腹剧痛跟随着头昏”中各个字符的实体类别标签、字符序列标签。
将“上腹疼痛伴随着头晕”输入字向量模型中,得到对应的各个字符的字向量WX=[w1,w2,w3,……,w9,]。确定各个字符的分词特征向量SX=[s1,s2,s3,……,s9]。将各个字符对应的字向量和分词特征向量进行拼接,得到TX=[wX;sX]=[t1,t2,t3,……,t9]。将TX以及“上腹疼痛伴随着头晕”中各个字符的实体类别标签、字符序列标签作为一条第一训练数据。
将“上腹疼痛伴随着头晕”的近似句“下腹剧痛跟随着头昏”输入字向量模型中,得到各个字符的字向量确定近似句中各个字符的分词特征向量将近似句中各个字符对应的字向量和分词特征向量进行拼接,得到/>将TY以及“下腹剧痛跟随着头昏”中各个字符的实体类别标签、字符序列标签作为一条第二训练数据。
利用大量第一训练数据和第二训练数据进行训练,得到实体识别模型。
在第二种可能的实施方式中,本申请实施例提供了另一种生成实体识别模型(也就是S205)的具体实施方式,将第一训练文本对应的近似句中各个字符的特征表示直接作为训练数据进行实体识别模型的训练数据,参见图5所示,该图为本申请实施例提供的一种实体识别模型训练方法的示意图。本申请实施例中实体识别模型由Bi-LSTM层、注意力机制层、投影层以及CRF层组成。其具体包括以下两步:
第一步:将第一训练文本中各个字符的特征表示、第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据。
本申请实施例中,第一训练文本中各个字符的特征表示为由各个字符的字向量WX=[w1,w2,w3,……,wn]以及分词特征向量SX=[s1,s2,s3,……,s9]拼接得到的TX=[WX;SX]=[t1,t2,t3,……,tn],其中,n为字符的数量。
第一训练文本对应的近似句中各个字符的特征表示为由近似句中各个字符的字向量以及分词特征向量/>拼接得到的/> 其中,n为字符的数量。
将第一训练文本中各个字符的特征表示、第一训练文本对应的近似句中各个字符的特征表示、第一训练文本中各个字符的实体类别标签和字符序列标签作为第三训练数据。其中,实体类别标签用于表示第一训练文本中各个字符对应的实体的类别,字符序列标签用于表示第一训练文本中各个字符对应的分词的序列。
第二步:利用第三训练数据,以最小化目标函数为训练目标训练生成实体识别模型。
需要说明的是,实体识别模型由Bi-LSTM层、投影层全连接层以及CRF层组成或者由Bi-LSTM层、注意力机制层、投影层全连接层以及CRF层组成。
通过第三训练数据训练得到实体识别模型,使得实体识别模型可以根据输入的文本,识别输入文本中的实体以及实体对应的类别。并且以最小化加入正则项的目标函数作为训练目标进行实体识别模型的训练,得到识别效果更好的实体识别模型。
其中,对于目标函数的计算可以包括以下四个步骤:
第一步,计算正则项。
正则项表征目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和。
其中,目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由目标训练数据中的第一训练文本中各个字符的特征表示输入实体识别模型得到。需要说明的是,目标训练数据为第三训练数据中的每一条数据。标签组合由实体类别标签、字符序列标签进行组合后生成。
通过将目标训练数据中第一训练文本中各个字符的特征表示TX和实体类别标签、字符序列标签输入实体识别模型中,可以得到Bi-LSTM层的输出特征HX=[h1,h2,h3,……,hn]。
将HX输入全连接层中,得到得分矩阵GX。在全连接层中,通过公式(2)和公式(3)将输出特征HX映射为各个标签组合的得分矩阵GX
UX=tanh(HxWU+bU) (2)
Gx=UXWG+bG (3)
其中,WU和WG为权重,bU和bG为偏置,WU、WG、bU和bG均为实体识别模型的模型参数。
或者,当实体识别模型包括注意力机制层时,将输出特征HX输入注意力机制层中,得到BX=[b1,b2,b3,……,bn],其中,Wf为权重矩阵,Wf为实体识别模型的模型参数。
将BX输入全连接层中,得到得分矩阵GX。在全连接层中,通过公式(4)和公式(5)将输出特征BX映射为各个标签组合的得分矩阵GX
Ux=tanh(BxWu+bu) (4)
GX=UXWG+bG (5)
其中,WU和WG为权重,bU和bG为偏置,WU、WG、bU和bG均为实体识别模型的模型参数。
从而得到的GX=[g1,g2,g3,……,gn],其中,gi为句子中第i个字符对应的各个标签组合的得分,i<n,n为句子中字符的个数。gi=[ui,1,ui,2,ui,3,……,ui,m],ui,m为第i个字符对应的第m个标签组合的得分,m<M,M为标签组合的个数。
根据得到的GX按照公式(6)计算第i个字符中第m个标签组合的概率大小,可以得到各个字符的各个标签组合概率值。
目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入实体识别模型得到,目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值可通过公式(7)至(9)计算得到。
UY=tanh(HYWU+bU) (7)
GY=UYWG+bG (8)
其中,HY为将第一训练文本对应的近似句中各个字符的特征表示TY输入实体识别模型的Bi-LSTM层得到的各个字符的输出特征。
或者,当实体识别模型中具有注意力机制层时,注意力机制层输出得到BY
其中,/>Wf为权重矩阵,Wf为实体识别模型的模型参数。根据公式(10)计算得到UY
UY=tanh(BYWU+bU) (10)
将公式(10)计算得到的UY代入至(8)中,计算得到对应的得分矩阵GY,并根据公式(9)计算得到具有注意力机制层的目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值。
GY为全连接层输出的第一训练文本对应的近似句中各个字符对应的各个标签组合的得分矩阵,其中,/>为句子中第i个字符对应的各个标签组合的得分,i<n,n为句子中字的个数。/> 为第i个字符对应的第m个标签组合的得分,m<M,M为标签组合的个数。/>为第i个字符中第m个标签组合的概率大小。
根据第一训练文本中各个字符的各个标签组合概率值与目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值,通过公式(11)计算各个目标训练数据的相对熵之和,得到正则项。
其中,γ为正则项权重,M为标签组合的个数,n为句子中字符的个数。
第二步,计算似然函数。
似然函数由目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到;
各个目标训练数据对应的似然函数的计算公式可以如公式(12)所示。
其中,ω为权值向量,x为输入的各个字符对应的各个标签组合的分数,y为输出的各个字符对应的标签组合,为第一训练文本中各个字符与实体类别标签、字符序列标签的经验分布。
第三步,计算组合函数。
各个目标训练数据的组合函数为各个目标训练数据对应的似然函数与各个目标训练数据对应的正则项之差,可以通过公式(13)计算得到。
第四步,计算目标函数。
由于各个目标训练数据的似然函数需要极大化,正则项需要极小化,所以对公式(13)取负,分别计算第三训练数据中各个目标训练数据的组合函数,并对得到的组合函数求和,得到目标函数,目标函数可以由公式(14)表示。
其中,ω为模型超参数,通过对模型参数与模型超参数进行迭代调整,以极小化目标函数为目标训练得到实体识别模型。
在本申请实施例中,将第一训练文本对应的近似句中各个字符的特征表示作为第三训练数据组成之一,并且通过最小化目标函数进行模型的训练,对第一训练文本起到了一定的约束作用,使得模型结果不易于过拟合,具有更好的泛化能力,使得训练得到的实体识别模型对于实体识别的性能更佳。
对应于上述两种不同的实体识别模型的生成方法,相应的具有两种实体识别的方法。
在一种可能的实施方式中,可以将待识别文本中各个字符的特征表示输入第一种实体识别模型训练方法得到的实体识别模型中,进行实体识别。参见图6所示,该图为本申请实施例提供的一种实体识别方法的流程图,具体可以包括步骤S601-S603。
S601:获取待识别文本中各个字符的特征表示。
待识别文本可以为未进行标签标记的需要进行实体识别的文本。在一种具体的应用场景中,可以为电子病历文本。
需要说明的是,待识别文本中的各个字符的特征表示可以为各个字符的字向量或者是各个字符的字向量和分词向量拼接而成的向量。
当待识别文本中的各个字符的特征表示为各个字符的字向量时,将待识别文本输入字向量模型中,得到待识别文本中各个字符的字向量作为待识别文本中各个字符的特征表示。其中,字向量模型是通过第一训练文本训练得到的。得到待识别文本中各个字符的字向量的方法与上述实施例中获取第一训练文本中各个字符的字向量的方法相同,在此不再赘述。
当待识别文本中的各个字符的特征表示是由各个字符的字向量和分词特征向量拼接得到时,先将待识别文本输入字向量模型中,得到待识别文本中各个字符的字向量,再确定待识别文本中各个字符的分词特征向量,将待识别文本中各个字符的字向量与分词特征向量进行拼接,得到待识别文本中各个字符的特征表示。得到待识别文本中各个字符的字向量和分词特征向量的方法与上述实施例中获取第一训练文本中各个字符的字向量和分词特征向量的方法相同,在此不再赘述。
S602:将待识别文本中各个字符的特征表示输入实体识别模型,得到实体识别模型输出的待识别文本中各个字符对应的字符序列标签和/或实体类别标签。
需要说明的是,由于是将待识别文本中各个字符的特征表示输入实体识别模型中,所以,所采用的实体识别模型是通过第一种实体识别模型的生成方法得到的,是将第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签作为第一训练数据,将第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签作为第二训练数据,通过第一训练数据和第二训练数据训练生成的实体识别模型。
通过将待识别文本中各个字符的特征表示输入至实体识别模型中,可以得到实体识别模型输出的待识别文本中各个字符对应的字符序列标签和/或实体类别标签。需要说明的是,当待识别文本中的字符不属于实体时,可能对应的标签仅有字符序列标签;当待识别文本中的字符属于实体时,并且该实体可能是由多个字符组成时,该字符可能对应的标签为字符序列标签和实体类别标签;当待识别文本中的字符属于实体时,并且该实体是由单个字符组成时,该字符可能对应的标签为实体类别标签。
需要说明的是,实体识别模型由Bi-LSTM层、全连接层以及CRF层组成或者由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
S603:根据待识别文本中各个字符对应的字符序列标签确定待识别文本中包含的实体,根据待识别文本中各个字符对应的实体类别标签确定待识别文本中包含的实体对应的实体类别标签。
待识别文本中各个字符对应的字符序列标签可以表征该字符在实体中的序列,可以通过各个字符对应的字符序列标签确定该字符在实体中的位置,通过各个字符确定实体。再根据各个字符对应的实体类别标签确定待识别文本中包含的实体对应的实体类别标签,确定该实体的类别。
本申请实施例中,通过第一种实体识别模型生成方法得到的实体识别模型进行待识别文本的识别,通过将待识别文本中各个字符的特征表示输入至实体识别模型中,可以得到实体识别模型输出的各个字符对应的字符序列标签和/或实体类别标签,通过各个字符对应的字符序列标签和/或实体类别标签,可以确定待识别文本中的实体以及实体类别。由于第一种实体识别模型生成方法采用第一训练数据和第二训练数据进行模型的训练,通过增加训练数据的数量,提高实体识别模型的性能,使得对于待识别文本中实体的识别结果更加准确。
为了便于理解上述实体识别的方法,下面分情况结合示例进行说明。
情况一:将各个字符的字向量作为特征表示,实体识别模型由Bi-LSTM层、全连接层以及CRF层组成。
例如,待识别文本中具有“上腹疼痛伴随着头晕”的句子,参见图7所示,该图为本申请实施例提供的一种实体识别方法的示意图,先获取待识别文本中各个字符的特征表示,也就是“上腹疼痛伴随着头晕”中各个字符的特征表示。当以各个字符的字向量作为特征表示时,将“上腹疼痛伴随着头晕”输入字向量模型中,得到对应的各个字符的字向量WX=[w1,w2,w3,……,w9,],将特征表示输入至实体识别模型的Bi-LSTM层,得到基于正方向的特征HXr=[h1,r,h2,r,h3,r,……,h9,r]和基于反方向的特征HXl=[h1,l,h2,l,h3,l,……,h9,l],将基于正方向的特征HXr和基于反方向的特征HXl进行拼接,最终得到Bi-LSTM层的输出特征HX=[h1,h2,h3,……,h9]。将Bi-LSTM层的输出特征输入至全连接层中,得到得分矩阵GX,将得分矩阵GX输入至CRF层,输出“上腹疼痛伴随着头晕”中各个字符对应的字符序列标签和/或实体类别标签。如果第一训练数据和第二训练数据标记的实体类别标签分为“身体部位(body)”,“疾病名称(dise)”,“症状(symp)”,“治疗(cure)”,“检查(chec)”,“药品名称(drug)”,字符序列标签采用BIOES标记方式进行标记。得到的“上腹疼痛伴随着头晕”中各个字符对应的字符序列标签和/或实体类别标签分别为“B-body”,“E-body”,“B-symp”、“E-symp”、“O”、“O”、“O”、“B-symp”和“E-symp”。通过字符序列标记“B”、“E”、“O”可以得到“上腹”、“疼痛”和“头晕”三个实体,根据实体类别标签得到以上三个实体对应的类别分别为“身体部位(body)”、“症状(symp)”和“身体部位(body)”。
通过将字符的字向量作为特征表示,可以提取字符级的特征作为特征表示,使得实体识别模型可以从字符级的维度进行实体的识别,提高了实体以及实体类别识别的准确度。
情况二:将各个字符的字向量和分词特征向量进行拼接作为特征表示,实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
仍以“上腹疼痛伴随着头晕”作为待识别文本为例,将“上腹疼痛伴随着头晕”输入字向量模型中,得到对应的各个字符的字向量WX=[w1,w2,w3,……,w9,]。确定各个字符的分词特征向量SX=[s1,s2,s3,……,s9]。将各个字符对应的字向量和分词特征向量进行拼接,得到TX=[wX;sX]=[t1,t2,t3,……,t9]。将TX输入实体识别模型的Bi-LSTM层,得到Bi-LSTM层的输出特征HX=[h1,h2,h3,……,h9],将Bi-LSTM层的输出特征输入至注意力机制层,得到BX=[b1,b2,b3,……,b9],其中,ai,j=softmax(fi,j),/>Wf为权重矩阵,Wf为实体识别模型的模型参数将BX输入至全连接层中,得到得分矩阵GX,将得分矩阵GX输入至CRF层,输出“上腹疼痛伴随着头晕”中各个字符对应的字符序列标签和/或实体类别标签。对于实体以及实体类别的确定与情况一相同,在此不再赘述。
通过将待识别文本中各个字符的字向量和分词特征向量作为输入的特征表示,可以从字符级和分词特征两个维度进行实体识别,增强了实体识别的准确度。另外,在Bi-LSTM层和全连接层之间加入注意力机制层,使得模型更加关注重要度高的字符,进一步提高了实体和实体类别识别的准确度。
上述实施例是通过将待识别文本中各个字符的特征表示输入至实体识别模型中进行实体识别。在另外一种可能的实现方式中,可以先生成待识别文本对应的近似句,将待识别文本中各个字符的特征表示以及待识别文本对应的近似句中各个字符的特征表示输入至由第二种实体识别模型生成方法生成的实体识别模型中,得到待识别文本中各个字符对应的字符序列标签和/或实体类别标签。
参见图8所示,该图为本申请实施例提供的另一种实体识别方法的流程图,具体可以包括步骤S801-S804。
S801:对待识别文本进行分词,得到待识别文本包括的第二分词;通过分词与词向量的映射模型确定第二分词的近似词,由第二分词的近似词生成待识别文本对应的近似句。
本申请实施例中不限定对待识别文本进行分词的方法,在一种可能的实现方式中,可以通过分词工具进行分词,得到待识别文本包括的第二分词。
将第二分词输入到分词与词向量的映射模型中,该分词与词向量的映射模型可以是利用标准文本数据训练得到的映射模型,通过分词与词向量的映射模型查找第二分词在相似度上满足预设条件的词向量作为第二近似词向量。本申请实施例中查找第二近似词向量的方法可以与S2032中的查找第一近似词向量的方法相同,在此不再赘述。
将第二近似词向量对应的分词确定为第二分词对应的近似词,将待识别文本中的第二分词替换为第二分词的近似词,得到待识别文本对应的近似句。
S802:获取待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示。
待识别文本中的各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示,可以为各个字符的字向量或者是各个字符的字向量和分词向量拼接而成的向量。
具体的,当将字向量作为字符的特征表示时,可以将待识别文本输入字向量模型,得到待识别文本中各个字符的字向量,将待识别文本对应的近似句输入字向量模型,得到待识别文本对应的近似句中各个字符的字向量。其中,字向量模型可以为利用第一训练文本训练得到的字向量模型。将得到的待识别文本中各个字符的字向量作为待识别文本中各个字符的特征表示,将得到的待识别文本对应的近似句中各个字符的字向量作为待识别文本对应的近似句中各个字符的特征表示。
当将字向量和分词特征向量拼接作为字符的特征表示时,先将待识别文本输入字向量模型,得到待识别文本中各个字符的字向量;将待识别文本对应的近似句输入字向量模型,得到待识别文本对应的近似句中各个字符的字向量。再确定待识别文本中各个字符的分词特征向量以及待识别文本对应的近似句中各个字符的分词特征向量。将待识别文本中各个字符的字向量与分词特征向量进行拼接,得到待识别文本中各个字符的特征表示,将待识别文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,得到待识别文本对应的近似句中各个字符的特征表示。其中,分词特征向量是用于表征字符所属分词的长度以及字符在所属分词中的位置。
S803:将待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示输入实体识别模型,得到实体识别模型输出的待识别文本中各个字符对应的字符序列标签和/或实体类别标签。
需要说明的是,由于是将待识别文本中各个字符的特征表示以及待识别文本对应的近似句中各个字符的特征表示输入实体识别模型中,所采用的实体识别模型是通过第二种实施方式得到的,是将第一训练文本中各个字符的特征表示、第一训练文本对应的近似句中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据,通过第三训练数据训练生成的实体识别模型。
通过将待识别文本中各个字符的特征表示以及待识别文本对应的近似句中各个字符的特征表示输入至实体识别模型中,可以得到实体识别模型输出的待识别文本中各个字符对应的字符序列标签和/或实体类别标签。
需要说明的是,实体识别模型由Bi-LSTM层、全连接层以及CRF层组成或者由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
S804:根据待识别文本中各个字符对应的字符序列标签确定待识别文本中包含的实体,根据待识别文本中各个字符对应的实体类别标签确定待识别文本中包含的实体对应的实体类别标签。
待识别文本中各个字符对应的字符序列标签可以表征该字符在实体中的序列,可以通过各个字符对应的字符序列标签确定该字符在实体中的位置,通过各个字符确定实体。再根据各个字符对应的实体类别标签确定待识别文本中包含的实体对应的实体类别标签,确定该实体的类别。
为了便于理解上述实体识别的方法,下面分情况结合示例进行说明。
情况一:将各个字符的字向量作为特征表示,实体识别模型由Bi-LSTM层、全连接层以及CRF层组成。
参见图9所示,该图为本申请实施例提供的另一种实体识别方法的应用场景示意图。仍以“上腹疼痛伴随着头晕”作为待识别文本为例,先通过分词与词向量的映射模型得到对应的近似句“下腹剧痛跟随着头昏”,再将“上腹疼痛伴随着头晕”和“下腹剧痛跟随着头昏”输入至实体识别模型中,根据目标函数,输出“上腹疼痛伴随着头晕”中各个字符对应的字符序列标签和/或实体类别标签。
具体的为,先对“上腹疼痛伴随着头晕”进行分词,得到的第二分词为“上腹”、“疼痛”、“伴随”、“着”和“头晕”。将第二分词输入分词与词向量的映射模型,通过分词与词向量的映射模型确定第二分词的近似词分别为“下腹”、“剧痛”、“跟随”、“着”和“头昏”。由得到第二分词的近似词生成待识别文本对应的近似句为“下腹剧痛跟随着头昏”。
获取“上腹疼痛伴随着头晕”中各个字符的特征表示以及“下腹剧痛跟随着头昏”中各个字符的特征表示。将“上腹疼痛伴随着头晕”以及“下腹剧痛跟随着头昏”输入字向量模型中,得到的对应的各个字符的字向量分别为WX=[w1,w2,w3,……,w9,]和 将WX和WY输入至实体识别模型的Bi-LSTM层,WX对应的得到基于正方向的特征HXr=[h1,r,h2,r,h3,r,……,h9,r]和基于反方向的特征HXl=[h1,l,h2,l,h3,l,……,h9,l],将基于正方向的特征HXr和基于反方向的特征HXl进行拼接,最终得到Bi-LSTM层对于WX的输出特征Hx=[h1,h2,h3,……,h9]。WY对应的得到基于正方向的特征和基于反方向的特征/>将基于正方向的特征HYr和基于反方向的特征HYl进行拼接,最终得到Bi-LSTM层对于WY的输出特征将Bi-LSTM层的输出特征Hx和HY输入至全连接层中,得到得分矩阵GX和GY,将得分矩阵GX和GY输入至CRF层,输出“上腹疼痛伴随着头晕”中各个字符对应的字符序列标签和/或实体类别标签。对于实体以及实体类别的确定与前述第一种实体识别的情况一相同,在此不再赘述。
情况二:将各个字符的字向量和分词特征向量进行拼接作为特征表示,实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
仍以“上腹疼痛伴随着头晕”作为待识别文本为例,将“上腹疼痛伴随着头晕”输入字向量模型中,得到对应的各个字符的字向量WX=[w1,w2,w3,……,w9]。确定各个字符的分词特征向量SX=[s1,s2,s3,……,s9]。将各个字符对应的字向量和分词特征向量进行拼接,得到TX=[wX;sX]=[t1,t2,t3,……,t9]。将“上腹疼痛伴随着头晕”的近似句“下腹剧痛跟随着头昏”输入字向量模型中,得到各个字符的字向量确定近似句中各个字符的分词特征向量/>将近似句中各个字符对应的字向量和分词特征向量进行拼接,得到/>将TX和TY输入实体识别模型的Bi-LSTM层,得到Bi-LSTM层的输出特征HX=[h1,h2,h3,……,h9]和将Bi-LSTM层的输出特征HX和HY分别输入至注意力机制层,得到BX=[b1,b2,b3,……,b9]和/>其中,/> 其中,/>Wf为权重矩阵。将BX和BY输入至全连接层中,得到得分矩阵GX和GY,将得分矩阵GX和GY输入至CRF层,输出“上腹疼痛伴随着头晕”中各个字符对应的字符序列标签和/或实体类别标签。
将待识别文本中各个字符的字向量与分词特征向量进行拼接作为特征表示以及将待识别文本对应的近似句中各个字符的字向量与分词特征向量进行拼接作为特征表示,从字符级以及分词特征两个维度进行实体识别。此外,通过加入注意力机制层,使得实体识别模型更加关注重要度高的字符,符合阅读以及书写的习惯,使得对于实体的识别以及实体类别的识别更加准确。
基于上述实体识别模型生成方法的相关内容,本申请实施例还提供了一种实体识别模型生成装置,下面结合附图进行说明。参见图10,该图为本申请实施例提供的一种实体识别模型生成装置的结构示意图,该装置包括:
映射模型生成单元1001,用于利用标准文本数据训练得到分词与词向量的映射模型;
第一分词生成单元1002,用于对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;
第一近似句生成单元1003,用于通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;
第一特征表示获取单元1004,用于获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;
实体识别模型生成单元1005,用于利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。
在一种可能的实施方式中,所述第一近似句生成单元1003,包括:
第一词向量生成子单元,用于将所述第一分词输入所述分词与词向量的映射模型,得到所述第一分词的词向量;
第一近似词确定子单元,用于通过所述分词与词向量的映射模型查找与所述第一分词的词向量在相似度上满足预设条件的词向量作为第一近似词向量,将所述第一近似词向量对应的分词确定为所述第一分词对应的近似词;
第一近似句生成子单元,用于将所述第一训练文本中的第一分词替换为该第一分词对应的近似词,生成所述第一训练文本对应的近似句。
在一种可能的实施方式中,所述第一特征表示获取单元1004,包括:
字向量模型训练子单元,用于利用所述第一训练文本训练字向量模型;
第一字向量获取子单元,用于将所述第一训练文本输入所述字向量模型,得到所述第一训练文本中各个字符的字向量作为所述第一训练文本中各个字符的特征表示;
第二字向量获取子单元,用于将所述第一训练文本对应的近似句输入所述字向量模型,得到所述第一训练文本对应的近似句中各个字符的字向量作为所述第一训练文本对应的近似句中各个字符的特征表示。
在一种可能的实施方式中,所述第一特征表示获取单元1004,包括:
第一分词特征向量确定子单元,用于确定所述第一训练文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
第一拼接子单元,用于将所述第一训练文本中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本中各个字符的特征表示;
第二分词特征向量确定子单元,用于确定所述第一训练文本对应的近似句中各个字符的分词特征向量;
第二拼接子单元,用于将所述第一训练文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本对应的近似句中各个字符的特征表示。
在一种可能的实施方式中,所述实体识别模型生成单元1005,包括:
标签添加子单元,用于将所述第一训练文本中各个字符的实体类别标签、字符序列标签添加为所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签;
第一训练数据生成子单元,用于将所述第一训练文本中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第一训练数据;
第二训练数据生成子单元,用于所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签作为第二训练数据;
第一实体识别模型生成子单元,用于利用所述第一训练数据以及所述第二训练数据,共同训练生成实体识别模型。
在一种可能的实施方式中,所述实体识别模型由双向长短期记忆网络Bi-LSTM层、全连接层以及条件随机场CRF层组成;
或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
在一种可能的实施方式中,所述实体识别模型生成单元1005,包括:
第三训练数据生成子单元,用于将所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据;
第二实体识别模型生成子单元,用于利用所述第三训练数据,以最小化目标函数为训练目标训练生成实体识别模型,所述目标函数为各个目标训练数据对应的组合函数之和取负,所述目标训练数据分别为所述第三训练数据中的每一条;
所述组合函数为似然函数与正则项之差;所述似然函数由所述目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到;所述正则项表征所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和;所述标签组合由所述实体类别标签、所述字符序列标签进行组合后生成;
所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本中各个字符的特征表示输入所述实体识别模型得到,所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入所述实体识别模型得到。
在一种可能的实施方式中,所述实体识别模型由Bi-LSTM层、全连接层以及CRF层组成;
或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
基于上述实体识别方法的相关内容,本申请实施例还提供了一种实体识别装置,下面结合附图进行说明。参见图11,该图为本申请实施例提供的一种实体识别装置的结构示意图,如图11所示,该装置包括:
第二特征表示获取单元1101,用于获取待识别文本中各个字符的特征表示;
第一标签生成单元1102,用于将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述生成实体识别模型的第一种可能的实施方式生成的;
第一实体识别单元1103,用于根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
在一种可能的实施方式中,所述第二特征表示获取单元1101,包括:
第一特征表示获取子单元,用于将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量作为所述待识别文本中各个字符的特征表示;所述字向量模型是利用第一训练文本训练得到的;
或者,
第三字向量获取子单元,用于将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量;所述字向量模型是利用第一训练文本训练得到的;
第三分词特征向量确定子单元,用于确定所述待识别文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
第三拼接子单元,用于将所述待识别文本中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本中各个字符的特征表示。
基于上述实体识别方法的相关内容,本申请实施例还提供了另一种实体识别装置,下面结合附图进行说明。参见图12,该图为本申请实施例提供的另一种实体识别装置的结构示意图,如图12所示,该装置包括:
第二分词生成单元1201,用于对待识别文本进行分词,得到所述待识别文本包括的第二分词;
第二近似句生成单元1202,用于通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句;所述分词与词向量的映射模型是利用标准文本数据训练得到的;
第三特征表示获取单元1203,用于获取所述待识别文本中各个字符的特征表示以及所述待识别训练文本对应的近似句中各个字符的特征表示;
第二标签生成单元1204,用于将所述待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述生成实体识别模型的第二种可能的实施方式;
第二实体识别单元1205,用于根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签
在一种可能的实施方式中,所述第二近似句生成单元1202,包括:
第二词向量生成子单元,用于将所述第二分词输入所述分词与词向量的映射模型,得到所述第二分词的词向量;
第二近似词确定子单元,用于通过所述分词与词向量的映射模型查找与所述第二分词的词向量在相似度上满足预设条件的词向量作为第二近似词向量,将所述第二近似词向量对应的分词确定为所述第二分词对应的近似词;
第二近似句生成子单元,用于将所述待识别文本中的第二分词替换为该第二分词对应的近似词,生成所述待识别文本对应的近似句。
在一种可能的实施方式中,所述第三特征表示获取单元1203,包括:
第二特征表示获取子单元,用于将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量作为所述待识别文本中各个字符的特征表示;所述字向量模型是利用第一训练文本训练得到的;将所述待识别文本对应的近似句输入所述字向量模型,得到所述待识别文本对应的近似句中各个字符的字向量作为所述待识别文本对应的近似句中各个字符的特征表示;
或者,
第四字向量获取子单元,用于将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量;所述字向量模型是利用第一训练文本训练得到的;
第四分词特征向量确定子单元,用于确定所述待识别文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
第四拼接子单元,用于将所述待识别文本中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本中各个字符的特征表示;
第五字向量获取子单元,用于将所述待识别文本对应的近似句输入所述字向量模型,得到所述待识别文本对应的近似句中各个字符的字向量;
第五分词特征向量确定子单元,用于确定所述待识别文本对应的近似句中各个字符的分词特征向量;
第五拼接子单元,用于将所述待识别文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本对应的近似句中各个字符的特征表示。
另外,本申请实施例还提供了一种实体识别模型生成设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述实体识别模型生成方法。
本申请实施例还提供了一种实体识别方法设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述第一种实体识别方法。
本申请实施例还提供了另一种实体识别方法设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述第二种实体识别方法。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述实体识别模型生成方法、或者上述实体识别方法、或者上述另一种实体识别方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (18)

1.一种实体识别模型生成方法,其特征在于,所述方法包括:
利用标准文本数据训练得到分词与词向量的映射模型;
对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;
通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;
获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;
利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型;
所述通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句,包括:
将所述第一分词输入所述分词与词向量的映射模型,得到所述第一分词的词向量;
通过所述分词与词向量的映射模型查找与所述第一分词的词向量在相似度上满足预设条件的词向量作为第一近似词向量,将所述第一近似词向量对应的分词确定为所述第一分词对应的近似词;
将所述第一训练文本中的第一分词替换为该第一分词对应的近似词,生成所述第一训练文本对应的近似句。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示,包括:
利用所述第一训练文本训练字向量模型;
将所述第一训练文本输入所述字向量模型,得到所述第一训练文本中各个字符的字向量作为所述第一训练文本中各个字符的特征表示;
将所述第一训练文本对应的近似句输入所述字向量模型,得到所述第一训练文本对应的近似句中各个字符的字向量作为所述第一训练文本对应的近似句中各个字符的特征表示。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示,包括:
确定所述第一训练文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
将所述第一训练文本中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本中各个字符的特征表示;
确定所述第一训练文本对应的近似句中各个字符的分词特征向量;
将所述第一训练文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本对应的近似句中各个字符的特征表示。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:
将所述第一训练文本中各个字符的实体类别标签、字符序列标签添加为所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签;
将所述第一训练文本中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第一训练数据;
所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签作为第二训练数据;
利用所述第一训练数据以及所述第二训练数据,共同训练生成实体识别模型。
5.根据权利要求4所述的方法,其特征在于,
所述实体识别模型由双向长短期记忆网络Bi-LSTM层、全连接层以及条件随机场CRF层组成;
或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:
将所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据;
利用所述第三训练数据,以最小化目标函数为训练目标训练生成实体识别模型,所述目标函数为各个目标训练数据对应的组合函数之和取负,所述目标训练数据分别为所述第三训练数据中的每一条;
所述组合函数为似然函数与正则项之差;所述似然函数由所述目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到;所述正则项表征所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和;所述标签组合由所述实体类别标签、所述字符序列标签进行组合后生成;
所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本中各个字符的特征表示输入所述实体识别模型得到,所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入所述实体识别模型得到。
7.根据权利要求6所述的方法,其特征在于,
所述实体识别模型由Bi-LSTM层、全连接层以及CRF层组成;
或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。
8.一种实体识别方法,其特征在于,所述方法包括:
获取待识别文本中各个字符的特征表示;
将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据权利要求1所述的实体识别模型生成方法生成的;
根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
9.根据权利要求8所述的方法,其特征在于,所述获取待识别文本中各个字符的特征表示,包括:
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量作为所述待识别文本中各个字符的特征表示;所述字向量模型是利用第一训练文本训练得到的;
或者,
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量;所述字向量模型是利用第一训练文本训练得到的;
确定所述待识别文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
将所述待识别文本中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本中各个字符的特征表示。
10.一种实体识别方法,其特征在于,所述方法包括:
对待识别文本进行分词,得到所述待识别文本包括的第二分词;
通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句;所述分词与词向量的映射模型是利用标准文本数据训练得到的;
获取所述待识别文本中各个字符的特征表示以及所述待识别文本对应的近似句中各个字符的特征表示;
将所述待识别文本中各个字符的特征表示以及所述待识别文本对应的近似句中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据权利要求2所述的实体识别模型生成方法生成的;
根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
11.根据权利要求10所述的方法,其特征在于,所述通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句,包括:
将所述第二分词输入所述分词与词向量的映射模型,得到所述第二分词的词向量;
通过所述分词与词向量的映射模型查找与所述第二分词的词向量在相似度上满足预设条件的词向量作为第二近似词向量,将所述第二近似词向量对应的分词确定为所述第二分词对应的近似词;
将所述待识别文本中的第二分词替换为该第二分词对应的近似词,生成所述待识别文本对应的近似句。
12.根据权利要求10所述的方法,其特征在于,所述获取所述待识别文本中各个字符的特征表示以及所述待识别文本对应的近似句中各个字符的特征表示,包括:
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量作为所述待识别文本中各个字符的特征表示;所述字向量模型是利用第一训练文本训练得到的;
将所述待识别文本对应的近似句输入所述字向量模型,得到所述待识别文本对应的近似句中各个字符的字向量作为所述待识别文本对应的近似句中各个字符的特征表示;
或者,
将待识别文本输入字向量模型,得到所述待识别文本中各个字符的字向量;所述字向量模型是利用第一训练文本训练得到的;
确定所述待识别文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;
将所述待识别文本中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本中各个字符的特征表示;
将所述待识别文本对应的近似句输入所述字向量模型,得到所述待识别文本对应的近似句中各个字符的字向量;
确定所述待识别文本对应的近似句中各个字符的分词特征向量;
将所述待识别文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述待识别文本对应的近似句中各个字符的特征表示。
13.一种实体识别模型生成装置,其特征在于,所述装置包括:
映射模型生成单元,用于利用标准文本数据训练得到分词与词向量的映射模型;
第一分词生成单元,用于对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;
第一近似句生成单元,用于通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;
第一特征表示获取单元,用于获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;
实体识别模型生成单元,用于利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型;
所述第一近似句生成单元,包括:
第一词向量生成子单元,用于将所述第一分词输入所述分词与词向量的映射模型,得到所述第一分词的词向量;
第一近似词确定子单元,用于通过所述分词与词向量的映射模型查找与所述第一分词的词向量在相似度上满足预设条件的词向量作为第一近似词向量,将所述第一近似词向量对应的分词确定为所述第一分词对应的近似词;
第一近似句生成子单元,用于将所述第一训练文本中的第一分词替换为该第一分词对应的近似词,生成所述第一训练文本对应的近似句。
14.一种实体识别装置,其特征在于,所述装置包括:
第二特征表示获取单元,用于获取待识别文本中各个字符的特征表示;
第一标签生成单元,用于将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据权利要求1-5任一项所述的实体识别模型生成方法生成的;
第一实体识别单元,用于根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
15.一种实体识别装置,其特征在于,所述装置包括:
第二分词生成单元,用于对待识别文本进行分词,得到所述待识别文本包括的第二分词;
第二近似句生成单元,用于通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句;所述分词与词向量的映射模型是利用标准文本数据训练得到的;
第三特征表示获取单元,用于获取所述待识别文本中各个字符的特征表示以及所述待识别文本对应的近似句中各个字符的特征表示;
第二标签生成单元,用于将所述待识别文本中各个字符的特征表示以及所述待识别文本对应的近似句中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据权利要求6-7任一项所述的实体识别模型生成方法生成的;
第二实体识别单元,用于根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。
16.一种实体识别模型生成设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的实体识别模型生成方法。
17.一种实体识别设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求8-9任一项所述的实体识别方法、或者权利要求10-12任一项所述的实体识别方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-7任一项所述的实体识别模型生成方法、或者8-9任一项所述的实体识别方法、或者权利要求10-12任一项所述的实体识别方法。
CN202010407453.1A 2020-05-14 2020-05-14 一种实体识别模型生成方法、实体识别方法及装置、设备 Active CN111611775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010407453.1A CN111611775B (zh) 2020-05-14 2020-05-14 一种实体识别模型生成方法、实体识别方法及装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010407453.1A CN111611775B (zh) 2020-05-14 2020-05-14 一种实体识别模型生成方法、实体识别方法及装置、设备

Publications (2)

Publication Number Publication Date
CN111611775A CN111611775A (zh) 2020-09-01
CN111611775B true CN111611775B (zh) 2023-07-18

Family

ID=72200335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010407453.1A Active CN111611775B (zh) 2020-05-14 2020-05-14 一种实体识别模型生成方法、实体识别方法及装置、设备

Country Status (1)

Country Link
CN (1) CN111611775B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183102A (zh) * 2020-10-15 2021-01-05 上海明略人工智能(集团)有限公司 基于注意力机制与图注意力网络的命名实体识别方法
CN112257449B (zh) * 2020-11-13 2023-01-03 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN112800756B (zh) * 2020-11-25 2022-05-10 重庆邮电大学 一种基于prado的实体识别方法
CN112395881B (zh) * 2020-11-27 2022-12-13 北京筑龙信息技术有限责任公司 物料标签的构建方法、装置、可读存储介质及电子设备
CN113705232B (zh) * 2021-03-03 2024-05-07 腾讯科技(深圳)有限公司 文本处理方法及装置
CN113326380B (zh) * 2021-08-03 2021-11-02 国能大渡河大数据服务有限公司 基于深度神经网络的设备量测数据处理方法、系统及终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110705294A (zh) * 2019-09-11 2020-01-17 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置
CN110795527A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740374B2 (en) * 2016-06-30 2020-08-11 International Business Machines Corporation Log-aided automatic query expansion based on model mapping

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110795527A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 候选实体排序方法、训练方法及相关装置
CN110705294A (zh) * 2019-09-11 2020-01-17 苏宁云计算有限公司 命名实体识别模型训练方法、命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李妮 等.基于BERT-IDCNN-CRF的中文命名实体识别方法.山东大学学报(理学版).2020,(第01期),全文. *

Also Published As

Publication number Publication date
CN111611775A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111611775B (zh) 一种实体识别模型生成方法、实体识别方法及装置、设备
Hládek et al. Survey of automatic spelling correction
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
Campos et al. Biomedical named entity recognition: a survey of machine-learning tools
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112154509A (zh) 具有用于文本注释的演变领域特异性词典特征的机器学习模型
CN109299467B (zh) 医学文本识别方法及装置、语句识别模型训练方法及装置
RU2768233C1 (ru) Нечеткий поиск с использованием форм слов для работы с большими данными
CN115472252A (zh) 基于对话的电子病历生成方法、装置、设备和存储介质
CN111597789A (zh) 一种电子病历文本的评估方法及设备
CN116881425A (zh) 一种通用型文档问答实现方法、系统、设备及存储介质
Kim et al. Automatic annotation of bibliographical references in digital humanities books, articles and blogs
Wong et al. isentenizer-: Multilingual sentence boundary detection model
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
Hussain et al. A technique for perceiving abusive bangla comments
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN117131932A (zh) 基于主题模型的领域知识图谱本体半自动构建方法及系统
WO2023035883A1 (zh) 用于文档和摘要的一致性检测的方法、设备和介质
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
CN115455969A (zh) 一种医学文本命名实体识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant