CN113191150B - 一种多特征融合的中文医疗文本命名实体识别方法 - Google Patents
一种多特征融合的中文医疗文本命名实体识别方法 Download PDFInfo
- Publication number
- CN113191150B CN113191150B CN202110556687.7A CN202110556687A CN113191150B CN 113191150 B CN113191150 B CN 113191150B CN 202110556687 A CN202110556687 A CN 202110556687A CN 113191150 B CN113191150 B CN 113191150B
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- formula
- vector
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种多特征融合的中文医疗文本命名实体识别方法,使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice‑lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
Description
技术领域
本发明涉及中文命名实体识别领域,具体涉及一种多特征融合的中文医疗文本命名实体识别方法。
背景技术
随着国内电子病例技术的成熟和应用,产生了大量的电子病历数据,非专业人员认识难以有效利用。
命名实体识别技术能够有效的识别并获取电子病历中特定信息,例如病症、诊疗方案、等等,把这些信息识别出来,可以进行进一步的利用,统计这些不同类别的实体信息和分析这些实体信息之间的关系,为诊疗提供精确的数据支持。目前,人们把深度学习技术应用到中文医学文本上来。但这些深度学习的方法大部分都是面向英文的电子病历的,存在以下问题:
1)使用基于字的词嵌入算法,难以利用词汇的信息。
2)使用基于词的词嵌入算法,会出现分词错误的情况。
3)由于中文的特殊性,带来的一词多义和形声字的问题很难解决。
发明内容
本发明为了克服以上技术的不足,提供了一种提升识别的效果的多特征融合的中文医疗文本命名实体识别方法。
本发明克服其技术问题所采用的技术方案是:
一种多特征融合的中文医疗文本命名实体识别方法,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw;
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1;
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o;
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式计算每个被embedding表示为多特征的词向量为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量输入到Lattice-Lstm模型的Lstm层,通过公式计算得到Lstm层中的单词记忆单元遗忘门输入门及遗忘门信息式中σ为sigmoid函数,tanh为激活函数,为权重矩阵,bz为偏置向量,为第e个字符的多特征的字向量,为e-1时刻的隐藏层状态,为e时刻的隐藏层状态,为对e-1时刻的细胞状态进行更新,为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式计算得到Lattice-Lstm模型中的单词记忆单元遗忘门输入门及词格信息bc为偏置向量,为权重矩阵,为词组首字的细胞状态,为词组首字的隐藏状态;
u)通过公式计算概率P(y|x),式中为第i个隐含层的输出,i∈{1,...,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,为CRF模型中li的参数,为CRF模型中每个li的参数,为li-1到li的偏差,为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,...ll为中文电子病历数据的文本命名输出结果。
进一步的,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。进一步的,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1。
进一步的,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
进一步的,步骤j)中通过公式计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,y′为随机选取的字,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。进一步的,步骤u)中通过公式计算得到损失函数L′,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L′。
本发明的有益效果是:使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice-lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
附图说明
图1为本发明的模型流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种多特征融合的中文医疗文本命名实体识别方法,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw;
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1;
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o;
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
n)将词序列x=c1,c2,…,cn输入Lattice-Lstm模型的嵌入层,通过公式计算每个被embedding表示为多特征的词向量为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)Lattice-Lstm在传统的Lstm的基础上拓展了Word-base cell,将字向量输入到Lattice-Lstm模型的Lstm层,通过公式计算得到Lstm层中的单词记忆单元遗忘门输入门及遗忘门信息式中σ为sigmoid函数,tanh为激活函数,为权重矩阵,bz为偏置向量,为第e个字符的多特征的字向量,为e-1时刻的隐藏层状态,为e时刻的隐藏层状态,为对e-1时刻的细胞状态进行更新,为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式计算得到Lattice-Lstm模型中的单词记忆单元遗忘门输入门及词格信息bc为偏置向量,为权重矩阵,为词组首字的细胞状态,为词组首字的隐藏状态;
u)通过公式计算概率P(y|x),式中为第i个隐含层的输出,i∈{1,…,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,为CRF模型中li的参数,为CRF模型中每个li的参数,为li-1到li的偏差,为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,…ll为中文电子病历数据的文本命名输出结果。
本基于多特征融合的中文医疗文本命名实体识别方法,考虑到中文电子病历语义不清和形声字的情况,针对中文病历领域的特性,使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice-lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
优选的,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。进一步的,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1。
进一步的,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
进一步的,步骤j)中通过公式计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,为了避免softmax带来的巨大计算量,采用了负采样的方式,y′为随机选取的字,称为“负样例”,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。其中语料中出现次数越多的词语越容易被采样到。模型使用随机梯度下降的方法优化损失函数,使模型达到最好的效果。
进一步的,利用维特比算法输出概率最大的序列,就是最终的标签序列P(yi|xi)进行连乘,得到添加log。通过极大似然估计,加上L2的惩罚参数作为损失函数。具体的:步骤u)中通过公式计算得到损失函数L′,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L′,使模型达到最好的效果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种多特征融合的中文医疗文本命名实体识别方法,其特征在于,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw;
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1;
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o;
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式ri z=ez(zj)计算每个字符zj被embedding表示为多特征的字向量ri z,ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式计算每个被embedding表示为多特征的词向量 为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量ri z输入到Lattice-Lstm模型的Lstm层,通过公式计算得到Lstm层中的单词记忆单元遗忘门fe z、输入门及遗忘门信息式中σ为sigmoid函数,tanh为激活函数,为权重矩阵,bz为偏置向量,为第e个字符的多特征的字向量,为e-1时刻的隐藏层状态,为e时刻的隐藏层状态,为对e-1时刻的细胞状态进行更新,为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式计算得到Lattice-Lstm模型中的单词记忆单元遗忘门输入门及词格信息bc为偏置向量,为权重矩阵,为词组首字的细胞状态,为词组首字的隐藏状态;
2.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。
3.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1。
4.根据权利要求3所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110556687.7A CN113191150B (zh) | 2021-05-21 | 2021-05-21 | 一种多特征融合的中文医疗文本命名实体识别方法 |
PCT/CN2021/131596 WO2022242074A1 (zh) | 2021-05-21 | 2021-11-19 | 一种多特征融合的中文医疗文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110556687.7A CN113191150B (zh) | 2021-05-21 | 2021-05-21 | 一种多特征融合的中文医疗文本命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191150A CN113191150A (zh) | 2021-07-30 |
CN113191150B true CN113191150B (zh) | 2022-02-25 |
Family
ID=76984598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110556687.7A Active CN113191150B (zh) | 2021-05-21 | 2021-05-21 | 一种多特征融合的中文医疗文本命名实体识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113191150B (zh) |
WO (1) | WO2022242074A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191150B (zh) * | 2021-05-21 | 2022-02-25 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
CN117195877B (zh) * | 2023-11-06 | 2024-01-30 | 中南大学 | 一种电子病历的词向量生成方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243699A (zh) * | 2020-01-14 | 2020-06-05 | 中南大学 | 基于字词信息融合的中文电子病历实体抽取方法 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
CN111523320A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于深度学习的中文病案分词方法 |
CN112151183A (zh) * | 2020-09-23 | 2020-12-29 | 上海海事大学 | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391485A (zh) * | 2017-07-18 | 2017-11-24 | 中译语通科技(北京)有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN112329465B (zh) * | 2019-07-18 | 2024-06-25 | 株式会社理光 | 一种命名实体识别方法、装置及计算机可读存储介质 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
CN113191150B (zh) * | 2021-05-21 | 2022-02-25 | 山东省人工智能研究院 | 一种多特征融合的中文医疗文本命名实体识别方法 |
-
2021
- 2021-05-21 CN CN202110556687.7A patent/CN113191150B/zh active Active
- 2021-11-19 WO PCT/CN2021/131596 patent/WO2022242074A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243699A (zh) * | 2020-01-14 | 2020-06-05 | 中南大学 | 基于字词信息融合的中文电子病历实体抽取方法 |
CN111444726A (zh) * | 2020-03-27 | 2020-07-24 | 河海大学常州校区 | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 |
CN111523320A (zh) * | 2020-04-20 | 2020-08-11 | 电子科技大学 | 一种基于深度学习的中文病案分词方法 |
CN112151183A (zh) * | 2020-09-23 | 2020-12-29 | 上海海事大学 | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022242074A1 (zh) | 2022-11-24 |
CN113191150A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110008469B (zh) | 一种多层次命名实体识别方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN112989834A (zh) | 一种基于平格增强线性转换器的命名实体识别方法和系统 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN109657061B (zh) | 一种针对海量多词短文本的集成分类方法 | |
CN112151183A (zh) | 一种基于Lattice LSTM模型的中文电子病历的实体识别方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN111753088A (zh) | 一种自然语言信息的处理方法 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
Göker et al. | Neural text normalization for turkish social media | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |