CN106682220A - 一种基于深度学习的在线中医文本命名实体识别方法 - Google Patents
一种基于深度学习的在线中医文本命名实体识别方法 Download PDFInfo
- Publication number
- CN106682220A CN106682220A CN201710003685.9A CN201710003685A CN106682220A CN 106682220 A CN106682220 A CN 106682220A CN 201710003685 A CN201710003685 A CN 201710003685A CN 106682220 A CN106682220 A CN 106682220A
- Authority
- CN
- China
- Prior art keywords
- traditional chinese
- word
- medical science
- chinese medical
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的在线中医文本命名实体识别方法,包括:通过网络爬虫获取在线中医文本数据,利用已有的专业词典及人工辅助对获取的在线中医文本数据中的命名实体进行标注;利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;将在线中医文本数据进行分词,通过查找词汇表,将词语转化为固定长度词向量作为卷积神经网络的输入,当句子长度不足时以空白符填充;将卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果。本发明的方法相比于使用传统方法进行命名实体识别,减少了特征提取的复杂性和工作量,简化了处理过程,显著提高了识别效率。
Description
技术领域
本发明涉及自然语言处理领域,尤其是一种基于深度学习的在线中医文本命名实体识别方法。
背景技术
命名实体识别是从非结构化的自然文本中识别人名、地名、组织结构名、时间和数字表达等有意义的实体指称和类别。命名实体识别是许多自然语言处理技术中的重要组成部分,在线中医文本命名实体识别是识别互联网中医学领域文本中有特定含义的实体,包括疾病、症状、药物、食材等。
现有的相关技术可以分为两类,一类是基于人工规则,例如根据词语出现的概率,将出现次数超过一定概率的词语识别为命名实体;或者根据词语的组成模式,例如人名由姓氏和名字组成等。另一类是基于机器学习方法,当前应用较为广泛的识别技术主要是基于机器学习方法,相关的方法有支持向量机模型(SVM)、最大熵模型(Maximum Entropy)、隐马尔科夫模型(HMM)、条件随机场(CRF)等,其中条件随机场是应用较多的模型。
上述传统的统计学习方法依赖于特征选取的程度较高,特征选取的方法需要基于大量的领域知识和经验,同时需要花费大量的时间精力进行试验,无法保证结果的最优化。如何有效利用大规模无标注语料,实现特征自动提取是众多研究学者的关注课题。另一方面,深度学习在图像处理和语音识别领域取得了相当显著的进展,同时也开始被应用到自然语言处理领域中。深度学习方法能够在一定程度上很好地替代一般的特征提取方法,更好的提取词语、句子、篇章的语义信息,相关的模型有循环神经网络(Recurrent NeuralNetwork)、卷积神经网络、长短时记忆(LSTM)循环神经网络以及一些混合模型的方法等。
发明内容
本发明的目的是针对上述现有技术的不足,提供了一种基于深度学习的在线中医文本命名实体识别方法,该方法有效解决了实际应用中在中医文本大数据上进行命名实体识别的低效率、低准确率问题。
本发明的目的可以通过如下技术方案实现:
一种基于深度学习的在线中医文本命名实体识别方法,所述方法包括以下步骤:
1)通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除等的预处理操作,再利用已有的专业词典等及人工辅助对获取的在线中医文本数据中的命名实体进行标注;
2)利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;
3)将步骤1)中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤2)的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;
4)将多个连续时刻的步骤3)中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。
优选的,步骤1)中,所述对获取的在线中医文本数据中的命名实体进行标注采用的是BIO标注集,即标注集中包含{B,I,O},其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分;
优选的,步骤2)中,所述语料数据的收集通过互联网进行,利用word2vec训练得到的词向量每一维代表了特定的词语特征,可选维度为100、200、500。
优选的,步骤3)中,所述卷积神经网络的卷积层包含多种大小的卷积核,通过词语的上下文信息自动提取文本特征,卷积层后接随时间最大池化层对多个局部卷积特征进行下采样操作。
优选的,步骤3)中,所述卷积神经网络在训练时采用均值为0及方差为2/n的高斯分布进行初始化,其中,n为输入个数,采用随机梯度下降进行迭代求解。
优选的,步骤4)中,所述双向长短时记忆循环神经网络包含两个隐含层,每个隐含层都包含前向长短时记忆循环神经网络和后向长短时记忆循环神经网络组成的双向长短时记忆循环神经网络,对词语的前后上下文特征进行建模。
优选的,步骤4)中,所述双向长短时记忆循环神经网络根据步骤3)中卷积神经网络的输出作为输入,分别计算每个输入词语属于某个命名实体类别标志的概率,以最大概率所属的类别作为词语最后的类别标志。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供了一种基于深度学习方法的在线中医文本命名实体识别方法,采用卷积神经网络对需识别的文本序列提取特征,将特征向量作为数据输入到双向长短时记忆循环神经网络中来完成识别过程,相比于使用传统方法进行命名实体识别,减少了特征提取的复杂性和工作量,简化了处理过程,显著提高了识别效率。
2、本发明将词语转化为固定长度词向量,相比于传统的独热模型,词向量在大规模语料上的扩展性更好,降低了表示维度,减少了存储空间并可以计算词与词之间的相似性,提升了模型的健壮性。
3、本发明采用双向长短时记忆循环神经网络输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据,因此,模型识别当前的词语和训练过程时,利用了当前时刻的输入及上一时刻的语言特征向量,将词语的上下文信息及依赖关系都学习和识别到了,简化了识别的工作,提升了识别效率。
附图说明
图1为本发明实施例采用的基于深度学习的在线中医文本命名实体识别方法流程图。
图2为本发明实施例采用的双向长短时记忆循环神经网络双层网络的结构示意图。
图3为本发明实施例采用的卷积神经网络结构示意图。
图4为本发明实施例采用的长短时记忆神经元结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于深度学习的在线中医文本命名实体识别方法,所述方法的流程图如图1所示,包括以下步骤:
步骤一、通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除等的预处理操作,再利用已有的专业词典等及人工辅助对获取的在线中医文本数据中的命名实体进行标注,标注采用BIO标注集,即标注集中包含{B,I,O},其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分;
步骤二、利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;
本步骤中,语料数据通过互联网收集,利用word2vec训练得到的词向量包含了良好的语义特征,学习了上下文的语义信息,其中的每一维代表了特定的词语特征,维度较少,一般的可选维度为100、200、500等。
步骤三、将步骤一中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤二的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;
本步骤中,当词语位于句子首尾或句子长度不足时,用空白符Padding补足到句子M,多个词语组成向量矩阵并作为卷积神经网络的输入,表1与表2为步骤三的一个相关示例:
表1
表2
进一步地,本步骤中,所述卷积神经网络的卷积层包含多种大小的卷积核,通过词语的上下文信息自动提取文本特征,卷积层后接随时间最大池化层对多个局部卷积特征进行下采样操作。所述卷积神经网络在训练时采用均值为0及方差为2/n的高斯分布进行初始化,采用随机梯度下降进行迭代求解。
所述均值为0及方差为2/n的高斯分布初始化方法即MSRA初始化方法,该方法替代了传统的高斯分布初始化方法,解决了深度网络难以收敛的问题,公式如下:
其中n为输入个数。
所述卷积神经网络结构示意图如图3所示,第一层为卷积层,包括多个大小的卷积核,每个大小的卷积核有多个,每个卷积核宽度与词语向量的长度相同,通过训练后得到包含不同权值的权重矩阵,每个输入的向量矩阵分别与不同的权重矩阵进行二维卷积计算,得到局部卷积特征图,卷积层的前向传播可以表示为如下公式:
其中1为当前卷积层下标,x为对应层的输出,j为特征图下标,w为卷积核参数,b为偏置,M表示输入集合,其中f函数为激励函数,选择ReLu作为激励函数,它可以使网络稀疏化,减少参数依赖和过拟合的情况。
所述ReLu函数可以表示为:
f(x)=max(0,x)
其中max函数表示取0和x中的最大值。
所述卷积神经网络的第二层是Max-over-time Pooling层,对上层的输出进行降维,减少过拟合,减少模型参数,对于上述卷积核得到的每个特征图输出中都只保留最大的值。
所述卷积神经网络的最后部分是全连接网络,全连接网络的输出是固定长度的向量,作为下层长短时记忆(LSTM)循环神经网络的输入,全连接网络以上层的输出为输入,通过误差反向传播的方式进行训练。
步骤四、将多个连续时刻的步骤三中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。
本步骤中,所述双向长短时记忆循环神经网络包含两个隐含层,如图2所示,每个隐含层都包含前向长短时记忆循环神经网络和后向长短时记忆循环神经网络组成的双向长短时记忆循环神经网络,对词语的前后上下文特征进行建模。
本步骤中,所述双向长短时记忆循环神经网络根据步骤三中卷积神经网络的输出作为输入,分别计算每个输入词语属于某个命名实体类别标志的概率,以最大概率所属的类别作为词语最后的类别标志。
本步骤中,双向长短时记忆(LSTM)循环神经网络利用了前后词语的特征、中间词特征、命名实体特征,LSTM循环神经网络网络是对传统RNN(Recurrent Neural Network)的改进,通过引入单元状态来保留一定时间的记忆信息,避免了求导时梯度消失的问题,LSTM网络包括一个输入层、两个隐含层和一个softmax层,通过BPTT(Backpropagation ThroughTime)的方法进行学习,实现网络误差反向传播及权重更新,具体组成部分如下:
输入层包括多个单元,每个单元的输入为上层卷积网络的输出,一定长度的输出组成LSTM网络的输入;
隐含层接受上层输入,每个隐含层由指定数量的LSTM单元组成,每个单元由输入门、遗忘门、输出门和自连接组成,具体结构如图4所示,可以用如下公式描述:
i=sigmoid(xtUi+st-1Wi+bi)
f=sigmoid(xtUf+st-1Wf+bf)
o=sigmoid(xtUo+st-1Wo+bo)
g=tanT(xtUg+st-1Wg+bg)
其中i、f、o分别表示输入门、遗忘门、输出门的输出,t表示t时刻,t-1表示上一时刻,bi、bf、bo、bg表示相应的偏置向量,ɡ、s分别表示输入激活函数的输出和输出激活函数的输出,c为单元最后的记忆状态,U、W表示相应的权值矩阵。
其中遗忘门控制了单元从过去的“记忆”中需要保留或丢弃的信息,输出越接近于1表示保留的相关信息越多,即控制文本的上下文对当前词语的影响,输入门控制了获得新的输入后,单元需要保留的信息,输出门控制了信息有多少程度上是对外可见的。
每个隐含层包括从前往后传递的LSTM循环神经网络和从后往前传递的LSTM循环神经网络,同一个隐含层的不同传递方向的神经单元不直接连接。
倒数第二层为单层全连接层,最后一层为softmax分类器,根据输出的最大概率值来判断相应的每个词语的命名实体标注。
本方法的标注采用经典的BIO模型进行标注,将命名实体分为两类,即食材(用F表示)、病症(用D表示),其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分,例如针对句子“你描述的问题是因为胃热的症状”,相应标记如表3所示:
你 | 描 | 述 | 的 | 问 | 题 | 是 | 因 | 为 | 胃 | 热 | 的 | 症 | 状 |
O | O | O | O | O | O | O | O | O | B-D | I-D | O | O | O |
表3
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (7)
1.一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:所述方法包括以下步骤:
1)通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除的预处理操作,再利用已有的专业词典及人工辅助对获取的在线中医文本数据中的命名实体进行标注;
2)利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;
3)将步骤1)中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤2)的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;
4)将多个连续时刻的步骤3)中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。
2.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤1)中,所述对获取的在线中医文本数据中的命名实体进行标注采用的是BIO标注集,即标注集中包含{B,I,O},其中B表示命名实体词语的开头,I表示实体词语的其余部分,O表示词语不属于命名实体的部分。
3.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤2)中,所述语料数据的收集通过互联网进行,利用word2vec训练得到的词向量每一维代表了特定的词语特征,可选维度为100、200、500。
4.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤3)中,所述卷积神经网络的卷积层包含多种大小的卷积核,通过词语的上下文信息自动提取文本特征,卷积层后接随时间最大池化层对多个局部卷积特征进行下采样操作。
5.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤3)中,所述卷积神经网络在训练时采用均值为0及方差为2/n的高斯分布进行初始化,采用随机梯度下降进行迭代求解。
6.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤4)中,所述双向长短时记忆循环神经网络包含两个隐含层,每个隐含层都包含前向长短时记忆循环神经网络和后向长短时记忆循环神经网络组成的双向长短时记忆循环神经网络,对词语的前后上下文特征进行建模。
7.根据权利要求1所述的一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:步骤4)中,所述双向长短时记忆循环神经网络根据步骤3)中卷积神经网络的输出作为输入,分别计算每个输入词语属于某个命名实体类别标志的概率,以最大概率所属的类别作为词语最后的类别标志。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710003685.9A CN106682220A (zh) | 2017-01-04 | 2017-01-04 | 一种基于深度学习的在线中医文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710003685.9A CN106682220A (zh) | 2017-01-04 | 2017-01-04 | 一种基于深度学习的在线中医文本命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106682220A true CN106682220A (zh) | 2017-05-17 |
Family
ID=58849818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710003685.9A Pending CN106682220A (zh) | 2017-01-04 | 2017-01-04 | 一种基于深度学习的在线中医文本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682220A (zh) |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106981198A (zh) * | 2017-05-24 | 2017-07-25 | 北京航空航天大学 | 用于旅行时间预测的深度学习网络模型及其建立方法 |
CN107452374A (zh) * | 2017-07-11 | 2017-12-08 | 上海交通大学 | 基于单向自标注辅助信息的多视角语言识别方法 |
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN107608953A (zh) * | 2017-07-25 | 2018-01-19 | 同济大学 | 一种基于不定长上下文的词向量生成方法 |
CN107595243A (zh) * | 2017-07-28 | 2018-01-19 | 深圳和而泰智能控制股份有限公司 | 一种病症评估方法及终端设备 |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107908642A (zh) * | 2017-09-29 | 2018-04-13 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN107967251A (zh) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的命名实体识别方法 |
CN108021557A (zh) * | 2017-12-25 | 2018-05-11 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的不规则实体识别方法 |
CN108182976A (zh) * | 2017-12-28 | 2018-06-19 | 西安交通大学 | 一种基于神经网络的临床医学信息提取方法 |
CN108197294A (zh) * | 2018-01-22 | 2018-06-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108335210A (zh) * | 2018-03-07 | 2018-07-27 | 浙江大学 | 一种基于舆论数据的股票异动分析方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN108549638A (zh) * | 2018-04-19 | 2018-09-18 | 心承智慧(海口)健康科技有限公司 | 一种中医古代文献半监督学习方法和系统 |
CN108563782A (zh) * | 2018-04-25 | 2018-09-21 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
CN108595429A (zh) * | 2018-04-25 | 2018-09-28 | 杭州闪捷信息科技股份有限公司 | 基于深度卷积神经网络进行文本特征提取的方法 |
CN108805290A (zh) * | 2018-06-28 | 2018-11-13 | 国信优易数据有限公司 | 一种实体类别的确定方法及装置 |
CN108874776A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种垃圾文本的识别方法及装置 |
WO2019015269A1 (zh) * | 2017-07-18 | 2019-01-24 | 中译语通科技股份有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
CN109271632A (zh) * | 2018-09-14 | 2019-01-25 | 重庆邂智科技有限公司 | 一种监督的词向量学习方法 |
CN109493956A (zh) * | 2018-10-15 | 2019-03-19 | 海口市人民医院(中南大学湘雅医学院附属海口医院) | 一种导诊方法 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN109740160A (zh) * | 2018-12-31 | 2019-05-10 | 浙江成功软件开发有限公司 | 一种基于人工智能语义分析的任务发布方法 |
CN109743311A (zh) * | 2018-12-28 | 2019-05-10 | 北京神州绿盟信息安全科技股份有限公司 | 一种WebShell检测方法、装置及存储介质 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
CN109885825A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于注意力机制的命名实体识别方法、装置和计算机设备 |
CN109948665A (zh) * | 2019-02-28 | 2019-06-28 | 中国地质大学(武汉) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 |
CN110019773A (zh) * | 2017-08-14 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种垃圾短信检测方法、终端及计算机可读存储介质 |
CN110134953A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 基于中医古籍文献的中医命名实体识别方法及识别系统 |
CN110162782A (zh) * | 2019-04-17 | 2019-08-23 | 平安科技(深圳)有限公司 | 基于医学词典的实体提取方法、装置、设备及存储介质 |
CN110223737A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 一种中药化学成分命名实体识别方法与装置 |
CN110277175A (zh) * | 2019-06-28 | 2019-09-24 | 电子科技大学 | 一种基于深度信念网络的中药不良作用识别方法 |
CN110490031A (zh) * | 2018-05-15 | 2019-11-22 | 武汉斗鱼网络科技有限公司 | 一种通用数字识别的方法、存储介质、电子设备及系统 |
WO2019227629A1 (zh) * | 2018-05-30 | 2019-12-05 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN110634470A (zh) * | 2018-06-06 | 2019-12-31 | 北京深鉴智能科技有限公司 | 智能语音处理方法和装置 |
CN111180019A (zh) * | 2018-11-09 | 2020-05-19 | 上海云贵信息科技有限公司 | 一种基于深度学习的化合物参数自动提取方法 |
CN111221896A (zh) * | 2018-11-27 | 2020-06-02 | 北京京东尚科信息技术有限公司 | 用户行为预测方法及装置、电子设备、存储介质 |
CN111274812A (zh) * | 2018-12-03 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 一种人物关系识别方法、设备及存储介质 |
CN111738226A (zh) * | 2020-07-31 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
CN111985246A (zh) * | 2020-08-27 | 2020-11-24 | 武汉东湖大数据交易中心股份有限公司 | 一种基于主要症状与伴随症状词的疾病认知系统 |
CN113035303A (zh) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种中文电子病历的命名实体类别标注方法与系统 |
JP2022010403A (ja) * | 2019-02-08 | 2022-01-14 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN114818711A (zh) * | 2022-04-27 | 2022-07-29 | 天津大学 | 基于神经网络的多信息融合命名实体识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
-
2017
- 2017-01-04 CN CN201710003685.9A patent/CN106682220A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719122A (zh) * | 2009-12-04 | 2010-06-02 | 中国人民解放军信息工程大学 | 一种从文本数据中提取中文命名实体的方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN104899304A (zh) * | 2015-06-12 | 2015-09-09 | 北京京东尚科信息技术有限公司 | 命名实体识别方法及装置 |
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
XUEZHE MA 等: "《End-to-end_Sequence_Labeling_via_Bi-directional_LS》", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS (VOLUME 1: LONG PAPERS)》 * |
苏娅 等: "《在线医疗文本中的实体识别研究》", 《北京大学学报(自然科学版)》 * |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106981198A (zh) * | 2017-05-24 | 2017-07-25 | 北京航空航天大学 | 用于旅行时间预测的深度学习网络模型及其建立方法 |
CN106981198B (zh) * | 2017-05-24 | 2020-11-03 | 北京航空航天大学 | 用于旅行时间预测的深度学习网络模型及其建立方法 |
CN107451433A (zh) * | 2017-06-27 | 2017-12-08 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN107451433B (zh) * | 2017-06-27 | 2020-05-22 | 中国科学院信息工程研究所 | 一种基于文本内容的信息源识别方法与装置 |
CN107452374A (zh) * | 2017-07-11 | 2017-12-08 | 上海交通大学 | 基于单向自标注辅助信息的多视角语言识别方法 |
CN107452374B (zh) * | 2017-07-11 | 2020-05-05 | 上海交通大学 | 基于单向自标注辅助信息的多视角语言识别方法 |
WO2019015269A1 (zh) * | 2017-07-18 | 2019-01-24 | 中译语通科技股份有限公司 | 基于最大熵和神经网络模型的韩语命名实体识别方法 |
CN107608953A (zh) * | 2017-07-25 | 2018-01-19 | 同济大学 | 一种基于不定长上下文的词向量生成方法 |
CN107595243A (zh) * | 2017-07-28 | 2018-01-19 | 深圳和而泰智能控制股份有限公司 | 一种病症评估方法及终端设备 |
CN107595243B (zh) * | 2017-07-28 | 2021-08-17 | 深圳和而泰智能控制股份有限公司 | 一种病症评估方法及终端设备 |
CN110019773A (zh) * | 2017-08-14 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种垃圾短信检测方法、终端及计算机可读存储介质 |
CN107908642A (zh) * | 2017-09-29 | 2018-04-13 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN107908642B (zh) * | 2017-09-29 | 2021-11-12 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107967251A (zh) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107832289A (zh) * | 2017-10-12 | 2018-03-23 | 北京知道未来信息技术有限公司 | 一种基于lstm‑cnn的命名实体识别方法 |
CN108021557A (zh) * | 2017-12-25 | 2018-05-11 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的不规则实体识别方法 |
CN108182976A (zh) * | 2017-12-28 | 2018-06-19 | 西安交通大学 | 一种基于神经网络的临床医学信息提取方法 |
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108197294A (zh) * | 2018-01-22 | 2018-06-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
CN108197294B (zh) * | 2018-01-22 | 2021-10-22 | 桂林电子科技大学 | 一种基于深度学习的文本自动生成方法 |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108335210A (zh) * | 2018-03-07 | 2018-07-27 | 浙江大学 | 一种基于舆论数据的股票异动分析方法 |
CN108509419A (zh) * | 2018-03-21 | 2018-09-07 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN108509419B (zh) * | 2018-03-21 | 2022-02-22 | 山东中医药大学 | 中医药古籍文献分词和词性标引方法及系统 |
CN108549638A (zh) * | 2018-04-19 | 2018-09-18 | 心承智慧(海口)健康科技有限公司 | 一种中医古代文献半监督学习方法和系统 |
CN108595429A (zh) * | 2018-04-25 | 2018-09-28 | 杭州闪捷信息科技股份有限公司 | 基于深度卷积神经网络进行文本特征提取的方法 |
CN108563782A (zh) * | 2018-04-25 | 2018-09-21 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
CN108563782B (zh) * | 2018-04-25 | 2023-04-18 | 平安科技(深圳)有限公司 | 商品信息格式处理方法、装置、计算机设备和存储介质 |
CN110490031A (zh) * | 2018-05-15 | 2019-11-22 | 武汉斗鱼网络科技有限公司 | 一种通用数字识别的方法、存储介质、电子设备及系统 |
WO2019227629A1 (zh) * | 2018-05-30 | 2019-12-05 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN110634470A (zh) * | 2018-06-06 | 2019-12-31 | 北京深鉴智能科技有限公司 | 智能语音处理方法和装置 |
CN108874776B (zh) * | 2018-06-11 | 2022-06-03 | 北京奇艺世纪科技有限公司 | 一种垃圾文本的识别方法及装置 |
CN108874776A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种垃圾文本的识别方法及装置 |
CN108805290A (zh) * | 2018-06-28 | 2018-11-13 | 国信优易数据有限公司 | 一种实体类别的确定方法及装置 |
CN109271632A (zh) * | 2018-09-14 | 2019-01-25 | 重庆邂智科技有限公司 | 一种监督的词向量学习方法 |
CN109493956A (zh) * | 2018-10-15 | 2019-03-19 | 海口市人民医院(中南大学湘雅医学院附属海口医院) | 一种导诊方法 |
CN109522415A (zh) * | 2018-10-17 | 2019-03-26 | 厦门快商通信息技术有限公司 | 一种语料标注方法及装置 |
CN111180019A (zh) * | 2018-11-09 | 2020-05-19 | 上海云贵信息科技有限公司 | 一种基于深度学习的化合物参数自动提取方法 |
CN111221896A (zh) * | 2018-11-27 | 2020-06-02 | 北京京东尚科信息技术有限公司 | 用户行为预测方法及装置、电子设备、存储介质 |
CN111274812B (zh) * | 2018-12-03 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 一种人物关系识别方法、设备及存储介质 |
CN111274812A (zh) * | 2018-12-03 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 一种人物关系识别方法、设备及存储介质 |
CN109753653A (zh) * | 2018-12-25 | 2019-05-14 | 金蝶软件(中国)有限公司 | 实体名称识别方法、装置、计算机设备和存储介质 |
CN109743311A (zh) * | 2018-12-28 | 2019-05-10 | 北京神州绿盟信息安全科技股份有限公司 | 一种WebShell检测方法、装置及存储介质 |
CN109743311B (zh) * | 2018-12-28 | 2021-10-22 | 绿盟科技集团股份有限公司 | 一种WebShell检测方法、装置及存储介质 |
CN109740160A (zh) * | 2018-12-31 | 2019-05-10 | 浙江成功软件开发有限公司 | 一种基于人工智能语义分析的任务发布方法 |
CN109885825A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于注意力机制的命名实体识别方法、装置和计算机设备 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
JP2022010403A (ja) * | 2019-02-08 | 2022-01-14 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP7258988B2 (ja) | 2019-02-08 | 2023-04-17 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
CN109948665A (zh) * | 2019-02-28 | 2019-06-28 | 中国地质大学(武汉) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 |
CN109948665B (zh) * | 2019-02-28 | 2020-11-27 | 中国地质大学(武汉) | 基于长短时记忆神经网络的人体活动类型分类方法及系统 |
CN110162782B (zh) * | 2019-04-17 | 2022-04-01 | 平安科技(深圳)有限公司 | 基于医学词典的实体提取方法、装置、设备及存储介质 |
CN110162782A (zh) * | 2019-04-17 | 2019-08-23 | 平安科技(深圳)有限公司 | 基于医学词典的实体提取方法、装置、设备及存储介质 |
CN110134953B (zh) * | 2019-05-05 | 2020-12-18 | 北京科技大学 | 基于中医古籍文献的中医命名实体识别方法及识别系统 |
CN110134953A (zh) * | 2019-05-05 | 2019-08-16 | 北京科技大学 | 基于中医古籍文献的中医命名实体识别方法及识别系统 |
CN110223737A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 一种中药化学成分命名实体识别方法与装置 |
CN110277175A (zh) * | 2019-06-28 | 2019-09-24 | 电子科技大学 | 一种基于深度信念网络的中药不良作用识别方法 |
CN111738226A (zh) * | 2020-07-31 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
CN111738226B (zh) * | 2020-07-31 | 2020-11-20 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
CN111985246A (zh) * | 2020-08-27 | 2020-11-24 | 武汉东湖大数据交易中心股份有限公司 | 一种基于主要症状与伴随症状词的疾病认知系统 |
CN111985246B (zh) * | 2020-08-27 | 2023-08-15 | 武汉东湖大数据交易中心股份有限公司 | 一种基于主要症状与伴随症状词的疾病认知系统 |
CN113035303A (zh) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种中文电子病历的命名实体类别标注方法与系统 |
CN114818711A (zh) * | 2022-04-27 | 2022-07-29 | 天津大学 | 基于神经网络的多信息融合命名实体识别方法 |
CN114818711B (zh) * | 2022-04-27 | 2024-09-06 | 天津大学 | 基于神经网络的多信息融合命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682220A (zh) | 一种基于深度学习的在线中医文本命名实体识别方法 | |
CN105740349B (zh) | 一种结合Doc2vec和卷积神经网络的情感分类方法 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN107330032B (zh) | 一种基于递归神经网络的隐式篇章关系分析方法 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN104298651B (zh) | 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法 | |
CN110717334A (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN110516245A (zh) | 细粒度情感分析方法、装置、计算机设备及存储介质 | |
CN111444726A (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN109492232A (zh) | 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法 | |
CN110297908A (zh) | 诊疗方案预测方法及装置 | |
CN109472024A (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN109697232A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN108108449A (zh) | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN105512209A (zh) | 一种基于特征自动学习的生物医学事件触发词识别方法 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN106126507A (zh) | 一种基于字符编码的深度神经翻译方法及系统 | |
CN105938485A (zh) | 一种基于卷积循环混合模型的图像描述方法 | |
CN108388560A (zh) | 基于语言模型的gru-crf会议名称识别方法 | |
CN109858041A (zh) | 一种半监督学习结合自定义词典的命名实体识别方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN113553440B (zh) | 一种基于层次推理的医学实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170517 |