CN111222325A - 一种双向栈式循环神经网络的医疗语义标注方法和系统 - Google Patents
一种双向栈式循环神经网络的医疗语义标注方法和系统 Download PDFInfo
- Publication number
- CN111222325A CN111222325A CN201911396702.5A CN201911396702A CN111222325A CN 111222325 A CN111222325 A CN 111222325A CN 201911396702 A CN201911396702 A CN 201911396702A CN 111222325 A CN111222325 A CN 111222325A
- Authority
- CN
- China
- Prior art keywords
- medical
- text
- neural network
- words
- bidirectional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种双向栈式循环神经网络的医疗语义标注方法和系统,其处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。本发明提高了模型拟合复杂模式的能力,并能更好地建模跨不同时间步的模式,能解决中文医学文本的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。
Description
技术领域
本发明涉及医疗领域,特别是涉及一种双向栈式循环神经网络的医疗语义标注方法和系统。
背景技术
医疗文本数据以自然语言形式存在,其中含有的数据如病史、诊断、病程记录、检查结果等,常为长文本的形式。传统小样本医学研究中,医疗文本数据的抽取、标准化由人工实现。近年来随着数据挖掘技术迅速发展及其在医疗行业的广泛应用,医学研究对于样本量的需求越来越大。使用自然语言处理(NLP)技术进行医疗文本数据的结构化,为快速获取大样本的结构化医疗数据提供了可能。
NLP属于人工智能的子领域,其核心目的是使得计算机能够理解和生成人类的自然语言,任务主要包括信息抽取、机器翻译、情感分析、摘要提取等,所用到的技术包括命名实体识别、语义消歧、指代消解、词性标注、结构分析等。
命名实体指文本中具有特定意义或指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。医学命名实体指医学文本中的医学专有名词,医学命名实体识别指从非结构化的医学文本中抽取出业务需要的医学专有名词。
因为医学领域命名体系复杂、缩略语规则多样化,医学命名实体具有下述三方面的问题:
一,医学命名实体意义不明确,存在多词一意、一词多意的问题;
二,部分医学命名实体是复合多词短语,需确定其在句子中的左右边界;
三,部分医学命名实体具有命名方式过长、命名实体存在嵌套等特征。
因为目前不存在完整的权威医学命名实体词典,无法简单地利用文本匹配算法实现医学命名实体识别。
基于循环神经网络RNN和条件随机场CRF的方法中,循环神经网络(RNN)将句子中各个字的char embedding序列作为每个时间步的输入,得到隐状态序列,从而得到自动提取的句子特征。而后接入条件随机场(CRF)层来进行标注,模型在解码时使用动态规划的Viterbi算法来求解最优路径,从而完成中文医学文本进行语义角色标注的任务。
由于医学文本中存在复合短语以及特有的医学名词,使用循环神经网络和条件随机场进行文本标注存在两点不足:
一是在使用循环神经网络进行医学中文实体识别时,由于链式法则的原因,会出现累乘项,而医学中文实体的识别由于其特殊性,累乘项的数量会很多,因此会出现RNN梯度消失的问题,使得参数更新缓慢,甚至是停止更新,从而使训练失败。
二是由于使用RNN进行实体识别时,只是从时间正序上进行实体识别,同时由于医学中文的特殊性(一词多义,多词一义),因此需要大量已标注训练语料才能达到训练目的;同时,对医学中的识别训练模型的复杂度要求高,对RNN的层数和复杂度也要求高。
另一个方法是利用双向循环神经网络BRNN和条件随机场CRF实现中文文本的语义标注。双向循环神经网络BRNN的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络RNN,而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。对于数据的中文短语或词句,在每个输入的词或字,输入会同时提供给两个方向相反的RNN,输出由这两个单向RNN共同决定。因此,较传统RNN神经网络,BRNN能同时记录输入的t+1(未来时序)和t-1(过去时序)的关系,因此能更好的识别中文文本中的命名实体。
使用双向循环神经网络BRNN和条件随机场CRF的方法存在三个缺点:
一是双向循环神经网络BRNN的特征需有谓语动词作为输入,而原始医学文本大多是短语或词项,不一定能准确标注出谓语动词,因此对于医学文本段的标注存在限制,泛化能力弱。
二是在医学命名实体中,存在大量复合型长短语,由于BRNN只记录了t+1与t-1的时序关系,对长程关系的识别能力比较弱,无法满足医学命名实体识别要求。
三是部分医学命名实体具有命名方式过长、命名实体存在嵌套,使用BRNN无法很好的识别嵌套关系。
发明内容
有鉴于此,本发明提出一种双向栈式循环神经网络的医疗语义标注方法和系统,利用循环神经网络,采用合并递归模式,堆叠多个循环神经网络单元构建起一个栈式深层网络,其中双向循环神经网络构成一个单元,最终形成多组栈式堆叠单元,来解决中文医学文本中的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。
为解决上述技术问题,本发明采用的一个技术方案是:提出一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:
步骤一:获取医疗文本;
步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
进一步的,所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。
所述已初步处理的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词;
所述初步的医学实体标识中,包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;
所述已初步标注的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;
所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
进一步的,上述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。
对应上述方法,所述双向栈式循环神经网络的医疗语义标注系统包括:
输入单元,用于获取医疗文本;
单词处理单元,用于将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
双词处理单元,用于将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
多词处理单元,用于将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
词性解码单元,用于将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述单词处理单元、双词处理单元以及多词处理单元中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
本发明的有益效果在于:提出了一种双向栈式循环神经网络的医疗语义标注方法和系统,利用循环神经网络,采用合并递归模式,堆叠多个循环神经网络单元构建起一个栈式深层网络,其中双向循环神经网络构成一个单元,最终形成多组栈式堆叠单元,最后通过序列标注单元进行标注,提高了模型拟合复杂模式的能力,并能够更好地建模跨不同时间步的模式,解决中文医学文本中的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。
附图说明
图1是本发明一种双向栈式循环神经网络的医疗语义标注系统的结构示意图;
图2是本发明一种双向栈式循环神经网络的医疗语义标注系统所示的一较佳实施例的输入向量示意图;
图3是本发明一种双向栈式循环神经网络的医疗语义标注系统所示的一较佳实施例的训练结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请涉及一种双向栈式循环神经网络的医疗语义标注方法,包括以下步骤:
步骤一:获取医疗文本;
步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
其中,所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。
所述已初步处理的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词;
所述初步的医学实体标识中,包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;
所述已初步标注的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;
所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
优选的,上述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。
针对上述方法本申请发明了一种对应的一种双向栈式循环神经网络的医疗语义标注系统,现举例说明:
实施例一
结合图1所示,本实施例提供的一种双向栈式循环神经网络的医疗语义标注系统包括:输入单元、单词处理单元、双词处理单元、多词处理单元、词性解码单元。
系统中的单词处理单元、双词处理单元、多词处理单元分别包括至少一个双向循环神经网络,从而形成双向栈式的循环神经网络结构。根据实际业务的不同需求,可以调整所包含的双向循环神经网络的数量。词性解码单元可使用包括但不限于条件随机场CRF、隐马尔科夫链HMM等序列标注模型来进行标注。
本实施例给出的单词处理单元、双词处理单元、多词处理单元都包含一个双向循环神经网络,循环神经网络具体使用的是长短时序记忆网络LSTM,词性解码单元使用CRF进行标注。下面详细说明本实施例:
输入单元,获取医疗文本“5年前外院(具体不详)诊断为“肾炎”,未予特殊处理,近一个月来纳差,半个月前至外院就诊,测血压:180/95mmHg,查肾功能:K:6.04mmol/L,Cr:1605μmol/L,BUN:62.75mmol/L。尿常规:尿蛋白:+++,尿白细胞:-,红细胞:±。血常规:2010-9-28,WBC:6.21×109/L,HGB:6.21g/L;PLT:184×109/L。诊断:慢性肾小球肾炎,慢性肾功能不全,肾性贫血,肾性高血压,肾性骨病。患者未行血液透析治疗,口服尿素清,降钾树脂,碳酸钙,益三醇,拜新同等治疗,今转诊我院,急诊查肾功能:K:4.7mmol/L,Cr:1694μmol/L,BUN:64.78mmol/L。”作为输入,并将所述医疗文本传递给单词处理单元;
单词处理单元,用于将上述医疗文本进行初步拆分拼接,得到已初步处理的文本;
所述已初步处理的文本中,包括医疗文本中所有的由单个词语组成的医学实体词,例如“慢性”、“肾小球”、“肾炎”、“血液”、“透析”等。
双词处理单元,用于将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识。
所述初步的医学实体标识中,包括医疗文本中所有的由单个词语组成的医学实体词和由两个词语组成的医学实体词。例如由两个词语组成的医学实体词有“肾小球肾炎”、“血液透析”。
多词处理单元,用于将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
所述已初步标注的文本中,包括医疗文本中所有的由单个词语组成的医学实体词、由两个词语组成的医学实体词和由多个词语组成的医学实体词;例如由多个词语组成的医学实体词有“慢性肾小球肾炎”、“慢性肾功能不全”等。
词性解码单元,用于将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果。
所述解码单元输出医疗文本的语义标注结果,能够标注出医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
本实施例的语义标注结果中,标注出了:
时间信息:“5年前”;
疾病信息:“肾炎”、“慢性肾小球肾炎”、“慢性肾功能不全”、“肾性贫血”、“肾性高血压”、“肾性骨病”;
治疗信息:“血液透析”、“尿素清”“降钾树脂”、“碳酸钙”、“益三醇”、“拜新同”;
症状信息:“血压:180/95mmHg”、“肾功能:K:6.04mmol/L,Cr:1605μmol/L,BUN:62.75mmol/L”、“憋气”、“排气”、“排便”、“发热”、“Tmax39.5℃”等。
实施例二:
本实施例提供了一种双向栈式循环神经网络的医疗语义标注系统中的输入单元、单词处理单元、双词处理单元、多词处理单元、词性解码单元的参数训练过程。
本系统中的单词处理单元、双词处理单元、多词处理单元分别包括至少一个双向循环神经网络,从而形成双向栈式的循环神经网络结构。根据实际业务的不同需求,可以调整所包含的双向循环神经网络的数量。
本实施例给出了对单词处理单元、双词处理单元、多词处理单元、词性解码单元进行训练并确定合适参数的过程。其中单词处理单元、双词处理单元、多词处理单元分别包含一个双向LSTM,词性解码单元使用CRF进行标注。具体步骤如下:
S301,进行数据准备:
本实施例的训练和测试数据采用某医院的电子病历,并主要抽取电子病历中“现病史”段落进行清洗、分句和标注。处理过程如下:
S3011,抽取“现病史”段落,并进行清洗,将段落按句切割,一句对应一条样本;
S302,采用自定义词典,利用分词工具进行分词、标注词性。分词工具可选Jieba或LTP。本实施例使用Jieba进行分词,LTP进行标注词性;
S3013,利用字典检索分词后的实体词,并标注对应标签。疾病实体词标注为“B-AM-DIS”,症状实体词标注为“B-AM-SYM”,时间实体词标注为“B-AM-DATE”,治疗实体词标注为“B-AM-TRA”,症状属性实体词可根据属性类别对应标注,例如:“B-AM-BODY”(身体部位),“B-AM-COLOR”(症状颜色)等;
S3014,对句子中词性为动词的非实体词标注为“B-V”,其他非实体词、非动词均标注为“O”。
S302,选择特征向量:
本实施例构建了4个文本特征,分别是:输入序列中的每个词、输入序列中的谓语动词、谓语动词上下文以及谓语动词的上下文区域标记。
其中,输入序列词与谓语动词的上下文共享一个词表,采用word2vec训练的词向量作为词表;谓语动词和上下文区域标记各有独立词表。
如图2所示,结合需要学习的标签,本实施例的输入模型共有五个向量:输入序列中的每个词、输入序列中的谓语动词、谓语动词上下文以及谓语动词的上下文区域标记、标注序列。
S303,训练结果:
如图3所示可知,由短语样本训练的模型可以达到更佳的性能,总体准确率是98.33%,其中症状和日期实体词的精确度、召回率均在97%以上,疾病实体词的精确度和召回率则稳定在90%。相较之下,由长文本样本训练的模型准确率为87.11%,日期实体词的召回率略低,仅为23.1%,精确度则达到99%。
S304,进行结果分析:
通过对实体标签的增减、损失度的调整以及标注规则的测试,本实施例得出以下结论:
(1)对于长文本(sample)的训练,cost稳定在10,模型预测效果较好;对于短语(phrase)的训练,cost稳定在1、0.5,模型预测效果较好;
(2)总体看,短语(phrase)的模型预测结果优于长文本(sample);
(3)增减TEMP(体温)标签对短语模型训练的影响非常小,对长文本模型影响大;
(4)目前结果看,标签合并比分标签训练效果要好一些;
(5)cost越小,时间新词的发现可能性越低。
以上所述仅为本发明的实施例、并非因此限制本发明的专利范围、凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换、或直接或间接运用在其他相关的技术领域、均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:
步骤一:获取医疗文本;
步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
2.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于:所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。
3.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于:
所述已初步处理的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词;
所述初步的医学实体标识中,包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;
所述已初步标注的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;
所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
4.如权利要求1-3任意一个所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于,所述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。
5.一种双向栈式循环神经网络的医疗语义标注系统,其特征在于,所述系统包括如下单元:
输入单元,用于获取医疗文本;
单词处理单元,用于将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
双词处理单元,用于将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
多词处理单元,用于将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
词性解码单元,用于将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述单词处理单元、双词处理单元以及多词处理单元中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
6.如权利要求5所述的一种双向栈式循环神经网络的医疗语义标注系统,其特征在于:所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。
7.如权利要求5所述的一种双向栈式循环神经网络的医疗语义标注系统,其特征在于:
所述已初步处理的文本中,包括医疗文本中所有的由单个词语组成的医学实体词;
所述初步的医学实体标识中,包括医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;
所述已初步标注的文本中,包括医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;
所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
8.如权利要求5-7任意一个所述的一种双向栈式循环神经网络的医疗语义标注系统,其特征在于,所述词性解码单元,至少使用包括条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396702.5A CN111222325A (zh) | 2019-12-30 | 2019-12-30 | 一种双向栈式循环神经网络的医疗语义标注方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396702.5A CN111222325A (zh) | 2019-12-30 | 2019-12-30 | 一种双向栈式循环神经网络的医疗语义标注方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111222325A true CN111222325A (zh) | 2020-06-02 |
Family
ID=70827913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911396702.5A Pending CN111222325A (zh) | 2019-12-30 | 2019-12-30 | 一种双向栈式循环神经网络的医疗语义标注方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222325A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681731A (zh) * | 2020-06-10 | 2020-09-18 | 杭州美腾科技有限公司 | 一种对检查报告进行自动颜色标注的方法 |
CN113688627A (zh) * | 2021-09-13 | 2021-11-23 | 国网电子商务有限公司 | 一种用于意图识别的词义角色标注方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
US20180174576A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Acoustic-to-word neural network speech recognizer |
US20180211153A1 (en) * | 2017-01-24 | 2018-07-26 | Sas Institute Inc. | Pattern identifier system |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN110211132A (zh) * | 2019-05-27 | 2019-09-06 | 东南大学 | 基于切片网络的点云语义分割改进算法 |
CN110610003A (zh) * | 2019-08-15 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 用于辅助文本标注的方法和系统 |
-
2019
- 2019-12-30 CN CN201911396702.5A patent/CN111222325A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
US20180174576A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Acoustic-to-word neural network speech recognizer |
US20180211153A1 (en) * | 2017-01-24 | 2018-07-26 | Sas Institute Inc. | Pattern identifier system |
CN109255119A (zh) * | 2018-07-18 | 2019-01-22 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN110211132A (zh) * | 2019-05-27 | 2019-09-06 | 东南大学 | 基于切片网络的点云语义分割改进算法 |
CN110610003A (zh) * | 2019-08-15 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 用于辅助文本标注的方法和系统 |
Non-Patent Citations (1)
Title |
---|
金宸;李维华;姬晨;金绪泽;郭延哺;: "基于双向LSTM神经网络模型的中文分词", 中文信息学报 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681731A (zh) * | 2020-06-10 | 2020-09-18 | 杭州美腾科技有限公司 | 一种对检查报告进行自动颜色标注的方法 |
CN113688627A (zh) * | 2021-09-13 | 2021-11-23 | 国网电子商务有限公司 | 一种用于意图识别的词义角色标注方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN106934220A (zh) | 面向多数据源的疾病类实体识别方法及装置 | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
CN117077786A (zh) | 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法 | |
WO2024016516A1 (zh) | 文献数据集上知识图谱实体标注错误识别方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111222325A (zh) | 一种双向栈式循环神经网络的医疗语义标注方法和系统 | |
CN107122582B (zh) | 面向多数据源的诊疗类实体识别方法及装置 | |
Zhang et al. | Text-based decision fusion model for detecting depression | |
Tan et al. | Chinese medical named entity recognition based on Chinese character radical features and pre-trained language models | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
CN116992002A (zh) | 一种智能护理方案应答方法及系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Zhang et al. | Bi-LSTM-CRF network for clinical event extraction with medical knowledge features | |
CN114492464A (zh) | 一种基于双向异步序列的对话生成方法及系统 | |
AT&T | ||
Dandapat | Part-of-Speech tagging for Bengali | |
CN106933803B (zh) | 一种面向多数据源的医疗器材类实体识别方法及装置 | |
Kong et al. | TCM disease diagnosis based on convolutional cyclic neural network algorithm | |
WO2023185082A1 (zh) | 一种语言表征模型的训练方法以及训练装置 | |
CN117854715B (zh) | 基于问诊分析的智能助诊系统 | |
Liu et al. | An Improved Word Vector-Based Symptom Extraction Method for Traditional Chinese Medical Record Analysis | |
Huang et al. | Monolingual sentence matching for text simplification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |