CN109359300A - 基于深度学习的医学文献中关键词筛选方法及装置 - Google Patents

基于深度学习的医学文献中关键词筛选方法及装置 Download PDF

Info

Publication number
CN109359300A
CN109359300A CN201811188051.6A CN201811188051A CN109359300A CN 109359300 A CN109359300 A CN 109359300A CN 201811188051 A CN201811188051 A CN 201811188051A CN 109359300 A CN109359300 A CN 109359300A
Authority
CN
China
Prior art keywords
subordinate sentence
participle
medical literature
processed
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811188051.6A
Other languages
English (en)
Inventor
赵荣生
宋再伟
林巧楠
周旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nuodao Cognitive Medical Technology Co ltd
Peking University Third Hospital
Original Assignee
Beijing Nuodao Cognitive Medical Technology Co ltd
Peking University Third Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nuodao Cognitive Medical Technology Co ltd, Peking University Third Hospital filed Critical Beijing Nuodao Cognitive Medical Technology Co ltd
Priority to CN201811188051.6A priority Critical patent/CN109359300A/zh
Publication of CN109359300A publication Critical patent/CN109359300A/zh
Priority to PCT/CN2019/118858 priority patent/WO2020074017A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开一种基于深度学习的医学文献中关键词筛选方法及装置,能提高医学文献中关键词筛选的准确度。方法包括:S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm‑CRF模型中,得到所述待处理的医学文献中的关键词。

Description

基于深度学习的医学文献中关键词筛选方法及装置
技术领域
本发明实施例涉及计算机领域,具体涉及一种基于深度学习的医学文献中关键词筛选方法及装置。
背景技术
关键词抽取是指根据一定的目的要求,依靠计算机技术从报告、文献中选择反映主题内容的单词或者术语。从而为文献提供一个简短的概括,使读者能够在短时间内了解文献的重要信息与核心内容,由于关键词十分精炼,故可以利用关键词以很小的计算代价进行文本相似性的度量。因此在文献检索、自动文摘、文本分类、文本聚类等方面有着重要的应用。
现有的关键词提取方法主要分为3类:(1)基于统计特征的方法,根据词语出现的频率或者位置确定候选词的权重,筛选出权重较大者作为关键词。该方法虽然操作简单,但是会忽略掉在文中分布较小、位置较偏但是对于文章具有关键意义的词语;(2)基于词语网络的方法,根据一定的规则将文档映射成词语网络,利用该网络计算词语的关键度。该方法主要利用高频词的共现关系构建词语网络,同样不能提取出对文档重要但频率不高的词语;(3)基于语义的方法,从语义角度判断词语的重要性,提取出关键词。但是目前该方法仅仅采用同义词与近义词匹配,然而表达同一主题的关键词,大多不是同义词或近义词,使同主题的词语大部分未能得到语义关联,导致该方法不能发挥应有作用。
发明内容
针对现有技术存在的不足和缺陷,本发明实施例提供一种基于深度学习的医学文献中关键词筛选方法及装置。
一方面,本发明实施例提出一种基于深度学习的医学文献中关键词筛选方法,包括:
S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;
S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。
另一方面,本发明实施例提出一种基于深度学习的医学文献中关键词筛选装置,包括:
生成单元,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;
输入单元,用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。
本发明实施例提供的基于深度学习的医学文献中关键词筛选方法及装置,利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词,因构建的Bilstm-CRF模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。
附图说明
图1为本发明基于深度学习的医学文献中关键词筛选方法一实施例的流程示意图;
图2为本发明基于深度学习的医学文献中关键词筛选装置一实施例的结构示意图;
图3为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
参看图1,本实施例公开一种基于深度学习的医学文献中关键词筛选方法,包括:
S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;
S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。
本发明实施例提供的基于深度学习的医学文献中关键词筛选方法,利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词,因构建的Bilstm-CRF模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。
在前述方法实施例的基础上,所述Bilstm-CRF模型的第二层是双向LSTM层,第三层是线性层,第四层是CRF层。
本实施例中,在使用Bilstm-CRF模型进行关键词筛选之前,需要对Bilstm-CRF模型进行构建,并使用训练数据对Bilstm-CRF模型进行训练。具体地,Bilstm-CRF模型训练过程如下:
(1)将训练样本中分句的各分词组成的词向量序列(x1,x2,...,xmax_len)作为双向LSTM各个时间步的输入。
(2)模型的第二层是双向LSTM层,用来自动提取词语特征。将正向LSTM输出的隐状态序列与反向LSTM输出的进行按位拼接,得到完整的隐状态序列:
其中
(3)紧接着接入一个线性层,将隐状态向量的每一元素从2n维映射成k维,其中k=4表示分词类别数。设输出矩阵为P=(p1,p2,...,pmax_len),pi的每一维pij表示分词xi分类到第j类标签的打分值。
(4)模型的第四层是CRF层,该层有一个(k+2)*(k+2)大小的状态转移矩阵A,Aij表示从第i个标签到第j个标签的转移得分,该矩阵的含义是标注分句中某一分词标签时,需要考虑之前已标注的标签值。如果一个分句的目标值序列为y=(y1,y2,...,ymax_len),那么模型对于分句x的标签等于y的打分为:
模型的对数似然函数定义为:
式中,Yx为因变量的集合,表示所有标签项。
(5)通过多轮迭代训练与参数调整,找到使目标函数最大化的最优参数与状态转移概率。
当然,在训练模型之前,需要针对训练样本数据生成分句的词向量矩阵,过程如下:
(1)将分句的各个分词根据在文献中出现的顺序进行id编码,编码的起始值为1,终止值为文献的词汇量大小N。
(2)将所有分句中包含最多分词的个数记录为max_len,之后将id编码的分句进行填0扩充,使其长度达到max_len,其中0码数为(max_len-分词数)。
(3)随机初始化词向量矩阵,矩阵的每一行表示为词向量,从上到下依次对应编码为0~N的分词,矩阵的列数为词向量的长度n=300。
(4)查找分句中每个id编码的分词对应的词向量,若训练样本数为m,则构建一个[m,max_len,300]大小的三维矩阵作为模型的输入。
需要说明的是,在训练模型时,需要针对训练数据进行模型输出构建,具体方法为:依据PICO指标矩阵,给分句中的所有分词打上标签。若分词出现在指标矩阵中,按照对应关系,将标签值设置为P或I-C或O;若分词未出现在指标矩阵中,则标签值为N。将标签序列整体作为模型的目标值。
本发明构建的模型能够结合分词的上下文语义,并依据标签集的内在联系,通过计算状态转移概率来限制不合理标签序列的输出。
在前述方法实施例的基础上,所述对待处理的医学文献进行分句,对分句进行分词,包括:
依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。
本实施例中,对分词过程举例说明如下:
对于例句:目的评价亚甲基四氢叶酸还原酶基因多态性在甲氨喋呤治疗急性淋巴细胞白血病过程中毒副反应的相关性。方法通过计算机检索国内外相关数据库:EMBASE,CNKI,维普中文科技期刊数据库以及万方数据库,…,首先依据标点符号对其进行分句,分句结果为:
(1)目的评价亚甲基四氢叶酸还原酶基因多态性在甲氨喋呤治疗急性淋巴细胞白血病过程中毒副反应的相关性;
(2)方法通过计算机检索国内外相关数据库:EMBASE,CNKI,维普中文科技期刊数据库以及万方数据库。
然后利用分词算法对分句进行分词,分词结果为:
1)['目的','评价','亚','甲基','四氢叶酸','还原酶','基因','多态性','在','甲氨喋呤','治疗','急性','淋巴','细胞','白血病','过程','中','毒副','反应','的','相关性'];
2)['方法','通过','计算机','检索','国内外','相关','数据库','EMBASE','CNKI','维普','中文','科技','期刊','数据库','以及','万方','数据库']。
最后结合医学词库对部分分词进行合并,则对于第一个分句(1)的分词1),需要将“亚”、“甲基”、“四氢叶酸”和“还原酶”合并成一个完整的医学名词“亚甲基四氢叶酸还原酶”,需要将“淋巴”和“细胞”合并成一个完整的医学名词“淋巴细胞”,需要将“毒副”和“反应”合并成一个完整的医学名词“毒副反应”。合并结果为:
a)['目的','评价','亚甲基四氢叶酸还原酶','基因','多态性','在','甲氨喋呤','治疗','急性','淋巴细胞','白血病','过程','中','毒副反应','的','相关性'];
b)['方法','通过','计算机','检索','国内外','相关','数据库','EMBASE','CNKI','维普','中文','科技','期刊','数据库','以及','万方','数据库']。
在前述方法实施例的基础上,所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵,包括:
按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等;
基于填零扩充的结果生成所述词向量矩阵。
本实施例中生成测试数据词向量矩阵的过程同前述训练模型时生成训练样本词向量矩阵的过程一致,此处不再赘述。
本实施例中,生成分句的词向量矩阵时,首先将分句的各个分词根据在文献中出现的顺序进行标识编码(id编码),编码的起始值为1,终止值为文献的词汇量大小。然后将所有分句中包含最多分词的个数记录为max_sentence_len,之后将id编码的分句进行填0扩充,使其长度达到max_sentence_len,即得到分句的词向量,其中词向量中0的数量等于max_sentence_len-分词数。
参看图2,本实施例公开一种基于深度学习的医学文献中关键词筛选装置,包括:
生成单元1,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;
输入单元2,用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。
具体地,所述生成单元1对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;所述输入单元2将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键词。
本发明实施例提供的基于深度学习的医学文献中关键词筛选装置,利用训练好的基于深度学习的Bilstm-CRF模型筛选医学文献中的关键词,因构建的Bilstm-CRF模型能够结合上下文语义,捕捉到文献的局部相关性,从而使得本方案相较于现有技术能提高医学文献中关键词筛选的准确度。
在前述装置实施例的基础上,所述Bilstm-CRF模型的第二层是双向LSTM层,第三层是线性层,第四层是CRF层。
在前述装置实施例的基础上,所述生成单元,具体用于:
依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。
在前述装置实施例的基础上,所述生成单元,具体用于:
按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等;
基于填零扩充的结果生成所述词向量矩阵。
本实施例的基于深度学习的医学文献中关键词筛选装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3示出了本发明实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序;
其中,所述处理器11,存储器12通过所述总线13完成相互间的通信;
所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键句。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键句。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于深度学习的医学文献中关键句筛选方法,其特征在于,包括:
S1、对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;
S2、将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键句。
2.根据权利要求1所述的方法,其特征在于,所述Bilstm-CRF模型的第二层是双向LSTM层,第三层是线性层,第四层是CRF层。
3.根据权利要求2所述的方法,其特征在于,所述对待处理的医学文献进行分句,对分句进行分词,包括:
依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。
4.根据权利要求3所述的方法,其特征在于,所述通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵,包括:
按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等;
基于填零扩充的结果生成所述词向量矩阵。
5.一种基于深度学习的医学文献中关键句筛选装置,其特征在于,包括:
生成单元,用于对待处理的医学文献进行分句,对分句进行分词,通过按照分词在所述待处理的医学文献中出现的顺序对分词进行标识编码,生成分句的词向量矩阵;
输入单元,用于将所述分句的词向量矩阵输入预先训练好的基于深度学习的Bilstm-CRF模型中,得到所述待处理的医学文献中的关键句。
6.根据权利要求5所述的装置,其特征在于,所述Bilstm-CRF模型的第二层是双向LSTM层,第三层是线性层,第四层是CRF层。
7.根据权利要求6所述的装置,其特征在于,所述生成单元,具体用于:
依据标点符号对所述待处理的医学文献进行分句,基于分词算法与医学词库对分句进行分词。
8.根据权利要求7所述的装置,其特征在于,所述生成单元,具体用于:
按照分词在所述待处理的医学文献中出现的顺序对分句的分词进行标识编码,并对标识编码后的分句分词进行填零扩充,使填零扩充后的分句的元素数量与最长分句所包含的分词数量相等;
基于填零扩充的结果生成所述词向量矩阵。
9.一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN201811188051.6A 2018-10-12 2018-10-12 基于深度学习的医学文献中关键词筛选方法及装置 Pending CN109359300A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811188051.6A CN109359300A (zh) 2018-10-12 2018-10-12 基于深度学习的医学文献中关键词筛选方法及装置
PCT/CN2019/118858 WO2020074017A1 (zh) 2018-10-12 2019-11-15 基于深度学习的医学文献中关键词筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811188051.6A CN109359300A (zh) 2018-10-12 2018-10-12 基于深度学习的医学文献中关键词筛选方法及装置

Publications (1)

Publication Number Publication Date
CN109359300A true CN109359300A (zh) 2019-02-19

Family

ID=65348974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811188051.6A Pending CN109359300A (zh) 2018-10-12 2018-10-12 基于深度学习的医学文献中关键词筛选方法及装置

Country Status (2)

Country Link
CN (1) CN109359300A (zh)
WO (1) WO2020074017A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020074017A1 (zh) * 2018-10-12 2020-04-16 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置
WO2020074023A1 (zh) * 2018-10-12 2020-04-16 北京大学第三医院 基于深度学习的医学文献中关键句筛选方法及装置
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111753072A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 一种分诊的方法、装置、设备以及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质
CN117151222B (zh) * 2023-09-15 2024-05-24 大连理工大学 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
US9754584B2 (en) * 2014-12-22 2017-09-05 Google Inc. User specified keyword spotting using neural network feature extractor
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108198620A (zh) * 2018-01-12 2018-06-22 洛阳飞来石软件开发有限公司 一种基于深度学习的皮肤疾病智能辅助诊断系统
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359300A (zh) * 2018-10-12 2019-02-19 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
US9754584B2 (en) * 2014-12-22 2017-09-05 Google Inc. User specified keyword spotting using neural network feature extractor
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108198620A (zh) * 2018-01-12 2018-06-22 洛阳飞来石软件开发有限公司 一种基于深度学习的皮肤疾病智能辅助诊断系统
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KOTH 待字闺中: "97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)", 《HTTPS://MP.WEIXIN.QQ.COM/S?__BIZ=MJM5ODIZNDQ3MW==&MID=2649966433&IDX=1&SN=BE6C0E5485003D6F33804261DF7C3ECF》 *
美环花子若野: "LSTM的输入输出", 《HTTPS://WWW.JIANSHU.COM/P/B9CD38804AC6/》 *
陈伟等: "基于BiLSTM-CRF的关键词自动抽取", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020074017A1 (zh) * 2018-10-12 2020-04-16 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置
WO2020074023A1 (zh) * 2018-10-12 2020-04-16 北京大学第三医院 基于深度学习的医学文献中关键句筛选方法及装置
CN111160017A (zh) * 2019-12-12 2020-05-15 北京文思海辉金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111160017B (zh) * 2019-12-12 2021-09-03 中电金信软件有限公司 关键词抽取方法、话术评分方法以及话术推荐方法
CN111753072A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 一种分诊的方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
WO2020074017A1 (zh) 2020-04-16

Similar Documents

Publication Publication Date Title
CN109359300A (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN111159223B (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN107291871B (zh) 基于人工智能的多域信息的匹配度评估方法、设备及介质
KR102055656B1 (ko) 텍스트의 의미 처리를 위한 방법, 장치 및 제품
US8787682B2 (en) Fast image classification by vocabulary tree based image retrieval
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN108509474A (zh) 搜索信息的同义词扩展方法及装置
Shi et al. Learning visually-grounded semantics from contrastive adversarial samples
CN110188362A (zh) 文本处理方法及装置
CN103699625A (zh) 基于关键词进行检索的方法及装置
AU2005203239A1 (en) Phrase-based indexing in an information retrieval system
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
Wu et al. Enhancing text representation for classification tasks with semantic graph structures
CN109472021A (zh) 基于深度学习的医学文献中关键句筛选方法及装置
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN101894160B (zh) 一种智能检索方法
CN107193892A (zh) 一种文档主题确定方法及装置
Gutiérrez et al. UMCC_DLSI: reinforcing a ranking algorithm with sense frequencies and multidimensional semantic resources to solve multilingual word sense disambiguation
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
Wajid et al. Neutrosophic-CNN-based image and text fusion for multimodal classification
CN102982072B (zh) 一种可视化概念检测器及构造语义场的方法
CN107679121B (zh) 分类体系的映射方法及装置、存储介质、计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190219