CN109493977A - 文本数据处理方法、装置、电子设备及计算机可读介质 - Google Patents

文本数据处理方法、装置、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN109493977A
CN109493977A CN201811330288.3A CN201811330288A CN109493977A CN 109493977 A CN109493977 A CN 109493977A CN 201811330288 A CN201811330288 A CN 201811330288A CN 109493977 A CN109493977 A CN 109493977A
Authority
CN
China
Prior art keywords
text
vector
medicine
deep learning
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811330288.3A
Other languages
English (en)
Other versions
CN109493977B (zh
Inventor
焦增涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co Ltd
Tianjin Xinkai Life Technology Co Ltd
Original Assignee
Tianjin Happy Life Technology Co Ltd
Tianjin Xinkai Life Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co Ltd, Tianjin Xinkai Life Technology Co Ltd filed Critical Tianjin Happy Life Technology Co Ltd
Priority to CN201811330288.3A priority Critical patent/CN109493977B/zh
Publication of CN109493977A publication Critical patent/CN109493977A/zh
Application granted granted Critical
Publication of CN109493977B publication Critical patent/CN109493977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种医学文本数据处理方法、装置、电子设备及计算机可读介质。涉及计算机信息处理领域,该方法包括:将医学文本中的文字进行分词处理,生成词向量;将所述医学文本中的文字的词性通过词性向量标注;将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。本公开涉及的医学文本数据处理方法、装置、电子设备及计算机可读介质,能够快速准确的由临床病例长文本中识别出医学术语。

Description

文本数据处理方法、装置、电子设备及计算机可读介质
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种医学文本数据处理方法、装置、电子设备及计算机可读介质。
背景技术
临床病例中许多信息是以长文本的形式记录,不利于后续的各种统计分析任务。从临床病例长文本中识别其中有价值的医学术语,是临床病例分析的一项重要任务。
现有技术的技术中,可通过如下方式识别医学病例中的医学术语:
1、通过使用预定义词表,进行字符匹配的方式从长文本中召回医学实体。这种方法依赖于人工定制词表,费时费力,且无法保证词表的覆盖;而且直接字符匹配的方法,会引入各种歧义,如在有些上下位场景下“鼻出血”是诊断,某些场景下是“症状”。
2、通过上下文规则,满足某种特定模式,使用模板召回医学术语实体。这种方法的效果依赖于模板的定制,手工难度高,且文本覆盖无法保证。
3、使用序列标注统计模型,预先标注一批包含实体信息的语料。这种方法统计模型主要使用字面特征,表达能力有限,要达到目标效果,需要的语料规模较大;而且医学术语是知识积累比较丰富的领域,这类方法无法充分利用领域知识。
因此,需要一种新的医学文本数据处理方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种医学文本数据处理方法、装置、电子设备及计算机可读介质,能够快速准确的由临床病例长文本中识别出医学术语。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种医学文本数据处理方法,该方法包括:将医学文本中的文字进行分词处理,生成词向量;将所述医学文本中的文字的词性通过词性向量标注;将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
在本公开的一种示例性实施例中,还包括:基于临床电子病历通过数据挖掘方式确定规则模板。
在本公开的一种示例性实施例中,基于临床电子病历通过数据挖掘方式确定规则模板包括:通过临床电子病历通过频繁项挖掘生成第一模板;将所述第一模板进行去重处理;计算去重处理后的第一模板的先验分布,以根据所述先验分布确定规则模板。
在本公开的一种示例性实施例中,将医学文本中的文字进行分词处理,生成词向量包括:医学文本中的文字进行分词处理,生成多个分词词汇;以及将每个分词词汇用Word2vec向量进行表示,生成词向量。
在本公开的一种示例性实施例中,将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果包括:将所述词向量和所述词性向量进行拼接及标准化处理,生成第一输入向量;以及将所述第一输入向量输入到双向深度学习模型中,以获取第一结果。
在本公开的一种示例性实施例中,将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词包括:所述第一结果与规则模板进行拼接,生成第二输入向量;将第二输入向量输入深度学习模型中的全连接层中;以及将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词。
在本公开的一种示例性实施例中,将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词包括:将全连接层的输出结果输入至条件随机场中确定词汇概率;以及根据所述词汇概率提取所述医学文本中的实体词。
根据本公开的一方面,提出一种医学文本数据处理装置,该装置包括:分词模块,用于将医学文本中的文字进行分词处理,生成词向量;标注模块,用于将所述医学文本中的文字的词性通过词性向量标注;双向深度学习模块,用于将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及深度学习模块,用于将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的医学文本数据处理方法、装置、电子设备及计算机可读介质,通过将医学文本与规则模板输入深度学习模型,进而获得医学文本词汇中的概率特征值,进而确定文本中的实体词的方式,能够快速准确的由临床病例长文本中识别出医学术语。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种医学文本数据处理方法及装置的系统框图。
图2是根据一示例性实施例示出的一种医学文本数据处理方法的流程图。
图3是根据一示例性实施例示出的一种医学文本数据处理方法的示意图。
图4是根据一示例性实施例示出的一种医学文本数据处理方法的流程图。
图5是根据一示例性实施例示出的一种医学文本数据处理装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出一种计算机可读存储介质示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种医学文本数据处理方法及装置、电子设备及计算机可读介质的系统框图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如医学数据分析类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的医学数据分析网站提供支持的后台管理服务器。后台管理服务器可以对接收到的医学数据进行分析等处理,并将处理结果(例如提取完毕的医学实体词)反馈给终端设备。
服务器105可例如将医学文本中的文字进行分词处理,生成词向量;服务器105可例如将所述医学文本中的文字的词性通过词性向量标注;服务器105可例如将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;服务器105可例如将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的医学文本数据处理方法可以由服务器105执行,相应地,医学文本数据处理装置可以设置于服务器105中。而提供给用户进行数据查询输入的请求端一般位于终端设备101、102、103中。
图2是根据一示例性实施例示出的一种医学文本数据处理方法的流程图。医学文本数据处理方法20至少包括步骤S202至S208。
如图2所示,在S202中,将医学文本中的文字进行分词处理,生成词向量。包括:医学文本中的文字进行分词处理,生成多个分词词汇;以及将每个分词词汇用Word2vec向量进行表示,生成词向量。
其中,分词处理可例如为对utf-8编码的汉字进行中文分词处理,中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
字符匹配又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。
理解法,这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
统计法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
在一个实施例中,可例如通过字符串匹配法对所述数据进行分词处理,生成多个分词词汇。本申请中的分词方法还可例如使用上文中介绍的统计分词方法或理解分词法进行,还可例如通过字符串匹配法、理解分词法与统计分词法中的一种或几种结合进行,本申请不以此为限。其中,所述字符串匹配法中的机器词典包括:ICH国际医学用语词典中的标准词;以及医学专业词汇。
其中,Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
其中,词向量是指一组数值向量,中文词的一种分布式语义表示,通过深度学习产出,词向量在高维空间中的相对距离可以衡量词之间的相似程度
在S204中,将所述医学文本中的文字的词性通过词性向量标注。词向量为离散向量。
在S206中,将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果。包括:将所述词向量和所述词性向量进行拼接及标准化处理,生成第一输入向量;以及将所述第一输入向量输入到双向深度学习模型中,以获取第一结果。
其中双向LSTM(Bi-LSTM)深度学习模型,是深度学习RNN的一种变种,主要解决长距离依赖的问题,自然语言处理问题中经常使用。如果能像访问过去的上下文信息一样,访问未来的上下文,这样对于许多序列标注任务是非常有益的。例如,在最特殊字符分类的时候,如果能像知道这个字母之前的字母一样,知道将要来的字母,这将非常有帮助。同样,对于句子中的音素分类也是如此。
然而,由于现有技术中常常使用的标注手段:标准的循环神经网络(RNN),RNN在时序上处理序列时,往往忽略了未来的上下文信息。一种很显而易见的解决办法是在输入和目标之间添加延迟,进而可以给网络一些时步来加入未来的上下文信息,也就是加入M时间帧的未来信息来一起预测输出。
双向循环神经网络(BRNN)的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络(RNN),而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。
在S208中,将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。具体示意图可例如参见图3。可包括:所述第一结果与规则模板进行拼接,生成第二输入向量;将第二输入向量输入深度学习模型(LSTM)中的全连接层中;以及将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词。
在一个实施例中,将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词包括:将全连接层的输出结果输入至条件随机场(Conditional RandomField,CRF)中确定词汇概率;以及根据所述词汇概率提取所述医学文本中的实体词。可例如,将识别出的词汇概率由高至低排列,以按序提取所述医学文本中的实体词。
其中,LSTM投影层:深度学习模型中的一种隐藏层,一般各节点全连接。CRF为条件随机场,一种机器学习模型,可用于自然语言处理的多个任务,实体识别任务的经典方法。。CRF为条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题。条件随机域模型既具有判别式模型的优点,又具有产生式模型考虑到上下文标记间的转移概率,以序列化形式进行全局参数优化和解码的特点,解决了其他判别式模型(如最大熵马尔科夫模型)难以避免的标记偏置问题。
其中,实体词可例如为临床数据术语识别词,可例如为,从临床病例的长文本中,自动识别出的目标医学术语,如诊断、症状、手术、药品等。
在一个实施例中,模型全连接层输出结果,还可例如输入到贝叶斯模型中,根据贝叶斯模型提取所述医学文本中的实体词。
根据本公开的医学文本数据处理方法,通过将医学文本与规则模板输入深度学习模型,进而获得医学文本词汇中的概率特征值,进而确定文本中的实体词的方式,能够快速准确的由临床病例长文本中识别出医学术语。
根据本公开的医学文本数据处理方法,由于CRF是一种联合概率模型,除了可以考虑文本上下文,还可以考虑实体类型的上下文,通过CRF进行实体词识别的方式能够增加识别的准确度。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图4是根据一示例性实施例示出的一种医学文本数据处理方法的流程图。图4所示的流程是对图2所示的流程中S208“将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词”中规则模板的生成方法的详细描述。
如图4所示,在S402中,通过临床电子病历通过频繁项挖掘生成第一模板。通过数据挖掘方法,如“prefixspan”,从临床病例长文本集合中挖掘出频繁模板作为我们的候选知识规则。PrefixSpan算法是序列模式分析算法的一种,PrefixSpan算法不产生任何的侯选集,可以挖掘出满足阈值的所有序列模式,是非常经典的算法。
在S404中,将所述第一模板进行去重处理。频繁模式挖掘的模板之间可能存在包含关系,即一个模板匹配的文本在任何场景下都会包含第二个模板匹配出的文本,如Pattern1“为“.*”收入院”,Pattern2“为“.*”入院”,Pattern2包含Pattern1。
去重的做法可例如如下:
1.从大量了临床病例中匹配,Pattern1匹配出文本集合Set1
2.从大量了临床病例中匹配,Pattern2匹配出文本集合Set2
3.如果Set2是Set1的子集,则Pattern1包含Pattern2
4.如果Set1是Set2的子集,则Pattern2包含Pattern1
5.否则,Pattern1与Pattern2互补包含
6.被包含的模板从模板集合中删除
在S406中,计算去重处理后的第一模板的先验分布,以根据所述先验分布确定规则模板。
模板表意能力不一,如“门诊以“.*”收入”通常表示一种诊断,“.*,.*无明显变化”通常描述一种症状,模板对各类型实体可以提供的先验信息分布,是融合医学知识的一种途径。定义如下两种基本操作:
a)对于给定模板(Pattern),从大量临床病例中匹配出命中的文本片段{Phrase}
b)计算每一个文本片段Phrase和各类型实体{NER}对应的词表{Term}的编辑距离edit_distance(Phrase,Term),作为一个Phrase与一个Term的相关程度
c)计算每一个Phrase与NER的平均相关程度Relevant(Phrase,NER)=Mean(edit_distance(Phrase,{Term}))
d)计算每一个模板Pattern与NER的平均相关程度Relevant(Pattern,NER)=Mean(Relevant(Phrase,NER))
e)Pattern按其余各维NER的平均相关程度,可以组成一个向量D,向量D可以作为模板的先验分布
根据本公开的医学文本数据处理方法,使用序列标注模型从长文本中进行医学术语识别,能够融合医学知识特征(规则系统输出)和文本特征,将特征离散化后输入到一个深度学习网络,并在输出层加上一个CRF层(条件随机场)进行联合概率预测,以获取准确有效的医学实体词识别结果。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种医学文本数据处理装置的框图。医学文本数据处理装置50包括:分词模块502,标注模块504,双向深度学习模块506,以及深度学习模块508。
分词模块502用于将医学文本中的文字进行分词处理,生成词向量;包括:医学文本中的文字进行分词处理,生成多个分词词汇;以及将每个分词词汇用Word2vec向量进行表示,生成词向量。
标注模块504用于将所述医学文本中的文字的词性通过词性向量标注;
双向深度学习模块506用于将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;包括:将所述词向量和所述词性向量进行拼接及标准化处理,生成第一输入向量;以及将所述第一输入向量输入到双向深度学习模型中,以获取第一结果。
深度学习模块508用于将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。可包括:所述第一结果与规则模板进行拼接,生成第二输入向量;将第二输入向量输入深度学习模型(LSTM)中的全连接层中;以及将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词。
根据本公开的医学文本数据处理装置,通过将医学文本与规则模板输入深度学习模型,进而获得医学文本词汇中的概率特征值,进而确定文本中的实体词的方式,能够快速准确的由临床病例长文本中识别出医学术语。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本公开的这种实施方式的电子设备200。图6显示的电子设备200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图2,图4中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
图7示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
参考图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:将医学文本中的文字进行分词处理,生成词向量;将所述医学文本中的文字的词性通过词性向量标注;将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本公开可实施的范畴。

Claims (10)

1.一种医学文本数据处理方法,其特征在于,包括:
将医学文本中的文字进行分词处理,生成词向量;
将所述医学文本中的文字的词性通过词性向量标注;
将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及
将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
2.如权利要求1所述的方法,其特征在于,还包括:
基于临床电子病历通过数据挖掘方式确定规则模板。
3.如权利要求2所述的方法,其特征在于,基于临床电子病历通过数据挖掘方式确定规则模板包括:
通过临床电子病历通过频繁项挖掘生成第一模板;
将所述第一模板进行去重处理;以及
计算去重处理后的第一模板的先验分布,以根据所述先验分布确定规则模板。
4.如权利要求1所述的方法,其特征在于,将医学文本中的文字进行分词处理,生成词向量包括:
医学文本中的文字进行分词处理,生成多个分词词汇;以及
将每个分词词汇用Word2vec向量进行表示,生成词向量。
5.如权利要求1所述的方法,其特征在于,将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果包括:
将所述词向量和所述词性向量进行拼接及标准化处理,生成第一输入向量;以及
将所述第一输入向量输入到双向深度学习模型中,以获取第一结果。
6.如权利要求1所述的方法,其特征在于,将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词包括:
所述第一结果与规则模板进行拼接,生成第二输入向量;
将第二输入向量输入深度学习模型中的全连接层中;以及
将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词。
7.如权利要求6所述的方法,其特征在于,将全连接层的输出结果输入至条件随机场中以提取所述医学文本中的实体词包括:
将全连接层的输出结果输入至条件随机场中确定词汇概率;以及
根据所述词汇概率提取所述医学文本中的实体词。
8.一种医学文本数据处理装置,其特征在于,包括:
分词模块,用于将医学文本中的文字进行分词处理,生成词向量;
标注模块,用于将所述医学文本中的文字的词性通过词性向量标注;
双向深度学习模块,用于将所述词向量和所述词性向量输入双向深度学习模型中,以获取第一结果;以及
深度学习模块,用于将所述第一结果与规则模板输入深度学习模型中,以提取所述医学文本中的实体词。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201811330288.3A 2018-11-09 2018-11-09 文本数据处理方法、装置、电子设备及计算机可读介质 Active CN109493977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811330288.3A CN109493977B (zh) 2018-11-09 2018-11-09 文本数据处理方法、装置、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811330288.3A CN109493977B (zh) 2018-11-09 2018-11-09 文本数据处理方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN109493977A true CN109493977A (zh) 2019-03-19
CN109493977B CN109493977B (zh) 2020-07-31

Family

ID=65695473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811330288.3A Active CN109493977B (zh) 2018-11-09 2018-11-09 文本数据处理方法、装置、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN109493977B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN110162782A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质
CN110929499A (zh) * 2019-10-15 2020-03-27 平安科技(深圳)有限公司 文本相似度获取方法、装置、介质及电子设备
CN111091915A (zh) * 2019-12-24 2020-05-01 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111209751A (zh) * 2020-02-14 2020-05-29 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111259664A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111291547A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 模板生成方法、装置、设备及介质
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN112258135A (zh) * 2020-05-15 2021-01-22 北京沃东天骏信息技术有限公司 处方数据的审核方法、装置和计算机可读存储介质
CN112528654A (zh) * 2020-12-15 2021-03-19 作业帮教育科技(北京)有限公司 自然语言处理方法、装置及电子设备
CN112735543A (zh) * 2020-12-30 2021-04-30 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112949296A (zh) * 2019-12-10 2021-06-11 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN113327657A (zh) * 2021-05-27 2021-08-31 挂号网(杭州)科技有限公司 病例报告生成方法、装置、电子设备以及存储介质
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114072755A (zh) * 2019-04-26 2022-02-18 索尼互动娱乐有限责任公司 具有触控板输入的游戏控制器
CN114548100A (zh) * 2022-03-01 2022-05-27 深圳市医未医疗科技有限公司 一种基于大数据技术的临床科研辅助方法与系统
CN114595681A (zh) * 2022-02-08 2022-06-07 清华大学 文本切分方法及装置
CN116453674A (zh) * 2023-04-27 2023-07-18 广州南翼信息科技有限公司 一种智慧医疗系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN106570179A (zh) * 2016-11-10 2017-04-19 中国科学院信息工程研究所 一种面向评价性文本的核心实体识别方法及装置
EP3376400A1 (en) * 2017-03-14 2018-09-19 Fujitsu Limited Dynamic context adjustment in language models
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008472B (zh) * 2019-03-29 2022-11-11 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN110008472A (zh) * 2019-03-29 2019-07-12 北京明略软件系统有限公司 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN110162782A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质
CN110162782B (zh) * 2019-04-17 2022-04-01 平安科技(深圳)有限公司 基于医学词典的实体提取方法、装置、设备及存储介质
CN114072755A (zh) * 2019-04-26 2022-02-18 索尼互动娱乐有限责任公司 具有触控板输入的游戏控制器
CN110929499A (zh) * 2019-10-15 2020-03-27 平安科技(深圳)有限公司 文本相似度获取方法、装置、介质及电子设备
CN110929499B (zh) * 2019-10-15 2022-02-11 平安科技(深圳)有限公司 文本相似度获取方法、装置、介质及电子设备
CN112949296A (zh) * 2019-12-10 2021-06-11 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备
CN112949296B (zh) * 2019-12-10 2024-05-31 医渡云(北京)技术有限公司 基于黎曼空间的词嵌入方法和装置、介质及设备
CN111091915A (zh) * 2019-12-24 2020-05-01 医渡云(北京)技术有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111145914A (zh) * 2019-12-30 2020-05-12 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111145914B (zh) * 2019-12-30 2023-08-04 四川大学华西医院 一种确定肺癌临床病种库文本实体的方法及装置
CN111259664A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 医学文本信息的确定方法、装置、设备及存储介质
CN111291547A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 模板生成方法、装置、设备及介质
CN111291547B (zh) * 2020-01-20 2024-04-26 腾讯科技(深圳)有限公司 模板生成方法、装置、设备及介质
CN111209751A (zh) * 2020-02-14 2020-05-29 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111209751B (zh) * 2020-02-14 2023-07-28 全球能源互联网研究院有限公司 一种中文分词方法、装置及存储介质
CN111291568B (zh) * 2020-03-06 2023-03-31 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111291568A (zh) * 2020-03-06 2020-06-16 西南交通大学 一种应用于医学文本的实体关系自动标注方法
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN112258135A (zh) * 2020-05-15 2021-01-22 北京沃东天骏信息技术有限公司 处方数据的审核方法、装置和计算机可读存储介质
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN112528654A (zh) * 2020-12-15 2021-03-19 作业帮教育科技(北京)有限公司 自然语言处理方法、装置及电子设备
CN112735543A (zh) * 2020-12-30 2021-04-30 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN113327657A (zh) * 2021-05-27 2021-08-31 挂号网(杭州)科技有限公司 病例报告生成方法、装置、电子设备以及存储介质
CN113327657B (zh) * 2021-05-27 2023-08-25 挂号网(杭州)科技有限公司 病例报告生成方法、装置、电子设备以及存储介质
CN113255342A (zh) * 2021-06-11 2021-08-13 云南大学 一种5g移动业务产品名称识别方法及系统
CN113255342B (zh) * 2021-06-11 2022-09-30 云南大学 一种5g移动业务产品名称识别方法及系统
CN113657105A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114595681A (zh) * 2022-02-08 2022-06-07 清华大学 文本切分方法及装置
CN114595681B (zh) * 2022-02-08 2024-05-28 清华大学 文本切分方法及装置
CN114548100A (zh) * 2022-03-01 2022-05-27 深圳市医未医疗科技有限公司 一种基于大数据技术的临床科研辅助方法与系统
CN116453674A (zh) * 2023-04-27 2023-07-18 广州南翼信息科技有限公司 一种智慧医疗系统

Also Published As

Publication number Publication date
CN109493977B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN109493977A (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
WO2022022045A1 (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN109299472B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN109509556A (zh) 知识图谱生成方法、装置、电子设备及计算机可读介质
CN111680159A (zh) 数据处理方法、装置及电子设备
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN110852106A (zh) 基于人工智能的命名实体处理方法、装置及电子设备
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
US20180365588A1 (en) Analyzing data from structured and unstructured sources
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN118378631B (zh) 文本审查方法、装置、设备及存储介质
CN112836057A (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN113919360A (zh) 语义理解方法、语音交互方法、装置、设备及存储介质
CN111382563A (zh) 文本相关性的确定方法及装置
CN113420119A (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
CN116719999A (zh) 文本相似度检测方法和装置、电子设备及存储介质
CN116956925A (zh) 电子病历命名实体识别方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant