CN114020914A - 医疗文本分类方法、装置、电子设备及存储介质 - Google Patents

医疗文本分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114020914A
CN114020914A CN202111296341.4A CN202111296341A CN114020914A CN 114020914 A CN114020914 A CN 114020914A CN 202111296341 A CN202111296341 A CN 202111296341A CN 114020914 A CN114020914 A CN 114020914A
Authority
CN
China
Prior art keywords
text
medical
vector
word
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111296341.4A
Other languages
English (en)
Inventor
张萌
周玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202111296341.4A priority Critical patent/CN114020914A/zh
Publication of CN114020914A publication Critical patent/CN114020914A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种医疗文本分类方法,包括:将待分类文本通过词向量映射,生成词向量;将词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及将特征向量通过分类器进行分类,生成待分类文本的类别。本公开还提供了一种医疗文本分类装置、电子设备以及可读存储介质。

Description

医疗文本分类方法、装置、电子设备及存储介质
技术领域
本公开涉及一种医疗文本分类方法、装置、电子设备以及可读存储介质。
背景技术
文本分类的相关技术已经取得了很大进展,但是在医疗领域中,文本分类任务与普通场景下的文本分类任务有一定区别,主要表现为两点,一是医疗领域专业性较强,含有大量的医学专业名称,二是类别不均衡的问题,类别不均衡导致模型在学习过程中严重倾向于多数类,无法学习到少数类别的特征。预训练语言模型BERT经过大量词汇训练集的训练,学习到大量语言、句法、语义信息,如何将BERT通过微调技术迁移到医疗行业应用领域,以解决医疗文本领域的语言术语特性带来的问题以及类别不均衡问题,使医疗文本分类重点研究方向。
发明内容
为了解决上述技术问题中的至少一个,本公开提供一种医疗文本分类方法、装置、电子设备及可读存储介质。
根据本公开的一个方面,提供一种医疗文本分类方法,包括:
将待分类文本通过词向量映射,生成词向量;
将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及,
将所述特征向量通过分类器进行分类,生成待分类文本的类别。
根据本公开至少一个实施方式的医疗文本分类方法,将待分类文本通过词向量映射,生成词向量,包括:
将待分类文本输入医疗语言模型,生成词向量。
根据本公开至少一个实施方式的医疗文本分类方法,所述医疗语言模型的构建方法包括:
通过基础语言模型的权重初始化医疗语言模型的权重;以及,
将带掩码的训练语料输入医疗语言模型并训练模型。
根据本公开至少一个实施方式的医疗文本分类方法,所述带掩码的训练语料包括:
随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料,所述遮盖或替换的文字通过上下文的理解进行预测。
根据本公开至少一个实施方式的医疗文本分类方法,将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量,包括:
将词向量输入输入层,词向量表示为
Figure BDA0003336694290000021
其中,Xi表示句中第i个字的k维向量,符号
Figure BDA0003336694290000022
表示拼接运算,X1:n为n*k维矩阵;
将输入层处理之后的向量输入卷积层;以及,
将卷积层处理之后的向量输入池化层,输出特征向量,所述池化层采用最大池化操作以取得特征中的最大值。
根据本公开至少一个实施方式的医疗文本分类方法,所述文本卷积神经网络还可以包括全连接层,所述全连接层将池化层输出的特征进行拼接。
根据本发明的又一个方面,提供一种医疗文本分类装置,包括:
向量映射模块,将待分类文本通过词向量映射,生成词向量;
特征向量提取模块,将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及,
分类模块,将所述特征向量通过分类器进行分类,生成待分类文本的类别。
根据本公开至少一个实施方式的医疗文本分类装置,将待分类文本通过词向量映射,生成词向量,包括:
将待分类文本输入医疗语言模型,生成词向量。
根据本公开至少一个实施方式的医疗文本分类装置,所述医疗语言模型的构建方法包括:
通过基础语言模型的权重初始化医疗语言模型的权重;以及,
将带掩码的训练语料输入医疗语言模型并训练模型。
根据本公开至少一个实施方式的医疗文本分类装置,所述带掩码的训练语料包括:
随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料,所述遮盖或替换的文字通过上下文的理解进行预测。
根据本公开至少一个实施方式的医疗文本分类装置,将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量,包括:
将词向量输入输入层,词向量表示为
Figure BDA0003336694290000031
其中,Xi表示句中第i个字的k维向量,符号
Figure BDA0003336694290000032
表示拼接运算,X1:n为n*k维矩阵;
将输入层处理之后的向量输入卷积层;以及,
将卷积层处理之后的向量输入池化层,输出特征向量,所述池化层采用最大池化操作以取得特征中的最大值。
根据本公开至少一个实施方式的医疗文本分类装置,所述文本卷积神经网络还可以包括全连接层,所述全连接层将池化层输出的特征进行拼接。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,所述存储器存储执行指令;以及,
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的又一个方面,提供一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的电子病历文本事件抽取方法流程示意图。
图2是根据本公开的又一个实施方式的电子病历文本事件抽取方法流程示意图。
附图标记说明
1000 医疗文本分类装置
1002 向量映射模块
1004 特征向量提取模块
1006 分类模块
1100 总线
1200 处理器
1300 存储器
1400 其他电路。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
本文使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是根据本公开至少一个实施方式的医疗文本分类方法流程示意图。
如图1所示,医疗文本分类方法S100,包括:
S102:将待分类文本通过词向量映射,生成词向量;
S104:将词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及
S106:将特征向量通过分类器进行分类,生成待分类文本的类别。
其中,分类器可以是Softmax分类器。
其中,文本卷积神经网络为TextCNN。
其中,将待分类文本通过词向量映射,生成词向量,包括:
将待分类文本输入医疗语言模型,生成词向量。
其中,医疗语言模型的构建方法包括:
通过基础语言模型的权重初始化医疗语言模型的权重;以及
将带掩码的训练语料输入医疗语言模型并训练模型。
其中,基于语言模型可以是Bert模型。
其中,带掩码的训练语料包括:
随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料,遮盖或替换的文字通过上下文的理解进行预测。
根据本公开至少一个实施方式的医疗文本分类方法,将词向量输入文本卷积神经网络进行特征提取,生成特征向量,包括:
将词向量输入输入层,词向量表示为
Figure BDA0003336694290000061
其中,Xi表示句中第i个字的k维向量,符号
Figure BDA0003336694290000062
表示拼接运算,X1:n为n*k维矩阵;
将输入层处理之后的向量输入卷积层;以及
将卷积层处理之后的向量输入池化层,输出特征向量,池化层采用最大池化操作以取得特征中的最大值。
其中,文本卷积神经网络还可以包括全连接层,全连接层将池化层输出的特征进行拼接。
图2是根据本公开至少一个实施方式的医疗文本分类装置结构示意图。
如图2所示,医疗文本分类装置1000,包括:
向量映射模块1002,将待分类文本通过词向量映射,生成词向量;
特征向量提取模块1004,将词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及
分类模块1006,将特征向量通过分类器进行分类,生成待分类文本的类别。
其中,分类器可以是Softmax分类器。
其中,文本卷积神经网络为TextCNN。
其中,将待分类文本通过词向量映射,生成词向量,包括:
将待分类文本输入医疗语言模型,生成词向量。
其中,医疗语言模型的构建方法包括:
通过基础语言模型的权重初始化医疗语言模型的权重;以及
将带掩码的训练语料输入医疗语言模型并训练模型。
其中,基于语言模型可以是Bert模型。
其中,带掩码的训练语料包括:
随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料,遮盖或替换的文字通过上下文的理解进行预测。
根据本公开至少一个实施方式的医疗文本分类方法,将词向量输入文本卷积神经网络进行特征提取,生成特征向量,包括:
将词向量输入输入层,词向量表示为
Figure BDA0003336694290000071
其中,Xi表示句中第i个字的k维向量,符号
Figure BDA0003336694290000072
表示拼接运算,X1:n为n*k维矩阵;
将输入层处理之后的向量输入卷积层;以及
将卷积层处理之后的向量输入池化层,输出特征向量,池化层采用最大池化操作以取得特征中的最大值。
其中,文本卷积神经网络还可以包括全连接层,全连接层将池化层输出的特征进行拼接。
根据本公开的又一个方面,提供一种电子设备,包括:
存储器,存储器存储执行指令;以及
处理器,处理器执行存储器存储的执行指令,使得处理器执行上述任一项的方法。
根据本公开的又一个方面,提供一种可读存储介质,其特征在于,可读存储介质中存储有执行指令,执行指令被处理器执行时用于实现上述任一项的方法。
本发明提供的医疗文本分类方法,将Bert预训练语言模型迁移至医疗领域,通过医疗领域文本进一步训练,融合TextCNN模型,通过一维卷积对短文本浅层特征提取,增强其在当前任务重的语义表示质量。实验结果表面,相对于其他医疗文本分类方法,本发明提出的方法可以显著提升分类性能。
本发明涉及的装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种医疗文本分类方法,其特征在于,包括:
将待分类文本通过词向量映射,生成词向量;
将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及
将所述特征向量通过分类器进行分类,生成待分类文本的类别。
2.根据权利要求1所述的医疗文本分类方法,其特征在于,将待分类文本通过词向量映射,生成词向量,包括:
将待分类文本输入医疗语言模型,生成词向量。
3.根据权利要求2所述的医疗文本分类方法,其特征在于,所述医疗语言模型的构建方法包括:
通过基础语言模型的权重初始化医疗语言模型的权重;以及
将带掩码的训练语料输入医疗语言模型并训练模型。
4.根据权利要求3所述的医疗文本分类方法,其特征在于,所述带掩码的训练语料包括:
随机对训练语料中的一句话遮盖或替换其中部分文字后形成训练语料,所述遮盖或替换的文字通过上下文的理解进行预测。
5.根据权利要求1所述的医疗文本分类方法,其特征在于,将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量,包括:
将词向量输入输入层,词向量表示为
Figure FDA0003336694280000011
其中,Xi表示句中第i个字的k维向量,符号
Figure FDA0003336694280000012
表示拼接运算,X1:n为n*k维矩阵;
将输入层处理之后的向量输入卷积层;以及
将卷积层处理之后的向量输入池化层,输出特征向量,所述池化层采用最大池化操作以取得特征中的最大值。
6.根据权利要求5所述的医疗文本分类方法,其特征在于,所述文本卷积神经网络还可以包括全连接层,所述全连接层将池化层输出的特征进行拼接。
7.一种医疗文本分类装置,其特征在于,包括:
向量映射模块,将待分类文本通过词向量映射,生成词向量;
特征向量提取模块,将所述词向量输入文本卷积神经网络进行特征提取,生成特征向量;以及
分类模块,将所述特征向量通过分类器进行分类,生成待分类文本的类别。
8.根据权利要求7所述的医疗文本分类方法,其特征在于,将待分类文本通过词向量映射,生成词向量,包括:
将待分类文本输入医疗语言模型,生成词向量。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至6中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至6中任一项所述的方法。
CN202111296341.4A 2021-11-03 2021-11-03 医疗文本分类方法、装置、电子设备及存储介质 Pending CN114020914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111296341.4A CN114020914A (zh) 2021-11-03 2021-11-03 医疗文本分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111296341.4A CN114020914A (zh) 2021-11-03 2021-11-03 医疗文本分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114020914A true CN114020914A (zh) 2022-02-08

Family

ID=80060639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111296341.4A Pending CN114020914A (zh) 2021-11-03 2021-11-03 医疗文本分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114020914A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737994A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN113571199A (zh) * 2021-09-26 2021-10-29 成都健康医联信息产业有限公司 医疗数据分类分级方法、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737994A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN113571199A (zh) * 2021-09-26 2021-10-29 成都健康医联信息产业有限公司 医疗数据分类分级方法、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719945A (zh) * 2023-08-08 2023-09-08 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质
CN116719945B (zh) * 2023-08-08 2023-10-24 北京惠每云科技有限公司 一种医学短文本的分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110673748A (zh) 输入法中候选长句的提供方法及装置
CN108920644B (zh) 对话连贯性的判断方法、装置、设备及计算机可读介质
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN112560506A (zh) 文本语义解析方法、装置、终端设备及存储介质
CN113919332A (zh) 实体识别模型建立方法、装置、电子设备及存储介质
CN107832302B (zh) 分词处理方法、装置、移动终端及计算机可读存储介质
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN114020914A (zh) 医疗文本分类方法、装置、电子设备及存储介质
CN114444476B (zh) 信息处理方法、装置和计算机可读存储介质
CN112507111A (zh) 用于生成式自动摘要生成的模型建立方法及摘要生成方法
CN112364166B (zh) 关系抽取模型的建立方法以及关系抽取方法
WO2024055864A1 (zh) 结合rpa和ai实现ia的分类模型的训练方法及装置
CN114020915A (zh) 用于医疗文本分类的决策树构建方法及装置
CN114626392B (zh) 端到端文本图像翻译模型训练方法
CN112464644B (zh) 自动断句模型建立方法及自动断句方法
CN115438718A (zh) 情感识别方法、装置、计算机可读存储介质及终端设备
CN114021585A (zh) 语音机器翻译模型的构建方法及语音机器翻译装置
CN112487184A (zh) 用户性格判定方法、装置、存储器和电子设备
CN114020910A (zh) 基于TextCNN的医疗文本特征提取方法及装置
CN114020912A (zh) 医疗文本分类方法、装置、电子设备及存储介质
CN114020913A (zh) 基于决策树的医疗文本分类方法、装置及电子设备
CN114676684B (zh) 一种文本纠错方法、装置、计算机设备及存储介质
CN111710331B (zh) 基于多切片深度神经网络的语音立案方法和装置
CN114626336A (zh) 文本标点恢复方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination