CN114020906A - 基于孪生神经网络的中文医疗文本信息匹配方法及系统 - Google Patents

基于孪生神经网络的中文医疗文本信息匹配方法及系统 Download PDF

Info

Publication number
CN114020906A
CN114020906A CN202111222502.5A CN202111222502A CN114020906A CN 114020906 A CN114020906 A CN 114020906A CN 202111222502 A CN202111222502 A CN 202111222502A CN 114020906 A CN114020906 A CN 114020906A
Authority
CN
China
Prior art keywords
neural network
question
chinese medical
information matching
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111222502.5A
Other languages
English (en)
Inventor
黄孝喜
童伟
王荣波
谌志群
姚金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111222502.5A priority Critical patent/CN114020906A/zh
Publication of CN114020906A publication Critical patent/CN114020906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于孪生神经网络的中文医疗文本信息匹配方法及系统。本发明采用双向长短期记忆网络构建用于实现医疗中文文本信息匹配的孪生神经网络,使得它能够同时捕获长距离和短距离的依赖,从而将问句对中的两个句子的表达输出为句向量并计算相似度得分,通过得到相似度得分即可实现问句对的匹配判断。这种多语义文档表达的深度学习模型不仅考虑了最终表达向量的相似程度,而且多粒度的匹配可以有效的解决传统的的单语义文档表达的深度学习模型在压缩整个句子中产生的信息损失,提升了匹配效果。

Description

基于孪生神经网络的中文医疗文本信息匹配方法及系统
技术领域
本发明涉及医疗信息技术领域,特别是涉及一种基于孪生神经网络的中文医疗文本信息匹配方法。
背景技术
随着自然语言问答领域的蓬勃发展,医疗问答领域逐渐成为热点之一,越来越多的用户通过互联网上的医疗服务平台进行查询和问诊,同时随着网络信息的快速增长,目前医疗问答领域主要通过搜索引擎提供问题检索服务,基于精确匹配的检索方式不能理解查询的语义容易造成结果的歧义,在文本匹配领域通过监督语料来训练语义匹配模型是一种有效的方法,但是在中文医疗文本领域缺失相应的医疗信息匹配数据,传统的人工监督语料的方法不仅容易更加费时费力,而且容易误判,所以如何快速准确的对中文医疗无监督文本匹配在自然语言处理领域一直是比较有挑战性的问题,涉及到自然语言处理,数据挖掘,机器学习等多个领域的学科技术和方法。
现有的技术文献中,一般是基于传统的卷积神经网络分类和基于统计的机器学习分类方法,对于无监督的中文医疗文本信息之间的关系依然无法准确的捕获到,同时对于长文本下的中文文本信息容易出现识别率不高,导致在传统领域对比人工监督语料信息仍有不足。
发明内容
本发明的目的是提供一种基于长短期记忆网络的医疗中文文本信息匹配方法,从而解决现有技术中文医疗信息匹配的问题。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提供了一种基于孪生神经网络的中文医疗文本信息匹配方法,其包括如下步骤:
S1,基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;
S2、利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量;
S3、利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练;所述中文医疗文本信息匹配模型采用孪生神经网络,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层,两个子神经网络中对应的网络层权值共享;问句对的两个句向量各自输入孪生神经网络的一个子神经网络中,在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示;最后对同属一个问句对的两个句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型;
S4、将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。
作为优选,所述问句对中两个问句均需要预先去除标点符号,再转换为等长度的句向量。
作为优选,所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(Contrastice Loss)。
作为优选,所述相似度为余弦相似度。
作为优选,所述句向量表示的维度为128维。
第二方面,本发明提供了一种基于孪生神经网络的中文医疗文本信息匹配系统,其包括:
语料获取模块:用于基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;
向量化模块:用于利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量;
模型训练模块:用于利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练;所述中文医疗文本信息匹配模型采用孪生神经网络,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层,两个子神经网络中对应的网络层权值共享;问句对的两个句向量各自输入孪生神经网络的一个子神经网络中,在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示;最后对同属一个问句对的两个句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型;
匹配模块:用于将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。
作为优选,所述问句对中两个问句均需要预先去除标点符号,再转换为等长度的句向量。
作为优选,所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(Contrastice Loss)。
作为优选,所述相似度为余弦相似度。
作为优选,所述句向量表示的维度为128维。
本发明采用双向长短期记忆网络构建用于实现医疗中文文本信息匹配的孪生神经网络,使得它能够同时捕获长距离和短距离的依赖,从而将问句对中的两个句子的表达输出为句向量并计算相似度得分,通过得到相似度得分即可实现问句对的匹配判断。这种多语义文档表达的深度学习模型不仅考虑了最终表达向量的相似程度,而且多粒度的匹配可以有效的解决传统的的单语义文档表达的深度学习模型在压缩整个句子中产生的信息损失,提升了匹配效果。
附图说明
图1为基于孪生神经网络的中文医疗文本信息匹配方法的步骤流程图。
图2为中文医疗文本信息匹配模型的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于孪生神经网络的中文医疗文本信息匹配方法,其包括如下步骤:
S1,基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;
中文医疗文本语料集中收集了不同类型的医疗相关问句,每个问句都具有其类别标签,具体类型可根据实际的应用场景而定,例如对于不同疾病类型的问句,其类别标签可以为疾病类型。因此可以根据该中文医疗文本语料集来构建训练样本,从而得到训练数据集。在该训练数据集中,每一个问句对作为一个训练样本,形式为一个元组tuple(X1,X2,y),标签y=0表示问句X1与问句X2属于不同类型(不相似、不重复或根据应用场景而定),y=1则表示问句X1与问句X2属于相同类型(相似)。
S2、利用BERT模型对上述训练数据集中的问句对中的每一个问句进行编码并转换为句向量。
传统的CBOW和Skip-Gram方式作为浅层的神经网络模型,无法解决一词多义以及在不同语义环境下只能表达静态的语义信息,因此本实施例中采用BERT模型对句子中的词进行词向量化。BERT模型中通过构造的词-id之间的映射关系使用Tokenizer对数据词组进行编码,从而将输入的句子编码映射为词向量列表,用于作为后续模型的输入。
需注意的是,将数据集中句子处理成相同长度的句向量时,其长度应当统一。如果小于标准句向量长度L1,则进行句向量的0填充,如果大于标准句向量长度L1,则进行切割,将其划分成标准句向量长度。句向量长度可根据实际调整,如果设置了最大长度则句向量长度统一为最大长度,如果没有设置则默认取最大长度。句子在进行向量化之前,需要预先去除多余的标点符号,仅保留文本。这些操作可以通过预处理函数加载文本数据来实现。
S3、利用经过S2向量化后的训练数据集对中文医疗文本信息匹配模型进行训练,训练后的中文医疗文本信息匹配模型即可用于进行实际的医疗文本语义匹配。
在本实施例中,如图2所示,中文医疗文本信息匹配模型采用孪生神经网络(siamese network,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络(BiLSTM)层和一层全连接层,两个子神经网络中对应的网络层权值共享。由于该孪生神经网络是基于BiLSTM作为网络层的,因此将其命名为Siamase-LSTM模型。传统的文本匹配模型需要基于大量的人工定义和抽取的特征,而且可学习的参数相对较少,所以这些特征总是根据根据特定的任务人工设计的,很大程度上限制了模型的泛化能力。而孪生神经网络根据输入的文本序列转化为文本序列,得到最后一层的hidden输出为句向量,通过余弦函数计算向量之间的相似度值,最后得到是否匹配的结果。
BiLSTM网络的具体结构属于现有技术,BiLSTM网络由两个LSTM网络组合而成,每一层的每个step前向后向拼接作为该step的输出,送入下一层,当前时刻的输出取平均作为输入词向量的表征向量。LSTM网络是由时刻的输入词Xt,细胞状态Ct,临时细胞状态
Figure BDA0003313125910000051
隐层状态ht,遗忘门ft,记忆门it,输出门ot组成。通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态ht,其中遗忘,记忆与输出由通过上个时刻的隐层状态ht-1和当前输入Xt计算出来的遗忘门ft,记忆门it,输出门ot来控制。最终计算新的输出门和隐藏层的状态为:
ot=σ(Wo[th-1,xt]+bo)
ht=ot*tanh(Ct)
W为模型的权重参数,xt为词向量的维度tanh为激活函数。
在该中文医疗文本信息匹配模型中,问句对中的两个句子经过BERT编码后得到的两个句向量作为embedding层,各自输入孪生神经网络的一个子神经网络中。而在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入维度为128的全连接层中并输出128维的句向量表示;最后对同属一个问句对的两个128维的句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型。
在本实施例中,两个128维的句向量表示之间的相似度采用余弦相似度,可通过余弦函数cos来计算。余弦相似度Ew计算公式如下:
Figure BDA0003313125910000061
其中:fw(X1)和fe(X2)分别表示两个128维句向量表示,-1≤Ew≤1,Ew的值越大,代表距离越近,即语义相似度较高,值越小代表距离越远,语义相似度较低。
在实际进行匹配时,上述距离Ew需要根据相应的距离阈值转换为两个问句是否属于相同类型的标签
上述中文医疗文本信息匹配模型的训练可通过最小化损失函数来实现,损失函数可基于上述余弦相似度进行设计。本发明中对应模型的损失函数的设计如下:
当两个输入样本不相似(y=0)时,距离Ew越大,损失越小,即关于Ew的单调递减函数;当两个输入样本相似(y=1)时,距离Ew越大,损失越大,即关于Ew的单调递增函数;以公式表示如下:
Figure BDA0003313125910000062
Figure BDA0003313125910000063
其中L+(X1,X2)表示y=1时的损失部分,L-(X1,X2)表示y=0时的损失部分。
由此,总的损失可以表示为:
Lw(X1,X2)=(1-y)L_(X1,X2)+yL+(X1,X2)
在本实施例中,为了适应模型训练的需要,最终所采用的损失函数为对比损失(Contrastice Loss),提高模型的泛化能力。对比损失定义如下:
Figure BDA0003313125910000064
其中d代表两个句向量表示的余弦距离,y为两个样本是否匹配的标签,y=1代表两个样本相似或者匹配,y=0则代表不匹配,margin为设定的阈值。当y=1(即样本相似)时,损失函数只剩下第一部分∑yd2,如果相似的文本,在特征空间欧式距离较大,说明当前模型拟合欠准,加大损失,而当y=0时(即样本不相似)时,损失函数为∑(1-y)max(marg,n-d,0)2,当不相似的文本,特征空间欧式距离较小,则损失值增大,达到满足训练的要求
中文医疗文本信息匹配模型的具体训练方式为现有技术,可基于最小化损失函数的原则通过优化器进行参数优化。当完成上述中文医疗文本信息匹配模型的训练后,即可进行实际的中文医疗文本信息匹配任务。
S4、将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。
为了进一步展示本发明的技术效果,下面将上述实施例中的中文医疗文本信息匹配方法应用于一个具体数据集上。其中,数据集采用阿里云天池文本的医疗文本CBLUE数据,数据集被划分为训练集、测试集、验证集。利用训练集对模型进行预训练,损失函数采用Contrastice Loss以提高模型的泛化能力,通过最小化损失函数对模型进行训练,并用测试集测试其模型性能是否满足要求。当满足要求,将取得训练效果较好的模型参数保存,并在验证集上进行实际的匹配任务测试。
另外,为了更直观的进行对比,本发明中还同时用CNN、LSTM、BOW、GRU作为对比模型在相同数据集上进行了测试。最终,五种模型在验证集上的分类准确率结果如表1所示:
表1五种模型在验证集上的匹配准确率
Figure BDA0003313125910000071
从表1中可见,对比传统的深度学习模型,本发明的孪生神经网络Siamase-LSTM在中文医疗文本的信息匹配任务上有效地提高了准确率。
由此,本发明采用Siamase-BiLSTM模型采用的孪生神经网络基于长短时记忆网络,使得它能够同时捕获长距离和短距离的依赖,从首尾两个方向进行扫描,得到句子的两个表达,然后将两种表达拼接到一起作为当前位置为中心的整个句子的表达。然后将两个句子的表达输出的句向量通过余弦函数计算相似度值。最后得到相似度得分。这种多语义文档表达的深度学习模型不久考虑最终表达向量的相似程度,而且多粒度的匹配可以有效的解决传统的的单语义文档表达的深度学习模型在压缩整个句子中产生的信息损失,提升了效果。
在本发明的另一实施例中,还提供了一种与前述匹配方法完全对应的一种基于孪生神经网络的中文医疗文本信息匹配系统,其包括:
语料获取模块:用于基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;
向量化模块:用于利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量;
模型训练模块:用于利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练;所述中文医疗文本信息匹配模型采用孪生神经网络,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层,两个子神经网络中对应的网络层权值共享;问句对的两个句向量各自输入孪生神经网络的一个子神经网络中,在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示;最后对同属一个问句对的两个句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型;
匹配模块:用于将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。
由于上述基于孪生神经网络的中文医疗文本信息匹配系统中各模块分别对应了前述实施例的S1~S4,因此其中具体的实现方式亦可参见前述实施例,对此不再赘述。
需要说明的是,根据本发明公开的实施例,上述基于孪生神经网络的中文医疗文本信息匹配系统中的各种模块的具体实现功能可以通过编写的计算机软件程序来实现,计算机程序中包含用于执行相应方法的程序代码。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,包括如下步骤:
S1、基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;
S2、利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量;
S3、利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练;所述中文医疗文本信息匹配模型采用孪生神经网络,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层,两个子神经网络中对应的网络层权值共享;问句对的两个句向量各自输入孪生神经网络的一个子神经网络中,在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示;最后对同属一个问句对的两个句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型;
S4、将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。
2.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述问句对中两个问句均需要预先去除标点符号,再转换为等长度的句向量。
3.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(ContrasticeLoss)。
4.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述相似度为余弦相似度。
5.如权利要求1所述的基于孪生神经网络的中文医疗文本信息匹配方法,其特征在于,所述句向量表示的维度为128维。
6.一种基于孪生神经网络的中文医疗文本信息匹配系统,其特征在于,包括:
语料获取模块:用于基于中文医疗文本语料集构建由问句对组成的训练数据集,其中每一个问句对中含有两个医疗相关的问句并由标签标记两个问句是否属于相同类型;
向量化模块:用于利用BERT模型对所述训练数据集中的问句对中的每一个问句进行编码并转换为句向量;
模型训练模块:用于利用经过S2向量化后的所述训练数据集对中文医疗文本信息匹配模型进行训练;所述中文医疗文本信息匹配模型采用孪生神经网络,孪生神经网络中的两个子神经网络均包含级联的四层双向长短期记忆网络层和一层全连接层,两个子神经网络中对应的网络层权值共享;问句对的两个句向量各自输入孪生神经网络的一个子神经网络中,在每一个子神经网络中输入的句向量依次经过四层双向长短期记忆网络层,前一层双向长短期记忆网络层输出的表征向量继续作为下一层双向长短期记忆网络层的输入,最后一层双向长短期记忆网络层输出的表征向量输入全连接层中并输出句向量表示;最后对同属一个问句对的两个句向量表示计算相似度,并根据相似度得分判断问句对中的两个问句是否属于相同类型;
匹配模块:用于将待匹配的两个医疗相关的问句分别利用BERT模型进行编码并转换为句向量,然后输入训练后的中文医疗文本信息匹配模型中,输出两个问句是否属于相同类型的判断结果。
7.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统,其特征在于,所述问句对中两个问句均需要预先去除标点符号,再转换为等长度的句向量。
8.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统,其特征在于,所述中文医疗文本信息匹配模型训练过程中所采用的损失函数为对比损失(ContrasticeLoss)。
9.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统,其特征在于,所述相似度为余弦相似度。
10.如权利要求6所述的基于孪生神经网络的中文医疗文本信息匹配系统,其特征在于,所述句向量表示的维度为128维。
CN202111222502.5A 2021-10-20 2021-10-20 基于孪生神经网络的中文医疗文本信息匹配方法及系统 Pending CN114020906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111222502.5A CN114020906A (zh) 2021-10-20 2021-10-20 基于孪生神经网络的中文医疗文本信息匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111222502.5A CN114020906A (zh) 2021-10-20 2021-10-20 基于孪生神经网络的中文医疗文本信息匹配方法及系统

Publications (1)

Publication Number Publication Date
CN114020906A true CN114020906A (zh) 2022-02-08

Family

ID=80056898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111222502.5A Pending CN114020906A (zh) 2021-10-20 2021-10-20 基于孪生神经网络的中文医疗文本信息匹配方法及系统

Country Status (1)

Country Link
CN (1) CN114020906A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497633A (zh) * 2022-10-19 2022-12-20 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN116150382A (zh) * 2023-04-19 2023-05-23 北京亚信数据有限公司 一种确定标准化医疗专业名词的方法及装置
CN116167353A (zh) * 2023-04-26 2023-05-26 成都博智云创科技有限公司 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN116720503A (zh) * 2023-03-13 2023-09-08 吉林省元启科技有限公司 一种基于树状解析编码的在线学习系统答案判别方法
CN116842459A (zh) * 2023-09-01 2023-10-03 国网信息通信产业集团有限公司 一种基于小样本学习的电能计量故障诊断方法及诊断终端

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497633A (zh) * 2022-10-19 2022-12-20 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN115497633B (zh) * 2022-10-19 2024-01-30 联仁健康医疗大数据科技股份有限公司 一种数据处理方法、装置、设备及存储介质
CN116720503A (zh) * 2023-03-13 2023-09-08 吉林省元启科技有限公司 一种基于树状解析编码的在线学习系统答案判别方法
CN116150382A (zh) * 2023-04-19 2023-05-23 北京亚信数据有限公司 一种确定标准化医疗专业名词的方法及装置
CN116167353A (zh) * 2023-04-26 2023-05-26 成都博智云创科技有限公司 一种基于孪生长短期记忆网络的文本语义相似度度量方法
CN116842459A (zh) * 2023-09-01 2023-10-03 国网信息通信产业集团有限公司 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN116842459B (zh) * 2023-09-01 2023-11-21 国网信息通信产业集团有限公司 一种基于小样本学习的电能计量故障诊断方法及诊断终端

Similar Documents

Publication Publication Date Title
US11314921B2 (en) Text error correction method and apparatus based on recurrent neural network of artificial intelligence
CN106776562B (zh) 一种关键词提取方法和提取系统
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答系统构建方法
CN113761868A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination