CN115934911A - 医疗问诊口语的术语匹配方法及相关设备 - Google Patents
医疗问诊口语的术语匹配方法及相关设备 Download PDFInfo
- Publication number
- CN115934911A CN115934911A CN202211600667.6A CN202211600667A CN115934911A CN 115934911 A CN115934911 A CN 115934911A CN 202211600667 A CN202211600667 A CN 202211600667A CN 115934911 A CN115934911 A CN 115934911A
- Authority
- CN
- China
- Prior art keywords
- term
- spoken language
- terms
- inquiry
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000012512 characterization method Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种医疗问诊口语的术语匹配方法及相关设备,其中方法包括:确定问诊口语,以及获取标准术语库;将问诊口语和标准术语库中所包含的术语,输入至术语匹配模型中,确定与问诊口语对应的匹配术语;其中,术语匹配模型基于训练样本得到,训练样本包括口语样本集和口语样本集对应的术语。通过基于术语语义实现对训练语料的扩展,将术语作为训练依据,然后在术语匹配时,将术语与问诊口语作为输入,提高术语匹配模型使用的准确性。
Description
技术领域
本发明涉及问诊数据处理技术领域,尤其涉及一种医疗问诊口语的术语匹配方法、装置、电子设备和存储介质。
背景技术
医疗术语槽填充任务(MSL),其目标是自动地从患者问询中检测医疗术语填充槽位,从而将患者问询转化为结构化信息。这种结构化信息既有助于自动构建电子病历,也有助于远程医疗场景下医疗对话系统提供如咨询、诊断等专业可信的医疗服务,因此MSL近些年逐渐受到关注。
现有实现上述效果的方法可以分为两类:多标签分类方法和序列生成方法。但是两者均存在一定的问题,其中,多标签分类方法是基于无标注数据通过弱监督预训练学习术语,限制了预训练数据的规模;而序列生成式方法因为是利用对话模板将MSL建模为回复生成任务,使得对话预训练与目标任务间的差异对使用性能有所影响,如术语匹配准确度。
发明内容
本发明提供一种医疗问诊口语的术语匹配方法、装置、电子设备和存储介质,用以解决现有技术中多标签分类和序列生成在术语匹配过程中效果较差的问题。
本发明提供一种医疗问诊口语的术语匹配方法,包括:
确定问诊口语,以及获取标准术语库;
将所述问诊口语和所述标准术语库中所包含的术语,输入至术语匹配模型中,确定与所述问诊口语对应的匹配术语;
其中,所述术语匹配模型基于训练样本得到,所述训练样本包括口语样本集和所述口语样本集对应的术语。
根据本发明提供的一种医疗问诊口语的术语匹配方法,所述将所述问诊口语和所述标准术语库中所包含的术语,输入至术语匹配模型中,确定与所述问诊口语对应的匹配术语,包括:
对所述标准术语库中包含的术语进行拼接,得到对应的术语序列;
将所述问诊口语转化为对应的文本序列,并将所述术语序列与所述文本序列进行拼接,得到目标序列;
将所述目标序列输入至所述术语匹配模型中,输出得到对应的匹配术语。
根据本发明提供的一种医疗问诊口语的术语匹配方法,所述术语匹配模型基于训练样本得到,包括:
确定口语样本集,并基于所述口语样本集得到术语集合;
将所述口语样本集与所述术语集合中的若干术语进行拼接,并对拼接后的序列进行表征提取,得到对应的表征矩阵;
基于所述表征矩阵对术语匹配模型进行训练,得到训练好的术语匹配模型。
根据本发明提供的一种医疗问诊口语的术语匹配方法,所述基于所述口语样本集得到术语集合,包括:
对所述口语样本集中的每一口语样本进行术语提取,得到每一口语样本对应的术语,并将所述术语进行汇总得到所述口语样本集对应的术语集合。
根据本发明提供的一种医疗问诊口语的术语匹配方法,所述将所述口语样本集与所述术语集合中的若干术语进行拼接,并对拼接后的序列进行表征提取,得到对应的表征矩阵,包括:
在所述口语样本集中确定第一口语样本,并对所述第一口语样本进行处理得到对应的第一文本序列,以及基于所述第一口语样本在所述术语集合中确定第一术语子集合;
在所述第一术语子集合中确定第一术语,并基于所述第一术语对所述第一文本序列进行处理;
在第二术语子集合中确定第二术语,其中所述术语集合由所述第一术语子集合和所述第二术语子集合构成;
将处理后的所述第一口语样本与所述第二术语进行拼接,并对拼接后的序列进行表征提取,得到第一口语样本对应的表征矩阵。
根据本发明提供的一种医疗问诊口语的术语匹配方法,所述基于所述第一术语对所述第一文本序列进行处理,包括:
确定所述第一文本序列中各术语所对应的位置;
根据所述第一术语对所述第一文本序列进行掩码处理,得到掩码后的第一文本序列。
根据本发明提供的一种医疗问诊口语的术语匹配方法,所述基于所述表征矩阵对术语匹配模型进行训练,得到训练好的术语匹配模型,包括:
将所述表征特征输入至术语匹配模型中,得到对应的输出结果;
根据所述输出结果和所述第一术语确定是否训练完成,并在确定训练完成时得到训练好的术语匹配模型。
本发明还提供一种医疗问诊口语的术语匹配装置,包括:
信息获取模块,用于确定问诊口语,以及获取标准术语库;
术语匹配模块,用于将所述问诊口语和所述标准术语库中所包含的术语,输入至术语匹配模型中,确定与所述问诊口语对应的匹配术语;
其中,所述术语匹配模型基于训练样本得到,所述训练样本包括口语样本集和所述口语样本集对应的术语。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的医疗问诊口语的术语匹配方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的医疗问诊口语的术语匹配方法。
本发明提供的医疗问诊口语的术语匹配方法、装置、电子设备和存储介质,在对患者的问诊口语进行术语匹配时,在确定问诊口语的同时,在标准术语库中获取相应的术语,对于问诊口语可以将其转换为相对应的文本序列,进而基于得到的文本序列和术语序列作为术语匹配模型的输入,以输出得到与问诊口语相对应的匹配术语,同时,在对术语匹配模型进行训练时,基于口语样本和口语样本所对应的术语构建用于进行训练的训练样本,以在训练完成时得到此时所使用的术语匹配模型。通过基于术语语义实现对训练预料的扩展,将术语作为训练依据,然后在术语匹配时,将术语与问诊口语作为输入,提高术语匹配模型使用的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的医疗问诊口语的术语匹配方法的流程示意图;
图2是本发明提供的得到匹配术语的步骤的流程示意图;
图3是本发明提供的得到术语匹配模型的步骤的流程示意图;
图4是本发明提供的对口语样本进行处理的步骤的流程示意图;
图5是本发明提供的医疗问诊口语的术语匹配装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的医疗问诊口语的术语匹配方法,基于本发明所描述的方法,可以通过准确的对问诊口语进行术语匹配,确定问诊对话中的术语信息,可以准确的对问诊口语信息进行记录和存储。
图1是本发明提供的医疗问诊口语的术语匹配方法的流程示意图,如图1所示,该方法包括:
步骤101,确定问诊口语,以及获取标准术语库。
在问诊过程中,患者与医生进行对话时,患者所说的话为问诊语句,由于患者并不了解医生的常规术语,因此在进行问诊时,所说的话通常是口语化的语句,但是对于医生或者其他的人来说,问诊时口语化的语句也是可以理解的,但是对于术语匹配系统或者设备而言,则需要具有识别的能力才能实现术语的识别和匹配。
在问诊过程中,需要确定患者的问诊口语所对应的术语时,首先获取患者的问诊口语,进而通过相关的匹配等处理,确定与其相对应的术语。具体地,确定问诊口语,同时获取标准术语库,其中标准术语库为预先训练和构建好的存储术语的数据库。
在确定问诊口语时,可以通过相关的语音采集装置对患者的问诊口语进行获取,比如问诊系统,患者通过与问诊系统的交互使得问诊系统获取患者输入的问诊口语,然后通过对问诊口语的分析,确定相匹配的术语。同时,在获取到了问诊口语时,还会读取预先所存储好的标准术语库。
步骤102,将问诊口语和标准术语库中所包含的术语,输入至术语匹配模型中,确定与问诊口语对应的匹配术语;
其中,术语匹配模型基于训练样本得到,训练样本包括口语样本集和口语样本集对应的术语。
在得到问诊口语和标准术语库之后,将会基于问诊口语和标准术语库利用预先训练好的术语匹配模型进行术语匹配和确认,进而确定与问诊口语相对应的匹配术语。而对于此时所使用的术语匹配模型,预先进行相应的训练所得到,并且在进行训练时基于口语样本和口语样本所对应的术语所构成的训练样本进行训练,以得到术语匹配模型。
在基于问诊口语和标准术语库利用术语匹配模型进行处理时,可以参照图2,图2是本发明提供的得到匹配术语的步骤的流程示意图。其中,该步骤包括步骤201至步骤203。
步骤201,对标准术语库中包含的术语进行拼接,得到对应的术语序列;
步骤202,将问诊口语转化为对应的文本序列,并将术语序列与文本序列进行拼接,得到目标序列;
步骤203,将目标序列输入至术语匹配模型中,输出得到对应的匹配术语。
在基于术语匹配模型确定当前问诊口语所对应的匹配术语时,首先对标准术语库中所包含的术语进行拼接,得到对应的术语序列,同时将所确定的问诊口语转化为对应的文本序列,然后将文本序列和术语序列进行拼接得到目标序列,进而将目标序列输入到术语匹配模型中,以确定问诊口语所对应的匹配术语。
具体地,在得到术语序列时,通过将标准术语库中的每一个术语基于相应的连接符进行连接,以得到标准术语库所对应的术语序列。
示例性地,设定标准术语库中的术语为term(n),其中,n可以是术语的序号。在进行拼接时,所构建得到的术语序列可以如下:
Sitem=term 1[EOI]term 2[EOI]…term n[EOI]
其中,[EOI]特殊符为术语的结束标志,用于对相邻的两个术语进行分隔。
同时,在将问诊术语转化为对应的文本序列时,文本序列的格式或者形式与拼接得到的术语序列是相同的,比如均为一个矩阵或者向量,然后在将术语序列和文本序列进行拼接处理得到目标序列时,利用相应的连接符实现两者之间的拼接。而进行拼接所得到的目标序列可以为:
X=[CLS]Sterm[SEP]Stext[SEP]
其中,X为目标序列,[CLS]为起始标志符,[SEP]为终止标志符。
进而利用此时所得到的目标序列,将其作为术语匹配模型的输入,确定问诊口语所对应的匹配术语。
而在进行术语的匹配时,所得到的输出可以为:
H(X)=[h1,…,hi,…,hL]
其中,hi表示序列X中第i个字符的向量表征,L为序列X的长度。此时通过对输出的结果进行读取,便可以确定问诊口语所对应的匹配术语。
需要说明的是,在得到输出结果时,所输出得到的结果可以使基于二分类所得到的结果,此时可以直接通过得到的结果为“是”还是“否”,确定当前所匹配的术语。
进一步地,为了实现术语的匹配,首先需要进行相应的训练处理得到所使用的术语匹配模型,进而再进行使用,得到问诊口语所对应的匹配术语。参照图3,图3是本发明提供的得到术语匹配模型的步骤的流程示意图。其中,步骤包括步骤301至步骤303。
步骤301,确定口语样本集,并基于口语样本集得到术语集合;
步骤302,将口语样本集与术语集合中的若干术语进行拼接,并对拼接后的序列进行表征提取,得到对应的表征矩阵;
步骤303,基于表征矩阵对术语匹配模型进行训练,得到训练好的术语匹配模型。
在进行训练时,所使用的训练样本中所包含的口语样本集,除了可以包含患者的口语,还可以包含医生的口语,也就是训练样本中的口语样本为患者和医生对话所产生的口语,进而基于训练样本对需要进行训练的术语匹配模型的训练。
具体地,在确定了口语样本集时,基于口语样本集得到相对应的术语集合,然后基于口语样本集和术语集合中的术语,得到用于训练的训练样本,通过将口语样本与术语进行结合,处理可以扩展训练样本的数量,也可以使得在使用的过程中可以更加准确的完成匹配。
示例性地,在确定口语样本集时,通过对每一个口语样本所包含的术语进行获取,进而进行汇总得到口语样本集所对应的术语集合。具体包括:对口语样本集中的每一口语样本进行术语提取,得到每一口语样本对应的术语,并将术语进行汇总得到口语样本集对应的术语集合。
而在对口语样本集中所包含的术语进行获取时,可以利用相关的手段对口语样本中所包含的术语进行识别和获取,得到每一个口语样本所对应关联的术语,然后汇总以得到整个口语样本集的术语集合,并且,对于每一个口语样本,都有着各自相对应的若干术语。
在得到了口语样本集对应的术语集合之后,在进行训练时,首先在口语样本所对应的术语中选择若干术语,然后基于所选择的术语对口语所对应的文本进行处理,同时在术语集合中除了口语样本所对应的术语中再次选择若干术语作为干扰以添加在进行训练的样本中,具体地,以其中一个口语样本为例,在得到口语样本进行训练时的输入时,参照图4,图4是本发明提供的对口语样本进行处理的步骤的流程示意图,其中,该步骤包括步骤401至步骤404。
步骤401,在口语样本集中确定第一口语样本,并对第一口语样本进行处理得到对应的第一文本序列,以及基于第一口语样本在术语集合中确定第一术语子集合;
步骤402,在第一术语子集合中确定第一术语,并基于第一术语对第一文本序列进行处理;
步骤403,在第二术语子集合中确定第二术语,其中术语集合由第一术语子集合和第二术语子集合构成;
步骤404,将处理后的第一口语样本与第二术语进行拼接,并对拼接后的序列进行表征提取,得到第一口语样本对应的表征矩阵。
在进行处理时,首先在口语样本集中确定第一口语样本,并对第一口语样本进行序列转换处理得到对应的第一文本序列,并且在术语集合中确定第一口语样本所对应的第一术语子集合,然后在第一术语子集合选择和确定第一术语,进而基于所选择的第一术语对第一文本序列进行处理,同时在第二术语子集合中选择和确定第二术语,最后将所得到的第二术语与处理后的第一文本序列对应的文本进行拼接等处理,已通过特征提取得到第一口语样本对应的表征矩阵。
需要说明的是,第一术语子集合和第二术语子集合构成术语集合,且第一术语和第二术语的数量若干,可以根据实际的情况对两者的数量进行设定。
示例性地,口语样本中的每一个口语样本都会与若干个术语相对应,以第一口语样本为例,其所对应的术语构成第一术语子集合,同样的对于每一个口语,都会对应一个术语子集合。
然后在处理时,随机在第一术语子集合中选择一定的数量的术语,同时每一个术语在第一口语样本对应的第一文本序列中对应着不同的位置,同时对于第一口语样本所对应的文本,可以通过处理转变为相对应的序列,如第一口语样本对应的文本可以对应为第一文本序列,此时在选择了术语之后,对第一文本序列进行处理,具体处理可以包括:确定第一文本序列中各术语所对应的位置;根据第一术语对第一文本序列进行掩码处理,得到掩码后的第一文本序列。
对于第一口语样本对应的第一文本序列,所确定的术语在第一文本序列中可以找到对应的位置,此时在进行处理时,根据所选择和确定的术语确定在第一文本序列中所对应的位置,然后对所确定的位置进行掩码处理,进而在处理完成是得到掩码后的第一文本序列。
然后,在第二术语子集合中选择第二术语,通过将第二术语与掩码处理后的第一文本序列进行拼接处理,进而通过表征特征的提取得到第一口语样本对应的表征矩阵。
比如,以第一口语样本为例,从匹配到的术语中随机选取部分术语termspos,将在第一口语样本对应的文本序列中出现了所选择的术语的地方进行掩码处理得到然后从不包含有匹配到的术语的术语集中随机选取部分术语termsneg作为干扰,并且将其与termspos拼接作为此时所得到的文本序列:
而在模型的优化处理时,可以基于二分类损失函数的方式进行优化,具体地,在进行术语的拼接时,通过在术语之间添加特殊符[EOI],而此时在进行添加时,基于特殊符与术语之间的关联关系,可以使用不同的特殊符表示相邻的术语,即:
然后,通过前馈网络和softmax层将该表征映射至二分类中:
其中,k取0或1,两类分别代表该术语出现或没有出现在原始对话中。
在基于特征矩阵进行训练时,通过将其输入到需要进行训练的术语匹配模型中,基于上述的二分类方式实现对第一文本序列中的掩码所对应的术语进行预测,然后根据第一术语和预测得到的术语确定是否训练完成,在未训练完成时继续训练,反之则得到相对应的训练好的术语匹配模型,以进行使用。
进一步地,在基于上述方式完成模型的训练,得到术语匹配模型之后,还可以对其进行相应的验证和微调处理,以使得所得到的术语匹配模型具有更好的使用效果。具体地,在进行验证和微调处理时,获取相应的用于进行微调的微调数据,其中,微调数据包括进行训练时口语样本以及标准术语库中若干口语术语,且在标准术语库中所得到的口语术语都进行了准确的人工标记,然后根据微调数据对得到的术语匹配模型进行微调,至微调结果满足所设定的条件。
本发明实施例提供的方法,在对患者的问诊口语进行术语匹配时,在确定问诊口语的同时,在标准术语库中获取相应的术语,对于问诊口语可以将其转换为相对应的文本序列,进而基于得到的文本序列和术语序列作为术语匹配模型的输入,以输出得到与问诊口语相对应的匹配术语,同时,在对术语匹配模型进行训练时,基于口语样本和口语样本所对应的术语构建用于进行训练的训练样本,以在训练完成时得到此时所使用的术语匹配模型。通过基于术语语义实现对训练预料的扩展,将术语作为训练依据,然后在术语匹配时,将术语与问诊口语作为输入,提高术语匹配模型使用的准确性。
下面对本发明提供的医疗问诊口语的术语匹配装置进行描述,下文描述的医疗问诊口语的术语匹配装置与上文描述的医疗问诊口语的术语匹配方法可相互对应参照。
图5是本发明提供的医疗问诊口语的术语匹配装置的结构示意图,如图5所示,该医疗问诊口语的术语匹配装置500包括:
信息获取模块501,用于确定问诊口语,以及获取标准术语库;
术语匹配模块502,用于将问诊口语和标准术语库中所包含的术语,输入至术语匹配模型中,确定与问诊口语对应的匹配术语;
其中,术语匹配模型基于训练样本得到,训练样本包括口语样本集和口语样本集对应的术语。
基于上述实施例,术语匹配模块502还用于:
对标准术语库中包含的术语进行拼接,得到对应的术语序列;
将问诊口语转化为对应的文本序列,并将术语序列与文本序列进行拼接,得到目标序列;
将目标序列输入至术语匹配模型中,输出得到对应的匹配术语。
基于上述实施例,医疗问诊口语的术语匹配装置500还包括一模型训练模块,用于:
确定口语样本集,并基于口语样本集得到术语集合;
将口语样本集与术语集合中的若干术语进行拼接,并对拼接后的序列进行表征提取,得到对应的表征矩阵;
基于表征矩阵对术语匹配模型进行训练,得到训练好的术语匹配模型。
基于上述实施例,模型训练模块还用于:
对口语样本集中的每一口语样本进行术语提取,得到每一口语样本对应的术语,并将术语进行汇总得到口语样本集对应的术语集合。
基于上述实施例,模型训练模块还用于:
在口语样本集中确定第一口语样本,并对第一口语样本进行处理得到对应的第一文本序列,以及基于第一口语样本在术语集合中确定第一术语子集合;
在第一术语子集合中确定第一术语,并基于第一术语对第一文本序列进行处理;
在第二术语子集合中确定第二术语,其中术语集合由第一术语子集合和第二术语子集合构成;
将处理后的第一口语样本与第二术语进行拼接,并对拼接后的序列进行表征提取,得到第一口语样本对应的表征矩阵。
基于上述实施例,模型训练模块还用于:
确定第一文本序列中各术语所对应的位置;
根据第一术语对第一文本序列进行掩码处理,得到掩码后的第一文本序列。
基于上述实施例,模型训练模块还用于:
将表征特征输入至术语匹配模型中,得到对应的输出结果;
根据输出结果和第一术语确定是否训练完成,并在确定训练完成时得到训练好的术语匹配模型。
本发明提供的医疗问诊口语的术语匹配装置,在对患者的问诊口语进行术语匹配时,在确定问诊口语的同时,在标准术语库中获取相应的术语,对于问诊口语可以将其转换为相对应的文本序列,进而基于得到的文本序列和术语序列作为术语匹配模型的输入,以输出得到与问诊口语相对应的匹配术语,同时,在对术语匹配模型进行训练时,基于口语样本和口语样本所对应的术语构建用于进行训练的训练样本,以在训练完成时得到此时所使用的术语匹配模型。通过基于术语语义实现对训练预料的扩展,将术语作为训练依据,然后在术语匹配时,将术语与问诊口语作为输入,提高术语匹配模型使用的准确性。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行医疗问诊口语的术语匹配方法,该方法包括:确定问诊口语,以及获取标准术语库;将问诊口语和标准术语库中所包含的术语,输入至术语匹配模型中,确定与问诊口语对应的匹配术语;其中,术语匹配模型基于训练样本得到,训练样本包括口语样本集和口语样本集对应的术语。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的医疗问诊口语的术语匹配方法,该方法包括:确定问诊口语,以及获取标准术语库;将问诊口语和标准术语库中所包含的术语,输入至术语匹配模型中,确定与问诊口语对应的匹配术语;其中,术语匹配模型基于训练样本得到,训练样本包括口语样本集和口语样本集对应的术语。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的医疗问诊口语的术语匹配方法,该方法包括:确定问诊口语,以及获取标准术语库;将问诊口语和标准术语库中所包含的术语,输入至术语匹配模型中,确定与问诊口语对应的匹配术语;其中,术语匹配模型基于训练样本得到,训练样本包括口语样本集和口语样本集对应的术语。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种医疗问诊口语的术语匹配方法,其特征在于,包括:
确定问诊口语,以及获取标准术语库;
将所述问诊口语和所述标准术语库中所包含的术语,输入至术语匹配模型中,确定与所述问诊口语对应的匹配术语;
其中,所述术语匹配模型基于训练样本得到,所述训练样本包括口语样本集和所述口语样本集对应的术语。
2.根据权利要求1所述的医疗问诊口语的术语匹配方法,其特征在于,所述将所述问诊口语和所述标准术语库中所包含的术语,输入至术语匹配模型中,确定与所述问诊口语对应的匹配术语,包括:
对所述标准术语库中包含的术语进行拼接,得到对应的术语序列;
将所述问诊口语转化为对应的文本序列,并将所述术语序列与所述文本序列进行拼接,得到目标序列;
将所述目标序列输入至所述术语匹配模型中,输出得到对应的匹配术语。
3.根据权利要求1所述的医疗问诊口语的术语匹配方法,其特征在于,所述术语匹配模型基于训练样本得到,包括:
确定口语样本集,并基于所述口语样本集得到术语集合;
将所述口语样本集与所述术语集合中的若干术语进行拼接,并对拼接后的序列进行表征提取,得到对应的表征矩阵;
基于所述表征矩阵对术语匹配模型进行训练,得到训练好的术语匹配模型。
4.根据权利要求3所述的医疗问诊口语的术语匹配方法,其特征在于,所述基于所述口语样本集得到术语集合,包括:
对所述口语样本集中的每一口语样本进行术语提取,得到每一口语样本对应的术语,并将所述术语进行汇总得到所述口语样本集对应的术语集合。
5.根据权利要求3所述的医疗问诊口语的术语匹配方法,其特征在于,所述将所述口语样本集与所述术语集合中的若干术语进行拼接,并对拼接后的序列进行表征提取,得到对应的表征矩阵,包括:
在所述口语样本集中确定第一口语样本,并对所述第一口语样本进行处理得到对应的第一文本序列,以及基于所述第一口语样本在所述术语集合中确定第一术语子集合;
在所述第一术语子集合中确定第一术语,并基于所述第一术语对所述第一文本序列进行处理;
在第二术语子集合中确定第二术语,其中所述术语集合由所述第一术语子集合和所述第二术语子集合构成;
将处理后的所述第一口语样本与所述第二术语进行拼接,并对拼接后的序列进行表征提取,得到第一口语样本对应的表征矩阵。
6.根据权利要求5所述的医疗问诊口语的术语匹配方法,其特征在于,所述基于所述第一术语对所述第一文本序列进行处理,包括:
确定所述第一文本序列中各术语所对应的位置;
根据所述第一术语对所述第一文本序列进行掩码处理,得到掩码后的第一文本序列。
7.根据权利要求6所述的医疗问诊口语的术语匹配方法,其特征在于,所述基于所述表征矩阵对术语匹配模型进行训练,得到训练好的术语匹配模型,包括:
将所述表征特征输入至术语匹配模型中,得到对应的输出结果;
根据所述输出结果和所述第一术语确定是否训练完成,并在确定训练完成时得到训练好的术语匹配模型。
8.一种医疗问诊口语的术语匹配装置,其特征在于,包括:
信息获取模块,用于确定问诊口语,以及获取标准术语库;
术语匹配模块,用于将所述问诊口语和所述标准术语库中所包含的术语,输入至术语匹配模型中,确定与所述问诊口语对应的匹配术语;
其中,所述术语匹配模型基于训练样本得到,所述训练样本包括口语样本集和所述口语样本集对应的术语。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述医疗问诊口语的术语匹配方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述医疗问诊口语的术语匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211600667.6A CN115934911A (zh) | 2022-12-12 | 2022-12-12 | 医疗问诊口语的术语匹配方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211600667.6A CN115934911A (zh) | 2022-12-12 | 2022-12-12 | 医疗问诊口语的术语匹配方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115934911A true CN115934911A (zh) | 2023-04-07 |
Family
ID=86557114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211600667.6A Pending CN115934911A (zh) | 2022-12-12 | 2022-12-12 | 医疗问诊口语的术语匹配方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115934911A (zh) |
-
2022
- 2022-12-12 CN CN202211600667.6A patent/CN115934911A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN109977203B (zh) | 语句相似度确定方法、装置、电子设备及可读存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN116881470A (zh) | 一种生成问答对的方法及装置 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN113901838A (zh) | 对话检测方法和装置、电子设备、存储介质 | |
CN111414732A (zh) | 文本风格转换方法、装置、电子设备及存储介质 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和系统 | |
CN117743526A (zh) | 一种基于大语言模型和自然语言处理的表格问答方法 | |
CN111898363A (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN113724700B (zh) | 语种识别、语种识别模型训练方法及装置 | |
CN115934911A (zh) | 医疗问诊口语的术语匹配方法及相关设备 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115527551A (zh) | 语音标注质量评价方法、装置、电子设备和存储介质 | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
CN115019788A (zh) | 语音交互方法、系统、终端设备及存储介质 | |
CN113128231A (zh) | 一种数据质检方法、装置、存储介质和电子设备 | |
CN113255361B (zh) | 语音内容的自动检测方法、装置、设备以及存储介质 | |
CN112257420B (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |