CN114780672A - 一种基于网络资源的医学问题问答处理方法及装置 - Google Patents

一种基于网络资源的医学问题问答处理方法及装置 Download PDF

Info

Publication number
CN114780672A
CN114780672A CN202210295494.5A CN202210295494A CN114780672A CN 114780672 A CN114780672 A CN 114780672A CN 202210295494 A CN202210295494 A CN 202210295494A CN 114780672 A CN114780672 A CN 114780672A
Authority
CN
China
Prior art keywords
question
answer
medical
document
keyword set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210295494.5A
Other languages
English (en)
Inventor
刘洋
李鹏
马为之
王硕
孔祥哲
张猛
黄文灏
曹岗
赵小帆
史业民
张学丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Tsinghua University
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Tsinghua University
Priority to CN202210295494.5A priority Critical patent/CN114780672A/zh
Publication of CN114780672A publication Critical patent/CN114780672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于网络资源的医学问题问答处理方法及装置。该方法包括:确定用户输入的医学问题信息,并对医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;利用基于词频逆文档频率的统计方式及关键词集合,从文档库中检索出与关键词集合对应的目标问答文档;基于预训练语言模型和医学问题信息对目标问答文档进行重排序,输出重排序后的问答结果;预训练语言模型是基于通用领域样本数据、医学问答领域数据组成的混合数据集及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。本发明提供的方法,通过基于词频逆文档频率的统计方式进行筛选并利用预训练语言模型重排序,能够有效提高医学问题问答匹配的精度和效率。

Description

一种基于网络资源的医学问题问答处理方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于网络资源的医学问题问答处理方法及装置。另外,还涉及一种电子设备及处理器可读存储介质。
背景技术
近年来,随着互联网技术的快速发展,各种网络医疗信息海量增长。人们在网络上输入医学问题时面对海量的医疗信息想要搜索到满意的答案越来越难,用户必须逐一浏览问答内容,并对医疗信息进行进一步甄别,才能找到其需要的答案,费时费力。然而,目前在医学领域,医学的智能问答系统研究尚不成熟,现有的智能问答系统局限性较大,存在语义推理能力差、问答准确率较差等问题,导致用户使用体验较差。因此,如何设计一种能够对用户输入问题进行高效检索并准确返回问答文档的方案成为本领域亟待解决的技术问题。
发明内容
为此,本发明提供一种基于网络资源的医学问题问答处理方法及装置,以解决现有技术中存在的针对医学问题的智能问答处理方案局限性较高,从而导致问答匹配检索的精度和效率较差的缺陷。
第一方面,本发明提供一种基于网络资源的医学问题问答处理方法,包括:确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;
利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;
基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;
其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
进一步的,所述利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档,具体包括:利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的问答文档;
基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,基于所述问答文档对应的分值确定前预设数量的目标问答文档。
进一步的,基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,具体包括:
基于所述问答文档包含的关键词在文档库内所有问答文档中出现的比率以及所述关键词对应的权重,将所述问答文档中的所有关键词进行加权平均处理,得到所述问答文档对应的分值。
进一步的,所述基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果,具体包括:
利用所述预训练语言模型中训练得到的编码向量将用户输入的所述医学问题信息编码为相应的第一向量,并将所述目标问答文档中包含的问答文档分别编码为相应的第二向量,确定所述第一向量和所述第二向量之间的相似度值;根据所述相似度值的大小对所述目标问答文档进行重排序,得到重排序后的问答结果。
进一步的,对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合,具体包括:
基于预设的分词库提取所述医学问题信息中的关键词;
基于预设的停用词表对所述关键词进行过滤,得到目标关键词;
基于预设的近义词表对过滤后得到的所述目标关键词进行近义词扩展,得到所述关键词集合。
进一步的,所述分词库为jieba分词库。
进一步的,所述目标问答文档为与所述关键词集合中关键词相匹配的至少一个问题信息及其对应的答复信息。
第二方面,本发明还提供一种基于网络资源的医学问题问答处理装置,包括:
关键词扩展单元,用于确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;
问答文档筛选单元,用于利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;
问答结果确定单元,用于基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;
其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
进一步的,所述问答文档筛选单元,具体用于:
利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的问答文档;
基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,基于所述问答文档对应的分值确定前预设数量的目标问答文档。
进一步的,所述问答结果确定单元,具体用于:
利用所述预训练语言模型中训练得到的编码向量将用户输入的所述医学问题信息编码为相应的第一向量,并将所述目标问答文档中包含的问答文档分别编码为相应的第二向量,确定所述第一向量和所述第二向量之间的相似度值;根据所述相似度值的大小对所述目标问答文档进行重排序,得到重排序后的问答结果。
进一步的,基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,具体包括:
基于所述问答文档包含的关键词在文档库内所有问答文档中出现的比率以及所述关键词对应的权重,将所述问答文档中的所有关键词进行加权平均处理,得到所述问答文档对应的分值。
进一步的,所述关键词扩展单元,具体用于:
基于预设的分词库提取所述医学问题信息中的关键词;
基于预设的停用词表对所述关键词进行过滤,得到目标关键词;
基于预设的近义词表对过滤后得到的所述目标关键词进行近义词扩展,得到所述关键词集合。
进一步的,所述分词库为jieba分词库。
进一步的,所述目标问答文档为与所述关键词集合中关键词相匹配的至少一个问题信息及其对应的答复信息。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上述任意一项所述的基于网络资源的医学问题问答处理方法的步骤。
第四方面,本发明还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的基于网络资源的医学问题问答处理方法的步骤。
本发明提供的基于网络资源的医学问题问答处理方法,通过确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理得到扩展后的关键词集合;然后,利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;并基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,以输出重排序后的问答结果。通过先基于词频逆文档频率的统计方式进行筛选,再利用预训练语言模型进行重排序以输出问答结果的方式,能够有效提高医学问题问答匹配的检索精度和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的基于网络资源的医学问题问答处理方法的流程示意图;
图2是本发明实施例提供的基于网络资源的医学问题问答处理装置的结构示意图;
图3是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的基于网络资源的医学问题问答处理方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的基于网络资源的医学问题问答处理方法的流程示意图,具体实现过程包括以下步骤:
步骤101:确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合。
其中,所述医学问题信息可以是指用户通过互联网输入的与孕妇相关的医学问题信息,比如“孕妇可以吃螃蟹吗?”。
对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合,对应的具体实现过程为:基于预设的分词库(jieba分词库)提取所述医学问题信息中的关键词;基于预设的停用词表对所述关键词进行过滤,得到目标关键词;基于预设的近义词表对过滤后得到的所述目标关键词进行近义词扩展,得到所述关键词集合。举例而言,当医学问题信息为“孕妇可以吃螃蟹吗?”时,“孕妇”、“吃”、“螃蟹”是关键词;其中,“螃蟹”可以扩展成包含“大闸蟹”、“梭子蟹”、“河蟹”、“青蟹”等关键词,最终得到相应的关键词集合。
步骤102:利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档。
具体的,可利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的问答文档;并基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,基于所述问答文档对应的分值确定前预设数量的目标问答文档。其中,基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,对应的具体实现过程包括:基于所述问答文档包含的关键词在文档库内所有问答文档中出现的频率及所述关键词对应的权重,将所述问答文档中的所有关键词进行加权平均处理,得到所述问答文档对应的分值。比如:当医学问题信息为“孕妇可以吃螃蟹吗?”时,得到包含“螃蟹”、“大闸蟹”、“梭子蟹”、“河蟹”、“青蟹”等关键词的关键词集合之后。可基于该关键词集合去预设的文档库中搜索,确定所有与“螃蟹”、“大闸蟹”、“梭子蟹”、“河蟹”、“青蟹”、“孕妇”、“吃”等关键词对应的问答文档,并利用基于词频逆文档频率的打分机制分别赋予所述问答文档对应的分值,并检索出来经过粗筛选得到目标问答文档。所述目标问答文档为与所述关键词集合中关键词相匹配的至少一个问题信息及其对应的答复信息。
在本发明实施例中,该打分机制中每一个问答文档都对应一个分值。该分值代表着关键词在问答文档中出现的频率,比如该问答文档包含1000个词,其中关键词“孕妇”出现了50次,则关键词“孕妇”出现的频率是二十分之一。当有多个关键词时,需要对所有关键词的频率进行加权平均。在加权平均处理过程中,每一个关键词都对应一个在问答文档中出现的频率,同时每一个关键词都对应一个权重;将问答文档中所有关键词加权平均处理得到该文档的分数(也就关键词成分越多这个问答文档对应的分值就越高)。当文档库里有n个文档(问答文档),其中一个关键词对应的权重为n除以包含这个关键词的问答文档的个数。比如有n/2个问答文档包含关键词“孕妇”,则关键词“孕妇”对应的权重为2。通过上述方式相当于进行一个粗筛选,只筛选出k个问答文档来,即基于词频逆文档频率检索出和关键词集合相关的top-k个问题,以便后续通过预训练语言模型再进行精筛,得到准确结果。
需要说明的是,所述词频逆文档频率,即词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)技术,其是一种用于资讯检索与文本挖掘的加权技术,可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是所需要的关键词。以统计一篇文档的关键词为例,最简单的方法就是计算每个词的词频。词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。出现频率最高的词就是这篇文档的关键词。但是一篇文章中出现频率最高的词肯定是“的”、‘是’、‘也’……这样的词,这些词显然不能反应文章的意思,此时就需要对每个词加一个权重,最常见的词(“的”、“是”、“在”)给予最小的权重,较少见的但能反应这篇文章意思的词给予较大的权重,这个权重叫做逆文档频率。逆文档频率(nverse Document Frequency,IDF)是一个词语普遍重要性的度量,其大小与一个词的常见程度成反比,计算方法是语料库的文档总数除以语料库中包含该词语的文档数量,再将得到的商取对数。其中,所述词频是第一部分分数,权重(逆文档频率)即为第二部分分数。
步骤103:基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果。其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
在本发明实施例中,为了引入语义信息,可应用预训练语言模型对所述目标问答文档进行重排序。在应用之前需要预先通过预训练样本(比如文档库中的通用领域样本数据)和预训练指标来训练初始的掩码语言模型(Masked Language Model),以获得预训练模型。然后,基于ChineseBLUE的cMedQQ对应的下游任务训练集(即预先构建的医学问答领域数据组成的混合数据集)和预设的评分指标(精调目标函数)对预训练模型进行精调,得到精调后的预训练语言模型。其中,精调目标函数是余弦相似度与真实相似度的均方误差。具体地,精调时模型的训练数据分为两类:一类是正例,包含两个相关的问题,此时的真实相似度l=1;另一类是负例,包含两个不相关的问题,此时的真实相似度l=0。在精调时,首先将两个问题x1和x2经过预训练模型编码为两个向量z1和z2,并计算二者的余弦相似度cos(z1,z2)。精调目标函数的形式为L=||l-cos(z1,z2)||2。在得到精调后的预训练语言模型后,在重排序的时候就利用预训练语言模型直接把用户输入的问题编码为一个向量(实数的向量,比如1024或512位),再把top-k个目标问答文档也编码成向量,计算两个向量之间的相似度。具体的,也就是利用所述预训练语言模型中训练得到的编码向量将用户输入的所述医学问题信息编码为相应的第一向量,并将所述目标问答文档中包含的问答文档分别编码为相应的第二向量,确定所述第一向量和所述第二向量之间的相似度值;根据所述相似度值的大小对所述目标问答文档进行重排序,得到重排序后的问答结果。
需要说明的是,本发明实施例中,精调后的预训练语言模型的输入包含两部分问题:一个是用户输入的医学问题信息;另一个是统计得到的k个目标问答文档;计算两者的相似度,根据相似度确定目标问答文档的分值,重排序后返回给用户,即根据相似度确定k个目标问答文档对应的分数。比如:当k=3时,检索出“孕妇可以吃螃蟹吗?”,“孕妇可以吃大闸蟹吗?”,“孕妇可以吃鱼吗?”;当用户输入的医学问题信息是“孕妇可以吃螃蟹吗?”时,可将,检索出“孕妇可以吃螃蟹吗?”,“孕妇可以吃大闸蟹吗?”,“孕妇可以吃鱼吗?”依次输入到预训练语言模型中,计算与用户输入的医学问题信息之间的相似度。根据匹配程度对k个目标问答文档进行重排序,即通过分值大小来进行重排序,最终反馈将重排序得到的问答结果返回给用户。
本发明实施例所述的基于网络资源的医学问题问答处理方法,通过确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理得到扩展后的关键词集合;然后,利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;并基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,以输出重排序后的问答结果。通过先基于词频逆文档频率的统计方式进行筛选,再利用预训练语言模型进行重排序以输出问答结果的方式,能够有效提高医学问题问答匹配的检索精度和效率。
与上述提供的一种基于网络资源的医学问题问答处理方法相对应,本发明还提供一种基于网络资源的医学问题问答处理装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的基于网络资源的医学问题问答处理装置的实施例仅是示意性的。请参考图2所示,其为本发明实施例提供的一种基于网络资源的医学问题问答处理装置的结构示意图。
本发明所述的基于网络资源的医学问题问答处理装置,具体包括如下部分:
关键词扩展单元201,用于确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;
问答文档筛选单元202,用于利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;
问答结果确定单元203,用于基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;
其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
进一步的,所述关键词扩展单元,具体用于:
基于预设的分词库提取所述医学问题信息中的关键词;
基于预设的停用词表对所述关键词进行过滤,得到目标关键词;
基于预设的近义词表对过滤后得到的所述目标关键词进行近义词扩展,得到所述关键词集合。
进一步的,所述问答文档筛选单元,具体用于:
利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的问答文档;
基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,基于所述问答文档对应的分值确定前预设数量的目标问答文档。
进一步的,基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,具体包括:
基于所述问答文档包含的关键词在文档库内所有问答文档中出现的比率以及所述关键词对应的权重,将所述问答文档中的所有关键词进行加权平均处理,得到所述问答文档对应的分值。
进一步的,所述问答结果确定单元,具体用于:
利用所述预训练语言模型中训练得到的编码向量将用户输入的所述医学问题信息编码为相应的第一向量,并将所述目标问答文档中包含的问答文档分别编码为相应的第二向量,确定所述第一向量和所述第二向量之间的相似度值;根据所述相似度值的大小对所述目标问答文档进行重排序,得到重排序后的问答结果。
本发明实施例所述的基于网络资源的医学问题问答处理装置,通过确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理得到扩展后的关键词集合;然后,利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;并基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,以输出重排序后的问答结果。通过先基于词频逆文档频率的统计方式进行筛选,再利用预训练语言模型进行重排序以输出问答结果的方式,能够有效提高医学问题问答匹配的检索精度和效率。
与上述提供的基于网络资源的医学问题问答处理方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图3所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)301、存储器(memory)302和通信总线303,其中,处理器301,存储器302通过通信总线303完成相互间的通信,通过通信接口304与外部进行通信。处理器301可以调用存储器302中的逻辑指令,以执行基于网络资源的医学问题问答处理方法,该方法包括:确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于网络资源的医学问题问答处理方法。该方法包括:确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
又一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于网络资源的医学问题问答处理方法。该方法包括:确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于网络资源的医学问题问答处理方法,其特征在于,包括:
确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;
利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;
基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;
其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
2.根据权利要求1所述的基于网络资源的医学问题问答处理方法,其特征在于,所述利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档,具体包括:
利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的问答文档;
基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,基于所述问答文档对应的分值确定前预设数量的目标问答文档。
3.根据权利要求2所述的基于网络资源的医学问题问答处理方法,其特征在于,基于所述词频逆文档频率的打分机制赋予所述问答文档对应的分值,具体包括:
基于所述问答文档包含的关键词在文档库内所有问答文档中出现的比率以及所述关键词对应的权重,将所述问答文档中的所有关键词进行加权平均处理,得到所述问答文档对应的分值。
4.根据权利要求1所述的基于网络资源的医学问题问答处理方法,其特征在于,所述基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果,具体包括:
利用所述预训练语言模型中训练得到的编码向量将用户输入的所述医学问题信息编码为相应的第一向量,并将所述目标问答文档中包含的问答文档分别编码为相应的第二向量,确定所述第一向量和所述第二向量之间的相似度值;根据所述相似度值的大小对所述目标问答文档进行重排序,得到重排序后的问答结果。
5.根据权利要求1所述的基于网络资源的医学问题问答处理方法,其特征在于,对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合,具体包括:
基于预设的分词库提取所述医学问题信息中的关键词;
基于预设的停用词表对所述关键词进行过滤,得到目标关键词;
基于预设的近义词表对过滤后得到的所述目标关键词进行近义词扩展,得到所述关键词集合。
6.根据权利要求5所述的基于网络资源的医学问题问答处理方法,其特征在于,所述分词库为jieba分词库。
7.根据权利要求1所述的基于网络资源的医学问题问答处理方法,其特征在于,所述目标问答文档为与所述关键词集合中关键词相匹配的至少一个问题信息及其对应的答复信息。
8.一种基于网络资源的医学问题问答处理装置,其特征在于,包括:
关键词扩展单元,用于确定用户输入的医学问题信息,并对所述医学问题信息进行关键词提取及扩展处理,得到扩展后的关键词集合;
问答文档筛选单元,用于利用基于词频逆文档频率的统计方式以及所述关键词集合,从文档库中检索出与所述关键词集合对应的目标问答文档;
问答结果确定单元,用于基于预训练语言模型和所述医学问题信息对所述目标问答文档进行重排序,输出重排序后的问答结果;
其中,所述预训练语言模型是基于通用领域样本数据、预先构建的医学问答领域数据组成的混合数据集以及相应的评分指标为预训练样本对初始掩码语言模型进行训练得到的。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于网络资源的医学问题问答处理方法的步骤。
10.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的基于网络资源的医学问题问答处理方法的步骤。
CN202210295494.5A 2022-03-23 2022-03-23 一种基于网络资源的医学问题问答处理方法及装置 Pending CN114780672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210295494.5A CN114780672A (zh) 2022-03-23 2022-03-23 一种基于网络资源的医学问题问答处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210295494.5A CN114780672A (zh) 2022-03-23 2022-03-23 一种基于网络资源的医学问题问答处理方法及装置

Publications (1)

Publication Number Publication Date
CN114780672A true CN114780672A (zh) 2022-07-22

Family

ID=82425971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210295494.5A Pending CN114780672A (zh) 2022-03-23 2022-03-23 一种基于网络资源的医学问题问答处理方法及装置

Country Status (1)

Country Link
CN (1) CN114780672A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587175A (zh) * 2022-12-08 2023-01-10 阿里巴巴达摩院(杭州)科技有限公司 人机对话及预训练语言模型训练方法、系统及电子设备
CN116932725A (zh) * 2023-08-02 2023-10-24 深圳畅愈健康科技有限公司 基于人工智能的医疗资料处理方法、系统、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
WO2019052261A1 (zh) * 2017-09-18 2019-03-21 京东方科技集团股份有限公司 用于问答服务的方法、问答服务系统以及存储介质
CN111368042A (zh) * 2020-02-13 2020-07-03 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及计算机存储介质
CN112905768A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 一种数据交互方法、装置及存储介质
CN113204976A (zh) * 2021-04-19 2021-08-03 北京大学 一种实时问答方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052261A1 (zh) * 2017-09-18 2019-03-21 京东方科技集团股份有限公司 用于问答服务的方法、问答服务系统以及存储介质
CN107993724A (zh) * 2017-11-09 2018-05-04 易保互联医疗信息科技(北京)有限公司 一种医学智能问答数据处理的方法及装置
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN111368042A (zh) * 2020-02-13 2020-07-03 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及计算机存储介质
CN112905768A (zh) * 2021-02-08 2021-06-04 中国工商银行股份有限公司 一种数据交互方法、装置及存储介质
CN113204976A (zh) * 2021-04-19 2021-08-03 北京大学 一种实时问答方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
波哈维荻西特: "《深入理解Elasticsearch》", pages: 18 - 19 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587175A (zh) * 2022-12-08 2023-01-10 阿里巴巴达摩院(杭州)科技有限公司 人机对话及预训练语言模型训练方法、系统及电子设备
CN115587175B (zh) * 2022-12-08 2023-03-14 阿里巴巴达摩院(杭州)科技有限公司 人机对话及预训练语言模型训练方法、系统及电子设备
CN116932725A (zh) * 2023-08-02 2023-10-24 深圳畅愈健康科技有限公司 基于人工智能的医疗资料处理方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111177374B (zh) 一种基于主动学习的问答语料情感分类方法及系统
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN110929043B (zh) 业务问题提取方法及装置
CN110569354B (zh) 弹幕情感分析方法及装置
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN114780672A (zh) 一种基于网络资源的医学问题问答处理方法及装置
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN107992477A (zh) 文本主题确定方法、装置及电子设备
CN110717038B (zh) 对象分类方法及装置
CN113239666B (zh) 一种文本相似度计算方法及系统
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN111930895A (zh) 基于mrc的文档数据检索方法、装置、设备及存储介质
CN113220832A (zh) 一种文本处理方法及装置
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN111126067A (zh) 实体关系抽取方法及装置
CN110019776A (zh) 文章分类方法及装置、存储介质
CN115080718B (zh) 一种文本关键短语的抽取方法、系统、设备及存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN110727769A (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination