CN111444724B - 医疗问答对质检方法、装置、计算机设备和存储介质 - Google Patents
医疗问答对质检方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111444724B CN111444724B CN202010208232.1A CN202010208232A CN111444724B CN 111444724 B CN111444724 B CN 111444724B CN 202010208232 A CN202010208232 A CN 202010208232A CN 111444724 B CN111444724 B CN 111444724B
- Authority
- CN
- China
- Prior art keywords
- medical
- answer
- question
- quality inspection
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及人工智能技术,提供了一种医疗问答对质检方法、装置、计算机设备和存储介质。所述方法包括:获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;对所述答案进行处理得到相应答案语义向量;获取所述医疗问题对应的权威词条语义向量;确定所述答案语义向量与所述权威词条语义向量的语义相似度;根据所述语义相似度确定所述医疗问答对的质检结果。采用本方法能够医疗问答对的质检准确性。
Description
技术领域
本申请涉及计算机技术技术领域,特别是涉及一种医疗问答对质检方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了在线医疗资讯平台,用户通过医疗资讯平台足不出户即可方便快捷的获取各方面的医学知识。为了方便用户能以较快速度获取到具有针对性的医疗知识,通常以医疗问答对的形式来体现医疗知识。对于大规模的医疗问答对,如何保证医疗问答对的内容质量是值得关注的问题。
目前,通常是通过医生或第三方医疗标注团队人工交叉审核来控制医疗问答对的内容质量。但是该种方式下,受限于质检人员的医疗专长等,存在质检准确性低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高医疗问答对的质检准确性的医疗问答对质检方法、装置、计算机设备和存储介质。
一种医疗问答对质检方法,所述方法包括:
获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;
对所述答案进行处理得到相应答案语义向量;
获取所述医疗问题对应的权威词条语义向量;
确定所述答案语义向量与所述权威词条语义向量的语义相似度;
根据所述语义相似度确定所述医疗问答对的质检结果。
一种医疗问答对质检装置,所述装置包括:
第一获取模块,用于获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;
处理模块,用于对所述答案进行处理得到相应答案语义向量;
第二获取模块,用于获取所述医疗问题对应的权威词条语义向量;
相似度确定模块,用于确定所述答案语义向量与所述权威词条语义向量的语义相似度;
质检模块,用于根据所述语义相似度确定所述医疗问答对的质检结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;
对所述答案进行处理得到相应答案语义向量;
获取所述医疗问题对应的权威词条语义向量;
确定所述答案语义向量与所述权威词条语义向量的语义相似度;
根据所述语义相似度确定所述医疗问答对的质检结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;
对所述答案进行处理得到相应答案语义向量;
获取所述医疗问题对应的权威词条语义向量;
确定所述答案语义向量与所述权威词条语义向量的语义相似度;
根据所述语义相似度确定所述医疗问答对的质检结果。
上述医疗问答对质检方法、装置、计算机设备和存储介质,获取待质检的且包括医疗问题与相应答案的医疗问答对,对该医疗问答对中的答案进行处理得到相应答案语义向量,并计算该答案语义向量与医疗问题对应的权威词条语义向量之间的语义相似度,进而根据语义相似度确定相应医疗问答对的质检结果。这样,通过分别确定医疗问题对应的答案语义向量与权威词条语义向量,并根据答案语义向量与权威词条语义向量之间的语义相似度对医疗问答对进行质检,能够提高医疗问答对的质检准确性。
附图说明
图1为一个实施例中医疗问答对质检方法的应用环境图;
图2为一个实施例中医疗问答对质检方法的流程示意图;
图3为一个实施例中通过医疗资讯平台展示标准问题相应的权威医疗词条的界面示意图;
图4为另一个实施例中医疗问答对质检方法的流程示意图;
图5为一个实施例中医疗问答对质检装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能医疗、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请提供的医疗问答对质检方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取待质检的且包括医疗问题与答案的医疗问答对,对答案进行处理得到相应答案语义向量,获取医疗问题对应的权威词条语义向量,并确定答案语义向量与权威词条语义向量的语义相似度,进而根据语义相似度确定医疗问答对的质检结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种医疗问答对质检方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待质检的医疗问答对;医疗问答对包括医疗问题与答案。
其中,医疗问答对是医疗领域涉及的问题与答案对,具体可包括医疗问题与相应答案。医疗问题比如“感冒能否喝冷饮?”,相应的答案比如“不要喝”。
具体地,服务器从预配置的医疗问答库中获取待质检的医疗问答对。医疗问答库用于存储待质检的医疗问答对。每个医疗问答对包括医疗问题与相应的一个或多个答案。
在一个实施例中,医疗问答库还用于存储已质检通过的医疗问答对。针对已质检通过的医疗问答对,可在医疗问答库中对应存储质检通过标识,以便于服务器基于质检通过标识能够快速获取到待质检的医疗问答对。在医疗问答库中可针对每个医疗问答对存储有相应的问答对时间戳,并在当次执行的医疗问答对质检操作执行完毕时,记录相应的质检时间戳,以便于在下一次执行医疗问答对质检操作时,服务器能够基于记录的质检时间戳与各个医疗问答对对应的问答对时间戳,从医疗问答库中筛选下一次医疗问答对质检操作过程中待质检的医疗问答对。
在医疗问答库中还可按照问答对时间戳顺序记录各个医疗问答对,并在当次执行的医疗问答对质检操作执行完毕时,在医疗问答库中标识质检进度,以便于在下一次执行医疗问答对质检操作时,服务器基于该质检进度能够快速获取到待质检的医疗问答对。问答对时间戳可以是相应医疗问答对的生成时间戳或存储时间戳。在医疗问答库中还可将已质检的医疗问答对与未质检的医疗问答对进行分类存储,以便于服务器快速定位并获取该未质检的医疗问答对作为待质检的医疗问答对。
可以理解,医疗问答库可部署在执行医疗问答对质检操作的服务器中,也可部署在其他计算机设备中,其他计算机设备比如专门用于存储医疗问答对的服务器或服务器集群,在此不作具体限定。
在一个实施例中,当满足医疗问答对质检条件时,服务器从医疗问答库中获取待质检的医疗问答对。医疗问答对质检条件是用于判断是否执行医疗问答对质检操作的条件或依据,具体可以是待质检的医疗问答对数量大于或等于质检数量阈值,也可以是自前一次执行医疗问答对质检操作起达到预设时长,还可以是检测到新增的且尚未质检的医疗问答对。质检数量阈值比如500,预设时长比如1天。按照质检数量阈值或预设时长触发医疗问答对质检操作,能够实现医疗问答对的批量质检,而无需针对每个医疗问答对实时的执行质检操作。
在一个实施例中,当获取到多个待质检的医疗问答对时,服务器可通过多个线程并行的对该多个医疗问答对执行本申请提供的医疗问答对质检流程,得到相应的质检结果。线程的并行数可预配置,也可由服务器动态确定,比如根据服务器自身的当前负载与当前待质检的医疗问答对数量综合确定。服务器也可在所获取到的待质检的医疗问答对数量大于或等于单线程负载数量阈值时,通过多个线程并行的执行医疗问答对质检流程。
在一个实施例中,当满足医疗问答对质检条件时,服务器可直接从医疗问答库中获取待质检的医疗问答对,也可根据预配置的标准问题,从医疗问答库中分别获取与每个标准问题相匹配的医疗问答对,并作为待质检的医疗问答对。
在一个实施例中,医疗问答对可以是由用户通过医疗资讯平台提出的医疗问题,与医生针对用户提出的医疗问题提供的答案组成。若有多个医生针对同一个医疗问题分别提供答案,则可将该多个答案与相应医疗问题构成一个医疗问答对,也可将每个答案与相应医疗问题构成相应的医疗问答对,这样,一个医疗问题可能对应多个医疗问答对。医疗问答对也可以是由医生针对用户可能需要获取的医疗知识编辑的医疗问题与相应答案。
步骤204,对答案进行处理得到相应答案语义向量。
其中,答案语义向量是答案对应的语义向量,用于表征答案内容的语义。
具体地,服务器在获取到待质检的医疗问答对后,从所获取的医疗问答对中提取医疗问题与相应答案,并对所提取出的答案进行语义分析处理,得到相应的答案语义向量。
在一个实施例中,服务器通过已训练好的文本语义向量模型预测答案对应的答案语义向量。
在一个实施例中,服务器对答案进行预处理得到相应的答案词集,根据答案词集中的每个词从预配置的词向量库中查询相应的词向量,并根据该答案词集中每个词对应的词向量确定相应答案的答案语义向量。预处理包括分词处理,还可包括去停用词处理与关键词提取等中的至少一种。服务器可按照现有技术中的分词技术对答案进行分词处理,在此不再赘述。停用词是指没有实质性语义的词,如“的”。关键词提取是指从答案的分词结果中提取关键词,由此,可基于所提取的关键词对应的词向量确定相应答案的答案语义向量。词向量是能够表征词的语义的向量。可以理解,服务器可对所获取到的词向量求平均得到相应答案的答案语义向量,也将按照各个词在答案中的排序,对该各个词的词向量进行拼接得到相应的答案语义向量。求平均可以是加权平均也可以是算术平均。
在一个实施例中,每个医疗问答对包括一个医疗问题,以及该医疗问题对应的一个或多个答案。当待质检的医疗问答对包括多个答案时,服务器分别对每个答案进行处理得到相应的答案语义向量。
步骤206,获取医疗问题对应的权威词条语义向量。
其中,权威词条语义向量是权威医疗词条对应的语义向量,具体可以是指医疗问题对应的权威医疗词条对应的语义向量。
具体地,服务器从待质检的医疗问答对中提取出医疗问题后,根据该医疗问题获取相应权威医疗词条所对应的权威词条语义向量。
在一个实施例中,服务器确定医疗问题对应的标准问题,将所确定的标准问题对应的权威词条语义向量,确定为该医疗问题所对应的权威词条语义向量。可以理解,服务器可根据待质检的医疗问答对动态确定相匹配的标准问题,也可在满足医疗问答对质检条件时,根据预构建的标准问题确定相匹配的待质检医疗问答对,由此,服务器基于医疗问题与标准问题之间的对应关系,能够快速获取医疗问题相应的权威词条语义向量。
在一个实施例中,医疗问题对应的权威词条语义向量,可以是根据医疗问题对应的权威医疗词条预先确定并存储的,也可以是医疗问答对质检过程中,基于相应权威医疗词条动态确定的。
步骤208,确定答案语义向量与权威词条语义向量的语义相似度。
其中,语义相似度是指答案语义向量与权威词条语义向量之间的语义相似程度,具体可用于表征答案语义向量对应的答案,与相应权威词条语义向量所对应的权威医疗词条之间的语义相似程度。语义相似度越高也即语义相似程度越高,表明答案语义向量与权威词条语义向量越接近,也即表明答案与相应权威医疗词条越相似。语义相似度可以是表征相似程度的数值或百分数值。
具体地,服务器在获取到医疗问答对对应的答案语义向量与权威词条语义向量后,计算该答案语义向量与权威词条语义向量之前的语义相似度,并将该语义相似度确定为相应答案与权威医疗词条之间的语义相似度。可以理解,服务器可将医疗问答对中的答案与相应权威医疗词条质检的语义相似度,确定为该医疗问答对对应的语义相似度。
在一个实施例中,服务器按照预设相似度算法计算答案语义向量与权威词条语义向量之间的语义相似度。预设相似度算法比如余弦相似度、欧式距离、哈曼顿距离、明可夫斯基距离与皮尔森相关系数等,在此不一一例举。
以预设相似度算法为余弦相似度为例,服务器按照余弦相似度算法,计算答案语义向量与相应权威词条语义向量之间的余弦相似度,并将该余弦相似度确定为二者的语义相似度。余弦相似度算法是将答案语义向量与权威词条语义向量,根据坐标值分别绘制到向量空间,并计算二者在向量空间中的夹角的余弦值,作为余弦相似度。可以理解,余弦值的取值范围为[0,1],余弦值越趋近于1,表明答案语义向量与权威词条语义向量的方向越接近,也即表明二者的语义相似程度越高,余弦值越趋近于0,标准答案语音向量与权威词条语义向量近乎于正交,也即表明二者的语义相似程度很低。
当向量空间为二维空间时,服务器可按照欧几里得点积公式,计算第一向量与第二向量之间的余弦值,欧几里得点积公式如下:
其中,a为第一向量,b为第二向量,假设第一向量与第二向量的坐标分别为(x1,y1)与(x2,y2),则欧几里得点积公式具体可表示如下:
可以理解,将第一向量与第二向量分别推广至多维,比如第一向量为A=(A1,A2,...,An),第二向量为B=(B1,B2,...,Bn),则相应欧几里得点积公式具体可表示如下:
在一个实施例中,服务器通过已训练好的相似度计算模型,计算答案语义向量与相应权威词条语义向量之间的语义相似度。服务器还可通过已训练好的相似度计算模型,计算医疗问题对应的答案与权威医疗词条之间的语义相似度。
在一个实施例中,当医疗问答对中包括一个医疗问题与相应的多个答案时,服务器分别计算每个答案对应的答案语义向量,与该医疗问题相应的权威词条语义向量之间的语义相似度。服务器可将该多个答案各自对应的语义相似度确定为该医疗问答对对应的语义相似度,由此,医疗问答对对应多个语义相似度。当医疗问答对包括一个医疗问题与相应的一个答案时,服务器可直接将该答案对应的语义相似度,确定为该医疗问答对对应的语义相似度。
步骤210,根据语义相似度确定医疗问答对的质检结果。
其中,质检结果是指表示医疗问答对质检是否通过的结果,具体可包括质检通过与质检未通过,还可包括质检分数值。
具体地,服务器根据待质检的医疗问答对对应的答案语义向量与权威词条语义向量,计算得到该医疗问答对中的答案与相应权威医疗词条之间的语义相似度后,根据所得到的语义相似度确定该医疗问答对的质检结果。
在一个实施例中,服务器将计算得到的语义相似度与预配置的相似度阈值进行比较,并根据比较结果确定相应医疗问答对的质检结果。当语义相似度大于或等于相似度阈值时,服务器则判定医疗问答对的质检结果为质检通过,还可将该语义相似度确定为该医疗问答对的质检分数值。相应地,当语义相似度小于相似度阈值时,服务器则判定相应医疗问答对的质检结果为质检未通过。相似度阈值比如0.3。
在一个实施例中,当满足医疗问答对质检条件时,服务器获取一个或多个待质检的医疗问答对,并对所获取到的医疗问答对进行批量质检。针对批量质检的医疗问答对,服务器根据每个医疗问答对对应的语义相似度与预配置的问答对重审比例,确定当前批量质检的每个医疗问答对的质检结果。问答对重审比例可根据实际情况自定义,比如10%。
在一个实施例中,待质检的医疗问答对包括一个医疗问题和相应的多个答案。服务器根据医疗问答对中每个答案与相应权威医疗词条之间的语义相似度,确定该医疗问答对的质检结果。比如,医疗问答对中每个答案对应的语义相似度均大于或等于相似度阈值,则判定该医疗问答对的质检结果为质检通过,相应地,医疗问答对中的至少一个答案对应的语义相似度小于相似度阈值,则判定该医疗问答对的质检结果为质检未通过,还可将每个答案对应的语义相似度确定为该医疗问答对对应的质检分数值,由此医疗问答对对应多个质检分数。还比如,服务器根据每个答案对应的语义相似度,从医疗问答对中提取语义相似度小于相似度阈值的答案,并将提取出的答案与相应医疗问题重新构建医疗问答对,并将该重新构建的医疗问答对的质检结果确定为质检未通过。
在一个实施例中,服务器将质检通过的医疗问答对更新存储至医疗问答库,并将质检未通过的医疗问答对推送至终端进行审核。当接收到终端针对推送的医疗问答对反馈的表示审核通过的审核指令时,将该审核通过的医疗问答对更新存储至医疗问答库。当接收到终端反馈的表示审核未通过的审核指令时,可从医疗问答库中删除该审核未通过的医疗问答对,也可删除该审核未通过的医疗问答对中的答案删除,以便于其他医生继续提供相应医疗问题的答案,还可将该审核未通过的医疗问答对反馈至提供相应答案的医生所对应的终端,以指示该医生通过终端修改该审核未通过的医疗问答对中的答案。
上述医疗问答对质检方法,获取待质检的且包括医疗问题与相应答案的医疗问答对,对该医疗问答对中的答案进行处理得到相应答案语义向量,并计算该答案语义向量与医疗问题对应的权威词条语义向量之间的语义相似度,进而根据语义相似度确定相应医疗问答对的质检结果。这样,通过分别确定医疗问题对应的答案语义向量与权威词条语义向量,并根据答案语义向量与权威词条语义向量之间的语义相似度对医疗问答对进行质检,能够提高医疗问答对的质检准确性。
在一个实施例中,步骤206,包括:确定与医疗问题中的关键词相匹配的标准问题;根据标准问题获取权威词条语义向量。
具体地,服务器从医疗问答对中提取出医疗问题后,确定关键词与该医疗问题中的关键词相匹配的标准问题,也即是确定与该医疗问题相匹配的标准问题。服务器根据所确定的标准问题获取相应的权威词条语义向量。
在一个实施例中,服务器从医疗问题中提取关键词,将所提取出的关键词与预配置的标准问题分别进行匹配,并将与该关键词相匹配的标准问题确定为相应医疗问题所匹配的标准问题。服务器具体可以将所提取出的关键词分别与各个标准问题中的关键词进行匹配,并根据关键词的匹配结果确定相匹配的标准问题。
在一个实施例中,当满足医疗问答对质检条件时,服务器根据预配置的标准问题获取相匹配的待质检医疗问答对。服务器具体可根据标准问题中的关键词查询相匹配的待质检医疗问答对。由此,该医疗问答对中的医疗问题的关键词与相应标准问题中的关键词相匹配。
在一个实施例中,服务器可针对每个标准问题预先确定并存储有相应权威词条语义向量,以便于在质检过程中,基于标准问题能够快速获取相应权威词条语义向量。服务器也可根据标准问题对应的权威医疗词条动态确定相应权威词条语义向量。
在一个实施例中,服务器可通过已训练好的文本语义向量模型,根据权威医疗词条确定相应的权威词条语义向量,比如,服务器通过文本语义向量模型预测该权威医疗词条对应的权威词条语义向量,还比如,服务器通过文本语义向量模型基于权威医疗词条中的关键词条,预测该权威医疗词条对应的权威词条语义向量。服务器也可按照上述一个或多个实施例中提供的基于答案确定相应答案语义向量的类似方式,确定权威医疗词条对应的权威词条语义向量。
上述实施例中,基于通过关键词匹配所确定的标准问题,确定医疗问题对应的权威词条语义向量,能够保证权威词条语义向量与医疗问题的匹配度,以便于基于权威词条语义向量对医疗问题相应的答案语义向量进行质检时,能够提高质检准确性。
在一个实施例中,根据标准问题获取权威词条语义向量,包括:获取标准问题对应的权威医疗词条;从权威医疗词条中提取关键词条;对关键词条进行处理得到相应权威词条语义向量。
其中,权威医疗词条是指词条内容具有权威性、且专业可靠性的医疗词条,具体可以是指经过权威认证的医疗词条,比如通过具有医疗专长的专业团队或权威专家对相应医疗词条进行权威认证或质检,并将认证通过的医疗词条确定为权威医疗词条。关键词条是指从权威医疗词条中提取出的、能够用于表征该权威医疗词条的关键内容的词条,具体可包括权威医疗词条中的一个或多个关键词或关键语句,关键语句比如权威医疗词条中每个段落中的第一句,关键词比如通过关键词提取算法或关键词提取模型从权威医疗词条中提取的关键词。
具体地,服务器根据医疗问题对应的标准问题获取相应的权威医疗词条,并从所获取到的权威医疗词条提取关键词条。终端对所提取出的关键词条进行语义分析处理得到相应权威医疗词条所对应的权威词条语义向量。
在一个实施例中,服务器从权威医疗词条中提取一个或多个关键词或关键语句,并根据所提取出的关键词和/或关键语句得到相应的关键词条。服务器具体可将所提取出的关键词和/或关键语句进行拼接得到关键词条。
在一个实施例中,服务器可按照上述一个或多个实施例中提供的针对答案确定相应答案语义向量的类似方式,基于所提取出的关键词条确定相应权威词条语义向量。比如,服务器通过已训练好的文本语义向量模型对所提取出的关键词条进行预测,得到相应权威医疗词条对应的权威词条语义向量。
图3为一个实施例中通过医疗资讯平台展示标准问题相应的权威医疗词条的界面示意图。如图3所示的医疗词条指引界面301中展示有疾病关键词与问题类型关键词,疾病关键词比如“流行性感冒”,问题类型关键词比如“概述”、“症状”、“病因”、“就医”、“治疗”、“日常”与“预防”。如图3所示,医疗词条指引界面301还可展示有各个问题类型关键词多对应的图标,以及疾病关键词对应的疾病简介,还可展示相应权威医疗词条的编审人数,比如“8位权威专家共同编审”,还可展示搜索指示标记。其中,医疗词条指引界面301中所展示的疾病简介可根据该医疗词条指引界面301的尺寸动态调整,比如显示部分疾病简介,并提供相应的详情查看触发控件。
当检测到用户针对医疗词条指引界面301中展示的问题类型关键词触发的权威医疗词条查看指令时,终端从医疗词条指引界面301调整至权威医疗词条展示界面302,并通过该权威医疗词条展示界面302展示相应问题类型关键词所对应的权威医疗词条。如图3所示,终端还可在权威医疗词条展示界面302展示其他各个问题类型关键词,以便于用户通过权威医疗词条展示界面302所展示的问题类型关键词,能够快速的切换至其他问题类型关键词所对应的权威医疗词条进行展示,权威医疗词条展示界面302中还可展示疾病关键词,以及对当前展示的权威医疗词条进行审核质检的审阅人员的相关信息,比如“审阅专家:AAA主任医师|XXX医院呼吸内科”。
如图3所示,医疗词条指引界面301与权威医疗词条展示界面302中,还可展示医疗资讯平台的名称,比如TX医典。可以理解,图3所示的界面内容与各界面内容的展示位置及形态仅作为示例,并不用于具体限定。
上述实施例中,由于权威医疗词条针对相应标准问题对应的医疗知识描述相对详细,而医生针对医疗问题提供的答案通常相对简略或者仅提供关键医疗知识,由此,基于从权威医疗词条中提取的关键词条,确定该权威医疗词条对应的权威词条语义向量,以避免因权威医疗词条中的详细解释性词条对权威词条语义向量的影响,而影响语义相似度的准确性,从而影响质检准确性。
在一个实施例中,步骤210,包括:根据预配置的问答对重审比例与每个医疗问答对对应的语义相似度,确定待重审的目标医疗问答对,以及剔除目标医疗问答对后的每个医疗问答对的质检结果;将目标医疗问答对发送至终端;接收终端针对目标医疗问答对反馈的质检结果。
其中,问答对重审比例是指批量质检的医疗问答对中,需要重新审核的医疗问答对的占比,具体可以是指需要重新审核的医疗问答对,在批量质检的医疗问答对中的占比。
具体地,服务器本地预配置有问答对重审比例。服务器在当次执行的医疗问答对质检操作过程中,计算得到每个医疗问答对对应的语义相似度后,按照语义相似度对每个医疗问答对进行排序,得到医疗问答对序列。服务器根据预配置的问答对重审比例,从医疗问答对序列中筛选待重审的目标医疗问答对。针对医疗问答对序列中剔除待重审的目标医疗问答对后的每个医疗问答对,服务器将该每个医疗问答对对应的质检结果确定为质检通过。服务器将筛选出的目标医疗问答对发送至终端,以指示终端将所接收到的目标医疗问答对展示给审核人员进行人工审核。服务器接收终端针对每个目标医疗问答对反馈的质检结果。可以理解,终端针对目标医疗问答对反馈的质检结果包括质检通过或质检未通过,还可包括质检分数值。
在一个实施例中,服务器按照语义相似度由高至低或由低至高的顺序,对相应医疗问答对进行排序得到医疗问答对序列。服务器根据预配置的问答对重审比例与当次质检的医疗问答对数量,确定待重审的目标医疗问答对数量,并从医疗问答对序列中筛选语义相似度较低的、且数量与目标医疗问答对数量一致的目标医疗问答对。
在一个实施例中,服务器将问答对重审比例与相似度阈值相结合,来从当次质检的医疗问答对中筛选待重审的目标医疗问答对。比如,服务器根据问答对重审比例按照上述方式,从当次质检的医疗问答对中筛选出目标医疗问答对后,从当次质检的医疗问答对中剔除目标医疗问答对后的医疗问答对中,进一步筛选语义相似度小于相似度阈值的医疗问答对,作为目标医疗问答对。这样,能够保证语义相似度较低的医疗问答对均会执行重审操作,能够提高医疗问答对的质检准确性。
上述实施例中,基于预配置的问答对重审比例筛选待重审的目标医疗问答对,以保证医疗问答对的质检准确性。
在一个实施例中,步骤202,包括:当满足医疗问答对质检条件时,遍历按照问题模板构建的标准问题;将与当前遍历的标准问题匹配的医疗问答对确定为待质检的医疗问答对。
其中,问题模板是构建标准问题的参照模板。问题模板可包括多个字段,用于指定相应标准问题所涉及的字段,比如问题模板为“疾病+问题类型”,则相应标准问题中包括分别与该两个字段对应的字段值,比如“流行性感冒症状”。问题模板为一个或多个,且每个问题模板中的字段数量不作具体限定,问题模板还比如“疾病+症状词+部位词”。标准问题是指按照问题模板构建的医疗问题。标准问题中的每个字段值可理解为该标准问题相应的关键词,相应地,标准问题中的各个字段值构成该标准问题对应的关键词对。
具体地,当满足医疗问答对质检条件时,服务器遍历按照问题模板构建的标准问题,将当前遍历的标准问题与医疗问答库中尚未质检的医疗问答对进行匹配,并将与该当前遍历的标准问题相匹配的医疗问答对确定为待质检的医疗问答对。由此,服务器通过遍历各个标准问题,并基于遍历的标准问题筛选相匹配的医疗问答对,能够从医疗问答库中获取到与各个标准问题对应的待质检医疗问答对。可以理解,若医疗问答库中不存在与当前遍历的标准问题相匹配的待质检医疗问答对,服务器则会继续遍历下一个标准问题,并获取相匹配的待质检医疗问答对。
在一个实施例中,服务器从当前遍历的标准问题中提取关键词对,将所提取的关键词对与医疗问答库中尚未质检的医疗问答对进行匹配,并将与该关键词对相匹配的医疗问答对,确定为与相应标准问题相匹配的待质检医疗问答对。
在一个实施例中,服务器在获取到与当前遍历的标准问题相匹配的待质检医疗问答对后,可针对所获取到的每个医疗问答对执行本申请提供的医疗问答对质检操作,并在针对当前所获取到的各个医疗问答对执行的医疗问答对质检操作执行完毕时,继续遍历下一个标准问题,并针对下一个遍历的标准问题执行上述操作,直至遍历完毕每个标准问题。服务器可通过第一线程遍历各个标准问题,获取遍历的各个标准问题相匹配的待质检医疗问答对,并将所获取到的医疗问答对分配至第二线程进行质检。可以理解,第二线程可以有多个。服务器可按照标准问题对相应医疗问答对进行分配,比如服务器将每个标准问题相匹配的医疗问答对分配至该标准问题对应的第二线程进行质检。服务器也可将标准问题进行聚类,将同一聚类集群中的各个标准问题各自匹配的医疗问答对均分配至该聚类集群相应的第二线程,比如可按照疾病这一字段对应的字段值对标准问题进行聚类,将对应同一疾病的标准问题聚类至同一聚类集群。服务器还可按照预配置的各第二线程的当前负载分配所获取到的医疗问答对。
在一个实施例中,服务器可按照问题模板预先构建并存储相应的标准问题。当满足医疗问答对质检条件时,服务器遍历预先构建的各个标准问题。服务器也可在判定满足医疗问答对质检条件时,根据预配置的问题模板动态构建相应的标准问题,并遍历该动态构建的标准问题。
在一个实施例中,服务器根据预配置的医疗知识图谱或预配置的医疗关键词库,按照预配置的问题模板构建标准问题。医疗关键词库可包括疾病关键词与问题类型关键词等,疾病关键词比如“感冒”,问题类型关键词比如“概述”、“症状”、“病因”、“就医”、“治疗”、“日常”与“预防”等,若问题模板为“疾病+问题类型”,则相应标准问题比如“感冒症状”。
上述实施例中,在满足医疗问答对质检条件时,通过遍历标准问题提取相应的待质检医疗问答对,以便于基于标准问题相应的权威词条语义向量对所匹配到的医疗问答对进行质检,能够提高质检准确性。而且,在满足医疗问答对质检条件时,获取待质检的医疗问答对并进行质检,能够实现医疗问答对的批量质检。
在一个实施例中,标准问题的构建步骤,包括:遍历预配置的问题模板;根据遍历的问题模板从预配置的医疗知识图谱中查询相匹配的关键词对;根据每个关键词对按照相应问题模板构建标准问题。
其中,医疗知识图谱是根据医疗知识构建的知识图谱。医疗知识图谱包括多个实体与各个实体之间的实体关系,实体比如“感冒”、“头部”、“儿童”与“头晕”等,在此不一一列举。
具体地,服务器本地预配置有一个或多个问题模板。当满足标准问题构建条件时,服务器遍历预配置的问题模板,根据当前遍历的问题模板中的字段对,从预配置的医疗知识图谱中查询相匹配的关键词对。服务器根据所查询到的每个关键词对按照相应问题模板构建相应标准问题。标准问题构建条件是用于指示服务器触发标准问题构建操作的条件或依据,比如可以是检测到终端发送的标准问题构建指令,还可以是当满足医疗问答对质检条件时。
举例说明,问题模板为“疾病+症状词+部位词”,则该问题模板对应的字段对为“疾病症状词部位词”,基于该字段对从医疗知识图谱中所查询到的关键词对,比如为“感冒头晕头部”,还比如为“咳嗽胸闷胸部”,在此不一一列举。
在一个实施例中,服务器根据当前遍历的问题模板中的每个字段,依次从预配置的医疗知识图谱中查询相匹配的实体,将所查询到的实体确定为该字段对应的字段值,并根据该当前遍历的问题模板中的每个字段对应的字段值,得到该问题模板对应的关键词对。每个字段对应的字段值可理解为关键词对中的关键词。可以理解,在针对问题模板中的各个字段依次执行的实体查询过程中,服务器基于排序靠前的字段在医疗知识图谱中相匹配的实体,继续查询排序靠后的字段在医疗知识图谱中所匹配的实体,以便于在保证查询准确性的情况下,提高查询效率。
举例说明,问题模板为“疾病+症状词+部位词”,则该问题模板对应的字段对为“疾病症状词部位词”,服务器可根据“疾病”这一字段从医疗知识图谱中查询相匹配的字段值,所查询到的字段值比如“感冒”与“咳嗽”等,服务器根据“症状词”这一字段,基于已查询到的字段值“感冒”与“咳嗽”,继续从医疗知识图谱中查询相匹配的字段值,所查询到的字段值比如分别为“头晕”与“胸闷”,进一步地,基于“部位词”这一字段,基于已查询到的字段值“感冒”、“咳嗽”、“头晕”与“胸闷”,继续从医疗知识图谱中查询相匹配的字段值,所查询到的字段值比如分别为“头部”与“胸部”。可以理解,基于上述字段所查询到的字段值远多于上述举例,在此不一一列举。
在一个实施例中,服务器可基于现有的知识图谱构建方式构建医疗知识图谱,在此不再赘述。
在一个实施例中,服务器在查询到问题模板对应的关键词对后,根据所获取到的每个关键词对,按照该关键词对中每个关键词对应的字段在问题模板中对应的位置,构建该问题模板对应的标准问题。可以理解,若根据问题模板查询到多个关键词对,服务器则会针对每个关键词对按照问题模板构建相应的标准问题。
上述实施例中,基于预配置的医疗知识图谱与问题模板,构建各个问题模板对应的标准问题,以使得所构建的标准问题能够覆盖更多的医疗问题,能够提高医疗问答对的覆盖面,从而能够实现对尽可能多的医疗问答对的准确质检。
在一个实施例中,步骤204,包括:对答案进行分词得到分词结果;通过已训练好的文本语义向量模型,获取分词结果中各个词对应的词向量,并根据词向量得到答案对应的答案语义向量。
具体地,服务器从待质检的医疗问答对中提取出答案后,对所提取出的答案进行分词得到相应的分词结果。服务器将所得到的分词结果输入已训练好的文本语义向量模型,通过该文本语义向量模型获取该分词结果中各个词对应的词向量,并根据所获取到的词向量得到相应答案对应的答案语义向量。
在一个实施例中,已训练好的文本语义向量模型中包括针对每个词已训练得到的词向量。服务器通过文本语义向量模型从已训练得到的各个词的词向量中,筛选答案对应的分词结果中的每个词对应的词向量。
在一个实施例中,服务器通过文本语义向量模型将分词结果中每个词对应的词向量,在各个维度上分别求平均,得到各个维度上的均值,并将由各个维度上的均值组成的向量确定为相应答案的答案语义向量。求平均可以是加权平均或算术平均。服务器还可通过文本语义向量模型将分词结果中各个词的词向量进行拼接,得到相应答案的答案语义向量。
在一个实施例中,文本语义向量模型的训练步骤,包括:服务器获取训练样本集,该训练样本集包括训练样本对应的初始文本向量,以及该训练样本中的每个词对应的初始词向量;服务器根据每个训练样本对应的初始文本向量与初始词向量进行模型训练,得到已训练好的文本语义向量模型。
具体地,服务器获取训练样本集,对训练样本集中的每个训练样本进行分词,确定每个训练样本对应的分词结果中的每个词对应的初始词向量,并根据所确定的初始词向量确定相应训练样本对应的初始文本向量。进一步地,服务器根据各个训练样本对应的初始文本向量与初始词向量进行无监督的模型训练,得到已训练好的文本语义向量模型。服务器可通过已训练得到的词向量模型预测各个词对应的初始词向量,也可按照预设编码方式依次对分词结果中的每个词进行编码,得到相应的初始词向量。词向量模型是预先训练得到的能够预测各个词的词向量的模型。预设编码方式比如按照预设维数进行对每个词二进制编码,预设维度具体可以是每个词对应的词向量的维数。
在一个实施例中,服务器可从预设的医疗资讯平台获取全量医疗词条与医疗资讯数据等医疗数据,还可通过网络爬虫从外网爬取权威医疗数据,并根据所获取到的医疗数据得到训练样本集。服务器可直接将所获取到的医疗数据作为训练样本,还可从医疗数据中提取训练样本,比如提取医疗数据中的标题与正文组成训练样本。
在一个实施例中,服务器训练文本语义向量模型所涉及的机器学习算子,包括但不限于是Doc2Vec(一种文本向量预测算法)与Bert(Bidirectional EncoderRepresentation from Transformers)。相应地,已训练好的文本语义向量模型包括但不限于是Doc2Vec模型与Bert模型。服务器根据训练样本集,按照机器学习算子Doc2Vec或Bert训练文本语义向量模型的具体训练过程,可参照现有的模型训练过程,在此不再赘述。
在一个实施例中,以机器学习算子为Doc2Vec为例,文本语义向量模型的训练方式包括PV-DM(Distributed Memory Model of paragraph vectors)与PV-DBOW(DistributedBag of Words of paragraph vector)。基于Doc2Vec训练文本语义向量模型的过程,就是针对训练样本集中每个训练样本中的词进行迭代训练,得到每个词对应的词向量,以便于在答案语义向量的预测过程中,基于预先训练得到的词向量确定答案中各个词的词向量,进而确定答案对应的答案语义向量。可以理解,不同训练样本中可能包括相同的词,每个词在整个模型训练过程中会不断的进行迭代训练,以提高词对应的词向量的准确性。在模型训练过程中,每个词的词向量会在前一次训练得到的词向量基础上继续训练。
以训练方式为PV-DM为例,对于训练样本集中的每个训练样本,服务器每次从训练样本中滑动采样固定长度的词,将其中一个词作为预测词,将其他的词作为输入词。在训练过程中,将每个输入词对应的当前词向量与相应训练样本对应的当前文本向量作为输入特征,将该训练样本的当前文本向量与相应本次采样的每个输入词的当前词向量相加求平均或拼接累加,得到组合向量,并根据该组合向量预测本次采样的预测词的词向量。在训练过程中,训练样本中的每个词都会成为输入词与预测词,输入词的当前词向量通常是该词在前一次作为预测词时预测得到的词向量。可以理解,若尚未针对输入词执行词向量预测操作,则将该词的初始词向量作为当前词向量。
在上述训练过程中,将训练样本的当前文本向量与本次采集的输入词的当前词向量一并作为输入特征,该当前文本向量在训练过程中具有记忆功能,该训练样本的当前文本向量作为该训练样本的主旨,在该训练样本的各次训练中是共享的,每次训练都会将该训练样本的当前文本向量作为输入特征的一部分。每个训练样本都会进行多次训练,且在不断的迭代训练过程中,不仅训练了词,得到了预测词的词向量。训练样本的当前文本向量由该训练样本中的各个词的当前词向量确定,由此,随着训练样本每次滑动取若干词并进行训练的过程中,该训练样本的当前文本向量所表达的主旨越来越准确,也即该训练样本的当前文本向量越来越趋近于该训练样本的文本语义向量。当针对单个训练样本执行的训练操作执行完毕时,服务器训练得到了该训练样本对应的文本语义向量,以及该训练样本中每个词的词向量。
可以理解,当针对单个训练样本执行的训练操作执行完毕时,服务器会针对下一个训练样本继续执行相应的训练操作。若下一个训练样本中包括已训练得到相应词向量的词时,服务器可将该词向量作为该词的当前词向量,并在该当前词向量的基础上进行进一步地迭代训练,直至符合迭代停止条件,停止迭代训练过程,并得到已训练好的文本语义向量模型。跌打停止条件比如迭代次数达到迭代次数阈值,或者,针对各个训练样本训练得到的文本语义向量趋于稳定。
在一个实施例中,服务器按照上述预测答案对应的答案语义向量的类似方式,预测权威医疗词条对应的权威词条语义向量。
上述实施例中,通过已训练好的文本语义向量模型预测答案对应的答案语义向量,能够提高答案语义向量的预测效率与准确性。
在一个实施例中,如图4所示,提供了一种医疗问答对质检方法,该方法具体包括以下步骤:
步骤402,当满足医疗问答对质检条件时,遍历按照问题模板构建的标准问题。
步骤404,将与当前遍历的标准问题匹配的医疗问答对确定为待质检的医疗问答对;医疗问答对包括医疗问题与答案。
步骤406,对答案进行分词得到分词结果。
步骤408,通过已训练好的文本语义向量模型,获取分词结果中各个词对应的词向量,并根据词向量得到答案对应的答案语义向量。
步骤410,确定与医疗问题中的关键词相匹配的标准问题。
步骤412,获取标准问题对应的权威医疗词条。
步骤414,从权威医疗词条中提取关键词条。
步骤416,对关键词条进行处理得到相应权威词条语义向量。
步骤418,确定答案语义向量与权威词条语义向量的语义相似度。
步骤420,根据预配置的问答对重审比例与每个医疗问答对对应的语义相似度,确定待重审的目标医疗问答对,以及剔除目标医疗问答对后的每个医疗问答对的质检结果。
步骤422,将目标医疗问答对发送至终端。
步骤424,接收终端针对目标医疗问答对反馈的质检结果。
上述实施例中,当满足医疗问答对质检条件时,基于预配置的标准问题获取待质检的医疗问答对,针对每个医疗问答对,通过已训练好的文本语义向量预测该医疗问答对中的答案对应的答案语义向量,以提高答案语义向量的预测效率与准确性,相应地,根据医疗问题所匹配的标准问题对应的权威医疗词条中的关键词条,确定该医疗问题对应的权威词条语义向量,能够提高权威词条语义向量的准确性。进一步地,基于该准确性较高的答案语义向量与权威词条语义向量,确定相应答案与权威医疗词条的语义相似度,并根据各语义相似度确定与预配置的问答对重审比例确定待重审的目标医疗问答对,以及无需重审的各个医疗问答对的质检结果,以便于通过人工对目标医疗问答对进行重审,由此,通过人工与计算语义相似度相结合的方式实现对各个医疗问答对的质检,能够进一步提高质检准确性。
在一个实施例中,上述一个或多个实施例中由服务器执行的医疗问答对质检操作,也可由终端执行。
应该理解的是,虽然图2与图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2与图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种医疗问答对质检装置500,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:第一获取模块501、处理模块502、第二获取模块503、相似度确定模块504和质检模块505,其中:
第一获取模块501,用于获取待质检的医疗问答对;医疗问答对包括医疗问题与答案;
处理模块502,用于对答案进行处理得到相应答案语义向量;
第二获取模块503,用于获取医疗问题对应的权威词条语义向量;
相似度确定模块504,用于确定答案语义向量与权威词条语义向量的语义相似度;
质检模块505,用于根据语义相似度确定医疗问答对的质检结果。
在一个实施例中,第二获取模块503,还用于确定与医疗问题中的关键词相匹配的标准问题;根据标准问题获取权威词条语义向量。
在一个实施例中,第二获取模块503,还用于获取标准问题对应的权威医疗词条;从权威医疗词条中提取关键词条;对关键词条进行处理得到相应权威词条语义向量。
在一个实施例中,质检模块505,还用于根据预配置的问答对重审比例与每个医疗问答对对应的语义相似度,确定待重审的目标医疗问答对,以及剔除目标医疗问答对后的每个医疗问答对的质检结果;将目标医疗问答对发送至终端;接收终端针对目标医疗问答对反馈的质检结果。
在一个实施例中,第一获取模块501,还用于当满足医疗问答对质检条件时,遍历按照问题模板构建的标准问题;将与当前遍历的标准问题匹配的医疗问答对确定为待质检的医疗问答对。
在一个实施例中,上述医疗问答对质检装置500,还包括问题构建模块;
问题构建模块,用于遍历预配置的问题模板;根据遍历的问题模板从预配置的医疗知识图谱中查询相匹配的关键词对;根据每个关键词对按照相应问题模板构建标准问题。
在一个实施例中,处理模块502,还用于对答案进行分词得到分词结果;通过已训练好的文本语义向量模型,获取分词结果中各个词对应的词向量,并根据词向量得到答案对应的答案语义向量。
关于医疗问答对质检装置的具体限定可以参见上文中对于医疗问答对质检方法的限定,在此不再赘述。上述医疗问答对质检装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗问答对与相应质检结果,还可用于存储权威词条语义向量。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗问答对质检方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种医疗问答对质检方法,其特征在于,所述方法包括:
获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;
对所述答案进行处理得到相应答案语义向量;
从所述医疗问题中提取关键词,确定与所述医疗问题中的关键词相匹配的标准问题,将所述标准问题对应的权威词条语义向量确定为所述医疗问题对应的权威词条语义向量;
确定所述答案语义向量与所述权威词条语义向量的语义相似度;
根据所述语义相似度确定所述医疗问答对的质检结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述标准问题对应的权威词条语义向量确定为所述医疗问题对应的权威词条语义向量,包括:
获取所述标准问题对应的权威医疗词条;
从所述权威医疗词条中提取关键词条;
对所述关键词条进行处理得到相应权威词条语义向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述语义相似度确定所述医疗问答对的质检结果,包括:
根据预配置的问答对重审比例与每个医疗问答对对应的语义相似度,确定待重审的目标医疗问答对,以及剔除所述目标医疗问答对后的每个医疗问答对的质检结果;
将所述目标医疗问答对发送至终端;
接收所述终端针对所述目标医疗问答对反馈的质检结果。
4.根据权利要求1所述的方法,其特征在于,所述获取待质检的医疗问答对,包括:
当满足医疗问答对质检条件时,遍历按照问题模板构建的标准问题;
将与当前遍历的标准问题匹配的医疗问答对确定为待质检的医疗问答对。
5.根据权利要求4所述的方法,其特征在于,所述标准问题的构建步骤,包括:
遍历预配置的问题模板;
根据遍历的问题模板从预配置的医疗知识图谱中查询相匹配的关键词对;
根据每个关键词对按照相应问题模板构建标准问题。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述对所述答案进行处理得到相应答案语义向量,包括:
对所述答案进行分词得到分词结果;
通过已训练好的文本语义向量模型,获取所述分词结果中各个词对应的词向量,并根据所述词向量得到所述答案对应的答案语义向量。
7.一种医疗问答对质检装置,其特征在于,所述装置包括:
第一获取模块,用于获取待质检的医疗问答对;所述医疗问答对包括医疗问题与答案;
处理模块,用于对所述答案进行处理得到相应答案语义向量;
第二获取模块,用于从所述医疗问题中提取关键词,确定与所述医疗问题中的关键词相匹配的标准问题,将所述标准问题对应的权威词条语义向量确定为所述医疗问题对应的权威词条语义向量;
相似度确定模块,用于确定所述答案语义向量与所述权威词条语义向量的语义相似度;
质检模块,用于根据所述语义相似度确定所述医疗问答对的质检结果。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块,还用于获取所述标准问题对应的权威医疗词条;从所述权威医疗词条中提取关键词条;对所述关键词条进行处理得到相应权威词条语义向量。
9.根据权利要求7所述的装置,其特征在于,所述质检模块,还用于根据预配置的问答对重审比例与每个医疗问答对对应的语义相似度,确定待重审的目标医疗问答对,以及剔除所述目标医疗问答对后的每个医疗问答对的质检结果;将所述目标医疗问答对发送至终端;接收所述终端针对所述目标医疗问答对反馈的质检结果。
10.根据权利要求7所述的装置,其特征在于,所述第一获取模块,还用于当满足医疗问答对质检条件时,遍历按照问题模板构建的标准问题;将与当前遍历的标准问题匹配的医疗问答对确定为待质检的医疗问答对。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:问题构建模块;
所述问题构建模块,用于遍历预配置的问题模板;根据遍历的问题模板从预配置的医疗知识图谱中查询相匹配的关键词对;根据每个关键词对按照相应问题模板构建标准问题。
12.根据权利要求7至11任意一项所述的装置,其特征在于,所述处理模块,还用于对所述答案进行分词得到分词结果;通过已训练好的文本语义向量模型,获取所述分词结果中各个词对应的词向量,并根据所述词向量得到所述答案对应的答案语义向量。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010208232.1A CN111444724B (zh) | 2020-03-23 | 2020-03-23 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010208232.1A CN111444724B (zh) | 2020-03-23 | 2020-03-23 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444724A CN111444724A (zh) | 2020-07-24 |
CN111444724B true CN111444724B (zh) | 2022-11-15 |
Family
ID=71629662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010208232.1A Active CN111444724B (zh) | 2020-03-23 | 2020-03-23 | 医疗问答对质检方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444724B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916110B (zh) * | 2020-08-06 | 2024-04-26 | 龙马智芯(珠海横琴)科技有限公司 | 语音质检的方法及装置 |
CN111984775A (zh) * | 2020-08-12 | 2020-11-24 | 北京百度网讯科技有限公司 | 问答质量确定方法、装置、设备和存储介质 |
CN112580343A (zh) * | 2020-11-03 | 2021-03-30 | 北京字节跳动网络技术有限公司 | 模型生成方法、问答质量判断方法、装置、设备及介质 |
CN112801492B (zh) * | 2021-01-22 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 基于知识阶层的数据质检的方法、装置及计算机设备 |
CN113268563B (zh) * | 2021-05-24 | 2022-06-17 | 平安科技(深圳)有限公司 | 基于图神经网络的语义召回方法、装置、设备及介质 |
CN113569253A (zh) * | 2021-07-22 | 2021-10-29 | 广东电网有限责任公司 | 一种基于上下文语义的漏洞检测方法与装置 |
CN113657086B (zh) * | 2021-08-09 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 词语处理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829719A (zh) * | 2018-05-07 | 2018-11-16 | 中国科学院合肥物质科学研究院 | 一种非事实类问答答案选择方法及系统 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN103577556B (zh) * | 2013-10-21 | 2017-01-18 | 北京奇虎科技有限公司 | 一种获取问答对的相关联程度的装置和方法 |
CN106909573A (zh) * | 2015-12-23 | 2017-06-30 | 北京奇虎科技有限公司 | 一种评价问答对质量的方法和装置 |
CN107993724B (zh) * | 2017-11-09 | 2020-11-13 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN108960574A (zh) * | 2018-06-07 | 2018-12-07 | 百度在线网络技术(北京)有限公司 | 问答的质量确定方法、装置、服务器和存储介质 |
KR102128549B1 (ko) * | 2018-09-19 | 2020-07-08 | 주식회사 포티투마루 | 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램 |
CN110263144A (zh) * | 2019-06-27 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 一种答案获取方法及装置 |
CN110543557B (zh) * | 2019-09-06 | 2021-04-02 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN110727779A (zh) * | 2019-10-16 | 2020-01-24 | 信雅达系统工程股份有限公司 | 基于多模型融合的问答方法及系统 |
-
2020
- 2020-03-23 CN CN202010208232.1A patent/CN111444724B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829719A (zh) * | 2018-05-07 | 2018-11-16 | 中国科学院合肥物质科学研究院 | 一种非事实类问答答案选择方法及系统 |
CN110390003A (zh) * | 2019-06-19 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗的问答处理方法及系统、计算机设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444724A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444724B (zh) | 医疗问答对质检方法、装置、计算机设备和存储介质 | |
US9348900B2 (en) | Generating an answer from multiple pipelines using clustering | |
CN108427707B (zh) | 人机问答方法、装置、计算机设备和存储介质 | |
US9230009B2 (en) | Routing of questions to appropriately trained question and answer system pipelines using clustering | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
CN111708873A (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
Syed et al. | Comparative analysis of CNN and RNN for voice pathology detection | |
US20170220906A1 (en) | Label consistency for image analysis | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
US20210056127A1 (en) | Method for multi-modal retrieval and clustering using deep cca and active pairwise queries | |
CN113722474A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN115050442A (zh) | 基于挖掘聚类算法的病种数据上报方法、装置及存储介质 | |
US10810266B2 (en) | Document search using grammatical units | |
CN114191665A (zh) | 机械通气过程中人机异步现象的分类方法和分类装置 | |
CN113707304A (zh) | 分诊数据处理方法、装置、设备及存储介质 | |
Costa et al. | Automatic classification of computational thinking skills in elementary school math questions | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 | |
CN112561714B (zh) | 基于nlp技术的核保风险预测方法、装置及相关设备 | |
CN111783473B (zh) | 医疗问答中最佳答案的识别方法、装置和计算机设备 | |
CN111582404B (zh) | 内容分类方法、装置及可读存储介质 | |
CN114625960A (zh) | 线上考评方法、装置、电子设备及存储介质 | |
CN112650856A (zh) | 一种提供学术领域研究方向的咨询方法、装置和电子设备 | |
CN111401055A (zh) | 从金融资讯提取脉络信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |