CN107993724B - 一种医学智能问答数据处理的方法及装置 - Google Patents

一种医学智能问答数据处理的方法及装置 Download PDF

Info

Publication number
CN107993724B
CN107993724B CN201711095265.4A CN201711095265A CN107993724B CN 107993724 B CN107993724 B CN 107993724B CN 201711095265 A CN201711095265 A CN 201711095265A CN 107993724 B CN107993724 B CN 107993724B
Authority
CN
China
Prior art keywords
question
keywords
data
knowledge base
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711095265.4A
Other languages
English (en)
Other versions
CN107993724A (zh
Inventor
金以东
李雪莉
黄玉丽
周大胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ebaonet Healthcare Information Technology Beijing Co ltd
Original Assignee
Ebaonet Healthcare Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ebaonet Healthcare Information Technology Beijing Co ltd filed Critical Ebaonet Healthcare Information Technology Beijing Co ltd
Priority to CN201711095265.4A priority Critical patent/CN107993724B/zh
Publication of CN107993724A publication Critical patent/CN107993724A/zh
Application granted granted Critical
Publication of CN107993724B publication Critical patent/CN107993724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供了一种医学智能问答数据处理的方法及装置,涉及智能问答技术领域。方法包括:在用户查询问题数据中提取问题关键词;进行同义转换,确定问题关键词的同义词组;根据问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;若成功,输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;若失败,对问题关键词进行语义扩展处理,得到问题关键词及其同义词的下位词的同义词组;根据问题关键词及其同义词的下位词的同义词组继续匹配查找,生成包含检索结果的检索结果列表;对检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;根据各检索结果的相似度对各检索结果进行排序并输出。

Description

一种医学智能问答数据处理的方法及装置
技术领域
本发明涉及智能问答技术领域,尤其涉及一种医学智能问答数据处理的方法及装置。
背景技术
当前,随着互联网医疗的快速发展、医疗信息的海量增长,人们在浩瀚的医学数据中搜索到想要的医学信息越来越难。传统的信息搜索一般是根据用户提交的关键词返回一组或一篇文本列表或文本超链接,而不能直接定位到文本中具体的所需的内容,用户必须逐一浏览文本内容才能找到其需要的知识信息,可见用户需要手工定位到其真正需要的信息,耗时耗力。由此,智能问答技术应运而生,智能问答技术能够改变传统搜索引擎返回文本超链接的方式,能把海量的互联网信息转化为知识,并能够理解用户的自然语言问题和意图,快速、准确地直接给予答案,大大减少了用户查找信息的时间,提高用户的查询效率。
然而,在医学领域,医学的智能问答技术和系统研究还不成熟。目前的智能问答技术及系统还存在比较大的局限性,例如存在对知识库依赖行太强、语义推理能力差、答案准确率较低等问题。
发明内容
本发明的实施例提供一种医学智能问答数据处理的方法及装置,以解决医学的智能问答技术和系统研究还不成熟,目前的智能问答技术及系统还存在对知识库依赖行太强、语义推理能力差、答案准确率较低的问题。
为达到上述目的,本发明采用如下技术方案:
一种医学智能问答数据处理的方法,包括:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
对所述问题关键词进行同义转换,确定问题关键词的同义词组;
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
根据各检索结果的相似度对各检索结果进行排序并输出。
具体的,所述获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词,包括:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词;
其中,所述切分词表包括医学本体词表和通用词表;所述医学本体词表包括本体术语名称、本体标准词、本体术语同义词、本体术语上位词以及本体术语类型;所述通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型;所述核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。
具体的,对所述问题关键词进行同义转换,确定问题关键词的同义词组,包括:
在医学本体词表中检索与所述核心关键词相对的本体术语名称对应的本体标准词和本体术语同义词;
根据所述核心关键词及其对应的本体标准词和本体术语同义词确定所述核心关键词的同义词组;
在通用词表中检索与所述功能关键词相对的通用术语名称对应的通用术语同义词;
根据所述功能关键词及其对应的通用术语同义词确定所述功能关键词的同义词组。
具体的,所述问答对知识库包括预先设置的问题项目以及各问题项目对应的答案项目;所述规则知识库包括预先设置的实体项目、属性项目以及值项目;
所述方法还包括:
预先建立所述问答对知识库的索引和所述规则知识库的索引。
具体的,根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找,包括:
根据所述用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找。
具体的,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找,包括:
将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引,匹配查找对应的问题项目和答案项目;
将用户查询问题数据对应的核心关键词的同义词组根据所述规则知识库的索引,与所述实体项目进行匹配,将用户查询问题数据对应的功能关键词的同义词组根据所述规则知识库的索引,与所述属性项目进行匹配,以确定用户查询问题数据对应的值项目。
具体的,根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度,包括:
根据预先设置的用户查询问题数据对应的检索词权重、查询子语句权重、待查询文档权重以及域权重,采用Lucence技术,确定各检索结果的相似度;
所述根据各检索结果的相似度对各检索结果进行排序并输出,包括:
将各检索结果的相似度以从高到低顺序排列并输出。
进一步的,所述的医学智能问答数据处理的方法,还包括:
将相似度的最高值对应的检索结果和用户查询问题数据相关联,并更新到问答对知识库中,并设置相似度的最高值对应的检索结果和用户查询问题数据对应的未审核标记。
一种医学智能问答数据处理的装置,包括:
问题关键词提取单元,用于获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
同义转换单元,用于对所述问题关键词进行同义转换,确定问题关键词的同义词组;
匹配查找单元,用于根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
结果输出单元,用于在匹配查找成功时,输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
语义扩展处理单元,用于在匹配查找失败时,对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;
所述匹配查找单元,还用于根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
相似度计算单元,用于根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
排序输出单元,用于根据各检索结果的相似度对各检索结果进行排序并输出。
另外,所述问题关键词提取单元,具体用于:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词;
其中,所述切分词表包括医学本体词表和通用词表;所述医学本体词表包括本体术语名称、本体标准词、本体术语同义词、本体术语上位词以及本体术语类型;所述通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型;所述核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。
具体的,所述同义转换单元,包括:
第一检索模块,用于在医学本体词表中检索与所述核心关键词相对的本体术语名称对应的本体标准词和本体术语同义词;
核心关键词的同义词组确定模块,用于根据所述核心关键词及其对应的本体标准词和本体术语同义词确定所述核心关键词的同义词组;
第二检索模块,用于在通用词表中检索与所述功能关键词相对的通用术语名称对应的通用术语同义词;
功能关键词的同义词组确定模块,用于根据所述功能关键词及其对应的通用术语同义词确定所述功能关键词的同义词组。
具体的,所述问答对知识库包括预先设置的问题项目以及各问题项目对应的答案项目;所述规则知识库包括预先设置的实体项目、属性项目以及值项目;
所述装置还包括:
索引建立单元,用于预先建立所述问答对知识库的索引和所述规则知识库的索引。
另外,所述匹配查找单元,具体用于:
根据所述用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找。
另外,所述匹配查找单元,包括:
问答对知识库匹配查找模块,用于将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引,匹配查找对应的问题项目和答案项目;
规则知识库匹配查找模块,用于将用户查询问题数据对应的核心关键词的同义词组根据所述规则知识库的索引,与所述实体项目进行匹配,将用户查询问题数据对应的功能关键词的同义词组根据所述规则知识库的索引,与所述属性项目进行匹配,以确定用户查询问题数据对应的值项目。
另外,所述相似度计算单元,具体用于:
根据预先设置的用户查询问题数据对应的检索词权重、查询子语句权重、待查询文档权重以及域权重,采用Lucence技术,确定各检索结果的相似度;
所述排序输出单元,具体用于:
将各检索结果的相似度以从高到低顺序排列并输出。
进一步的,所述的医学智能问答数据处理的装置,还包括:
更新单元,用于将相似度的最高值对应的检索结果和用户查询问题数据相关联,并更新到问答对知识库中,并设置相似度的最高值对应的检索结果和用户查询问题数据对应的未审核标记。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
对所述问题关键词进行同义转换,确定问题关键词的同义词组;
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
根据各检索结果的相似度对各检索结果进行排序并输出。
一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
对所述问题关键词进行同义转换,确定问题关键词的同义词组;
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
根据各检索结果的相似度对各检索结果进行排序并输出。
本发明提供的一种医学智能问答数据处理的方法及装置,通过预先设置的问答对知识库和规则知识库可以对问题关键词的同义词组进行精确的匹配查找,并可对匹配查找失败的问题关键词进行语义扩展处理,并重新进行匹配查找。本发明可以解决医学的智能问答技术和系统研究还不成熟,目前的智能问答技术及系统还存在对知识库依赖行太强、语义推理能力差、答案准确率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种医学智能问答数据处理的方法的流程图一;
图2为本发明实施例提供的一种医学智能问答数据处理的方法的流程图二;
图3为本发明实施例提供的一种医学智能问答数据处理的装置的结构示意图一;
图4为本发明实施例提供的一种医学智能问答数据处理的装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在实现本发明实施例的过程中,发明人发现,现有技术中的智能问答系统所采用的方式一般有如下几种方式:
现有技术一、基于关键词检索方法的智能问答:
基于关键词检索方法的智能问答出现较早,其过程是从用户的检索问题中抽取关键词;其次,直接运用关键词在文本或数据库中查找与之最相关的文本片段;然后,运用信息抽取技术将相关片段抽取出抽返回给用户。现有技术一简单易行,存在鲁棒性强,构建成本低等优点。
然而,现有技术一同样存在较多缺点:首先,关键词可能无法准确的表达用户的检索问题,导致结果不准确。例如,用户查询“非小细胞肺癌的症状”,如果用关键词“小细胞肺癌”检索,则回答结果则完全相反,结果出现不准确的问题。另外,关键词不能全面表达问题概念,导致回答结果与问题相关度低,回答系统效率低下。例如,当用户查询“脱氧核糖核酸”,关键词“脱氧核糖核酸”的概念还可以用“DNA”表达,如果数据库中仅出现“DNA”,而未出现“脱氧核糖核酸”,那么仅用“脱氧核糖核酸”在数据库中检索,智能问答系统无法得到回答,因为智能问答系统此时无法将两个词认为是同一个概念。另外,该现有技术一的检索源是文本或数据库,给信息抽取带来很大困难,导致抽取答案片段不准确。
现有技术二、基于本体检索问答对知识库方法的智能问答:
基于本体检索问答对知识库方法的智能问答需要人工构建问题答案对知识库;其次,对用户问题进行理解:利用本体词表对用户问题进行分词、词法分析等自然语言处理,得到问题主题词;然后,利用问题主题词及其在本体中的语义关系在问答对知识库中进行检索,得到与之最相近的答案;最后,运用问答系统排序规则呈现答案。该现有技术二比现有技术一的先进之处在于:运用本体词表理解用户问题,对问题的概念能够理解全面,比如同义词关系的词能够理解为同一个概念,检索时可通过本体中上下位语义关系扩大或缩小检索范围,提高检索效率,问答结果比现有技术一更全面准确一些,但效果仍然存在很多问题。
首先,现有技术二对问答对知识库依赖过大,其要求必须存在大量的问题-答案对作为数据基础,如果问答-答案对的规模达不到一定程度,则会大大降低问答效果。但大规模知识库构建又非常耗费人力物力。另外,现有技术二的问题理解效果不高,其基于本体词表的分词技术使得问题理解的效果受到影响,如切分引起的歧义会导致问答结果相差很大,甚至完全相反。另外,现有技术二没有实现智能问答的终极目标:通过推理机制,给用户提供最直接最精准的答案。虽然该现有技术二在一定程度上能够实现同义词等关系识别,实现一定的语义推理,但还不是真正意义上的推理。
现有技术三、基于推理机制的智能问答:
在通用领域还有一种比较先进的智能问答技术,即基于知识图谱的实现推理功能的智能问答:首先,构建一个通用领域的知识图谱知识库,该知识图谱不涉及任何专业学科领域;其次,利用自然语言技术对用户问题进行理解,得到问题主题词;然后,运用问题关键词在知识图谱知识库进行检索,得到精准简洁的问题答案。可以看出,通用领域的智能问答已经达到较高的水平,但在专业学科领域,甚至医学领域,问答系统还进出于比较低的水平,为了促进专业学科领域的检索效果,研究专业学科的智能答问有很大的意义。
现有技术三具有如下缺点:该技术涉及的知识图谱仅是通用领域的,无法应用在专业学科领域甚至医学领域,因此其适用范围太窄,不具有通用性。
为了解决上述现有技术一至现有技术三的问题,如图1所示,本发明实施例提供一种医学智能问答数据处理的方法,包括:
步骤101、获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词。
步骤102、对所述问题关键词进行同义转换,确定问题关键词的同义词组。
步骤103、根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找。
在步骤103之后执行步骤104或者步骤105。
步骤104、若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
步骤105、若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表。
在步骤105之后,继续执行步骤106。
步骤106、根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度。
步骤107、根据各检索结果的相似度对各检索结果进行排序并输出。
本发明提供的一种医学智能问答数据处理的方法,通过预先设置的问答对知识库和规则知识库可以对问题关键词的同义词组进行精确的匹配查找,并可对匹配查找失败的问题关键词进行语义扩展处理,并重新进行匹配查找。本发明可以解决医学的智能问答技术和系统研究还不成熟,目前的智能问答技术及系统还存在对知识库依赖行太强、语义推理能力差、答案准确率较低的问题。
为了使本领域的技术人员更好的了解本发明,下面列举一个更为详细的实施例,如图2所示,本发明实施例提供一种医学智能问答数据处理的方法,包括:
步骤201、获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词。
其中,所述切分词表包括医学本体词表和通用词表;所述医学本体词表包括本体术语名称、本体标准词、本体术语同义词、本体术语上位词以及本体术语类型;所述通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型;所述核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。
本发明实施例中的医学本体词表可以按照国内外标准(如ICD10,ICD9-CM3等)为基本框架,扩充大量的同义词、细分概念词等后形成具有语义关系的词表,计算机通过词表的树状等级结构可以识别术语间的语义关系,从而实现语义扩展功能。词表中包含本体标准词、本体术语同义词、本体术语上位词等信息,例如下表1所示:
表1:
Figure BDA0001462011170000101
另外,本发明实施例中的通用词表是由医学领域和通用领域中非专业术语但对专业术语具有修饰和限定作用的词组成,也可以理解为医学实体(如疾病、症状等名称)的属性(如预防、治疗、诊断方法等)。通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型等,例如下表2所示:
表2:
Figure BDA0001462011170000111
这样,上述步骤201中,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词,可以是例如:
用户查询问题数据为“得了左耳突聋怎么办?”,则通过上述医学本体词表和通用词表进行切分,由于表1结合表2中有“左耳突聋”、“耳突聋”、“怎么办”,提取结果应该为“得了[左耳突聋][怎么办]?”(方括号内的为提取到的术语)。由于核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。因此,此处得到的问题关键词的提取结果为:左耳突聋【核心词】—怎么办【功能词】。
步骤202、在医学本体词表中检索与所述核心关键词相对的本体术语名称对应的本体标准词和本体术语同义词。
步骤203、根据所述核心关键词及其对应的本体标准词和本体术语同义词确定所述核心关键词的同义词组。
步骤204、在通用词表中检索与所述功能关键词相对的通用术语名称对应的通用术语同义词。
步骤205、根据所述功能关键词及其对应的通用术语同义词确定所述功能关键词的同义词组。
此处,根据上述医学本体词表和通用词表,可以将上述得到的核心关键词和功能关键词分别转换为核心关键词同义词组和功能关键词同义词组,以便于后续通过核心关键词同义词组和功能关键词同义词组来进行匹配查找,保证了属于同一概念的词均可被检索出来。
例如以上述“得了左耳突聋怎么办?”为例,问题关键词提取结果是核心关键词为“左耳突聋”、功能关键词为“怎么办”,根据医学本体表和通用词表,分别将其转换为核心关键词同义词组和功能关键词同义词组:核心关键词同义词组为突发性耳聋及其所有的同义词,功能关键词同义词组为治疗及其所有同义词,在后续的匹配查找时核心关键词同义词组和功能关键词同义词组的任意组合均可作为匹配查找的对象。
步骤206、预先建立所述问答对知识库的索引和所述规则知识库的索引。
具体的,所述问答对知识库是由问题和答案一一对应组成的数据库,数据库的问题和答案需要索引才能用于匹配检索,其包括预先设置的问题项目以及各问题项目对应的答案项目,其结构与内容可以如下表3所示:
表3:
Figure BDA0001462011170000121
另外,本发明实施例中的所述规则知识库是医学领域的实体-属性-值形式的三元组数据库,每个字段可以参与检索,通过字段与字段之间的关系可以实现推理。规则知识库包括预先设置的实体项目、属性项目以及值项目。其结构与内容可以如下表4所示:
表4:
Figure BDA0001462011170000122
Figure BDA0001462011170000131
Figure BDA0001462011170000141
步骤207、根据所述用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找。
此处,可以将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引,匹配查找对应的问题项目和答案项目。
另外,还可以将用户查询问题数据对应的核心关键词的同义词组根据所述规则知识库的索引,与所述实体项目进行匹配,将用户查询问题数据对应的功能关键词的同义词组根据所述规则知识库的索引,与所述属性项目进行匹配,以确定用户查询问题数据对应的值项目。
此处问题关键词的核心关键词和功能关键词的组成形式可以有多种,则根据不同的组成形式,可以有不同的匹配查询方式和结果:
例如:①当用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式为:一个核心关键词后面加上一个功能关键词形式时:
可以将核心关键词的同义词组的词与规则知识库中的实体项目及其同义词索引匹配,将功能关键词的同义词组中的词与规则知识库中的属性项目及其同义词索引匹配,如果匹配成功,则输出该实体项目和属性项目对应的值项目的内容作为问题的答案。
如,用户查询问题数据为:“高血压会引起什么病?”,
问题分析结果:核心关键词的同义词组为:高血压、高血压病、高血压症;
功能关键词的同义词组为:引起什么病、并发症;
规则知识库的实体项目“高血压症”及其同义词索引为:高血压、高血压病、高血压症;属性项目“并发症”及其同义词索引为:引起什么病、并发症;
匹配结果:完全匹配上,因此输出值项目中的结果作为答案。
②当用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式为:一个核心关键词后面加上一个功能关键词,再加上一个核心关键词形式时:
此种类型问题的实质是询问两个关键词实体之间的关系成立,答案只需回答是或者否即可。
a)先用第一个核心关键词的同义词组的词与规则知识库中的实体项目及其同义词索引匹配,功能关键词的同义词组中的词与规则知识库中的属性项目及其同义词索引匹配,得出匹配结果,确定实体项目和属性项目对应的值项目;
b)再用第二个核心关键词的同义词组的词在值项目的索引中匹配,得到匹配结果。
c)如果a)和b)两步得到的匹配结果记录中有相同记录,则答案为“是”,否则答案为“否”。
同时,把c)得到的记录输出作为答案的一部分。
如用户查询问题数据为:“高血压能否吃利血平?”
问题分析结果:核心关键词的同义词组1:高血压、高血压病、高血压症;
功能关键词的同义词组:能否吃、药品治疗;
核心关键词同义词组2:利血平、复方利血平片;
规则知识库的实体项目“高血压症”及其同义词索引为:高血压、高血压病、高血压症;属性项目“药品治疗”及其同义词索引为:药品治疗、药物疗法、吃什么药;值项目索引中包括“利血平”。
匹配结果:可以匹配上,因此输出的答案为“是,以及值项目的内容”。
③当用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式为:一个核心关键词之后带有多个功能关键词形式时:
a)先用核心关键词的同义词组的词和第一个功能关键词的同义词组的词分别与规则知识库的实体项目和属性项目匹配,如果匹配出结果,则进行下面的b)步骤,否则此过程结束;
b)再用a)匹配出的结果作为核心关键词,再和第二个功能关键词的同义词组的词分别与规则知识库库的实体项目和属性项目匹配,如果匹配成功,则匹配出结果,否则此过程结束。
以此类推,直到后续多个功能关键词匹配完成。
c)输出的结果即为通过推理得到的答案结果。
如,用户查询问题数据为:“白加黑的生产厂家的地址?”
问题分析结果:核心关键词的同义词组为:白加黑;
功能关键词的同义词组1为:生产厂家、生产企业;
功能关键词的同义词组2为:地址、地点;
规则知识库:可见上表4;
匹配过程:先匹配出白加黑的生产厂家是拜耳医药保健有限公司启东分公司,然后在用“拜耳医药保健有限公司启东分公司”和“地址、地点”检索出结果“启东市民乐中路282号”
问题答案为:启东市民乐中路282号。
步骤208、若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据。
步骤209、若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表。
在实际应用中,例如高血压,其同义词组为:高血压病、高血压症、高血压,其下位词组为:1级高血压、原发性高血压、高血压心脏病、高血压肾病以及这些词的所有同义词。
步骤210、根据预先设置的用户查询问题数据对应的检索词权重、查询子语句权重、待查询文档权重以及域权重,采用Lucence技术,确定各检索结果的相似度。
此处的采用Lucence技术,确定各检索结果的相似度可以通过如下公式表示:
Figure BDA0001462011170000161
其中,q表示用户查询问题数据中的语句;t表示上述q进行分词后的每一个词;d表示是参与匹配的文档;tf(tind):表示词条t在文档d中出现的频次;idf(t)表示词条t在几篇文档中出现过;t.getBoost()表示q中每个词的权重,即检索词权重;coord(q,d)表示文档d中包含的语句q中搜索词的个数,当一篇文档中包含的搜索词越多,则此文档则打分越高;另外,queryNorm(q)表示计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的query之间的分数可以比较。其公式如下:
Figure BDA0001462011170000162
其中,q.getBoost()表示本申请实施例中对所有查询语句的预设值。
norm(t,d)表示标准化因子,其公式为:
Figure BDA0001462011170000171
其中,d.getBoost():是指待查询文档权重。f.getBoost():是指待查询文档域的权重,如文档的域可分为题目域、内容域等。
Figure BDA0001462011170000172
表示在一个域中,含有词的总数越多,文档越长,此值越小,文档越短,此值越大。
通过上述公式中每个参数可知,决定检索结果的相似度score(q,d)的参数主要有:tf(tind)、idf(t)、t.getBoost()、coord(q,d)、q.getBoost()、d.getBoost()、f.getBoost()、lengthNorm(field);而对于检索词权重t.getBoost()、查询子语句权重q.getBoost()、待查询文档权重d.getBoost()、域权重f.getBoost()可以通过人为预先设置,这样本申请实施例可以具有完善的权重体系,以实现检索结果的合理准确排序,实现与查询语句最相关的检索结果排在最前面,提高用户检索满意度。
以下是这几个权重的预先设置方式::
检索词权重t.getBoost()的设置可以如下表5所示:
表5:
Figure BDA0001462011170000173
另外,查询子语句权重q.getBoost()的设置规则是:
在本申请实施例中可以不设置查询子语句权重,实际做法是将所有查询子语句的权重设为一致,不做区分。
另外,待查询文档权重d.getBoost()的设置规则是:
由于本发明用到待查询文档即是前面提到的知识库,包括规则知识库和问答对知识库,规则知识库是通过医学专家和业内权威人士编制而成,具有一定的专业性和稳定性和系统性;问答对知识库是我们在问答过程中积累起来的数据库,问题的答案具有科普性、针对性。从知识的严谨性和权威性角度,本发明把规则知识库权重设置高一些,问答对知识库权重低一些。其中,问答对知识库中被审核过的比未被审核过的权重高。
另外,域权重f.getBoost()的设置规则是:
本发明实施例中的待查询文档即是前面提到的问答对知识库包括问题题名和问题答案两个字段,规则知识库包括实体、属性和值三个字段,因此,本发明实施例中的规定问题题名字段、实体和属性字段的权重比答案字段和值字段权重高。
步骤211、将各检索结果的相似度以从高到低顺序排列并输出。
步骤212、将相似度的最高值对应的检索结果和用户查询问题数据相关联,并更新到问答对知识库中,并设置相似度的最高值对应的检索结果和用户查询问题数据对应的未审核标记。
这样,后续在问答对知识库中,专家人员可以对带有未审核标记的数据进行审核,以便对数据进行核查。
本发明提供的一种医学智能问答数据处理的方法,通过预先设置的问答对知识库和规则知识库可以对问题关键词的同义词组进行精确的匹配查找,并可对匹配查找失败的问题关键词进行语义扩展处理,并重新进行匹配查找。本发明可以解决医学的智能问答技术和系统研究还不成熟,目前的智能问答技术及系统还存在对知识库依赖行太强、语义推理能力差、答案准确率较低的问题。
对应于上述图1和图2所对应的方法实施例,如图3所示,本发明实施例还提供一种医学智能问答数据处理的装置,包括:
问题关键词提取单元31,用于获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词。
同义转换单元32,用于对所述问题关键词进行同义转换,确定问题关键词的同义词组。
匹配查找单元33,用于根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找。
结果输出单元34,用于在匹配查找成功时,输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据。
语义扩展处理单元35,用于在匹配查找失败时,对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组。
所述匹配查找单元33,还用于根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表。
相似度计算单元36,用于根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度。
排序输出单元37,用于根据各检索结果的相似度对各检索结果进行排序并输出。
另外,所述问题关键词提取单元31,具体用于:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词。
其中,所述切分词表包括医学本体词表和通用词表;所述医学本体词表包括本体术语名称、本体标准词、本体术语同义词、本体术语上位词以及本体术语类型;所述通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型;所述核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。
具体的,如图4所示,所述同义转换单元32,包括:
第一检索模块321,用于在医学本体词表中检索与所述核心关键词相对的本体术语名称对应的本体标准词和本体术语同义词。
核心关键词的同义词组确定模块322,用于根据所述核心关键词及其对应的本体标准词和本体术语同义词确定所述核心关键词的同义词组。
第二检索模块323,用于在通用词表中检索与所述功能关键词相对的通用术语名称对应的通用术语同义词。
功能关键词的同义词组确定模块324,用于根据所述功能关键词及其对应的通用术语同义词确定所述功能关键词的同义词组。
具体的,所述问答对知识库包括预先设置的问题项目以及各问题项目对应的答案项目;所述规则知识库包括预先设置的实体项目、属性项目以及值项目。
进一步的,如图4所示,所述装置还包括:
索引建立单元38,用于预先建立所述问答对知识库的索引和所述规则知识库的索引。
另外,所述匹配查找单元33,具体用于:
根据所述用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找。
另外,如图4所示,所述匹配查找单元33,包括:
问答对知识库匹配查找模块331,用于将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引,匹配查找对应的问题项目和答案项目。
规则知识库匹配查找模块332,用于将用户查询问题数据对应的核心关键词的同义词组根据所述规则知识库的索引,与所述实体项目进行匹配,将用户查询问题数据对应的功能关键词的同义词组根据所述规则知识库的索引,与所述属性项目进行匹配,以确定用户查询问题数据对应的值项目。
另外,所述相似度计算单元36,具体用于:
根据预先设置的用户查询问题数据对应的检索词权重、查询子语句权重、待查询文档权重以及域权重,采用Lucence技术,确定各检索结果的相似度;
所述排序输出单元37,具体用于:
将各检索结果的相似度以从高到低顺序排列并输出。
进一步的,如图4所示,所述的医学智能问答数据处理的装置,还包括:
更新单元39,用于将相似度的最高值对应的检索结果和用户查询问题数据相关联,并更新到问答对知识库中,并设置相似度的最高值对应的检索结果和用户查询问题数据对应的未审核标记。
本发明提供的一种医学智能问答数据处理的装置,通过预先设置的问答对知识库和规则知识库可以对问题关键词的同义词组进行精确的匹配查找,并可对匹配查找失败的问题关键词进行语义扩展处理,并重新进行匹配查找。本发明可以解决医学的智能问答技术和系统研究还不成熟,目前的智能问答技术及系统还存在对知识库依赖行太强、语义推理能力差、答案准确率较低的问题。
另外,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词。
对所述问题关键词进行同义转换,确定问题关键词的同义词组。
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找。
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据。
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表。
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度。
根据各检索结果的相似度对各检索结果进行排序并输出。
此外,本发明实施例提供一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词。
对所述问题关键词进行同义转换,确定问题关键词的同义词组。
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找。
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据。
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表。
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度。
根据各检索结果的相似度对各检索结果进行排序并输出。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种医学智能问答数据处理的方法,其特征在于,包括:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
对所述问题关键词进行同义转换,确定问题关键词的同义词组;
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
根据各检索结果的相似度对各检索结果进行排序并输出;
所述获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词,包括:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词;
其中,所述切分词表包括医学本体词表和通用词表。
2.根据权利要求1所述的医学智能问答数据处理的方法,其特征在于,
所述医学本体词表包括本体术语名称、本体标准词、本体术语同义词、本体术语上位词以及本体术语类型;所述通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型;所述核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。
3.根据权利要求2所述的医学智能问答数据处理的方法,其特征在于,对所述问题关键词进行同义转换,确定问题关键词的同义词组,包括:
在医学本体词表中检索与所述核心关键词相对的本体术语名称对应的本体标准词和本体术语同义词;
根据所述核心关键词及其对应的本体标准词和本体术语同义词确定所述核心关键词的同义词组;
在通用词表中检索与所述功能关键词相对的通用术语名称对应的通用术语同义词;
根据所述功能关键词及其对应的通用术语同义词确定所述功能关键词的同义词组。
4.根据权利要求3所述的医学智能问答数据处理的方法,其特征在于,所述问答对知识库包括预先设置的问题项目以及各问题项目对应的答案项目;所述规则知识库包括预先设置的实体项目、属性项目以及值项目;
所述方法还包括:
预先建立所述问答对知识库的索引和所述规则知识库的索引。
5.根据权利要求4所述的医学智能问答数据处理的方法,其特征在于,根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找,包括:
根据所述用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找。
6.根据权利要求5所述的医学智能问答数据处理的方法,其特征在于,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找,包括:
将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引,匹配查找对应的问题项目和答案项目;
将用户查询问题数据对应的核心关键词的同义词组根据所述规则知识库的索引,与所述实体项目进行匹配,将用户查询问题数据对应的功能关键词的同义词组根据所述规则知识库的索引,与所述属性项目进行匹配,以确定用户查询问题数据对应的值项目。
7.根据权利要求6所述的医学智能问答数据处理的方法,其特征在于,根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度,包括:
根据预先设置的用户查询问题数据对应的检索词权重、查询子语句权重、待查询文档权重以及域权重,采用Lucence技术,确定各检索结果的相似度;
所述根据各检索结果的相似度对各检索结果进行排序并输出,包括:
将各检索结果的相似度以从高到低顺序排列并输出。
8.根据权利要求7所述的医学智能问答数据处理的方法,其特征在于,还包括:
将相似度的最高值对应的检索结果和用户查询问题数据相关联,并更新到问答对知识库中,并设置相似度的最高值对应的检索结果和用户查询问题数据对应的未审核标记。
9.一种医学智能问答数据处理的装置,其特征在于,包括:
问题关键词提取单元,用于获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
同义转换单元,用于对所述问题关键词进行同义转换,确定问题关键词的同义词组;
匹配查找单元,用于根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
结果输出单元,用于在匹配查找成功时,输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
语义扩展处理单元,用于在匹配查找失败时,对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;
所述匹配查找单元,还用于根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
相似度计算单元,用于根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
排序输出单元,用于根据各检索结果的相似度对各检索结果进行排序并输出;
所述问题关键词提取单元,具体用于:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词;
其中,所述切分词表包括医学本体词表和通用词表。
10.根据权利要求9所述的医学智能问答数据处理的装置,其特征在于,
所述医学本体词表包括本体术语名称、本体标准词、本体术语同义词、本体术语上位词以及本体术语类型;所述通用词表包括通用术语名称、通用术语同义词、通用术语上位词以及通用术语类型;所述核心关键词是从所述医学本体词表中检索得到的;所述功能关键词是从所述通用词表中检索得到的。
11.根据权利要求10所述的医学智能问答数据处理的装置,其特征在于,所述同义转换单元,包括:
第一检索模块,用于在医学本体词表中检索与所述核心关键词相对的本体术语名称对应的本体标准词和本体术语同义词;
核心关键词的同义词组确定模块,用于根据所述核心关键词及其对应的本体标准词和本体术语同义词确定所述核心关键词的同义词组;
第二检索模块,用于在通用词表中检索与所述功能关键词相对的通用术语名称对应的通用术语同义词;
功能关键词的同义词组确定模块,用于根据所述功能关键词及其对应的通用术语同义词确定所述功能关键词的同义词组。
12.根据权利要求11所述的医学智能问答数据处理的装置,其特征在于,所述问答对知识库包括预先设置的问题项目以及各问题项目对应的答案项目;所述规则知识库包括预先设置的实体项目、属性项目以及值项目;
所述装置还包括:
索引建立单元,用于预先建立所述问答对知识库的索引和所述规则知识库的索引。
13.根据权利要求12所述的医学智能问答数据处理的装置,其特征在于,所述匹配查找单元,具体用于:
根据所述用户查询问题数据中提取的问题关键词的核心关键词和功能关键词的组成形式,将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引和所述规则知识库的索引进行匹配查找。
14.根据权利要求13所述的医学智能问答数据处理的装置,其特征在于,所述匹配查找单元,包括:
问答对知识库匹配查找模块,用于将用户查询问题数据对应的核心关键词的同义词组和功能关键词的同义词组根据所述问答对知识库的索引,匹配查找对应的问题项目和答案项目;
规则知识库匹配查找模块,用于将用户查询问题数据对应的核心关键词的同义词组根据所述规则知识库的索引,与所述实体项目进行匹配,将用户查询问题数据对应的功能关键词的同义词组根据所述规则知识库的索引,与所述属性项目进行匹配,以确定用户查询问题数据对应的值项目。
15.根据权利要求14所述的医学智能问答数据处理的装置,其特征在于,所述相似度计算单元,具体用于:
根据预先设置的用户查询问题数据对应的检索词权重、查询子语句权重、待查询文档权重以及域权重,采用Lucence技术,确定各检索结果的相似度;
所述排序输出单元,具体用于:
将各检索结果的相似度以从高到低顺序排列并输出。
16.根据权利要求15所述的医学智能问答数据处理的装置,其特征在于,还包括:
更新单元,用于将相似度的最高值对应的检索结果和用户查询问题数据相关联,并更新到问答对知识库中,并设置相似度的最高值对应的检索结果和用户查询问题数据对应的未审核标记。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
对所述问题关键词进行同义转换,确定问题关键词的同义词组;
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
根据各检索结果的相似度对各检索结果进行排序并输出;
所述获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词,包括:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词;
其中,所述切分词表包括医学本体词表和通用词表。
18.一种计算机设备,包括存储器、处理器及存储在存储上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词;
对所述问题关键词进行同义转换,确定问题关键词的同义词组;
根据所述问题关键词的同义词组在预先设置的问答对知识库和规则知识库中进行匹配查找;
若匹配查找成功,则输出问题关键词的同义词组中问题关键词及其同义词对应的答案结果数据;
若匹配查找失败,则对所述问题关键词进行语义扩展处理,得到所述问题关键词及其同义词的下位词的同义词组;根据所述问题关键词及其同义词的下位词的同义词组继续在预先设置的问答对知识库和规则知识库中进行匹配查找,生成包含检索结果的检索结果列表;
根据所述用户查询问题数据,对所述检索结果列表中的检索结果进行相似度计算,确定各检索结果的相似度;
根据各检索结果的相似度对各检索结果进行排序并输出;
所述获得用户查询问题数据,并在所述用户查询问题数据中提取问题关键词,包括:
获得用户查询问题数据,并根据预先设置的切分词表,采用逆向最大匹配原则对用户查询问题数据进行切分,确定用户查询问题数据中的核心关键词和功能关键词;
其中,所述切分词表包括医学本体词表和通用词表。
CN201711095265.4A 2017-11-09 2017-11-09 一种医学智能问答数据处理的方法及装置 Active CN107993724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711095265.4A CN107993724B (zh) 2017-11-09 2017-11-09 一种医学智能问答数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711095265.4A CN107993724B (zh) 2017-11-09 2017-11-09 一种医学智能问答数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN107993724A CN107993724A (zh) 2018-05-04
CN107993724B true CN107993724B (zh) 2020-11-13

Family

ID=62031386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711095265.4A Active CN107993724B (zh) 2017-11-09 2017-11-09 一种医学智能问答数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN107993724B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595696A (zh) * 2018-05-09 2018-09-28 长沙学院 一种基于云平台的人机交互智能问答方法和系统
CN108717433A (zh) * 2018-05-14 2018-10-30 南京邮电大学 一种面向程序设计领域问答系统的知识库构建方法及装置
CN108959366B (zh) * 2018-05-21 2020-11-17 宁波薄言信息技术有限公司 一种开放性问答的方法
CN109033142B (zh) * 2018-06-11 2021-02-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及服务器
CN108986910B (zh) * 2018-07-04 2023-09-05 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质
CN110750543A (zh) * 2018-07-05 2020-02-04 优视科技(中国)有限公司 人机交互方法、装置、系统、存储介质、电子设备
CN113407694B (zh) * 2018-07-19 2023-06-02 深圳追一科技有限公司 客服机器人知识库歧义检测方法、装置及相关设备
CN109189907A (zh) * 2018-08-22 2019-01-11 山东浪潮通软信息科技有限公司 一种基于语义匹配的检索方法及装置
CN109145102B (zh) * 2018-09-06 2021-02-09 杭州安恒信息技术股份有限公司 智能问答方法及其知识图谱系统构建方法、装置、设备
CN109272129B (zh) * 2018-09-20 2022-03-18 重庆先特服务外包产业有限公司 呼叫中心业务管理系统
CN109241103A (zh) * 2018-09-26 2019-01-18 深圳壹账通智能科技有限公司 数据扩展查询方法、电子装置及计算机可读存储介质
CN109659013B (zh) * 2018-11-28 2023-07-07 平安科技(深圳)有限公司 病症分诊及路径优化方法、装置、设备及存储介质
CN111400458A (zh) * 2018-12-27 2020-07-10 上海智臻智能网络科技股份有限公司 一种自动泛化方法及其装置
CN109783693B (zh) * 2019-01-18 2021-05-18 广东小天才科技有限公司 一种视频语义和知识点的确定方法及系统
CN109840275B (zh) * 2019-01-31 2021-08-17 北京嘉和海森健康科技有限公司 一种医疗搜索语句的处理方法、装置和设备
CN109902087B (zh) * 2019-02-02 2023-05-30 上海来也伯特网络科技有限公司 用于问答的数据处理方法及装置、服务器
CN109840277A (zh) * 2019-02-20 2019-06-04 西南科技大学 一种政务服务智能问答方法及系统
CN111611356B (zh) * 2019-02-25 2023-06-16 北京嘀嘀无限科技发展有限公司 信息查找方法、装置、电子设备及可读存储介质
CN109918436B (zh) * 2019-03-08 2022-12-20 麦博(上海)健康科技有限公司 一种医学知识管理和查询系统
CN110232113B (zh) * 2019-04-12 2021-03-26 中国科学院计算技术研究所 一种提高知识库问答准确度的方法及系统
CN110164514A (zh) * 2019-04-22 2019-08-23 北京百度网讯科技有限公司 医学要素的处理方法、装置、设备及计算机可读存储介质
CN110263137B (zh) * 2019-05-31 2023-06-06 创新先进技术有限公司 主题关键词的提取方法和装置、电子设备
CN110245216A (zh) * 2019-06-13 2019-09-17 出门问问信息科技有限公司 用于问答系统的语义匹配方法、装置、设备及存储介质
CN110442869B (zh) * 2019-08-01 2021-02-23 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN110674266A (zh) * 2019-08-15 2020-01-10 阿里巴巴集团控股有限公司 健康保障项目中的答案处理方法以及装置
CN110502625A (zh) * 2019-08-27 2019-11-26 北京百度网讯科技有限公司 医疗问题解答方法、装置、设备及计算机可读存储介质
CN110674316B (zh) * 2019-09-27 2022-05-31 腾讯科技(深圳)有限公司 一种数据转换的方法及相关装置
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
CN112579642A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 数据处理方法、装置、存储介质及电子设备
CN111242893B (zh) * 2019-12-30 2023-12-15 北京深睿博联科技有限责任公司 神经系统影像分析方法和装置
CN113111155B (zh) * 2020-01-10 2024-04-19 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN111460095B (zh) * 2020-03-17 2023-06-27 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN111488500B (zh) * 2020-03-19 2023-12-12 华南师范大学 一种医学问题信息处理方法、装置和存储介质
CN111444724B (zh) * 2020-03-23 2022-11-15 腾讯科技(深圳)有限公司 医疗问答对质检方法、装置、计算机设备和存储介质
CN111652299A (zh) * 2020-05-26 2020-09-11 泰康保险集团股份有限公司 一种业务数据自动匹配的方法及设备
CN111782785B (zh) * 2020-06-30 2024-04-19 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN112000785A (zh) * 2020-08-12 2020-11-27 沈鑫 构建排行榜并进行动态索引的方法及装置
CN111939056A (zh) * 2020-08-24 2020-11-17 王正勤 一种基于人体经络三维模型的穴位显示方法及系统
CN112149403A (zh) * 2020-10-16 2020-12-29 军工保密资格审查认证中心 一种确定涉密文本的方法和装置
CN112349430A (zh) * 2020-10-21 2021-02-09 零氪科技(北京)有限公司 药物检索方法及装置
CN112559684A (zh) * 2020-12-10 2021-03-26 中科院计算技术研究所大数据研究院 一种关键词提取及信息检索方法
CN112685545A (zh) * 2020-12-29 2021-04-20 浙江力石科技股份有限公司 一种基于多核心词匹配的智能语音交互方法及系统
CN112768080A (zh) * 2021-01-25 2021-05-07 武汉大学 基于医疗大数据的医学关键词库建立方法及系统
CN112905778B (zh) * 2021-03-22 2022-05-20 湖南智芯智能科技有限公司 一种用于药店服务人员的问询辅助方法及系统
CN113515595A (zh) * 2021-05-13 2021-10-19 厦门雅基软件有限公司 一种问答匹配方法、装置、电子设备和存储介质
CN113742469B (zh) * 2021-09-03 2023-12-15 科讯嘉联信息技术有限公司 基于Pipeline处理和ES储存问答系统构建方法
CN113836284A (zh) * 2021-09-26 2021-12-24 北京京东拓先科技有限公司 知识库构建、生成应答语句的方法和装置
CN114780672A (zh) * 2022-03-23 2022-07-22 清华大学 一种基于网络资源的医学问题问答处理方法及装置
CN114818693A (zh) * 2022-03-28 2022-07-29 平安科技(深圳)有限公司 一种语料匹配的方法、装置、计算机设备及存储介质
CN116226355A (zh) * 2023-05-04 2023-06-06 北京智齿众服技术咨询有限公司 一种智能客服方法、系统、电子设备及可读存储介质
CN116542817B (zh) * 2023-07-06 2023-10-13 北京烽火万家科技有限公司 一种智能数字人律师咨询方法及系统
CN117076651A (zh) * 2023-10-16 2023-11-17 彩讯科技股份有限公司 交互信息的处理方法、装置、设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和系统
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN104820681A (zh) * 2015-04-17 2015-08-05 清华大学 一种用于线上问答服务的应答方法及系统
CN106897559A (zh) * 2017-02-24 2017-06-27 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984772B2 (en) * 2016-04-07 2018-05-29 Siemens Healthcare Gmbh Image analytics question answering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和系统
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN104820681A (zh) * 2015-04-17 2015-08-05 清华大学 一种用于线上问答服务的应答方法及系统
CN106897559A (zh) * 2017-02-24 2017-06-27 黑龙江特士信息技术有限公司 一种面向多数据源的症状体征类实体识别方法及装置

Also Published As

Publication number Publication date
CN107993724A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
Yin et al. Answering questions with complex semantic constraints on open knowledge bases
Cafarella et al. Webtables: exploring the power of tables on the web
CN109960756B (zh) 新闻事件信息归纳方法
CN110413734B (zh) 一种医疗服务的智能搜索系统及方法
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
US20110078205A1 (en) Method and system for finding appropriate semantic web ontology terms from words
CN102663129A (zh) 医疗领域深度问答方法及医学检索系统
JP2013077333A (ja) 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
CN112307171B (zh) 一种基于电力知识库的制度标准检索方法及系统和可读存储介质
CN109829042B (zh) 一种基于生物医学文献的知识问答系统及方法
Kotov et al. Towards natural question guided search
Chirigati et al. Knowledge exploration using tables on the web
CN108520038B (zh) 一种基于排序学习算法的生物医学文献检索方法
CN112612875A (zh) 一种查询词自动扩展方法、装置、设备及存储介质
US11487795B2 (en) Template-based automatic software bug question and answer method
Juan An effective similarity measurement for FAQ question answering system
TWI446191B (zh) Word matching and information query method and device
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
CN115186112A (zh) 一种基于辨证映射规则的医药数据检索方法及装置
Çelebi et al. Automatic question answering for Turkish with pattern parsing
Wang et al. Scalable semantic querying of text
Ofoghi et al. A semantic approach to boost passage retrieval effectiveness for question answering
Lin et al. Biological question answering with syntactic and semantic feature matching and an improved mean reciprocal ranking measurement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant