CN113282689B - 基于领域知识图谱的检索方法、装置 - Google Patents
基于领域知识图谱的检索方法、装置 Download PDFInfo
- Publication number
- CN113282689B CN113282689B CN202110829095.8A CN202110829095A CN113282689B CN 113282689 B CN113282689 B CN 113282689B CN 202110829095 A CN202110829095 A CN 202110829095A CN 113282689 B CN113282689 B CN 113282689B
- Authority
- CN
- China
- Prior art keywords
- entity
- graph
- retrieval
- user
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种基于领域知识图谱的检索方法、装置和搜索引擎,本申请在获取用户输入并收集用户第一搜索意图后,通过基于领域知识图谱构建关系图,并根据用户与关系图的交互操作确认与识别用户的第二搜索意图,实现了对用户意图更精准的收集与理解,便于搜索引擎更精准地搜索所需数据,且由于构建并展示的关系图,不仅涵盖用户原始输入所表征的意图,还包括自动扩展的与用户原始输入表征的意图具备关联的信息,为用户确认其搜索意图提供了可直观查阅及操作的知识探索及延展空间,降低了对用户专业知识的要求,可在低专业性要求前提下,高准确率、高效率/低耗时地解决具有知识复杂性、专业性和一定广度/深度的数据关联关系场景下的信息检索问题。
Description
技术领域
本申请属于信息检索技术领域,尤其涉及一种基于领域知识图谱的检索方法、装置。
背景技术
信息检索是一种查找信息的方法/手段,是用户获取信息的重要方式,传统技术通过关键词检索(如,基于全文检索相关技术实现的关键词检索)实现从信息集合中查找所需信息。即,用户向搜索引擎输入关键词,搜索引擎通过对信息条目的全文关键词匹配从信息集合中确定出相关信息条目,并反馈给用户。
申请人发现,传统技术的检索方案至少存在以下技术缺陷:
1)仅基于用户输入的关键词信息来构建搜索条件,信息单一,搜索引擎很难准确识别用户的搜索意图,这导致用户常常需要根据搜索引擎返回的结果,不断进行检索关键词的修正、尝试,才能得到满意的检索结果,甚至多次尝试仍得不到所需结果,信息检索的效率低、耗时长;
2)针对特定产业领域(如,生物医药、光电/光导、空间技术等)通常具备的知识专业度高、复杂性高、数据涉及面广等特点,传统搜索引擎要求使用者具备一定领域专业知识才能较好的展开检索任务,使用者的专业程度、知识局限性成为影响传统搜索技术搜索准确率的一个重要因素,在使用者知识结构不完备,无法找到合适关键词进行数据检索的情况下,很难给出符合用户意图的高准确度检索结果,从而导致检索结果准确率低。
发明内容
有鉴于此,本申请公开一种基于领域知识图谱的检索方法、装置和搜索引擎,用于通过利用领域知识图谱以图文交互方式进行用户意图确认,辅助解决在具有知识复杂性、专业性和一定广度/深度的数据关联关系场景下的信息检索问题,来克服传统技术存在的至少部分技术缺陷。
具体技术方案如下:
一种基于领域知识图谱的检索方法,包括:
获取用户输入的检索信息,确定所述检索信息表征的用户的第一搜索意图;所述检索信息至少包括一个实体词;
基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图并展示;其中,所述关系图包括多个实体节点及不同实体节点分别对应的实体之间的语义关系;所述关系图表征的信息包括:所述第一搜索意图表征的信息以及基于所述领域知识图谱扩展出的与所述第一搜索意图具备关联的信息;
获取用户通过对展示的关系图执行交互操作所产生的意图确认信息,并根据所述意图确认信息,识别用户的第二搜索意图;
根据所述第二搜索意图,构造检索条件;
根据所述检索条件,对数据集进行检索,得到目标检索结果并反馈。
可选的,所述获取用户输入的检索信息,确定所述检索信息表征的用户的第一搜索意图,包括:
获取用户输入的包括单一实体词的短文本或包括多个实体词的长文本;
若所述检索信息为短文本,识别所述短文本中的单一实体词,得到所述短文本的一个原实体词;将所述一个原实体词作为用户的第一搜索意图;
若所述检索信息为长文本,识别所述长文本中的多个实体词,得到所述长文本的多个原实体词;抽取不同的原实体词分别对应的实体之间的语义关系;将所述多个原实体词和抽取的语义关系作为用户的第一搜索意图。
可选的,识别文本中的实体词,包括:
基于词典实体词匹配方式,识别文本中的实体词;
或,利用基于机器学习构建的识别模型,识别文本中的实体词;
其中,对于包含在文本但词典中不存在的疑似实体词的字符串,根据所述字符串的上下文推测所述字符串是否为实体词;对于基于词典实体词匹配方式,从文本中匹配出的位置连续的多个实体词,或从文本的同一字符串位置区间匹配出的存在包含或被包含关系的多个实体词,利用贪婪算法对匹配出的多个实体词进行处理,并将处理结果对应的实体词识别为文本的实体词。
可选的,所述基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图,包括:
对所述短文本或所述长文本包含的原实体词进行实体词扩展,得到至少一个扩展实体词;
基于领域知识图谱,推测所述原实体词和所述扩展实体词中不同实体词分别对应的实体之间的语义关系;
根据所述原实体词、所述扩展实体词及不同实体之间的语义关系,生成关系图;不同实体之间的语义关系至少包括推测出的语义关系;
其中,实体词对应关系图中的实体节点,语义关系对应关系图中的边;对实体词的实体词扩展包括对实体词进行同义词扩展、标准词扩展和三元组关系实体词扩展中的至少一种,所述三元组关系实体词扩展为:扩展出与实体词具备三元组关系的实体词。
可选的,展示所述关系图,包括:
根据配置的图节点层级信息,展示所述关系图包括的各个实体节点的节点信息以及不同实体节点间的边信息;
其中,所述节点信息包括:节点所对应实体的实体名称、实体类别及节点的入度数量中的至少部分信息;所述边信息包括:边对应的实体间的相关度、有向语义关系及数据源类型中的至少部分信息;
所述数据源类型为:推理产生边所对应的有向语义关系时所基于的数据源的类型;所述数据源为第一知识图谱或第二知识图谱,所述第二知识图谱的置信度低于所述第一知识图谱的置信度。
可选的,所述获取用户通过对展示的关系图执行交互操作所产生的意图确认信息,包括:
检测用户对关系图中至少一个节点和/或至少一个边的选择操作;
以被选中实体和/或被选中的边对应的实体为中心,基于领域知识图谱生成并展示新的关系图;
迭代以上的检测用户操作以及根据用户操作生成并展示新的关系图的过程,直至检测到用户执行表征完成意图确认的操作时,将当前展示的目标关系图表征的图信息作为所述意图确认信息;
其中,在基于对用户操作的检测获得所述意图确认信息的过程中,若检测到用户执行用于收缩或扩展指定节点关联的节点层的操作,收缩或扩展所述指定节点关联的节点层。
可选的,所述根据所述意图确认信息,识别用户的第二搜索意图,包括:
识别所述目标关系图表征的节点信息和边信息;
确定不同实体节点在所述目标关系图中对应的连接路径;
根据不同实体节点在所述目标关系图中对应的连接路径,确定所述不同实体节点分别对应的实体之间的相关度;将所述节点信息、所述边信息和确定的不同实体之间的相关度作为用户的第二搜索意图。
可选的,根据所述第二搜索意图,构造检索条件,根据所述检索条件,对数据集进行检索,得到目标检索结果,包括:
将识别出的用户的第二搜索意图转化为关键词序列,根据所述关键词序列构建第一检索条件;基于所述第一检索条件,利用全文检索方式对待检索的数据集进行检索,得到第一检索结果;
和/或,
根据所述第二搜索意图对应的所述目标关系图,构造第二检索条件;基于所述第二检索条件,将所述目标关系图在所述第二知识图谱中进行子图匹配,得到满足匹配条件的各目标数据的数据标识;根据满足所述匹配条件的各目标数据的数据标识,得到第二检索结果;
所述目标检索结果为:所述第一检索结果,或所述第二检索结果,或对所述第一检索结果和所述第二检索结果进行整合处理后所得的结果;
其中,所述第二知识图谱包括:多条满足置信度条件的数据中每条数据对应的标识、包括的实体及三元组间的对应关系;所述置信度条件使所述第二知识图谱的置信度低于所述第一知识图谱的置信度。
可选的,所述对所述第一检索结果和第二检索结果进行整合处理,包括:
获取所述第一检索结果和所述第二检索结果分别对应的目标数据的并集,得到目标数据集;
按预定评分策略对所述目标数据集中的各条目标数据进行评分;
根据各条目标数据分别对应的评分结果,对各条目标数据进行排序,以在反馈所述目标检索结果时,按序输出所述目标数据集中的至少部分目标数据;
其中,所述排序的排序依据至少包括不同实体之间的相关度。
一种基于领域知识图谱的检索装置,包括:
意图收集模块,用于获取用户输入的检索信息,确定所述检索信息表征的用户的第一搜索意图;所述检索信息至少包括一个实体词;
关系图构建与展示模块,用于基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图并展示;其中,所述关系图包括多个实体节点及不同实体节点分别对应的实体之间的语义关系;所述关系图表征的信息包括:所述第一搜索意图表征的信息以及基于所述领域知识图谱扩展出的与所述第一搜索意图具备关联的信息;
意图确认模块,用于获取用户通过对展示的关系图执行交互操作所产生的意图确认信息,并根据所述意图确认信息,识别用户的第二搜索意图;
检索条件构造模块,用于根据所述第二搜索意图,构造检索条件;
检索与反馈模块,用于根据所述检索条件,对数据集进行检索,得到目标检索结果并反馈。
一种搜索引擎,其特征在于,包括如上所述的基于领域知识图谱的检索装置。
根据以上方案可知,本申请公开的基于领域知识图谱的检索方法、装置和搜索引擎,在获取用户输入并收集用户第一搜索意图之后,通过基于领域知识图谱构建关系图,并根据用户与关系图的交互操作确认与识别用户的第二搜索意图,实现了对用户意图更精准的收集与理解,便于搜索引擎更精准地搜索所需数据,且由于构建并展示的关系图,不仅涵盖用户原始输入所表征的意图,还包括自动扩展的与用户原始输入表征的意图具备关联的信息,为用户确认其搜索意图提供了可直观查阅及操作的知识探索及延展空间,降低了对用户专业知识的要求,从而本申请克服了传统技术存在的缺陷,可在低专业性要求前提下,高准确率、高效率/低耗时地解决具有知识复杂性、专业性和一定广度/深度的数据关联关系场景下的信息检索问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请公开的检索方案的整体处理逻辑框架图;
图2是本申请公开的基于领域知识图谱的检索方法的流程示意图;
图3是本申请公开的基于领域知识图谱构建关系图的实现过程图;
图4(a)与图4(b)是本申请公开的两个关系图示例;
图5是本申请公开的识别用户的第二搜索意图的过程图;
图6是本申请公开的对基于全文和基于知识图谱进行检索的检索结果进行整合处理的流程图;
图7是本申请公开的基于领域知识图谱的检索装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
基于生物医药等产业领域具备的知识专业度高、复杂性高、数据涉及面广等特点,传统搜索引擎要求使用者具有一定领域专业知识,使用者的知识局限性以及搜索引擎的搜索效率与搜索结果准确率决定了传统检索技术(基于全文检索相关技术实现的关键词检索)的使用上限。针对具有知识复杂性、专业性和一定广度/深度的数据关联关系场景下的信息检索问题,为了克服传统检索技术存在的各种技术缺陷,提出了本申请的基于领域知识图谱的检索方法、装置和搜索引擎。
下文将主要以生物医药领域的检索为例进行说明,该应用场景中,领域知识图谱相应指基于一定的知识结构,对生物医药领域相关知识进行组织所得的知识图谱。
参见图1,提供了本申请的方法、装置和搜索引擎在进行检索处理时的整体处理逻辑框架图,其对应的处理逻辑框架包括三个阶段:
Step1:用户意图收集与处理;
Step2:用户意图确认、探索建议提供,及基于知识图谱及关系图表达的检索条件构造;
Step3:根据检索条件进行数据召回与排序。
下文将在图1提供的整体处理逻辑框架基础上,结合具体实施例,对本申请的方法、装置和搜索引擎进行详述。
在一实施例中,参见图2,为本申请实施例提供的基于领域知识图谱的检索方法的一种流程示意图,该方法可应用于具备信息检索功能的系统中,本申请将其称为检索系统,如图2所示,本申请方法的处理流程包括:
步骤201、获取用户输入的检索信息,确定用户输入的检索信息表征的用户的第一搜索意图。
用户输入的检索信息至少包括一个实体词。其中,用户输入的检索信息,具体可以是仅包括单一实体词的短文本,或者,还可以是包括多个实体词的长文本。
以生物医药领域为例,实体词包括但不限于药物、适应症、身体组织、靶点、医疗器械、组织机构等各种类别的实体对应的实体词。用户输入的短文本,可以仅仅是一个关键词,且该关键词的词性为实体词,或者还可以是仅包括一个词性为实体词的单行文本。用户输入的长文本通常是多行文本构成的长文本,输入信息为长文本的常见场景,如,用户输入一段生物医药领域文献的摘要,欲根据该摘要了解该文献所属领域在整个领域的相关上下文及关联关系信息。
本步骤201与图1中的Step-1对应,目的在于根据用户输入的检索信息,收集用户的第一搜索意图。第一搜索意图,本质上可理解为用户的原始输入所反映的检索意图,该检索意图常常因受限于用户的专业知识结构,而不能精准表达用户所需。
其中:
1)针对短文本场景的第一搜索意图收集:
通过对短文本进行关键词提取及语义理解,来识别短文本中的单一实体词,本申请实施例将文本中包含的实体词称为文本的原实体词。
并将从短文本中识别出的一个原实体词作为用户的第一搜索意图。
2)针对长文本场景的第一搜索意图收集:
通过对长文本进行关键词提取及语义理解,来识别长文本中的多个实体词,得到长文本的多个原实体词;
抽取不同的原实体词分别对应的实体之间的语义关系;
将从长文本中识别出的多个原实体词和抽取的语义关系作为用户的第一搜索意图。
对于上述的短文本或长文本场景,可以但不限于采用以下任一种方式实现从文本中识别实体词:
——基于词典的实体词识别
即,基于词典实体词匹配方式,识别文本中的实体词。
该方式中,具体可使用知识库中的实体词典,以实体词典中的实体词如药物、适应症、靶点等为匹配依据,采用AC自动机(Aho-Corasick automation)算法,快速匹配出文本中出现的实体词。
其中,上述知识库可以采用图数据库方式,或文本文件方式存储。
在基于词典的实体词识别过程中,对于包含在文本但词典中不存在的疑似实体词的字符串,例如,经语义理解,已初步排除其他词性的可能性,但未记载在实体词典中的字符串,如词典中未记载的某药物的某种写法,或行业内新出现的某药学实体等,具体可根据该字符串的上下文(例如,针对长文本场景,其通常有丰富的上下文信息)推测该字符串属于实体词还是其他类别(如乱码)。
另外,在基于词典的实体词识别过程中,对于从文本中匹配出的位置连续的多个实体词,或从文本的同一字符串位置区间匹配出的存在包含或被包含关系的多个实体词,利用贪婪算法对匹配出的多个实体词进行处理,并将处理结果对应的实体词识别为文本的实体词。
为便于理解,现举例说明:
比如,假设用户输入的文本为“小儿支气管肺炎的病例”,那么在基于词典匹配出“小儿”、“支气管”、“肺炎”,或匹配出“小儿”、“支气管肺炎”这些位置连续的实体词后,可利用贪婪算法并结合语义理解,合并各个位置连续的实体词,将合并后得到的语义完整性最高的实体词“小儿支气管肺炎”,识别为文本在该位置连续的字符串对应的实体词。
再比如,针对用户输入的文本“非小细胞肺癌……”,假设从“非小细胞肺癌”对应的字符串位置区间基于词典匹配出“细胞”、“肺癌”、“小细胞肺癌”、“非小细胞肺癌”这些存在包含或被包含关系的多个实体词,同样可基于贪婪算法并结合语义理解,将语义完整性最高的“非小细胞肺癌”识别为该部分字符串对应的实体词。
——基于机器学习的实体词识别
即,利用基于机器学习构建的识别模型,识别文本中的实体词。
具体可以但不限于采用CRF、BiLSTM+CRF、BERT+CRF等中的任一模型算法,并基于大数据构建用于文本中实体词识别的智能识别模型。
其中,CRF是conditional random field的简称,表示条件随机场;BiLSTM是Bi-directional Long-Short Term Memory的简称,表示双向长短期记忆;BERT 是Bidirectional Encoder Representations from Transformers的简称,表示基于转换器的双向编码表征。
在一实施方式中,可选的,在识别文本中包括的实体词之前,还可以对文本进行预处理,以实现用户输入内容的规范化。
对文本的预处理包括但不限于以下处理中的至少一种:
a、文本大小写转换,特殊字符全角转半角,繁体转简体;
b、特殊数字转换或丢弃;
例如,中文大写数字转换,罗马数字转换。
c、标点符号转换或丢弃;
应注意,有的场景需保留标点,如:药物研发代码。因此,在标点符号处理中可进行场景检测,并根据检测的场景信息,判定是否需丢弃标点符号。
d、删除文本中的停用词及其他非领域词汇;
e、纠错处理;
包括但不限于:针对中文文本,基于上下文从拼音角度的同音词(模糊音、易错拼音),采用编辑距离修正用户输入的错字;针对英文文本,进行单词拼写检查纠错。
f、长度限制截取。
文本过长会影响搜索速度与搜索结果的精准性,对此,本申请实施例中,优选的,设定检索信息的长度上限值,若用户输入的文本长度超过该数值,自动对文本进行截取。可选的,可随机截取不超过设定的长度上限值的一段文本,或优先截取关键词数量多且重复度低的一段文本作为检索信息。
且可选的,上述长度上限值的设定功能可开放给使用者,以供使用者根据需求灵活配置。
对于实体间关系抽取,具体可采用以下任意一种方式实现:
——基于规则模板的关系抽取
本实施例归纳的规则模板如下:
该模板适配于对生物医药领域各种文本的实体间关系抽取,如:
二甲双胍对应的适应症。
——基于机器学习的关系抽取
具体可以但不限于利用基于Text-CNN、远程监督等方式构建的模型进行实体间关系抽取。
步骤202、基于领域知识图谱,构建与第一搜索意图相匹配的关系图并展示。
其中,构建的关系图包括多个实体节点及不同实体节点分别对应的实体之间的语义关系。
该步骤202以及接下来的步骤203-204对应图1中的Step2,该步骤202的目的在于,通过绘制图表即绘制上述的关系图,来表达系统对用户搜索意图的理解,并向用户提供意图探索建议,供用户通过与关系图的交互操作,进行意图的确认与完善。由此,该关系图表征的信息包括两部分:第一搜索意图表征的信息,以及基于领域知识图谱扩展出的与第一搜索意图具备关联的信息。
图3提供了一可选的基于领域知识图谱构建关系图的实现过程,具体包括:
步骤301、对用户输入的作为检索信息的短文本或长文本包含的原实体词进行实体词扩展,得到至少一个扩展实体词。
为扩展出与用户原始输入具备关联的探索建议,在确定出用户的原始输入表征的用户第一搜索意图后,进一步对该意图中包含的短文本/长文本原实体词进行实体词扩展,其中,实体词扩展包括对实体词进行同义词扩展、标准词扩展和三元组关系实体词扩展中的至少一种。
这里的三元组关系实体词扩展是指:扩展出与实体词具备三元组关系的实体词,其中,三元组具体是指SPO(Subject-Predicate-Object)三元组:实体-关系-实体。
例如,将用户输入的药物商品名转换为药物标准名,公司简称改为公司标准名称;为用户输入的病症名称扩展出同义词;为用户输入的药物名扩展出其对应可治疗的病症、研发该药物的公司名称等等。
步骤302、基于领域知识图谱,推测文本的原实体词和扩展实体词中不同实体词分别对应的实体之间的语义关系。
以生物医药领域知识图谱为例,该知识图谱的实体分类包括药物、适应症、身体组织、靶点、医疗器械、组织机构。
本实施例中,该知识图谱的数据来源主要分为两大类,第一类为行业权威的数据库或受控医学词表及其关系、语义网络,例如:MeSH、SNOWMED、ICD、UMLS等等,这里将基于该来源的知识图谱称为KG1,即第一知识图谱;第二类为医学文献及新闻源,如专利、期刊文献(例如,PubMed)、监管机构公告(例如,FDA、EMA、PMDA)、制药企业官方新闻等医药领域信息,这里将基于该来源的知识图谱称为KG2,即第二知识图谱,基于各自的来源特点, KG2的数据置信程度较KG1要低。
在系统进行与用户原始输入具备关联的探索建议扩展中,不只局限于对实体词的扩展,还在实体间进行语义关系拓展,这有助于用户发现一些潜在的、有价值的且未被发现过的信息。
其中,具体可将上述的知识图谱(如,KG1、KG2)作为数据依据,推测原实体词和扩展实体词中不同实体词分别对应的实体之间的语义关系。
步骤303、根据原实体词、扩展实体词及不同实体之间的语义关系,生成关系图。
不同实体之间的语义关系至少包括推测出的语义关系。例如,对于仅包含单一实体词的短文本,构建关系图时基于的语义关系均为推测出的关系;对于包含多个实体词的长文本,构建关系图时基于的语义关系既包括从长本文中抽取的关系,又包括基于领域知识图谱为其推测出的关系。
在得到文本对应的抽取信息及扩展信息后,进一步结合这些信息绘制图表,以实现关系图的生成。
对于关系图的绘制,系统支持用户配置图节点的层级信息,可选的,本实施例采用N度(跳)关系来间接表示图节点的层级,系统相应可支持用户进行度(跳)关系的设置,在用户不设置该信息的情况下,采用默认配置,如默认采用2度或3度(含)关系等。相应的,系统在得到文本对应的抽取信息及扩展信息后,具体可根据配置的N度关系,绘制并展示关系图包括的各个实体节点的节点信息以及边信息。
实施中,可以但不限于采用网络关系图的形式作为关系图的可视化展示。参见图4(a)和图4(b),为本申请实施例提供的两个关系图示例,以图4(a)为例,“某药物”为从用户原始输入中抽取的实体词,其它实体词及语义关系为系统基于实体词扩展及语义关系推测产生的意图探索建议,在初始生成并展示关系图时,可将“某药物”的节点高亮,其他实体节点非高亮,后续在用户选择其他节点或选择某条边时,将选择的节点或选择的边对应的节点高亮,以表示被选中。
进一步,实施中,可根据需求在图的节点及边上携带更多的信息,来更好的为用户意图确认提供辅助。
由此,关系图中节点的节点信息,可包括但不限于以下信息中的至少部分:节点所对应实体的实体名称、实体类别及节点的入度数量;关系图中边的边信息包括但不限于以下信息中的至少部分:边对应的实体间的有向语义关系,边对应的实体间的相关度及数据源类型。
以下提供基于节点或边携带上述各类信息的一种可选实现方式:
关系图中实体节点的不同颜色代表不同类别的实体;
两个节点间的连接线粗细代表置信度评分;
连接线的方向及线上的文字为实体间的有向语义关系描述;
实体节点的大小代表其入度数量,入度越大节点越大;
实线连接线的边表示基于KG1产生的语义关系推理;
虚线连接线的边表示基于KG2产生的语义关系推理。
步骤203、获取用户通过对展示的关系图执行交互操作所产生的意图确认信息,并根据所述意图确认信息,识别用户的第二搜索意图。
系统支持用户与关系图之间的交互操作,操作类型包括但不限于:
用户可在关系图中进行节点和/或边的交互选择;如,选择一个或多个扩展出的实体词,或选择一个或多个边;
用户可在关系图中扩展/收缩实体节点关联的节点层;
用户可选择(如,高亮出)要进行搜索的实体范围。
系统在完成用户搜索意图(即,第一搜索意图)的收集及实体词扩展/语义推测后,以关系图的形式来表达系统对用户意图的理解,并同时基于展示的关系图向用户提供可操作的知识探索建议,供用户进行搜索意图确认与完善。通过在关系图中扩展出用户可能感兴趣的实体标签、语义关系标签,供用户在关系图中进行交互操作,使智能检索结果更加精确。
在系统生成并展示关系图后,用户可执行对关系图中不同节点或边的选择操作,在选定单个或多个实体,或选定单个或多个边(关系图中边与节点对应,选中某一个边,相当于选中边对应的两个实体节点)后,系统以被选中实体(或选中的边对应的实体)为中心,生成新的关系图作为用户意图确认主线,用户可在新的关系图上再次重复进行迭代操作,以满足知识延展、意图确认与完善需求。
直至检测到用户执行表征完成意图确认的操作(如,用户点击界面上的意图确认/更新按钮)时,系统将当前展示的目标关系图表征的图信息作为用户的意图确认信息。
其中,在用户与关系图进行交互以实现意图确认的过程中,可根据需求扩展/收缩某一个或多个实体节点关联的节点层,或基于预定的主线圈定方式,从关系图中选择(如,高亮出)要进行搜索的实体范围,基于多种操作为最终的意图确认提供辅助。
在获得用户通过对展示的关系图执行交互操作所产生的意图确认信息后,系统进一步根据获得的意图确认信息,识别用户的第二搜索意图,该第二搜索意图相比于用户原始输入表征的第一搜索意图,更能精准地表达用户的检索需求。
具体的,识别用户的第二搜索意图的过程可实现为如图5所示的流程:
步骤501、识别上述目标关系图表征的节点信息和边信息。
图中的实体节点对应的各种节点信息,以及图中的边对应的边信息具体可参见上文的说明,不再赘述,本步骤旨在完成对这些图信息的有效识别。
步骤502、确定不同实体节点在目标关系图中对应的连接路径。
其中,具体可根据图算法找到目标关系图中两两节点之间的连接路径。
此处的两两节点可以是通过一个边直接相连的两个节点,或通过多个边间接相连的两个节点。
步骤503、根据不同实体节点在目标关系图中对应的连接路径,确定不同实体节点分别对应的实体之间的相关度;将识别出的节点信息、边信息和确定出的不同实体之间的相关度作为用户的第二搜索意图。
实体之间的相关度,用于作为后续对检索得到的多条召回数据进行排序的排序依据。
可选的,实体间的强弱相关度以置信度评分形式体现,本实施例相应实现了一用于进行置信度评分的评分系统。
本实施例具体对不同数据源采集的数据进行了分类,相似的数据源被分组为相同数据类型。评分系统对不同数据类型分别进行评分,评分依据包括关键词命中的数量、关键词的重要性和数据类型的权重,分值的取值范围是0到1,其中,分数越接近1,代表实体之间的关联程度越高,反之则代表关联程度越低,0分代表没有证据支持实体之间存在关联。
其中,使用以下计算式(1)对相同数据类型的数据进行评分:
E=Q*I*W (1)
计算式(1)中,E代表置信度分数,Q代表数量,I代表重要性,W代表权重。其中数量即为命中数据的数量,重要性和权重均基于人工标注。
使用以下计算式(2)对来自不同数据类型的数据的单一评分进行汇总:
V=S1+S2/22+S3/32+...+Si/i2 (2)
计算式(2)中,V代表总分,S1、S2、S3...Si分别代表不同的数据类型的单独评分。
不同的数据类型可分为遗传关联、文字挖掘、临床试验阶段、组织规模等等。例如:S1代表遗传关联,参考数据来自于UniProt、PheWAS Catalog、ClinVar(EVA)等等;S2代表文字挖掘,根据文章标题、摘要及正文的不同命中数通过设定好的权重及重要性计算出相应分值;S3代表临床试验阶段,不同的临床阶段对应不同的重要性,临床前阶段、临床一期、临床二期、临床三期及临床四期的重要性依次递增。
在计算过程中,汇总分数的取值上限始终为1。
实际应用中,可根据不同数据类型的可信度或重要程度,确定每一数据类型(如遗传关联、文字挖掘等)具体是作为S1,还是S2、S3……。
在确定两个节点对应的实体之间的强弱相关度时,可基于两个节点在目标关系图中对应的连接路径,汇总其连接路径中各节点实体数据对应的相应数据类型(一种或多种)的单独评分,得到该两个节点对应的两个实体之间的置信度评分。
实施中,也可以在构建知识图谱(如KG2)时,预先根据上述计算方式计算实体节点间的置信度评分,并在生成关系图时以边(连接线)的粗细代表置信度评分,以便于在第二意图识别时降低计算工作量。
最终,将识别出的节点信息、边信息和确定出的不同实体之间的相关度(置信度评分)作为用户的第二搜索意图,该第二搜索意图相比于用户原始输入表征的第一搜索意图,进一步携带了经用户确认的相关扩展信息,从而能更精准地表达用户检索需求。
步骤204、根据所述第二搜索意图,构造检索条件。
步骤205、根据所述检索条件,对数据集进行检索,得到目标检索结果并反馈。
步骤204-205对应图1中的step3,目的在于基于识别出的第二搜索意图,进行检索,实现数据召回。
具体地,在基于用户的图交互得到能更精准地表达用户检索需求的第二搜索意图后,可进一步基于该第二搜索意图进行检索条件的构造,及基于检索条件对数据集进行检索,由于第二搜索意图能更精准地表达用户需求,从而,便于系统更精准地搜索用户所需数据,最终所得的检索结果更贴近用户需求。
其中,基于第二搜索意图进行数据检索的检索手段,将在下文实施例详细说明。
根据以上方案可知,本申请公开的基于领域知识图谱的检索方法,在获取用户输入并收集用户第一搜索意图之后,通过基于领域知识图谱构建关系图,并根据用户与关系图的交互操作确认与识别用户的第二搜索意图,实现了对用户意图更精准的收集与理解,便于搜索引擎更精准地搜索所需数据,且由于构建并展示的关系图,不仅涵盖用户原始输入所表征的意图,还包括自动扩展的与用户原始输入表征的意图具备关联的信息,为用户确认其搜索意图提供了可直观查阅及操作的知识探索及延展空间,降低了对用户专业知识的要求,从而本申请克服了传统技术存在的缺陷,可在低专业性要求前提下,高准确率、高效率/低耗时地解决具有知识复杂性、专业性和一定广度/深度的数据关联关系场景下的信息检索问题。
以下以另一实施例说明步骤204-205的实现过程。
步骤204-205中,在基于构建的检索条件进行数据检索时,可以采用以下方式中的任意一种实现:
第一种:基于全文检索的搜索方式;
第二种:基于知识图谱的搜索方式;
第三种:基于全文检索的搜索方式+基于知识图谱的搜索方式。
其中,基于全文检索的搜索方式的实现过程如下:
(一)将识别出的第二搜索意图转化为关键词序列,根据关键词序列构造第一检索条件。
该搜索过程具体可采用传统的全文检索搜索引擎实现。
相应的,需将识别出的第二用户意图转化为全文检索搜索引擎可接受的文本关键词输入形式。具体可将第二搜索意图包含的信息转化为一关键词序列,并基于该关键词序列构造全文检索搜索引擎所需格式的第一检索条件。
可选的,实施中,还可以对关键词序列中的各关键词进行类型区分及权重分配。关键词类型可以是实体词、扩展词和关系词,并分别针对不同类型的词分配不同的默认权重系数,为不同类型的词分类的不同权重,可用于作为后续对各条召回数据进行排序的一种依据。
(二)基于所述第一检索条件,利用全文检索方式对待检索的数据集进行检索,得到第一检索结果。
在构建得到第一检索条件后,利用全文检索搜索引擎对数据集进行检索,以实现所需的目标数据的召回,并按相应算法对召回的各条数据进行排序,得到第一检索结果。
在基于全文检索的搜索方式中,该第一检索结果即为最终反馈至用户的目标检索结果。
基于知识图谱的搜索方式的实现过程如下:
(一)根据第二搜索意图对应的上述目标关系图构造第二检索条件。
具体的,可构建包括上述目标关系图的第二检索条件。
区别于全文检索搜索引擎需采用的文本关键词输入形式,基于知识图谱的搜索方式的检索条件,可以采用图信息形式。
(二)基于所述第二检索条件,将所述目标关系图在所述第二知识图谱中进行子图匹配,得到满足匹配条件的各目标数据的数据标识。
第二知识图谱即上述的KG2,该知识图谱包括:多条满足置信度条件的数据中每条数据对应的标识、包括的实体及三元组间的对应关系;该置信度条件使第二知识图谱的置信度低于第一知识图谱的置信度。
此处的数据可以是指待检索的一篇篇文档。
数据对应的标识为数据的UID(Unique Identifier/Identification,全局唯一标识),例如,可以是但不限于文档编号。实际应用中,如果某条数据为来源于专利、期刊文献(例如,PubMed)、监管机构公告(例如,FDA、EMA、PMDA)、制药企业官方新闻等医药领域信息(此类数据来源具有可信、专业的特点,但置信度低于第一知识图谱的数据来源)中的数据,则视该条数据满足上述的置信度条件。
上述匹配条件可设置为一相似度阈值,将目标关系图去第二知识图谱即KG2中进行子图匹配,若与KG2中信息(如各条“数据标识-实体-三元组”对应关系中包括的实体、三元组)的匹配程度达到设定的该相似度阈值,则确定出KG2中该匹配程度达到相似度阈值的信息所对应的数据标识,作为待召回的目标数据的数据标识,即,该数据标识对应的目标数据符合条件,将被召回。
(三)根据满足匹配条件的各目标数据的数据标识,得到第二检索结果。
在基于KG2对目标关系图进行子图匹配,得到满足匹配条件的各目标数据的数据标识之后,可进一步召回各个数据标识对应的各条目标数据并排序,例如召回通过子图匹配确定出的各文档编号对应的各篇文档并排序等,相应得到第二检索结果。
在基于知识图谱的搜索方式中,该第二检索结果即为最终反馈至用户的目标检索结果。
针对上述第三种检索方式,即,基于全文检索的搜索方式+基于知识图谱的搜索方式,可通过对基于全文搜索得到的上述第一检索结果和基于知识图谱搜索得到的上述第二检索结果进行整合处理,得到最终的目标检索结果,并反馈给用户。
参见图6,该整合处理过程可实现为:
步骤601、获取第一检索结果和第二检索结果分别对应的目标数据的并集,得到目标数据集。
步骤602、按预定评分策略对目标数据集中的各条目标数据进行评分。
经过“基于全文搜索”及 “基于知识图谱搜索”的检索处理后,可以得到两种搜索方式所得的各条目标数据,及不同搜索方式为对应的目标数据提供的不同排序得分,本实施例在对两种搜索结果进行整合处理时,进一步按照一种综合的排序算法对两种搜索结果对应的目标数据进行排序。
其中,排序算法的排序依据可以是但不限于以下各条依据中的至少部分依据:
a、目标数据中不同实体之间的相关度;
实体间的相关度越高,目标数据的排序越靠前,否则,则越靠后。
b、检索条件中各关键词权重排序;
可以是但不限于根据词性、实体、词权重、 offset等序列标注得到的结果;
c、搜索结果的匹配分值排序;
具体可基于检索条件和目标数据(如,query和document)的 ctr、 cqr、 bm25,句向量余弦相似度、embedding相似度等匹配信息,衡量搜索结果的匹配分值。
d、业务逻辑分值排序;
包括但不限于:
人工排序:特定实体人工提取,其相关的新闻、文献、专利等权重更高;
质量排序:优质内容优先排序,可根据被文献引用次数、期刊影响因子等评估;
时效排序:优先展示最新的新闻、文献等数据;
个性化排序:可根据用户的关注、日常行为分析、画像等排序推荐;
数据最终的排序结果可以是根据以上任意一种或几种排序的权重分配组合,按业务场景要求设置不同的权重参数进行实施。
步骤603、根据各条目标数据分别对应的评分结果,对各条目标数据进行排序,以在反馈所述目标检索结果时,按序输出所述目标数据集中的至少部分目标数据。
本实施例通过提供一种图引擎与全文索引的搜索引擎结合的搜索技术,实现了对现有基于全文索引的搜索技术的改进,可有效提升搜索引擎的检索精度。
在基于本申请公开的方法进行检索处理时,需要以构建有第一知识图谱和第二知识图谱为前提,由此,在一实施方式中,本申请的基于领域知识图谱的检索方法,在步骤101之前,还可以包括:
构建第一知识图谱和第二知识图谱。
其中,第一知识图谱的数据来源为行业权威的数据库或受控医学词表及其关系、语义网络,例如:MeSH、SNOWMED、ICD、UMLS等等,其通常为标准的关系数据结构,可采用通用的转化工具将其生成三元组形式,以此实现第一知识图谱的构建。
第二知识图谱的数据来源为专利、期刊文献(例如,PubMed)、监管机构公告(例如,FDA、EMA、PMDA)、制药企业官方新闻等医药领域信息,此类数据来源具有可信、专业的特点,但置信度低于第一知识图谱的数据来源。
在构建第二知识图谱的基础上,可进一步基于上文提供的置信度得分计算方式,对第二知识图谱进行表示实体间强弱相关度的置信度得分计算。
构建的第一知识图谱及第二知识图谱为关系图的生成提供了依据,同时,第二知识图谱还为基于知识图谱的搜索方式提供了知识图谱数据检索依据。
对应于上述的基于领域知识图谱的检索方法,本申请实施例还提供了一种基于领域知识图谱的检索装置,该装置为虚拟装置,实际应用中,可将该装置实现为任意可行的软硬件模块或软硬件产品形式,如图7所示,该装置包括:
意图收集模块701,用于获取用户输入的检索信息,确定所述检索信息表征的用户的第一搜索意图;所述检索信息至少包括一个实体词;
关系图构建与展示模块702,用于基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图并展示;其中,所述关系图包括多个实体节点及不同实体节点分别对应的实体之间的语义关系;所述关系图表征的信息包括:所述第一搜索意图表征的信息以及基于所述领域知识图谱扩展出的与所述第一搜索意图具备关联的信息;
意图确认模块703,用于获取用户通过对展示的关系图执行交互操作所产生的意图确认信息,并根据所述意图确认信息,识别用户的第二搜索意图;
检索条件构造模块704,用于根据所述第二搜索意图,构造检索条件;
检索与反馈模块705,用于根据所述检索条件,对数据集进行检索,得到目标检索结果并反馈。
在一实施方式中,意图收集模块701,具体用于:
获取用户输入的包括单一实体词的短文本或包括多个实体词的长文本;
若所述检索信息为短文本,识别所述短文本中的单一实体词,得到所述短文本的一个原实体词;将所述一个原实体词作为用户的第一搜索意图;
若所述检索信息为长文本,识别所述长文本中的多个实体词,得到所述长文本的多个原实体词;抽取不同的原实体词分别对应的实体之间的语义关系;将所述多个原实体词和抽取的语义关系作为用户的第一搜索意图。
在一实施方式中,意图收集模块701,识别文本中的实体词,包括:
基于词典实体词匹配方式,识别文本中的实体词;
或,利用基于机器学习构建的识别模型,识别文本中的实体词;
其中,对于包含在文本但词典中不存在的疑似实体词的字符串,根据所述字符串的上下文推测所述字符串是否为实体词;对于基于词典实体词匹配方式,从文本中匹配出的位置连续的多个实体词,或从文本的同一字符串位置区间匹配出的存在包含或被包含关系的多个实体词,利用贪婪算法对匹配出的多个实体词进行处理,并将处理结果对应的实体词识别为文本的实体词。
在一实施方式中,关系图构建模块702,具体用于:
对所述短文本或所述长文本包含的原实体词进行实体词扩展,得到至少一个扩展实体词;
基于领域知识图谱,推测所述原实体词和所述扩展实体词中不同实体词分别对应的实体之间的语义关系;
根据所述原实体词、所述扩展实体词及不同实体之间的语义关系,生成关系图;不同实体之间的语义关系至少包括推测出的语义关系;
其中,实体词对应关系图中的实体节点,语义关系对应关系图中的边;对实体词的实体词扩展包括对实体词进行同义词扩展、标准词扩展和三元组关系实体词扩展中的至少一种,所述三元组关系实体词扩展为:扩展出与实体词具备三元组关系的实体词。
在一实施方式中,关系图构建与展示模块702,展示所述关系图,包括:
根据配置的图节点层级信息,展示所述关系图包括的各个实体节点的节点信息以及不同节点之间的边的边信息;
其中,所述节点信息包括:节点所对应实体的实体名称、实体类别及节点的入度数量中的至少部分信息;所述边信息包括:边对应的实体间的相关度、有向语义关系及数据源类型中的至少部分信息;
所述数据源类型为:推理产生边所对应的有向语义关系时所基于的数据源的类型;所述数据源为第一知识图谱或第二知识图谱,所述第二知识图谱的置信度低于所述第一知识图谱的置信度。
在一实施方式中,意图确认模块703,获取用户通过对展示的关系图执行交互操作所产生的意图确认信息,包括:
检测用户对关系图中至少一个节点和/或至少一个边的选择操作;
以被选中实体和/或被选中的边对应的实体为中心,基于领域知识图谱生成并展示新的关系图;
迭代以上检测用户操作以及根据用户操作生成并展示新的关系图的过程,直至检测到用户执行表征完成意图确认的操作时,将当前展示的目标关系图表征的图信息作为所述意图确认信息;
其中,在基于对用户操作的检测获得所述意图确认信息的过程中,若检测到用户执行用于收缩或扩展指定节点关联的节点层的操作,收缩或扩展所述指定节点关联的节点层。
在一实施方式中,意图确认模块703,根据所述意图确认信息,识别用户的第二搜索意图,包括:
识别所述目标关系图表征的节点信息和边信息;
确定不同实体节点在目标关系图中对应的连接路径;
根据不同实体节点在目标关系图中对应的连接路径,确定所述不同实体节点分别对应的实体之间的相关度;将所述节点信息、所述边信息和确定的不同实体之间的相关度作为用户的第二搜索意图。
在一实施方式中,检索条件构造模块704,具体用于:将识别出的用户的第二搜索意图转化为关键词序列,根据所述关键词序列构造第一检索条件;检索与反馈模块705,具体用于:基于所述第一检索条件,利用全文检索方式对待检索的数据集进行检索,得到第一检索结果;
和/或,
检索条件构造模块704,具体用于:根据所述第二搜索意图对应的所述目标关系图构造第二检索条件;检索与反馈模块705,具体用于:基于所述第二检索条件,将所述目标关系图在所述第二知识图谱中进行子图匹配,得到满足匹配条件的各目标数据的数据标识;根据满足所述匹配条件的各目标数据的数据标识,得到第二检索结果;
上述目标检索结果为:第一检索结果,或第二检索结果,或对第一检索结果和第二检索结果进行整合处理后所得的结果;
其中,第二知识图谱包括:多条满足置信度条件的数据中每条数据对应的标识、包括的实体及三元组间的对应关系;所述置信度条件使所述第二知识图谱的置信度低于所述第一知识图谱的置信度。
在一实施方式中,检索与反馈模块705,对所述第一检索结果和第二检索结果进行整合处理,包括:
获取所述第一检索结果和所述第二检索结果分别对应的目标数据的并集,得到目标数据集;
按预定评分策略对所述目标数据集中的各条目标数据进行评分;
根据各条目标数据分别对应的评分结果,对各条目标数据进行排序,以在反馈所述目标检索结果时,按序输出所述目标数据集中的至少部分目标数据;
其中,所述排序的排序依据至少包括不同实体之间的相关度。
在一实施方式中,所述装置还包括:
知识图谱构建模块,用于预先构建所述第一知识图谱和所述第二知识图谱。
对于本申请实施例公开的基于领域知识图谱的检索装置而言,由于其与上文各方法实施例公开的基于领域知识图谱的检索方法相对应,所以描述的比较简单,相关相似之处请参见上文相应方法实施例的说明即可,此处不再详述。
另外,本申请实施例还公开一种搜索引擎,该搜索引擎包括如上文实施例中公开的基于领域知识图谱的检索装置。
该搜索引擎可视为对上述基于领域知识图谱的检索装置的一种具体实现,其包括上述基于领域知识图谱的检索装置的各功能模块,并能基于包括的各功能模块,实现如本申请各方法实施例提供的基于领域知识图谱的检索处理过程。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种基于领域知识图谱的检索方法,其特征在于,应用于生物医药领域内的检索,所述检索方法包括:
获取用户输入的用于从文档集合中召回文档的检索信息,确定所述用于从文档集合中召回文档的检索信息表征的用户的第一搜索意图;所述检索信息至少包括一个实体词;
基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图并展示;其中,所述关系图包括多个实体节点及不同实体节点分别对应的实体之间的语义关系;所述关系图表征的信息包括:所述第一搜索意图表征的信息以及基于所述领域知识图谱扩展出的与所述第一搜索意图具备关联的信息,以通过所述关系图至少在所属的产业领域从深度或专业度方面对第一搜索意图进行知识拓展;
获取用户通过对展示的关系图执行交互操作所产生的对文档召回的意图确认信息,并根据所述意图确认信息,识别用户的用于召回文档的第二搜索意图;根据所述第二搜索意图,至少构造包括目标关系图的第二检索条件;所述目标关系图为对匹配于所述第一搜索意图的所述关系图完成意图确认后所得的结果;
通过对目标关系图中不同实体之间的置信度评分处理实现对不同实体之间的相关度进行确定,将不同实体之间的相关度作为用户的第二搜索意图包括:
基于两个节点在目标关系图中对应的连接路径,汇总其连接路径中各节点实体数据对应的相应数据类型的单独评分,得到该两个节点对应的两个实体之间的置信度评分;
其中,通过公式E=Q*I*W对相同数据类型的数据进行评分,E代表置信度分数,Q代表数量,I代表重要性,W代表权重,其中数量即为命中数据的数量,重要性和权重均基于预设标注;
通过公式V=S1+S2/22+S3/32+...+Si/i2,对来自不同数据类型的数据的单一评分进行汇总,V代表总分,S1、S2、S3...Si分别代表不同的数据类型的单独评分;至少根据所述第二检索条件,将所述目标关系图在为相应的待检索文档集合预先构建的第二知识图谱中进行基于子图匹配的检索处理,得到目标检索结果;所述第二知识图谱包括所述待检索文档集合中每一文档对应的标识、包含的实体及包含的“实体-关系-实体”三元组间的对应关系信息;其中,通过对所述第二知识图谱进行检索,获得与所述检索条件匹配的目标文档标识,并基于检索所述第二知识图谱所得的目标文档标识从所述文档集合中召回对应的目标文档;
其中,确定所述用于从文档集合中召回文档的检索信息表征的用户的第一搜索意图包括识别文本中的实体词,其中,所述识别文本中的实体词包括:
基于词典实体词匹配方式,识别文本中的实体词;
或,利用基于机器学习构建的识别模型,识别文本中的实体词;
其中,对于包含在文本但词典中不存在的疑似实体词的字符串,根据所述字符串的上下文推测所述字符串是否为实体词;
基于词典实体词匹配方式识别文本中的实体词,其中,基于对于从文本中匹配出的位置连续的多个实体词,或从文本的同一字符串位置区间匹配出的存在包含或被包含关系的多个实体词,利用贪婪算法并结合语义理解,合并各个位置连续的实体词,将合并后得到的语义完整性最高的实体词作为文本在该位置连续的字符串对应的实体词;
在识别文本中的实体词之前,所述检索方法还包括对文本进行预处理,所述对文本进行预处理包括:对文本进行场景检测处理,根据检测到的场景信息对文本的标点符号进行转换或丢弃处理。
2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的用于从文档集合中召回文档的检索信息,确定所述用于从文档集合中召回文档的检索信息表征的用户的第一搜索意图,包括:
获取用户输入的包括单一实体词的短文本或包括多个实体词的长文本;
若所述检索信息为短文本,识别所述短文本中的单一实体词,得到所述短文本的一个原实体词;将所述一个原实体词作为用户的第一搜索意图;
若所述检索信息为长文本,识别所述长文本中的多个实体词,得到所述长文本的多个原实体词;抽取不同的原实体词分别对应的实体之间的语义关系;将所述多个原实体词和抽取的语义关系作为用户的第一搜索意图。
3.根据权利要求2所述的方法,其特征在于,所述基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图,包括:
对所述短文本或所述长文本包含的原实体词进行实体词扩展,得到至少一个扩展实体词;
基于领域知识图谱,推测所述原实体词和所述扩展实体词中不同实体词分别对应的实体之间的语义关系;
根据所述原实体词、所述扩展实体词及不同实体之间的语义关系,生成关系图;不同实体之间的语义关系至少包括推测出的语义关系;
其中,实体词对应关系图中的实体节点,语义关系对应关系图中的边;对实体词的实体词扩展包括对实体词进行同义词扩展、标准词扩展和三元组关系实体词扩展中的至少一种,所述三元组关系实体词扩展为:扩展出与实体词具备三元组关系的实体词。
4.根据权利要求1所述的方法,其特征在于,展示所述关系图,包括:
根据配置的图节点层级信息,展示所述关系图包括的各个实体节点的节点信息以及不同实体节点间的边信息;
其中,所述节点信息包括:节点所对应实体的实体名称、实体类别及节点的入度数量中的至少部分信息;所述边信息包括:边对应的实体间的相关度、有向语义关系及数据源类型中的至少部分信息;
所述数据源类型为:推理产生边所对应的有向语义关系时所基于的数据源的类型;所述数据源为第一知识图谱或所述第二知识图谱,所述第二知识图谱的置信度低于所述第一知识图谱的置信度。
5.根据权利要求4所述的方法,其特征在于,所述获取用户通过对展示的关系图执行交互操作所产生的对文档召回的意图确认信息,包括:
检测用户对关系图中至少一个节点和/或至少一个边的选择操作;
以被选中实体和/或被选中的边对应的实体为中心,基于领域知识图谱生成并展示新的关系图;
迭代以上的检测用户操作以及根据用户操作生成并展示新的关系图的过程,直至检测到用户执行表征完成意图确认的操作时,将当前展示的目标关系图表征的图信息作为所述意图确认信息;
其中,在基于对用户操作的检测获得所述意图确认信息的过程中,若检测到用户执行用于收缩或扩展指定节点关联的节点层的操作,收缩或扩展所述指定节点关联的节点层。
6.根据权利要求5所述的方法,其特征在于,所述根据所述意图确认信息,识别用户的用于召回文档的第二搜索意图,包括:
识别所述目标关系图表征的节点信息和边信息;
确定不同实体节点在所述目标关系图中对应的连接路径;
根据不同实体节点在所述目标关系图中对应的连接路径,确定所述不同实体节点分别对应的实体之间的相关度;将所述节点信息、所述边信息和确定的不同实体之间的相关度作为用户的第二搜索意图。
7.根据权利要求6所述的方法,其特征在于,根据所述第二搜索意图,至少构造包括目标关系图的第二检索条件,至少根据所述第二检索条件,将所述目标关系图在为相应的待检索文档集合预先构建第二知识图谱中进行基于子图匹配的检索处理,得到目标检索结果,包括:
将识别出的用户的第二搜索意图转化为关键词序列,根据所述关键词序列构建第一检索条件;基于所述第一检索条件,利用全文检索方式对待检索的数据集进行检索,得到第一检索结果;
和/或,
基于所述第二检索条件,将所述目标关系图在所述第二知识图谱中进行子图匹配,得到满足匹配条件的各目标文档标识;根据满足所述匹配条件的各目标文档标识,得到第二检索结果;
所述目标检索结果为:所述第二检索结果,或对所述第一检索结果和所述第二检索结果进行整合处理后所得的结果;
其中,所述第二知识图谱包括的每条对应关系信息为相应满足置信度条件的文档对应的标识、包括的实体及三元组间的对应关系;所述置信度条件使所述第二知识图谱的置信度低于所述第一知识图谱的置信度。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一检索结果和第二检索结果进行整合处理,包括:
获取所述第一检索结果和所述第二检索结果分别对应的目标数据的并集,得到目标数据集;
按预定评分策略对所述目标数据集中的各条目标数据进行评分;
根据各条目标数据分别对应的评分结果,对各条目标数据进行排序,以在反馈所述目标检索结果时,按序输出所述目标数据集中的至少部分目标数据;
其中,所述排序的排序依据至少包括不同实体之间的相关度。
9.一种基于领域知识图谱的检索装置,其特征在于,应用于生物医药领域内的检索,所述检索装置包括:
意图收集模块,用于获取用户输入的用于从文档集合中召回文档的检索信息,确定所述用于从文档集合中召回文档的检索信息表征的用户的第一搜索意图;所述检索信息至少包括一个实体词;
关系图构建与展示模块,用于基于领域知识图谱,构建与所述第一搜索意图相匹配的关系图并展示;其中,所述关系图包括多个实体节点及不同实体节点分别对应的实体之间的语义关系;所述关系图表征的信息包括:所述第一搜索意图表征的信息以及基于所述领域知识图谱扩展出的与所述第一搜索意图具备关联的信息,以至少在所属的产业领域从深度或专业度方面对第一搜索意图进行知识拓展;
意图确认模块,用于获取用户通过对展示的关系图执行交互操作所产生的对文档召回的意图确认信息,并根据所述意图确认信息,识别用户的用于召回文档的第二搜索意图;
检索条件构造模块,用于根据所述第二搜索意图,至少构造包括目标关系图的第二检索条件;所述目标关系图为对匹配于所述第一搜索意图的所述关系图完成意图确认后所得的结果;
通过对目标关系图中不同实体之间的置信度评分处理实现对不同实体之间的相关度进行确定,将不同实体之间的相关度作为用户的第二搜索意图包括:
基于两个节点在目标关系图中对应的连接路径,汇总其连接路径中各节点实体数据对应的相应数据类型的单独评分,得到该两个节点对应的两个实体之间的置信度评分;
其中,通过公式E=Q*I*W对相同数据类型的数据进行评分,E代表置信度分数,Q代表数量,I代表重要性,W代表权重,其中数量即为命中数据的数量,重要性和权重均基于预设标注;
通过公式V=S1+S2/22+S3/32+...+Si/i2,对来自不同数据类型的数据的单一评分进行汇总,V代表总分,S1、S2、S3...Si分别代表不同的数据类型的单独评分;
检索与反馈模块,用于至少根据所述第二检索条件,将所述目标关系图在为相应的待检索文档集合预先构建的第二知识图谱中进行基于子图匹配的检索处理,得到目标检索结果并反馈;所述第二知识图谱包括所述待检索文档集合中每一文档对应的标识、包含的实体及包含的“实体-关系-实体”三元组间的对应关系信息;其中,通过对所述第二知识图谱进行检索,获得与所述检索条件匹配的目标文档标识,并基于检索所述第二知识图谱所得的目标文档标识从所述文档集合中召回对应的目标文档;
其中,确定所述用于从文档集合中召回文档的检索信息表征的用户的第一搜索意图包括识别文本中的实体词,其中,所述识别文本中的实体词包括:
基于词典实体词匹配方式,识别文本中的实体词;
或,利用基于机器学习构建的识别模型,识别文本中的实体词;
其中,对于包含在文本但词典中不存在的疑似实体词的字符串,根据所述字符串的上下文推测所述字符串是否为实体词;
基于词典实体词匹配方式识别文本中的实体词,其中,基于对于从文本中匹配出的位置连续的多个实体词,或从文本的同一字符串位置区间匹配出的存在包含或被包含关系的多个实体词,利用贪婪算法并结合语义理解,合并各个位置连续的实体词,将合并后得到的语义完整性最高的实体词作为文本在该位置连续的字符串对应的实体词;
在识别文本中的实体词之前,检索方法还包括对文本进行预处理,所述对文本进行预处理包括:对文本进行场景检测处理,根据检测到的场景信息对文本的标点符号进行转换或丢弃处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110829095.8A CN113282689B (zh) | 2021-07-22 | 2021-07-22 | 基于领域知识图谱的检索方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110829095.8A CN113282689B (zh) | 2021-07-22 | 2021-07-22 | 基于领域知识图谱的检索方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282689A CN113282689A (zh) | 2021-08-20 |
CN113282689B true CN113282689B (zh) | 2023-02-03 |
Family
ID=77287146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110829095.8A Active CN113282689B (zh) | 2021-07-22 | 2021-07-22 | 基于领域知识图谱的检索方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282689B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658720A (zh) * | 2021-08-23 | 2021-11-16 | 中国医学科学院北京协和医院 | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 |
KR102655154B1 (ko) * | 2021-09-30 | 2024-04-05 | 주식회사 와이즈넛 | 인공신경망 모델을 이용한 컨셉넷 자동 확장 방법 |
CN114297370A (zh) * | 2021-12-28 | 2022-04-08 | 北京金堤科技有限公司 | 知识图谱的展示方法及其装置、计算机存储介质、电子设备 |
CN114564525B (zh) * | 2022-04-28 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 基于用户交易数据挖掘用户意图的方法和装置 |
CN115422399B (zh) * | 2022-07-21 | 2023-10-31 | 中国科学院自动化研究所 | 视频搜索方法、装置、设备和存储介质 |
CN115757816B (zh) * | 2022-11-07 | 2023-12-08 | 北京交通大学 | 一种多源异构信息通道耦合方法 |
CN118093663A (zh) * | 2024-03-07 | 2024-05-28 | 中国科学院文献情报中心 | 基于用户意图理解的文献检索方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021377A (zh) * | 2016-05-11 | 2016-10-12 | 上海点荣金融信息服务有限责任公司 | 计算机实现的信息处理方法及装置 |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61220027A (ja) * | 1985-03-27 | 1986-09-30 | Hitachi Ltd | 文書ファイリングシステム及び情報記憶検索システム |
CN102314507B (zh) * | 2011-09-08 | 2013-07-03 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
US20150310073A1 (en) * | 2014-04-29 | 2015-10-29 | Microsoft Corporation | Finding patterns in a knowledge base to compose table answers |
CN104462063B (zh) * | 2014-12-12 | 2016-08-17 | 武汉大学 | 基于语义位置模型的位置信息结构化提取方法及系统 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN109804364A (zh) * | 2016-10-18 | 2019-05-24 | 浙江核新同花顺网络信息股份有限公司 | 知识图谱构建系统及方法 |
CN110457431B (zh) * | 2019-07-03 | 2020-12-25 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN111178076B (zh) * | 2019-12-19 | 2023-08-08 | 成都欧珀通信科技有限公司 | 命名实体识别与链接方法、装置、设备及可读存储介质 |
-
2021
- 2021-07-22 CN CN202110829095.8A patent/CN113282689B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021377A (zh) * | 2016-05-11 | 2016-10-12 | 上海点荣金融信息服务有限责任公司 | 计算机实现的信息处理方法及装置 |
CN107368468A (zh) * | 2017-06-06 | 2017-11-21 | 广东广业开元科技有限公司 | 一种运维知识图谱的生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
HDSKG: Harvesting domain specific knowledge graph from content of webpages;Xuejiao Zhao 等;《2017 IEEE 24th International Conference on Software Analysis, Evolution and Reengineering (SANER)》;20170323;第56-67页 * |
Relation Classification in Knowledge Graph Based on Natural Language Text;Yuan Song 等;《2018 IEEE 9th International Conference on Software Engineering and Service Science (ICSESS)》;20190310;第1104-1107页 * |
基于互信息的知识图谱实体关联关系建模与补全;夏维;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑(月刊)》;20191015(第10期);第I139-36页 * |
基于相关度计算的实体关系分类研究与应用;冯剑;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑(月刊)》;20150215(第02期);第I138-1543页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113282689A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113282689B (zh) | 基于领域知识图谱的检索方法、装置 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
US10678816B2 (en) | Single-entity-single-relation question answering systems, and methods | |
CN108460014B (zh) | 企业实体的识别方法、装置、计算机设备及存储介质 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US8639708B2 (en) | Fact-based indexing for natural language search | |
US20100205198A1 (en) | Search query disambiguation | |
US20030066025A1 (en) | Method and system for information retrieval | |
US20090070322A1 (en) | Browsing knowledge on the basis of semantic relations | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
EP1941346A2 (en) | Document processing | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN111309944B (zh) | 一种基于图数据库的数字人文搜索方法 | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN114579705B (zh) | 一种面向可持续发展教育的学习辅助方法及系统 | |
US11880396B2 (en) | Method and system to perform text-based search among plurality of documents | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN112685440A (zh) | 标记搜索语义角色的结构化查询信息表达方法 | |
CN115687773A (zh) | 一种基于知识图谱的跨环境元数据匹配方法及系统 | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |