CN116089581A - 一种基于知识图谱的智能问答方法 - Google Patents
一种基于知识图谱的智能问答方法 Download PDFInfo
- Publication number
- CN116089581A CN116089581A CN202211707259.0A CN202211707259A CN116089581A CN 116089581 A CN116089581 A CN 116089581A CN 202211707259 A CN202211707259 A CN 202211707259A CN 116089581 A CN116089581 A CN 116089581A
- Authority
- CN
- China
- Prior art keywords
- intention
- question
- knowledge graph
- entity
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于知识图谱的智能问答方法,包括:对应用领域知识图谱的实体、属性、关系进行预先设计;采集数据并对采集到的数据按照预先设计的知识图谱结构进行标注;从数据中抽取实体、关系、属性,经人工检查存储到Neo4j数据库中构建得到知识图谱;对输入的问句按照意图进行分类;对专业意图的问句进行实体识别和意图推理;根据实体识别和意图推理的结果匹配模板,生成CQL语句;最终将CQL语句在数据库中的查询结果生成文本,得到最终问答结果。实现了对自然语言问句的理解,并针对问句做出相对准确的回答。
Description
技术领域
本发明涉及知识图谱领域,具体涉及一种基于知识图谱的智能问答方法。
背景技术
知识图谱本质上是一个庞大的知识库,以图的结构形式将知识库内的知识进行链接,用可视化技术描述知识资源及其载体,可以形象地挖掘、分析、构建和显示知识及其联系。问答系统是信息检索系统的一种高级形式,他能用准确、简洁的自然语言回答用户用自然语言提出的问题。近年来,基于知识图谱的问答系统成为学术界和工业界研究和应用的热点,在百科知识问答、金融、医疗等领域得到了广泛的应用。
现有技术中,构建的知识图谱模型多为通用知识图谱,覆盖面广泛,但质量差,容易出现数据松散和覆盖率低的问题,导致问答过程对于专业知识匹配覆盖较低,很多时候得不到满意的回答。同时针对智能问答方法,现有技术经常采用将意图识别视为分类任务,该方法虽然有效,但如果问题中混杂普通对话和专业意图,分类准确率不够理想。
因此,如何构建专业领域知识图谱,并基于知识图谱准确进行用户意图识别,实现专业领域的智能问答,成为本领域技术人员亟待解决的问题。
发明内容
鉴于现有技术的状况,本发明提供了一种基于知识图谱的智能问答方法,对应用领域知识图谱的实体、属性、关系进行预先设计;采集数据并对采集到的数据按照预先设计的知识图谱结构进行标注;从数据中抽取实体、关系、属性,经人工检查存储到Neo4j数据库中构建得到知识图谱;对输入的问句按照意图进行分类;对专业意图的问句进行实体识别和意图推理;根据实体识别和意图推理的结果匹配模板,生成CQL语句;最终将CQL语句在数据库中的查询结果生成文本,得到最终问答结果,实现了应用领域的智能问答,提高了问答的准确率。
本发明采取的技术方案是:一种基于知识图谱的智能问答方法,该方法包括知识图谱构建、文本预处理、问题匹配、文本生成:
步骤1,所述的知识图谱构建,首先借助专家知识,对专业领域知识图谱的实体、属性、关系进行预先设计;其次通过采用开源数据或爬虫方式采集数据,包括结构化数据、半结构化数据和非结构化数据,并对采集到的数据按照预先设计的知识图谱结构进行标注;最终进行知识抽取,以标注结果为标签,从数据中抽取其中包含的实体、关系、属性,并将抽取结果进行人工检查,确保无误后将其以实体-关系-实体和实体-属性-属性值的三元组形式存储到Neo4j数据库中,视为知识图谱构建完成;
步骤2,所述的文本预处理,是指对用户输入的查询语句进行处理,首先进行意图诊断,判断是闲聊意图还是专业问题,若为闲聊问题,采用预设好的模板进行回答;若为专业问题,则由命名实体识别模型提取出问句中包含的专业实体,再由意图推理模型,推断询问的是哪方面的专业意图并得出意图置信度;
步骤3,所述的问题匹配,首先通过专业实体和专业意图选择模板,再通过槽位填充的方式进行处理,根据步骤2意图推理得到的意图置信度确定回复策略并生成对应的CQL查询语句到Neo4j数据库中查询内容;
步骤4,所述的文本生成,将查询结果输入到文本生成模型中,得到自然语言形式的句子,并将其作为最终答案。
步骤1中所述的知识抽取,采用实体关系联合抽取方法,以标注结果为标签,同时抽取出数据中包含的实体、关系和属性。
步骤2中所述的命名实体识别模型,采取bert预训练模型+BiLSTM+CRF的网络结构。
步骤2中所述的意图推理模型是,采取bert预训练模型结合textCNN的网络结构,以用户输入的问句作为模型输入,输出每个意图及其对应的置信度,最终取置信度最大的意图及其对应的置信度作为模型推断出的专业意图和意图置信度。
步骤4中所述的文本生成模型,采取RNN的网络结构。
本发明的有益效果是:本发明利用专家知识对知识图谱本体进行预设计,采集标注数据,自顶而下构建了专有领域知识图谱,提升了知识图谱在专有领域的知识匹配覆盖率;并且采用双重意图识别的思路,采用意图诊断模型判断是闲聊意图还是专业意图,再通过意图推理模型实现专业意图的具体细分,提高了意图识别的准确率。最终实现了对自然语言问句的理解,并针对问句做出相对准确的回答。
附图说明
以下结合附图和具体实施方式对本发明作进一步的详细说明:
图1是本发明基于知识图谱的智能问答方法原理图。
图2是本发明基于知识图谱的智能问答系统的结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1是基于知识图谱的智能问答方法的原理图,包括知识图谱构建、文本预处理、问题匹配、文本生成;其中知识图谱构建包括图谱设计、数据采集、数据标注、知识抽取;文本预处理包括意图诊断是否闲聊、命名实体识别和意图推理;问题匹配包括槽位填充、根据置信度选择策略、CQL语句生成。
参考图1基于知识图谱的智能问答方法原理图,以医疗领域问答为例,本发明的具体实施步骤如下。
步骤1,知识图谱构建。
首先借助专家知识,对医疗领域知识图谱可能出现的实体、属性、关系进行预先设计,得到医疗领域知识图谱的本体。其次,通过爬虫方式采集互联网上公开的疾病、药物、治疗科室、症状等信息,并对采集到的数据进行标注,形成医疗知识图谱原始数据集。最终采用实体关系联合抽取方法,以标注结果为标签,从数据中抽取其中包含的医疗实体、关系、属性,最后将抽取结果进行人工检查,确保无误后以实体-关系-实体和实体-属性-属性值的三元组形式存储到Neo4j数据库中。
步骤2,文本预处理。
首先对用户输入的问句进行意图诊断,意图诊断模型采用sklearn-clf分类模型,将其分为闲聊和专业意图两大类,并针对闲聊意图中的每一个小类预先设计几个固定的回答模板,随机挑选其中的一个作为回答。若为专业意图,对用户输入的问句进行进一步处理,分别采用基于Bert+BiLSTM+CRF的命名实体识别模型识别问句中的医疗实体、采用基于Bert+textCNN网络结构的意图推理模型区分问句的具体专业意图,同时得出意图的置信度。
步骤3,问题匹配。
根据步骤2中得到的医疗实体和专业意图匹配槽位填充的模板,将医疗实体和意图填充到模板的响应槽位,再根据意图置信度确定回复的策略,是直接返回未理解问句意思、向用户重复确认意图还是直接返回意图对应结果。最终根据槽位填充的结果生成对应的CQL语句,并使用CQL语句到Neo4j数据库中查询相应结果。
步骤4,文本生成。
文本生成模型采用RNN网络结构。将步骤3中数据库的查询结果输入到文本生成模型中,得到自然语言形式的句子,并将其作为最终的答案返回给用户。
基于PC机,本发明还实现了一种基于知识图谱的智能问答系统。
参考图2所示,为本发明一实施例提供的基于知识图谱的智能问答系统的内部结构示意图。
一种基于知识图谱的智能问答系统,包括知识图谱构建模块、智能问答模块:
(1)知识图谱构建模块,用于借助专家知识设计相关的本体框架,并以此从数据集中抽取实体、关系、属性,并构建知识图谱,包含图谱设计模块、数据获取模块、数据整理模块、知识抽取模块、Neo4j模块:
①图谱设计模块,用于借助专家经验设计应用领域的本体框架;
②数据采集模块,用于通过采用开源数据或爬虫等方式采集数据,包括结构化数据、半结构化数据和非结构化数据;
③数据标注模块,用于将数据集划分出一部分作为训练集,并通过标注算法对训练集中的数据按照预先设计的知识图谱结构进行标注;
④知识抽取模块,用于采用实体关系联合抽取方法,以标注结果为标签,从数据中抽取其中包含的实体、关系、属性;
⑤Neo4j模块,用于将所述知识抽取模块抽取出的实体、关系、属性进行人工检查,并存储到Neo4j数据库中。
(2)智能问答模块,用于对输入的问句按照意图进行分类,并对专业意图的问句进行进一步的实体识别和意图推理,根据实体识别和意图推理的结果匹配模板,生成CQL语句,最终将CQL语句在数据库中的查询结果生成文本,确定为答案。包含文本预处理模块、问题匹配模块、文本生成模块:
①文本预处理模块:
意图诊断,用于对输入的问句按照意图进行分类,判断问句是闲聊意图还是专业意图;命名实体识别,用于识别专业意图的问句中的专业命名实体;意图推理,用于识别专业意图问句的具体细分意图;
②问题匹配模块,用于根据命名实体和细分意图匹配问题模板,并通过槽位填充方式生成CQL语句;
③文本生成模块,用于将CQL语句在数据库中进行查询,并将查询结果通过文本生成模型转换为自然语言形式的句子。
通过以上步骤,即可完成医疗知识图谱的构建以及基于医疗知识图谱的智能问答。
Claims (5)
1.一种基于知识图谱的智能问答方法,其特征在于,该方法包括知识图谱构建、文本预处理、问题匹配、文本生成:
步骤1,所述的知识图谱构建,首先借助专家知识,对专业领域知识图谱的实体、属性、关系进行预先设计;其次通过采用开源数据或爬虫方式采集数据,包括结构化数据、半结构化数据和非结构化数据,并对采集到的数据按照预先设计的知识图谱结构进行标注;最终进行知识抽取,以标注结果为标签,从数据中抽取其中包含的实体、关系、属性,并将抽取结果进行人工检查,确保无误后将其以实体-关系-实体和实体-属性-属性值的三元组形式存储到Neo4j数据库中,视为知识图谱构建完成;
步骤2,所述的文本预处理,是指对用户输入的查询语句进行处理,首先进行意图诊断,判断是闲聊意图还是专业问题,若为闲聊问题,采用预设好的模板进行回答;若为专业问题,则由命名实体识别模型提取出问句中包含的专业实体,再由意图推理模型,推断询问的是哪方面的专业意图并得出意图置信度;
步骤3,所述的问题匹配,首先通过专业实体和专业意图选择模板,再通过槽位填充的方式进行处理,根据步骤2意图推理得到的意图置信度确定回复策略并生成对应的CQL查询语句到Neo4j数据库中查询内容;
步骤4,所述的文本生成,将查询结果输入到文本生成模型中,得到自然语言形式的句子,并将其作为最终答案。
2.根据权利要求1所述的一种基于知识图谱的智能问答方法,其特征在于,步骤1中所述的知识抽取,采用实体关系联合抽取方法,以标注结果为标签,同时抽取出数据中包含的实体、关系和属性。
3.根据权利要求1所述的一种基于知识图谱的智能问答方法,其特征在于,步骤2中所述的命名实体识别模型,采取bert预训练模型+BiLSTM+CRF的网络结构。
4.根据权利要求1所述的一种基于知识图谱的智能问答方法,其特征在于,步骤2中所述的意图推理模型是,采取bert预训练模型结合textCNN的网络结构,以用户输入的问句作为模型输入,输出每个意图及其对应的置信度,最终取置信度最大的意图及其对应的置信度作为模型推断出的专业意图和意图置信度。
5.根据权利要求1所述的一种基于知识图谱的智能问答方法,其特征在于,步骤4中所述的文本生成模型,采取RNN的网络结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211707259.0A CN116089581A (zh) | 2022-12-30 | 2022-12-30 | 一种基于知识图谱的智能问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211707259.0A CN116089581A (zh) | 2022-12-30 | 2022-12-30 | 一种基于知识图谱的智能问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116089581A true CN116089581A (zh) | 2023-05-09 |
Family
ID=86207563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211707259.0A Pending CN116089581A (zh) | 2022-12-30 | 2022-12-30 | 一种基于知识图谱的智能问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116089581A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955560A (zh) * | 2023-07-21 | 2023-10-27 | 广州拓尔思大数据有限公司 | 基于思考链和知识图谱的数据处理方法及系统 |
CN117093693A (zh) * | 2023-08-23 | 2023-11-21 | 北京深维智信科技有限公司 | 一种基于nlp的智慧问答方法 |
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
CN117827847A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 结合大语言模型的训练样本构建方法、系统、设备及介质 |
CN118410175A (zh) * | 2024-04-11 | 2024-07-30 | 北京无限互联科技发展有限公司 | 基于大语言模型和知识图谱智能制造能力诊断方法及装置 |
-
2022
- 2022-12-30 CN CN202211707259.0A patent/CN116089581A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116955560A (zh) * | 2023-07-21 | 2023-10-27 | 广州拓尔思大数据有限公司 | 基于思考链和知识图谱的数据处理方法及系统 |
CN116955560B (zh) * | 2023-07-21 | 2024-01-05 | 广州拓尔思大数据有限公司 | 基于思考链和知识图谱的数据处理方法及系统 |
CN117093693A (zh) * | 2023-08-23 | 2023-11-21 | 北京深维智信科技有限公司 | 一种基于nlp的智慧问答方法 |
CN117093693B (zh) * | 2023-08-23 | 2024-05-07 | 北京深维智信科技有限公司 | 一种基于nlp的智慧问答方法 |
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
CN117827847A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 结合大语言模型的训练样本构建方法、系统、设备及介质 |
CN117827847B (zh) * | 2024-03-04 | 2024-05-28 | 国网山东省电力公司信息通信公司 | 结合大语言模型的训练样本构建方法、系统、设备及介质 |
CN118410175A (zh) * | 2024-04-11 | 2024-07-30 | 北京无限互联科技发展有限公司 | 基于大语言模型和知识图谱智能制造能力诊断方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN116089581A (zh) | 一种基于知识图谱的智能问答方法 | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN106934012B (zh) | 一种基于知识图谱的自然语言问答实现方法和系统 | |
WO2021213314A1 (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN112542223A (zh) | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN115292457B (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN114153994A (zh) | 医保信息问答方法及装置 | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN113672720A (zh) | 一种基于知识图谱和语义相似度的电力审计问答方法 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN116737911A (zh) | 基于深度学习的高血压问答方法及系统 | |
CN117932086A (zh) | 利用外接知识库核查减轻大语言模型幻觉的方法及系统 | |
CN115964468A (zh) | 一种基于多层次模板匹配的乡村信息智能问答方法及装置 | |
CN117891923A (zh) | 一种基于意图识别和知识图谱的法律问答系统 | |
CN114490930A (zh) | 一种基于知识图谱的文物问答系统与问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |