CN111708899A - 一种基于自然语言和知识图谱工程信息智能搜索方法 - Google Patents

一种基于自然语言和知识图谱工程信息智能搜索方法 Download PDF

Info

Publication number
CN111708899A
CN111708899A CN202010540196.9A CN202010540196A CN111708899A CN 111708899 A CN111708899 A CN 111708899A CN 202010540196 A CN202010540196 A CN 202010540196A CN 111708899 A CN111708899 A CN 111708899A
Authority
CN
China
Prior art keywords
knowledge
natural language
question
building field
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010540196.9A
Other languages
English (en)
Other versions
CN111708899B (zh
Inventor
龙振佳
陈龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huajiangong Intelligent Technology Co ltd
Original Assignee
Guangzhou Huajiangong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huajiangong Intelligent Technology Co ltd filed Critical Guangzhou Huajiangong Intelligent Technology Co ltd
Priority to CN202010540196.9A priority Critical patent/CN111708899B/zh
Publication of CN111708899A publication Critical patent/CN111708899A/zh
Application granted granted Critical
Publication of CN111708899B publication Critical patent/CN111708899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:S1、构建基于建筑领域的知识图谱;S2、收集用户对建筑领域的问题集;S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;S5、施工人员使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从构建好的知识图谱中快速地查询对应的知识,从而提高现场的施工效率。

Description

一种基于自然语言和知识图谱工程信息智能搜索方法
技术领域
本发明涉及建筑工程领域,特别是涉及一种基于自然语言和知识图谱工程信息智能搜索方法。
背景技术
现有技术中当工程量进行统计之后,如何快速从大量的工程量数据中快速准确查询到指定的构件的工程量信息是影响工程效率的重要问题。建筑施工所涉及的人员与专业众多,算量信息查询的请求复杂多变。按照现有方式对工程量信息进行查询时,需要先到图纸或三维模型中找到对应的构件,然后到工程量信息表格中找到与之对应的工程量信息,这个过程较为繁琐且效率低下。
发明内容
本发明目的在于克服现有技术中的上述缺陷,提供了一种基于自然语言和知识图谱工程信息智能搜索方法,其让施工人员能够使用自然语言从构建好的知识图谱中快速地寻找到相应的工程信息,提高现场的施工效率。
为实现上述目的,本发明提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
优选的,所述步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;以上的知识和数据信息均存入图数据库。
优选的,所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行标注,构建建筑领域的字典。
优选的,所述步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型。
优选的,所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
与现有技术相比,本发明的有益效果在于:
采用本方法,先构建基于建筑领域的知识图谱,再收集用户对建筑领域的问题集,并对问题集中的文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,再将该问题训练数据集构建出问题集模型,使得施工人员能够通过输入自然语言的问题文本,能够被问题集模型进行命名实体识别及关系抽取,并生成相应的Cypher语句,最后从存储知识图谱的图数据库中快速地查询到对应的知识,从而提高现场的施工效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于自然语言和知识图谱工程信息智能搜索方法中步骤S5和步骤S6的流程图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
其中步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;因此转化成三元组及关系以上的知识和数据信息均存入图数据库,对于较复杂的问题集,更有利于检索和遍历问题中隐含的关系,从而查出正确答案;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行BIO序列标注,构建建筑领域的字典;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
其中步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型;
S5、如图1所示,使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
S6、根据问题文本识别出实体和语义关系,匹配问题类型,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
综上所述,采用本方法,先构建基于建筑领域的知识图谱,再收集用户对建筑领域的问题集,并对问题集中的文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,再将该问题训练数据集构建出问题集模型,使得施工人员能够通过输入自然语言的问题文本,能够被问题集模型进行命名实体识别及关系抽取,并生成相应的Cypher语句,最后从存储知识图谱的图数据库中快速地查询到对应的知识,从而提高现场的施工效率。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。
2.根据权利要求1所述的一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,所述步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;以上的知识和数据信息均存入图数据库。
3.根据权利要求1所述的一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行标注,构建建筑领域的字典。
4.根据权利要求1所述的一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,所述步骤S4的具体过程如下:
从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型。
5.根据权利要求1所述的一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,所述步骤S5的具体过程如下:
使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。
CN202010540196.9A 2020-06-13 2020-06-13 一种基于自然语言和知识图谱工程信息智能搜索方法 Active CN111708899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010540196.9A CN111708899B (zh) 2020-06-13 2020-06-13 一种基于自然语言和知识图谱工程信息智能搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010540196.9A CN111708899B (zh) 2020-06-13 2020-06-13 一种基于自然语言和知识图谱工程信息智能搜索方法

Publications (2)

Publication Number Publication Date
CN111708899A true CN111708899A (zh) 2020-09-25
CN111708899B CN111708899B (zh) 2023-10-03

Family

ID=72540647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010540196.9A Active CN111708899B (zh) 2020-06-13 2020-06-13 一种基于自然语言和知识图谱工程信息智能搜索方法

Country Status (1)

Country Link
CN (1) CN111708899B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231460A (zh) * 2020-10-27 2021-01-15 中国科学院合肥物质科学研究院 一种基于农业百科知识图谱的问答系统的构建方法
CN112487202A (zh) * 2020-11-27 2021-03-12 厦门理工学院 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112905884A (zh) * 2021-02-10 2021-06-04 北京百度网讯科技有限公司 生成序列标注模型的方法、设备、介质及程序产品
CN113779992A (zh) * 2021-07-19 2021-12-10 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN117972222A (zh) * 2024-04-02 2024-05-03 紫金诚征信有限公司 基于人工智能的企业信息检索方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
WO2018081633A1 (en) * 2016-10-28 2018-05-03 Roam Analytics, Inc. Semantic parsing engine
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110569345A (zh) * 2019-09-04 2019-12-13 淮阴工学院 一种基于实体链接和关系预测的时政知识智能问答方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018081633A1 (en) * 2016-10-28 2018-05-03 Roam Analytics, Inc. Semantic parsing engine
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN110569345A (zh) * 2019-09-04 2019-12-13 淮阴工学院 一种基于实体链接和关系预测的时政知识智能问答方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN112231460A (zh) * 2020-10-27 2021-01-15 中国科学院合肥物质科学研究院 一种基于农业百科知识图谱的问答系统的构建方法
CN112487202A (zh) * 2020-11-27 2021-03-12 厦门理工学院 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112487202B (zh) * 2020-11-27 2022-05-06 厦门理工学院 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112905884A (zh) * 2021-02-10 2021-06-04 北京百度网讯科技有限公司 生成序列标注模型的方法、设备、介质及程序产品
CN112905884B (zh) * 2021-02-10 2024-05-31 北京百度网讯科技有限公司 生成序列标注模型的方法、设备、介质及程序产品
CN113779992A (zh) * 2021-07-19 2021-12-10 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN117972222A (zh) * 2024-04-02 2024-05-03 紫金诚征信有限公司 基于人工智能的企业信息检索方法及装置

Also Published As

Publication number Publication date
CN111708899B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN111708899B (zh) 一种基于自然语言和知识图谱工程信息智能搜索方法
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN107766483A (zh) 一种基于知识图谱的交互式问答方法及系统
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索系统
CN102262634A (zh) 一种自动问答方法及系统
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
US20210350125A1 (en) System for searching natural language documents
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN116257610B (zh) 基于行业知识图谱的智能问答方法、装置、设备及介质
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN116340530A (zh) 基于机械知识图谱的智能设计方法
US11487795B2 (en) Template-based automatic software bug question and answer method
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN111597349A (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
CN114021574B (zh) 政策文件智能解析与结构化方法及系统
CN115964468A (zh) 一种基于多层次模板匹配的乡村信息智能问答方法及装置
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
CN113779981A (zh) 一种基于指针网络和知识图谱的推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant