CN114372125A - 基于知识图谱的政务知识库构建方法、系统、设备及介质 - Google Patents
基于知识图谱的政务知识库构建方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN114372125A CN114372125A CN202111469283.0A CN202111469283A CN114372125A CN 114372125 A CN114372125 A CN 114372125A CN 202111469283 A CN202111469283 A CN 202111469283A CN 114372125 A CN114372125 A CN 114372125A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- government affair
- government
- point information
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000009411 base construction Methods 0.000 title claims description 10
- 238000013136 deep learning model Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000003860 storage Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 241000282414 Homo sapiens Species 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000000969 carrier Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007787 long-term memory Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0281—Customer communication at a business location, e.g. providing product or service information, consulting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Finance (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于知识图谱的政务知识库构建方法、系统、设备及介质,该方法获取政务知识点信息;通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。该方法可以以知识图谱的方式存储知识点,能够为政务服务的精确搜索和问答服务提供分类、推理等能力,提升服务的准确率,进而可以改善用户的政务咨询体验。本申请可广泛应用于人工智能技术领域内。
Description
技术领域
本申请涉及人工智能技术领域,尤其是一种基于知识图谱的政务知识库构建方法、系统、设备及介质。
背景技术
近年来,随着人工智能技术的发展,各类相关的应用正在逐步得到推广普及。知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,能够通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。其中,在政务知识库中,可以使用知识图谱存储知识点,为政务服务提供精准搜索和问答服务提供分类、推理等能力,并按照不同维度、实体以图形化方式进行展示。
相关技术中,一般结合深度学习算法构建知识图谱,深度学习(deep learning)是机器学习的分支,是一种以人工神经网络为架构,对数据进行特征学习的算法。编码器-解码器(Encoder-Decoder)的深度学习架构是目前流行的神经网络架构。但是在实际应用中,这种模型在编码和解码阶段始终由一个不变的语义向量联系信息,编码器要将整个序列的信息压缩进一个固定长度的向量中去,这就造成了语义向量无法完全表示整个序列的信息,以及当输入信息太长时,会丢失掉一些信息,导致知识图谱构建时存在信息缺失或者不准确的问题。
综上,相关技术存在的问题亟需得到解决。
发明内容
本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种基于知识图谱的政务知识库构建方法、系统、设备及介质。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
一方面,本申请实施例提供了一种基于知识图谱的政务知识库构建方法,包括以下步骤:
获取政务知识点信息;
通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;
根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;
其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
另外,根据本申请上述实施例的一种基于知识图谱的政务知识库构建方法,还可以具有以下附加的技术特征:
进一步地,在本申请的一个实施例中,所述通过深度学习模型对所述政务知识点信息进行知识抽取,包括:
将所述政务知识点信息输入到所述深度学习模型,对所述政务知识点信息进行词嵌入处理,得到第一特征数据;
通过所述双向长短期记忆人工神经网络提取所述第一特征数据的上下文特征,得到第二特征数据;
通过所述注意力层对所述第二特征数据进行注意力加权处理,得到第三特征数据;
通过所述全连接层对所述第三特征数据进行映射处理,完成所述政务知识点信息的知识抽取。
进一步地,在本申请的一个实施例中,所述政务服务本体模型通过以下步骤建立:
将政务服务按照服务主体、服务对象、服务类型、服务名称或者业务域进行业务建模,得到对应的本体和关系信息;
根据所述本体和关系信息,建立政务服务本体模型。
进一步地,在本申请的一个实施例中,所述业务域包括自然人业务域和法人业务域。
进一步地,在本申请的一个实施例中,所述通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息,包括:
通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的业务域类别信息。
进一步地,在本申请的一个实施例中,所述获取政务知识点信息的步骤之后,所述方法还包括:
检测当前的政务知识库中是否存在和所述政务知识点信息对应的要素信息;
若存在和所述政务知识点信息对应的要素信息,则在所述当前的政务知识库中删除和所述政务知识点信息对应的要素信息。
进一步地,在本申请的一个实施例中,所述方法还包括:
获取所述政务知识点信息对应的时效信息;
根据所述时效信息,对所述政务知识点信息中的要素信息进行状态更新。
另一方面,本申请实施例提供一种基于知识图谱的政务知识库构建系统,所述系统包括:
获取模块,用于获取政务知识点信息;
抽取模块,用于通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;
构建模块,用于根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;
其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
另一方面,本申请实施例提供了一种计算机设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述的基于知识图谱的政务知识库构建方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,上述处理器可执行的程序在由处理器执行时用于实现上述的基于知识图谱的政务知识库构建方法。
本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
本申请实施例所公开的一种基于知识图谱的政务知识库构建方法,获取政务知识点信息;通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。该方法可以以知识图谱的方式存储知识点,能够为政务服务的精确搜索和问答服务提供分类、推理等能力,提升服务的准确率,进而可以改善用户的政务咨询体验。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本申请实施例中提供的一种基于知识图谱的政务知识库构建系统的实施环境示意图;
图2为本申请实施例中提供的一种基于知识图谱的政务知识库构建方法的流程示意图;
图3为本申请实施例中提供的一种基于知识图谱的政务知识库构建系统的结构示意图;
图4为本申请实施例中提供的一种计算机设备的结构示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本申请进行进一步的说明。所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请涉及的部分技术名词进行解释说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
近年来,随着人工智能技术的发展,各类相关的应用正在逐步得到推广普及。知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,能够通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。其中,在政务知识库中,可以使用知识图谱存储知识点,为政务服务提供精准搜索和问答服务提供分类、推理等能力,并按照不同维度、实体以图形化方式进行展示。
相关技术中,一般结合深度学习算法构建知识图谱,深度学习(deep learning)是机器学习的分支,是一种以人工神经网络为架构,对数据进行特征学习的算法。编码器-解码器(Encoder-Decoder)的深度学习架构是目前流行的神经网络架构。但是在实际应用中,这种模型在编码和解码阶段始终由一个不变的语义向量联系信息,编码器要将整个序列的信息压缩进一个固定长度的向量中去,这就造成了语义向量无法完全表示整个序列的信息,以及当输入信息太长时,会丢失掉一些信息,导致知识图谱构建时存在信息缺失或者不准确的问题。
有鉴于此,本申请实施例中提供一种基于知识图谱的政务知识库构建方法、系统、设备及介质。
图1是本申请实施例提供的一种基于知识图谱的政务知识库构建方法的实施环境示意图。参照图1,该实施环境的软硬件主体主要包括操作终端101和服务器102,操作终端101与服务器102通信连接。其中,该基于知识图谱的政务知识库构建方法可以单独配置于操作终端101执行,也可以单独配置于服务器102执行,或者基于操作终端101与服务器102二者之间的交互来执行,具体可以根据实际应用情况进行适当的选择,本实施例对此并不作具体限定。此外,操作终端101与服务器102可以为区块链中的结点,本实施例对此并不作具体限定。
具体地,本申请中的操作终端101可以包括但不限于智能手表、智能手机、电脑、个人数字助理(Personal Digital Assistant,PDA)、智能语音交互设备、智能家电或者车载终端中的任意一种或者多种。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。操作终端101与服务器102之间可以通过无线网络或有线网络建立通信连接,该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
请参照图2,图2是本申请实施例提供的一种基于知识图谱的政务知识库构建方法的示意图,该基于知识图谱的政务知识库构建方法可以配置在操作终端或者服务器中的至少一者。参照图2,该基于知识图谱的政务知识库构建方法包括但不限于:
步骤110、获取政务知识点信息;
步骤120、通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;
步骤130、根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;
其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
本申请实施例中,提出一种基于知识图谱的政务知识库构建方法,该方法中,主要使用长短期记忆人工神经网络(LSTM)结合注意力机制(Attention)捕捉语句中长期的依赖关系,注意力机制层能够较好地解决信息过长,信息丢失等问题,长短期记忆人工神经网络能够解决长序列训练过程中的梯度消失和梯度爆炸问题,两者融合使用,对知识点进行语义分析后完成知识抽取,结合预先建立的本体模型完成知识图谱的构建。
可以理解的是,本申请实施例中,可以以较高的精确率完成政务服务知识库的构建,构建好的政务知识库,可按照不同维度、实体以图形化方式进行展示。该政务知识库以知识图谱的方式存储知识点,可以为政务服务的精确搜索和问答服务提供分类、推理等能力,提升服务的准确率,进而可以改善用户的政务咨询体验。
具体地,本申请实施例中,获取政务知识点信息时,可以是基于政府的相关办事指南获取的,比如对办事指南进行文字识别获取得到政务知识点信息,对于每个政务服务事项,可以包括以下要素:事项名称、事项类型、设定依据、实施机构、法定办结时限、承诺办结时限、结果名称、结果样本、收费标准、收费依据、申请材料、办理流程、办理形式、审查标准、通办范围、预约办理、网上支付、物流快递、办理地点、办理时间、咨询电话、监督电话等。当然,本申请对获取该信息的渠道不作限定,例如可以是从网站下载得到,或者从相关的存储介质中传输得到的。
对于获取得到的政务知识点信息,本申请实施例中通过搭建的深度学习模型度对其进行知识抽取,得到政务知识点信息对应的要素信息。具体地,本申请实施例中的深度学习模型中,可以包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
本申请实施例中的深度学习模型,采用了长短期记忆人工神经网络(LSTM)结合注意力机制(Attention)的架构,就是在LSTM的模型上加入Attention层,在传统的LSTM中,可以使用最后一个时序的输出向量作为特征向量,然后进行softmax函数分类,加入Attention层以后,可以先计算每个时序的权重,然后将所有时序的向量进行加权和作为特征向量,然后进行softmax函数分类。在一般的Encoder-Decoder模型结构中,Encoder把所有的输入序列都编码成一个统一的语义特征再解码,因此,语义特征必须包含原始序列中的所有信息,但是由于模型的原始输入长度不一致且无法预估,因此它的长度就成了限制模型性能的瓶颈,不论输入长短都将其编码成一个固定长度的向量表示,这使模型对于长输入序列的学习效果很差,Attention机制通过在每个时间输入不同的语义特征,如此,能够较好地解决信息过长,信息丢失等问题。
下面结合一个具体的实施例说明本申请中深度学习模型处理数据的过程。
本申请实施例中,深度学习模型的第一层为输入层,以“办理普通护照业务”的输入内容为例,模型将文本处理成长度为(None,400)的二维数组,其中第一个参数用于表示文本的个数,第二个参数表示每一个文本都处理成为长度为400的一维向量,同时样本数据需要标注文本的所属分类,模型可以将文本对应到多种业务域分类中,对应可以使用一个长度为n的一维向量定义所属分类,如果上例中语句对应到“护照”业务域,那么可生成类似于(0,0,0,0,1,0,0)格式的一维矩阵。需要说明的是,本申请实施例中的数值和数据结构仅用于举例说明,并不意味着对本申请的具体实施做限制。另外,在训练过程中,可以将样本数据按照7:2:1的分配原则,分为训练数据集、验证数据集、测试数据集,各数据集的数据结构保持一致。
深度学习模型的第二层为词向量层,将输入层(None,400)的二维向量进行embedding操作,每个输入语句都进行维度为50的embedding处理,得到一个[(None,400,50)]的三维矩阵,此处的数据可以记为第一特征数据。深度学习模型的第三层为特征编码层,这一层主要是使用双向的LSTM网络,提取文本内的上下文特征,然后将双向的特征向量进行组合,得到一个[(None,400,256)]的三维矩阵,此处的数据可以记为第二特征数据。
深度学习模型的第四层为Attention层,Attention层对上述模型中的每个语句进行加权求和操作,其中权重就是通过训练不断迭代训练出来的,将LSTM层的输出作为这一层的输入,其大小为[(None,400,256)],然后初始化一个长度为256的一维初始权重矩阵W,然后对输入与权重矩阵W进行点乘,并做归一化处理,于是可得到(400,1)的矩阵向量,其中第一维就表示每个单词对应的权重大小,权重越大表示词代表的注意力越大,也就是这个词的共享越大,最后对每个词进行加权平均操作,得到最终的加权平均特征向量,此处的数据可以记为第三特征数据。
深度学习模型的第五层为全连接层,由于业务域定义为特定的长度为n的一维向量,所以需要使用softmax激活函数,将每一个[(None,256)]尺寸的输出,映射处理成业务域中需要的类别个数n。在一些实施例中,上述得到的业务域类别信息就可以作为政务知识点信息对应的要素信息。
本申请实施例中,使用长短期记忆人工神经网络(LSTM)结合注意力机制(Attention)构建的深度学习模型对知识点进行语义分析后完成知识抽取,结合预先建立的本体模型即可完成知识图谱的构建。
在一些实施例中,所述政务服务本体模型通过以下步骤建立:
将政务服务按照服务主体、服务对象、服务类型、服务名称或者业务域进行业务建模,得到对应的本体和关系信息;
根据所述本体和关系信息,建立政务服务本体模型。
本申请实施例中,可以对政务服务按照服务主体、服务对象、服务类型、服务名称、业务域进行业务建模,形成本体和关系,进而按照上述的本体和关系信息,建立政务服务本体模型。具体地,上述的政务服务信息相关的数据来源可以是办事指南,例如基于办事指南建立的本体模型如下:服务名称用于表示政务服务的名称,即政务服务的本体,例如“大陆居民申领小型汽车准驾车型”。本体库可以具有层次,例如在机动车驾驶证初次申领的层级下,有大陆居民申领小型汽车准驾车型、外国人申领小型汽车准驾车型、港澳台居民申领大型汽车准驾车型(城市公交车、大型货车);和机动车驾驶证初次申领在相同层级的是机动车驾驶证持军警驾驶证申领等;这些层级的上一层级可以为机动车驾驶证核发。事项性质可以可以包括行政权力事项或者公共服务事项。服务主体可以用于表示提供服务的部门,例如广东省科学技术厅。服务对象可以包括自然人或者法人。服务形式可以包括线上办理、线下办理、线上线下一体化办理。业务域分为自然人业务域和法人业务域:自然人业务域可以分为34个业务域:生育收养、教育科研、文化体育、入伍服役、就业创业、婚姻登记、纳税、住房保障、职业资格、社会保障(社会保险、社会救助)、医疗卫生、户籍办理、交通出行、出境入境、司法公证、死亡殡葬、其他、民族宗教、社会救助、消费维权、知识产权、行政缴费、优待抚恤、规划建设、证件办理、旅游观光、公共安全、公用事业、城市综合执法、养老服务、涉农补贴、义务教育、准营准办、设立变更、环保绿化、抵押质押、离职退休、地方特色分类。法人业务域也可以分为34个业务域:设立变更、准营准办、资质认证、年检年审、税收财务、人力资源、社会保障、投资审批、融资信贷、抵押质押、商务贸易、招标拍卖、海关口岸、涉外服务、农林牧渔、国土和规划建设、交通运输、环保绿化、应对气候变化、水务气象、医疗卫生、科技创新、文体教育、知识产权、民族宗教、质量技术、检验检疫、安全生产、公安消防、司法公证、公用事业、法人注销、档案文物、其他。
在一些实施例中,本申请的方法在获取政务知识点信息的步骤之后,还包括:
检测当前的政务知识库中是否存在和所述政务知识点信息对应的要素信息;
若存在和所述政务知识点信息对应的要素信息,则在所述当前的政务知识库中删除和所述政务知识点信息对应的要素信息。
本申请实施例中,因为政务办事指南随时可能更新,因此,在获取新的办事指南后,可以对政务知识库进行更新。具体地,可以先检测当前的政务知识库中是否存在和政务知识点信息对应的要素信息,如果不存在这继续执行后续步骤,如果存在,则在当前的政务知识库中删除和政务知识点信息对应的要素信息,然后重新通过语义解析出政务知识点信息的各个要素,并将其挂载在知识图谱的节点上。
在一些实施例中,所述方法还包括:
获取所述政务知识点信息对应的时效信息;
根据所述时效信息,对所述政务知识点信息中的要素信息进行状态更新。
本申请实施例中,可以为各个政务知识点信息设置有效时间,例如新能源购车补贴、家电下乡补贴等办事指南中明确给出了起止的,将截止日期设为有效时间。如果没有明确给出,可以设为长期。接着,可以根据时效信息,对政务知识点信息中的要素信息进行状态更新,比如已经过了有效时间的,可以定期删除或者自动更新,从而提高知识库质量。
参照图3,本申请实施例中,还提供一种基于知识图谱的政务知识库构建系统,包括:
获取模块201,用于获取政务知识点信息;
抽取模块202,用于通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;
构建模块203,用于根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;
其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
可以理解的是,图2所示的基于知识图谱的政务知识库构建方法实施例中的内容均适用于本基于知识图谱的政务知识库构建系统实施例中,本基于知识图谱的政务知识库构建系统实施例所具体实现的功能与图2所示的基于知识图谱的政务知识库构建方法实施例相同,并且达到的有益效果与图2所示的基于知识图谱的政务知识库构建方法实施例所达到的有益效果也相同。
参照图4,本申请实施例还公开了一种计算机设备,包括:
至少一个处理器301;
至少一个存储器302,用于存储至少一个程序;
当至少一个程序被至少一个处理器301执行,使得至少一个处理器301实现如图2所示的基于知识图谱的政务知识库构建方法实施例。
可以理解的是,如图2所示的基于知识图谱的政务知识库构建方法实施例中的内容均适用于本计算机设备实施例中,本计算机设备实施例所具体实现的功能与如图2所示的基于知识图谱的政务知识库构建方法实施例相同,并且达到的有益效果与如图2所示的基于知识图谱的政务知识库构建方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图2所示的基于知识图谱的政务知识库构建方法实施例。
可以理解的是,如图2所示的基于知识图谱的政务知识库构建方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与如图2所示的基于知识图谱的政务知识库构建方法实施例相同,并且达到的有益效果与如图2所示的基于知识图谱的政务知识库构建方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内
在本说明书的描述中,参考术语“一个实施方式”、“另一实施方式”或“某些实施方式”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于知识图谱的政务知识库构建方法,其特征在于,包括以下步骤:
获取政务知识点信息;
通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;
根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;
其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
2.根据权利要求1所述的一种基于知识图谱的政务知识库构建方法,其特征在于,所述通过深度学习模型对所述政务知识点信息进行知识抽取,包括:
将所述政务知识点信息输入到所述深度学习模型,对所述政务知识点信息进行词嵌入处理,得到第一特征数据;
通过所述双向长短期记忆人工神经网络提取所述第一特征数据的上下文特征,得到第二特征数据;
通过所述注意力层对所述第二特征数据进行注意力加权处理,得到第三特征数据;
通过所述全连接层对所述第三特征数据进行映射处理,完成所述政务知识点信息的知识抽取。
3.根据权利要求1所述的一种基于知识图谱的政务知识库构建方法,其特征在于,所述政务服务本体模型通过以下步骤建立:
将政务服务按照服务主体、服务对象、服务类型、服务名称或者业务域进行业务建模,得到对应的本体和关系信息;
根据所述本体和关系信息,建立政务服务本体模型。
4.根据权利要求3所述的一种基于知识图谱的政务知识库构建方法,其特征在于,所述业务域包括自然人业务域和法人业务域。
5.根据权利要求3所述的一种基于知识图谱的政务知识库构建方法,其特征在于,所述通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息,包括:
通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的业务域类别信息。
6.根据权利要求1-5中任一项所述的一种基于知识图谱的政务知识库构建方法,其特征在于,所述获取政务知识点信息的步骤之后,所述方法还包括:
检测当前的政务知识库中是否存在和所述政务知识点信息对应的要素信息;
若存在和所述政务知识点信息对应的要素信息,则在所述当前的政务知识库中删除和所述政务知识点信息对应的要素信息。
7.根据权利要求1-5中任一项所述的一种基于知识图谱的政务知识库构建方法,其特征在于,所述方法还包括:
获取所述政务知识点信息对应的时效信息;
根据所述时效信息,对所述政务知识点信息中的要素信息进行状态更新。
8.一种基于知识图谱的政务知识库构建系统,其特征在于,包括:
获取模块,用于获取政务知识点信息;
抽取模块,用于通过深度学习模型对所述政务知识点信息进行知识抽取,得到所述政务知识点信息对应的要素信息;
构建模块,用于根据预先构建的政务服务本体模型和所述要素信息进行知识图谱构建,得到建立好的政务知识库;
其中,所述深度学习模型中包括依次连接的输入层、词向量层、双向长短期记忆人工神经网络、注意力机制层和全连接层。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于知识图谱的政务知识库构建方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于:所述处理器可执行的程序在由处理器执行时用于实现如权利要求1-7中任一项所述的基于知识图谱的政务知识库构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111469283.0A CN114372125A (zh) | 2021-12-03 | 2021-12-03 | 基于知识图谱的政务知识库构建方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111469283.0A CN114372125A (zh) | 2021-12-03 | 2021-12-03 | 基于知识图谱的政务知识库构建方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372125A true CN114372125A (zh) | 2022-04-19 |
Family
ID=81139932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111469283.0A Pending CN114372125A (zh) | 2021-12-03 | 2021-12-03 | 基于知识图谱的政务知识库构建方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372125A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896425A (zh) * | 2022-07-13 | 2022-08-12 | 中关村科学城城市大脑股份有限公司 | 一种基于城市大脑的城市知识档案构建方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN112463985A (zh) * | 2020-12-04 | 2021-03-09 | 北京明略软件系统有限公司 | 政务图谱模型构建方法、装置、设备及计算机可读介质 |
CN112541086A (zh) * | 2020-12-14 | 2021-03-23 | 江苏大学 | 一种针对脑卒中的知识图谱构建方法 |
CN113342988A (zh) * | 2021-04-29 | 2021-09-03 | 山东大学 | 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 |
CN113672599A (zh) * | 2020-09-30 | 2021-11-19 | 华斌 | 通过创建领域知识图谱实现政务信息化项目建设管理的可视化辅助决策方法 |
-
2021
- 2021-12-03 CN CN202111469283.0A patent/CN114372125A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN113672599A (zh) * | 2020-09-30 | 2021-11-19 | 华斌 | 通过创建领域知识图谱实现政务信息化项目建设管理的可视化辅助决策方法 |
CN112463985A (zh) * | 2020-12-04 | 2021-03-09 | 北京明略软件系统有限公司 | 政务图谱模型构建方法、装置、设备及计算机可读介质 |
CN112541086A (zh) * | 2020-12-14 | 2021-03-23 | 江苏大学 | 一种针对脑卒中的知识图谱构建方法 |
CN113342988A (zh) * | 2021-04-29 | 2021-09-03 | 山东大学 | 一种基于lda跨域的构建服务知识图谱实现服务组合优化的方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896425A (zh) * | 2022-07-13 | 2022-08-12 | 中关村科学城城市大脑股份有限公司 | 一种基于城市大脑的城市知识档案构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156003B (zh) | 一种问答系统中的问句理解方法 | |
Ozdemir et al. | Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems | |
Nakoinz et al. | Modelling human behaviour in landscapes | |
CN109033068A (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
CN107832400A (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN106445988A (zh) | 一种大数据的智能处理方法和系统 | |
CN108572967A (zh) | 一种创建企业画像的方法及装置 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113011646A (zh) | 一种数据处理方法、设备以及可读存储介质 | |
CN114241459B (zh) | 一种驾驶员身份验证方法、装置、计算机设备及存储介质 | |
CN112836502B (zh) | 一种金融领域事件隐式因果关系抽取方法 | |
CN113806548A (zh) | 基于深度学习模型的信访要素抽取方法及抽取系统 | |
CN112487109A (zh) | 实体关系抽取方法、终端和计算机可读存储介质 | |
Caraballo et al. | Controllability for neutral stochastic functional integrodifferential equations with infinite delay | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN114372125A (zh) | 基于知识图谱的政务知识库构建方法、系统、设备及介质 | |
CN112905787B (zh) | 文本信息处理方法、短信处理方法、电子设备及可读介质 | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN115879541A (zh) | 数据处理方法、数据表示学习方法、系统和设备 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
Xu et al. | Research and implementation of the text matching algorithm in the field of housing law and policy based on deep learning | |
CN113657092A (zh) | 识别标签的方法、装置、设备以及介质 | |
CN113407704A (zh) | 文本匹配方法、装置、设备及计算机可读存储介质 | |
CN110909167A (zh) | 一种微博文本分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220419 |