CN113255364A - 基于知识融合的政务信息化项目多专家意见机器整合方法 - Google Patents

基于知识融合的政务信息化项目多专家意见机器整合方法 Download PDF

Info

Publication number
CN113255364A
CN113255364A CN202110589303.1A CN202110589303A CN113255364A CN 113255364 A CN113255364 A CN 113255364A CN 202110589303 A CN202110589303 A CN 202110589303A CN 113255364 A CN113255364 A CN 113255364A
Authority
CN
China
Prior art keywords
knowledge
project
expert
opinions
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110589303.1A
Other languages
English (en)
Inventor
华斌
吴诺
贺欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110589303.1A priority Critical patent/CN113255364A/zh
Publication of CN113255364A publication Critical patent/CN113255364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

同行专家评审是各个专业领域普遍采用的一种项目评价模式,同一个项目参评的多个专家在评审中会根据自己的观点对相关指标打分,并随后附注相关的文字意见。人工整合的专家组意见在一定程度上受人的多因素影响,且时效性低、复核工作量大,难以适应多项目网评的工作模式。本成果提出基于知识融合、以认知层的知识处理支撑文本层的意见整合,有效提升人工整合的效率与知识覆盖程度。在创建领域知识概念树与项目知识本体的知识补充与知识表示方法支撑下,通过SAO结构化知识获取与自定义的非结构化知识获取方法得到专家意见知识,在项目知识本体基础上完成知识关联、知识融合,完整实现多专家评审意见的专家组意见机器整合。

Description

基于知识融合的政务信息化项目多专家意见机器整合方法
1、技术领域
计算机科学与技术(人工智能、知识工程)、项目管理、知识管理(电子政务)、情报学、文本处理技术
2、背景技术
(1)项目管理
电子政务项目管理的相关标准与规定的整理;项目管理流程与项目评价指标的解读;专家意见短文本分析与专家组意见的模板整理等。
(2)知识管理技术
①建立项目知识概念树:项目知识概念树实际上是一种针对评审目标的、具有标准概念的分层知识表示方法。项目知识概念树的作用在这里是支持对专家评审意见实体进行分层语义识别,可以支持对专家意见文本进行结构化处理后的依存句法分析,实现基于概念树的语义映射,从而实现对专家意见文本中的实体进行不同概念层次的语义识别。
②建立政务信息化项目审批知识本体:政务信息化项目知识本体可以比较完整地表示项目背景知识,也是知识融合的语义规范,支持本成果中的知识融合技术实现。政务信息化项目审批知识本体的概念与概念间的关系来自于政务信息化项目管理的相关标准与规定。
③意见挖掘技术:意见挖掘是专家意见文本中知识获取的有效手段。短文本意见挖掘的难点在于短文本中对意见元素的表达具有形式多样或非显式的方式,在中文语境中则更加难以理解。自动化的短文本理解需要依赖额外的知识,这些知识可以帮助机器充分挖掘短文本中词与词之间的联系,如语义相关性。
④知识融合技术:从知识管理视角看,专家意见是一个以项目知识为基础的知识源,而专家组综合意见形成就是以项目知识为背景的多源知识融合问题。知识融合可以对多源异构数据进行实时、准确、智能的分析和提取,经过针对应用目标的科学计算实现知识单元的揭示、共享、关联和发现,进而得到融合后的新知识或新的解决方案。
(3)文本处理技术
①常规文本处理技术:包括项目评价指标打分表的整理,利用政务信息化项目的标准与管理规范训练项目的概念词库,辅之以同义词、近义词构成的基础词库。利用开源工具Hanlp对专家意见文本进行分句、分词、词性标注、去除无意义的停用词,利用依存句法分析识别语句SAO(主谓宾)结构,进行多主语或多宾语的意见句拆分,将包含多评价对象的复杂句细化为多个只包含唯一评价对象的SAO结构简单句等。
②基于知识融合的文本整合技术:基于信息融合的文本整合方法由于缺乏领域知识规范,必然具有知识增益的不确定性特点。在项目知识边界清晰、知识表达规范的基础上,知识融合方法可以实现以认知层的知识融合结果支撑文本整合的表达,较基于信息融合的方法不仅从扩充知识获取空间角度具有更好的知识增益,而且在针对性与深刻性的语义整合结果上会有更好的效果。
(4)情感分析技术
利用深度学习模型对专家意见语句进行情感倾向判定,利用RNN、LSTM、BIRNN、BILSTM四种分类器进行情感分类对比,得到最优的语义确定、情感倾向确定的意见集。
3、发明内容
本成果采用分层语义识别方法获取个体专家意见中的基本知识元,利用领域知识本体进行语义规范并实现知识扩充,进一步以知识融合支撑专家意见整合的技术方法实现专家组意见的生成。成果的实现过程包含如下主要处理环节,分别描述如下:
(1)知识补充与知识表示
为解决微观层的知识获取与定位问题,引入项目知识概念树层次化地表达项目概念知识与概念间的语义层次;在宏观层引入领域知识本体表示项目知识,支持知识扩充与关联、知识变换以实现隐性知识发现;从而完成多源知识融合为基础的综合意见生成。构成概念树与本体的知识均来自国家标准及对政务信息化项目的相关管理政策。
(2)基于分层语义识别的知识获取
专家意见知识获取旨在获取专家对项目要素的调整建议及情感态度等知识,为知识融合提供基础。该策略分别在词汇层(分词和词性标注)、句法层(命名实体识别和语法分析)、语义层(语义识别)进行知识挖掘与获取。
由于专家意见中的实体包含丰富的概念语义,利用命名实体识别技术进行实体语义识别,能够在没有领域词典的情况下提供特定领域的实体词库。针对评价意见的短文本特征,在语法分析基础上对专家意见进行SAO(subject-action-object)提取以实现结构化知识的获取,再以概念树支撑分层语义识别,挖掘出专家意见评价特征,利用深度学习模型构建情感分类器获得情感极性。该部分具体包括如下内容:
①命名实体识别
通过投票法集成HMM、CRF、BILSTM、BILSTM-CRF四种命名实体识别方法在政务职能实体抽取中得到较好的结果。在此以专家评价意见文本为数据,首先利用开源工具Hanlp对专家意见文本初步分句、分词、词性标注、去除停用词,然后将其分词特征Xi、词性特性POSi融入命名实体标注以提高集成模型效果。在抽取的同时形成领域实体词库。
②内在语义分析与结构化知识获取
通过依存句法分析可以获得句子中的依存语法,揭示语句内各词语的语义依赖关系。SAO是一种从文本语料中抽取的三元组结构,在包含大量信息的同时,还可以有效地保持信息之间的内在关联性。利用依存句法分析,对多主语或多宾语并列的意见句进行拆分,抽取到细粒度的SAO结构化知识,将其作为基础语义单元来表示专家意见,主语S和宾语O主要表示被评价对象,一般为名词、动名词等,这些词或词组所组成的主语或宾语与项目概念语义紧密相关。
③评价特征分层语义识别
SAO结构化后的评价意见需要针对主语和宾语进行评价特征分层语义识别,得到针对性强的细粒度评价特征。由于不同专家在概念表达上存在差异,采用精准匹配和基于文本最大相似度的模糊匹配方法综合实现基于概念树的概念语义映射,以得到较好的分层语义识别效果,其方法如下:
1)精准匹配方法
对于SAO结构文本SAOi,将其主语Si和宾语Oi分别与概念树概念集合C中的概念cj进行双向最大匹配,并将二者匹配成功的概念集合取并集得到集合Ri。若Ri不为空,比较Ri中的每个概念的层次深度,取最大深度的概念为该句的语义识别结果;若Ri为空,则进行模糊匹配。
2)模糊匹配方法
在意见文本结构化形成过程中,为不破坏专家意见完整性,保留形容词、副词、介词、连词等修饰性词语。但在利用文本相似度计算的模糊匹配中,必须利用分词并通过词性筛选去除修饰性词语以提高准确性,保留主要词语集合Si’={si1,si2,...,sim}和Oi’={oi1,oi2,...,oin}(m、n为词语个数)。
因此,将概念集合C中的概念cj进行分词得到cj={cj1,cj2,...,cjt}(t为词语个数)。基于细粒度分词的相似度Sim(Si’,cj)、Sim(Oi’,cj)的计算过程如公式(1)(2)所示。
Figure BSA0000242635940000031
Figure BSA0000242635940000032
其中sim(sik,cjr)为word2vec词向量余弦相似度计算。通过细粒度分词,采用笛卡尔积形式求平均相似度得到的结果准确性更高。循环概念集合C,计算Sim(Si’,cj)、Sim(Oi’,cj),取大于阈值的最大相似度,其对应的概念为该SAOi识别到的概念语义。
④非结构化知识获取定义
由于短文本中存在语言书写的不规范问题,部分意见的语法分析效果不佳,必然导致SAO结构化知识抽取错误而无法识别文本中的内在语义关系。总结意见中出现的三种主要问题并自定义相关规则以再定位知识,如表1所示。
表1 专家意见非SAO结构化知识语义分析
Figure BSA0000242635940000041
通过上述意见挖掘,可以有效获取专家意见中的知识元。
(3)基于知识融合的专家意见整合
利用专家评审意见挖掘得到的分层语义知识,在微观层和宏观层两个层次上的知识融合可以有效降低这种离散程度。最后,借助句法规则、逻辑规则完成专家综合意见特定文本结构模型的生成。在此之前,必须根据项目评价规则确定的加和平均法计算项目各指标得分与总得分获得评审结论。
①微观层知识融合
1)基于模糊理论的父概念综合意见生成
在分层语义识别的意见挖掘基础上,提出基于模糊理论的知识融合方法以生成父概念综合评意见。基于模糊集理论对评审意见进行“词-向量-词”的转换,生成高层次语义的综合评价语句。该过程主要包含三个步骤:a)子概念意见模糊化。利用情感分析中计算得到的正倾向概率来表示意见在该子概念下的情感隶属度。b)模糊融合。采用均值的方式,将父概念下的子概念所对应的情感隶属度进行知识融合,从而得到该父概念的综合情感隶属度。c)清晰化。即将综合情感隶属度恢复为综合意见文本。
2)基于SAO结构对齐的知识融合
对同一概念节点同一情感倾向的专家意见进行SAO结构对齐以达到知识融合,并在融合中利用子概念与父概念的层次语义关系,尽可能保留底层概念调整语句可针对性地完成知识融合。这种融合方法在一定程度上符合文本结构模型中的句法规则和逻辑规则。方法使用前,需要利用word2vec向量化词语并以余弦值作为结构对齐的判断依据。
②宏观层知识融合
领域知识本体可以突破概念树的界限,将部分专家意见中涉及的、概念树无法映射的领域知识语义通过本体完成语义关联,进而发现隐性知识以支持宏观层的知识融合。领域知识本体支撑下的知识关联可以有效扩充知识融合空间,同时提升融合结果的可理解性。
通过自定义推理规则进行知识推理,以得到本环节专家评审意见与项目政务职能之间的关系为例,设计推理规则如公式(3)所示。
Figure BSA0000242635940000051
其中a为某环节的专家评审意见变量,通过ADJUSTMENT_BELONG_TO关系获取评价意见a所关联的项目要素,通过FUNC_DUTY关系获取其项目要素属于的职能实体。
最终,评价意见a与通过项目要素所关联到的政务职能之间的关系表示为
Figure BSA0000242635940000052
Figure BSA0000242635940000053
表示该关系下的所有政务子职能。
将知识推理得到的关系进行关于项目背景的宏观层语义整合,显化项目知识。利用模糊理论从项目所涉及的政务职能角度生成评价意见。
(4)知识融合检验
为针对性地完成本文整合结果的有效性检验,利用文本内容信息量计算法与融合前后的知识单元计量对比进行混合检验,具有双重验证的效果。
①基于信息量计算的文本内容检验
使用香农信息量计算公式(4)计算文本所包含的信息量,其中xi为文本中的有效词语。通过该公式计算结果对比可以说明文本整合前后有效信息含量的变化情况。
Figure BSA0000242635940000054
②基于知识单元计量的知识融合结果检验
使用计算公式(5)可计算出文本整合后综合意见知识单元与整合前知识单元的数量比。整合前专家组结构化知识经概念树语义映射及本体知识变化所得到的知识单元数为m,同理可得整合后综合意见经过结构化知识抽取对应的知识单元数n,经本体知识关联与推理(公式(3))得到项目知识单元数n′。可见,ContactRatio的值大于1则说明整合后的综合意见较整合前的意见具有更丰富的项目知识单元。
Figure BSA0000242635940000061
4、附图说明
图1:政务信息化项目专家审批意见表:显示了本成果的数据源;
图2:项目领域知识概念树示意图:显示了本成果创建的电子政务领域概念树(部分);
图3:政务信息化项目审批知识本体图:显示了本成果创建的政务信息化项目审批知识本体;
图4:基于分层语义识别的专家意见获取过程图:显示了本成果中知识获取的过程;
图5:知识融合为基础的专家意见整合策略图:显示了本成果中的专家意见整合策略;
图6:基于SAO对齐的知识融合示例:显示了本成果中的知识融合方法。
5、具体实施方式
本成果的实施是实现了一个政务信息化项目多专家评审意见的机器整合方法,在2017年--2018年214个省级政务信息化项目专家组评审意见的基础语料库支持下,对1211条意见进行了实际运行效果检验。实践结果证明,该方法通过特定的知识表示、语言文字处理技术等,对专家评审意见的分层语义识别和基于知识融合的专家组综合意见自动生成,可以大幅度提升专家组意见的客观性和生成效率。本成果设计的上述过程理论上可支持不同领域的项目评审意见整合,其框架具有一定的通用性。
本成果领域本体基于Cypher语言存储在Neo4j中;实验基于Python语言,利用开源工具Hanlp提供的pyhanlp包、Google开源深度学习框架Tensorflow及其高级API——keras等在Windows环境下实现。

Claims (3)

1.一种应用于电子政务领域专家组评审意见整合的机器自动整合方法,其特征在于,包括:S1、利用领域概念树与领域知识本体的知识表达方式进行知识抽取、关联与语义识别,挖掘基于被评价项目背景的隐性知识;S2、在微观层与宏观层进行基于知识融合的电子政务领域专家组意见整合。
2.根据权利要求1所述的方法,其特征在于创建相关领域知识概念树与领域知识本体,并分别用于分层语义识别和知识关联与融合的语义规范。
3.根据权利1和2所述的方法,其特征在于在认知层进行知识关联与推理,再完成专家意见中的知识融合,并基于融合后的知识完成专家组评审意见整合。
CN202110589303.1A 2021-05-28 2021-05-28 基于知识融合的政务信息化项目多专家意见机器整合方法 Pending CN113255364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110589303.1A CN113255364A (zh) 2021-05-28 2021-05-28 基于知识融合的政务信息化项目多专家意见机器整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110589303.1A CN113255364A (zh) 2021-05-28 2021-05-28 基于知识融合的政务信息化项目多专家意见机器整合方法

Publications (1)

Publication Number Publication Date
CN113255364A true CN113255364A (zh) 2021-08-13

Family

ID=77185082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110589303.1A Pending CN113255364A (zh) 2021-05-28 2021-05-28 基于知识融合的政务信息化项目多专家意见机器整合方法

Country Status (1)

Country Link
CN (1) CN113255364A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156393A1 (en) * 2001-07-31 2007-07-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
KR20150030540A (ko) * 2013-09-12 2015-03-20 국방과학연구소 정보 융합 방법 및 시스템
CN106909680A (zh) * 2017-03-03 2017-06-30 中国科学技术信息研究所 一种基于知识组织语义关系的科技专家信息聚合方法
CN110046262A (zh) * 2019-06-10 2019-07-23 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN112287679A (zh) * 2020-10-16 2021-01-29 国网江西省电力有限公司电力科学研究院 一种科技项目评审中文本信息的结构化抽取方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156393A1 (en) * 2001-07-31 2007-07-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
KR20150030540A (ko) * 2013-09-12 2015-03-20 국방과학연구소 정보 융합 방법 및 시스템
CN106909680A (zh) * 2017-03-03 2017-06-30 中国科学技术信息研究所 一种基于知识组织语义关系的科技专家信息聚合方法
CN110046262A (zh) * 2019-06-10 2019-07-23 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
CN111428048A (zh) * 2020-03-20 2020-07-17 厦门渊亭信息科技有限公司 一种基于人工智能的跨领域知识图谱构建方法及装置
CN112287679A (zh) * 2020-10-16 2021-01-29 国网江西省电力有限公司电力科学研究院 一种科技项目评审中文本信息的结构化抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
华斌;吴诺;李若瑄: "基于知识图谱的电子政务项目评价方法研究与实践", 情报理论与实践, vol. 44, no. 2, 17 September 2020 (2020-09-17), pages 149 - 153 *
张卫: "电子政务领域中文术语层次关系识别研究", 情报学报, vol. 40, no. 1, 24 January 2021 (2021-01-24), pages 62 - 75 *
王忠群等: "基于领域专家和商品特征概念树的在线商品评论深刻性度量", 现代图书情报技术, no. 262, 25 September 2015 (2015-09-25), pages 17 - 25 *

Similar Documents

Publication Publication Date Title
WO2020000848A1 (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及系统
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
Rahimi et al. An overview on extractive text summarization
CN115809345A (zh) 一种基于知识图谱的多源数据差异溯源检索方法
Bilgin et al. Sentiment analysis with term weighting and word vectors
CN111597349B (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN112183059A (zh) 一种中文结构化事件抽取方法
Zhao et al. Keyword extraction for social media short text
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
Berdyugina et al. Automatic extraction of inventive information out of patent texts in support of manufacturing design studies using Natural Languages Processing
CN114707516A (zh) 一种基于对比学习的长文本语义相似度计算方法
Burgdorf et al. Docsemmap: Leveraging textual data documentations for mapping structured data sets into knowledge graphs
Melnikov et al. On usage of machine learning for natural language processing tasks as illustrated by educational content mining
CN113255364A (zh) 基于知识融合的政务信息化项目多专家意见机器整合方法
Ashique Sentiment analysis using machines learning approaches of Twitter data and semantic analysis
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
CN113869040A (zh) 一种电网调度的语音识别方法
Zhang et al. An ontology-based approach for chinese legal information retrieval
Chen et al. A multi-label classification algorithm for non-standard text
Karunanayake et al. Sinhala Sentiment Lexicon Generation using Word Similarity
Wu et al. Intelligent Customer Service System Optimization Based on Artificial Intelligence
Bandara et al. Ontology based fake news detection for sinhala language
Lin et al. Research and application of knowledge graph technology for intelligent question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination