CN103617481B - 一种面向流程的领域知识抽取与推送系统及方法 - Google Patents

一种面向流程的领域知识抽取与推送系统及方法 Download PDF

Info

Publication number
CN103617481B
CN103617481B CN201310542024.5A CN201310542024A CN103617481B CN 103617481 B CN103617481 B CN 103617481B CN 201310542024 A CN201310542024 A CN 201310542024A CN 103617481 B CN103617481 B CN 103617481B
Authority
CN
China
Prior art keywords
knowledge
vector
oriented
layer
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310542024.5A
Other languages
English (en)
Other versions
CN103617481A (zh
Inventor
赵民
王永庆
施荣明
沈琪
张静
张国明
田锋
黄毓瑜
高建忠
赵琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Original Assignee
Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC filed Critical Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority to CN201310542024.5A priority Critical patent/CN103617481B/zh
Priority to CN201610117829.9A priority patent/CN105787072B/zh
Publication of CN103617481A publication Critical patent/CN103617481A/zh
Application granted granted Critical
Publication of CN103617481B publication Critical patent/CN103617481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向流程的领域知识抽取与推送系统,其系统包括用户模块、知识资源模块、知识推送模块和流程模块,从知识资源中抽取知识并用知识向量表示,从流程任务中提取流程向量,从用户描述中提取用户属性向量;通过在流程向量、用户属性向量和知识向量之间进行匹配计算,得出知识需求和知识的相关度;通过用户行为变量计算得到知识分值,最终用知识分值对知识相关度计算的结果进行校正,得到与流程任务密切相关的知识排序结果,实现知识向流程任务的更准确推送。本发明认为知识推送的本质是在正确的时间,以正确的形式,把正确的知识传给正确的人,本发明提供的面向流程的领域知识抽取与推送系统及方法工作效率高、准确性好。

Description

一种面向流程的领域知识抽取与推送系统及方法
技术领域
本发明涉及一种计算机知识应用系统,特别是用于抽取与用户业务活动相关的知识,并按实际需要智能地推送知识到相关业务活动的方法和系统。
背景技术
知识经济环境下,知识正成为越来越多企业的最重要资源,其实质是将知识视为最重要的企业资源,通过知识的获取和共享,将恰当的知识传递给恰当的使用者,从而有效地提高企业知识利用率、促进员工的知识创新,使企业获得竞争优势。
知识管理和集成是提高企业知识重用水平,防止知识流失,实现业务流程自动化、智能化的有效手段。企业在生产过程中积累了大量的经验和知识,但是这些知识大多以数据库、知识库、纸质文件和人脑中隐性知识的形式存在,人们获取知识的方式主要通过手工检索,无法保证知识获取的及时性、准确性和全面性。所以研究将已有知识与产品设计活动相关联,与设计过程进行集成,使得研发设计过程的参与人员在恰当的时间获得需要的知识显得很有必要。
研发设计过程是知识密集的活动集合,一方面设计活动应用大量的规则知识、实例知识、经验数据进行决策和指导设计;另一方面设计活动也是知识产生和获取的源泉。知识集成的目标就是将设计知识管理与设计过程结合,通过对设计活动角色、对象、目标、需求等属性的描述,与相关知识进行匹配,从而减少手工知识搜索工作,实现快速准确地将设计知识推送给设计人员。
目前国内外已经有些学者和组织对企业知识推送进行了研究和尝试。在基于流程和事件驱动的知识推送系统研究方面,主要著述有:在文献:王生发, 顾新建,郭剑锋等所撰论文:面向产品设计的知识主动推送研究,载于《计算机集成制造系统》,2007,13(2):234-239,针对现有系统不能主动将知识在适当的时候传递给适当的设计人员的缺点,提出了一种基于知识管理的、以工作流驱动的产品设计知识主动推送体系结构和方式;但其知识匹配体系所涉及的规则和对象比较多,从而影响了知识匹配和推送的效率和正确率;在文献:刘新宇撰论文:基于流程的知识推送系统的理论框架与应用研究。沈阳:东北大学,2005。对基于流程的知识推送系统主要对其理论、框架与应用进行了系统研究;对知识推送技术,主要介绍了面向岗位的运营知识和面向员工的项目知识的推送方法;但仍没有考虑知识领域的影响,其方法存在检索数据量大、推送精度不高的问题;在文献:陈浩,刘念,胡艳军撰论文:基于工作流的知识建模研究,载于《制造业自动化》,2005,27(5):8-12,提出了基于工作流的知识建模及其系统框架,讨论了支持知识与知识、知识与人、以及知识与过程的集成技术,以及将知识应用到企业的业务流程中的方法;但该文只考虑了工作流和知识库的相互作用,没有考虑知识主体——人在其中的影响,且只是建立了概念模型和简单介绍了相关技术。上述研究的共同缺点是提出的知识匹配与推送方法存在效率低、准确性差等问题。
发明内容
本发明的目的是:针对上述背景技术存在的问题而提出的一种新的面向流程的领域知识抽取与推送系统及方法。本发明认为知识推送的本质是在正确的时间,以正确的形式,把正确的知识传给正确的人。只有把知识、企业业务流程和人三者结合起来,才能实现有效的知识推送。
本发明的技术方案是:一种面向流程的领域知识抽取与推送系统,包括 如下模块:
用户模块,用户是知识推送的目标,用户参考系统推送的知识执行流程任务,并进行其他知识管理活动;
知识资源模块,为企业知识提供一个存储空间,并对其进行分类管理,响应知识推送请求,辅助用户模块的员工完成流程任务;
知识推送模块,由知识表示抽取层和知识计算重构层构成,用于缩小知识匹配范围,只匹配符合流程特性的领域知识,并推送给用户,提高匹配效率和精度;
流程模块,是知识推送的源头,流程由企业的具体需求产生,可以划分成几个相对独立的子流程任务,各个子流程可以根据其涉及的相关知识来设置知识的属性。
所述用户模块进行的其他知识管理活动包括对推送的知识进行评价和反馈、发布自己的隐性知识、定制感兴趣的知识、向其他用户推荐知识等。
所述知识资源模块是由企业知识库、企业员工隐性知识、客户知识、企业外部公开网络等方面的知识构成的一个知识空间。
所述知识推送模块由知识表示抽取层和知识计算重构层构成。
所述知识表示抽取层包括知识抽取层和知识表示层。
所述知识抽取层是指采用文本信息提取技术从企业内众多的知识资源中提取出所需的知识内容。
所述文本信息提取技术是指从一段文本中提取出规定的某一类或几类特定信息,并将其进行结构化处理的过程;其处理过程包括,首先构造信息提取的规则集,再利用这些规则从文本中提取出指定的信息。
所述知识表示层是将文本信息提取的结果以数据库的数据表等形式进行信息规范化,知识表示层与知识向量对应。
所述知识计算重构层是指在知识表示的基础上,根据流程任务对知识的需求,通过对知识的匹配运算,得到符合条件的知识,并将所得到的知识推送给执行流程任务的用户。
所述知识的匹配运算包括如下步骤:
第一,相关性计算,是指根据业务流程对知识的需求(即流程向量),以及知识自身的特征(即知识向量)和用户的专业、偏好及经验(即用户属性向量),对符合知识需求的知识进行相关性计算;
第二,知识分值计算是指基于用户行为向量产生的对知识的评分计算;
第三,知识排序是指在相关性计算的基础上,知识分值计算结果干预相关性计算对知识的排序,得到校正后的知识得分,按照得分从高到低的顺序对知识进行排序,将结果推送给完成某一特定任务的用户,从而实现本发明所述的与流程任务具有紧密联系的知识的推送。
一种面向流程的领域知识抽取与推送方法,其特征在于,包括如下步骤:
第一,从知识资源中抽取知识并用知识向量表示,从流程任务中提取流程向量,从用户描述中提取用户属性向量;
第二,通过在流程向量、用户属性向量和知识向量之间进行匹配计算,得出知识需求和知识的相关度;
第三,通过用户行为变量计算得到知识分值,最终用知识分值对知识相关度计算的结果进行校正,得到与流程任务密切相关的知识排序结果,实现知识向流程任务的更准确推送。
所述从知识资源中抽取知识是指采用文本信息提取技术从企业内众多的知识资源中提取出所需的知识内容;所述文本信息提取技术是指从一段文本中提取出规定的某一类或几类特定信息,并将其进行结构化处理的过程。
所述知识向量是用来描述知识的向量空间。
所述知识向量(KNOWLEDGE VECTORS,WV)的来源包括文本的主题、作者、关键词、摘要和时间;所述知识向量是一个五元组:
KV=SF,AF,KF,ABF,TIF
其中:
SF为主题因子(TOPIC FACTORS),SF={sfi:I=1,2,…,|SF|},表示文本的所属主题,由有限个数的主题词汇表示,同一篇文档可以归属于一个或多个主题;
AF为作者因子(AUTHOR FACTORS),AF={AFJ:J=1,2,…,|AF|},表示知识的作者;
KF为关键词因子(KEYWORD FACTORS),KF={KFK:K=1,2,…,|KF|},表示文本的关键词;
ABF为摘要因子(ABSTRACT FACTORS),ABF={ABFM:M=1,2,…,|ABF|},由有限个数的来自文本摘要的词汇来表示;
TIF为时间因子(TIME FACTORS),由YY-MM-DD六位编码表示,分别代表文档产生的年、月和日。
所述流程向量来自流程任务,流程向量(WORKFLOW VECTORS,WV)是一个三元组:
WV=FF,WTF,WPF
其中:
FF为领域因子(FIELD FACTORS),FF={FFI:I=1,2,…,|FF|},表示业务领域的有限集;WTF为流程类型因子(WORKFLOW TYPE FACTORS),WTF={WTFJ:J=1,2,…,|WTF|},表示在业务流程实例运行阶段,根据具体的实例任务和情境所提出的流程类型有限集;WPF为工作包因子(WORKPACKAGE FACTORS),WPF={WPFK:K=1,2,…,|WPF|},表示流程任务所在的工作包所包含的特征项的有限集;
领域因子FF是指在业务流程建模阶段,基于组织经验和最佳实践,为其组成活动所指定的业务领域的类别,是由领域名称构成的有限集;流程类型因子WTF指流程的所属类型,如方案策划类流程、计算类流程、试验类流程等;工作包因子WPF的来源可包括工作包的名称、关键字、输入、输出、约束指标和资源;
流程向量中的领域因子、流程类型因子,其权值可预先由用户根据需要指定;
工作包中的特征项的权值,按知识向量中特征项权值的计算方式计算。
所述所述用户属性向量是指用以表征个体用户特征的向量空间。
所述用户属性向量是一个三元组:
UV=MF,UIF,EF
其中:
MF为专业因子(MAJOR FACTORS),MF={MFI:I=1,2,…,|MF|},由有限个数的专业名称词汇表示;
UIF为用户兴趣因子,UIF={UIFI:I=1,2,…,|UIF|},由若干个特 征词汇表示;
EF为经验因子(EXPERIENCE FACTORS),EF={EFI:I=1,2,…,|EF|},从用户过往项目经验中提取出,由有限个数的专业技术术语表示;用户属性向量中的特征项,可由用户预先根据需要指定其权值。
所述知识需求(由KR表示)由流程向量WV、用户属性向量UV构成的向量集合所表征,即:KR=WV∪UV。
所述知识需求和知识的相关度计算方法为:
S I M ( K R , K V ) = cos θ = Σ k = 1 n W 1 k × W 2 k ( Σ k = 1 n W 1 k 2 ) × ( Σ k = 1 n W 2 k 2 )
其中,W1K、W2K分别表示知识需求KR和知识向量KV第K个特征项的权值,1<=K<=N。
所述通过用户行为变量计算得到知识分值方法为:
基于用户行为向量产生的对知识的评分计算。知识分值计算的结果对相关性计算结果具有校正作用,其作用在知识排序中体现。
所述用户行为向量基于特定知识被用户所浏览、下载、收藏、推荐数据计算得出,分别以FL、FD、FF、FR表示。
知识分值(KNOWLEDGE SCORE,KS)计算的公式为:
K S = &alpha; &times; FD i F D + FL i F L 2 + ( 1 - &alpha; ) &times; FF i F F + FR i F R 2
其中,FDI和FD分别代表该知识被下载的次数和全部知识中被下载最多的知识的下载次数,FLI和FL分别代表该知识被浏览的次数和全部知识中被 浏览最多的知识的浏览次数,FFI和FF分别代表该知识被收藏的次数和全部知识中被收藏最多的知识的收藏次数,FRI和FR分别代表该知识被推荐的次数和全部知识中被推荐最多的知识的推荐次数。由上述定义可知,同理, 0 &le; FL i F L &le; 1 , 0 &le; FF i F F &le; 1 , 0 &le; FR i F R &le; 1.
所述知识排序结果的计算方法为:
在相关性计算的基础上,知识分值计算结果干预相关性计算对知识的排序,得到校正后的知识得分,按照得分从高到低的顺序对知识进行排序,将结果推送给完成某一特定任务的员工,从而实现本发明所述的与流程任务具有紧密联系的知识的推送;其计算公式为:
KCS=β×Sim(KR,KV)+(1-β)×KS
其中,KCS(KNOWLEDGE CORRECTION SCORE,KCS)代表校正后的知识得分,SIM(KR,KV)为相关性计算结果,KS为知识分值计算结果,通过对二者加权运算后求和,得到校正后的知识得分KCS;β是用来调节相关性计算结果和知识分值计算结果的算子。
本发明的优点:本发明认为知识推送的本质是在正确的时间,以正确的形式,把正确的知识传给正确的人。只有把知识、企业业务流程和人三者结合起来,才能实现有效的知识推送。上述本发明提供面向流程的领域知识抽取与推送系统及方法工作效率高、准确性好。
附图说明
图1表示面向流程领域知识的抽取与推送系统的架构
图2表示知识推送层的实现方式
图3表示面向流程的知识运算及排序过程
具体实施方式
下面结合附图说明本发明的具体实施方式:
本发明提出一种流程驱动的领域知识推送系统,包括如下模块:
用户模块,用户是知识推送的目标,用户参考系统推送的知识执行流程任务,并进行其他知识管理活动;
知识资源模块,为企业知识提供一个存储空间,并对其进行分类管理,响应知识推送请求,辅助用户模块的员工完成流程任务;
知识推送模块,由知识表示抽取层和知识计算重构层构成,用于缩小知识匹配范围,只匹配符合流程特性的领域知识,并推送给用户,提高匹配效率和精度;
流程模块,是知识推送的源头,流程由企业的具体需求产生,可以划分成多个相对独立的子流程任务,各个子流程可以根据其涉及的相关知识来设置知识的属性。
同时,其面向流程的领域知识抽取与推送方法,包括如下步骤:
第一,从知识资源中抽取知识并用知识向量表示,从流程任务中提取流程向量,从用户描述中提取用户属性向量;
第二,通过在流程向量、用户属性向量和知识向量之间进行匹配计算,得出知识需求和知识的相关度;
第三,通过用户行为变量计算得到知识分值,最终用知识分值对知识相关度计算的结果进行校正,得到与流程任务密切相关的知识排序结果,实现知识向流程任务的更准确推送。
图1中的架构图描述了各个层次之间的逻辑关系。各个层次的主要功能描述如下:
(1)用户层
用户主要来自于企业内部的员工,是企业知识创造与应用的主体,也是知识推送的目标。用户除了参考系统推送的知识执行流程任务外,还可以进行其他的知识管理活动,如对推送的知识进行评价和反馈、发布自己的隐性知识、定制感兴趣的知识、向其他用户推荐知识等活动。
(2)知识资源层
知识资源层是一个由企业知识库、企业员工隐性知识、客户知识、企业外部公开网络等方面的知识构成的一个知识空间。知识资源层的主要任务是为企业知识提供一个存储空间,并对其进行分类管理,响应知识推送请求,辅助用户层的员工完成流程任务。
(3)知识推送层
知识推送层是实现用户层、知识资源层和流程层之间相互关联的一个中间层次。知识推送层可以缩小知识匹配范围,只匹配符合流程特性的领域知识,并推送给用户,提高匹配效率和精度。知识推送层是本发明的重点所在。
(4)流程层
流程层是知识推送的出发点,是知识推送的源头。流程由企业的具体需求产生,可以划分成几个相对独立的子流程任务,分配给各个员工来承担并完成任务。各个子流程可以根据其涉及的相关知识来设置知识的属性。
2、知识推送层
如图2所示,所述知识推送层由知识表示抽取层和知识计算重构层构成。
所述知识表示抽取层包括知识抽取层、知识表示层。
知识抽取层是指采用文本信息提取技术从企业内众多的知识资源中提取出所需的知识内容。
所述文本信息提取技术是指从一段文本中提取出规定的某一类或几类特定信息,并将其进行结构化处理的过程。本发明采用基于规则的文本信息提取模型实现知识抽取。其处理过程包括,首先构造信息提取的规则集,再利用这些规则从文本中提取出指定的信息。
知识表示层是将文本信息提取的结果以数据库的数据表等形式进行信息规范化。知识表示层与知识向量对应。关于知识向量,下文将详述。
知识计算重构层是指在知识表示的基础上,根据流程任务对知识的需求,通过对知识的匹配运算,得到符合条件的知识,并将所得到的知识推送给执行流程任务的员工。
3、知识计算过程
知识计算过程由相关性计算、知识分值计算、知识排序等步骤组成。
1)所述相关性计算,是指根据业务流程对知识的需求(即流程向量),以及知识自身的特征(即知识向量)和用户的专业、偏好及经验(即用户属性向量),对符合知识需求的知识进行相关性计算;
在本发明中,流程向量来自流程任务,是知识需求的主要来源。流程向量(WORKFLOW VECTORS,WV)是一个三元组:
WV=FF,WTF,WPF
其中:
FF为领域因子(FIELD FACTORS),FF={FFI:I=1,2,…,|FF|},表示 业务领域的有限集;WTF为流程类型因子(WORKFLOW TYPE FACTORS),WTF={WTFJ:J=1,2,…,|WTF|},表示在业务流程实例运行阶段,根据具体的实例任务和情境所提出的流程类型有限集;WPF为工作包因子(WORKPACKAGE FACTORS),WPF={WPFK:K=1,2,…,|WPF|},表示流程任务所在的工作包所包含的特征项的有限集。
领域因子FF是指在业务流程建模阶段,基于组织经验和最佳实践,为其组成活动所指定的业务领域的类别,是由领域名称构成的有限集;流程类型因子WTF指流程的所属类型,如方案策划类流程、计算类流程、试验类流程,等;工作包因子WPF的来源可包括工作包的名称、关键字、输入、输出、约束指标和资源。(说明:所述工作包是指工作分解结构(WORKBREAKDOWN STRUCTURE,WBS)的最低层次的项目可交付成果,具有其结构化的表示方式。)例如,某个流程向量WV,其领域因子FF={总体领域,气动领域,结构领域},流程类型因子WTF={方案策划类流程,计算类流程},工作包因子WPF={名称,输入,输出,资源,约束指标}。指定领域因子FF的特征项总体领域、气动领域、结构领域,其权值分别为0.3、0.3、0.2。指定流程类型因子WTF的特征项方案策划类流程、计算类流程,其权值分别为0.25、0.15。工作包因子WPF中的特征项名称、输入、输出、资源、约束指标的权值,按知识向量中TF-IDF特征项权值的计算方式计算,其权值分别为0.3、0.2、0.2、0.15、0.1。
则流程向量WV的向量表示为WV={FF(0.3,0.3,0.2),WTF(0.25,0.15),WPF(0.3,0.2,0.2,0.15,0.1)}。
所述知识向量(KNOWLEDGE VECTORS,KV)是用来描述知识的向量空间, 其来源包括文本的主题、作者、关键词、摘要和时间。知识向量的获得通过前述的知识抽取过程完成,即基于规则的文本信息提取。如上所述,知识向量是一个五元组:
KV=SF,AF,KF,ABF,TIF
其中:
SF为主题因子(TOPIC FACTORS),SF={sfI:I=1,2,…,|SF|},表示文本的所属主题,由有限个数的主题词汇表示,同一篇文档可以归属于一个或多个主题;AF为作者因子(AUTHOR FACTORS),AF={AFJ:J=1,2,…,|AF|},表示知识的作者;KF为关键词因子(KEYWORD FACTORS),KF={KFK:K=1,2,…,|KF|},表示文本的关键词;ABF为摘要因子(ABSTRACT FACTORS),ABF={ABFM:M=1,2,…,|ABF|},由有限个数的来自文本摘要的词汇来表示;TIF为时间因子(TIME FACTORS),由YY-MM-DD六位编码表示,分别代表文档产生的年、月和日,如13-06-01,表示2013年6月1日。
例如,某个知识向量KV,其主题因子SF={翼面设计},作者因子AF={王力},关键词因子KF={翼面外形},摘要因子ABF={一种翼面外形设计的方法},时间因子TIF={13-06-01}。主题因子SF中的特征项翼面设计的权值,按TF-IDF特征项权值的计算方式计算,其权值为0.3。作者因子AF中的特征项王力的权值,按TF-IDF特征项权值的计算方式计算,其权值为0.2。关键词因子KF中的特征项翼面外形的权值,按TF-IDF特征项权值的计算方式计算,其权值为0.2。摘要因子ABF中的特征项一种翼面外形设计的方法的权值,按TF-IDF特征项权值的计算方式计算,其权值为0.1。时间因子TIF中的特征项13-06-01的权值,按TF-IDF特征项权值的计算方式计算,其权 值为0.15。
则知识向量KV的向量表示为KV={SF(0.3),AF(0.2),KF(0.2),ABF(0.1),TIF(0.15)}。
所述用户属性向量是指用以表征个体用户特征的向量空间。用户属性向量是知识需求的另一个来源。用户属性向量是一个三元组:
UV=MF,UIF,EF
其中:
MF为专业因子(MAJOR FACTORS),MF={MFI:I=1,2,…,|MF|},由有限个数的专业名称词汇表示;UIF为用户兴趣因子,UIF={UIFI:I=1,2,…,|UIF|},由若干个特征词汇表示;EF为经验因子(EXPERIENCE FACTORS),EF={EFI:I=1,2,…,|EF|},从用户过往项目经验中提取出,由有限个数的专业技术术语表示。
例如,某个用户属性向量UV,其专业因子MF={总体设计},用户兴趣因子UIF={飞行动力学,飞行颤振试验},经验因子EF={翼面设计,改进改型}。指定专业因子MF的特征项总体设计,其权值为0.2。指定用户兴趣因子UIF的特征项飞行动力学、飞行颤振试验,其权值分别为0.1、0.15。指定经验因子EF的特征项翼面设计、改进改型,其权值分别为0.15、0.15。
则用户属性向量UV的向量表示为UV={MF(0.2),UIF(0.1,0.15),EF(0.15,0.15)}。
知识需求(KNOWLEDGE REQUIREMENT,KR)由流程向量WV、用户属性向量UV构成的向量集合所表征,即:
KR=WV∪UV
接上例,流程向量WV的向量表示为WV={FF(0.3,0.3,0.2),WTF(0.25,0.15),WPF(0.3,0.2,0.2,0.15,0.1)},用户属性向量UV的向量表示为UV={MF(0.2),UIF(0.1,0.15),EF(0.15,0.15)}。
则知识需求KR的向量表示为KR={FF(0.3,0.3,0.2),WTF(0.25,0.15),WPF(0.3,0.2,0.2,0.15,0.1),MF(0.2),UIF(0.1,0.15),EF(0.15,0.15)}。
特征项的权值计算:
a.流程向量中的领域因子、流程类型因子,其权值可预先由用户根据需要指定;工作包中的特征项的权值,按知识向量中特征项权值的计算方式计算;
b.用户属性向量中的特征项,如专业(专业名称)、兴趣(技术术语)、经验(技术术语),可由用户预先根据需要指定其权值;
c.知识向量中,特征项权值计算,引用业界公式,本发明引用了TF-IDF函数:
&psi; = TF t , d &times; log ( N D t )
其中,TFT,D为特征项T在文档D中出现的频率,N为所有文档的数目,DT为含有T的文档数目。该函数的提出是基于这样一个假设:对区别文档有意义的词语应该是那些在文档中出现频率足够高,但在整个文档集合的其他文档中出现频率足够少的词语。如“起落架”,在文档D中出现了10次,文档D中词语的总频数是200,则TFT,D=10/200,即0.05;N为100000,即文档数是100000个,含有“起落架”的文档是10个,则 则“起落架”的特征权值=0.05*4=0.2。
相关性计算,是在知识需求(KR)和知识向量(KV)之间求得相关性的过程。具体为:
S I M ( K R , K V ) = cos &theta; = &Sigma; k = 1 n W 1 k &times; W 2 k ( &Sigma; k = 1 n W 1 k 2 ) &times; ( &Sigma; k = 1 n W 2 k 2 )
其中,W1K、W2K分别表示知识需求KR和知识向量KV第K个特征项的权值,1<=K<=N。例如知识需求KR的特征项为A,B,C,D,权值分别为30,20,20,10,知识向量KV的特征项为A,C,D,E,权值分别为40,30,20,10,则KR的向量表示为KR(30,20,20,10,0),KV的向量表示为KV(40,0,30,20,10),则根据上式计算出来的知识需求KR与知识向量KV的相关度是0.86。
2)所述知识分值计算,是指基于用户行为向量产生的对知识的评分计算。知识分值计算的结果对相关性计算结果具有校正作用,其作用在知识排序中体现。
所述用户行为向量基于特定知识被用户所浏览、下载、收藏、推荐数据计算得出,分别以FL、FD、FF、FR表示。
知识分值(KNOWLEDGE SCORE,KS)计算的公式为:
K S = &alpha; &times; FD i F D + FL i F L 2 + ( 1 - &alpha; ) &times; FF i + FR i F R 2
其中,FDI和FD分别代表该知识被下载的次数和全部知识中被下载最多的知识的下载次数,FLI和FL分别代表该知识被浏览的次数和全部知识中被浏览最多的知识的浏览次数,FFI和FF分别代表该知识被收藏的次数和全部知识中被收藏最多的知识的收藏次数,FRI和FR分别代表该知识被推荐的次 数和全部知识中被推荐最多的知识的推荐次数。由上述定义可知,同理,本发明对下载、浏览行为进行合并处理,对二者的算术平均数赋以一个权值α,对收藏、推荐行为进行合并处理,对二者的算术平均数赋以权值1-α。通常意义上,0.1≦α≦0.4。即,用户的下载及浏览行为对于知识分值的影响要低于收藏和推荐行为对知识分值的影响。
例如,FDI、FD、FLI、FL、FFI、FF、FRI、FR分别为40,50,80,100,30,40,15,20,设α=0.3,则本例中KS=0.765。
3)所述知识排序,是指在相关性计算的基础上,知识分值计算结果干预相关性计算对知识的排序,得到校正后的知识得分,按照得分从高到低的顺序对知识进行排序,将结果推送给完成某一特定任务的员工,从而实现本发明所述的与流程任务具有紧密联系的知识的推送。其计算公式为:
KCS=β×Sim(KR,KV)+(1-β)×KS
其中,KCS(KNOWLEDGE CORRECTION SCORE,KCS)代表校正后的知识得分,SIM(KR,KV)为相关性计算结果,KS为知识分值计算结果,通过对二者加权运算后求和,得到校正后的知识得分KCS。β是用来调节相关性计算结果和知识分值计算结果的算子。相关性计算对知识排序起主要作用,因此,通常意义上,0.7≦β≦0.9。例如,假设两条知识的相关性计算结果分别为0.86和0.80,对应的各自知识分值KS为0.72和0.9,设β为0.7,则二者的KCS分别为0.818和0.83,因此,在最终的知识排序中,后者的排序位置将先于前者,作为与知识需求匹配度更高的知识推荐给执行流程任务的用户。

Claims (10)

1.一种面向流程的领域知识抽取与推送系统,其特征在于,包括如下模块:
用户模块,用户是知识推送的目标,用户参考系统推送的知识执行流程任务,并进行其他知识管理活动;
知识资源模块,为企业知识提供一个存储空间,并对其进行分类管理,响应知识推送请求,辅助用户模块的员工完成流程任务;
知识推送模块,由知识表示抽取层和知识计算重构层构成,用于缩小知识匹配范围,只匹配符合流程特性的领域知识,并推送给用户,提高匹配效率和精度;
流程模块,是知识推送的源头,流程由企业的具体需求产生,划分成多个相对独立的子流程任务,各个子流程根据其涉及的相关知识来设置知识的属性。
2.根据权利要求1所述的面向流程的领域知识抽取与推送系统,其特征在于,所述用户模块进行的其他知识管理活动包括对推送的知识进行评价和反馈、发布自己的隐性知识、定制感兴趣的知识以及向其他用户推荐知识。
3.根据权利要求1所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识资源模块是由企业知识库、企业员工隐性知识、客户知识以及企业外部公开网络方面的知识构成的一个知识空间。
4.根据权利要求1所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识推送模块由知识表示抽取层和知识计算重构层构成。
5.根据权利要求4所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识表示抽取层包括知识抽取层和知识表示层。
6.根据权利要求5所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识抽取层是指采用文本信息提取技术从企业内众多的知识资源中提取出所需的知识内容。
7.根据权利要求6所述的面向流程的领域知识抽取与推送系统,其特征在于,所述文本信息提取技术是指从一段文本中提取出某一类或几类特定信息,并将其进行结构化处理的过程;其处理过程包括,首先构造信息提取的规则集,再利用这些规则从文本中提取出该特定信息。
8.根据权利要求5所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识表示层是将文本信息提取的结果以数据库的数据表形式进行信息规范化,知识表示层与知识向量对应。
9.根据权利要求4所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识计算重构层是指在知识表示的基础上,根据流程任务对知识的需求,通过对知识的匹配运算,得到符合条件的知识,并将所得到的知识推送给执行流程任务的用户。
10.根据权利要求9所述的面向流程的领域知识抽取与推送系统,其特征在于,所述知识的匹配运算包括如下步骤:
第一,相关性计算,是指根据业务流程对知识的需求,以及知识自身的特征和用户的专业、偏好及经验,对符合知识需求的知识进行相关性计算;
第二,知识分值计算,是指基于用户行为向量产生的对知识的评分计算;
第三,知识排序,是指在相关性计算的基础上,知识分值计算结果干预相关性计算对知识的排序,得到校正后的知识得分,按照得分从高到低的顺序对知识进行排序,将结果推送给完成某一特定任务的用户。
CN201310542024.5A 2013-11-04 2013-11-04 一种面向流程的领域知识抽取与推送系统及方法 Active CN103617481B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310542024.5A CN103617481B (zh) 2013-11-04 2013-11-04 一种面向流程的领域知识抽取与推送系统及方法
CN201610117829.9A CN105787072B (zh) 2013-11-04 2013-11-04 一种面向流程的领域知识抽取与推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310542024.5A CN103617481B (zh) 2013-11-04 2013-11-04 一种面向流程的领域知识抽取与推送系统及方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610117829.9A Division CN105787072B (zh) 2013-11-04 2013-11-04 一种面向流程的领域知识抽取与推送方法

Publications (2)

Publication Number Publication Date
CN103617481A CN103617481A (zh) 2014-03-05
CN103617481B true CN103617481B (zh) 2016-10-26

Family

ID=50168185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310542024.5A Active CN103617481B (zh) 2013-11-04 2013-11-04 一种面向流程的领域知识抽取与推送系统及方法

Country Status (1)

Country Link
CN (1) CN103617481B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995858B (zh) * 2014-05-15 2017-06-30 北京航空航天大学 基于任务分解的个性化知识主动推送方法
CN104240026B (zh) * 2014-09-05 2017-09-08 上海交通大学 产品设计知识管理服务匹配方法
CN104615773B (zh) * 2015-02-15 2017-12-15 浙江大学 一种基于关联激活模型的产品设计文档动态推送方法
CN104899242B (zh) * 2015-03-10 2018-08-14 四川大学 基于设计意图的机械产品设计二维知识推送方法
CN105184371A (zh) * 2015-09-15 2015-12-23 齐鲁工业大学 一种基于流程驱动和粗糙集的领域知识推送方法
CN105653714A (zh) * 2015-12-31 2016-06-08 西安航天动力研究所 一种基于智能捕捉的知识推送方法
CN106611042A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 一种新的文本特征词汇提取方法
CN106897067A (zh) * 2017-02-26 2017-06-27 广州衡昊数据科技有限公司 一种基于人机交互技术建模的方法和专家系统
CN109684537A (zh) * 2018-10-29 2019-04-26 昆明理工大学 一种面向业务流程的知识资源智能推送系统及其推送方法
CN109947949A (zh) * 2019-03-12 2019-06-28 国家电网有限公司 知识信息智能管理方法、装置及服务器
CN112364153A (zh) * 2020-11-10 2021-02-12 中数通信息有限公司 一种基于干扰特征的关键词识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281519A (zh) * 2007-04-02 2008-10-08 奇智软件(北京)有限公司 一种评价网络资源价值的方法及其在搜索引擎领域的应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281519A (zh) * 2007-04-02 2008-10-08 奇智软件(北京)有限公司 一种评价网络资源价值的方法及其在搜索引擎领域的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向产品设计的知识主动推送研究;王生发等;《计算机集成制造系统》;20070228;第13卷(第2期);234-239 *

Also Published As

Publication number Publication date
CN103617481A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617481B (zh) 一种面向流程的领域知识抽取与推送系统及方法
Padhi et al. Quantifying potential tourist behavior in choice of destination using Google Trends
Hu et al. Review sentiment analysis based on deep learning
Aho et al. Demystifying data science projects: A look on the people and process of data science today
WO2018236886A1 (en) SYSTEM AND METHOD FOR MANAGING CODE AND DATA VERSIONS IN COMPUTERIZED DATA MODELING AND ANALYSIS
CN106250438A (zh) 基于随机游走模型的零引用文章推荐方法及系统
Abuhay et al. Analysis of publication activity of computational science society in 2001–2017 using topic modelling and graph theory
Luther et al. Crowdlines: Supporting synthesis of diverse information sources through crowdsourced outlines
DE202017106503U1 (de) Suchmaschine
CN105787072B (zh) 一种面向流程的领域知识抽取与推送方法
CN107894986A (zh) 一种基于向量化的企业关系划分方法、服务器以及客户端
Basnet et al. Improving Nepali news recommendation using classification based on LSTM recurrent neural networks
CN105931055A (zh) 一种面向众包平台的服务商特征建模方法
Bakaev et al. Intelligent information system to support decision-making based on unstructured web data
Lin et al. Currency exchange rates prediction based on linear regression analysis using cloud computing
Song et al. Enterprise knowledge recommendation approach based on context-aware of time-sequence relationship
CN110070264A (zh) 合同评价方法、平台、设备及可读存储介质
Lytchev et al. Integration and Development of Professionally-Oriented Social Network in the Context of the Evolution of the Information Landscape
Scrivner et al. XD Metrics on demand value analytics: visualizing the impact of internal information technology investments on external funding, publications, and collaboration networks
Insani et al. Business intelligence for profiling of telecommunication customers
Tripathi An Approach of Intelligent Automated Resume Analysis & Recommendations
Dave et al. Identifying big data dimensions and structure
Olszak et al. Big Data Approach to Analyzing the IT Job Market
Lysenko et al. Combination of individual and group patterns for time-sensitive purchase recommendation
Avdeenko et al. Modeling information space for decision-making in the interaction of higher education system with regional labor market

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant