CN110309263A

CN110309263A - 一种基于语义的工作属性文本内容冲突判断方法及装置

Info

Publication number: CN110309263A
Application number: CN201910495279.8A
Authority: CN
Inventors: 李晓松; 李增华; 周静; 罗准辰; 程佳军; 吕彬; 刘同�; 闫州杰; 曾昊
Original assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Current assignee: Military Science Information Research Center Of Military Academy Of Chinese Pla
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-08
Anticipated expiration: 2039-06-06
Also published as: CN110309263B

Abstract

本发明提出了一种系统工程部门间基于语义的工作属性文本内容冲突判断方法及装置，该方法包括根据工作属性文本语句情况，建立工作属性文本内容语句清单；基于所述语句清单中的每条语句进行两两比较，建立工作属性文本语句对比矩阵；根据所述工作属性文本语句对比矩阵以及基于开源中文词向量的余弦距离得到工作属性文本内容冲突判断结果。该方法有效解决了从工作属性文本语句细粒度对比分析到文本全语句内容冲突判断的问题。通过该方法，能够揭示工作属性文本之间冲突，从而发现部门之间冲突的内容和冲突的大小，为改进和完善部门之间的任务分配、工程任务划分提供了参考借鉴。

Description

一种基于语义的工作属性文本内容冲突判断方法及装置

技术领域

本发明涉及系统工程，具体涉及基于语义的系统工程部门间工作属性文本内容冲突发现与判断。

背景技术

系统工程通常工作繁杂，具有多个组织机构执行相应的工作，各组织机构的工作属性可以表示该组织机构所负责和承担的一系列工作任务，以及完成这些工作任务所需承担的相应责任。工作属性文本，是指通过文本内容表达部门关于执行的工作的描述和理解。工作属性冲突是指两个部门执行的工作的交叉或重叠，从而造成相同或相似工作由多个部门共同执行的困境，大幅度降低系统工程的建设质量和效率。为有效发现和判断两个工作属性文本内容语义的冲突大小，须建立基于语义的工作属性文本内容冲突判断方法，系统、高效地对两个工作属性文本内容冲突进行判断和分析。

目前，尚未发现基于语义的针对工作属性文本内容冲突分析方法和工具。

发明内容

为解决上述技术问题，本发明提出了一种基于语义的工作属性文本内容冲突判断方法及装置，以解决和发现两个工作属性文本内容的冲突，并判断冲突大小等问题，为改进和完善部门之间任务分配、工程任务划分提供参考借鉴。

根据本发明的一个实施例，本发明提供了一种基于语义的工作属性文本内容冲突判断方法，所述方法包括，

步骤S1、根据工作属性文本语句情况，建立工作属性文本内容语句清单；

步骤S2、基于所述语句清单中的每条语句进行两两比较，建立工作属性文本语句对比矩阵；

步骤S3、根据所述工作属性文本语句对比矩阵以及基于开源中文词向量的余弦距离得到工作属性文本内容冲突判断结果。

优选的，所述建立工作属性文本内容语句清单，还包括，将所述语句清单中的每条语句分解成谓语、宾语、定语和对象四个要素。

优选的，所述基于所述语句清单中的每条语句进行两两比较，建立工作属性文本语句对比矩阵，具体为，分别以两个文本的语句设定行向量i和列向量j，建立两个文本间语句的谓语对比矩阵、定语对比矩阵、宾语对比矩阵、对象对比矩阵和语句对比矩阵，对比矩阵的内容均为数值。

优选的，所述步骤S3、根据所述工作属性文本语句对比矩阵以及基于开源中文词向量的余弦距离计算文本内容之间冲突判断结果，具体为，

步骤S301、基于开源中文词向量的余弦距离，计算文本之间谓语、定语、宾语和文本对象的冲突值；

步骤S302、将所述文本语句之间的谓语、定语、宾语，以及对象的冲突值，导入语句对比矩阵，计算语句之间冲突值；

步骤S303、将所述文本语句之间冲突值导入语句对比矩阵，计算得到文本内容之间冲突判断结果。

优选的，所述步骤S301基于所述基于开源中文词向量的余弦距离，计算文本之间谓语、定语、宾语和文本对象的冲突值，具体包括：

基于开源中文词向量的余弦距离，计算谓语、定语、宾语和文本对象的冲突值l(ij)、m(ij)、n(ij)、p(ij)大小，具体公式如下：

W₁，W₂分别是两个词的词向量，分别是两个词的词向量，词向量来源于开源中文词向量。

优选的，所述步骤S302计算语句之间冲突值，具体为，根据如下公式计算语句之间冲突值c(ij)：

c(ij)＝Z(ij)×(w₁×l(ij)+w₂×m(ij)+w₃×n(ij)+w₄×p(ij))；

式中l(ij)、m(ij)、n(ij)、p(ij)分别代表谓语、定语、宾语和文本对象的冲突大小；w₁、w₂、w₃和w₄分别表示语句谓语冲突权重、语句定语冲突权重、语句宾语冲突权重和语句对象冲突的权重，且w₁+w₂+w₃+w₄＝1；Z(ij)表示调整系数，其取值为0或1，当l(ij)、m(ij)、n(ij)、p(ij)中任意取值为0时，Z(ij)＝0，其余情况Z(ij)＝1。

优选的，所述步骤S303所述将所述文本语句之间冲突值导入语句对比矩阵，计算得到文本内容之间冲突判断结果，具体为，根据如下公式计算得到第a个工作属性文本和第b个工作属性文本内容冲突判断值c_ab，

其中，m表示矩阵总行数，n表示矩阵总列数。

优选的，根据所述冲突判断结果将冲突大小分为四种类型，包括没有冲突、冲突小、冲突一般和冲突大，其中，没有冲突对应分值为0；冲突小对应数值为(0-0.4]；冲突一般对应数值为(0.4-0.7)；冲突大对应数值为[0.7-1]。

根据本发明的一实施例，本发明还提供了一种基于语义的工作属性文本内容冲突判断装置，所述装置包括，

第一建立模块，用于根据工作属性文本内容情况，建立工作属性文本语句清单；

第二建立模块，用于基于所述语句清单中的每条语句进行两两比较，建立工作属性文本语句对比矩阵；

处理模块，用于根据所述工作属性文本语句对比矩阵以及语句之间冲突值得到工作属性文本内容之间冲突判断结果。

优选的，所述处理模块还包括，

第一计算模块，基于开源中文词向量的余弦距离，计算所有语句之间的谓语、定语、宾语，以及对象的冲突值；

导入模块，用于将所述冲突值导入语句对比矩阵，从而得到文本语句之间冲突判断结果；

第二计算模块，用于根据文本语句之间的冲突判断结果，计算文本内容之间的冲突值。

基于语义的工作属性文本内容冲突判断方法主要解决了两个方面的关键技术问题：一是工作属性文本细粒度描述问题。该判断方法能够将工作属性文本按照标准化格式，划分为细粒度语句，以便细化开展文本之间语句冲突的对比分析，有效解决了工作属性文本细粒度描述等关键技术问题；二是基于工作属性文本全语句语义的冲突判断问题。该方法在两个工作属性文本每条语句之间谓语、定语、宾语和对象对比分析基础上，综合得到两个工作属性文本全语句的冲突大小，有效解决了从工作属性文本语句细粒度对比分析到文本全语句内容冲突判断的问题。通过该方法，能够揭示工作属性文本之间冲突，从而发现部门之间冲突的内容和冲突的大小，为改进和完善部门之间的任务分配、工程任务划分提供了参考借鉴。

附图说明

图1为本发明提出的基于语义的工作属性文本内容冲突判断方法流程图；

图2为本发明提出的基于语义的工作属性文本内容冲突判断流程框图；

图3为本发明提出的基于语义的工作属性文本内容冲突判断工作属性语句清单建立图；

图4(a)-(b)为本发明提出的基于语义的工作属性文本内容冲突判断语句对比矩阵图；

图5为本发明提出的基于语义的工作属性文本内容冲突判断装置组成框图。

具体实施方式

以下结合附图对本发明的具体实施方式作出详细说明。

基于的语义的工作属性文本内容冲突判断方法包括建立语句清单、构建语句对比矩阵、判断冲突大小等步骤。一是建立工作属性文本语句清单。按照固定要素建立工作属性关键语句清单，明确工作属性内容的“全部家底”，通过部门的工作日志、部门项目记录文件、项目管理文件等文件，提取部门的工作属性语句，并将工作属性语句分解成谓语、定语、宾语和对象等要素。二是构建工作属性语句对比矩阵。对两个工作属性文本语句的要素(谓语、定语、宾语和对象)进行两两比较，分别以两个文本语句要素为行向量和列向量，建立谓语、定语、宾语和对象的对比矩阵，在此基础上，得到语句间的对比矩阵。三是判断工作属性文本内容冲突。基于开源中文词向量的余弦距离，分析两个文本每个语句之间谓语、定语、宾语，以及对象的冲突大小，运用公式，计算文本语句之间的冲突大小，在此基础上，得到两个文本内容之间的冲突大小。

根据本发明的一实施例，如图1和2所示，本发明提供了一种基于语义的工作属性文本内容冲突判断方法，该方法包括，

步骤S1、根据工作属性文本语句情况，建立工作属性文本内容语句清单。

根据本发明的实施例，在本步骤中，根据工作属性文本语句情况，建立工作属性关键语句清单，并将每条语句理解为谓语、定语、宾语和对象。

步骤S2、基于所述语句清单中的每条语句进行两两比较，建立工作属性文本语句对比矩阵。

根据本发明的实施例，在该步骤中，对每条语句进行两两比较，分别以两个文本的语句为行向量和列向量，建立两个文本间语句的谓语对比矩阵、定语对比矩阵、宾语对比矩阵、对象对比矩阵和语句对比矩阵，对比矩阵的内容均为数值，比如，语句对比矩阵为n×m的矩阵，由行、列和元素构成。其中行表示文本b的n个关键语句；列表示文本a的m个关键语句；元素为冲突数值。

根据本发明的实施例，该步骤还具体包括如下内容：

步骤S301、基于开源中文词向量的余弦距离，计算文本之间谓语、定语、宾语和文本对象的冲突值。

如图4(a)-(b)，在该步骤中，基于开源中文词向量的余弦距离，计算谓语、定语、宾语和文本对象的冲突值l(ij)、m(ij)、n(ij)、p(ij)大小。

余弦相似度是指将比较对象投射到向量空间中形成向量，向量的方向被视为衡量其差距的依据，与向量的长度无关，向量之间的夹角的余弦值，即余弦距离，便是其差距的大小。向量之间的方向越接近，夹角越接近0度，余弦值越接近1，表示比较对象之间越相似。

在本发明的实施例中，W₁，W₂分别是两个词的词向量，词向量来源于开源中文词向量。那么这两个向量的余弦距离为其夹角θ的余弦值：

基于开源中文词向量的余弦距离，计算谓语、定语、宾语和文本对象的冲突值l(ij)、m(ij)、n(ij)、p(ij)大小，具体根据如下公式计算：

步骤S302、将所述文本语句之间的谓语、定语、宾语，以及对象的冲突值，导入语句对比矩阵，计算语句之间冲突值。

在该步骤中，根据本发明的实施例，通过如下公式来计算冲突值c(ij)，

c(ij)＝Z(ij)×(w₁×l(ij)+w₂×m(ij)+w₃×n(ij)+w₄×p(ij))；

式中l(ij)、m(ij)、n(ij)、p(ij)分别代表谓语、定语、宾语和文本对象的冲突大小；w₁、w₂、w₃和w₄分别表示语句谓语冲突权重、语句定语冲突权重、语句宾语冲突权重和语句对象冲突的权重，且w₁+w₂+w₃+w₄＝1；

Z(ij)表示调整系数，其取值为0或1，当l(ij)、m(ij)、n(ij)、p(ij)中任意取值为0时，Z(ij)＝0，其余情况Z(ij)＝1。

在该步骤中，根据本发明的实施例，通过如下公式计算得到第a个工作属性文本和第b个工作属性文本的内容冲突判断值c_ab，

其中，m表示矩阵总行数，n表示矩阵总列数。

通过该判断方法，得到冲突大小结论可分为没有冲突、冲突小、冲突一般和冲突大。其中，没有冲突对应分值为0；冲突小对应数值为(0-0.4]；冲突一般对应数值为(0.4-0.7)；冲突大对应数值为[0.7-1]。相对于传统基于专家知识判断工作属性冲突大小的方法，该方法根据两个文本每个语句的谓语、定语、宾语和对象的冲突大小，得到工作属性文本之间基于语义的冲突大小，实现了冲突判断结论的定量化描述和精准刻度，更加科学可信。

根据本发明的一实施例，如图3所示，根据工作属性文本语句情况，建立工作属性文本内容语句清单，其中，工作属性文本语句包括n个语句，设置相应的编号为n，比如第一句为“负责A公司人力资源管理”，第二句为“组织A公司B部门政策制度研究”，等等，一共有n个语句内容。

此时，将每条语句分解成谓语、定语、宾语以及工作属性文本对象四种要素类型，当然，本发明中基于这四要素的分解并不是绝对的，也可以根据实际类型的不同，划分为其他多种要素，目的在于语句分解清晰，每个语句都能成为细分的主体，使得语句之间能够彼此独立。

基于本发明的实施例，将工作属性文本语句基于四要素划分后，第一句对应的为谓语为“负责”、定语为“人力资源”、宾语为“管理”，工作属性文本对象为“A公司”，对应的第二句的工作属性文本语句中的谓语为“组织”、定语为“政策制度”、宾语为“研究”，工作属性文本对象为“A公司B部门”。以此类推，每个语句都相应的进行四要素划分，从而得到工作属性文本内容语句清单。

对上述内容划分后，建立基于上述内容的谓语对比矩阵、定语对比矩阵、宾语对比矩阵、对象对比矩阵和语句对比矩阵，如图4所示，语句对比矩阵为n m的矩阵，由行、列和元素构成。其中行表示文本b的n个关键语句；列表示文本a的m个关键语句；元素为冲突数值。对比矩阵中包括了不同文本的谓语内容以及相应的数值。其中，冲突数值基于前面叙述的内容进行计算得到。从而根据相应的冲突数值以及前述的冲突大小类型，得到判断结果。

根据本发明的又一实施例，如图5所示，本发明还提供了一种基于语义的工作属性文本内容冲突判断装置，所述装置包括，

处理模块，用于根据所述工作属性文本语句对比矩阵以及开源中文词向量的余弦距离得到工作属性文本内容之间冲突判断结果。

所述处理模块还包括，

第一计算模块，开源中文词向量的，计算所有语句之间的谓语、定语、宾语，以及对象的冲突值；

相对于传统基于专家知识判断工作属性冲突大小的方法，该方法根据两个文本每个语句的谓语、定语、宾语和对象的冲突大小，得到工作属性文本之间基于语义的冲突大小，实现了冲突判断结论的定量化描述和精准刻度，更加科学可信。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，所述方法包括，

2.根据权利要求1所述的系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，所述建立工作属性文本内容语句清单，还包括，将所述语句清单中的每条语句分解成谓语、宾语、定语和对象四个要素。

3.根据权利要求2所述的系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，所述基于所述语句清单中的每条语句进行两两比较，建立工作属性文本语句对比矩阵，具体为，分别以两个文本的语句设定行向量i和列向量j，建立两个文本间语句的谓语对比矩阵、定语对比矩阵、宾语对比矩阵、对象对比矩阵和语句对比矩阵，对比矩阵的内容均为数值。

4.根据权利要求3所述的系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，所述步骤S3、根据所述工作属性文本语句对比矩阵，基于开源中文词向量的余弦距离计算文本内容之间的冲突值，具体为，

步骤S303、将所述语句之间冲突值导入语句对比矩阵，计算得到文本内容之间冲突判断结果。

5.根据权利要求4所述的系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，所述步骤S301基于所述基于开源中文词向量的余弦距离，计算文本之间谓语、定语、宾语和文本对象的冲突值，具体包括：

W₁，W₂分别是两个词的词向量，词向量来源于开源中文词向量。

6.根据权利要求4或5所述的系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，所述步骤S302计算语句之间冲突值，具体为，根据如下公式计算语句之间冲突值c(ij)：

c(ij)＝Z(ij)×(w₁×l(ij)+w₂×m(ij)+w₃×n(ij)+w₄×p(ij))；

式中l(ij)、m(ij)、n(ij)、p(ij)分别代表谓语、定语、宾语和文本对象的冲突大小；w₁、w₂、w³和w₄分别表示语句谓语冲突权重、语句定语冲突权重、语句宾语冲突权重和语句对象冲突的权重，且w₁+w₂+w₃+w₄＝1；

7.根据权利要求6所述的基于语义的工作属性文本内容冲突判断方法，其特征在于，所述步骤S303所述将所述文本语句之间冲突值导入语句对比矩阵，计算得到文本内容之间冲突判断结果，具体为，根据如下公式计算得到第a个工作属性文本和第b个工作属性文本内容冲突判断值c_ab，

其中，m表示矩阵总行数，n表示矩阵总列数。

8.根据权利要求7所述的系统工程部门间基于语义的工作属性文本内容冲突判断方法，其特征在于，根据所述冲突判断结果将冲突大小分为四种类型，包括没有冲突、冲突小、冲突一般和冲突大，其中，没有冲突对应分值为0；冲突小对应数值为(0-0.4]；冲突一般对应数值为(0.4-0.7)；冲突大对应数值为[0.7-1]。

9.一种系统工程部门间基于语义的工作属性文本内容冲突判断装置，其特征在于，所述装置包括，

10.根据权利要求9所述的系统工程部门间基于语义的工作属性文本内容冲突判断装置，其特征在于，所述处理模块还包括，