CN113127626B - 基于知识图谱的推荐方法、装置、设备及可读存储介质 - Google Patents

基于知识图谱的推荐方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113127626B
CN113127626B CN202110436115.5A CN202110436115A CN113127626B CN 113127626 B CN113127626 B CN 113127626B CN 202110436115 A CN202110436115 A CN 202110436115A CN 113127626 B CN113127626 B CN 113127626B
Authority
CN
China
Prior art keywords
safety
words
word
entity
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110436115.5A
Other languages
English (en)
Other versions
CN113127626A (zh
Inventor
张亚军
李政泰
吴哲
陈静
刘晓栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN202110436115.5A priority Critical patent/CN113127626B/zh
Publication of CN113127626A publication Critical patent/CN113127626A/zh
Application granted granted Critical
Publication of CN113127626B publication Critical patent/CN113127626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的推荐方法、装置、设备及可读存储介质,所述方法包括:根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语;从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例;本发明能够让用户基于推荐的安全规范条例规范、准确的填写问题整改要求。

Description

基于知识图谱的推荐方法、装置、设备及可读存储介质
技术领域
本发明涉及智能推荐技术领域,特别涉及一种基于知识图谱的推荐方法、装置、设备及可读存储介质。
背景技术
在建筑施工质量安全巡检方面,无论是质检员、安全员还是工程经理,在建筑施工现场进行安全巡查时会发现安全问题,通常需要对发现的安全问题进行记录,并通过专业软件对该安全问题进行分类;此外,还需要对分类好的安全问题按规定填写对应的问题整改要求,但是,在现有技术中,填报人员是根据自身的工作经验填写问题整改要求,因此会存在问题整改要求填写不规范、不够准确的问题;因此,如何便于填报人员规范、准确的填写针对安全问题的问题整改要求,成为本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的在于提供一种基于知识图谱的推荐方法、装置、设备及可读存储介质,能够根据安全问题信息智能的向用户推荐关联的安全规范条例,以便于用户基于推荐的安全规范条例规范、准确的填写问题整改要求。
根据本发明的一个方面,提供了一种基于知识图谱的推荐方法,所述方法包括:
根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语;
从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求。
可选的,所述根据安全规范文本构建安全知识图谱,包括:
根据预设的训练样本集,训练出用于从安全规范文本中识别出实体词语和意图词语的识别模型;
利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,并根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语;
将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中,以构建安全知识图谱;
其中,所述标签包括:实体词语头、实体词语体、意图词语头、意图词语体、其他词语。
可选的,所述利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,包括:
从所述安全规范文本中识别出安全规范条例;
对所述安全规范条例进行字粒度的分词处理,并对分词处理后的每个字进行向量编码;
根据每个字的向量编码结果确定出每个字的概率列表;其中,所述概率列表用于表征一个字在各种标签下的概率值;
根据每个字的概率列表,将最大概率值所对应的标签设置为对应字的标签。
可选的,所述根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语,包括:
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为实体词语头;若是,则当在标签为实体词语头的字之后存在N个连续的标签为实体词语体的字时,将所述标签为实体词语头的字和所述N个连续的标签为实体词语体的字组成实体词语;以及,
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为意图词语头;若是,则当在标签为意图词语头的字之后存在N个连续的标签为意图词语体的字时,将所述标签为意图词语头的字和所述N个连续的标签为意图词语体的字组成意图词语;
其中,N为大于等于1的正整数。
可选的,所述确定出与所述安全问题信息对应的目标实体词语和目标意图词语,包括:
获取预设的实体领域词典;其中,所述实体领域词典包括:实体词语;
对所述安全问题信息进行词粒度的分词处理,并依次判断分词处理后的每个词语是否存在于所述实体领域词典中,若是,则将所述词语设置为目标实体词语;
将所有目标实体词语和所述安全问题信息输入预设的分类模型中,得到对应的目标意图词语。
可选的,所述分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,包括:
将所述候选安全规范条例和所述安全问题信息输入预设的用于自然语言推断的增强型长短期记忆模型ESIM中,得到语义相似度值;
按照语义相似度值由大到小对所有候选安全规范条例进行排序,并根据排序结果,将排在前M个的候选安全规范条例作为目标安全规范条例。
为了实现上述目的,本发明还提供一种基于知识图谱的推荐装置,所述装置具体包括以下组成部分:
构建模块,用于根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语;
确定模块,用于从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
查找模块,用于从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
推荐模块,用于分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求。
可选的,所述构建模块,包括:
训练单元,用于根据预设的训练样本集,训练出用于从安全规范文本中识别出实体词语和意图词语的识别模型;
识别单元,用于利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,并根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语;
存储单元,用于将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中,以构建安全知识图谱;
其中,所述标签包括:实体词语头、实体词语体、意图词语头、意图词语体、其他词语。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的基于知识图谱的推荐方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的基于知识图谱的推荐方法的步骤。
本发明提供的基于知识图谱的推荐方法、装置、设备及可读存储介质,首先构建出与现有的安全规范文本对应的安全知识图谱,再根据在施工现场发现的安全问题信息从该安全知识图谱中查找到关联的候选安全规范条例,最后通过深度学习文本语义匹配算法,判断该安全问题信息与各个候选安全规范条例的语义相似度值,并将语义相似度值较高的候选安全规范条例推荐给用户,以便用户参照推荐的安全规范条例填写针对该安全问题信息的安全整改要求,从而使得用户填写的安全整改要求规范化且准确性较高。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实施例一提供的基于知识图谱的推荐方法的一种可选的流程示意图;
图2为实施例一中的训练样本集中两个样本安全规范条例的示意图;
图3为实施例一中的BERT+CRF算法模型示意图;
图4为实施例一中的从安全知识图谱中查找到与安全问题信息关联的候选安全规范条例的示意图;
图5为实施例一中的利用ESIM模型计算安全问题信息与候选安全规范条例的语义相似度值的示意图;
图6为实施例二提供的基于知识图谱的推荐装置的一种可选的组成结构示意图;
图7为实施例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于知识图谱的推荐方法,如图1所示,该方法具体包括以下步骤:
步骤S101:根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语。
其中,安全规范文本由多个安全规范条例组成;实体词语用于表征客观存在的构件,例如:连墙件、扣件、防护板、液压机构;意图词语用于表征针对实体词语的属性或动作,例如:规格、重量、载荷、角度、连接设置。
具体的,步骤S101,包括:
步骤A1:根据预设的训练样本集,训练出用于从安全规范文本中识别出实体词语和意图词语的识别模型;
步骤A2:利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,并根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语;
步骤A3:将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中,以构建安全知识图谱;
其中,所述标签包括:实体词语头、实体词语体、意图词语头、意图词语体、其他词语。
例如,将[水平加固杆]---(设置)---[6.1.3在门式作业脚手架内侧应按步骤设置水平加固杆]存储入图数据库Neo4j中,其中,“水平加固杆”为实体词语、“设置”为意图词语、“6.1.3在门式作业脚手架内侧应按步骤设置水平加固杆”为规范条例。
在本实施例中,当识别模型训练好之后,可以将新的安全规范文本作为输入数据输入到所述识别模型中,以确定出新的安全规范文本中包含的多个安全规范条例,并识别出每个安全规范条例中的实体词语和意图词语,最后将该安全规范条例以及对应的实体词语和意图词语存储到安全知识图谱中,以丰富安全知识图谱。在本实施例中,可以通过多个现有的安全规范文本不断完善安全知识图谱。
进一步的,步骤A1,具体包括:
步骤A11:获取预设的根据样本安全规范文本生成的训练样本集;其中,所述训练样本集包括:样本安全规范条例,以及所述样本安全规范条例中每个字的真实标签。
优选的,在本实施例中,所述标签包括:实体词语头(B-enti)、实体词语体(I-enti)、意图词语头(B-inte)、意图词语体(I-inte)、其他词语(O);
其中,所述样本安全规范文本是由多个样本安全规范条例组成的,前期业务专家会对所述样本安全规范文本进行解析,以得到多个样本安全规范条例以及包含在每个样本安全规范条例中的实体词语和意图词语,并根据解析结果为每个样本安全规范条例中的每个字添加对应的真实标签;其中,若一个目标字是一个实体词语的第一个字,则为该目标字添加“实体词语头(B-enti)”的真实标签;若一个目标字是一个实体词语的非第一个字,则为该目标字添加“实体词语体(I-enti)”的标签;若一个目标字是一个意图词语的第一个字,则为该目标字添加“意图词语头(B-inte)”的真实标签;若一个目标字是一个意图词语的非第一个字,则为该目标字添加“意图词语体(I-inte)”的真实标签;若一个目标字既不属于实体词语也不属于意图词语,则为该目标字添加“其他词语(O)”的真实标签;最后将所有样本安全规范条例以及每个样本安全规范条例中每个字的真实标签作为所述训练样本集。
例如,业务专家解析如下样本安全规范条例“6.1.3在门式作业脚手架内侧应按步骤设置水平加固杆”,得到的解析结果为:“水平加固杆”为实体词语、“设置”为意图词语、其他字为其他词语;那么,“水”的真实标签为“B-enti”,“平”、“加”、“固”、“杆”的真实标签均为“I-enti”,“设”的真实标签为“B-inte”,“置”的真实标签为“I-inte”,其他字的真实标签均为“O”。
又例如,若图2所示,为所述训练样本集中的两个样本安全规范条例的示意图;其中“横向扫地杆应采用直角扣件”和“每根立杆底部应设置底座”为两个样本安全规范条例,在样本安全规范条例“横向扫地杆应采用直角扣件”中根据每个字的真实标签可以看出,“横向扫地杆”和“直角扣件”为实体词语、“采用”为意图词语、“应”为其他词语;而在样本安全规范条例“每根立杆底部应设置底座”中根据每个字的真实标签可以看出,“立杆”和“底座”为实体词语、“设置”为意图词语、“每根…底部应…”为其他词语。
步骤A12:利用所述训练样本集对BERT(BidirectionalEncoderRepresentationsfromTransformers)+CRF(Conditional Random Fields,条件随机场)算法进行训练,以得到用于从安全规范文本中识别出实体词语和意图词语的识别模型。
在步骤A12中,将所述训练样本集中的每个样本安全规范条例输入到如图3所示的BERT+CRF算法模型中,以通过BERT+CRF算法模型先对所述样本安全规范条例进行字粒度的分词处理,并对分词处理后的每个字进行向量编码,例如:将“气”字向量编码为[0.209092-0.165459 -0.058054 …… 0.099868 0.047287 0.010201 -0.056060 -0.063864]、共768列;再根据每个字的向量编码结果确定出每个字的概率列表;其中,所述概率列表用于表征一个字在每种标签下的概率值;例如,“气”字对应的概率列表为[0.7,0.1,0.05,0.05,0.05],以表征“气”字属于“实体词语头(B-enti)”的概率值为0.7、属于“实体词语体(I-enti)”的概率值为0.1、属于“意图词语头(B-inte)”的概率值为0.05、属于“意图词语体(I-inte)”的概率值为0.05、属于“其他词语(O)”的概率值为0.05;最后将概率列表中最大概率值所对应的标签设置为对应字的预测标签;例如,将“实体词语头(B-enti)”设置为“气”的预测标签。
通过BERT+CRF算法计算出每个样本安全规范条例中每个字的预测标签,将每个字的预测标签与对应的真实标签进行比对,并根据比对结果不断修正BERT+CRF算法,直至通过BERT+CRF算法预测出的每个字的预测标签与对应的真实标签一致,从而得到所述识别模型。上述模型训练的作用就是将某个字预测的预测标签不断去接近训练样本集中该字对应的真实标签。
还需要说明的是,在模型训练过程中设置的参数主要包括:
Epoch:一批样本训练数据的训练轮数,优选的,设置为10;
Maxlen:样本安全规范条例的最大长度,优选的,设置为128;
Batchsize:为加快模型训练速度,每次可同时将Batchszie条样本数据输入给模型以做并行训练,优选的,设置为8;
Lr:学习率,控制模型的学习进度,优选的,设置为2e-5。
进一步的,所述利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,具体包括:
步骤A21:获取参考安全规范文本;
其中,参考安全规范文本与样本安全规范文本不相同;
步骤A22:从所述参考安全规范文本中识别出参考安全规范条例;
在实际应用中,安全规范文本中的每个安全规范条例均是使用标号进行区分别的,可通过识别标号以从安全规范文本中确定出多个安全规范条例;
步骤A23:对所述参考安全规范条例进行字粒度的分词处理,并对分词处理后的每个字进行向量编码;
在本实施例中需要对安全规范条例中的每个字进行向量编码;
步骤A24:根据每个字的向量编码结果确定出每个字的概率列表;其中,所述概率列表用于表征一个字在各种标签下的概率值;
将所述参考安全规范条例中每个字的向量编码结果输入到BERT+CRF模型中,即可得到每个字的概率列表;
其中,若一个字在一种标签下的概率值越大,则表征该字属于该种标签的可能性越大;
步骤A25:根据每个字的概率列表,将最大概率值所对应的标签设置为对应字的标签。
例如:参考规范条例为“气瓶未设置防震圈和防护帽”,通过识别模型识别出的实体词语为“气瓶”、“防震圈”、和“防护帽”,识别出的意图词语为“设置”。
进一步的,所述根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语,具体包括:
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为实体词语头;若是,则当在标签为实体词语头的字之后存在N个连续的标签为实体词语体的字时,将所述标签为实体词语头的字和所述N个连续的标签为实体词语体的字组成实体词语;以及,
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为意图词语头;若是,则当在标签为意图词语头的字之后存在N个连续的标签为意图词语体的字时,将所述标签为意图词语头的字和所述N个连续的标签为意图词语体的字组成意图词语;
其中,N为大于等于1的正整数。
需要说明的是,N应取连续属于同一标签的字的总个数,且需要按照上述方式获取参考安全规范条例中的所有实体词语和意图词语。例如,若一个参考安全规范条例中每个字的标签依次是:B-enti、I-enti、I-enti、I-enti、O、O、B-inte、I-inte,则应将前四个字作为实体词语,而不是将前两个或前三个字作为实体词语,并将最后两个字作为意图词语。在本实施例中,不会将标签为实体词语头的一个字作为实体词语也不会将标签为意图词语头的一个字作为意图词语;即,如果存在形式为(B-enti)-(O)-(I-enti)的三个字,不能作为一个实体词语;或者,如果存在形式为(B-inte)-(O)-(I-inte)的三个字,也不能作为一个意图词语。
步骤S102:从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语。
其中,用户端为质检员、安全员或工程经理在建筑施工现场进行安全巡查时用于上传安全问题信息的设备(例如:手机、平板电脑、PC等)或者安装于该设备上的软件。
具体的,步骤S102,包括:
步骤B1:获取预设的实体领域词典;其中,所述实体领域词典包括:实体词语;
当构建安全知识图谱时,可以将从安全规范文本中识别出的所有实体词语构成所述实体领域词典。
步骤B2:对所述安全问题信息进行词粒度的分词处理,并依次判断分词处理后的每个词语是否存在于所述实体领域词典中,若是,则将所述词语设置为目标实体词语;
当用户输入安全问题信息时,可基于所述实体领域词典对所述安全问题信息进行分词处理,以从所述安全问题信息中抽取出存在于所述实体领域词典中的实体词语,即从安全问题信息中识别出目标实体词语。
步骤B3:将所有目标实体词语和所述安全问题信息输入预设的分类模型中,得到对应的目标意图词语;
优选的,利用Fasttext(一个快速文本分类算法)训练出分类模型,Fasttext是一个成熟的现有工具,可直接输入训练数据做意图分类使用。其中,训练数据是由业务专家事先通过解析样本安全问题信息得到的;例如,业务专家解析样本安全问题信息:“脚手板厚度不应小于50mm”,得到的解析结果是:“脚手板”为实体词语,且该样本安全问题信息针对实体词语“脚手板”的意图词语为“规格”,因此将实体词语和样本安全问题信息拼接起来并与意图词语“规格”一起作为训练数据:“脚手板-脚手板厚度不应小于50mm-规格”。
在步骤B3中,将所述目标实体词语和所述安全问题信息拼接起来输入到基于Fasttext训练出的分类模型中,该分类模型的输出即为意向词语;例如,安全问题信息为“安装18cm高挡脚板”,分词处理后得到的实体词语为“挡脚板”;将“挡脚板-安装18cm高挡脚板”输入分类模型,得到意图词语“设置”和“高度”,从而将安全问题信息解析成二元组格式(“挡脚板”,“设置”)。
步骤S103:从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例。
在实际应用中,使用cypher语句在Neo4j图数据库中查找对应的候选安全规范条例,并获取所有相匹配的候选安全规范条例;例如,查找方式为:match(挡脚板)-[设置]->(?)返回?。
需要说明的是,一个安全问题信息和包含在其中的实体词语可以对应有多个意图词语;此外,应在所述安全知识图谱中查找到所有与所述目标实体词语和目标意图词语关联的一个或多个候选安全规范条例。例如,如图4所示,为根据安全问题信息“安装18CM高挡脚板”,识别出的实体词语为“挡脚板”,对应的意图词语为“设置”和“高度”,从安全知识图谱中查找到的候选安全规范条例有两个。
步骤S104:分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求。
具体的,步骤S104,包括:
步骤C1:将所述候选安全规范条例和所述安全问题信息输入预设的ESIM(Enhanced LSTM for Natural Language Inference,用于自然语言推断的增强型长短期记忆模型)中,得到语义相似度值;
例如,如图5所示,将所述安全问题信息作为sentence1以及将一个候选安全规范条例作为sentence2输入到ESIM模型中,以分别对两个语句进行去停用词、去无效符号操作,以精简语句。例如,sentence1为“施工荷载堆放不光滑”,sentence2为“项目的检查评合下列荷载架体荷载均匀并不超过计值”。之后,通过Input Embedding模块分别对输入的两个语句进行向量化,以将文字转为数字向量,从而便于计算机的识别计算;通过Bi-LSTM(Bilateral Long Short Term Memory,双向长短期记忆)以分别获取向量化后的两个语句的语义信息表示;通过Attention注意力机制模块获取两个语句的相关程度;通过Average&Max(平均池化&最大池化)模块获取输出向量的平均值或最大值表示的结果信息,从而减少模型参数、减少过拟合问题;通过Softmax归一化操作模块,将一个含任意实数的K维向量压缩到另一个K维实向量中,使得每一个元素的范围均在(0,1)之间、且所有元素的和为1;最后输出一个语义相似度值;优选的,语义相似度值为0到1之间的数,且若语义相似度值越接近1,则表征两个语句越相似。
步骤C2:按照语义相似度值由大到小对所有候选安全规范条例进行排序,并根据排序结果,将排在前M个的候选安全规范条例作为目标安全规范条例;其中,M为正整数。
例如,候选安全规范条例有10个,则需要依次计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并将10个结果值进行降序排列,取排在前5的结果值对应的候选安全规范条例作为目标安全规范条例推荐给用户。
在本实施例中,首先构建出与现有的安全规范文本对应的安全知识图谱,再根据在施工现场发现的安全问题信息从该安全知识图谱中查找到关联的候选安全规范条例,最后通过深度学习文本语义匹配算法,判断该安全问题信息与各个候选安全规范条例的语义相似度值,并将语义相似度值较高的候选安全规范条例推荐给用户,以便用户参照推荐的安全规范条例填写针对该安全问题信息的安全整改要求,从而使得用户填写的安全整改要求规范化且准确性较高。本实施例可以使质检员或工程经理在进行填报安全整改要求时,有所依据,填写出正确、规范的安全整改要求,从而提高工程安全质量、提升工程效率。
实施例二
本发明实施例提供了一种基于知识图谱的推荐装置,如图6所示,该装置具体包括以下组成部分:
构建模块601,用于根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语;
确定模块602,用于从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
查找模块603,用于从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
推荐模块604,用于分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求。
具体的,构建模块601,包括:
训练单元,用于根据预设的训练样本集,训练出用于从安全规范文本中识别出实体词语和意图词语的识别模型;
识别单元,用于利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,并根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语;
存储单元,用于将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中,以构建安全知识图谱;
其中,所述标签包括:实体词语头、实体词语体、意图词语头、意图词语体、其他词语。
进一步的,所述识别单元,具体用于:
从所述安全规范文本中识别出安全规范条例;对所述安全规范条例进行字粒度的分词处理,并对分词处理后的每个字进行向量编码;根据每个字的向量编码结果确定出每个字的概率列表;其中,所述概率列表用于表征一个字在各种标签下的概率值;根据每个字的概率列表,将最大概率值所对应的标签设置为对应字的标签。
进一步的,所述识别单元,还用于:
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为实体词语头;若是,则当在标签为实体词语头的字之后存在N个连续的标签为实体词语体的字时,将所述标签为实体词语头的字和所述N个连续的标签为实体词语体的字组成实体词语;以及,从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为意图词语头;若是,则当在标签为意图词语头的字之后存在N个连续的标签为意图词语体的字时,将所述标签为意图词语头的字和所述N个连续的标签为意图词语体的字组成意图词语;其中,N为大于等于1的正整数。
进一步的,确定模块602,具体用于:
获取预设的实体领域词典;其中,所述实体领域词典包括:实体词语;
对所述安全问题信息进行词粒度的分词处理,并依次判断分词处理后的每个词语是否存在于所述实体领域词典中,若是,则将所述词语设置为目标实体词语;将所有目标实体词语和所述安全问题信息输入预设的分类模型中,得到对应的目标意图词语。
进一步的,推荐模块604,具体用于:
将所述候选安全规范条例和所述安全问题信息输入预设的用于自然语言推断的增强型长短期记忆模型ESIM中,得到语义相似度值;按照语义相似度值由大到小对所有候选安全规范条例进行排序,并根据排序结果,将排在前M个的候选安全规范条例作为目标安全规范条例。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图7所示,本实施例的计算机设备70至少包括但不限于:可通过系统总线相互通信连接的存储器701、处理器702。需要指出的是,图7仅示出了具有组件701-702的计算机设备70,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器701(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器701可以是计算机设备70的内部存储单元,例如该计算机设备70的硬盘或内存。在另一些实施例中,存储器701也可以是计算机设备70的外部存储设备,例如该计算机设备70上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器701还可以既包括计算机设备70的内部存储单元也包括其外部存储设备。在本实施例中,存储器701通常用于存储安装于计算机设备70的操作系统和各类应用软件。此外,存储器701还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器702在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器702通常用于控制计算机设备70的总体操作。
具体的,在本实施例中,处理器702用于执行存储器701中存储的基于知识图谱的推荐方法的程序,所述基于知识图谱的推荐方法的程序被执行时实现如下步骤:
根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语;
从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
根据安全规范文本构建安全知识图谱;其中,所述安全知识图谱包括:安全规范条例,以及与所述安全规范条例关联的实体词语和意图词语;
从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于知识图谱的推荐方法,其特征在于,所述方法包括:
将安全规范文本作为输入数据输入到预设的识别模型中,以识别出所述安全规范文本中的安全规范条例以及识别出所述安全规范条例中的实体词语和意图词语,并将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中以构建安全知识图谱;
从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求;
其中,所述确定出与所述安全问题信息对应的目标实体词语和目标意图词语,包括:
将所述安全问题信息中的存在于预设的实体领域词典中的词语设置为目标实体词语;
将所有目标实体词语和所述安全问题信息输入预设的分类模型中,得到对应的目标意图词语。
2.根据权利要求1所述的基于知识图谱的推荐方法,其特征在于,所述将安全规范文本作为输入数据输入到预设的识别模型中,以识别出所述安全规范文本中的安全规范条例以及识别出所述安全规范条例中的实体词语和意图词语,并将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中以构建安全知识图谱,包括:
根据预设的训练样本集,训练出用于从安全规范文本中识别出实体词语和意图词语的识别模型;
利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,并根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语;
将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中,以构建安全知识图谱;
其中,所述标签包括:实体词语头、实体词语体、意图词语头、意图词语体、其他词语。
3.根据权利要求2所述的基于知识图谱的推荐方法,其特征在于,所述利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,包括:
从所述安全规范文本中识别出安全规范条例;
对所述安全规范条例进行字粒度的分词处理,并对分词处理后的每个字进行向量编码;
根据每个字的向量编码结果确定出每个字的概率列表;其中,所述概率列表用于表征一个字在各种标签下的概率值;
根据每个字的概率列表,将最大概率值所对应的标签设置为对应字的标签。
4.根据权利要求2所述的基于知识图谱的推荐方法,其特征在于,所述根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语,包括:
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为实体词语头;若是,则当在标签为实体词语头的字之后存在N个连续的标签为实体词语体的字时,将所述标签为实体词语头的字和所述N个连续的标签为实体词语体的字组成实体词语;以及,
从所述安全规范条例的第一个字开始,依次判断各个字的标签是否为意图词语头;若是,则当在标签为意图词语头的字之后存在N个连续的标签为意图词语体的字时,将所述标签为意图词语头的字和所述N个连续的标签为意图词语体的字组成意图词语;
其中,N为大于等于1的正整数。
5.根据权利要求1所述的基于知识图谱的推荐方法,其特征在于,所述将所述安全问题信息中的存在于预设的实体领域词典中的词语设置为目标实体词语,包括:
获取预设的实体领域词典;其中,所述实体领域词典包括:实体词语;
对所述安全问题信息进行词粒度的分词处理,并依次判断分词处理后的每个词语是否存在于所述实体领域词典中,若是,则将所述词语设置为目标实体词语。
6.根据权利要求1所述的基于知识图谱的推荐方法,其特征在于,所述分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,包括:
将所述候选安全规范条例和所述安全问题信息输入预设的用于自然语言推断的增强型长短期记忆模型ESIM中,得到语义相似度值;
按照语义相似度值由大到小对所有候选安全规范条例进行排序,并根据排序结果,将排在前M个的候选安全规范条例作为目标安全规范条例。
7.一种基于知识图谱的推荐装置,其特征在于,所述装置包括:
构建模块,用于将安全规范文本作为输入数据输入到预设的识别模型中,以识别出所述安全规范文本中的安全规范条例以及识别出所述安全规范条例中的实体词语和意图词语,并将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中以构建安全知识图谱;
确定模块,用于从用户端获取安全问题信息,并确定出与所述安全问题信息对应的目标实体词语和目标意图词语;
查找模块,用于从所述安全知识图谱中查找与所述目标实体词语和目标意图词语关联的候选安全规范条例;
推荐模块,用于分别计算每个候选安全规范条例与所述安全问题信息的语义相似度值,并根据计算结果从所有候选安全规范条例中确定出推荐给所述用户端的目标安全规范条例,以供所述用户端根据所述目标安全规范条例生成与所述安全问题信息对应的问题整改要求;
其中,所述确定模块,用于:
将所述安全问题信息中的存在于预设的实体领域词典中的词语设置为目标实体词语;
将所有目标实体词语和所述安全问题信息输入预设的分类模型中,得到对应的目标意图词语。
8.根据权利要求7所述的基于知识图谱的推荐装置,其特征在于,所述构建模块,包括:
训练单元,用于根据预设的训练样本集,训练出用于从安全规范文本中识别出实体词语和意图词语的识别模型;
识别单元,用于利用所述识别模型从安全规范文本中识别出安全规范条例以及识别出所述安全规范条例中每个字的标签,并根据识别出的每个字的标签从所述安全规范条例中确定出实体词语和意图词语;
存储单元,用于将识别出的安全规范条例、实体词语和意图词语关联的存储到预设的图数据库中,以构建安全知识图谱;
其中,所述标签包括:实体词语头、实体词语体、意图词语头、意图词语体、其他词语。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202110436115.5A 2021-04-22 2021-04-22 基于知识图谱的推荐方法、装置、设备及可读存储介质 Active CN113127626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436115.5A CN113127626B (zh) 2021-04-22 2021-04-22 基于知识图谱的推荐方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436115.5A CN113127626B (zh) 2021-04-22 2021-04-22 基于知识图谱的推荐方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113127626A CN113127626A (zh) 2021-07-16
CN113127626B true CN113127626B (zh) 2024-04-30

Family

ID=76779122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436115.5A Active CN113127626B (zh) 2021-04-22 2021-04-22 基于知识图谱的推荐方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113127626B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449083B (zh) * 2021-08-31 2021-12-21 深圳市信润富联数字科技有限公司 作业安全管理方法、装置、设备及存储介质
CN117151107A (zh) * 2022-05-24 2023-12-01 中国电信股份有限公司 一种意图识别方法、装置、存储介质和电子设备
CN117392826B (zh) * 2023-12-11 2024-02-13 吉林大学 一种基于大数据的网络信息预警方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977233A (zh) * 2019-03-15 2019-07-05 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
WO2021000676A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
WO2021012878A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 医疗领域知识图谱问答处理方法、装置、设备及存储介质
CN112527998A (zh) * 2020-12-22 2021-03-19 深圳市优必选科技股份有限公司 一种答复推荐方法、答复推荐装置及智能设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977233A (zh) * 2019-03-15 2019-07-05 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
WO2021000676A1 (zh) * 2019-07-03 2021-01-07 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
WO2021012878A1 (zh) * 2019-07-19 2021-01-28 平安科技(深圳)有限公司 医疗领域知识图谱问答处理方法、装置、设备及存储介质
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112527998A (zh) * 2020-12-22 2021-03-19 深圳市优必选科技股份有限公司 一种答复推荐方法、答复推荐装置及智能设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于部件CNN的网络安全命名实体识别方法;魏笑;秦永彬;陈艳平;;计算机与数字工程(第01期);全文 *
一种融合语义分析特征提取的推荐算法;陈嘉颖;于炯;杨兴耀;;计算机研究与发展(第03期);全文 *

Also Published As

Publication number Publication date
CN113127626A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN113127626B (zh) 基于知识图谱的推荐方法、装置、设备及可读存储介质
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110765265A (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111259625A (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110377558A (zh) 文档查询方法、装置、计算机设备和存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN112488896A (zh) 应急预案生成方法、装置、计算机设备及存储介质
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN114547315A (zh) 一种案件分类预测方法、装置、计算机设备及存储介质
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN111554275A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
CN113469237B (zh) 用户意图识别方法、装置、电子设备及存储介质
CN115618355A (zh) 注入攻击结果判定方法、装置、设备及存储介质
CN113761918A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant