CN113254473A - 一种获取气象服务知识的方法及装置 - Google Patents

一种获取气象服务知识的方法及装置 Download PDF

Info

Publication number
CN113254473A
CN113254473A CN202110754564.4A CN202110754564A CN113254473A CN 113254473 A CN113254473 A CN 113254473A CN 202110754564 A CN202110754564 A CN 202110754564A CN 113254473 A CN113254473 A CN 113254473A
Authority
CN
China
Prior art keywords
entity
meteorological
word
entities
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110754564.4A
Other languages
English (en)
Other versions
CN113254473B (zh
Inventor
匡秋明
郑江平
刘进
彭敏
王维川
张丰基
于廷照
胡骏楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center
Original Assignee
Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center filed Critical Public Meteorological Service Center Of China Meteorological Administration National Early Warning Information Release Center
Priority to CN202110754564.4A priority Critical patent/CN113254473B/zh
Publication of CN113254473A publication Critical patent/CN113254473A/zh
Application granted granted Critical
Publication of CN113254473B publication Critical patent/CN113254473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种获取气象服务知识的方法及装置,其中,该获取气象服务知识的方法包括:对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;从得到的实体中,抽取属于气象领域的气象实体;基于相似度算法,将气象实体链接到预先构建的气象知识图谱;依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。可以提高气象服务知识的获取效率。

Description

一种获取气象服务知识的方法及装置
技术领域
本发明涉及气象服务技术领域,具体而言,涉及一种获取气象服务知识的方法及装置。
背景技术
自然语言处理技术已经应用在日常生活和工作的各个方面,尤其是基于自然语言处理的交互问答,交互问答由于可以根据提问者的自然语言问题来生成自然语言回答,具有智能化的特点,可以节约大量的人工坐席成本,应用的越来越广泛。
目前基于自然语言的交互问答方法,在生活场景中应用较多,通过预设的规则设计问答,并根据规则提供回答,如订餐、订机票等,主要通过槽填充的规则来搜索问题的答案。
但目前基于自然语言的交互问答的方法,通过自然语言交互问答的网络搜索,可能获取到大量的与气象服务知识不相关的信息,因而,还需要用户具有一定的气象领域知识,以对得到的答案进行辨别,使得通过网络搜索获取的气象服务知识的精度较低,需要花费较多的时间从中辨别出相关的气象服务知识,气象服务知识的获取效率不高。
发明内容
有鉴于此,本发明的目的在于提供获取气象服务知识的方法及装置,以提高气象服务知识的获取效率。
第一方面,本发明实施例提供了获取气象服务知识的方法,包括:
对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;
从得到的实体中,抽取属于气象领域的气象实体;
基于相似度算法,将气象实体链接到预先构建的气象知识图谱;
依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;
依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述对用户提出的自然语言表示问题进行实体识别以及实体关系抽取,包括:
对自然语言表示问题进行预处理,得到自然语言预处理表示问题;
对自然语言预处理表示问题进行实体分析,得到实体以及实体关系;
所述对自然语言预处理表示问题进行实体分析,得到实体以及实体关系,包括:
利用分词工具对自然语言预处理表示问题进行分词,得到分词词语;
依据词性字典,对分词词语进行词性标注;
基于分词词语以及词性标注,利用预先构建的实体识别模型,获取实体以及实体关系。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于分词词语以及词性标注,利用预先构建的实体模型,获取实体以及实体关系,包括:
针对自然语言预处理表示问题的每一分词词语,将该分词词语对应的嵌入表示输入第一自注意力网络,得到第一自注意力特征;
将第一自注意力特征输入第一前馈神经网络,得到第一前馈特征;
将分词词语的前一分词词语,以及该前一分词词语的词性标注进行嵌入表示,将嵌入表示输入第二自注意力网络,得到第二自注意力特征,其中,若该分词词语为所述自然语言表示问题的第一个分词词语,则该分词词语的前一分词词语为该分词词语;
将第一前馈特征以及第二自注意力特征输入编解码注意力网络,得到编解码注意力特征;
将编解码注意力特征输入第二前馈神经网络,得到变换层输出的该分词词语为实体的变换层概率;
将各变换层输出的变换层概率输入条件随机场层,得到分词词语为实体的概率,提取概率超过预设概率阈值的分词词语,得到实体,依据得到的各实体,抽取实体关系。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述基于相似度算法,将气象实体链接到预先构建的气象知识图谱,包括:
依据自然语言表示问题包含的气象实体,构建第一文档,依据气象知识图谱中的实体以及该实体对应的属性信息,构建第二文档;
利用词移距离算法,计算第一文档与第二文档之间的总代价,依据总代价下界最小化得到文档相似度,将第一文档链接到气象知识图谱中该文档相似度对应的实体。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述基于相似度算法,将气象实体链接到预先构建的气象知识图谱,包括:
针对自然语言表示问题包含的每一气象实体,计算该气象实体与气象知识图谱中的每一实体的字符串相似度,若字符串相似度大于或等于预设的字符串相似度阈值,将该气象实体链接到气象知识图谱中该字符串相似度对应的实体。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述对链接到气象知识图谱中的实体进行消歧,包括:
针对链接到气象知识图谱中的每一气象实体,将该气象实体和该气象实体对应气象知识图谱中的链接实体分别进行词嵌入表示,得到气象实体嵌入表示和链接实体嵌入表示;
利用BiLSTM神经网络模型,分别对气象实体嵌入表示和链接实体嵌入表示进行处理,得到气象实体向量化表示以及链接实体向量化表示;
对输出的各气象实体向量化表示进行聚合,得到气象实体整体向量,对输出的各链接实体向量化表示进行聚合,得到链接实体整体向量;
利用词移距离算法计算气象实体整体向量与链接实体整体向量的匹配得分,对匹配得分小于预设匹配分数阈值的实体进行消歧。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识,包括:
依据构建的数据库查询语句搜索气象知识图谱,获取多个查询结果;
依据词移距离算法计算多个查询结果分别与所述自然语言表示问题的词移距离;
按照词移距离对多个查询结果进行排序,选取排序前预定数的查询结果,得到所述自然语言表示问题对应的气象服务知识。
第二方面,本发明实施例还提供了一种获取气象服务知识的装置,包括:
实体获取模块,用于对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;
过滤模块,用于从得到的实体中,抽取属于气象领域的气象实体;
链接模块,用于基于相似度算法,将气象实体链接到预先构建的气象知识图谱;
消歧模块,用于依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;
查询模块,用于依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例提供的获取气象服务知识的方法及装置,通过对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;从得到的实体中,抽取属于气象领域的气象实体;基于相似度算法,将气象实体链接到预先构建的气象知识图谱;依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。这样,基于自然语言处理以及气象知识图谱的交互问答,提供气象服务知识,可以提升气象服务知识的获取效率以及精度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的获取气象服务知识的方法流程示意图;
图2示出了本发明实施例所提供的实体识别模型结构示意图;
图3示出了本发明实施例所提供的变换层结构示意图;
图4示出了依据本发明实施例的方法进行查询得到的部分查询结果示意图;
图5示出了本发明实施例所提供的获取气象服务知识的装置结构示意图;
图6为本申请实施例提供的一种计算机设备600的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
知识图谱利用实体、关系进行构建,包含一个或多个领域的领域知识,存储结构简单、查询方便,能够查询相关实体和关系,在搜索引擎、网页购物等方面发挥着重要作用。
本发明实施例中,基于自然语言处理以及气象知识图谱的交互问答,提供气象服务知识,帮助用户利用本发明实施例的获取气象服务知识的方法,获得提出的气象问题的专业化答案,用以提升气象服务知识的获取效率,满足用户日常了解和掌握相关气象服务知识的需求。
本发明实施例提供了一种获取气象服务知识的方法及装置,下面通过实施例进行描述。
图1示出了本发明实施例所提供的获取气象服务知识的方法流程示意图。如图1所示,该方法包括:
步骤101,对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;
本发明实施例中,作为一可选实施例,对用户提出的自然语言表示问题进行实体识别以及实体关系抽取,包括:
A11,对自然语言表示问题进行预处理,得到自然语言预处理表示问题;
本发明实施例中,作为一可选实施例,预处理包括:错误检查、敏感词汇过滤、非法字符剔除,以减少后续的运算量,提升运算效率。
本发明实施例中,自然语言表示问题为用户输入的待解答问题,作为一可选实施例,使用python语言的正则表达式对用户输入的自然语言表示问题进行字符错误检查、敏感词汇过滤以及非法字符剔除。
A12,对自然语言预处理表示问题进行实体分析,得到实体以及实体关系。
本发明实施例中,实体分析包含:分词、词性标注、命名实体识别、实体关系抽取,作为一可选实施例,对自然语言预处理表示问题进行实体分析,得到实体以及实体关系,包括:
A121,利用分词工具对自然语言预处理表示问题进行分词,得到分词词语;
本发明实施例中,以输入的自然语言表示问题为“暴雨的预警信号有哪些,该怎么防护”为例,由于不包含敏感词汇、非法字符,因而,经错误检查、敏感词汇过滤、非法字符剔除后,得到的自然语言预处理表示问题仍然为“暴雨的预警信号有哪些,该怎么防护”。
本发明实施例中,作为一可选实施例,使用结巴(jieba)分词工具包中的posseg库对自然语言预处理表示问题进行分词,得到分词词语:['暴雨', '的', '预警', '信号','有', '哪些', ',', '该', '怎么', '防护']。
A122,依据词性字典,对分词词语进行词性标注;
本发明实施例中,以上述分词词语为例,查询预先设置的词性词典,得到对应的词性标注为:['n', 'uj', 'vn', 'n', 'v', 'r', 'x', 'r', 'r', 'v']。
本发明实施例中,对于在词性词典中查询不到的分词词语,作为一可选实施例,采用基于查询概率的隐马尔科夫模型(HMM,Hidden Markov Model),对该分词词语进行词性标注。
A123,基于分词词语以及词性标注,利用预先构建的实体识别模型,获取实体以及实体关系。
图2示出了本发明实施例所提供的实体识别模型结构示意图。如图2所示,本发明实施例中,作为一可选实施例,实体识别模型包括:多个变换层(Transformer Layer)201以及一个条件随机场(CRF,Conditional Random Field)层202,其中,
多个变换层分别与条件随机场层相连,各变换层之间相互独立。
图3示出了本发明实施例所提供的变换层结构示意图。如图3所示,本发明实施例中,每一变换层均包括:编码器(Encoder)31以及解码器(Decoder)32,其中,编码器31包括:第一自注意力(self-attention)网络311以及与第一自注意力网络相连的第一前馈(FeedForward)神经网络312,解码器32包括:第二自注意力(self-attention)网络321、分别与第二自注意力网络321以及第一前馈神经网络312相连的编解码注意力(attention)网络322、与编解码注意力网络322相连的第二前馈神经网络323,所述基于分词词语以及词性标注,利用预先构建的实体模型,获取实体以及实体关系,包括:
B11,针对自然语言预处理表示问题的每一分词词语,将该分词词语对应的嵌入表示输入第一自注意力网络,得到第一自注意力特征;
本发明实施例中,对于进行分词的自然语言预处理表示问题,将每个分词词语,对应图2中的S1- Sn,以S1为例,利用初始化向量方式对S1进行处理,得到嵌入表示(E1)。其中,初始化向量方式包括但不限于:平均分布、正态分布。
B12,将第一自注意力特征输入第一前馈神经网络,得到第一前馈特征;
B13,将分词词语的前一分词词语,以及该前一分词词语的词性标注进行嵌入表示,将嵌入表示输入第二自注意力网络,得到第二自注意力特征,其中,若该分词词语为所述自然语言表示问题的第一个分词词语,则该分词词语的前一分词词语为该分词词语;
本发明实施例中,对于进行分词的自然语言预处理表示问题,将每个分词词语和对应的词性标注作为待处理实体对,例如,将“暴雨/n”作为第一待处理实体对。本发明实施例中,对于分词词语以及待处理实体对,在图中均以S1进行表示。
本发明实施例中,若当前待处理实体对为'信号/n ',则该待处理实体对的前一待处理实体对为“预警/vn”。
本发明实施例中,对于第一自注意力网络,输入为分词词语对应的嵌入表示,对于第二自注意力网络,输入为该分词词语的前一分词词语以及该前一分词词语的词性标注对应的嵌入表示。
B14,将第一前馈特征以及第二自注意力特征输入编解码注意力网络,得到编解码注意力特征;
本发明实施例中,编解码注意力网络用于连接编码器和解码器。
B15,将编解码注意力特征输入第二前馈神经网络,得到变换层输出的该分词词语为实体的变换层概率;
本发明实施例中,作为一可选实施例,先计算每一自注意力网络输出的序列中的分词词语为实体的自注意力概率:
Figure P_210702113557377_377882001
式中,
Figure P_210702113557915_915010001
为分词词语为实体的自注意力概率;
Q为查询向量序列;
K为分词词语构成的键向量序列;
V为分词词语构成的值向量序列;
d k 为预设的规模化参数。
本发明实施例中,查询向量序列为输出序列,例如,对于['暴雨', '的', '预警','信号', '有', '哪些', ',', '该', '怎么', '防护'],实体识别模型的输出序列为['E', 'o', 'E', 'o', 'o', 'o', 'o', 'o', 'o', 'R'],其中‘E’为需要识别的实体(命名实体),‘R’为需要抽取的实体关系,‘o’为其他,键向量序列为进行分词得到的分词词语序列,['暴雨', '的', '预警', '信号', '有', '哪些', ',', '该', '怎么', '防护'],值向量序列为键向量序列对应的值,可预先设置。
本发明实施例中,自注意力网络包括:第一自注意力网络、第二自注意力网络以及编解码注意力网络,其中,编解码注意力网络的输入包含了嵌入表示的词性标注,用于有监督学习。
本发明实施例中,查询向量序列在训练时初始化为随机N维向量序列,序列中每个分词词语对应有实体标签,进行参数矩阵的训练,键向量序列同理,在训练时,设定Q=K=V,即三个随机向量序列通过标签和自注意训练后得到一个新的向量序列,该序列可以通过自注意中的权重矩阵进行计算得到一个权重序列,根据权重序列的值可以得到序列中重要的词语,该重要的词语为需要识别的实体或者抽取的实体关系。
在变换层中,使用多头注意力,即Multi-Head Attention,对自注意力概率进行计算,得到变换层概率:
Figure P_210702113557964_964276001
其中,
Figure P_210702113558011_011773001
式中,
Figure P_210702113558058_058520001
为变换层概率;
Figure P_210702113558105_105412001
为第i个自注意力网络的权重矩阵;
Figure P_210702113558136_136656001
为第i个自注意力网络的查询向量序列的权重矩阵;
Figure P_210702113558169_169851001
为第i个自注意力网络的键向量序列的权重矩阵;
Figure P_210702113558201_201202001
为第i个自注意力网络的值向量序列的权重矩阵。
本发明实施例中,多头自注意力网络通过不同的线性变换对
Figure P_210702113558231_231928001
进行投影,最后将不同的自注意力概率进行拼接,得到变换层概率:
Figure P_210702113558263_263630002
,本发明实施例中,每一层转换层的
Figure P_210702113558310_310620003
取相同的值,不同转换层中,
Figure P_210702113558341_341750004
的值不相同。
B16,将各变换层输出的变换层概率输入条件随机场层,得到分词词语为实体的概率,提取概率超过预设概率阈值的分词词语,得到实体,依据得到的各实体,抽取实体关系。
本发明实施例中,在命名实体识别模型中,加入条件随机场CRF层,对输出的命名实体概率和实体关系概率增加约束,条件随机场层假设分词词语之间相互独立,在预测第i个分词词语的实体概率时,其结果只与前面i-1个分词词语相关。
本发明实施例中,条件随机场层通过特征函数确定分词词语序列的先验概率,学习到分词词语序列的规则特征,然后再通过转移矩阵记录分词词语属于实体的概率,转移矩阵中包含分词词语序列的概率或权重。例如,对于“暴雨的预警信号有哪些,该怎么防护”,“暴雨”后出现的“预警”是一个正常的分词词语序列,则对应的转移矩阵值就较大,而如果判断“预警”在“暴雨”前时,由于该分词词语序列不正常,对应的转移矩阵值较小,最后将转移矩阵值和特征函数所求的值进行加权求和,得到分词词语序列中每个分词词语属于实体的概率,从而通过增加序列化的约束,提高最终的输出效果。
本发明实施例中,由于Q、K、V是针对输入的分词词语序列进行权重学习,例如,对于“暴雨的预警信号有哪些,该怎么防护”,由于“暴雨”、“预警”、“防护”在句子中比较重要,通过多头自注意力网络训练后,这些分词词语的“权重”值较高,表示比较重要。
本发明实施例中,作为一可选实施例,实体识别模型的层数N取6。
本发明实施例中,利用下式计算实体或关系的概率:
Figure P_210702113558374_374466001
其中,
Figure P_210702113558437_437026001
为第i个分词词语为实体或关系的概率;
Figure P_210702113558483_483868001
为第j个转换层输出的变换层概率中,第i个分词词语为实体或关系的概率;
N为转换层的层数。
本发明实施例中,将多个变换层概率序列中对应位置的分词词语的概率相加,再除以变换层的层数,得到该分词词语为实体的概率。经过多层Transformer结合CRF处理后输出识别的实体或关系类型,用于下一步的过滤工作。
步骤102,从得到的实体中,抽取属于气象领域的气象实体;
本发明实施例中,对得到的实体进行过滤,将其中不包含实体以及分析后不属于气象领域的实体进行过滤丢弃。例如,对于“暴雨的预警信号有哪些,该怎么防护”,其中,进行抽取后得到的气象实体包含:“暴雨”,“预警”,“防护”,属于气象领域,无需处理。再例如,对于“晚饭吃什么”,进行实体抽取后,不包含气象实体,则将该问题进行过滤丢弃,直接回答“无法回答相关问题”。
本发明实施例中,作为一可选实施例,对中国天气网提供的气象百科和百度百科中的气象内容进行整合,作为气象百科内容,结合陆忠汉、王婉馨编著的《简明气象词典》作为气象词典工具,进行气象实体抽取。
步骤103,基于相似度算法,将气象实体链接到预先构建的气象知识图谱;
本发明实施例中,作为一可选实施例,相似度算法包括:语义相似度算法以及字符串相似度算法,其中,语义相似度算法利用基于文档的词移距离(WMD,Word Mover’sDistance)算法进行计算。
本发明实施例中,作为一可选实施例,基于相似度算法,将气象实体链接到预先构建的气象知识图谱,包括:
C11,依据自然语言表示问题包含的气象实体,构建第一文档,依据气象知识图谱中的实体以及该实体对应的属性信息,构建第二文档;
本发明实施例中,作为一可选实施例,对于自然语言表示问题识别出多个气象实体的情况,将自然语言表示问题包含的多个气象实体进行拼接,得到第一文档,从气象知识图谱中,选取第一文档包含的气象实体数的实体,以及对应的属性信息,构建第二文档。
本发明实施例中,作为另一可选实施例,对于自然语言表示问题识别出多个气象实体的情况,也可以将多个气象实体中的每一气象实体分别作为第一文档,将气象知识图谱中的每一实体以及该实体对应的属性信息分别作为第二文档,其中,每一气象实体对应一第一文档,气象知识图谱中的每一实体对应一第二文档。
C12,利用词移距离算法,计算第一文档与第二文档之间的总代价,依据总代价下界最小化得到文档相似度,将第一文档链接到气象知识图谱中该文档相似度对应的实体。
本发明实施例中,词移距离算法使用两个文档中的任意两个词所对应的词向量求欧氏距离,然后再加权求和的方式进行计算,得到第一文档与第二文档之间的总代价:
Figure P_210702113558530_530707001
其中,
Figure P_210702113558579_579142001
为第一文档的第i个气象实体的词向量与第二文档的第j个实体的词向量的欧氏距离;
T为加权矩阵;
Figure P_210702113558642_642561001
为加权矩阵中i、j两个词的权重;
Figure P_210702113558688_688917001
为第一文档与第二文档之间的总代价。
本发明实施例中,可以通过词频或词频-逆文本频率(TFIDF,Term FrequencyInverse Document Frequency)计算加权矩阵中两个词的权重。
本发明实施例中,将该总代价求得下界最小化后,得到文档间距离,该文档间距离用于表征文档相似度:
Figure P_210702113558720_720225001
Figure P_210702113558865_865194001
Figure P_210702113558979_979944001
其中,
n为词的个数;
Figure P_210702113559026_026831001
Figure P_210702113559073_073728002
分别为两个文档中,各个词权重(概率)组成的向量,为文档特征。
本发明实施例中,利用词移距离算法进行计算,可以得到自然语言表示问题和气象知识图谱中实体的词移距离,即自然语言表示问题和气象知识图谱中实体的词移距离是指总代价下界最小化对应的文档间距离。作为另一可选实施例,也可以是基于第一文档与第二文档之间的总代价,若总代价小于预先设置的代价阈值,将第一文档链接到气象知识图谱中该总代价对应的实体。
本发明实施例中,作为另一可选实施例,基于相似度算法,将气象实体链接到预先构建的气象知识图谱,包括:
针对自然语言表示问题包含的每一气象实体,计算该气象实体与气象知识图谱中的每一实体的字符串相似度,若字符串相似度大于或等于预设的字符串相似度阈值,将该气象实体链接到气象知识图谱中该字符串相似度对应的实体。
本发明实施例中,对于自然语言表示问题识别出多个气象实体的情况,针对每一气象实体,分别计算该气象实体与气象知识图谱中的每一实体的字符串相似度。
本发明实施例中,作为一可选实施例,字符串相似度使用Google开源的API—word2vec算法中自带的余弦相似度函数来计算。其中训练语料为气象知识图谱中所有的实体及属性信息,以及百度提供的260G公开语料。
本发明实施例中,文档相似度是将整个自然语言表示问题链接到气象知识图谱中。字符串相似度计算的是气象实体和气象知识图谱中每一实体的相似度,从气象知识图谱的实体中,找出与气象实体的相似度大于阈值的实体,作为该气象实体的链接结果,从而将气象实体链接到气象知识图谱中。
本发明实施例中,一气象实体链接气象知识图谱中一个或多个实体。以“暴雨的预警信号有哪些,该怎么防护”为例,其中的气象实体“暴雨”可以链接至气象知识图谱中的实体“大雨”、“暴雨”、“雨”,气象实体“预警”链接至气象知识图谱中的实体“气象预警”,气象实体“防护”链接至气象知识图谱中的实体“防护措施”等。
步骤104:依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;
本发明实施例中,若链接结果唯一,即每一气象实体链接一气象知识图谱中的一实体,不进行消歧处理;如果链接结果不唯一,进行消歧处理。
本发明实施例中,作为一可选实施例,利用预先构建的语义匹配模型和气象知识图谱进行消歧。
本发明实施例中,使用自然语言处理技术构建语义匹配模型进行消歧,作为一可选实施例,语义匹配模型包括:输入层、表示层、加权聚合层和匹配层,依据匹配层输出的匹配得分进行消歧。
本发明实施例中,对链接到气象知识图谱中的实体进行消歧,包括:
D11,针对链接到气象知识图谱中的每一气象实体,将该气象实体和该气象实体对应气象知识图谱中的链接实体分别进行词嵌入表示,得到气象实体嵌入表示和链接实体嵌入表示;
D12,利用BiLSTM神经网络模型,分别对气象实体嵌入表示和链接实体嵌入表示进行处理,得到气象实体向量化表示以及链接实体向量化表示;
D13,对输出的各气象实体向量化表示进行聚合,得到气象实体整体向量,对输出的各链接实体向量化表示进行聚合,得到链接实体整体向量;
D14,利用词移距离算法计算气象实体整体向量与链接实体整体向量的匹配得分,对匹配得分小于预设匹配分数阈值的实体进行消歧。
本发明实施例中,作为一可选实施例,输入层使用n-BOW词袋模型;表示层采用BiLSTM神经网络模型。本发明实施例中,BiLSTM神经网络模型预先通过气象相关语料进行训练得到初始化参数,包括多层LSTM神经网络单元,每一层LSTM神经网络单元包括多个LSTM神经网络单元,每层LSTM神经网络单元包括的LSTM神经网络单元的数量可依据实际情况确定,以序列包含四个气象实体嵌入表示,多层LSTM神经网络单元包含两层LSTM神经网络单元,第一层LSTM神经网络单元包括四个LSTM神经网络单元(第一LSTM神经网络单元至第四LSTM神经网络单元)、第二层LSTM神经网络单元包括第五LSTM神经网络单元至第八LSTM神经网络单元,依序将序列(包含四个气象实体嵌入表示)中的第一气象实体嵌入表示输入第一LSTM神经网络单元和第五LSTM神经网络单元,第二气象实体嵌入表示输入第二LSTM神经网络单元和第六LSTM神经网络单元,第三气象实体嵌入表示输入第三LSTM神经网络单元和第七LSTM神经网络单元,第四气象实体嵌入表示输入第四LSTM神经网络单元和第八LSTM神经网络单元,第一LSTM神经网络单元的输出分别输出至第二LSTM神经网络单元以及加权聚合层,第二LSTM神经网络单元的输出分别输出至第三LSTM神经网络单元以及加权聚合层,第三LSTM神经网络单元的输出分别输出至第四LSTM神经网络单元以及加权聚合层,第四LSTM神经网络单元的输出至加权聚合层,第八LSTM神经网络单元的输出分别输出至第七LSTM神经网络单元以及加权聚合层,第七LSTM神经网络单元的输出分别输出至第六LSTM神经网络单元以及加权聚合层,第六LSTM神经网络单元的输出分别输出至第五LSTM神经网络单元以及加权聚合层,第五LSTM神经网络单元的输出至加权聚合层;加权聚合层将输出的向量化表示聚合为整体向量,具体为:
Figure P_210702113559104_104508001
Figure P_210702113559152_152731001
其中,
Figure P_210702113559184_184498001
表示加权聚合后输出的整体嵌入向量;当d=1时表示输入为气象实体集合,d=2时表示输入为气象知识图谱的链接实体集合;
Figure P_210702113559215_215808001
表示嵌入向量的第i个值,m的值等于LSTM神经网络单元的数量,与输入的气象实体集合包含的气象实体数相同;
Figure P_210702113559247_247029001
表示第j个LSTM神经网络单元输出的第i个实体的向量化表示。对于链接实体,与气象实体的处理流程相类似,依据气象实体与链接实体对应的LSTM神经网络单元的输出,得到整体向量表示。
本发明实施例中,依据最终计算出的匹配得分,作为一可选实施例,如果匹配得分大于22,确定气象实体与链接实体之间存在歧义,对于不存在歧义的链接实体予以保留,对于存在歧义的链接实体,还可以通过气象知识图谱的schema进行查询后人工比对判断是否需要进行消歧处理。其中,气象知识图谱的schema是在构建气象知识图谱中确定的,,例如,对于(气象灾害)--(干旱)--(干旱周期,抗旱,人工降雨)层级关系,如果存在歧义的实体存在于某一层级上,或者存在于上下连续的多个层级上,举例来说,存在歧义的气象实体和链接实体分别是“干旱”、“气象灾害”,则不需要消歧,如果存在于不连续的多个层级上,就存在歧义。
步骤105,依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。
本发明实施例中,作为一可选实施例,利用Cypher语句构建数据库查询语句,其中,Cypher语言是一种图数据库搜索语言,可以很好地应用在Neo4j上,而本发明实施例中,鉴于气象知识图谱存储在类似于Neo4j的图数据库中,因而,使用Cypher语言进行搜索,可以快速便捷地在气象知识图谱中查找答案。
本发明实施例中,预先利用Cypher语句形成查询语句模板,再利用查询语句模板构建数据库查询语句,作为一可选实施例,将消歧后链接到气象知识图谱中的实体和抽取关系作为关键字加入查询语句模板,利用查询语句模板在知识图谱中进行查询,得到答案。
本发明实施例中,作为一可选实施例,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识,包括:
依据构建的数据库查询语句搜索气象知识图谱,获取多个查询结果;
依据词移距离算法计算多个查询结果分别与所述自然语言表示问题的词移距离;
按照词移距离对多个查询结果进行排序,选取排序前预定数的查询结果,得到所述自然语言表示问题对应的气象服务知识。
本发明实施例中,将依据数据库查询语句搜索到的查询结果进行排序,排序后选择最合适的搜索结果作为答案。作为一可选实施例,可采用词移距离进行相似度计算,计算后按照分数顺序进行排序,排序后再使用关键词提取算法提取查询结果中包含的问答语句关键词作为答案。
本发明实施例中,以“暴雨的预警信号有哪些,该怎么防护”为例,经过上述各步骤,搜索到的查询结果包括:气象知识图谱中“暴雨”的定义信息、“气象预警”关于暴雨的内容以及“防护措施”中关于暴雨的防护措施,将搜索到的查询结果按照自然语言表示问题中的实体对应顺序排列组织,形成答案提供给用户。由于气象知识图谱在构建时已经经过相关处理,因而,可以无需进行纠错等文字处理或者生成方法处理,将搜索到的查询结果直接作为答案提供给用户。
为说明本发明实施例的实验效果,本发明实施例中,使用网络(百度百科、气象百科专业网站)上的气象知识,总共包括2万多个气象实体和3万多条气象关系,快速构建气象知识图谱,气象知识图谱通过气象相关知识和预先进行构建,并训练好自然语言处理技术模型,通过随机招募的60位实验人员对交互问答系统进行实验评测。
图4示出了依据本发明实施例的方法进行查询得到的部分查询结果示意图。由于交互问答除了使用自然语言处理技术外,还结合气象知识图谱,能够有效提升问题回答的专业性和准确性,因而,综合满意度为77.23%,交互流畅度为100%,回答准确度为83.44%,证明了本发明的可行性,交互性和实用性。
图5示出了本发明实施例所提供的获取气象服务知识的装置结构示意图。如图5所示,该装置包括:
实体获取模块501,用于对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;
本发明实施例中,作为一可选实施例,实体获取模块501包括:
预处理单元(图中未示出),用于对自然语言表示问题进行预处理,得到自然语言预处理表示问题;
本发明实施例中,作为一可选实施例,预处理包括:错误检查、敏感词汇过滤、非法字符剔除。
实体分析单元,用于对自然语言预处理表示问题进行实体分析,得到实体以及实体关系;
所述对自然语言预处理表示问题进行实体分析,得到实体以及实体关系,包括:
利用分词工具对自然语言预处理表示问题进行分词,得到分词词语;
依据词性字典,对分词词语进行词性标注;
基于分词词语以及词性标注,利用预先构建的实体识别模型,获取实体以及实体关系。
本发明实施例中,实体分析包含:分词、词性标注、命名实体识别、实体关系抽取。
本发明实施例中,作为一可选实施例,基于分词词语以及词性标注,利用预先构建的实体模型,获取实体以及实体关系,包括:
针对自然语言预处理表示问题的每一分词词语,将该分词词语对应的嵌入表示输入第一自注意力网络,得到第一自注意力特征;
将第一自注意力特征输入第一前馈神经网络,得到第一前馈特征;
将分词词语的前一分词词语,以及该前一分词词语的词性标注进行嵌入表示,将嵌入表示输入第二自注意力网络,得到第二自注意力特征,其中,若该分词词语为所述自然语言表示问题的第一个分词词语,则该分词词语的前一分词词语为该分词词语;
将第一前馈特征以及第二自注意力特征输入编解码注意力网络,得到编解码注意力特征;
将编解码注意力特征输入第二前馈神经网络,得到变换层输出的该分词词语为实体的变换层概率;
将各变换层输出的变换层概率输入条件随机场层,得到分词词语为实体的概率,提取概率超过预设概率阈值的分词词语,得到实体,依据得到的各实体,抽取实体关系。
过滤模块502,用于从得到的实体中,抽取属于气象领域的气象实体;
本发明实施例中,对得到的实体进行过滤,将其中不包含实体以及分析后不属于气象领域的实体进行过滤丢弃。
链接模块503,用于基于相似度算法,将气象实体链接到预先构建的气象知识图谱;
本发明实施例中,作为一可选实施例,链接模块503包括:
文档构建单元(图中未示出),用于依据自然语言表示问题包含的气象实体,构建第一文档,依据气象知识图谱中的实体以及该实体对应的属性信息,构建第二文档;
链接单元,用于利用词移距离算法,计算第一文档与第二文档之间的总代价,依据总代价下界最小化得到文档相似度,将第一文档链接到气象知识图谱中该文档相似度对应的实体。
本发明实施例中,作为另一可选实施例,链接模块503具体用于:
针对自然语言表示问题包含的每一气象实体,计算该气象实体与气象知识图谱中的每一实体的字符串相似度,若字符串相似度大于或等于预设的字符串相似度阈值,将该气象实体链接到气象知识图谱中该字符串相似度对应的实体。
消歧模块504,用于依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;
本发明实施例中,作为一可选实施例,消歧模块504包括:
嵌入表示单元(图中未示出),用于针对链接到气象知识图谱中的每一气象实体,将该气象实体和该气象实体对应气象知识图谱中的链接实体分别进行词嵌入表示,得到气象实体嵌入表示和链接实体嵌入表示;
向量化单元,用于利用BiLSTM神经网络模型,分别对气象实体嵌入表示和链接实体嵌入表示进行处理,得到气象实体向量化表示以及链接实体向量化表示;
聚合单元,用于对输出的各气象实体向量化表示进行聚合,得到气象实体整体向量,对输出的各链接实体向量化表示进行聚合,得到链接实体整体向量;
消歧单元,用于利用词移距离算法计算气象实体整体向量与链接实体整体向量的匹配得分,对匹配得分小于预设匹配分数阈值的实体进行消歧。
查询模块505,用于依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。
本发明实施例中,作为一可选实施例,查询模块505包括:
查询单元(图中未示出),用于依据构建的数据库查询语句搜索气象知识图谱,获取多个查询结果;
词移距离计算单元,用于依据词移距离算法计算多个查询结果分别与所述自然语言表示问题的词移距离;
结果获取单元,用于按照词移距离对多个查询结果进行排序,选取排序前预定数的查询结果,得到所述自然语言表示问题对应的气象服务知识。
如图6所示,本申请一实施例提供了一种计算机设备600,用于执行图1中的获取气象服务知识的方法,该设备包括存储器601、处理器602及存储在该存储器601上并可在该处理器602上运行的计算机程序,其中,上述处理器602执行上述计算机程序时实现上述获取气象服务知识的方法的步骤。
具体地,上述存储器601和处理器602能够为通用的存储器和处理器,这里不做具体限定,当处理器602运行存储器601存储的计算机程序时,能够执行上述获取气象服务知识的方法。
对应于图1中的获取气象服务知识的方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述获取气象服务知识的方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述获取气象服务知识的方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory ,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种获取气象服务知识的方法,其特征在于,包括:
对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;
从得到的实体中,抽取属于气象领域的气象实体;
基于相似度算法,将气象实体链接到预先构建的气象知识图谱;
依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;
依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。
2.根据权利要求1所述的方法,其特征在于,所述对用户提出的自然语言表示问题进行实体识别以及实体关系抽取,包括:
对自然语言表示问题进行预处理,得到自然语言预处理表示问题;
对自然语言预处理表示问题进行实体分析,得到实体以及实体关系;
所述对自然语言预处理表示问题进行实体分析,得到实体以及实体关系,包括:
利用分词工具对自然语言预处理表示问题进行分词,得到分词词语;
依据词性字典,对分词词语进行词性标注;
基于分词词语以及词性标注,利用预先构建的实体识别模型,获取实体以及实体关系。
3.根据权利要求2所述的方法,其特征在于,所述基于分词词语以及词性标注,利用预先构建的实体模型,获取实体以及实体关系,包括:
针对自然语言预处理表示问题的每一分词词语,将该分词词语对应的嵌入表示输入第一自注意力网络,得到第一自注意力特征;
将第一自注意力特征输入第一前馈神经网络,得到第一前馈特征;
将分词词语的前一分词词语,以及该前一分词词语的词性标注进行嵌入表示,将嵌入表示输入第二自注意力网络,得到第二自注意力特征,其中,若该分词词语为所述自然语言表示问题的第一个分词词语,则该分词词语的前一分词词语为该分词词语;
将第一前馈特征以及第二自注意力特征输入编解码注意力网络,得到编解码注意力特征;
将编解码注意力特征输入第二前馈神经网络,得到变换层输出的该分词词语为实体的变换层概率;
将各变换层输出的变换层概率输入条件随机场层,得到分词词语为实体的概率,提取概率超过预设概率阈值的分词词语,得到实体,依据得到的各实体,抽取实体关系。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于相似度算法,将气象实体链接到预先构建的气象知识图谱,包括:
依据自然语言表示问题包含的气象实体,构建第一文档,依据气象知识图谱中的实体以及该实体对应的属性信息,构建第二文档;
利用词移距离算法,计算第一文档与第二文档之间的总代价,依据总代价下界最小化得到文档相似度,将第一文档链接到气象知识图谱中该文档相似度对应的实体。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于相似度算法,将气象实体链接到预先构建的气象知识图谱,包括:
针对自然语言表示问题包含的每一气象实体,计算该气象实体与气象知识图谱中的每一实体的字符串相似度,若字符串相似度大于或等于预设的字符串相似度阈值,将该气象实体链接到气象知识图谱中该字符串相似度对应的实体。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述对链接到气象知识图谱中的实体进行消歧,包括:
针对链接到气象知识图谱中的每一气象实体,将该气象实体和该气象实体对应气象知识图谱中的链接实体分别进行词嵌入表示,得到气象实体嵌入表示和链接实体嵌入表示;
利用BiLSTM神经网络模型,分别对气象实体嵌入表示和链接实体嵌入表示进行处理,得到气象实体向量化表示以及链接实体向量化表示;
对输出的各气象实体向量化表示进行聚合,得到气象实体整体向量,对输出的各链接实体向量化表示进行聚合,得到链接实体整体向量;
利用词移距离算法计算气象实体整体向量与链接实体整体向量的匹配得分,对匹配得分小于预设匹配分数阈值的实体进行消歧。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识,包括:
依据构建的数据库查询语句搜索气象知识图谱,获取多个查询结果;
依据词移距离算法计算多个查询结果分别与所述自然语言表示问题的词移距离;
按照词移距离对多个查询结果进行排序,选取排序前预定数的查询结果,得到所述自然语言表示问题对应的气象服务知识。
8.一种获取气象服务知识的装置,其特征在于,包括:
实体获取模块,用于对用户提出的自然语言表示问题进行实体识别以及实体关系抽取;
过滤模块,用于从得到的实体中,抽取属于气象领域的气象实体;
链接模块,用于基于相似度算法,将气象实体链接到预先构建的气象知识图谱;
消歧模块,用于依据气象实体链接到气象知识图谱的链接结果,对链接到气象知识图谱中的实体进行消歧;
查询模块,用于依据进行消歧处理后的链接到气象知识图谱中的实体,进行数据库查询语句构建,依据构建的数据库查询语句搜索气象知识图谱,获取所述自然语言表示问题对应的气象服务知识。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的获取气象服务知识的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的获取气象服务知识的方法的步骤。
CN202110754564.4A 2021-07-05 2021-07-05 一种获取气象服务知识的方法及装置 Active CN113254473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110754564.4A CN113254473B (zh) 2021-07-05 2021-07-05 一种获取气象服务知识的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754564.4A CN113254473B (zh) 2021-07-05 2021-07-05 一种获取气象服务知识的方法及装置

Publications (2)

Publication Number Publication Date
CN113254473A true CN113254473A (zh) 2021-08-13
CN113254473B CN113254473B (zh) 2021-09-24

Family

ID=77190622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754564.4A Active CN113254473B (zh) 2021-07-05 2021-07-05 一种获取气象服务知识的方法及装置

Country Status (1)

Country Link
CN (1) CN113254473B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611581A (zh) * 2023-07-14 2023-08-18 中国气象局公共气象服务中心(国家预警信息发布中心) 一种基于知识图谱的气象对机场终端区影响的预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253793A1 (en) * 2011-04-01 2012-10-04 Rima Ghannam System for natural language understanding
CN109947916A (zh) * 2019-03-01 2019-06-28 河北尚云信息科技有限公司 基于气象领域知识图谱的问答系统装置及问答方法
CN111257971A (zh) * 2020-01-17 2020-06-09 河北冀云气象技术服务有限责任公司 一种具有人工智能服务能力和学习能力的气象平台
CN111324699A (zh) * 2020-02-20 2020-06-23 广州腾讯科技有限公司 语义匹配的方法、装置、电子设备及存储介质
CN111949787A (zh) * 2020-08-21 2020-11-17 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质
CN112883175A (zh) * 2021-02-10 2021-06-01 武汉大学 结合预训练模型及模板生成的气象服务交互方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253793A1 (en) * 2011-04-01 2012-10-04 Rima Ghannam System for natural language understanding
CN109947916A (zh) * 2019-03-01 2019-06-28 河北尚云信息科技有限公司 基于气象领域知识图谱的问答系统装置及问答方法
CN111257971A (zh) * 2020-01-17 2020-06-09 河北冀云气象技术服务有限责任公司 一种具有人工智能服务能力和学习能力的气象平台
CN111324699A (zh) * 2020-02-20 2020-06-23 广州腾讯科技有限公司 语义匹配的方法、装置、电子设备及存储介质
CN111949787A (zh) * 2020-08-21 2020-11-17 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质
CN112883175A (zh) * 2021-02-10 2021-06-01 武汉大学 结合预训练模型及模板生成的气象服务交互方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611581A (zh) * 2023-07-14 2023-08-18 中国气象局公共气象服务中心(国家预警信息发布中心) 一种基于知识图谱的气象对机场终端区影响的预测方法

Also Published As

Publication number Publication date
CN113254473B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN110851596B (zh) 文本分类方法、装置及计算机可读存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN110737758A (zh) 用于生成模型的方法和装置
CA3009758A1 (en) Systems and methods for suggesting emoji
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN113168499A (zh) 检索专利文档的方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN113196277A (zh) 用于检索自然语言文档的系统
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN113254473B (zh) 一种获取气象服务知识的方法及装置
CN112559691B (zh) 语义相似度的确定方法及确定装置、电子设备
CN117194682B (zh) 构建基于电网相关文件的知识图谱的方法、装置及介质
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN116127097A (zh) 一种结构化文本关系抽取方法、装置、设备
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant