CN112487211A - 一种轨道交通知识库构建方法及系统 - Google Patents

一种轨道交通知识库构建方法及系统 Download PDF

Info

Publication number
CN112487211A
CN112487211A CN202011480888.5A CN202011480888A CN112487211A CN 112487211 A CN112487211 A CN 112487211A CN 202011480888 A CN202011480888 A CN 202011480888A CN 112487211 A CN112487211 A CN 112487211A
Authority
CN
China
Prior art keywords
knowledge
vector representation
long
term memory
memory network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011480888.5A
Other languages
English (en)
Other versions
CN112487211B (zh
Inventor
李振
包峰
罗铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Priority to CN202011480888.5A priority Critical patent/CN112487211B/zh
Publication of CN112487211A publication Critical patent/CN112487211A/zh
Application granted granted Critical
Publication of CN112487211B publication Critical patent/CN112487211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种轨道交通知识库构建方法及系统,包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。本发明通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。

Description

一种轨道交通知识库构建方法及系统
技术领域
本发明涉及智能轨道交通技术领域,尤其涉及一种轨道交通知识库构建方法及系统。
背景技术
城市轨道交通具有设备多、系统复杂、运行时间长、运行条件复杂等特性,随着开行线路的持续增长,该系统产生了大量类型丰富的数据。近年来,随着各类信息技术的快速发展,各类从数据分析出发的模式识别、机器学习、数据挖掘技术日益成熟,包括轨道交通领域在内的各行各业使用工业过程中产生的数据进行知识获取,进行信息化数据化转型。在列车运行、设备维修、线路调度、业务培训等各个过程中,大量的数据被记录下来,利用这些数据进行学习和挖掘,具有重要意义。
面对纷繁杂乱的各类数据,要对各类数据进行整理分析,获得数据间的关联关系,建立基于知识图谱的知识数据库。例如调度相关业务,存在针对各类调度场景,如应急场景的一整套处理方案。再如针对维修业务,维修工单记录了各类故障发生的原因,故障发生的描述和故障的解决方案,同样具有较大的信息量,这类数据多以文本的形式记录下来。
因此,有必要从自然语言处理的角度出发,提出一种针对轨道交通的知识图谱构建方法。
发明内容
本发明提供一种轨道交通知识库构建方法及系统,用以解决现有技术中没有形成系统的轨道交通知识图谱的缺陷。
第一方面,本发明提供一种轨道交通知识库构建方法,包括:
获取轨道交通知识语料库;
提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
进一步地,所述获取轨道交通知识语料库,具体包括:
获取具备多种文本类型的轨道交通语料,将所述轨道交通语料转化为预设文本格式进行存储;
将所述预设文本格式进行去除处理,得到去除后的文本格式;
基于TF-IDF算法对所述去除后的文本格式进行分词处理,得到所述轨道交通知识语料库。
进一步地,所述将所述预设文本格式进行去除处理,得到去除后的文本格式,具体包括:
采用标点去除算法,去除所述预设文本格式中的常用标点符号和特殊字符,并去除常见词汇,得到所述去除后的文本格式。
进一步地,所述提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示,具体包括:
获取所述所有知识语料中的预设高维词向量,将所述预设高维词向量转化至预设低维词向量;
构建单层神经网络,将所述预设低维词向量中任一中心词的上下文相关词输入至所述单层神经网络,得到所述单层神经网络输出的所述任一中心词对应的词向量;
待所有中心词全部处理完毕,得到所述所有知识语料的基础向量表示。
进一步地,所述基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示,具体包括:
获取所述知识语料的基础向量表示中任一词汇的前端词语概率分布表达和后端词语概率分布表达;
采用双向的长短期记忆网络对所述前端词语概率分布表达和所述后端词语概率分布表达进行向量表示学习,得到所述长短期记忆网络向量表示。
进一步地,所述采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示,具体包括:
采用专家打分方式,分别对所述基础向量表示和所述长短期记忆网络向量进行打分,获得词语权重矩阵;
基于所述词语权重矩阵,得到所述知识库的最终向量表示。
进一步地,所述基于所述词语权重矩阵,得到所述知识库的最终向量表示,具体包括:
将所述基础向量表示和所述长短期记忆网络向量进行拼接,得到拼接向量;
在所述拼接向量之前添加所述词语权重矩阵中任一专家对任一分词的权重打分,获得所述任一分词的知识表达;
将所述任一分词的知识表达存储于基础数据库中得到所述知识库的最终向量表示。
第二方面,本发明还提供一种轨道交通知识库构建系统,包括:
获取模块,用于获取轨道交通知识语料库;
第一计算模块,用于提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
第二计算模块,用于基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
融合模块,用于采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述轨道交通知识库构建方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述轨道交通知识库构建方法的步骤。
本发明提供的轨道交通知识库构建方法及系统,通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的轨道交通知识库构建方法的流程示意图;
图2是本发明提供的长短期记忆网络的结构图;
图3是本发明提供的轨道交通知识库构建系统的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中存在的问题,本发明提出一种轨道交通知识库构建方法,如图1所示,包括:
S1,获取轨道交通知识语料库;
S2,提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
S3,基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
S4,采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
具体地,本发明提出的轨道交通知识库的构建方法,主要包括以下几个步骤:获取轨道交通知识语料库,计算知识的基础向量表示,计算基于长短期记忆网络的向量表示,以及融合专家知识获得最终的知识表示,得到供轨道交通领域使用的知识库。
本发明通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。
基于上述实施例,该方法中步骤S1具体包括:
获取具备多种文本类型的轨道交通语料,将所述轨道交通语料转化为预设文本格式进行存储;
将所述预设文本格式进行去除处理,得到去除后的文本格式;
基于TF-IDF算法对所述去除后的文本格式进行分词处理,得到所述轨道交通知识语料库。
其中,所述将所述预设文本格式进行去除处理,得到去除后的文本格式,具体包括:
采用标点去除算法,去除所述预设文本格式中的常用标点符号和特殊字符,并去除常见词汇,得到所述去除后的文本格式。
具体地,首先获取各类文本性质的轨道交通语料,如列车日常运行的调度处理手册、各类维修工单、列车运行日志、培训手册等,将常用的对应格式word、pdf和xml等格式转为txr格式存储;然后采用标点去除方法,去除包括句号、问号和逗号等符号,同时还去除其它特殊字符,以及常见词汇,如“把”、“你”、“我”等等;最后采用分词算法,如TF-IDF算法将上述文本性质的轨道交通语料转化为多个或单个词语。
此处,TF-IDF算法(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟它在文章中出现的次数成正比,跟它在语料库出现的次数成反比。这种计算方式能有效避免常用词对关键词的影响,提高了关键词与文章之间的相关性。其中TF指的是某词在文章中出现的总次数,该指标通常会被归一化定义为TF=(某词在文档中出现的次数/文档的总词量),这样可以防止结果偏向过长的文档(同一个词语在长文档里通常会具有比短文档更高的词频)。IDF逆向文档频率,包含某词语的文档越少,IDF值越大,说明该词语具有很强的区分能力,IDF=loge(语料库中文档总数/包含该词的文档数+1),+1的原因是避免分母为0,TFIDF=TFxIDF,TFIDF值越大表示该特征词对这个文本的重要性越大。
本发明通过对轨道交通的原始文本材料进行一系列的文本处理,得到供后续计算向量表示的轨道交通知识语料库,实现了初步分类和整理。
基于上述任一实施例,该方法中步骤S2具体包括:
获取所述所有知识语料中的预设高维词向量,将所述预设高维词向量转化至预设低维词向量;
构建单层神经网络,将所述预设低维词向量中任一中心词的上下文相关词输入至所述单层神经网络,得到所述单层神经网络输出的所述任一中心词对应的词向量;
待所有中心词全部处理完毕,得到所述所有知识语料的基础向量表示。
具体地,由于中文的复杂性,经过前述实施例处理的语料库必然是维度极大的词库,若采用正交方式(如one-hot)方法进行编码将会导致维度爆炸的情况,同时这种正交方法无法获得词语知识间的相关关系。为减少词库维度,同时初步建立词语知识间的相关关系,采用词嵌入方法,将高维词向量转化至低维。
构建单层神经网络,输入为正交方式处理的词向量,一次输入为某一中心词上下文相关的词对应的词向量,输出为该中心词对应的词向量。如“回龙观地铁站入站口闸机设备故障”一文,输入为“回龙观”、“地铁站”、“入站口”、“设备”、“故障”的正交词向量,输出为“闸机”对应的基础词向量。由于网络结构仅有一层,隐藏层为线性单元,输出层为Softmax回归。通过基于梯度下降和误差反向传播的机器学习训练方法,可得到基础向量表示。
本发明通过对初始语料库进行降维处理,降低了语料处理的复杂度,并采用单层神经网络得到基础向量表示。
基于上述任一实施例,该方法中步骤S3具体包括:
获取所述知识语料的基础向量表示中任一词汇的前端词语概率分布表达和后端词语概率分布表达;
采用双向的长短期记忆网络对所述前端词语概率分布表达和所述后端词语概率分布表达进行向量表示学习,得到所述长短期记忆网络向量表示。
具体地,前述实施例中获得的基础向量表示受限于简单的网络结构和静态的表达方式,在准备表达知识特点上尚有欠缺,为进一步提高知识表达的有效性,本发明基于语言模型设计利用长短期记忆网络的向量表示。某一个词汇tk可以用其前面的词语的概率分布表达,如下公式:
Figure BDA0002837527510000081
同时,由于之前获得了整个文本的全部词汇,因此该词汇tk同样可以用后面的词语表达,如
Figure BDA0002837527510000082
基于此,可以使用双向的长短期记忆网络进行向量表示学习,长短期记忆网络对于处理时间序列数据非常有效。元胞是长短期记忆网络的基本元素,包含输入(Xt)、状态以及输出(ht)三部分,元胞能够保留状态信息,传递给下个元胞。因此,长短期记忆网络可以看成时间域的深度结构,其基本结构如图2所示。
本发明通过利用长短期记忆网络时间域的时序特征,得到基础向量表示的双向的长短期记忆网络向量表示。
基于上述任一实施例,该方法中步骤S4具体包括:
采用专家打分方式,分别对所述基础向量表示和所述长短期记忆网络向量进行打分,获得词语权重矩阵;
基于所述词语权重矩阵,得到所述知识库的最终向量表示。
其中,所述基于所述词语权重矩阵,得到所述知识库的最终向量表示,具体包括:
将所述基础向量表示和所述长短期记忆网络向量进行拼接,得到拼接向量;
在所述拼接向量之前添加所述词语权重矩阵中任一专家对任一分词的权重打分,获得所述任一分词的知识表达;
将所述任一分词的知识表达存储于基础数据库中得到所述知识库的最终向量表示。
具体地,通过前述几个实施例,获得了轨道交通领域基本文本词语的基础知识表示和长短期记忆网络表示。需要注意的是,这两种表示全部为计算机自主学习获得,针对词语的重要性的表示可能无法反应知识的实际重要性。因此,针对轨道交通专有词汇,采用专家打分方式,确定词语在轨道交通专业场景中的重要性。将筛选出的部分词汇交于不同专家,专家通过其自身理解,对词语的重要性进行打分,形成词语的权重矩阵W,确定该专有词汇的重要性。权重矩阵W具体如下:
Figure BDA0002837527510000091
其中wij代表专家j对第i个分词的权重打分。
通过这种方式引入人工专家知识,将专家知识与词语向量表达结合起来。首先讲上述两种向量表达拼接在一起,在之前增加专家知识权重,最终确定为该词语的知识表达,存于数据库作为知识图谱的基础,即,轨道交通词语表达向量。
本发明采用的关键词提取方案中基于专家知识的分词权重改进算法,较准确地对分词的权重高低进行了识别。
下面对本发明提供的轨道交通知识库构建系统进行描述,下文描述的轨道交通知识库构建系统与上文描述的轨道交通知识库构建方法可相互对应参照。
图3是本发明提供的轨道交通知识库构建系统的结构示意图,如图3所示,包括:获取模块31、第一计算模块32、第二计算模块33和融合模块34;其中:
获取模块31用于获取轨道交通知识语料库;第一计算模块32用于提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;第二计算模块33用于基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;融合模块34用于采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
本发明通过采用轨道交通关键词提取方法,利用长短期记忆网络进行训练,并采用基于专家知识的分词权重改进算法,构建了比较全面和完整的轨道交通知识图库,为大数据分析提供了准确的数据支持。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(CommunicationsInterface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行轨道交通知识库构建方法,该方法包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的轨道交通知识库构建方法,该方法包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的轨道交通知识库构建方法,该方法包括:获取轨道交通知识语料库;提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种轨道交通知识库构建方法,其特征在于,包括:
获取轨道交通知识语料库;
提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
2.根据权利要求1所述的轨道交通知识库构建方法,其特征在于,所述获取轨道交通知识语料库,具体包括:
获取具备多种文本类型的轨道交通语料,将所述轨道交通语料转化为预设文本格式进行存储;
将所述预设文本格式进行去除处理,得到去除后的文本格式;
基于TF-IDF算法对所述去除后的文本格式进行分词处理,得到所述轨道交通知识语料库。
3.根据权利要求2所述的轨道交通知识库构建方法,其特征在于,所述将所述预设文本格式进行去除处理,得到去除后的文本格式,具体包括:
采用标点去除算法,去除所述预设文本格式中的常用标点符号和特殊字符,并去除常见词汇,得到所述去除后的文本格式。
4.根据权利要求1所述的轨道交通知识库构建方法,其特征在于,所述提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示,具体包括:
获取所述所有知识语料中的预设高维词向量,将所述预设高维词向量转化至预设低维词向量;
构建单层神经网络,将所述预设低维词向量中任一中心词的上下文相关词输入至所述单层神经网络,得到所述单层神经网络输出的所述任一中心词对应的词向量;
待所有中心词全部处理完毕,得到所述所有知识语料的基础向量表示。
5.根据权利要求4所述的轨道交通知识库构建方法,其特征在于,所述基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示,具体包括:
获取所述知识语料的基础向量表示中任一词汇的前端词语概率分布表达和后端词语概率分布表达;
采用双向的长短期记忆网络对所述前端词语概率分布表达和所述后端词语概率分布表达进行向量表示学习,得到所述长短期记忆网络向量表示。
6.根据权利要求1所述的轨道交通知识库构建方法,其特征在于,所述采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示,具体包括:
采用专家打分方式,分别对所述基础向量表示和所述长短期记忆网络向量进行打分,获得词语权重矩阵;
基于所述词语权重矩阵,得到所述知识库的最终向量表示。
7.根据权利要求6所述的轨道交通知识库构建方法,其特征在于,所述基于所述词语权重矩阵,得到所述知识库的最终向量表示,具体包括:
将所述基础向量表示和所述长短期记忆网络向量进行拼接,得到拼接向量;
在所述拼接向量之前添加所述词语权重矩阵中任一专家对任一分词的权重打分,获得所述任一分词的知识表达;
将所述任一分词的知识表达存储于基础数据库中得到所述知识库的最终向量表示。
8.一种轨道交通知识库构建系统,其特征在于,包括:
获取模块,用于获取轨道交通知识语料库;
第一计算模块,用于提取所述轨道交通知识语料库中的所有知识语料,计算所述所有知识语料的基础向量表示;
第二计算模块,用于基于长短期记忆网络计算所述基础向量表示,得到长短期记忆网络向量表示;
融合模块,用于采用专家知识的分词权重改进算法,对所述基础向量表示和所述长短期记忆网络向量表示进行融合处理,得到知识库的最终向量表示。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述轨道交通知识库构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述轨道交通知识库构建方法的步骤。
CN202011480888.5A 2020-12-15 2020-12-15 一种轨道交通知识库构建方法及系统 Active CN112487211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011480888.5A CN112487211B (zh) 2020-12-15 2020-12-15 一种轨道交通知识库构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011480888.5A CN112487211B (zh) 2020-12-15 2020-12-15 一种轨道交通知识库构建方法及系统

Publications (2)

Publication Number Publication Date
CN112487211A true CN112487211A (zh) 2021-03-12
CN112487211B CN112487211B (zh) 2024-04-26

Family

ID=74916251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011480888.5A Active CN112487211B (zh) 2020-12-15 2020-12-15 一种轨道交通知识库构建方法及系统

Country Status (1)

Country Link
CN (1) CN112487211B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174004A (ja) * 2016-03-22 2017-09-28 日本電信電話株式会社 文意味分類算出装置、モデル学習装置、方法、及びプログラム
US20180137137A1 (en) * 2016-11-16 2018-05-17 International Business Machines Corporation Specialist keywords recommendations in semantic space
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109299478A (zh) * 2018-12-05 2019-02-01 长春理工大学 基于双向长短期记忆神经网络的智能自动问答方法及系统
US20190057310A1 (en) * 2017-08-16 2019-02-21 Royal Bank Of Canada Expert knowledge platform
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
US20190251423A1 (en) * 2016-11-04 2019-08-15 Google Llc Mixture of experts neural networks
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110532480A (zh) * 2019-07-15 2019-12-03 中国科学院信息工程研究所 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置
KR20200059999A (ko) * 2018-11-22 2020-05-29 한국과학기술원 뇌기능 지식 베이스 자가 성장 시스템 및 방법
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174004A (ja) * 2016-03-22 2017-09-28 日本電信電話株式会社 文意味分類算出装置、モデル学習装置、方法、及びプログラム
US20190251423A1 (en) * 2016-11-04 2019-08-15 Google Llc Mixture of experts neural networks
US20180137137A1 (en) * 2016-11-16 2018-05-17 International Business Machines Corporation Specialist keywords recommendations in semantic space
US20190057310A1 (en) * 2017-08-16 2019-02-21 Royal Bank Of Canada Expert knowledge platform
CN109190113A (zh) * 2018-08-10 2019-01-11 北京科技大学 一种中医理论典籍的知识图谱构建方法
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109522557A (zh) * 2018-11-16 2019-03-26 中山大学 文本关系抽取模型的训练方法、装置及可读存储介质
KR20200059999A (ko) * 2018-11-22 2020-05-29 한국과학기술원 뇌기능 지식 베이스 자가 성장 시스템 및 방법
CN109299478A (zh) * 2018-12-05 2019-02-01 长春理工大学 基于双向长短期记忆神经网络的智能自动问答方法及系统
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN110232192A (zh) * 2019-06-19 2019-09-13 中国电力科学研究院有限公司 电力术语命名实体识别方法及装置
CN110532480A (zh) * 2019-07-15 2019-12-03 中国科学院信息工程研究所 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN111143576A (zh) * 2019-12-18 2020-05-12 中科院计算技术研究所大数据研究院 一种面向事件的动态知识图谱构建方法和装置
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法

Also Published As

Publication number Publication date
CN112487211B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN112131350A (zh) 文本标签确定方法、装置、终端及可读存储介质
CN111177382B (zh) 基于FastText算法的智能法条推荐辅助系统
CN113961685A (zh) 信息抽取方法及装置
Rashid et al. Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN112417854A (zh) 中文文档抽取式摘要方法
CN115186654B (zh) 一种公文文本摘要生成方法
CN113220768A (zh) 基于深度学习的简历信息结构化方法及系统
CN111695591A (zh) 基于ai的面试语料分类方法、装置、计算机设备和介质
CN111191452A (zh) 一种铁路文本命名实体识别方法及装置
CN110610003B (zh) 用于辅助文本标注的方法和系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111078874B (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
Behere et al. Text summarization and classification of conversation data between service chatbot and customer
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN112487211B (zh) 一种轨道交通知识库构建方法及系统
CN115292495A (zh) 情绪分析方法、装置、电子设备及存储介质
Karimi et al. Sentiment analysis using BERT (pre-training language representations) and Deep Learning on Persian texts
CN115036022A (zh) 健康风险评估方法和评估系统、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant