CN111914099A

CN111914099A - 一种交通优化策略的智能问答方法、系统、装置及介质

Info

Publication number: CN111914099A
Application number: CN202010720549.3A
Authority: CN
Inventors: 吕威; 李亚坤; 陈涛
Original assignee: Zhuhai College of Jilin University
Current assignee: Zhuhai College of Jilin University
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-10
Anticipated expiration: 2040-07-24
Also published as: CN111914099B

Abstract

本发明公开了一种交通优化策略的智能问答方法、系统、装置及介质，方法包括：获取交通技术文档中的非结构化信息，以构建实体识别模型；从交通技术文档中抽取第一实体和第一实体关系；并通过第一实体和第一实体关系构建初始交通知识图谱；对初始交通知识图谱进行优化，得到目标交通知识图谱；对获取的自然语言内容进行词条分析，抽取自然语言内容中的第二实体和第二实体关系；根据第二实体和第二实体关系，从目标交通知识图谱中进行匹配，确定目标交通知识图谱中对应的目标节点和目标边；根据目标节点和目标边，反馈自然语言内容对应的回答方案。本发明降低了人力物力成本，且能够保障回答方案的准确率，可广泛应用于智能问答技术领域。

Description

一种交通优化策略的智能问答方法、系统、装置及介质

技术领域

本发明涉及智能问答技术领域，尤其是一种交通优化策略的智能问答方法、系统、装置及介质。

背景技术

目前，随着经济的快速发展，我国的城市化进程加快，汽车保有量逐年增加，随之而来的是城市的交通拥堵问题。现有技术中，为了解决交通拥堵问题常采用以下四种方案：

(1)加大城市交通技术设施的建设：如扩宽城市道路、增加公交营运线路；

(2)人为减少城市路网车流量：如限号等措施；

(3)加大交通管控力度：如交管部门增加人员疏导交通；

(4)对交通路网控制系统进行优化：如通过对未来一段时间的城市交通路网的交通流进行预测来对城市交通路网的拥挤路口进行技术优化；

方案1、2、3均会导致人力和物力的大量投入，且治堵效率较低。

由于交通流的非线性和随机性的特点，无法考虑到所有的潜在的可能会影响交通流的因素，所以方案4中对交通流的预测准确率无法保障。

发明内容

有鉴于此，本发明实施例提供一种成本低且准确率高的交通优化策略的智能问答方法、系统、装置及介质。

本发明的第一方面提供了一种交通优化策略的智能问答方法，包括：

获取交通技术文档中的非结构化信息，并根据所述非结构化信息构建实体识别模型；

通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系；并通过所述第一实体和所述第一实体关系构建初始交通知识图谱；

通过知识融合方法对所述初始交通知识图谱进行优化，得到优化后的目标交通知识图谱；

对获取的自然语言内容进行词条分析，抽取所述自然语言内容中的第二实体和第二实体关系；

根据所述第二实体和所述第二实体关系，从所述目标交通知识图谱中进行匹配，确定所述目标交通知识图谱中对应的目标节点和目标边；

根据所述目标节点和所述目标边，反馈所述自然语言内容对应的回答方案。

在一些实施例中，所述方法还包括关系抽取模型的构建过程，所述关系抽取模型的构建过程包括：

将所述交通技术文档中的交通实体进行标注；

通过Bootstrapping方法和模式挖掘方法对所述标注进行扩充，并确定所述交通技术文档中的第一实体和第一实体关系；

构建每一类所述第一实体对应的种子词，并确定所述种子词的候选模式；所述候选模式包括实体上下文的字符以及对应的字迹；

将所述字迹放到未标注的交通技术文档中，以对所述未标注的交通技术文档挖掘交通实体；

根据所述候选模式从交通技术文档中挖掘出新的实体后，确定所述实体的支持度和置信度；

根据所述支持度和所述置信度，从候选模式中确定有效模式，将基于所述有效模式挖掘得到的实体确定为候选实体；

通过搜索引擎对所述候选实体进行验证，确定种子词；

根据种子词在循环挖掘过程中的数量变化情况，确定完成实体挖掘工作，构建得到关系抽取模型。

在一些实施例中，所述通过所述第一实体和所述第一实体关系构建初始交通知识图谱，包括：

构建向量化模型，将所述第一实体转化为向量，所述向量之间的相似度能够代表不同第一实体之间的相似度；

根据所述第一实体与所述第一实体关系在交通技术文档中出现的实体关系为真的次数，通过采用基于支持度的方法对所述第一实体和所述第一实体关系进行一致性分析，提取得到初始交通知识图谱；

对提取到的初始交通知识图谱进行质量评估以及可信度评估，得到筛选后的初始交通知识图谱。

在一些实施例中，所述方法还包括：

将所述初始交通知识图谱存储到图数据库Neo4j中。

在一些实施例中，所述对获取的自然语言内容进行词条分析，抽取所述自然语言内容中的第二实体和第二实体关系，包括：

通过实体识别模型和实体关系抽取模型，对用户输入的语句进行抽取；

将抽取结果映射到知识图谱的一个或一组实体中；

根据所述知识图谱的结构，向用户返回结构化知识。

在一些实施例中，所述将抽取结果映射到知识图谱的一个或一组实体中，包括：

将用户输入的语句中抽取出来的语义信息赋予权重；

根据所述权重，在目标交通知识图谱中确定目标实体，并将所述目标实体所在的子图的信息返回给用户。

在一些实施例中，所述方法还包括：

确定所述回答方案的评价结果；

根据所述评价结果对回答方案进行优化；

其中，所述评价结果包括准确率、召回率和F1值。

本发明的第二方面提供了一种交通优化策略的智能问答系统，包括：

获取模块，用于获取交通技术文档中的非结构化信息，并根据所述非结构化信息构建实体识别模型；

初始图谱构建模块，用于通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系；并通过所述第一实体和所述第一实体关系构建初始交通知识图谱；

目标图谱构建模块，用于通过知识融合方法对所述初始交通知识图谱进行优化，得到优化后的目标交通知识图谱；

词条分析模块，用于对获取的自然语言内容进行词条分析，抽取所述自然语言内容中的第二实体和第二实体关系；

匹配模块，用于根据所述第二实体和所述第二实体关系，从所述目标交通知识图谱中进行匹配，确定所述目标交通知识图谱中对应的目标节点和目标边；

反馈模块，用于根据所述目标节点和所述目标边，反馈所述自然语言内容对应的回答方案。

本发明的第三方面提供了一种装置，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器用于根据所述程序执行如第一方面所述的方法。

本发明的第四方面提供了一种存储介质，所述存储介质存储有程序，所述程序被处理器执行完成如第一方面所述的方法。

本发明的实施例获取交通技术文档中的非结构化信息，并根据所述非结构化信息构建实体识别模型；通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系；并通过所述第一实体和所述第一实体关系构建初始交通知识图谱；通过知识融合方法对所述初始交通知识图谱进行优化，得到优化后的目标交通知识图谱；对获取的自然语言内容进行词条分析，抽取所述自然语言内容中的第二实体和第二实体关系；根据所述第二实体和所述第二实体关系，从所述目标交通知识图谱中进行匹配，确定所述目标交通知识图谱中对应的目标节点和目标边；根据所述目标节点和所述目标边，反馈所述自然语言内容对应的回答方案。本发明降低了人力物力成本，且能够保障回答方案的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的步骤流程图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

针对现有技术存在的问题，如图1所示，本发明提供了一种交通优化策略的智能问答方法，包括以下步骤：

S1、获取交通技术文档中的非结构化信息，并根据所述非结构化信息构建实体识别模型；

S2、通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系；并通过所述第一实体和所述第一实体关系构建初始交通知识图谱；

其中，本实施例的第一实体是指从交通技术文档中初步抽取出来的实体，第一实体关系是指各个第一实体之间的关系。

具体地，本实施例通过对现有交通技术文档中的非结构化信息使用自然语言处理技术，实现实体识别模型的构建，然后通过关系抽取模型，抽取出可供构建交通知识图谱的实体和实体关系来构建初始交通知识图谱。

其中，关系抽取模型的构建过程包括以下步骤：

S211、将所述交通技术文档中的交通实体进行标注；

S212、通过Bootstrapping方法和模式挖掘方法对所述标注进行扩充，并确定所述交通技术文档中的第一实体和第一实体关系；

具体地，本实施例的Bootstrapping方法是一种再分布的统计方法，从已知数据中得到的分布是对总体数据分布的最准确的预测，Bootstrapping方法应用于标注样本远少于非标注样本时，通过反复抽样迭代扩充标注样本，数据分布也会不断接近真实分布，从而可以解决标注样本过少的问题，扩大标注数据的样本量可以提升从交通技术文档中抽取到的交通知识图谱实体的准确率。

对于现存的少量的样本标注问题，本实施例使用基于Bootstrapping思想的无监督解决方案(反复抽样迭代扩充标注样本)，然后通过少量的实体实例从文本中挖掘特征模式，然后通过迭代模式挖掘的方式扩展实体语料库，再将特征模式应用于新的数据集，从中得到新的命名实体

S213、构建每一类所述第一实体对应的种子词，并确定所述种子词的候选模式；所述候选模式包括实体上下文的字符以及对应的字迹；

S214、将所述字迹放到未标注的交通技术文档中，以对所述未标注的交通技术文档挖掘交通实体；

S215、根据所述候选模式从交通技术文档中挖掘出新的实体后，确定所述实体的支持度和置信度；

S216、根据所述支持度和所述置信度，从候选模式中确定有效模式，将基于所述有效模式挖掘得到的实体确定为候选实体；

S217、通过搜索引擎对所述候选实体进行验证，确定种子词；

S218、根据种子词在循环挖掘过程中的数量变化情况，确定完成实体挖掘工作，构建得到关系抽取模型。

本实施例将少量交通技术文档中的交通实体进行标注，然后采用Bootstrapping方法和模式挖掘方法类扩充标注数据；接着，对实体关系构建一批种子词，并根据这些词在已标注交通实体的交通技术文本中匹配模式，选择两实体之间字符串作为模式；再将匹配到的候选模式放到未标注的交通技术文档中，用于构建知识图谱的交通实体的挖掘；然后，根据每个候选模式在文档中挖掘出来的新的实体关系进行支持度和置信度计算，对每个候选模式进行评分，分数大于阈值的挖掘模式称之为有效模式，有效模式挖掘出来的实体熟悉称为候选实体关系；并将候选实体关系放入搜索引擎中进行验证，若该实体关系词整体出现则将其放入种子词；循环以上挖掘步骤，直至种子词的数量不在增加，说明交通技术文档中用于构建交通知识图谱的实体关系全部挖掘完成。

另外，本实施例通过所述第一实体和所述第一实体关系构建初始交通知识图谱，包括：

S221、构建向量化模型，将所述第一实体转化为向量，所述向量之间的相似度能够代表不同第一实体之间的相似度；

S222、根据所述第一实体与所述第一实体关系在交通技术文档中出现的实体关系为真的次数，通过采用基于支持度的方法对所述第一实体和所述第一实体关系进行一致性分析，提取得到初始交通知识图谱；

S223、对提取到的初始交通知识图谱进行质量评估以及可信度评估，得到筛选后的初始交通知识图谱。

需要说明的是，本实施例的初始交通知识图谱存储到图数据库Neo4j中。

数据库Neo4j不仅可以存储图结构的数据，还提供图形化的界面进行管理，数据库Neo4j提供的图算法解决了传统关系型数据库在频繁查询时的性能衰退问题；将抽取到的实体和实体关系组成三元组的<实体关系实体>形式，存储到图数据库Neo4j中来构建交通知识图谱。

S3、通过知识融合方法对所述初始交通知识图谱进行优化，得到优化后的目标交通知识图谱；

具体地，本实施例通过知识融合方法对构建的知识图谱进行优化并储存优化后的目标交通知识图谱。

本实施例中所述知识融合包括实体对齐、一致性分析和质量评估三个步骤；

步骤一，实体对齐：实体对齐指的是通过相似度计算，从交通技术文档中抽取到的实体链接到知识图谱中实体的过程；通过构建向量化模型，将实体转化为若干维的向量，用向量之间的相似度来表示实体之间的相似度；

需要说明的是，本实施例实体对齐的构建向量化模型过程为：采用word2vec思想训练方法得到词向量矩阵，然后根据词向量之间的相似度来表示实体之间的相似度。

步骤二，一致性分析：在实体的识别和实体关系的抽取中由于模型的构建的原因，可能会导致同一实体在不同的上下文中会被识别为不同的类型；或者在实体关系抽取中，同一组实体会识别出不同的实体关系；通过采用基于支持度的方法依据每个实体和实体关系在文本中出现的实体关系为真的次数，对实体和关系进行一致性分析；

步骤三，质量评估：从准确率和覆盖率两个角度对提取到的知识图谱的质量和可信度进行量化、评估，舍弃质量和可信度较差的知识来保证知识库的质量。

S4、对获取的自然语言内容进行词条分析，抽取所述自然语言内容中的第二实体和第二实体关系；

其中，第二实体是指从用户输入的自然语言内容中抽取出来的实体；第二实体关系是指各个不同第二实体之间的关系。

具体地，步骤S4包括：

S41、通过实体识别模型和实体关系抽取模型，对用户输入的语句进行抽取；

S42、将抽取结果映射到知识图谱的一个或一组实体中；

步骤S42包括：

S421、将用户输入的语句中抽取出来的语义信息赋予权重；

S422、根据所述权重，在目标交通知识图谱中确定目标实体，并将所述目标实体所在的子图的信息返回给用户。

本实施例根据自然语言处理技术对给定问题进行语义解析，在知识库中查询、推理得到答案，知识库问答中返回的结果是知识库中的实体和实体关系。

本实施例的语音搜索工作过程为：在传统搜索引擎的基础上，结合知识图谱技术，将用户搜索输入的语句通过构建的实体识别模型和实体关系抽取模型进行实体识别和关系抽取，并将抽取结果映射到知识图谱的一个或一组实体，然后根据知识图谱的结构，向用户返回结构化的知识。

具体地，本实施例基于相似性的语义搜索流程为：

(1)利用之前构建知识图谱时的实体识别算法模型来识别用户输入中的实体；

(2)将识别出的实体通过word2vec转换为词向量矩阵，将识别出的实体和知识图谱中的实体进行向量的余弦相似度比较，A＝{a₁,a₂,…..a_m}为从用户搜索输入的问题中识别出的m个实体(a_i是第i个实体向量化表示后的n维向量)，那么实体之间的相似度sim()可以表示为：

(3)对提取出来的实体进行权重赋值。如果某个实体和较多的其他实体相关联，那么就说明这个实体比较重要，相应的该实体的权重较大。故权重和该实体和其他实体在知识图谱中的距离成反比，权重weight的定义公式为：

其中，distance(a_i,a_j)表示这个实体在知识图谱中的距离。

(4)在知识图谱中检索与识别出的用户输入中的实体权重最近的实体，作为结果返回。对知识图谱中每个实体c在搜索中的量化评价公式为(分数最高的实体就是满足要求的实体，将分数最高的实体返回)：

S43、根据所述知识图谱的结构，向用户返回结构化知识。

S5、根据所述第二实体和所述第二实体关系，从所述目标交通知识图谱中进行匹配，确定所述目标交通知识图谱中对应的目标节点和目标边；

具体地，本实施例通过对所述智能问答系统使用人员输入的自然语言通过语义搜索进行词条分析，抽取出实体和实体关系与交通知识图谱中的实体和实体关系进行匹配，返回匹配结果中实体和实体关系在交通知识图谱中所在的子图的节点和边。

S6、根据所述目标节点和所述目标边，反馈所述自然语言内容对应的回答方案。

本实施例通过采用智能问答方法，使用已有的模式组织语言返回给用户交通治堵的参考方案。

另外，本发明在反馈了回答方案之后，还包括以下步骤：

S7、确定所述回答方案的评价结果；

S8、根据所述评价结果对回答方案进行优化；

其中，所述评价结果包括准确率、召回率和F1值。

本实施例中返回结果评价的量化标准主要为准确率、召回率、F1值，其中，准确率反映了对样本的分类判别能力，最终以准确率为最终的评价标准，准确率的计算公式如下：

Accuracy＝|模型预测结果＝＝标注结果|/|模型预测结果|，

其中，Accuracy为准确率。

本发明实施例还提供了一种交通优化策略的智能问答系统，包括：

本发明实施例还提供了一种装置，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器用于根据所述程序执行如图1所述的方法。

本发明实施例还提供了一种存储介质，所述存储介质存储有程序，所述程序被处理器执行完成如图1所述的方法。

本发明通过对以往交通治堵方案文档中的交通实体和实体之间关系的抽取来构建交通知识图谱以解决交通优化策略实时准确生成的问题。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种交通优化策略的智能问答方法，其特征在于，包括：

2.根据权利要求1所述的一种交通优化策略的智能问答方法，其特征在于，所述方法还包括关系抽取模型的构建过程，所述关系抽取模型的构建过程包括：

将所述交通技术文档中的交通实体进行标注；

通过搜索引擎对所述候选实体进行验证，确定种子词；

3.根据权利要求1所述的一种交通优化策略的智能问答方法，其特征在于，所述通过所述第一实体和所述第一实体关系构建初始交通知识图谱，包括：

4.根据权利要求3所述的一种交通优化策略的智能问答方法，其特征在于，所述方法还包括：

将所述初始交通知识图谱存储到图数据库Neo4j中。

5.根据权利要求1所述的一种交通优化策略的智能问答方法，其特征在于，所述对获取的自然语言内容进行词条分析，抽取所述自然语言内容中的第二实体和第二实体关系，包括：

将抽取结果映射到知识图谱的一个或一组实体中；

根据所述知识图谱的结构，向用户返回结构化知识。

6.根据权利要求5所述的一种交通优化策略的智能问答方法，其特征在于，所述将抽取结果映射到知识图谱的一个或一组实体中，包括：

将用户输入的语句中抽取出来的语义信息赋予权重；

7.根据权利要求1-6中任一项所述的一种交通优化策略的智能问答方法，其特征在于，所述方法还包括：

确定所述回答方案的评价结果；

根据所述评价结果对回答方案进行优化；

其中，所述评价结果包括准确率、召回率和F1值。

8.一种交通优化策略的智能问答系统，其特征在于，包括：

9.一种装置，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器用于根据所述程序执行如权利要求1-7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行完成如权利要求1-7中任一项所述的方法。