CN111914099A - 一种交通优化策略的智能问答方法、系统、装置及介质 - Google Patents

一种交通优化策略的智能问答方法、系统、装置及介质 Download PDF

Info

Publication number
CN111914099A
CN111914099A CN202010720549.3A CN202010720549A CN111914099A CN 111914099 A CN111914099 A CN 111914099A CN 202010720549 A CN202010720549 A CN 202010720549A CN 111914099 A CN111914099 A CN 111914099A
Authority
CN
China
Prior art keywords
entity
traffic
knowledge graph
target
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010720549.3A
Other languages
English (en)
Other versions
CN111914099B (zh
Inventor
吕威
李亚坤
陈涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai College of Jilin University
Original Assignee
Zhuhai College of Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai College of Jilin University filed Critical Zhuhai College of Jilin University
Priority to CN202010720549.3A priority Critical patent/CN111914099B/zh
Publication of CN111914099A publication Critical patent/CN111914099A/zh
Application granted granted Critical
Publication of CN111914099B publication Critical patent/CN111914099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种交通优化策略的智能问答方法、系统、装置及介质,方法包括:获取交通技术文档中的非结构化信息,以构建实体识别模型;从交通技术文档中抽取第一实体和第一实体关系;并通过第一实体和第一实体关系构建初始交通知识图谱;对初始交通知识图谱进行优化,得到目标交通知识图谱;对获取的自然语言内容进行词条分析,抽取自然语言内容中的第二实体和第二实体关系;根据第二实体和第二实体关系,从目标交通知识图谱中进行匹配,确定目标交通知识图谱中对应的目标节点和目标边;根据目标节点和目标边,反馈自然语言内容对应的回答方案。本发明降低了人力物力成本,且能够保障回答方案的准确率,可广泛应用于智能问答技术领域。

Description

一种交通优化策略的智能问答方法、系统、装置及介质
技术领域
本发明涉及智能问答技术领域,尤其是一种交通优化策略的智能问答方法、系统、装置及介质。
背景技术
目前,随着经济的快速发展,我国的城市化进程加快,汽车保有量逐年增加,随之而来的是城市的交通拥堵问题。现有技术中,为了解决交通拥堵问题常采用以下四种方案:
(1)加大城市交通技术设施的建设:如扩宽城市道路、增加公交营运线路;
(2)人为减少城市路网车流量:如限号等措施;
(3)加大交通管控力度:如交管部门增加人员疏导交通;
(4)对交通路网控制系统进行优化:如通过对未来一段时间的城市交通路网的交通流进行预测来对城市交通路网的拥挤路口进行技术优化;
方案1、2、3均会导致人力和物力的大量投入,且治堵效率较低。
由于交通流的非线性和随机性的特点,无法考虑到所有的潜在的可能会影响交通流的因素,所以方案4中对交通流的预测准确率无法保障。
发明内容
有鉴于此,本发明实施例提供一种成本低且准确率高的交通优化策略的智能问答方法、系统、装置及介质。
本发明的第一方面提供了一种交通优化策略的智能问答方法,包括:
获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;
通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;
通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;
对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;
根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;
根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。
在一些实施例中,所述方法还包括关系抽取模型的构建过程,所述关系抽取模型的构建过程包括:
将所述交通技术文档中的交通实体进行标注;
通过Bootstrapping方法和模式挖掘方法对所述标注进行扩充,并确定所述交通技术文档中的第一实体和第一实体关系;
构建每一类所述第一实体对应的种子词,并确定所述种子词的候选模式;所述候选模式包括实体上下文的字符以及对应的字迹;
将所述字迹放到未标注的交通技术文档中,以对所述未标注的交通技术文档挖掘交通实体;
根据所述候选模式从交通技术文档中挖掘出新的实体后,确定所述实体的支持度和置信度;
根据所述支持度和所述置信度,从候选模式中确定有效模式,将基于所述有效模式挖掘得到的实体确定为候选实体;
通过搜索引擎对所述候选实体进行验证,确定种子词;
根据种子词在循环挖掘过程中的数量变化情况,确定完成实体挖掘工作,构建得到关系抽取模型。
在一些实施例中,所述通过所述第一实体和所述第一实体关系构建初始交通知识图谱,包括:
构建向量化模型,将所述第一实体转化为向量,所述向量之间的相似度能够代表不同第一实体之间的相似度;
根据所述第一实体与所述第一实体关系在交通技术文档中出现的实体关系为真的次数,通过采用基于支持度的方法对所述第一实体和所述第一实体关系进行一致性分析,提取得到初始交通知识图谱;
对提取到的初始交通知识图谱进行质量评估以及可信度评估,得到筛选后的初始交通知识图谱。
在一些实施例中,所述方法还包括:
将所述初始交通知识图谱存储到图数据库Neo4j中。
在一些实施例中,所述对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系,包括:
通过实体识别模型和实体关系抽取模型,对用户输入的语句进行抽取;
将抽取结果映射到知识图谱的一个或一组实体中;
根据所述知识图谱的结构,向用户返回结构化知识。
在一些实施例中,所述将抽取结果映射到知识图谱的一个或一组实体中,包括:
将用户输入的语句中抽取出来的语义信息赋予权重;
根据所述权重,在目标交通知识图谱中确定目标实体,并将所述目标实体所在的子图的信息返回给用户。
在一些实施例中,所述方法还包括:
确定所述回答方案的评价结果;
根据所述评价结果对回答方案进行优化;
其中,所述评价结果包括准确率、召回率和F1值。
本发明的第二方面提供了一种交通优化策略的智能问答系统,包括:
获取模块,用于获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;
初始图谱构建模块,用于通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;
目标图谱构建模块,用于通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;
词条分析模块,用于对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;
匹配模块,用于根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;
反馈模块,用于根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。
本发明的第三方面提供了一种装置,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于根据所述程序执行如第一方面所述的方法。
本发明的第四方面提供了一种存储介质,所述存储介质存储有程序,所述程序被处理器执行完成如第一方面所述的方法。
本发明的实施例获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。本发明降低了人力物力成本,且能够保障回答方案的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的步骤流程图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
针对现有技术存在的问题,如图1所示,本发明提供了一种交通优化策略的智能问答方法,包括以下步骤:
S1、获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;
S2、通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;
其中,本实施例的第一实体是指从交通技术文档中初步抽取出来的实体,第一实体关系是指各个第一实体之间的关系。
具体地,本实施例通过对现有交通技术文档中的非结构化信息使用自然语言处理技术,实现实体识别模型的构建,然后通过关系抽取模型,抽取出可供构建交通知识图谱的实体和实体关系来构建初始交通知识图谱。
其中,关系抽取模型的构建过程包括以下步骤:
S211、将所述交通技术文档中的交通实体进行标注;
S212、通过Bootstrapping方法和模式挖掘方法对所述标注进行扩充,并确定所述交通技术文档中的第一实体和第一实体关系;
具体地,本实施例的Bootstrapping方法是一种再分布的统计方法,从已知数据中得到的分布是对总体数据分布的最准确的预测,Bootstrapping方法应用于标注样本远少于非标注样本时,通过反复抽样迭代扩充标注样本,数据分布也会不断接近真实分布,从而可以解决标注样本过少的问题,扩大标注数据的样本量可以提升从交通技术文档中抽取到的交通知识图谱实体的准确率。
对于现存的少量的样本标注问题,本实施例使用基于Bootstrapping思想的无监督解决方案(反复抽样迭代扩充标注样本),然后通过少量的实体实例从文本中挖掘特征模式,然后通过迭代模式挖掘的方式扩展实体语料库,再将特征模式应用于新的数据集,从中得到新的命名实体
S213、构建每一类所述第一实体对应的种子词,并确定所述种子词的候选模式;所述候选模式包括实体上下文的字符以及对应的字迹;
S214、将所述字迹放到未标注的交通技术文档中,以对所述未标注的交通技术文档挖掘交通实体;
S215、根据所述候选模式从交通技术文档中挖掘出新的实体后,确定所述实体的支持度和置信度;
S216、根据所述支持度和所述置信度,从候选模式中确定有效模式,将基于所述有效模式挖掘得到的实体确定为候选实体;
S217、通过搜索引擎对所述候选实体进行验证,确定种子词;
S218、根据种子词在循环挖掘过程中的数量变化情况,确定完成实体挖掘工作,构建得到关系抽取模型。
本实施例将少量交通技术文档中的交通实体进行标注,然后采用Bootstrapping方法和模式挖掘方法类扩充标注数据;接着,对实体关系构建一批种子词,并根据这些词在已标注交通实体的交通技术文本中匹配模式,选择两实体之间字符串作为模式;再将匹配到的候选模式放到未标注的交通技术文档中,用于构建知识图谱的交通实体的挖掘;然后,根据每个候选模式在文档中挖掘出来的新的实体关系进行支持度和置信度计算,对每个候选模式进行评分,分数大于阈值的挖掘模式称之为有效模式,有效模式挖掘出来的实体熟悉称为候选实体关系;并将候选实体关系放入搜索引擎中进行验证,若该实体关系词整体出现则将其放入种子词;循环以上挖掘步骤,直至种子词的数量不在增加,说明交通技术文档中用于构建交通知识图谱的实体关系全部挖掘完成。
另外,本实施例通过所述第一实体和所述第一实体关系构建初始交通知识图谱,包括:
S221、构建向量化模型,将所述第一实体转化为向量,所述向量之间的相似度能够代表不同第一实体之间的相似度;
S222、根据所述第一实体与所述第一实体关系在交通技术文档中出现的实体关系为真的次数,通过采用基于支持度的方法对所述第一实体和所述第一实体关系进行一致性分析,提取得到初始交通知识图谱;
S223、对提取到的初始交通知识图谱进行质量评估以及可信度评估,得到筛选后的初始交通知识图谱。
需要说明的是,本实施例的初始交通知识图谱存储到图数据库Neo4j中。
数据库Neo4j不仅可以存储图结构的数据,还提供图形化的界面进行管理,数据库Neo4j提供的图算法解决了传统关系型数据库在频繁查询时的性能衰退问题;将抽取到的实体和实体关系组成三元组的<实体关系实体>形式,存储到图数据库Neo4j中来构建交通知识图谱。
S3、通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;
具体地,本实施例通过知识融合方法对构建的知识图谱进行优化并储存优化后的目标交通知识图谱。
本实施例中所述知识融合包括实体对齐、一致性分析和质量评估三个步骤;
步骤一,实体对齐:实体对齐指的是通过相似度计算,从交通技术文档中抽取到的实体链接到知识图谱中实体的过程;通过构建向量化模型,将实体转化为若干维的向量,用向量之间的相似度来表示实体之间的相似度;
需要说明的是,本实施例实体对齐的构建向量化模型过程为:采用word2vec思想训练方法得到词向量矩阵,然后根据词向量之间的相似度来表示实体之间的相似度。
步骤二,一致性分析:在实体的识别和实体关系的抽取中由于模型的构建的原因,可能会导致同一实体在不同的上下文中会被识别为不同的类型;或者在实体关系抽取中,同一组实体会识别出不同的实体关系;通过采用基于支持度的方法依据每个实体和实体关系在文本中出现的实体关系为真的次数,对实体和关系进行一致性分析;
步骤三,质量评估:从准确率和覆盖率两个角度对提取到的知识图谱的质量和可信度进行量化、评估,舍弃质量和可信度较差的知识来保证知识库的质量。
S4、对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;
其中,第二实体是指从用户输入的自然语言内容中抽取出来的实体;第二实体关系是指各个不同第二实体之间的关系。
具体地,步骤S4包括:
S41、通过实体识别模型和实体关系抽取模型,对用户输入的语句进行抽取;
S42、将抽取结果映射到知识图谱的一个或一组实体中;
步骤S42包括:
S421、将用户输入的语句中抽取出来的语义信息赋予权重;
S422、根据所述权重,在目标交通知识图谱中确定目标实体,并将所述目标实体所在的子图的信息返回给用户。
本实施例根据自然语言处理技术对给定问题进行语义解析,在知识库中查询、推理得到答案,知识库问答中返回的结果是知识库中的实体和实体关系。
本实施例的语音搜索工作过程为:在传统搜索引擎的基础上,结合知识图谱技术,将用户搜索输入的语句通过构建的实体识别模型和实体关系抽取模型进行实体识别和关系抽取,并将抽取结果映射到知识图谱的一个或一组实体,然后根据知识图谱的结构,向用户返回结构化的知识。
具体地,本实施例基于相似性的语义搜索流程为:
(1)利用之前构建知识图谱时的实体识别算法模型来识别用户输入中的实体;
(2)将识别出的实体通过word2vec转换为词向量矩阵,将识别出的实体和知识图谱中的实体进行向量的余弦相似度比较,A={a1,a2,…..am}为从用户搜索输入的问题中识别出的m个实体(ai是第i个实体向量化表示后的n维向量),那么实体之间的相似度sim()可以表示为:
Figure BDA0002599827280000071
(3)对提取出来的实体进行权重赋值。如果某个实体和较多的其他实体相关联,那么就说明这个实体比较重要,相应的该实体的权重较大。故权重和该实体和其他实体在知识图谱中的距离成反比,权重weight的定义公式为:
Figure BDA0002599827280000072
其中,distance(ai,aj)表示这个实体在知识图谱中的距离。
(4)在知识图谱中检索与识别出的用户输入中的实体权重最近的实体,作为结果返回。对知识图谱中每个实体c在搜索中的量化评价公式为(分数最高的实体就是满足要求的实体,将分数最高的实体返回):
Figure BDA0002599827280000081
S43、根据所述知识图谱的结构,向用户返回结构化知识。
S5、根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;
具体地,本实施例通过对所述智能问答系统使用人员输入的自然语言通过语义搜索进行词条分析,抽取出实体和实体关系与交通知识图谱中的实体和实体关系进行匹配,返回匹配结果中实体和实体关系在交通知识图谱中所在的子图的节点和边。
S6、根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。
本实施例通过采用智能问答方法,使用已有的模式组织语言返回给用户交通治堵的参考方案。
另外,本发明在反馈了回答方案之后,还包括以下步骤:
S7、确定所述回答方案的评价结果;
S8、根据所述评价结果对回答方案进行优化;
其中,所述评价结果包括准确率、召回率和F1值。
本实施例中返回结果评价的量化标准主要为准确率、召回率、F1值,其中,准确率反映了对样本的分类判别能力,最终以准确率为最终的评价标准,准确率的计算公式如下:
Accuracy=|模型预测结果==标注结果|/|模型预测结果|,
其中,Accuracy为准确率。
本发明实施例还提供了一种交通优化策略的智能问答系统,包括:
获取模块,用于获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;
初始图谱构建模块,用于通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;
目标图谱构建模块,用于通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;
词条分析模块,用于对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;
匹配模块,用于根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;
反馈模块,用于根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。
本发明实施例还提供了一种装置,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于根据所述程序执行如图1所述的方法。
本发明实施例还提供了一种存储介质,所述存储介质存储有程序,所述程序被处理器执行完成如图1所述的方法。
本发明通过对以往交通治堵方案文档中的交通实体和实体之间关系的抽取来构建交通知识图谱以解决交通优化策略实时准确生成的问题。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种交通优化策略的智能问答方法,其特征在于,包括:
获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;
通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;
通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;
对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;
根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;
根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。
2.根据权利要求1所述的一种交通优化策略的智能问答方法,其特征在于,所述方法还包括关系抽取模型的构建过程,所述关系抽取模型的构建过程包括:
将所述交通技术文档中的交通实体进行标注;
通过Bootstrapping方法和模式挖掘方法对所述标注进行扩充,并确定所述交通技术文档中的第一实体和第一实体关系;
构建每一类所述第一实体对应的种子词,并确定所述种子词的候选模式;所述候选模式包括实体上下文的字符以及对应的字迹;
将所述字迹放到未标注的交通技术文档中,以对所述未标注的交通技术文档挖掘交通实体;
根据所述候选模式从交通技术文档中挖掘出新的实体后,确定所述实体的支持度和置信度;
根据所述支持度和所述置信度,从候选模式中确定有效模式,将基于所述有效模式挖掘得到的实体确定为候选实体;
通过搜索引擎对所述候选实体进行验证,确定种子词;
根据种子词在循环挖掘过程中的数量变化情况,确定完成实体挖掘工作,构建得到关系抽取模型。
3.根据权利要求1所述的一种交通优化策略的智能问答方法,其特征在于,所述通过所述第一实体和所述第一实体关系构建初始交通知识图谱,包括:
构建向量化模型,将所述第一实体转化为向量,所述向量之间的相似度能够代表不同第一实体之间的相似度;
根据所述第一实体与所述第一实体关系在交通技术文档中出现的实体关系为真的次数,通过采用基于支持度的方法对所述第一实体和所述第一实体关系进行一致性分析,提取得到初始交通知识图谱;
对提取到的初始交通知识图谱进行质量评估以及可信度评估,得到筛选后的初始交通知识图谱。
4.根据权利要求3所述的一种交通优化策略的智能问答方法,其特征在于,所述方法还包括:
将所述初始交通知识图谱存储到图数据库Neo4j中。
5.根据权利要求1所述的一种交通优化策略的智能问答方法,其特征在于,所述对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系,包括:
通过实体识别模型和实体关系抽取模型,对用户输入的语句进行抽取;
将抽取结果映射到知识图谱的一个或一组实体中;
根据所述知识图谱的结构,向用户返回结构化知识。
6.根据权利要求5所述的一种交通优化策略的智能问答方法,其特征在于,所述将抽取结果映射到知识图谱的一个或一组实体中,包括:
将用户输入的语句中抽取出来的语义信息赋予权重;
根据所述权重,在目标交通知识图谱中确定目标实体,并将所述目标实体所在的子图的信息返回给用户。
7.根据权利要求1-6中任一项所述的一种交通优化策略的智能问答方法,其特征在于,所述方法还包括:
确定所述回答方案的评价结果;
根据所述评价结果对回答方案进行优化;
其中,所述评价结果包括准确率、召回率和F1值。
8.一种交通优化策略的智能问答系统,其特征在于,包括:
获取模块,用于获取交通技术文档中的非结构化信息,并根据所述非结构化信息构建实体识别模型;
初始图谱构建模块,用于通过关系抽取模型从所述交通技术文档中抽取第一实体和第一实体关系;并通过所述第一实体和所述第一实体关系构建初始交通知识图谱;
目标图谱构建模块,用于通过知识融合方法对所述初始交通知识图谱进行优化,得到优化后的目标交通知识图谱;
词条分析模块,用于对获取的自然语言内容进行词条分析,抽取所述自然语言内容中的第二实体和第二实体关系;
匹配模块,用于根据所述第二实体和所述第二实体关系,从所述目标交通知识图谱中进行匹配,确定所述目标交通知识图谱中对应的目标节点和目标边;
反馈模块,用于根据所述目标节点和所述目标边,反馈所述自然语言内容对应的回答方案。
9.一种装置,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器用于根据所述程序执行如权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行完成如权利要求1-7中任一项所述的方法。
CN202010720549.3A 2020-07-24 2020-07-24 一种交通优化策略的智能问答方法、系统、装置及介质 Active CN111914099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010720549.3A CN111914099B (zh) 2020-07-24 2020-07-24 一种交通优化策略的智能问答方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010720549.3A CN111914099B (zh) 2020-07-24 2020-07-24 一种交通优化策略的智能问答方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN111914099A true CN111914099A (zh) 2020-11-10
CN111914099B CN111914099B (zh) 2023-10-03

Family

ID=73280782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010720549.3A Active CN111914099B (zh) 2020-07-24 2020-07-24 一种交通优化策略的智能问答方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN111914099B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966119A (zh) * 2021-02-25 2021-06-15 青岛海信网络科技股份有限公司 一种信息获取方法、设备及介质
CN113239163A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于交通大数据的智能问答方法及系统
CN113836314A (zh) * 2021-09-18 2021-12-24 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN115063794A (zh) * 2022-06-15 2022-09-16 安徽大学 一种秀丽隐杆线虫全身细胞自动识别的方法
CN116069917A (zh) * 2023-03-01 2023-05-05 广州嘉为科技有限公司 一种智能回答方法、装置及存储介质
CN116341877A (zh) * 2023-05-19 2023-06-27 北京华录高诚科技有限公司 基于TransGPT的综合交通运行服务系统和方法
CN116775847A (zh) * 2023-08-18 2023-09-19 中国电子科技集团公司第十五研究所 一种基于知识图谱和大语言模型的问答方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196491A1 (en) * 2015-01-02 2016-07-07 International Business Machines Corporation Method For Recommending Content To Ingest As Corpora Based On Interaction History In Natural Language Question And Answering Systems
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196491A1 (en) * 2015-01-02 2016-07-07 International Business Machines Corporation Method For Recommending Content To Ingest As Corpora Based On Interaction History In Natural Language Question And Answering Systems
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DILEK HAKKANI-TÜR 等: "《Using a knowledge graph and query click logs for unsupervised learning of relation detection》", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
陈璟浩 等: "《基于知识图谱的"一带一路"投资问答系统构建》", 《图书情报工作》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966119A (zh) * 2021-02-25 2021-06-15 青岛海信网络科技股份有限公司 一种信息获取方法、设备及介质
CN112966119B (zh) * 2021-02-25 2022-11-25 青岛海信网络科技股份有限公司 一种信息获取方法、设备及介质
CN113239163A (zh) * 2021-05-12 2021-08-10 同方知网数字出版技术股份有限公司 一种基于交通大数据的智能问答方法及系统
CN113836314A (zh) * 2021-09-18 2021-12-24 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN113836314B (zh) * 2021-09-18 2024-04-19 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN115063794A (zh) * 2022-06-15 2022-09-16 安徽大学 一种秀丽隐杆线虫全身细胞自动识别的方法
CN115063794B (zh) * 2022-06-15 2024-03-08 安徽大学 一种秀丽隐杆线虫全身细胞自动识别的方法
CN116069917A (zh) * 2023-03-01 2023-05-05 广州嘉为科技有限公司 一种智能回答方法、装置及存储介质
CN116341877A (zh) * 2023-05-19 2023-06-27 北京华录高诚科技有限公司 基于TransGPT的综合交通运行服务系统和方法
CN116775847A (zh) * 2023-08-18 2023-09-19 中国电子科技集团公司第十五研究所 一种基于知识图谱和大语言模型的问答方法和系统
CN116775847B (zh) * 2023-08-18 2023-11-28 中国电子科技集团公司第十五研究所 一种基于知识图谱和大语言模型的问答方法和系统

Also Published As

Publication number Publication date
CN111914099B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN111914099B (zh) 一种交通优化策略的智能问答方法、系统、装置及介质
CN108388559A (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN109492230B (zh) 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111428511B (zh) 一种事件检测方法和装置
CN115471739A (zh) 基于自监督对比学习的跨域遥感场景分类与检索方法
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN113204967A (zh) 简历命名实体识别方法及系统
CN112131351A (zh) 一种基于多答案损失函数的片段信息抽取模型训练方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
CN114398480A (zh) 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
Cao et al. Knowledge guided short-text classification for healthcare applications
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Daraee et al. Handwritten keyword spotting using deep neural networks and certainty prediction
CN116452353A (zh) 一种财务数据管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant