CN113239163A - 一种基于交通大数据的智能问答方法及系统 - Google Patents
一种基于交通大数据的智能问答方法及系统 Download PDFInfo
- Publication number
- CN113239163A CN113239163A CN202110515348.4A CN202110515348A CN113239163A CN 113239163 A CN113239163 A CN 113239163A CN 202110515348 A CN202110515348 A CN 202110515348A CN 113239163 A CN113239163 A CN 113239163A
- Authority
- CN
- China
- Prior art keywords
- speech
- entity
- sequence
- tuple
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 19
- 238000013461 design Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于交通大数据的智能问答方法及系统,所述方法包括基于分词方法对输入序列进行分词,并获得基于关键词词组与词性的元组序列;将交通场景的问题序列传入基于交通大数据的问答模型进行主题识别;对输入序列进行实体识别、词性标注,获取基于知识图谱的三元组与词性的元组序列,并将基于关键词词组与词性的元组序列与实体识别元组序列进行融合;对融合的元组序列进行基于意图识别神经网络的意图提取,并对元组序列进行基于三元组词性的相似度计算,判断计算的相似度值是否大于所设置的阈值并进行替换;基于用户意图与三元组相关信息判断知识图谱中是否存在特点的网络结构;基于用户意图与特定的网络结构进行知识图谱查询语句的映射,并进行相关信息的检索与解析。
Description
技术领域
本发明涉及大数据与人工智能技术领域,尤其涉及一种基于交通大数据的智能问答方法及系统。
背景技术
智能问答作为一种新的交互形态,能够全天侯地为用户提供应答服务,因此备受人们的青睐。智能问答技术依赖于自然语言处理技术与海量数据的支撑:首先人工定义知识库内容,并在自然语言处理技术的条件下对用户问题进行分析、理解,从而检索到对应的答案。
智能问答技术分为基于常见问答对(FQA)的问答方法与基于知识图谱的问答方法。基于FQA的问答方法,是基于问答对一问一答的方法,即通过客户输入语句与数据库中的语句进行相似度匹配,从而获得正确的答案。基于知识图谱的问答方法,是基于自然语言处理技术获得知识图谱三元组相关信息,检索出对应的答案的方法。然而现有的智能问答技术受限于自然语言处理算法的性能,无法很好地理解用户的问题,并快速地检索到正确的答案,导致智能问答技术问答时间长、准确率低。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于交通大数据的智能问答方法及系统。
本发明的目的通过以下的技术方案来实现:
一种基于交通大数据的智能问答方法,包括:
步骤A基于分词方法对输入序列进行分词,并获得基于关键词词组与词性的元组序列;
步骤B将交通场景的问题序列传入基于交通大数据的问答模型进行主题识别;
步骤C对输入序列进行实体识别、词性标注,获取基于知识图谱的三元组与词性的元组序列,并将基于关键词词组与词性的元组序列与实体识别元组序列进行融合;
步骤D对融合的元组序列进行基于意图识别神经网络的意图提取,并对元组序列进行基于三元组词性的相似度计算,判断计算的相似度值是否大于所设置的阈值并进行替换;
步骤E基于用户意图与三元组相关信息判断知识图谱中是否存在特点的网络结构;
步骤F基于用户意图与特定的网络结构进行知识图谱查询语句的映射,并进行相关信息的检索与解析。
一种基于交通大数据的智能问答系统,包括:包括关键词词组与词性元组序列获取单元、主题识别单元、实体与词性识别单元、序列融合单元、意图获取单元、相似度值计算与替换单元、特定网络判断单元、知识图谱查询映射单元及检索与解析单元;所述
关键词词组与词性元组序列获取单元,用于输入序列,并对输入序列进行预处理,从而得到关键词词组与词性的元组序列;
主题识别单元,用于词组与词性的元组序列,对所述序列进行主题识别,并将识别交通场景下的问题序列传入基于交通大数据问答模型模块;
实体与词性识别单元,用于输入序列,并对输入序列进行实体与词性识别,从而得到实体词组与词性的元组序列;
序列融合单元,用于将实体词组、词性的元组序列与关键词词组、词性的元组序列进行拼接融合;
意图获取单元,用于采用基于bert的神经网络获取用户的意图信息;
相似度值计算与替换单元,用于基于融合词组与词性的元组序列,结合意图信息,根据相似度计算方法,计算相同词性词组序列与特定知识图谱元组信息的相似度值,并判断所述的相似度值是否大于所设置的阈值并进行替换;
特定网络判断单元,用于替换后的词组与词性元组序列,判断元组序列中是否缺失主语、谓语和宾语中的一个,或者判断词组序列中的疑问词语是主语、谓语与宾语;结合意图信息,将对应于知识图谱的第一实体索引-第一实体关系-第二实体索引,第一实体索引-第一实体关系-第二实体索引-第二实体关系......第n实体模板判断网络结构是否存在;
知识图谱查询映射单元,用于替换后的词组与词性元组序列,并将实体索引、关系与属性进行知识图谱查询语句的映射;
检索与解析单元,用于知识图谱查询语句,将检索结果进行解析,并输出所述答案。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
可以快速的检索到正确的答案,有效解决智能问答技术问答时间长、准确率低的问题。
附图说明
图1是基于交通大数据的智能问答方法流程图;
图2是基于LAD主题模型流程示意图;
图3是基于交通大数据的智能问答系统结构示意框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于交通大数据的智能问答方法,包括:
步骤10基于分词方法对输入序列进行分词,并获得基于关键词词组与词性的元组序列;
步骤20将交通场景的问题序列传入基于交通大数据的问答模型进行主题识别;
步骤30对输入序列进行实体识别、词性标注,获取基于知识图谱的三元组与词性的元组序列,并将基于关键词词组与词性的元组序列与实体识别元组序列进行融合;
步骤40对融合的元组序列进行基于意图识别神经网络的意图提取,并对元组序列进行基于三元组词性的相似度计算,判断计算的相似度值是否大于所设置的阈值并进行替换;
步骤50基于用户意图与三元组相关信息判断知识图谱中是否存在特点的网络结构;
步骤60基于用户意图与特定的网络结构进行知识图谱查询语句的映射,并进行相关信息的检索与解析。
上述步骤10中输入序列用于提问,因此问句中对想要咨询的内容使用疑问词代替,如多少、谁、哪个等;或者词语缺失的方式代替,如***公路的服务站、***项目的法人等。由于本申请的问答是基于知识图谱搭建的,而知识图谱节点、属性属于实体名词,如(xxx高速公路,开工时间,未知量)节点信息为实体名词。因此,为了进一步快速地找到答案,对不同类型的实体名词词性进行预定义,并加载到分词工具中,获得对应词性的实体名词。如定义“公路”类实体名词为“np”,则分出的公路名称的专有名词词性为“np”。同时获得特定词性的关键词,使三元组信息更加准确地转为基于知识图谱的查询语句。
上述步骤20具体包括:将关键词词组与词性元组序列送入LDA主题识别模型中,判断用户咨询信息的场景,将交通场景的信息传到特定场景的模型中。主题模型目的是通过文档-主题与主题词分布获得文档-主题词的分布矩阵。其过程为从数据库中得到训练语料,经过分词、数据清洗、创建词典、构建词袋模型,按照公式计算TF-IDF权重,并输入主题模型;TF-IDF权重计算公式为:
tf-idfi,j=tfi,j×idfi
其中,tfi,j表示词语j在文档i中出现的频率;ni,j表示词语j在文档i中出现的次数;D表示语料库中文档的总数;j表示包含dj中包含词语ti的文档数。设置超参ɑ,β,主题个数,其中ɑ与β为文档-主题及主题-词汇下的先验超参数。从狄利克雷分布超参数ɑ生成每个文档的主题分布θm;从主题分布θm确定各文档各特征词的主题分布Zm,n;从狄利克雷分布超参数β生成对应特征词分布由主题词分布与特征词分布共同得到词Wm,n;循环获取主题分布、特征词分布与生成的词Wm,n,并保存模型;读取关键词词组并加载主题模型,获取主题分布。
如图2所示,主题识别采用LDA模型进行识别,其模型的构建包括:
1)从数据库中读取各个主题下的相关语料;
2)对预料库的文档进行分词和数据清洗;
3)构建特征词典和词袋模型;
4)对特征项利用TF-IDF计算权重;
5)确定模型的超参数与主题数,进行聚类;
6)对特征项进行LDA模型拟合与保存;
7)获取用户的问题,并加载训练的主题模型;
8)获取问题序列的主题-关键词分布。
上述步骤30中,为进一步提高模型的准确率,结合交通场景下的知识图谱节点类别信息,关系信息进行实体识别、词性标注。如“xxx交通公路”实体节点词性为“np”,关系“基本路基”词性为“RE”。将分词获得的元组序列与实体识别获得的元组信息进行拼接。其拼接方法为基于相同实体信息方式的插入与替换。例如(“xxx交通公路”,“np”)实体元组序列与(“xxx”,“ns”)-(“交通”,“n”)-(“公路”,“np”)关键词元组序列,首先获取关键词词组序列(“xxx”,“ns”)开始位置与(“公路”,“np”)位置;当词语组成的字符串与实体信息字符串相同时则进行替换。
上述步骤40中意图识别神经网络采用Bert模型意图提取模型进行细粒度地意图计算。如“xxxxx至xxx公路限速多少”意图为查询公路的车速,节点信息为“xxx”、“xx至xxx公路”,关系相关信息为“限速”。基于用户的意图,将知识图谱的三元组信息定位到公路设计速度相关的局部区域;实体信息与节点信息的相似度匹配采用基于词性的方法进行过滤。如“xxx”识别的词性为“ns”,“xx至xxx公路”识别词性为“np”;且“xxx省”为知识图谱中的实体节点,词性为ns。“xxx”与“xxx省”相似度计算采用基于标签为设计速度且同词性“ns”的实体与节点实体进行计算,并根据阈值进行替换,“xxx”替换为“xxx省”。关系词的替换采用意图与关键词相结合的方式替换。如“xxx限速为***的公路设计单位”意图识别对应的关系词为“设计速度”为***的设计单位,结合用户意图,关系词与关键词的相似度计算,并进行替换。
上述步骤50中网络结构指的是第一实体索引-第一实体关系-第一实体属性;第一实体索引-第一实体关系-第二实体索引-第二实体关系···第n实体索引。通过用户的意图可以缩小知识图谱查询语句的模板范围;通过三元组词性信息初步判断知识图谱中有无对应的网络结构;根据词组与词性序列判断词组序列中是否缺失主语、谓语和宾语中的一个,或者判断词组序列中的疑问词语是主语、谓语与宾语;结合预定于查询模板,将对应于知识图谱的第一实体索引-第一实体关系-第二实体索引,第一实体索引-第一实体关系-第二实体索引-第二实体关系···第n实体模板判断网络结构是否存在。
如图3所示,本实施例还提供了一种基于交通大数据的智能问答系统,包括关键词词组与词性元组序列获取单元、主题识别单元、实体与词性识别单元、序列融合单元、意图获取单元、相似度值计算与替换单元、特定网络判断单元、知识图谱查询映射单元及检索与解析单元;所述关键词词组与词性元组序列获取单元,用于输入序列,并对输入序列进行预处理,从而得到关键词词组与词性的元组序列;主题识别单元,用于词组与词性的元组序列,对所述序列进行主题识别,并将识别交通场景下的问题序列传入基于交通大数据问答模型模块;实体与词性识别单元,用于输入序列,并对输入序列进行实体与词性识别,从而得到实体词组与词性的元组序列;序列融合单元,用于将实体词组、词性的元组序列与关键词词组、词性的元组序列进行拼接融合;意图获取单元,用于采用基于bert的神经网络获取用户的意图信息;相似度值计算与替换单元,用于基于融合词组与词性的元组序列,结合意图信息,根据相似度计算方法,计算相同词性词组序列与特定知识图谱元组信息的相似度值,并判断所述的相似度值是否大于所设置的阈值并进行替换;特定网络判断单元,用于替换后的词组与词性元组序列,判断元组序列中是否缺失主语、谓语和宾语中的一个,或者判断词组序列中的疑问词语是主语、谓语与宾语;结合意图信息,将对应于知识图谱的第一实体索引-第一实体关系-第二实体索引,第一实体索引-第一实体关系-第二实体索引-第二实体关系......第n实体模板判断网络结构是否存在;知识图谱查询映射单元,用于替换后的词组与词性元组序列,并将实体索引、关系与属性进行知识图谱查询语句的映射;检索与解析单元,用于知识图谱查询语句,将检索结果进行解析,并输出所述答案。
上述关键词词组与词性元组序列获取单元包括词典加载子单元、分词与标注子单元。其中词典加载子单元为分词工具预先加载基于特定知识图谱三元组相关的实体、关系、属性与预定义的词性信息。
上述主题识别单元主题识别单元采用LDA模型进行主题识别,模型训练与主题判别流程如图2。模型首先从数据库中读取各个主题下的相关语料;并对对应的文档进行分词与数据清洗;构建特征词典与词袋模型;对特征项利用公式计算TF-IDF权重,预定义LDA模型超参数与主题数,并对模型进行聚类;对特征项进行LDA模型拟合并进行保存;获取用户的问题,并加载训练主题模型,计算问题文本的主题分布;TF-IDF权重计算公式为:
tf-idfi,j=tfi,j×idfi。
上述实体与词性识别单元,采用多任务学习模型,实体识别子模块为基于Bert+BiLS-TM+CRF的网络结构;词性标注为基于Bert+BiLSTM网络结构。根据交通大数据建立知识图谱的三元组信息的类别进行训练。如地点类实体,人物类实体,公司名称等类实体以及其对应的“ns”,“nr”,“nc”等词性进行训练;并对输入序列进行实体识别与词性标注。获得实体、词性元组序列。
上述序列融合单元中元组序列进行拼接的方法为基于相同实体信息方式的插入与替换,案例如基于交通大数据的智能问答机制步骤30所述。
上述意图获取单元对融合元组序列进行基于Bert意图提取模型的细粒度意图提取。其意图包括项目简介、车道、设计速度、载荷新建、投资估算、资本金等类别。
上述相似度值计算与替换单元包括知识图谱实体信息与关系信息获取子单元,实体相似度计算子单元,关系相似度计算子单元,替换子单元。根据用户的意图以及实体的词性知识图谱实体信息与关系获取子单元获取相关信息;并在相似度计算子单元中进行相似度计算;当相似度值大于预定的阈值时替换子单元进行替换。如“xxx至xxx公路限速多少”意图为查询公路的设计速度,节点信息为“xxx”、“xxx至xxx公”,关系相关信息为“限速”。根据用户的意图,将知识图谱的三元组信息定位到公路设计速度相关的局部区域;实体信息与节点信息的相似度匹配采用词性进行过滤。如“xxx”的词性为地方“ns”,“xxx至xxx公路”词性为“np”,进行相似度计算时采取标签为设计速度且同词性的实体与节点实体进行计算,并进行替换。如“xxx”替换为“xxx省”。关系词的替换采用意图与关键词相结合的方式替换。如“xxx为限速为某某公路设计单位”意图识别对应的关系词为“设计单位”与“设计速度”,通过关系词与关键词的相似度计算进行替换。
上述特定网络判断单元通过用户的意图可以缩小知识图谱查询语句的模板范围;通过三元组词性信息初步判断知识图谱中有无对应的网络结构;根据词组与词性序列判断词组序列中是否缺失主语、谓语和宾语中的一个,或者判断词组序列中的疑问词语是主语、谓语与宾语;结合预定于查询模板,将对应于知识图谱的第一实体索引-第一实体关系-第二实体索引,第一实体索引-第一实体关系-第二实体索引-第二实体关系......第n实体模板判断网络结构是否存在。
上述实施例提供的基于交通大数据的智能问答方法与系统,获取用户输入序列,并对所述输入序列进行预处理,获得关键词与词性元组序列;对词组与词性元组序列进行主题识别,并输入基于交通大数据的问答模型;对输入序列进行实体识别与词性标注;实体、词性元组序列与关键词、词性元组序列进行拼接融合;对词组、词性序列进行意图识别,获取用户的意图;对词组、词性元组序列与基于交通大数据知识图谱三元组信息进行相似度计算;对达到阈值要求的实体索引、关系索引进行替换;对用户意图与词组、词性序列进行特定知识图谱网络的存在性判断;根据意图将实体索引、关系与属性进行基于交通大数据知识图谱查询语句的映射;对图谱查询语句进行查询、解析,并将答案结果输出。从而快速、准确地映射为知识图谱查询语句,并进行查询、解析。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种基于交通大数据的智能问答方法,其特征在于,所述方法包括:
步骤A基于分词方法对输入序列进行分词,并获得基于关键词词组与词性的元组序列;
步骤B将交通场景的问题序列传入基于交通大数据的问答模型进行主题识别;
步骤C对输入序列进行实体识别、词性标注,获取基于知识图谱的三元组与词性的元组序列,并将基于关键词词组与词性的元组序列与实体识别元组序列进行融合;
步骤D对融合的元组序列进行基于意图识别神经网络的意图提取,并对元组序列进行基于三元组词性的相似度计算,判断计算的相似度值是否大于所设置的阈值并进行替换;
步骤E基于用户意图与三元组相关信息判断知识图谱中是否存在特点的网络结构;
步骤F基于用户意图与特定的网络结构进行知识图谱查询语句的映射,并进行相关信息的检索与解析。
2.如权利要求1所述的基于交通大数据的智能问答方法,其特征在于,所述步骤A中分词包括词典加载、分词与标注;所述词典加载基于交通知识图谱三元组相关的词语、词性信息。
3.如权利要求1所述的基于交通大数据的智能问答方法,其特征在于,所述步骤B具体包括:将关键词词组与词性元组序列送入LDA主题识别模型中,判断用户咨询信息的场景,将交通场景的信息传到特定场景的模型中,所述主题识别模型的目的是通过文档-主题与主题词的分布获得文档-主题词的分布矩阵,其过程是从数据库中得到训练语料,经过分词、数据清洗、创建词典、构建词袋模型,按照公式计算TF-IDF权重,并输入主题模型;所述TF-IDF权重计算公式为:
tf-idfi,j=tfi,j×idfi
其中,tfi,j表示词语j在文档i中出现的频率;ni,j表示词语j在文档i中出现的次数;D表示语料库中文档的总数;j表示包含dj中包含词语ti的文档数。
4.如权利要求3所述的基于交通大数据的智能问答方法,其特征在于,主题识别采用LDA模型进行识别,其模型的构建包括:
1)从数据库中读取各个主题下的相关语料;
2)对预料库的文档进行分词和数据清洗;
3)构建特征词典和词袋模型;
4)对特征项利用TF-IDF计算权重;
5)确定模型的超参数与主题数,进行聚类;
6)对特征项进行LDA模型拟合与保存;
7)获取用户的问题,并加载训练的主题模型;
8)获取问题序列的主题-关键词分布。
5.如权利要求1所述的基于交通大数据的智能问答方法,其特征在于,所述步骤D主要包括:意图识别神经网络采用Bert模型意图提取模型进行细粒度地意图计算,基于用户的意图,将知识图谱的三元组信息定位到公路设计速度相关的局部区域;将实体信息与节点信息进行相似度匹配并采用基于词性的方法进行过滤;对关系词的替换采用意图与关键词相结合的方式替换,结合用户意图,对关系词与关键词的相似度计算,并进行替换。
6.如权利要求1所述的基于交通大数据的智能问答方法,其特征在于,所述步骤E中网络结构指的是第一实体索引-第一实体关系-第一实体属性;第一实体索引-第一实体关系-第二实体索引-第二实体关系···第n实体索引。
7.一种基于交通大数据的智能问答系统,其特征在于,所述系统包括关键词词组与词性元组序列获取单元、主题识别单元、实体与词性识别单元、序列融合单元、意图获取单元、相似度值计算与替换单元、特定网络判断单元、知识图谱查询映射单元及检索与解析单元;所述
关键词词组与词性元组序列获取单元,用于输入序列,并对输入序列进行预处理,从而得到关键词词组与词性的元组序列;
主题识别单元,用于词组与词性的元组序列,对所述序列进行主题识别,并将识别交通场景下的问题序列传入基于交通大数据问答模型模块;
实体与词性识别单元,用于输入序列,并对输入序列进行实体与词性识别,从而得到实体词组与词性的元组序列;
序列融合单元,用于将实体词组、词性的元组序列与关键词词组、词性的元组序列进行拼接融合;
意图获取单元,用于采用基于bert的神经网络获取用户的意图信息;
相似度值计算与替换单元,用于基于融合词组与词性的元组序列,结合意图信息,根据相似度计算方法,计算相同词性词组序列与特定知识图谱元组信息的相似度值,并判断所述的相似度值是否大于所设置的阈值并进行替换;
特定网络判断单元,用于替换后的词组与词性元组序列,判断元组序列中是否缺失主语、谓语和宾语中的一个,或者判断词组序列中的疑问词语是主语、谓语与宾语;结合意图信息,将对应于知识图谱的第一实体索引-第一实体关系-第二实体索引,第一实体索引-第一实体关系-第二实体索引-第二实体关系...第n实体模板判断网络结构是否存在;
知识图谱查询映射单元,用于替换后的词组与词性元组序列,并将实体索引、关系与属性进行知识图谱查询语句的映射;
检索与解析单元,用于知识图谱查询语句,将检索结果进行解析,并输出所述答案。
8.如权利要求7所述的基于交通大数据的智能问答系统,其特征在于,所述关键词词组与词性元组序列获取单元包括词典加载子单元、分词与标注子单元;所述词典加载子单元为分词工具预先加载基于特定知识图谱三元组相关的实体、关系、属性与预定义的词性信息。
9.如权利要求7所述的基于交通大数据的智能问答系统,其特征在于,所述主题识别单元采用LDA模型进行主题识别,包括从数据库中读取各个主题下的相关语料;并对对应的文档进行分词与数据清洗;构建特征词典与词袋模型;对特征项利用公式计算TF-IDF特征权重;预定义LDA模型超参数与主题数,并对模型进行聚类;对特征项进行LDA模型拟合并进行保存;获取用户的问题,并加载训练主题模型,计算问题文本的主题分布;所述TF-IDF特征权重计算公式为:
tf-idfi,j=tfi,j×idfi
其中,tfi,j表示词语j在文档i中出现的频率;ni,j表示词语j在文档i中出现的次数;D表示语料库中文档的总数;j表示包含dj中包含词语ti的文档数。
10.如权利要求7所述的基于交通大数据的智能问答系统,其特征在于,所述相似度值计算与替换单元包括知识图谱实体信息与关系信息获取子单元,实体相似度计算子单元,关系相似度计算子单元及替换子单元;
所述知识图谱实体信息与关系信息获取子单元,用于根据用户的意图及实体的词性获取相关信息;
实体相似度计算子单元,用于采取标签为设计速度且同词性的实体与节点实体进行计算;
关系相似度计算子单元,用于对关系词与关键词的相似度进行计算;
替换子单元,当相似度值大于预定的阈值时,该替换子单元对同词性的实体与节点实体进行替换以及对关系词与关键词进行替换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515348.4A CN113239163A (zh) | 2021-05-12 | 2021-05-12 | 一种基于交通大数据的智能问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110515348.4A CN113239163A (zh) | 2021-05-12 | 2021-05-12 | 一种基于交通大数据的智能问答方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239163A true CN113239163A (zh) | 2021-08-10 |
Family
ID=77133927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110515348.4A Pending CN113239163A (zh) | 2021-05-12 | 2021-05-12 | 一种基于交通大数据的智能问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239163A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN113836273A (zh) * | 2021-11-23 | 2021-12-24 | 天津汇智星源信息技术有限公司 | 基于复杂语境的法律咨询方法及相关设备 |
CN114036281A (zh) * | 2021-11-22 | 2022-02-11 | 华南农业大学 | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 |
CN114625843A (zh) * | 2022-04-06 | 2022-06-14 | 山东省科院易达科技咨询有限公司 | 基于知识图谱的查询方法及装置 |
CN116341877A (zh) * | 2023-05-19 | 2023-06-27 | 北京华录高诚科技有限公司 | 基于TransGPT的综合交通运行服务系统和方法 |
CN117076757A (zh) * | 2023-10-16 | 2023-11-17 | 校导帮(南京)科技创业有限公司 | 基于大模型的知识服务检索和管理系统 |
CN117149983A (zh) * | 2023-10-30 | 2023-12-01 | 山东高速信息集团有限公司 | 基于高速公路业务智能对话的方法、装置及设备 |
CN117743538A (zh) * | 2023-12-19 | 2024-03-22 | 中国人寿保险股份有限公司山东省分公司 | 实时客服云端数据的管理方法、装置及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN111177345A (zh) * | 2019-12-19 | 2020-05-19 | 中国平安财产保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111581378A (zh) * | 2020-04-28 | 2020-08-25 | 中国工商银行股份有限公司 | 基于交易数据建立用户消费标签体系的方法和装置 |
CN111914099A (zh) * | 2020-07-24 | 2020-11-10 | 吉林大学珠海学院 | 一种交通优化策略的智能问答方法、系统、装置及介质 |
-
2021
- 2021-05-12 CN CN202110515348.4A patent/CN113239163A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026842A (zh) * | 2019-11-29 | 2020-04-17 | 微民保险代理有限公司 | 自然语言处理方法、自然语言处理装置及智能问答系统 |
CN111177345A (zh) * | 2019-12-19 | 2020-05-19 | 中国平安财产保险股份有限公司 | 基于知识图谱的智能问答方法、装置和计算机设备 |
CN111291156A (zh) * | 2020-01-21 | 2020-06-16 | 同方知网(北京)技术有限公司 | 一种基于知识图谱的问答意图识别方法 |
CN111581378A (zh) * | 2020-04-28 | 2020-08-25 | 中国工商银行股份有限公司 | 基于交易数据建立用户消费标签体系的方法和装置 |
CN111914099A (zh) * | 2020-07-24 | 2020-11-10 | 吉林大学珠海学院 | 一种交通优化策略的智能问答方法、系统、装置及介质 |
Non-Patent Citations (3)
Title |
---|
刘惠等: "基于TF-IDF和LDA主题模型的电影短评文本情感分析", 《现代电影技术》, no. 3, 31 March 2020 (2020-03-31), pages 42 * |
张腾岳: "改进的LDA文档主题模型的实现", 《延安大学学报(自然科技版)》, vol. 38, no. 4, 31 December 2019 (2019-12-31), pages 33 * |
韦凌翔: "基于Android 的交通安全出行智能问答系统设计与实现", 《盐城工学院学报(自然科学版)》, vol. 33, no. 2, pages 63 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN114036281A (zh) * | 2021-11-22 | 2022-02-11 | 华南农业大学 | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 |
CN114036281B (zh) * | 2021-11-22 | 2024-04-16 | 华南农业大学 | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 |
CN113836273A (zh) * | 2021-11-23 | 2021-12-24 | 天津汇智星源信息技术有限公司 | 基于复杂语境的法律咨询方法及相关设备 |
CN114625843A (zh) * | 2022-04-06 | 2022-06-14 | 山东省科院易达科技咨询有限公司 | 基于知识图谱的查询方法及装置 |
CN116341877A (zh) * | 2023-05-19 | 2023-06-27 | 北京华录高诚科技有限公司 | 基于TransGPT的综合交通运行服务系统和方法 |
CN117076757A (zh) * | 2023-10-16 | 2023-11-17 | 校导帮(南京)科技创业有限公司 | 基于大模型的知识服务检索和管理系统 |
CN117076757B (zh) * | 2023-10-16 | 2024-01-23 | 校导帮(南京)科技创业有限公司 | 基于大模型的知识服务检索和管理系统 |
CN117149983A (zh) * | 2023-10-30 | 2023-12-01 | 山东高速信息集团有限公司 | 基于高速公路业务智能对话的方法、装置及设备 |
CN117149983B (zh) * | 2023-10-30 | 2024-02-27 | 山东高速信息集团有限公司 | 基于高速公路业务智能对话的方法、装置及设备 |
CN117743538A (zh) * | 2023-12-19 | 2024-03-22 | 中国人寿保险股份有限公司山东省分公司 | 实时客服云端数据的管理方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239163A (zh) | 一种基于交通大数据的智能问答方法及系统 | |
CN109684448B (zh) | 一种智能问答方法 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN111680173B (zh) | 统一检索跨媒体信息的cmr模型 | |
CN108121829B (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
US10324967B2 (en) | Semantic text search | |
CN110674274B (zh) | 一种针对食品安全法规问答系统的知识图谱构建方法 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
KR20050036541A (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
WO2020074017A1 (zh) | 基于深度学习的医学文献中关键词筛选方法及装置 | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和系统 | |
CN116244410B (zh) | 一种基于知识图谱和自然语言的指标数据分析方法及系统 | |
CN111061832A (zh) | 基于开放域信息抽取的人物行为抽取方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN113868382A (zh) | 从中文自然语言中抽取结构化知识的方法和装置 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN112380868A (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CN116258204A (zh) | 基于知识图谱的工业安全生产违规处罚管理方法及系统 | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
CN114091464B (zh) | 一种融合五维特征的高普适性多对多关系三元组抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |