CN112417174A - 一种数据处理的方法和装置 - Google Patents

一种数据处理的方法和装置 Download PDF

Info

Publication number
CN112417174A
CN112417174A CN202011390297.9A CN202011390297A CN112417174A CN 112417174 A CN112417174 A CN 112417174A CN 202011390297 A CN202011390297 A CN 202011390297A CN 112417174 A CN112417174 A CN 112417174A
Authority
CN
China
Prior art keywords
entity
data
information
association information
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011390297.9A
Other languages
English (en)
Inventor
张又亮
申众
张崇宇
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Guangzhou Chengxingzhidong Automotive Technology Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd, Guangzhou Chengxingzhidong Automotive Technology Co., Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202011390297.9A priority Critical patent/CN112417174A/zh
Publication of CN112417174A publication Critical patent/CN112417174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Acoustics & Sound (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供了一种数据处理的方法和装置,所述方法包括:预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。通过本发明实施例,实现了对语音问答的多维度语义理解,通过结合针对车辆的数据图谱,提供了更加丰富的语义空间,且联合实体和关系语义消歧,能够在用户需求的理解上更加精细和智能,为用户获取符合需求的应答结果。

Description

一种数据处理的方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理的方法和装置。
背景技术
随着智能汽车的发展,车载系统互联网化、系统应用功能丰富化,但缺乏面向车载系统语音交互场景的关联知识语义空间,以理解用户真正的需求,例如,在应用智能客服的车型知识问答场景中,由于语言的多样性、歧义性、复杂性、复用性、模糊性等特点,纯粹的机器学习算法无法很好的理解用户需求,也无法满足车型知识细节方面的需求。
而且,智能客服通常采用一个标准问维护多个相似问,一个标准问对应一个答案的方法,若要为用户提供更细致的答案,需要维护多个问答对,将增加运营成本;若减少问答对,将导致回答的答案归于笼统。同时,类似的问题需要维护不同的问答对,对用户需求的理解容易造成偏差。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法和装置,包括:
一种数据处理的方法,所述方法包括:
预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
可选地,所述根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果,包括:
确定所述语音问答事件对应的问答意图信息;
根据所述问答意图信息和所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
可选地,还包括:
按照所述问答意图信息,对所述应答结果进行展示。
可选地,所述在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,包括:
在检测到语音问答事件时,确定所述语音问答事件的关键信息;
根据所述关键信息,从所述多个数据实体的实体关联信息中,确定候选数据实体的实体关联信息;
从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息。
可选地,所述候选数据实体具有多个,所述从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息,包括:
从所述多个候选数据实体中,确定多个候选数据实体组合;
确定每个候选数据实体组合对应的代价信息;
确定最小的代价信息对应的候选数据实体组合中候选数据实体为目标数据实体,并确定所述目标数据实体的实体关联信息。
可选地,所述问答意图信息包括以下任一项:
查询车辆的单个参数、获取车辆的列表功能、比较车辆的差异信息、确定车辆是否存在某个功能。
可选地,所述多个数据实体的实体关联信息包括:
每个数据实体的实体信息、每个数据实体的属性信息、所述多个数据实体的关联关系。
一种数据处理的装置,所述装置包括:
数据图谱预置模块,用于预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
目标数据实体的实体关联信息确定模块,用于在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
应答结果得到模块,用于根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
一种服务器,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的数据处理的方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理的方法。
本发明实施例具有以下优点:
在本发明实施例中,通过预置针对车辆的数据图谱,数据图谱包括针对车辆的多个数据实体的实体关联信息,然后在检测到语音问答事件时,从多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,进而根据目标数据实体的实体关联信息,进行数据查询,得到针对语音问答事件的应答结果,实现了对语音问答的多维度语义理解,通过结合针对车辆的数据图谱,提供了更加丰富的语义空间,且联合实体和关系语义消歧,能够在用户需求的理解上更加精细和智能,为用户获取符合需求的应答结果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种数据处理的方法的步骤流程图;
图2是本发明一实施例提供的一种语音问答事件交互的示意图;
图3是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图4是本发明一实施例提供的一种数据处理技术架构的示意图;
图5是本发明一实施例提供的另一种数据处理的方法的步骤流程图;
图6是本发明一实施例提供的一种数据处理实例的示意图;
图7是本发明一实施例提供的一种数据处理的装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,示出了本发明一实施例提供的一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤101,预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
在车载系统应用智能客服的语音问答场景中,可以通过预置针对车辆的数据图谱,该数据图谱可以包括针对车辆的多个数据实体的实体关联信息,进而可以基于预置的针对车辆的数据图谱,提供更丰富的语义空间,以利用多维度的语义理解,达到精细化的用户需求理解。
作为一示例,数据图谱中涉及的多个数据实体的实体关联信息可以包括:
每个数据实体的实体信息、每个数据实体的属性信息、多个数据实体的关联关系。
具体的,可以通过构建两个不同形态的数据图谱,如车型知识图谱和语义知识图谱,以提供更加丰富的语义空间,并可以通过数据图谱和机器学习结合,提供一种联合实体和关系语义消歧的方法,其可以针对语言存在复杂性、模糊性、多样地等特点,利用知识图谱的关系分布信息、节点本身位置、节点间的语义关系以及配合图进行计算,增强了语义特征,且结合机器学习,能够完成关系和实体的语义联合消歧。
例如,车型知识图谱可以包括车型相关的各类实体、概念及其之间的语义关系,其可以用于进行车型相关的知识查询、知识推理;语义知识图谱可以涵盖实体、概念、属性等近义、共现、上下位等语义层面的关系网络,其可以用于辅助语义解析。
其中,在构建车型知识图谱时,可以通过采集结构化和非结构化的数据,进行图谱的构建,结构化的知识图谱能够使得维护的难度和成本都大幅降低。
一方面,可以结合汽车领域的经验,设计汽车知识图谱的语义类型和语义关系,语义类型可以采用本体建模,其可以从物理角度、概念角度发散,总结归纳进行高层抽象;语义关系可以从实体的物理相关、时间相关、功能相关等方面进行归纳;还可以根据车型配置表、用户文档、用户说明书等,通过提取实体以及相关的属性,明细底层适配,可以确定属于语义类型的范围,并可以根据层级结构,提取实体之间的关系。
另一方面,非结构化数据可以通过针对从网上爬取的信息、获取相关实体的描述信息、以及补全车型知识相应关系等方面进行扩展。
在构建增强型语义知识图谱时,可以结合车型配置相关属性和实体,构建语义知识图谱,通过构建增强型语义知识图谱,可以更好的理解语音问答请求中的语义,如语音问答请求中提到的实体或属性。
在该增强型语义知识图谱中,可以确定各节点的关系权重,可以使节点的出度为1;增强型语义知识图谱可以包括Source Space(源空间),其可以表征出各节点之间的共现关系和相似程度,相似程度可以通过余弦相似度表示,共现关系可以通过如下公式表示:
Figure BDA0002812142290000051
其中,w(x,y)可以表征在x节点出现的情况下,出现y节点的概率;(x,y)可以表征x和y节点出现的数量,(x)可以为语料中x的数量。
增强型语义知识图谱还可以包括Target Space(目标空间),其可以包括目标实体、属性以及关系,可以根据节点名称的复杂程度进行分词,保证所有节点的出度之和为1。
步骤102,在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
其中,语音问答事件可以为用户触发的语音问答交互操作,例如,在车载系统应用智能客服的语音问答场景中,用户可以通过语音问答交互操作,发出语音问答请求。
在预置针对车辆的数据图谱后,可以在检测到语音问答事件时,从数据图谱的多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,该目标数据实体的实体关联信息可以为经语义解析后得到的针对语音问答事件的语义表示结果。
步骤103,根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
在得到目标数据实体的实体关联信息后,可以将目标数据实体的实体关联信息转化为查询语句,进而可以采用该查询语句进行数据查询,并可以得到针对语音问答事件的应答结果,如可以根据数据查询获取的结果,组合生成语音问答事件对应的答案。
针对车载系统应用智能客服的车型知识问答场景中,可以通过借助语义知识图谱和机器学习,结合语义网络的先验知识正确理解用户需求,从而能够对用户需求的理解更精细和智能,并可以结合车型知识图谱,进行知识查询和知识推理,以获取用户感兴趣的知识点。
在一示例中,如图2所示,基于数据图谱的车型配置问答交互流程可以为:
1、用户可以通过手机APP端(如图2中2)或者车载大屏端(如图2中3)发送语音问答请求(即语音问答事件);
2、语音问答请求可以经网络传送到对应的网关以发送至智能客服(如机器人,图2中5),进而智能客服可以针对语音问答请求进行意图识别、实体识别和实体链接;
3、智能客服可以将处理后的语音问答请求(即目标数据实体的实体关联信息)转为查询语句,进而可以传送至知识库(如图2中6)进行数据搜索;
4、智能客服可以针对查询到的结果进行加工处理,最终可以将答案(即应答结果)以文本、图片、音频等形式通过APP端或车载大屏端反馈给用户。
通过利用多维度的语义理解,利用语义知识网络和深度学习精细化理解用户需求,并且可以结合车型知识图谱,获取用户需要的答案,且复杂的答案可以采用文本、语音或图片等多种形式的回复方式,增加了交互的友好性,整个技术方案除了车型问答,也可以应用于故障问答、功能问答等,可扩展性强、通用性大,实现了高度可复用。
在本发明实施例中,通过预置针对车辆的数据图谱,数据图谱包括针对车辆的多个数据实体的实体关联信息,然后在检测到语音问答事件时,从多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,进而根据目标数据实体的实体关联信息,进行数据查询,得到针对语音问答事件的应答结果,实现了对语音问答的多维度语义理解,通过结合针对车辆的数据图谱,提供了更加丰富的语义空间,且联合实体和关系语义消歧,能够在用户需求的理解上更加精细和智能,为用户获取符合需求的应答结果。
参照图3,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤301,预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
在车载系统应用智能客服的语音问答场景中,可以通过预置针对车辆的数据图谱,该数据图谱可以包括针对车辆的多个数据实体的实体关联信息,进而可以基于预置的针对车辆的数据图谱,提供更丰富的语义空间。
步骤302,在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
在预置针对车辆的数据图谱后,可以在检测到语音问答事件时,从数据图谱的多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,该目标数据实体的实体关联信息可以为经语义解析后得到的针对语音问答事件的语义表示结果。
步骤303,确定所述语音问答事件对应的问答意图信息;
在具体实现中,可以通过确定语音问答事件对应的问答意图信息,该问答意图信息可以为根据用户的需求划分的不同意图类别,进而可以进一步确认针对语音问答事件的用户需求。
在本发明一实施例中,问答意图信息可以包括以下任一项:
查询车辆的单个参数、获取车辆的列表功能、比较车辆的差异信息、确定车辆是否存在某个功能。
例如,针对用户的语音问答请求中存在的不同需求,其可以包括查询车辆的单个参数、获取车辆的列表功能、比较车辆的差异以及确定车辆是否存在某功能等,可以预先根据用户的需求划分出不同的意图类别,进而可以通过确定语音问答事件对应的问答意图信息,理解用户的需求,以针对不同需求采用对应的查询策略和对应的生成答案方式。
确定问答意图信息可以为一分类问题,其可以根据规则模板或机器学习模型的方法进行识别,可以通过结合两种方法以提高准确率,如可以通过将机器学习的模型采用TextCNN(利用卷积神经网络对文本进行分类的算法),TextCNN核心过程为卷积网络,可以通过卷积将分词后的词的语义结合在一起,从而可以获得更加准确的词向量。
步骤304,根据所述问答意图信息和所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
在得到问答意图信息和目标数据实体的实体关联信息后,可以根据问答意图信息和目标数据实体的实体关联信息,转化为查询语句,进而可以采用该查询语句进行数据查询,并可以得到针对语音问答事件的应答结果。
具体的,可以将获取的问答意图信息和目标数据实体的实体关联信息产生的语义结果,转化为Cypher查询语句(一种描述性的图形查询语言),进而可以在预置的数据图谱中进行查询、推理和计算,并可以获得查询结果。
在一示例中,如图4所示,可以针对语音问答事件输入用户的语音问答请求,然后可以通过语义图谱进行语义匹配,并可以结合车型知识图谱的知识匹配,进行语义解析,其可以包括浅层解析和联合消歧,进而可以将语音问答请求通过语义表示转化为查询语句,进行知识查询,可以根据查询结果得到针对语音问答请求的语义解析结果,并可以生成答案反馈给用户。
针对语义解析包括的浅层解析和联合消歧两个部分的关键技术,其中,浅层分析可以通过机器学习技术,进行意图识别、关键词提取等,以针对用户的语音问答请求进行浅层次的理解;联合消歧可以通过结合语义网络和统计学习,采用联合实体和关系消歧的方法,从而能够实现包括实体消歧、实体链接、关系链接等。
通过结合数据图谱的语义解析,可以精确理解用户需求,完成精细化的问答,如可以针对相似问题的不同实体进行区分回答;可以针对模糊性和歧义性的问题,进行语义消歧,利用语义网络明确用户需求;可以针对对比性或复杂性的问答,提供推理计算,并可以利用数据图谱比较差异,基于语义理解进行查询推理,以返回比较的应答结果;同时,针对数据图谱结构化的知识数据,能够便于知识的管理和维护,通过对实体、属性、关系等多个维度的结构化梳理,使得知识管理更加便捷,避免了当知识量级增大时,数据增删改查的难题。
在本发明一实施例中,还可以包括如下步骤:
按照所述问答意图信息,对所述应答结果进行展示。
在实际应用中,可以按照问答意图信息,对得到的针对语音问答事件的应答结果进行展示,如根据数据查询获取的应答结果,可以组合生成对应的答案反馈给用户。
例如,针对语音问答事件,确定对应的问答意图信息为简单的查询车辆的单个参数,可以将数据查询获取的应答结果组合为文本形式的答案,可以采用如下方式对应答结果进行展示;
G3长续航能跑多远?->G3520的续航里程是520km
又如,针对语音问答事件,确定对应的问答意图信息为获取车辆的列表功能,可以将数据查询获取的应答结果,该应答结果可以为列表形式,进而可以将应答结果组合为表格形式的答案进行展示。
参照图5,示出了本发明一实施例提供的另一种数据处理的方法的步骤流程图,具体可以包括如下步骤:
步骤501,预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
在车载系统应用智能客服的语音问答场景中,可以通过预置针对车辆的数据图谱,该数据图谱可以包括针对车辆的多个数据实体的实体关联信息,进而可以基于预置的针对车辆的数据图谱,提供更丰富的语义空间。
步骤502,在检测到语音问答事件时,确定所述语音问答事件的关键信息;
在具体实现中,可以在检测到语音问答事件时,确定语音问答事件的关键信息,如针对用户的语音问答请求获取关键字,进而可以根据关键字进行判断,可以判断该关键字在数据图谱中所属的类型,以及对应的实体或关系,以便于在车型知识图谱中进行匹配查询。
在一示例中,可以针对用户的语音问答请求进行细粒度的分词,可以通过去除停用词,并采用tf-idf(term frequency-inverse document frequency,一种用于信息检索与数据挖掘的加权技术)获取关键字(即关键信息)。
在又一示例中,针对输入的query(用户的语音问答请求),通过语义解析,可以结合语义结构图谱和车型配置图,以丰富满足query中关键词的相关语义空间。
例如,针对问句“G3长续航版能跑多远?”(即语音问答事件),可以根据“能跑多远”的关键字(即关键信息)配合“G3”,可以确定用户的意图是针对“续航里程”,即问答意图信息可以为查询车辆的单个参数,可以根据语义图谱中近似语义和上下位语义确定问句中提到的车型为G32020,然后可以通过提取问句中实体节点“G32020”(即数据实体的实体信息),属性为“续航里程”(即数据实体的属性信息),可以从数据图谱中查询到三元组数据“(G32020,续航里程,520km)”,进而通过数据查询和推理,可以得到正确答案为520km(即应答结果)。
步骤503,根据所述关键信息,从所述多个数据实体的实体关联信息中,确定候选数据实体的实体关联信息;
在得到关键信息后,可以根据该关键信息,从多个数据实体的实体关联信息中,确定候选数据实体的实体关联信息。
具体的,由于用户的语音问答请求中存在不连续或者组合实体,可以通过PersonalRank算法获取候选实体或属性以及关系(即候选数据实体的实体关联信息),可以通过计算针对候选实体进行排序。
步骤504,从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
在得到候选数据实体的实体关联信息后,可以从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息。
在本发明一实施例中,候选数据实体可以具有多个,步骤504可以包括如下子步骤:
从所述多个候选数据实体中,确定多个候选数据实体组合;确定每个候选数据实体组合对应的代价信息;确定最小的代价信息对应的候选数据实体组合中候选数据实体为目标数据实体,并确定所述目标数据实体的实体关联信息。
在实际应用中,候选数据实体可以具有多个,可以通过从多个候选数据实体中,确定多个候选数据实体组合,然后可以确定每个候选数据实体组合对应的代价信息,进而可以将最小的代价信息对应的候选数据实体组合中候选数据实体,作为目标数据实体,并可以确定该目标数据实体的实体关联信息。
具体的,基于随机游走的PersonalRank算法,如图6所示,可以通过从左开始游走至任何一个节点时,按照概率α决定是继续游走,还是停止该次游走,可以经过多次随机游走后,最终v节点被访问到的概率可以收敛为一个数,可以采用如下方式收敛:
Figure BDA0002812142290000121
其中,ɑ可以表示随机游走的概率;PR(v)可以表示访问v的概率;out(v)可以表示节点v指向的节点集合。
进而可以根据从图谱中产生的候选项列表,选取最佳的实体或关系进行链接,可以通过用户的语音问答请求中针对每个关键字产生的候选实体列表(即候选数据实体组合),结合数据图谱,计算单个关键词候选实体和其它关键候选实体的边平均值,可以结合PersonalRank的图结构计算关键字到候选实体的最短路径的加权平均值(即代价信息),进而可以结合候选实体的排序位置获得特征,可以将获得的特征传给分类器模型,获得实体的得分与排名,通过运用xgboost算法,可以确定目标数据实体,并可以获取目标数据实体的实体关联信息。
步骤505,根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
在得到目标数据实体的实体关联信息后,可以将目标数据实体的实体关联信息转化为查询语句,进而可以采用该查询语句进行数据查询,并可以得到针对语音问答事件的应答结果,如可以根据数据查询获取的结果,组合生成语音问答事件对应的答案。
在一示例中,针对车载系统应用智能客服的语音问答可以采用如下方式实现:
1、可以针对语音问答事件输入query(如用户的语音问答请求);
2、可以对原始query进行对应的分词以及提取关键字(即关键信息),可以进行意图识别理解该query的领域和意图(即问答意图信息);
3、可以基于关键字,结合语义结构图谱进行PersonalRank计算,进而可以获取候选实体和属性,以及关系的粗排序(即候选数据实体的实体关联信息);
4、可以结合车型知识图谱和语义图谱(即数据图谱)获取特征,并可以利用机器学习算法选择合适的实体、属性和关系(即目标数据实体的实体关联信息);
5、可以将确定的意图、实体、关系等进行语义表示,转化为知识查询语句,以查找出满足实体和关系的联通子图(即数据查询);
6、可以根据query的语义和查询的结果(即应答结果),进而可以综合考虑该结果的可读性和流畅度,确定query的答案展示方式并向用户反馈。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明一实施例提供的一种数据处理的装置的结构示意图,具体可以包括如下模块:
数据图谱预置模块701,用于预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
目标数据实体的实体关联信息确定模块702,用于在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
应答结果得到模块703,用于根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
在本发明一实施例中,所述应答结果得到模块703包括:
问答意图信息确定子模块,用于确定所述语音问答事件对应的问答意图信息;
应答结果得到子模块,用于根据所述问答意图信息和所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
在本发明一实施例中,还包括:
应答结果展示模块,用于按照所述问答意图信息,对所述应答结果进行展示。
在本发明一实施例中,所述目标数据实体的实体关联信息确定模块702包括:
关键信息确定子模块,用于在检测到语音问答事件时,确定所述语音问答事件的关键信息;
候选数据实体的实体关联信息确定子模块,用于根据所述关键信息,从所述多个数据实体的实体关联信息中,确定候选数据实体的实体关联信息;
目标数据实体的实体关联信息确定子模块,用于从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息。
在本发明一实施例中,所述候选数据实体具有多个,所述目标数据实体的实体关联信息确定子模块包括:
多个候选数据实体组合确定单元,用于从所述多个候选数据实体中,确定多个候选数据实体组合;
代价信息确定单元,用于确定每个候选数据实体组合对应的代价信息;
目标数据实体的实体关联信息确定单元,用于确定最小的代价信息对应的候选数据实体组合中候选数据实体为目标数据实体,并确定所述目标数据实体的实体关联信息。
在本发明一实施例中,所述问答意图信息包括以下任一项:
查询车辆的单个参数、获取车辆的列表功能、比较车辆的差异信息、确定车辆是否存在某个功能。
在本发明一实施例中,所述多个数据实体的实体关联信息包括:
每个数据实体的实体信息、每个数据实体的属性信息、所述多个数据实体的关联关系。
在本发明实施例中,通过预置针对车辆的数据图谱,数据图谱包括针对车辆的多个数据实体的实体关联信息,然后在检测到语音问答事件时,从多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,进而根据目标数据实体的实体关联信息,进行数据查询,得到针对语音问答事件的应答结果,实现了对语音问答的多维度语义理解,通过结合针对车辆的数据图谱,提供了更加丰富的语义空间,且联合实体和关系语义消歧,能够在用户需求的理解上更加精细和智能,为用户获取符合需求的应答结果。
本发明一实施例还提供了一种服务器,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
本发明一实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上数据处理的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种数据处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理的方法,其特征在于,所述方法包括:
预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果,包括:
确定所述语音问答事件对应的问答意图信息;
根据所述问答意图信息和所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
3.根据权利要求2所述的方法,其特征在于,还包括:
按照所述问答意图信息,对所述应答结果进行展示。
4.根据权利要求1或2或3所述的方法,其特征在于,所述在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息,包括:
在检测到语音问答事件时,确定所述语音问答事件的关键信息;
根据所述关键信息,从所述多个数据实体的实体关联信息中,确定候选数据实体的实体关联信息;
从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息。
5.根据权利要求4所述的方法,其特征在于,所述候选数据实体具有多个,所述从候选数据实体的实体关联信息中,确定目标数据实体的实体关联信息,包括:
从所述多个候选数据实体中,确定多个候选数据实体组合;
确定每个候选数据实体组合对应的代价信息;
确定最小的代价信息对应的候选数据实体组合中候选数据实体为目标数据实体,并确定所述目标数据实体的实体关联信息。
6.根据权利要求2所述的方法,其特征在于,所述问答意图信息包括以下任一项:
查询车辆的单个参数、获取车辆的列表功能、比较车辆的差异信息、确定车辆是否存在某个功能。
7.根据权利要求1所述的方法,其特征在于,所述多个数据实体的实体关联信息包括:
每个数据实体的实体信息、每个数据实体的属性信息、所述多个数据实体的关联关系。
8.一种数据处理的装置,其特征在于,所述装置包括:
数据图谱预置模块,用于预置针对车辆的数据图谱;其中,所述数据图谱包括针对所述车辆的多个数据实体的实体关联信息;
目标数据实体的实体关联信息确定模块,用于在检测到语音问答事件时,从所述多个数据实体的实体关联信息中,确定目标数据实体的实体关联信息;
应答结果得到模块,用于根据所述目标数据实体的实体关联信息,进行数据查询,得到针对所述语音问答事件的应答结果。
9.一种服务器,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。
CN202011390297.9A 2020-12-01 2020-12-01 一种数据处理的方法和装置 Pending CN112417174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011390297.9A CN112417174A (zh) 2020-12-01 2020-12-01 一种数据处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011390297.9A CN112417174A (zh) 2020-12-01 2020-12-01 一种数据处理的方法和装置

Publications (1)

Publication Number Publication Date
CN112417174A true CN112417174A (zh) 2021-02-26

Family

ID=74829633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011390297.9A Pending CN112417174A (zh) 2020-12-01 2020-12-01 一种数据处理的方法和装置

Country Status (1)

Country Link
CN (1) CN112417174A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326361A (zh) * 2021-05-25 2021-08-31 武汉理工大学 一种基于汽车产业图谱知识问答方法、系统及电子设备
CN113961678A (zh) * 2021-09-15 2022-01-21 北京三快在线科技有限公司 一种基于事理图谱的智能对话方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959627A (zh) * 2018-07-23 2018-12-07 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN109543019A (zh) * 2018-11-27 2019-03-29 苏州思必驰信息科技有限公司 用于车辆的对话服务方法及装置
CN110929016A (zh) * 2019-12-10 2020-03-27 北京爱医生智慧医疗科技有限公司 一种基于知识图谱的智能问答方法及装置
CN111008272A (zh) * 2019-12-04 2020-04-14 深圳市新国都金服技术有限公司 基于知识图谱的问答方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959627A (zh) * 2018-07-23 2018-12-07 北京光年无限科技有限公司 基于智能机器人的问答交互方法及系统
CN109543019A (zh) * 2018-11-27 2019-03-29 苏州思必驰信息科技有限公司 用于车辆的对话服务方法及装置
CN111008272A (zh) * 2019-12-04 2020-04-14 深圳市新国都金服技术有限公司 基于知识图谱的问答方法、装置、计算机设备及存储介质
CN110929016A (zh) * 2019-12-10 2020-03-27 北京爱医生智慧医疗科技有限公司 一种基于知识图谱的智能问答方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326361A (zh) * 2021-05-25 2021-08-31 武汉理工大学 一种基于汽车产业图谱知识问答方法、系统及电子设备
CN113961678A (zh) * 2021-09-15 2022-01-21 北京三快在线科技有限公司 一种基于事理图谱的智能对话方法和装置

Similar Documents

Publication Publication Date Title
US10089364B2 (en) Item recommendation device, item recommendation method, and computer program product
CN115238101B (zh) 一种面向多类型知识库的多引擎智能问答系统
CN107818781B (zh) 智能交互方法、设备及存储介质
CN108268619B (zh) 内容推荐方法及装置
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
US9582757B1 (en) Scalable curation system
US9910930B2 (en) Scalable user intent mining using a multimodal restricted boltzmann machine
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
US20060184517A1 (en) Answers analytics: computing answers across discrete data
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN111832305B (zh) 一种用户意图识别方法、装置、服务器和介质
CN111736738A (zh) 一种车载系统的控件对象查询方法和装置
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN112417174A (zh) 一种数据处理的方法和装置
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN115774996B (zh) 智能面试的追问题目生成方法、装置和电子设备
US11314793B2 (en) Query processing
US9984684B1 (en) Inducing command inputs from high precision and high recall data
CN115269961A (zh) 内容搜索方法以及相关设备
JP2012093870A (ja) システム開発における要求獲得支援システム、要求獲得支援方法およびプログラム
CN114281942A (zh) 问答处理方法、相关设备及可读存储介质
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226

RJ01 Rejection of invention patent application after publication