CN115033661A - 一种基于垂直领域知识图谱的自然语言语义理解方法和装置 - Google Patents
一种基于垂直领域知识图谱的自然语言语义理解方法和装置 Download PDFInfo
- Publication number
- CN115033661A CN115033661A CN202210638362.8A CN202210638362A CN115033661A CN 115033661 A CN115033661 A CN 115033661A CN 202210638362 A CN202210638362 A CN 202210638362A CN 115033661 A CN115033661 A CN 115033661A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- candidate
- entity
- relation
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种基于垂直领域知识图谱的自然语言语义理解方法和装置,该方法包括:对输入文本进行分词处理以获取至少一个候选分词结果;基于知识图谱确定至少一个候选分词结果中每一候选分词结果对应的关系集合,关系集合中每一元素表征该关系集合对应的候选分词结果的一个分词实体对对应的关系,关系的类型与分词实体对和分词实体对对应的两个本体相关;根据至少一个候选分词结果中每一候选分词结果对应的关系集合,从候选分词结果中确定目标分词结果。能够确认最优的目标候选分词结果,消除了具有歧义的候选分词结果,提升了用户满意度。
Description
技术领域
本申请涉及自然语言处理领域,尤其涉及一种基于垂直领域知识图谱的自然语言语义理解方法和装置。
背景技术
随着越来越多的智能家电设备功能接入语音助手的入口,语音助手对接的业务越来越多样化。随着业务对接的深入,语音助手对业务的支持说法也不断丰富。当语音助手接入业务较多时,相似的说法可能对应不同的业务,由于语音助手对相似说法的分辨能力较弱进而导致业务定位错误,执行错误的操作。因此,随着知识库的扩张,各种分词歧义和语义理解歧义不断产生,给业务定位和用户体验带来较大的影响。
如何能够提升语音助手对自然语言的语义理解能力,从而提升用户满意度值得研究。
发明内容
本申请提供了一种基于垂直领域知识图谱的自然语言语义理解方法和装置,能够解决分词消歧问题和分词的语义消歧问题,提高终端设备的语义理解能力,从而提升用户的满意度。
第一方面,本申请实施例提供了一种基于垂直领域知识图谱的自然语言语义理解方法,包括:
对输入文本进行分词处理以获取至少一个候选分词结果;
基于知识图谱确定所述至少一个候选分词结果中每一候选分词结果对应的关系集合,所述关系集合中每一元素表征该关系集合对应的候选分词结果的一个分词实体对对应的关系,所述关系的类型与所述分词实体对和所述分词实体对对应的两个本体相关;
根据所述至少一个候选分词结果中每一候选分词结果对应的关系集合,从所述候选分词结果中确定目标分词结果。
第二方面,本申请实施例提供了一种垂直领域知识图谱构建方法,包括:
确定本体语义规则库,所述本体语义规则库包括垂直领域的多个本体,以及该多个本体中本体与本体之间的关系,所述多个本体的每一本体为一种语义角色标注,所述本体与本体之间的关系为语义依存关系;
爬取互联网垂直领域的结构化数据,抽取多个实体存入垂域词典,所述垂域词典用于表征所述多个本体和所述多个实体之间的对应关系,其中,所述多个实体是所述多个本体对应的实例;
根据所述结构化数据抽取实体与实体之间的关联关系并建立实体关系库;
根据所述本体语义规则库、所述垂域词典和所述实体关系库构建垂直领域知识图谱。
第三方面,本申请实施例提供了一种基于垂直领域知识图谱的自然语言语义理解装置,包括:
分词处理模块,用于对输入文本进行分词处理以获取至少一个候选分词结果;
关系集合确定模块,用于基于知识图谱确定所述至少一个候选分词结果中每一候选分词结果对应的关系集合,所述关系集合中每一元素为该关系集合对应的候选分词结果的一个分词实体对对应的关系,所述关系的类型与所述分词实体对和所述分词实体对对应的两个本体相关;
目标分词结果确定模块,用于根据所述至少一个候选分词结果中每一候选分词结果对应的关系集合,从所述候选分词结果中确定目标分词结果。
由上述实施例可知,本申请方案中根据各个候选分词结果中每个候选分词结果对应的关系集合确认目标候选分词结果,由于该关系集合中分词实体对之间关系的类型与分词实体对以及分词实体对对应的两个本体都相关,使得该关系集合中的分词实体对之间的关系信息既包括了分词实体之间的关系信息,还包括了其对应的本体之间的关系信息,从而根据该关系集合能够确认最优的目标候选分词结果,消除了具有歧义的候选分词结果,提升了用户满意度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请的终端设备的交互方法和交互装置的示例性系统架构;
图2示出了根据示例性实施例中终端设备200的硬件配置框图;
图3示出了操作系统为Android系统的终端设备的示例性系统架构图;
图4为本申请实施例提供的一种终端设备的交互网络架构示意图;
图5是本申请实施例提供的一例知识图谱的构建方法流程示意图;
图6是本申请提供的一例知识图谱结构示意图;
图7是本申请根据实施例提供的又一例知识图谱示意图;
图8是本申请提供的一例基于垂直领域知识图谱的自然语言语义理解方法示意性流程图;
图9是本申请提供的又一例基于垂直领域知识图谱的自然语言语义理解方法示意性流程图;
图10是本申请实施例提供的一例候选的节点路径示意图;
图11本申请实施例提供的一例环形结构的节点路径示意图;
图12是本申请实施例提供的一例候选的节点路径示意图;
图13是本申请实施例提供的又一例环形结构的节点路径示意图;
图14是本申请实施例提供的另一例环形结构的节点路径示意图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
图1示出了可以应用本申请的终端设备的交互方法和交互装置的示例性系统架构。如图1所示,其中,10为服务器,200为终端设备,示例性包括(智能电视200a,移动设备200b,智能音箱200c)。
本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备200提供各种内容和互动。示例性的,终端设备200与服务器10可以通过发送和接收信息,以及接收软件程序更新。
服务器10可以是提供各种服务的服务器,例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集群,也可以是多个服务器集群,可以包括一类或多类服务器。
终端设备200可以是硬件,也可以是软件。当终端设备200为硬件时,可以是具有声音采集功能的各种电子设备,包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200、201、202为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的基于垂直领域知识图谱的自然语言语义理解方法可以通过服务器10执行,还可以通过服务器10和终端设备200共同执行,本申请对此不做限定。
图2示出了根据示例性实施例中终端设备200的硬件配置框图。如图2所示终端设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,音频处理器,RAM,ROM,用于输入/输出的第一接口至第n接口。
通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括Wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。终端设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。
用户接口,可用于接收外部的控制信号。
检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
声音采集器可以是麦克风,也称“话筒”,“传声器”,可以用于接收用户的声音,将声音信号转换为电信号。终端设备200可以设置至少一个麦克风。在另一些实施例中,终端设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
此外,麦克风可以是内置在终端设备200上,或者麦克风通过有线或者无线的方式与终端设备200相连接。当然,本申请实施例对麦克风在终端设备200上的位置不作限定。或者,终端设备200可以不包括麦克风,即上述麦克风并未设置于终端设备200中。终端设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在终端设备200上。
控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制终端设备200的整体操作。
示例性的,控制器包括中央处理器(Central Processing Unit,CPU),音频处理器,RAM Random Access Memory,RAM),ROM(Read-Only Memory,ROM),用于输入/输出的第一接口至第n接口,通信总线(Bus)等中的至少一种。
图3示出了操作系统为Android系统的终端设备的示例性系统架构图,在一些示例中,以终端设备的操作系统为Android系统为例,如图3所示,智能电视200-1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21,内核层22和硬件层23。
其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于实现智能电视200-1与服务器10的连接。
内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的,终端设备200中的语音识别应用启动,终端设备200与服务器10建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将终端设备200发送的语音数据输入至意图识别模型。
为清楚说明本申请的实施例,下面结合图4对本申请实施例提供的一种语音识别网络架构进行描述。
参见图4,图4为本申请实施例提供的一种终端设备的交互网络架构示意图。图4中,终端设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务,用于将音频识别为文本;语义理解模块部署有语义理解服务,用于对文本进行语义解析;业务管理模块部署有业务指令管理服务,用于提供业务指令。在一个实施例中,图4所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个实体服务设备中集合一项或多项功能服务。
一些实施例中,下面对基于图4所示架构处理输入终端设备的信息的过程进行举例描述,以输入终端设备的信息为通过语音输入的查询语句为例:
[语音识别]
终端设备可在接收到通过语音输入的查询语句后,终端设备可对查询语句的音频进行降噪处理和特征提取,这里的去噪处理可包括去除回声和环境噪声等步骤。
[语义理解]
利用声学模型和语言模型,对识别出的候选文本和相关联的上下文信息进行自然语言理解,将文本解析为结构化的、机器可读的信息,业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图,
[业务管理]
语义理解模块根据对查询语句的文本的语义解析结果,向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果,以及执行“完成”用户最终请求所需的动作,并将查询结果对应的设备执行指令进行反馈。
需要说明的是,图4所示架构只是一种示例,并非对本申请保护范围的限定。本申请实施例中,也可采用其他架构来实现类似功能,例如:上述过程全部或部分可以由智能终端来完成,在此不做赘述。
由于本申请实施例涉及自然语言处理领域,为了便于理解,下面先简单介绍相关的术语。
(1)自然语言处理(natural language processing,NLP):自然语言(naturallanguage)即人类语言,自然语言处理(NLP)就是对人类语言的处理。自然语言处理是以一种智能与高效的方式,对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP及其组件,我们可以管理非常大块的文本数据,或者执行大量的自动化任务,并且解决各式各样的问题,如命名实体识别(named entity recognition,NER),关系提取(relationextraction,RE),信息抽取(information extraction,IE),情感分析,语音识别(speechrecognition),问答系统(question answering)以及主题分割等等。
示例性的,自然语言处理任务可以有以下几类。
序列标注:句子中每一个单词要求模型根据上下文给出一个分类类别。如中文分词、词性标注、命名实体识别、语义角色标注。
分类任务:整个句子输出一个分类值,如文本分类。
句子关系推断:给定两个句子,判断这两个句子是否具备某种名义关系。例如entilment、QA、语义改写、自然语言推断。
生成式任务:输出一段文本,生成另一段文本。如机器翻译、文本摘要、写诗造句、
下面示例性的列举一些自然语言处理案例。
分词(word segmentation或word breaker,WB):将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列,可以解决交叉歧义问题。例句:致毕业和尚未毕业的同学;分词1:致毕业、和尚、未毕业、的、同学;分词2:致毕业、和、尚未毕业、的、同学。
命名实体识别(named entity recognition,NER):识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等),可以从粒度整合未登录体词。例句:黄三的美丽生活日记;分词:黄三、美丽生活日记;实体:美丽生活日记->电影。
语义角色标注:从语义角度刻画句子的结构信息,目前,用于进行语义角色标注的系统,其输入通常是待标注的句子,输出是该句子的语义结构树。其中,语义结构树描述了句子中谓词的所有语义角色以及各个语义角色的类别。通常语义角色标注可以提取句子中的一些结构化信息,这对于机器理解、信息抽取、深度问答等应用非常重要。
(2)知识图谱:知识图谱旨在描述真实世界中存在的各种实体或本体及其关系,其构成一张巨大的语义网络图,节点表示实体或本体,边则由属性或关系构成。我们用关系去描述两个实体之间的关联,例如北京和中国之间的关系;对于实体的属性,我们就用“属性—值对”来刻画它的内在特性,比如说某个人物,他有影视演员、歌手、配音演员属性等。现在的知识图谱已被用来泛指各种大规模的知识库(knowledge base)。
实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成,此指实体,例如“黄三”、“李四”等。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
本体:具有同种特性的实体构成的集合,如演员、歌手、导演等。本体主要指集合、类别、对象类型、事物的种类等。
属性(值)(property):从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。例如“身高”、“年龄”、“体重”是“黄三”这一实体的几种不同的属性。属性值主要指对象指定属性的值,例如“黄三”指定的“身高”属性的值为“180cm”。
关系(relation):形式化为一个函数,它把kk个点映射到一个布尔值。在知识图谱上,关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。
基于上述定义,为了方便计算机的处理和理解,可以用更加形式化、简洁化的方式表示知识,即三元组(triple),基于三元组是知识图谱的一种通用表示方式。三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。例如,黄三是一个实体(人物),我和我的朋友是一个实体(电影),(黄三-主演-我和我的朋友)是一个(实体-关系-实体)的三元组样例,黄三是一个实体,身高是一种属性,180cm是属性值,(黄三-身高-180cm)构成一个(实体-属性-属性值)的三元组样例。属性和关系的区别在于,属性所在的三元组对应的两个实体多为一个实体和一个字符串,而关系所在的三元组所对应的两个实体多为两个实体,本申请实施例中,为方便理解和描述,对于属性所在的三元组中属性值也视为一个实体,属性视为两个实体之间的一种联系,换句话说,本申请实施例中基于三元组表示的知识用于指示两个实体之间的联系,其中两个实体之间的联系可以是两个实体之间的关系(例如(实体1-关系-实体2)),或者两个实体之间的联系可以是其中一个实体的一种属性,而另一个实体为该属性的属性值(例如(实体-属性-属性值))。本申请实施例中基于三元组表示的知识在也可以称为结构化知识。还应理解,三元组的表示形式不限于上述(实体1-关系-实体2)和(实体-属性-属性值)的形式,例如还可以表示为(实体1-实体2-关系)和(实体-属性值-属性)等。在一些实施例中,属性也可以视为一种广义的关系。
基于知识图谱的应用领域,时下通常将知识图谱分为通用知识图谱和垂直知识图谱(又称行业知识图谱)。
垂直领域知识图谱:即垂直知识图谱。垂直知识图谱面向特定领域,基于行业知识构建,强调知识的深度。
本公开实施例针对的是垂直领域的知识图谱,即垂直知识图谱。垂直知识图谱针对一个特定领域或一个特定领域下的子领域,例如中医药领域、海洋领域、娱乐领域或娱乐领域下的影视子领域等等。举例来说,中医药知识图谱可以包括疾病知识、症状知识、中草药知识、方剂知识等等。而基于中医药知识图谱可以实现与中医药相关的智能问答功能。海洋知识图谱可以包括鱼类知识、海洋经济知识和海岛知识等等。而基于海洋知识图谱可以实现与海洋相关的智能问答功能。娱乐领域可以包括影视知识、音乐知识、演员知识、歌手知识等等,而基于娱乐知识图谱可以实现与娱乐相关的智能问答功能。
终端设备200的语音助手对接的业务越来越多,语音助手对业务的支持说法越来越丰富。由于可能会存在一词多义的场景,当前语音助手有时很难区分出正确的语义,因此,提升语音助手对自然语言的语义理解能力刻不容缓。
为了解决上述问题,本申请提供了一例构建垂直领域知识图谱的方法,下面结合图5进行说明,图5是本申请实施例提供的一例知识图谱的构建方法流程示意图。
S310,确定本体语义规则库。
其中,本体语义规则库包括垂直领域的多个本体,以及该多个本体中本体与本体之间的关系,定义多个本体的每一本体为一种语义角色标注,多个本体中的本体与本体之间的关系为语义依存关系。
可以看出,本体语义规则库是一种数据库,由本体数据、本体和本体之间的关系数据构成。
上述多个本体可以属于垂直领域的多个子领域,例如多个本体都属于娱乐领域,其中有一部分本体属于影视领域,有一部分本体属于音乐领域。
定义上述本体与本体之间的关系为语义依存关系,即本体与本体之间的语义层的依存关系。
示例性地,本体与本体之间的语义依存关系包括动作关系或者属性连接关系等其他连接关系,动作关系指的是本体1做出某个动作可以得到本体2,属性连接关系指的是本体2是本体1的某个属性,则本体1和本体2之间的关系为属性连接关系。当然,语义依存关系还可以包括其他类型的关系,根据实际需要定义即可,本申请对此不作限定。例如,还可以结合语法词性等来定义本体与本体之间的语义依存关系。
下面结合表一举例说明本体与本体之间的语义依存关系。
表一
编号 | 本体1 | 本体2 | 语义依存关系名称 | 领域类型 |
1 | 演员 | 电影 | 演 | 影视 |
2 | 歌手 | 歌曲 | 唱 | 音乐 |
3 | 导演 | 电影 | 导 | 影视 |
4 | 电影 | 歌曲 | 主题曲 | 音乐 |
表一是本体依存关系库,如表一所示,“演员”和“电影”作为两个本体,在影视领域有“演”的关系(即动作关系);“歌手”和“歌曲”作为两个本体,两者之间在音乐领域存在“唱”的关系(即动作关系);“电影”和“歌曲”作为两个本体,在音乐领域存在“主题曲”的关系(即属性连接关系,其中歌曲(主题曲)是电影的一个属性)。
通过表一可得到本体间的依存关系图谱结构,如图6所示,图6是本申请提供的一例知识图谱结构示意图,其中,黑色顶点为本体,本体为某类语义角色标注,本体之间的语义依存关系用边表示,边的属性包含语义依存关系名称和领域类型。例如本体“演员”和本体“电影”的关系是“演”,本体“导演”和本体“电影”的关系是“导”。
S320,确定垂域词典,并确定本体和实体之间的对应关系。
具体地,爬取互联网垂直领域的结构化数据,抽取多个实体按照语义角色标注类型存入垂域词典,所述垂域词典用于表征所述多个本体和所述多个实体之间的对应关系,其中,多个实体是多个本体对应的实例。
垂域词典是一种数据库,包括各个实体,以及每个实体对应的属性信息,其中实体的属性信息包括语义角色标注(即对应的本体),每个实体对应一个语义角色标注或多个语义角色标注,即每个实体对应一个本体或多个本体。通过垂域词典,可获取实体和本体之间的对应关系。
示例性地,服务器10通过网络爬虫,采集影视领域的结构化数据,获取影视的演员、导演、影视类型、上映地区、语种、上映时间等实体信息,按照各个实体的语义角色标注类型来存入垂域词典。下面通过表二对垂域词典中的数据格式进行说明。
示例性地,实体的语义角色标注的内容(即本体的内容)可根据语音助手的通用分词和标注词典来确定。
表二
如表二所示,实体“黄X”对应的属性信息包括“singer,cast,direct,programHost”这些语义角色标注,即“黄X”对应的多个本体包括“singer,cast,direct,programHost”。实体“我和我的朋友”对应的属性信息包括“musicName,title,audioName,childAudioNames,eduKeys”这些语义角色标注,即“我和我的朋友”对应的多个本体包括“musicName,title,audioName,childAudioNames,eduKeys”。
本体和实体的对应关系可以是一个本体对应多个实体或者一个实体对应多个本体,如图7所示,图7是本申请根据实施例提供的又一例知识图谱示意图。如图7所示,实体“黄X”和实体“我和我的朋友”的关系是“演”,实体“黄X”和本体“演员”的关系是“是”,实体“黄X”对应的本体包括“演员”、“歌手”和“导演”,本体“导演”对应的实体包括“陈XX”和“黄X”。
S330,建立实体关系库。
具体地,根据结构化数据抽取实体与实体之间的关联关系并建立实体关系库。
需要说明的是,实体与实体之间的关联关系是根据客观的结构化数据抽取的,而本体与本体之间的语义依存关系是根据垂直领域的场景定义的,该语义依存关系可根据实体与实体之间的关联关系进行更新。
还是以影视领域为例,服务器10获取影视的演员、导演、影视类型、上映地区、语种、上映时间等实体信息后,抽取其中的关联关系存入实体关系库。如图7所示,实体“黄X”和实体“我和我的朋友”之间的关联关系为演。
S340,构建垂直领域知识图谱。
具体地,融合本体语义规则库、垂域词典和实体关系库构建垂直领域知识图谱。
下面结合图7对构建知识图谱进行举例说明:
首先本领域人员可根据先验知识定义娱乐领域的本体,包括影视领域的本体“电影名称”、“演员”和“导演”,以及音乐领域的本体“歌手”和“歌曲名称”,将定义后的本体输入服务器10中,服务器10将这些本体作为顶点(黑色顶点),并将各个本体之间的语义依存关系作为对应的本体节点之间的边,构建初始知识图谱(如图6所示)。然后根据垂域词典的上述影视领域的实体数据确定实体节点(白色顶点),根据实体关系库中上述影视领域的各个实体之间的关联关系数据确定实体节点之间的边,根据垂域词典中本体和实体之间的对应关系数据确定本体节点和实体节点之间的边,将上述实体节点、实体节点之间的边和实体节点与本体节点之间的边添加到初始知识图谱中,形成最终的知识图谱,例如图7所示。
本申请将本体的属性定义为垂直领域的语义角色标注,并定义本体与本体之间的语义依存关系,从垂直领域的结构化数据抽取实体以及实体与实体之间的关联关系,然后确定本体和实体之间的对应关系,最终形成的垂直领域知识图谱的实体与实体之间的关系不仅包括该关联关系,还能包括各自对应的本体之间的语义依存关系这种间接关系,以便于后续根据该垂直领域知识图谱中实体与实体之间的关系进行语义消歧。
为了解决语义歧义的问题,本申请依据上述垂直领域知识图谱,进一步提出了一种自然语言语义理解方法,图8是本申请提供的一例基于垂直领域知识图谱的自然语言语义理解方法示意性流程图,下面结合图8对该方法进行说明,其中,以执行该方法的主体为服务器10为例。
S410,对输入文本进行分词处理以获取至少一个候选分词结果。
示例性地,该输入文本是终端设备200将接收到的语音识别后的文本,终端设备200将该输入文本发送给服务器10。
示例性地,该分词处理是服务器10调用分词器对输入文本进行全切分分词处理。
下面结合表三对候选分词结果举例说明。
表三
利用全切分分词方法获取的候选分词结果表三所示,例如,“陈XX主演的电视连续剧”去除停用词后的候选分词结果包括候选分词结果1和候选分词结果2。
S420,基于知识图谱确定每一个候选分词结果对应的关系集合。
其中,该每一个候选分词结果属于上述的至少一个候选分词结果。该关系集合中每一元素表征该关系集合对应的候选分词结果的一个分词实体对对应的关系,该关系的类型与该分词实体对和该分词实体对对应的两个本体相关。
需要说明的是,候选分词结果的一个分词实体对指的是该候选分词结果中的两个分词在垂直领域知识图谱中对应两个实体节点。例如表三所示,“我想听花XX唱的歌”中的候选分词结果2中包括分词“花XX”和分词“歌”,而垂直领域知识图谱包括名称为“花XX”的实体节点和名称为“歌”的实体节点。
应理解,关系集合中的每一元素表征一个分词实体对对应的关系,该每一元素包括该分词实体对以及分词实体对对应的关系。例如,以“陈XX主演的电视连续剧”的候选分词结果2为例,其对应的关系集合中有关实体对和实体对之间关系的内容如以下表四所示,其对应的关系集合中有关本体对和本体对之间关系的内容如以下表五所示。
表四
分词实体1 | 分词实体2 | 关系名称 |
陈XX | 电视连续剧 | 演 |
表五
本体1(分词实体1对应的本体) | 本体2(分词实体2对应的本体) | 关系名称 |
演员(陈XX) | 电视剧(电视连续剧) | 演 |
如表四所示,分词实体对“陈XX””电视连续剧”及其之间的关系“演”为关系集合中的一个元素。又如表五所示,分词实体对“陈XX””电视连续剧”对应的两个本体分别为“演员”和“电视剧”,本体对“演员”和“电视剧”及其之间的关系“演”为关系集合中的一个元素。
从表四中可以看出,关系集合中元素的数量利用其对应的候选分词结果中分词实体的排列组合计算方法可以确定。需要注意的是,“演”的词性是动词,在知识图谱中以边的形式存在,所以“演”不是分词实体,因此表四中的分词实体对只有一种组合。
在一个示例中,该关系的类型为下层关系、上层关系或不存在关系。
其中,该下层关系表示该分词实体对在该知识图谱中对应的两个实体节点之间的关联关系,由于知识图谱中实体节点与实体节点之间的关联关系是从结构化数据抽取的,与分词实体与分词实体之间的关联关系相同,因此也可以说,该下层关系表示该分词实体之间的关联关系。
该上层关系表示该知识图谱中的两个本体节点之间的语义依存关系,该两个本体分别为该分词实体对的两个分词实体对应的语义角色标注。可以看出,上层关系是分词实体对之间的间接的关系,而下层关系是分词实体对之间的直接的关系。
该不存在关系表示该分词实体对在该知识图谱中对应的两个实体节点之间不存在关联关系,或者该分词实体对中的其中一个或两个分词实体在该知识图谱中没有对应的实体节点,自然也就不存在关系。
本申请同时考虑了分词实体对之间直接的关系、间接的关系以及不存在关系这三种关系类型,以便于后续能够根据该关系的类型获取精确的候选分词结果。
S430,确定目标分词结果。
在一个示例中,服务器10根据该至少一个候选分词结果中每一候选分词结果对应的关系集合,从该候选分词结果中确定目标分词结果。
具体地,服务器10在加载通用垂域词典和垂直领域知识图谱后,根据每一候选分词结果中的分词查询垂直领域知识图谱中对应的分词实体(也可以说是分词实体节点),进一步获取两个分词实体之间的下层关系或上层关系,或者当该两个分词实体之间同时具有上层关系和下层关系时,则获取两个分词实体之间的下层关系和上层关系。最后将该候选分词结果中的所有分词实体对之间的关系组成上述关系集合并与该候选分词结果对应。
在一个示例中,若输入文本只包括一个字,则服务器10将该输入文本作为目标分词结果。
本申请根据所有候选分词结果中各个候选分词结果对应的关系集合确认目标候选分词结果,由于该关系集合中分词实体对之间关系的类型与分词实体对和分词实体对对应的两个本体相关,使得该关系集合中的分词实体对的关系的信息更加丰富,从而根据该关系集合能够确认最优的目标候选分词结果,消除了具有歧义的候选分词结果。进一步地,分词实体对之间关系的类型分为下层关系、上层关系和不存在关系,分词实体对之间具有下层关系意味着该分词实体对在知识图谱中通过边连接,具有直接关系;分词实体对之间具有上层关系意味着该分词实体对对应的两个实体在知识图谱中通过边连接,分词实体对之间具有间接关系;分词实体对之间不存在关系则意味着在知识图谱中两个分词之间没有关联,或者其中的一个分词或者两个分词没有意义,在知识图谱中没有对应的实体节点。通过将分词实体队之间关系的类型进行合适的分类以便于后续能够更加精确的确定最优的目标候选分词结果。
进一步示例性地,步骤S430包括以下子步骤:
S431,确定每一候选分词结果对应的关系集合的得分。
具体地,服务器10根据第一参数确定该每一候选分词结果对应的关系集合的得分,该第一参数包括该关系集合中每一关系对应的第一权重,以及该元素对应的分词实体对的长度占该输入文本长度的第一比重,其中,该第一权重的值与该关系的类型相关。
示例性地,关系的类型为下层关系,第一权重为1.2;关系的类型为上层关系,第一权重为0.8;关系的类型为不存在关系,第一权重为0.5。
需要说明的是,第一权重的数值根据实际需要设置即可,本申请对此不作限定。
进一步示例性地,在根据第一参数确定该每一候选分词结果对应的关系集合的得分之前,若关系集合中一个分词实体对之间的关系包括上层关系和下层关系,则删除关系集合中该分词实体对之间关系为上层关系对应的元素。
例如,“黄X”和“我和我的朋友”之间同时存在下层关系“演”和上层关系“演”,则保留下层关系“演”,删除上层关系“演”。
S432,确定目标分词结果。
具体地,服务器10根据每一候选分词结果对应的关系集合的得分从至少一个候选分词结果中确定目标分词结果。
下面结合公式(1)对S431和S432中的确定输入文本的目标分词结果进行举例说明。
其中,M表示一个候选分词结果对应的关系集合中元素的数量(即关系的数量),1≤m≤M,第一比重qm表示该关系集合中第m个元素中所有分词长度占输入文本长度的比例,该关系集合中第m个元素中的关系为上层关系时第一权重Pm为0.8,该关系集合中第m个元素中的关系为下层关系时第一权重Pm为1.2,该关系集合中第m个元素中的关系为不存在关系时第一权重Pm为0.5,N表示该输入文本的候选分词结果的数量。Score为N个候选分词结果对应的关系集合的得分的数值中最大的得分,即Score对应的候选分词结果是目标分词结果。
下面结合公式(1)以表三中输入文本“陈XX主演的电视连续剧”为例进行服务器10确定目标分词结果的说明:
(1):服务器10确定输入文本的候选分词结果
确定输入文本“陈XX主演的电视连续剧”的候选分词结果包括:候选分词结果1“陈X,X主,演,的,电视连续剧”和候选分词结果2“陈XX,主演,的,电视连续剧”。
(2)服务器10确定各个候选分词结果的关系集合
去掉停用词后,候选分词结果1的关系集合如下表六和表七所示:
表六
分词实体1 | 分词实体2 | 关系名称 |
陈X(知识图谱中无该实体) | X主(知识图谱中无该实体) | 不存在关系 |
陈X(知识图谱中无该实体) | 电视连续剧 | 不存在关系 |
X主(知识图谱中无该实体) | 电视连续剧 | 不存在关系 |
表七
本体1(分词实体1) | 本体2(分词实体2) | 关系名称 |
知识图谱中无陈X的本体 | 知识图谱中无X主的本体 | 不存在关系 |
知识图谱中无陈X的本体 | 电视剧(电视连续剧) | 不存在关系 |
知识图谱中无X主的本体 | 电视剧(电视连续剧) | 不存在关系 |
由表六和表七可以看出,“陈X”和“X主”在知识图谱中没有对应的实体节点,因此,其所在的分词实体对之间都不存在关系。同理,“陈X”和“X主”在知识图谱中没有对应的本体节点,因此,“陈X”和“X主”所在的分词实体对之间的上层关系也都是不存在关系。
可选地,分词实体对“陈X”和“X主”之间的上层关系为“不存在关系”,下层关系也是“不存在关系”,因此删除关系集合中该上层关系,同理“陈X”和“电视连续剧”之间的关系也删除上层关系,“X主”和“电视连续剧”之间的关系也删除上层关系。
候选分词结果2的关系集合如表四和表五所示。
可选地,“陈XX”和“电视连续剧”之间的关系包括上层关系“演”和下层关系“演”,则关系集合中保留下层关系“演”。
(3)服务器10确定各个候选分词结果的关系集合的得分。
(4)服务器10确定目标分词结果
候选分词结果2的得分高于候选分词结果1的得分,因此候选分词结果2为目标分词结果。
候选分词结果1中的分词如“陈X””X主”在垂直领域知识图谱中并无对应的实体节点,也可理解为这样的分词是无意义的,而关系集合的得分自然也低。相反,候选分词结果2中的分词如“陈XX”和“电视连续剧”在垂直领域知识图谱中存在对应的实体节点,而其中也由“演”这个边连接起来,该实体对之间存在直接关系,关系集合的得分自然也就高,可以看出,上述方法得到的目标分词结果最优。
本申请的服务器10通过计算每一候选分词结果对应关系集合的得分,该得分与分词实体对之间关系的类型和分词实体对的长度占输入文本长度的比例相关,能够使得每一候选分词结果的关系得分更加精确,从而得到精确的最优目标分词结果。进一步地,当分词实体对之间既具有上层关系又具有下层关系,则只保留两者之间的下层关系,那么,在计算关系集合的得分时只需将分词实体对之间的下层关系参与到计算中,通过优先考虑分词实体对之间的下层关系,能够进一步保证关系结合的得分的准确,进一步提升了分词消歧的效果,提高了分词准确度,从而提升用户的满意度。
分词的语义角色标注有多个时,会加大对输入文本的理解难,例如“黄X”的语义角色标注有“歌手”和“演员”,“我和我的朋友”的语义角色标注有“电影名称”和“歌曲名称”,那么对于输入文本“黄X的我和我的朋友”,有两种理解方式“黄X”唱“我和我的朋友”或者“黄X”演“我和我的朋友”,其中“黄X”演“我和我的朋友”是正确的理解方式,那么如何能够获取该输入文本的分词的正确的语义角色标注,达到分词的多语义角色标注的消歧效果值得研究。
通过上述实施例得到目标分词结果后,为了解决上述问题,本申请还提供了一种基于直领域知识图谱的自然语言语义理解方法以解决分词的语义角色标注的消歧问题。图9是本申请提供的又一例基于垂直领域知识图谱的自然语言语义理解方法示意性流程图,下面结合图9对该方法进行说明,其中,以执行该方法的主体为服务器10为例。
S510,获取每个分词候选的语义角色标注。
具体地,服务器10在获取目标分词结果后,通过查询垂域词典,将目标分词结果的每个分词的全部语义角色标注以列表形式输出,如以下表八所示。
表八
如表八所示,输入文本中的一个分词可能会对应多种语义角色标注,例如“黄X”的语义角色标注有多种,包括singer、cast、direct和programHost,“我和我的朋友”的语义角色标注有多种,包括musicName、title、audioName、childAudioNames和eduKeys。
S520,基于垂直领域的知识图谱确定候选的节点路径。
服务器10根据目标分词结果中的所有分词和目标分词结果中每个分词候选的语义角色标注,基于知识图谱确定候选的节点路径。
示例性地,服务器10调用知识图谱推理接口,并向该推理接口输入目标分词结果中的所有分词和每个分词候选的语义角色标注,知识图谱根据所有分词确定分词实体对应的实体节点,根据每个分词候选的语义角色标注确定对应的本体节点,最后根据实体节点和本体节点确定节点路径的边,整合上述的实体节点、本体节点和边从而输出候选的节点路径。
其中,候选的节点路径包括:
目标分词结果中所有分词实体在知识图谱中对应的所有实体节点、目标分词结果中的所有分词候选的语义角色标注在知识图谱中对应的所有本体节点、所有实体节点中的两个实体节点之间的边、所有本体节点中的两个本体节点之间的边,以及第一实体节点与第一本体节点之间的边构成,第一实体节点为所有实体节点中的一个,第一本体节点为所有本体节点中的一个。
下面结合图7对候选的节点路径进行说明,如图7所示,输入文本为“黄X的我和我的朋友”,分词实体节点包括“黄X”和“我和我的朋友”,“黄X”的语义角色标注“singer”对应的本体节点是“歌手”,“黄X”的语义角色标注“cast”对应的本体节点是“演员”,“黄X”的语义角色标注“direct”对应的本体节点是“导演”,“我和我的朋友”的语义角色标注“title”对应的本体节点是“电影名称”,“我和我的朋友”的语义角色标注“musicName”对应的本体节点是“歌曲名称”。上述实体节点之间的边、本体节点之间的边、上述实体节点和上述本体节点构成了“黄X的我和我的朋友”的节点路径。
S530,确定目标节点路径。
具体地,服务器10根据候选的节点路径确定目标节点路径。其中,目标节点路径包括了每个分词实体对应的实体节点、每个分词实体的其中一个语义角色标注对应的本体节点以及将这些实体节点和本体节点连接的边。
例如,一个目标节点路径包括:实体“黄X”和“我和我的朋友”,本体“演员”和“电影名称”,以及“黄X”和“我和我的朋友”之间边、“演员”和“电影名称”之间的边、“黄X”和“演员”之间的边、“我和我的朋友”和“电影名称”之间的边。
在一种可能的实施方式中,方法S530包括:
若候选的节点路径包括第一节点路径,第一节点路径为环形结构,则确定第一节点路径为目标节点路径。
其中,节点路径为环形结构指的是该节点路径中的所有节点和边成环状结构,即每个节点都和另外两个节点相连接,其中,所有节点包括输入文本的所有分词实体节点以及所有分词实体对应的本体节点。
图10是本申请实施例提供的一例候选的节点路径示意图,图11本申请实施例提供的一例环形结构的节点路径示意图,下面结合图10和图11举例说明环形结构的节点路径。
首先服务器10根据表八中的输入文本“李XX的我和我的朋友”对应的语义角色标注结果,依据图7中的知识图谱确定候选的节点路径如图10中的整体节点路径所示,然后根据图10中候选的节点路径确定其中成环的节点路径如图11所示,可以看出,“李XX”、“歌手”、“我和我的朋友”和“歌曲名称”这几个节点构成的节点路径成环,即每个节点都与另外两个节点相连,该条路径为目标节点路径。
示例性地,若候选的节点路径包括多条环形结构的节点路径,则确定第二节点路径为目标节点路径,其中,第二节点路径的任意两个本体之间的语义依存关系与该两个本体对应的两个分词实体之间的关联关系相同。
图12是本申请实施例提供的一例候选的节点路径示意图,图13是本申请实施例提供的又一例环形结构的节点路径示意图,图14是本申请实施例提供的另一例环形结构的节点路径示意图,下面结合图12、图13和图14举例说明如何确定第二节点路径。
首先服务器10根据表八中的输入文本“黄X的我和我的朋友”对应的语义角色标注结果,依据图7中的知识图谱确定候选的节点路径如图12所示,然后根据图12中候选的节点路径确定其中成环的节点路径,如图13和图14所示。其中,图13中的“黄X”、“演员”、“我和我的朋友”和“电影名称”这几个节点构成的节点路径成环,图14中的“黄X”、“歌手”、“歌曲名称”和“我和我的朋友”这几个节点构成的节点路径成环。但是,“黄X”与“我和我的朋友”之间的关联关系是“演”,在图13中“演员”和“电影名称”之间的语义依存关系是“演”,和“黄X”与“我和我的朋友”之间的关联关系相同,在图14中“歌手”和“歌曲名称”之间的语义依存关系是“唱”,和“黄X”与“我和我的朋友”之间的关联关系不同,因此,图13中成环的节点路径是目标节点路径。虽然图14中的节点路径也成环,但是存在两个本体之间的语义依存关系与该两个本体对应的两个分词实体之间的关联关系不同的情况,因此图14中的节点路径不是目标节点路径。
采用上述方式,本申请通过确定候选节点路径中成环的节点路径,能够简单、快速、准确的找到目标节点路径。从而能够减少分词结果的语义标注结果,解决一词多义的语义消歧问题。
在一种可能的实施方式中,方法S530还包括:
若候选的节点路径不包括环形结构的节点路径,则确定候选的节点路径中每条节点路径的边的数量,然后将候选的节点路径中边的数量符合第一预设条件的节点路径确定为目标节点路径。
示例性地,第一预设条件为节点路径中边的数量最少。
采用上述方式,当候选的节点路径没有成环的节点路径时,在候选的节点路径中寻找边的数量符合第一预设条件的节点路径。进一步地,将边的数量最少的节点路径确定为目标节点路径,能够排除具有冗余本体信息的节点路径,使得目标节点路径更加准确。
进一步地,在一种可能的实施方式中,方法S530还包括:
若候选的节点路径中包括多条节点路径,多条节点路径中每条节点路径的边的数量符合第一预设条件,则确定多条节点路径中符合第二预设条件的节点路径为目标节点路径,其中,第二预设条件为节点路径中任意两个本体之间的语义依存关系与该两个本体对应的两个分词之间的关联关系相同。
示例性地,第二预设条件为节点路径中任意两个本体之间的语义依存关系与该两个本体对应的两个主谓分词之间的动词关系相同。
进一步地,若多条节点路径中每条节点路径的边的数量符合第一预设条件,且多条节点路径中不包括符合第二预设条件的节点路径,则确定多条节点路径为目标节点路径。
如以下表九所示,输入文本“韩X配音的电影”,知识图谱中的目标节点路径中分词实体“韩X”和“电影”之间的关联关系有“配音”,对应的本体“配音员”和“影视类型”之间的语义依存关系是“配音”,那么输入文本“韩X配音的电影”仅有一条目标节点路径。同理,输入文本“韩X演的电影”仅有一条目标节点路径。
然而,输入文本“韩X的电影”,知识图谱中符合第一预设条件的节点路径中分词实体“韩X”和“电影”之间的关联关系有“配音”和“演”,对应的本体“配音员”和“影视类型”之间的语义依存关系是“配音”、“演员”和“影视类型”之间的语义依存关系是“演”,不符合第二预设条件(即“韩X”和“电影”之间在输入文本中没有动词关系,而在知识图谱中的本体之间有语义依存关系,换句话说,分词实体之间的关联关系与对应的本体之间的关联关系不同),因此,“韩X的电影”有两条目标节点路径。
表九
采用上述方式,当候选的节点路径中包括多条节点路径,多条节点路径中每条节点路径的边的数量符合第一预设条件时,本申请通过进一步确定节点路径中任意两个本体之间的语义依存关系与该两个本体对应的两个分词之间的关联关系是否相同,来确定目标节点路径,能够进一步减少目标节点路径的数量,从而减少目标语义角色标注的数量,提升分词的语义消歧的效果。
S540,确定每个分词的目标语义角色标注。
具体地,服务器10根据上述目标节点路径确定目标分词结果中每个分词的目标语义角色标注。
示例性地,服务器10确定目标节点路径中的实体节点以及与该实体节点对应的本体节点,然后根据本体节点确定其对应的语义角色标注,最后确定每一分词实体对应的目标语义角色标注。可参考表九中的目标语义角色标注列表。
在一种可能的实施方式中,根据分词和语义角色标注结果进行语义定位和意图理解处理,执行后续语义处理。
在上述实施例中,本申请首先在目标分词结果中确定候选的语义角色标注,接着确定候选的节点路径,然后从候选的节点路径中确定目标节点路径,根据目标节点路径从而确定每个分词的目标语义角色标注,能够减少分词的语义角色标注数量,消除分词的语义分歧,从而有利于后续的语义定位和意图理解处理等语义处理,提高用户的满意度。进一步地,还提供了如何准确确定目标节点路径的实施例,具体效果参见上述说明,在此不再赘述。
依据上述实施例,本申请还提供了一种基于垂直领域知识图谱的自然语言语义理解装置,包括:
分词处理模块,用于对输入文本进行分词处理以获取至少一个候选分词结果;
关系集合确定模块,用于基于知识图谱确定至少一个候选分词结果中每一候选分词结果对应的关系集合,关系集合中每一元素为该关系集合对应的候选分词结果的一个分词实体对对应的关系,关系的类型与分词实体对和分词实体对对应的两个本体相关;
目标分词结果确定模块,用于根据至少一个候选分词结果中每一候选分词结果对应的关系集合,从候选分词结果中确定目标分词结果。
该装置的其他实施方式,参见上述自然语言语义理解方法的实施例,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于垂直领域知识图谱的自然语言语义理解方法,其特征在于,包括:
对输入文本进行分词处理以获取至少一个候选分词结果;
基于知识图谱确定所述至少一个候选分词结果中每一候选分词结果对应的关系集合,所述关系集合中每一元素表征该关系集合对应的候选分词结果的一个分词实体对对应的关系,所述关系的类型与所述分词实体对和所述分词实体对对应的两个本体相关;
根据所述至少一个候选分词结果中每一候选分词结果对应的关系集合,从所述候选分词结果中确定目标分词结果。
2.根据权利要求1所述的方法,其特征在于,所述关系的类型为下层关系、上层关系或不存在关系,所述下层关系表示所述分词实体对在所述知识图谱中对应的两个实体节点之间的关联关系,所述上层关系表示所述知识图谱中的两个本体节点之间的语义依存关系,所述两个本体分别为所述分词实体对的两个分词实体对应的语义角色标注,所述不存在关系表示所述分词实体对在所述知识图谱中对应的两个实体节点之间不存在关联关系,或者所述分词实体对中的其中一个或两个分词实体在所述知识图谱中没有对应的实体节点。
3.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个候选分词结果中每一候选分词结果对应的关系集合,从所述候选分词结果中确定目标分词结果,包括:
根据第一参数确定所述每一候选分词结果对应的关系集合的得分,所述第一参数包括所述关系集合中每一关系对应的第一权重,以及该元素对应的分词实体对的长度占所述输入文本长度的第一比重,其中,所述第一权重的值与所述关系的类型相关;
根据所述每一候选分词结果对应的关系集合的得分从所述至少一个候选分词结果中确定目标分词结果。
4.根据权利要求3所述的方法,其特征在于,在所述根据第一参数确定所述每一候选分词结果对应的关系集合的得分之前,所述方法还包括:
若所述关系集合中一个分词实体对之间的关系包括上层关系和下层关系,则删除所述关系集合中该分词实体对之间关系为上层关系对应的元素。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述目标分词结果中每个分词候选的语义角色标注;
根据所述目标分词结果中的所有分词和所述目标分词结果中每个分词候选的语义角色标注,基于所述知识图谱确定候选的节点路径,其中,所述候选的节点路径包括:
所述目标分词结果中所有分词实体在所述知识图谱中对应的所有实体节点、所述目标分词结果中的所有分词候选的语义角色标注在所述知识图谱中对应的所有本体节点、所述所有实体节点中的两个实体节点之间的边、所述所有本体节点中的两个本体节点之间的边,以及第一实体节点与第一本体节点之间的边构成,所述第一实体节点为所述所有实体节点中的一个,所述第一本体节点为所述所有本体节点中的一个;
根据所述候选的节点路径确定目标节点路径;
根据所述目标节点路径确定所述目标分词结果中每个分词的目标语义角色标注。
6.根据权利要求5所述的方法,其特征在于,所述根据所述候选的节点路径确定目标节点路径,包括:
若所述候选的节点路径包括第一节点路径,所述第一节点路径为环形结构,则确定所述第一节点路径为目标节点路径。
7.根据权利要求5所述的方法,其特征在于,所述根据所述候选的节点路径确定目标节点路径,包括:
若所述候选的节点路径不包括环形结构的节点路径,则确定所述候选的节点路径中每条节点路径的边的数量;
将所述候选的节点路径中边的数量符合第一预设条件的节点路径确定为目标节点路径。
8.根据权利要求7所述的方法,其特征在于,所述根据所述候选的节点路径中每条节点路径的边的数量确定目标节点路径,包括:
若所述候选的节点路径中包括多条节点路径,所述多条节点路径中每条节点路径的边的数量符合所述第一预设条件,则确定所述多条节点路径中符合第二预设条件的节点路径为目标节点路径,其中,所述第二预设条件为节点路径中任意两个本体之间的语义依存关系与该两个本体对应的两个分词实体之间的关联关系相同;
若所述多条节点路径中每条节点路径的边的数量符合所述第一预设条件,且所述多条节点路径中不包括符合所述第二预设条件的节点路径,则确定所述多条节点路径为目标节点路径。
9.一种垂直领域知识图谱构建方法,其特征在于,包括:
确定本体语义规则库,所述本体语义规则库包括垂直领域的多个本体,以及该多个本体中本体与本体之间的关系,所述多个本体的每一本体为一种语义角色标注,所述本体与本体之间的关系为语义依存关系;
爬取互联网垂直领域的结构化数据,抽取多个实体存入垂域词典,所述垂域词典用于表征所述多个本体和所述多个实体之间的对应关系,其中,所述多个实体是所述多个本体对应的实例;
根据所述结构化数据抽取实体与实体之间的关联关系并建立实体关系库;
根据所述本体语义规则库、所述垂域词典和所述实体关系库构建垂直领域知识图谱。
10.一种基于垂直领域知识图谱的自然语言语义理解装置,其特征在于,包括:
分词处理模块,用于对输入文本进行分词处理以获取至少一个候选分词结果;
关系集合确定模块,用于基于知识图谱确定所述至少一个候选分词结果中每一候选分词结果对应的关系集合,所述关系集合中每一元素为该关系集合对应的候选分词结果的一个分词实体对对应的关系,所述关系的类型与所述分词实体对和所述分词实体对对应的两个本体相关;
目标分词结果确定模块,用于根据所述至少一个候选分词结果中每一候选分词结果对应的关系集合,从所述候选分词结果中确定目标分词结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638362.8A CN115033661A (zh) | 2022-06-07 | 2022-06-07 | 一种基于垂直领域知识图谱的自然语言语义理解方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638362.8A CN115033661A (zh) | 2022-06-07 | 2022-06-07 | 一种基于垂直领域知识图谱的自然语言语义理解方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115033661A true CN115033661A (zh) | 2022-09-09 |
Family
ID=83123942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210638362.8A Pending CN115033661A (zh) | 2022-06-07 | 2022-06-07 | 一种基于垂直领域知识图谱的自然语言语义理解方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115033661A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628004A (zh) * | 2023-05-19 | 2023-08-22 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备及存储介质 |
CN116737520A (zh) * | 2023-06-12 | 2023-09-12 | 北京优特捷信息技术有限公司 | 一种日志数据的数据编织方法、装置、设备及存储介质 |
-
2022
- 2022-06-07 CN CN202210638362.8A patent/CN115033661A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116628004A (zh) * | 2023-05-19 | 2023-08-22 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备及存储介质 |
CN116628004B (zh) * | 2023-05-19 | 2023-12-08 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备及存储介质 |
CN116737520A (zh) * | 2023-06-12 | 2023-09-12 | 北京优特捷信息技术有限公司 | 一种日志数据的数据编织方法、装置、设备及存储介质 |
CN116737520B (zh) * | 2023-06-12 | 2024-05-03 | 北京优特捷信息技术有限公司 | 一种日志数据的数据编织方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878009B2 (en) | Translating natural language utterances to keyword search queries | |
CN107735804B (zh) | 用于不同标记集合的转移学习技术的系统和方法 | |
US10915577B2 (en) | Constructing enterprise-specific knowledge graphs | |
CN109165302B (zh) | 多媒体文件推荐方法及装置 | |
CN104915340B (zh) | 自然语言问答方法及装置 | |
US20180260445A1 (en) | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system | |
Rubio-Drosdov et al. | Seamless human-device interaction in the internet of things | |
CN111695345B (zh) | 文本中实体识别方法、以及装置 | |
WO2023065211A1 (zh) | 一种信息获取方法以及装置 | |
US11488599B2 (en) | Session message processing with generating responses based on node relationships within knowledge graphs | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
CN115033661A (zh) | 一种基于垂直领域知识图谱的自然语言语义理解方法和装置 | |
CN111258995B (zh) | 数据处理方法、装置、存储介质及设备 | |
CN111694965A (zh) | 一种基于多模态知识图谱的图像场景检索系统及方法 | |
CN112818092B (zh) | 知识图谱查询语句生成方法、装置、设备及存储介质 | |
CN107527619A (zh) | 语音控制业务的定位方法及装置 | |
CN113569037A (zh) | 一种消息处理方法、装置以及可读存储介质 | |
CN111949800A (zh) | 一种开源项目知识图谱的建立方法和系统 | |
CN115114395A (zh) | 内容检索及模型训练方法、装置、电子设备和存储介质 | |
CN114969282B (zh) | 基于富媒体知识图谱多模态情感分析模型的智能交互方法 | |
CN114911915A (zh) | 一种基于知识图谱的问答搜索方法、系统、设备和介质 | |
CN117932022A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
CN113836932A (zh) | 交互方法、装置和系统,以及智能设备 | |
Blersch et al. | Easier: An Approach to Automatically Generate Active Ontologies for Intelligent Assistants | |
Bouali et al. | A review of text-to-animation systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |