CN111858866A - 一种基于三元组的语义解析方法及装置 - Google Patents
一种基于三元组的语义解析方法及装置 Download PDFInfo
- Publication number
- CN111858866A CN111858866A CN201910364367.4A CN201910364367A CN111858866A CN 111858866 A CN111858866 A CN 111858866A CN 201910364367 A CN201910364367 A CN 201910364367A CN 111858866 A CN111858866 A CN 111858866A
- Authority
- CN
- China
- Prior art keywords
- entity
- voice
- analyzed
- triples
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 abstract description 3
- 241000282693 Cercopithecidae Species 0.000 description 14
- 241000234295 Musa Species 0.000 description 12
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 239000008267 milk Substances 0.000 description 4
- 210000004080 milk Anatomy 0.000 description 4
- 235000013336 milk Nutrition 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 235000021015 bananas Nutrition 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语义解析领域,公开了一种基于三元组的语义解析方法及装置,其方法包括:获取大量语料;根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;获取用户输入的待解析语音;根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。本发明先根据大量语料的语法依存树,自动生成实体三元组库,然后根据实体三元组库中的实体三元组提取用户输入的待解析语音中的实体及实体关系,根据实体及实体关系即可准确地获取待解析语音的语义,进而提高语义解析的准确率。
Description
技术领域
本发明属于语义解析技术领域,特别涉及一种基于三元组的语义解析方法及装置。
背景技术
随着智能终端及网络技术的迅速发展,各种智能产品在人们的生活中发挥着越来越重要的作用,人们也越来越习惯地使用智能终端完成各种需求。而随着人工智能相关技术的日益成熟,各类终端的智能化程度也越来越高。自然语言作为人类表达自己思想最方便、最自然的方式,已经逐渐成为智能服务领域最主流的人机交互方式。
在人机交互场景中,语义解析是必不可少的一个环节,其主要通过分析用户输入的语音,解析用户的语义,并转换成机器能够理解的结构化数据格式,然后做出相应的反馈,因此,在人机交互场景中,准确解析用户的语义是做出正确应答的基础。
发明内容
本发明的目的是提供一种基于三元组的语义解析方法及装置,根据生成的实体三元组获取待解析语音中的主体关系,以对待解析语音进行语义解析。
本发明提供的技术方案如下:
一方面,提供一种基于三元组的语义解析方法,包括:
获取大量语料;
根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
获取用户输入的待解析语音;
根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
进一步优选地,所述根据大量所述语料各自的依存树,生成实体三元组库具体包括:
将所述语料生成依存树;
提取所述语料中的名词实体;
在所述依存树中,查找到表示所述名词实体的有效节点;
获取同时与两个以上的所述有效节点连接的中间节点;
根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
根据所述实体三元组生成实体三元组库。
进一步优选地,所述根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组之后还包括:
对实体三元组进行分类;
将两个以上相同的实体三元组进行合并,生成一个实体三元组。
进一步优选地,所述根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体具体包括:
对所述待解析语音进行分词标注,提取出所述待解析语音中的关键词;
将所述关键词与所述实体三元组库中的实体三元组进行匹配,确定所述待解析语音中的实体关系;
根据所述实体关系,在所述待解析语音中提取所述实体关系对应的实体。
进一步优选地,还包括:
根据所述实体以及所述实体之间的实体关系,生成所述待解析语音对应的查询知识图谱;
根据所述查询知识图谱,识别所述待解析语音对应的查询意图。
另一方面,还提供一种基于三元组的语义解析装置,包括:
语料获取模块,用于获取大量语料;
三元组库生成模块,用于根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
语音获取模块,用于获取用户输入的待解析语音;
提取模块,用于根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
语义解析模块,用于根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
进一步优选地,所述三元组库生成模块包括:
依存树生成单元,用于将所述语料生成依存树;
名词实体提取单元,用于提取所述语料中的名词实体;
节点查找单元,用于在所述依存树中,查找到表示所述名词实体的有效节点;
所述节点查找单元,还用于获取同时与两个以上的所述有效节点连接的中间节点;
三元组生成单元,用于根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
三元组库生成单元,用于根据所述实体三元组生成实体三元组库。
进一步优选地,所述三元组库生成模块还包括:
分类单元,用于对实体三元组进行分类;
合并单元,用于将两个以上相同的实体三元组进行合并,生成一个实体三元组。
进一步优选地,所述提取模块包括:
关键词提取单元,用于对所述待解析语音进行分词标注,提取出所述待解析语音中的关键词;
匹配单元,用于将所述关键词与所述实体三元组库中的实体三元组进行匹配,确定所述待解析语音中的实体关系;
实体提取单元,用于根据所述实体关系,在所述待解析语音中提取所述实体关系对应的实体。
进一步优选地,还包括:
图谱生成模块,用于根据所述实体以及所述实体之间的实体关系,生成所述待解析语音对应的查询知识图谱;
意图识别模块,用于根据所述查询知识图谱,识别所述待解析语音对应的查询意图。
与现有技术相比,本发明提供的一种基于三元组的语义解析方法及装置的有益效果为:先根据大量语料的语法依存树,自动生成实体三元组库,然后根据实体三元组库中的实体三元组提取用户输入的待解析语音中的实体及实体关系,根据实体及实体关系即可准确地获取待解析语音的语义,进而提高语义解析的准确率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于三元组的语义解析方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种基于三元组的语义解析方法的第一实施例的流程示意图;
图2是本发明一种基于三元组的语义解析方法的第一实施例的依存树示意图;
图3是本发明一种基于三元组的语义解析方法的第二实施例的流程示意图;
图4是本发明一种基于三元组的语义解析方法的第二实施例的依存树示意图;
图5是本发明一种基于三元组的语义解析方法的第三实施例的流程示意图;
图6是本发明一种基于三元组的语义解析方法的第四实施例的流程示意图;
图7是本发明一种基于三元组的语义解析方法的第五实施例的流程示意图;
图8是本发明一种基于三元组的语义解析装置的结构示意框图。
附图标号说明
100、语料获取模块; 200、三元组库生成模块;
210、依存树生成单元; 220、名词实体提取单元;
230、节点查找单元; 240、三元组生成单元;
250、三元组库生成单元; 260、分类单元;
270、合并单元; 300、语音获取模块;
400、提取模块; 410、关键词提取单元;
420、匹配单元; 430、实体提取单元;
500、语义解析模块; 600、图谱生成模块;
700、意图识别模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种基于三元组的语义解析方法,包括:
S100获取大量语料;
具体地,获取大量语料的目的是为了构建实体三元组库,因此,获取的语料越丰富越好。
语料的获取方式有多种,例如:在用户使用智能终端的过程中,收集到的语料;或者通过爬虫等技术去爬取大量的语料。当然,也可以是其他收集语料的方式,所有方式可以结合使用,以使语料更丰富,涵盖范围更广。
S200根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
具体地,依存树可用于表示语料中各个词汇之间的语法依存关系。依存树包括节点和连接边,节点可以用于表示语料中的词汇,连接边可以用于表示相连节点的词汇之间的语法关系。
例如:语料为“小猫喝牛奶”,对语料进行分词及词性标注,得到“1小猫/n 2喝/v 3牛奶/n”,生成的依存树如图2所示。其中,nsubj表示名词性主语关系;dobj表示直接宾语关系。
实体三元组可以理解为(实体1,实体关系,实体2),其中的实体关系是指实体1与实体2之间的实体关系。
根据每个语料的依存树,即可获取语料中各个实体之间的关系,然后根据语料中各个实体之间的关系生成每个语料对应的实体三元组。每个语料生成的实体三元组可以为一个或多个。
S300获取用户输入的待解析语音;
具体地,获取用户在用户端输入的待解析语音。例如:待解析语音可为“小明主演的电影是什么?”、“打开视频软件”、“讲解一元一次方程”、“猴子吃香蕉”等。
S400根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
具体地,在生成实体三元组库后,将待解析语音与实体三元组库中的实体三元组进行匹配,以确定待解析语音中的实体关系,然后根据确定到的实体关系,提取出该实体关系对应的实体。
S500根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
具体地,最后根据提取出的实体以及实体之间的实体关系,对待解析语音进行语义解析。
例如:待解析语音为“小明主演过小红导演的电影吗”,假设实体三元组库中包含两个实体三元组,第一个实体三元组为(X,主演,电影),第二个实体三元组为(a,导演,电影)。将待解析语音与实体三元组库中的实体三元组匹配时,可匹配到第一实体三元组和第二实体三元组,根据第一实体三元组和第二实体三元组,可确定待解析语音中的实体关系为“主演”和“导演”;然后提取出与实体关系“主演”相关联的实体“小明”和“电影”,以及与实体关系“导演”相关联的实体“小红”和“电影”。根据提取出的实体以及实体之间的关系,即可解析到待解析语音的语义为:“小明主演的电影,电影是小红导演的”。
本实施例中,先根据大量语料的语法依存树,自动生成实体三元组库,然后根据实体三元组库中的实体三元组提取用户输入的待解析语音中的实体及实体关系,根据实体及实体关系即可准确地获取待解析语音的语义,进而提高语义解析的准确率。
根据本发明提供的第二实施例,如图3所示,一种基于三元组的语义解析方法,包括:
S100获取大量语料;
S210将所述语料生成依存树;
具体地,在获取大量语料后,将语料进行简单的短语分词,比如:猴子喜欢吃香蕉,分词为:猴子/喜欢/吃/香蕉。然后由分词转向词性标注,猴子/n喜欢/v/吃/v/香港/n。再由词性标注生成短语句法树,最后由短语句法树转成依存树(依存关系可以用树形图表示,表示依存关系的树形图称为依存树)。通过上述步骤将所有语料都转换成依存树。
再例如,语料“小明主演过小红导演的电影吗”分词为:小明/主演/过/小红/导演/的/电影;然后进行词性标注,生成的依存树如图4所示。
S220提取所述语料中的名词实体;
具体地,在语料中提取出名词实体,如语料“猴子喜欢吃香蕉”中的“猴子”和“香蕉”。语料“小明主演过小红导演的电影吗”中的“小明”、“小红”和“电影”。
S230在所述依存树中,查找到表示所述名词实体的有效节点;
具体地,在生成的依存树中,查找到代表名词实体的节点,如表示“猴子”的节点,表示“香蕉”的节点,表示“小明”的节点,表示“小红”的节点,表示“电影”的节点。
S240获取同时与两个以上的所述有效节点连接的中间节点;
具体地,在依存树中找到表示名词实体的有效节点后,获取同时与两个以上的有效节点连接的中间节点。
例如,在依存树中同时与节点“小明”和节点“电影”连接的中间节点“主演”,以及同时与节点“小红”和节点“电影”连接的中间节点“导演”。
S250根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
具体地,查找到中间节点以及同时与中间节点连接的两个或多个有效节点后,根据中间节点和有效节点生成实体三元组。
例如,根据中间节点“主演”以及同时与“主演”连接的两个有效节点“小明”和“电影”生成的实体三元组为(小明,主演,电影)。
再例如,根据中间节点“导演”以及同时与“导演”连接的两个有效节点“小红”和“电影”生成的实体三元组为(小红,导演,电影)。
S260根据所述实体三元组生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
具体地,根据每条语料生成实体三元组后,将生成的实体三元组放置在实体三元组库中。每条语料可生成一个或多个实体三元组,当然,也存在无法生成实体三元组的语料。
S300获取用户输入的待解析语音;
S400根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
S500根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
本实施例中,通过大量语料生成大量的实体三元组,以丰富实体三元组库,使得在通过实体三元组进行语义解析时,提高语义解析的成功率。
根据本发明提供的第三实施例,如图5所示,一种基于三元组的语义解析方法,包括:
S100获取大量语料;
S210将所述语料生成依存树;
S220提取所述语料中的名词实体;
S230在所述依存树中,查找到表示所述名词实体的有效节点;
S240获取同时与两个以上的所述有效节点连接的中间节点;
S250根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
S260根据所述实体三元组生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
S270对实体三元组进行分类;
具体地,在根据语料生成实体三元组后,对生成的实体三元组进行分类,分类时可以按照领域进行分类,例如,影视、旅游、游戏、财经等等。对实体三元组进行分类,可提高实体三元组的查找效率。
S280将两个以上相同的实体三元组进行合并,生成一个实体三元组;
具体地,对实体三元组进行分类后,将语义相同的实体三元组进行合并,生成一个实体三元组,以减少实体三元组的数量。
例如,实体三元组1(实体1,实体关系1,实体2)与实体三元组2(实体3,实体关系2,实体4),若实体关系1与实体关系2的语义相同,则将实体三元组1和实体三元组2合并为一个实体三元组(X,实体关系1/实体关系2,Y),其中,X和Y可为代表某一类的词语,如代表人名的词语,代表地名的词语等。
S300获取用户输入的待解析语音;
S400根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
S500根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
根据本发明提供的第四实施例,如图6所示,一种基于三元组的语义解析方法,包括:
S100获取大量语料;
S200根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
S300获取用户输入的待解析语音;
S410对所述待解析语音进行分词标注,提取出所述待解析语音中的关键词;
具体地,在获取待解析语音后,采用现有的分词标注方法对待解析语音进行分词标注,然后提取出待解析语音中的关键词。待解析语音中的关键词为剔除“的”、“地”、“了”等无语义词后的词语。
S420将所述关键词与所述实体三元组库中的实体三元组进行匹配,确定所述待解析语音中的实体关系;
具体地,将在待解析语音中提取出的关键词与实体三元组中表示实体关系的词语进行匹配,根据匹配到的实体三元组,确定待解析语音中的实体关系,即确定表示实体关系的关键词。表示实体关系的关键词可以为一个或多个,如“主演”和“导演”。
S430根据所述实体关系,在所述待解析语音中提取所述实体关系对应的实体;
具体地,确定待解析语音中的实体关系后,再根据实体关系在待解析语音中提取出实体关系对应的实体,如提取出与“主演”相关的实体,以及提取出与“导演”相关的实体。
S500根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
本实施例,先从待解析语音中提取出关键词,再根据关键词匹配实体三元组,可提高匹配效率,进而提高语义解析的效率。
根据本发明提供的第五实施例,如图7所示,一种基于三元组的语义解析方法,包括:
S100获取大量语料;
S200根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
S300获取用户输入的待解析语音;
S400根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
S500根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析;
S600根据所述实体以及所述实体之间的实体关系,生成所述待解析语音对应的查询知识图谱;
具体地,在得到待解析语音中的实体以及实体之间的实体关系后,可根据实体以及实体关系构建待解析语音对应的实体三元组,然后根据构建的实体三元组构建待解析语音对应的查询知识图谱,即根据多个实体之间具有的实体关系,构建对应的查询知识图谱。查询知识图谱包括代表实体的节点以及节点之间的连接边,节点之间的连接边表示实体之间的实体关系。
S700根据所述查询知识图谱,识别所述待解析语音对应的查询意图。
具体地,构建待解析语音对应的查询知识图谱后,可以利用构建的查询知识图谱确定用户的查询意图,为用户查询信息提供便利。
根据本发明提供的第六实施例,如图8所示,一种基于三元组的语义解析装置,包括:
语料获取模块100,用于获取大量语料;
具体地,获取大量语料的目的是为了构建实体三元组库,因此,获取的语料越丰富越好。
语料的获取方式有多种,例如:在用户使用智能终端的过程中,收集到的语料;或者通过爬虫等技术去爬取大量的语料。当然,也可以是其他收集语料的方式,所有方式可以结合使用,以使语料更丰富,涵盖范围更广。
三元组库生成模块200,用于根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
具体地,依存树可用于表示语料中各个词汇之间的语法依存关系。依存树包括节点和连接边,节点可以用于表示语料中的词汇,连接边可以用于表示相连节点的词汇之间的语法关系。
例如:语料为“小猫喝牛奶”,对语料进行分词及词性标注,得到“1小猫/n 2喝/v 3牛奶/n”,生成的依存树如图2所示。其中,nsubj表示名词性主语关系;dobj表示直接宾语关系。
实体三元组可以理解为(实体1,实体关系,实体2),其中的实体关系是指实体1与实体2之间的实体关系。
根据每个语料的依存树,即可获取语料中各个实体之间的关系,然后根据语料中各个实体之间的关系生成每个语料对应的实体三元组。每个语料生成的实体三元组可以为一个或多个。
语音获取模块300,用于获取用户输入的待解析语音;
具体地,获取用户在用户端输入的待解析语音。例如:待解析语音可为“小明主演的电影是什么?”、“打开视频软件”、“讲解一元一次方程”、“猴子吃香蕉”等。
提取模块400,用于根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
具体地,在生成实体三元组库后,将待解析语音与实体三元组库中的实体三元组进行匹配,以确定待解析语音中的实体关系,然后根据确定到的实体关系,提取出该实体关系对应的实体。
语义解析模块500,用于根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
具体地,最后根据提取出的实体以及实体之间的实体关系,对待解析语音进行语义解析。
例如:待解析语音为“小明主演过小红导演的电影吗”,假设实体三元组库中包含两个实体三元组,第一个实体三元组为(X,主演,电影),第二个实体三元组为(a,导演,电影)。将待解析语音与实体三元组库中的实体三元组匹配时,可匹配到第一实体三元组和第二实体三元组,根据第一实体三元组和第二实体三元组,可确定待解析语音中的实体关系为“主演”和“导演”;然后提取出与实体关系“主演”相关联的实体“小明”和“电影”,以及与实体关系“导演”相关联的实体“小红”和“电影”。根据提取出的实体以及实体之间的关系,即可解析到待解析语音的语义为:“小明主演的电影,电影是小红导演的”。
本实施例中,先根据大量语料的语法依存树,自动生成实体三元组库,然后根据实体三元组库中的实体三元组提取用户输入的待解析语音中的实体及实体关系,根据实体及实体关系即可准确地获取待解析语音的语义,进而提高语义解析的准确率。
优选地,三元组库生成模块200包括:
依存树生成单元210,用于将所述语料生成依存树;
具体地,在获取大量语料后,将语料进行简单的短语分词,比如:猴子喜欢吃香蕉,分词为:猴子/喜欢/吃/香蕉。然后由分词转向词性标注,猴子/n喜欢/v/吃/v/香港/n。再由词性标注生成短语句法树,最后由短语句法树转成依存树(依存关系可以用树形图表示,表示依存关系的树形图称为依存树)。通过上述步骤将所有语料都转换成依存树。
再例如,语料“小明主演过小红导演的电影吗”分词为:小明/主演/过/小红/导演/的/电影;然后进行词性标注,生成的依存树如图4所示。
名词实体提取单元220,用于提取所述语料中的名词实体;
具体地,在语料中提取出名词实体,如语料“猴子喜欢吃香蕉”中的“猴子”和“香蕉”。语料“小明主演过小红导演的电影吗”中的“小明”、“小红”和“电影”。
节点查找单元230,用于在所述依存树中,查找到表示所述名词实体的有效节点;
具体地,在生成的依存树中,查找到代表名词实体的节点,如表示“猴子”的节点,表示“香蕉”的节点,表示“小明”的节点,表示“小红”的节点,表示“电影”的节点。
节点查找单元230,还用于获取同时与两个以上的所述有效节点连接的中间节点;
具体地,在依存树中找到表示名词实体的有效节点后,获取同时与两个以上的有效节点连接的中间节点。
例如,在依存树中同时与节点“小明”和节点“电影”连接的中间节点“主演”,以及同时与节点“小红”和节点“电影”连接的中间节点“导演”。
三元组生成单元240,用于根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
具体地,查找到中间节点以及同时与中间节点连接的两个或多个有效节点后,根据中间节点和有效节点生成实体三元组。
例如,根据中间节点“主演”以及同时与“主演”连接的两个有效节点“小明”和“电影”生成的实体三元组为(小明,主演,电影)。
再例如,根据中间节点“导演”以及同时与“导演”连接的两个有效节点“小红”和“电影”生成的实体三元组为(小红,导演,电影)。
三元组库生成单元250,用于根据所述实体三元组生成实体三元组库。
具体地,根据每条语料生成实体三元组后,将生成的实体三元组放置在实体三元组库中。每条语料可生成一个或多个实体三元组,当然,也存在无法生成实体三元组的语料。
本实施例中,通过大量语料生成大量的实体三元组,以丰富实体三元组库,使得在通过实体三元组进行语义解析时,提高语义解析的成功率。
优选地,三元组库生成模块200还包括:
分类单元260,用于对实体三元组进行分类;
具体地,在根据语料生成实体三元组后,对生成的实体三元组进行分类,分类时可以按照领域进行分类,例如,影视、旅游、游戏、财经等等。对实体三元组进行分类,可提高实体三元组的查找效率。
合并单元270,用于将两个以上相同的实体三元组进行合并,生成一个实体三元组。
具体地,对实体三元组进行分类后,将语义相同的实体三元组进行合并,生成一个实体三元组,以减少实体三元组的数量。
例如,实体三元组1(实体1,实体关系1,实体2)与实体三元组2(实体3,实体关系2,实体4),若实体关系1与实体关系2的语义相同,则将实体三元组1和实体三元组2合并为一个实体三元组(X,实体关系1/实体关系2,Y),其中,X和Y可为代表某一类的词语,如代表人名的词语,代表地名的词语等。
优选地,提取模块400包括:
关键词提取单元410,用于对所述待解析语音进行分词标注,提取出所述待解析语音中的关键词;
具体地,在获取待解析语音后,采用现有的分词标注方法对待解析语音进行分词标注,然后提取出待解析语音中的关键词。待解析语音中的关键词为剔除“的”、“地”、“了”等无语义词后的词语。
匹配单元420,用于将所述关键词与所述实体三元组库中的实体三元组进行匹配,确定所述待解析语音中的实体关系;
具体地,将在待解析语音中提取出的关键词与实体三元组中表示实体关系的词语进行匹配,根据匹配到的实体三元组,确定待解析语音中的实体关系,即确定表示实体关系的关键词。表示实体关系的关键词可以为一个或多个,如“主演”和“导演”。
实体提取单元430,用于根据所述实体关系,在所述待解析语音中提取所述实体关系对应的实体。
具体地,确定待解析语音中的实体关系后,再根据实体关系在待解析语音中提取出实体关系对应的实体,如提取出与“主演”相关的实体,以及提取出与“导演”相关的实体。
本实施例,先从待解析语音中提取出关键词,再根据关键词匹配实体三元组,可提高匹配效率,进而提高语义解析的效率。
优选地,还包括:
图谱生成模块600,用于根据所述实体以及所述实体之间的实体关系,生成所述待解析语音对应的查询知识图谱;
具体地,在得到待解析语音中的实体以及实体之间的实体关系后,可根据实体以及实体关系构建待解析语音对应的实体三元组,然后根据构建的实体三元组构建待解析语音对应的查询知识图谱,即根据多个实体之间具有的实体关系,构建对应的查询知识图谱。查询知识图谱包括代表实体的节点以及节点之间的连接边,节点之间的连接边表示实体之间的实体关系。
意图识别模块700,用于根据所述查询知识图谱,识别所述待解析语音对应的查询意图。
具体地,构建待解析语音对应的查询知识图谱后,可以利用构建的查询知识图谱确定用户的查询意图,为用户查询信息提供便利。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于三元组的语义解析方法,其特征在于,包括:
获取大量语料;
根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
获取用户输入的待解析语音;
根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
2.根据权利要求1所述的一种基于三元组的语义解析方法,其特征在于,所述根据大量所述语料各自的依存树,生成实体三元组库具体包括:
将所述语料生成依存树;
提取所述语料中的名词实体;
在所述依存树中,查找到表示所述名词实体的有效节点;
获取同时与两个以上的所述有效节点连接的中间节点;
根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
根据所述实体三元组生成实体三元组库。
3.根据权利要求2所述的一种基于三元组的语义解析方法,其特征在于,所述根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组之后还包括:
对实体三元组进行分类;
将两个以上相同的实体三元组进行合并,生成一个实体三元组。
4.根据权利要求1所述的一种基于三元组的语义解析方法,其特征在于,所述根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体具体包括:
对所述待解析语音进行分词标注,提取出所述待解析语音中的关键词;
将所述关键词与所述实体三元组库中的实体三元组进行匹配,确定所述待解析语音中的实体关系;
根据所述实体关系,在所述待解析语音中提取所述实体关系对应的实体。
5.根据权利要求1所述的一种基于三元组的语义解析方法,其特征在于,还包括:
根据所述实体以及所述实体之间的实体关系,生成所述待解析语音对应的查询知识图谱;
根据所述查询知识图谱,识别所述待解析语音对应的查询意图。
6.一种基于三元组的语义解析装置,其特征在于,包括:
语料获取模块,用于获取大量语料;
三元组库生成模块,用于根据大量所述语料各自的依存树,生成实体三元组库,所述实体三元组库包括表示各种实体关系的实体三元组;
语音获取模块,用于获取用户输入的待解析语音;
提取模块,用于根据所述实体三元组库中的实体三元组确定所述待解析语音中的实体关系,并提取所述实体关系对应的实体;
语义解析模块,用于根据所述实体以及所述实体之间的实体关系,对所述待解析语音进行语义解析。
7.根据权利要求6所述的一种基于三元组的语义解析装置,其特征在于,所述三元组库生成模块包括:
依存树生成单元,用于将所述语料生成依存树;
名词实体提取单元,用于提取所述语料中的名词实体;
节点查找单元,用于在所述依存树中,查找到表示所述名词实体的有效节点;
所述节点查找单元,还用于获取同时与两个以上的所述有效节点连接的中间节点;
三元组生成单元,用于根据所述中间节点以及同时与所述中间节点连接的两个以上的有效节点,生成实体三元组;
三元组库生成单元,用于根据所述实体三元组生成实体三元组库。
8.根据权利要求7所述的一种基于三元组的语义解析装置,其特征在于,所述三元组库生成模块还包括:
分类单元,用于对实体三元组进行分类;
合并单元,用于将两个以上相同的实体三元组进行合并,生成一个实体三元组。
9.根据权利要求6所述的一种基于三元组的语义解析装置,其特征在于,所述提取模块包括:
关键词提取单元,用于对所述待解析语音进行分词标注,提取出所述待解析语音中的关键词;
匹配单元,用于将所述关键词与所述实体三元组库中的实体三元组进行匹配,确定所述待解析语音中的实体关系;
实体提取单元,用于根据所述实体关系,在所述待解析语音中提取所述实体关系对应的实体。
10.根据权利要求6所述的一种基于三元组的语义解析装置,其特征在于,还包括:
图谱生成模块,用于根据所述实体以及所述实体之间的实体关系,生成所述待解析语音对应的查询知识图谱;
意图识别模块,用于根据所述查询知识图谱,识别所述待解析语音对应的查询意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364367.4A CN111858866B (zh) | 2019-04-30 | 2019-04-30 | 一种基于三元组的语义解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910364367.4A CN111858866B (zh) | 2019-04-30 | 2019-04-30 | 一种基于三元组的语义解析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858866A true CN111858866A (zh) | 2020-10-30 |
CN111858866B CN111858866B (zh) | 2024-10-18 |
Family
ID=72965193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910364367.4A Active CN111858866B (zh) | 2019-04-30 | 2019-04-30 | 一种基于三元组的语义解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858866B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN105760462A (zh) * | 2016-02-05 | 2016-07-13 | 首都师范大学 | 基于关联数据查询的人机交互方法及装置 |
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN108959627A (zh) * | 2018-07-23 | 2018-12-07 | 北京光年无限科技有限公司 | 基于智能机器人的问答交互方法及系统 |
-
2019
- 2019-04-30 CN CN201910364367.4A patent/CN111858866B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156083A (zh) * | 2015-03-31 | 2016-11-23 | 联想(北京)有限公司 | 一种领域知识处理方法及装置 |
CN105760462A (zh) * | 2016-02-05 | 2016-07-13 | 首都师范大学 | 基于关联数据查询的人机交互方法及装置 |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN108959627A (zh) * | 2018-07-23 | 2018-12-07 | 北京光年无限科技有限公司 | 基于智能机器人的问答交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111858866B (zh) | 2024-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315737B (zh) | 一种语义逻辑处理方法及系统 | |
CN108052583B (zh) | 电商本体构建方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN111159385B (zh) | 一种基于动态知识图谱的无模板通用智能问答方法 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
KR102041621B1 (ko) | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 | |
KR20210104571A (ko) | 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체 | |
JP4953468B2 (ja) | オントロジーデータのインポート/エクスポートのための方法および装置 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN108647194B (zh) | 信息抽取方法及装置 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN110852095B (zh) | 语句热点提取方法及系统 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN111897930A (zh) | 一种自动问答方法与系统、智能设备及存储介质 | |
CN102855317A (zh) | 一种基于演示视频的多模式索引方法及系统 | |
CN112818092A (zh) | 知识图谱查询语句生成方法、装置、设备及存储介质 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
CN114817465A (zh) | 一种用于多语言语义理解的实体纠错方法及智能设备 | |
CN114880496A (zh) | 多媒体信息话题分析方法、装置、设备及存储介质 | |
CN117743526A (zh) | 一种基于大语言模型和自然语言处理的表格问答方法 | |
CN110362664A (zh) | 一种对聊天机器人faq知识库存储与匹配的方法及装置 | |
CN114647730A (zh) | 一种融合图注意力和图卷积网络的事件检测方法 | |
CN111368145A (zh) | 一种知识图谱的创建方法、创建系统及终端设备 | |
CN115017335A (zh) | 知识图谱构建方法和系统 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |