CN111898386A - 基于自然语言的语义解析方法、装置、设备及存储介质 - Google Patents
基于自然语言的语义解析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111898386A CN111898386A CN202010714765.7A CN202010714765A CN111898386A CN 111898386 A CN111898386 A CN 111898386A CN 202010714765 A CN202010714765 A CN 202010714765A CN 111898386 A CN111898386 A CN 111898386A
- Authority
- CN
- China
- Prior art keywords
- semantic
- slot
- code
- graph
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种基于自然语言的语义解析方法、装置、设备及存储介质,应用于服务器,所述服务器与至少一个输入设备通信连接,包括:获取从所述输入设备输入的自然语言文本信息,并生成语义图;通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;将全部所述有向图连接形成完整表达式。本发明实施例通过语义分析,可以理解自然语言,并进行深入的知识获取推理,从而抽取出自然语言语句背后的语义信息,使计算机与人类能无障碍沟通。
Description
技术领域
本发明涉及语义识别技术领域,尤其涉及一种基于自然语言的语义解析方法、装置、设备及存储介质。
背景技术
语义分析一直是许多计算机从业者研究的重要课题,也是自然语言理解领域需要解决的根本性问题和追求的目标。人机对话系统需要识别人类语言中的信息,才能具体执行相应任务,如给问题作出回答、预定机票等等,这个过程也叫作语义分析,语义分析是指在分析句子的句法结构和每个词词义的基础上,推出能够反映句子意义的形式化表示。语义分析任务是对概念形式及概念间关系的一种规范、明确的定义。
有鉴于此提出本发明。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于自然语言的语义解析方法。
本发明还提出一种基于自然语言的语义解析装置。
本发明又提出一种电子设备。
本发明再提出一种非暂态计算机可读存储介质。
根据本发明第一方面实施例的一种基于自然语言的语义解析方法,应用于服务器,所述服务器与至少一个输入设备通信连接,包括:
获取从所述输入设备输入的自然语言文本信息,并生成语义图;
通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;
确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;
将全部所述有向图连接形成完整表达式。
根据本发明的一个实施例,所述获取从所述输入设备输入的自然语言文本信息,并生成语义图的步骤中,具体包括:
提取自然语言文本信息第一语义代码和第二语义代码,所述第一语义代码包括对所述语义图进行分类的主体信息、度量信息、指令信息和客体信息,所述第二语义代码包括对每个所述语义图进行赋值的主体语义图、度量语义图、指令语义图和客体语义图。
具体来说,主体信息和主体语义图包括人物、人称和代词,例如我、张三、李四和我的女友等,度量信息和度量语义图包括时间长度的度量,例如3月10日,下午两点等,还包括地点信息的度量,例如北京、上海等地名或者天津站、济南西等站名,指令信息和指令语义图包括订票、退票、退订、改签、换乘、查询、锁定和监控等指令词汇,客体信息和客体语义图包括火车票、高铁票、动车票、卧铺、软卧、飞机票、经济舱、商务舱和客车票等词汇。
需要说明的是,主体信息、度量信息、指令信息和客体信息等是自然语言文本信息的分类,而主体语义图、度量语义图、指令语义图和客体语义图则是对自然语言文本信息语义图的精确分析。
在一个应用场景中,在所述输入设备上输入内容为“取消我和女友下周三的飞机票”的自然语言文本,获取模块会获取自然语言文本中的第一语义代码,即输入的自然语言文本中存在人物、时间、指令和客体;然后生成模块会根据第一语义代码对自然语言文本的分类对语言文本的词汇进行提炼和重组,其中人物词汇为我、女友,根据自然文本中的“和”判断出为两个人物目标,则生成包含人物为“我和女友”的主体语义图,同理生成度量语义图、指令语义图和客体语义图。
在另一个应用场景中,在所述输入设备上输入内容为“取消我的女友下周三的飞机票”的自然语言文本,会生成与前一应用场景相同的第一语义代码,但在第二语义代码中则会只生成“我的女友”的主体语义图。
需要说明的是,之所以设置第一语义代码和第二语义代码是由于自然语言文本在输入时可能会存在歧义或者自身的输入错误,如果只设置第二语义代码对自然语言文本进行标记则会存在较高的噪声,通过第一语义代码对自然语言文本进行初筛,筛选出自然语言文本中的相应敏感词汇并进行分类,有助于提高分析效率,减少系统的运算量,增强系统的鲁棒性。
还需要说明的是,“我的女友”中的女友可以在系统中进行提前设置或者通过大数据进行分析,系统根据主体语义图进行相似度推荐。
根据本发明的一个实施例,所述通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果的步骤中,具体包括:
将所述语义图输入神经网络,所述神经网络遍历全部所述插槽并生成所述语义图的验证结果;
所述神经网络包括指向每一个所述语义图的第一神经向量和指向每一个所述插槽的第二神经向量;所述插槽包括第一插槽代码和第二插槽代码,所述第一插槽代码包括对所述插槽进行分类的主体插槽、度量插槽、指令插槽和客体插槽,所述第二插槽代码包括对每个所述插槽进行赋值的主体槽值、度量槽值、指令槽值和客体槽值;
建立基于所述第一神经向量和所述第二神经向量的神经网络通道,对全部所述语义图和全部所述插槽进行关联性检测,发现对应的所述第一语义代码和所述第一插槽代码时,以所述第一语义代码对应的所述第二语义代码为目标,在所述第一插槽代码对应的所述第二插槽代码范围内寻找与所述第二语义代码的语义图对应的槽值,并将寻找结果作为槽位验证结果。
具体来说,通过设置与第一语义代码对应的第一插槽代码,实现语义图中的主体信息、度量信息、指令信息和客体信息,与插槽中的主体插槽、度量插槽、指令插槽和客体插槽快速的定位,定位后通过第二语义代码与第二插槽代码进行匹配计算,其中第二插槽代码预先设置有代码库,例如主体槽值内存储有我、张三、李四和我的女友等形成主体槽值,度量插槽包括具体的时间集合,指令插槽包括具体的指令集合,客体插槽包括火车票、高铁票、动车票、卧铺、软卧、飞机票、经济舱、商务舱和客车票等集合。
根据本发明的一个实施例,所述确定所述槽位验证结果的过程中,还包括:
对所述第一语义代码内的自然语言文本信息,以字符或字节进行切分并组合形成第二语义代码集,遍历所述第二语义代码集选取与所述第二插槽代码对应的所述第二语义代码;
若所述第二将插槽代码范围内存在与所述第二语义代码的语义图对应的槽值,则将对应的槽位验证结果判定为是。
具体来说,若在第二将插槽代码范围内寻找到与第二语义代码对应的槽值,则判定为是。
在一个应用场景中,第二语义代码的赋值为我和张三(主体语义图)、下午八点(度量语义图)、预定(指令语义图)和东北路餐厅(客体语义图),则在第二将插槽代码范围内寻找与上述语义图对应的槽值。
在另一个应用场景中,第二语义代码的赋值为我和李四(主体语义图)、明早九点(度量语义图)、取消(指令语义图)和机票(客体语义图),则在第二将插槽代码范围内寻找与上述语义图对应的槽值。
根据本发明的一个实施例,所述确定所述槽位验证结果的过程中,还包括:
若所述语义图与全部所述插槽的槽位验证结果判定为否,则将该所述语义图丢弃,并将所述语义图对应的所述插槽标记为缺失;
其中,若所述语义图的所述第一语义代码遍历全部所述插槽后,槽位验证结果判定为否,则将丢弃的结果标记为缺失第一语义;
若所述语义图的所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,槽位验证结果判定为否,则将丢弃的结果标记为缺失第二语义。
具体来说,由于包括第一语义代码和第二语义代码,第一语义代码又包括对所述语义图进行分类的主体信息、度量信息、指令信息和客体信息,第二语义代码又包括主体语义图、度量语义图、指令语义图和客体语义图,在输入设备输入的自然语言文本可能存在某种语义图的缺失,但有可能并不会影响结果输出,因此,在缺失某部分语义图时,只需将此部分进行标记,其余部分正常输出。
需要说明的是,上述槽位验证结果判定为单一对应值,即,若有唯一对应的值,则判定为是;若没有或者有多个对应值,则判定为否。
详细来说,缺失第一语义和缺失第二语义中可能存在第一语义代码和第二语义代码无法在第一插槽代码和第二插槽代码找到对应槽值的可能性,此时丢弃语义图并输出无法找到对应的表达式。若找到了许多对应的槽值,则将找到的多个槽值生成多个有向图,并生成多个完整表达式。
在一个应用场景中,若所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,没有在所述第二插槽代码范围内找到对应的槽值,则判定为否,则将丢弃的结果标记为缺失第二语义,将所述语义图丢弃。
在另一个应用场景中,若所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,在所述第二插槽代码范围内找到两个以上对应的槽值,则判定为否,则将丢弃的结果标记为缺失第二语义,将根据找到的槽值数量对应生成在该插槽下并列的有向图,将全部所述有向图连接形成对应所述槽值数量的并列完整表达式。
根据本发明的一个实施例,所述将全部所述有向图连接形成完整表达式的步骤中,具体包括:
根据在所述自然语言文本信息中获取的所述语义图中的所述第一语义代码顺序调整所述有向图的排列顺序,并形成与获取的所述语义图中的所述第一语义代码顺序相同的所述完整表达式。
具体来说,便于根据大数据进行数据统计,掌握输入设备的输入习惯,为后续系统语义解析提供参考。
根据本发明的一个实施例,所述插槽还包括用于记录所述第二语义代码与所述第二插槽代码匹配次数的缓存槽;
所述缓存槽设置有匹配阈值,若所述第二语义代码与所述第二插槽代码的匹配次数达到所述匹配阈值时,则在所述第二插槽代码对应槽值排序范围内,调整对应该所述第二语义代码的槽值排序。
具体来说,该缓存能够捕捉到我们倾向于记住最近激活、提到或被增强的知识的语义,即根据某一词汇出现的次数调整该词汇在插槽的第二插槽代码内的排列次序,便于快速调取,提升系统的鲁棒性。
根据本发明第二方面实施例的一种基于自然语言的语义解析装置,包括:
获取模块,用于获取从所述输入设备输入的自然语言文本信息;
生成模块,用于将获取的所述自然语言文本信息生成语义图;
判定模块,通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;
执行模块,用于根据所述槽位验证结果将全部所述有向图连接形成完整表达式。
根据本发明第三方面实施例的一种电子设备,包括:
存储器和处理器,所述存储器和所述处理器通过总线完成相互间的通信;
所述存储器存储有,能够在所述处理器上运行的计算机指令;
所述处理器调用所述计算机程序指令时,能够执行上述的一种基于自然语言的语义解析方法。
根据本发明第四方面实施例的一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的一种基于自然语言的语义解析方法的步骤。
本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:本发明实施例提供的基于自然语言的语义解析方法、装置、设备及存储介质,通过语义分析,可以理解自然语言,并进行深入的知识获取推理,从而抽取出自然语言语句背后的语义信息,使计算机与人类能无障碍沟通。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一基于自然语言的语义解析方法的流程第一示意图;
图2是本发明实施例提供的一基于自然语言的语义解析方法的流程第二示意图;
图3是本发明实施例提供的一种电子设备的结构示意图。
附图标记:
810:处理器;820:通信接口;830:存储器;840:通信总线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明第一方面实施例的一种基于自然语言的语义解析方法,应用于服务器,所述服务器与至少一个输入设备通信连接,包括:
获取从所述输入设备输入的自然语言文本信息,并生成语义图;
通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;
确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;
将全部所述有向图连接形成完整表达式。
根据本发明的一个实施例,所述获取从所述输入设备输入的自然语言文本信息,并生成语义图的步骤中,具体包括:
提取自然语言文本信息第一语义代码和第二语义代码,所述第一语义代码包括对所述语义图进行分类的主体信息、度量信息、指令信息和客体信息,所述第二语义代码包括对每个所述语义图进行赋值的主体语义图、度量语义图、指令语义图和客体语义图。
具体来说,主体信息和主体语义图包括人物、人称和代词,例如我、张三、李四和我的女友等,度量信息和度量语义图包括时间长度的度量,例如3月10日,下午两点等,还包括地点信息的度量,例如北京、上海等地名或者天津站、济南西等站名,指令信息和指令语义图包括订票、退票、退订、改签、换乘、查询、锁定和监控等指令词汇,客体信息和客体语义图包括火车票、高铁票、动车票、卧铺、软卧、飞机票、经济舱、商务舱和客车票等词汇。
需要说明的是,主体信息、度量信息、指令信息和客体信息等是自然语言文本信息的分类,而主体语义图、度量语义图、指令语义图和客体语义图则是对自然语言文本信息语义图的精确分析。
在一个应用场景中,在所述输入设备上输入内容为“取消我和女友下周三的飞机票”的自然语言文本,获取模块会获取自然语言文本中的第一语义代码,即输入的自然语言文本中存在人物、时间、指令和客体;然后生成模块会根据第一语义代码对自然语言文本的分类对语言文本的词汇进行提炼和重组,其中人物词汇为我、女友,根据自然文本中的“和”判断出为两个人物目标,则生成包含人物为“我和女友”的主体语义图,同理生成度量语义图、指令语义图和客体语义图。
在另一个应用场景中,在所述输入设备上输入内容为“取消我的女友下周三的飞机票”的自然语言文本,会生成与前一应用场景相同的第一语义代码,但在第二语义代码中则会只生成“我的女友”的主体语义图。
需要说明的是,之所以设置第一语义代码和第二语义代码是由于自然语言文本在输入时可能会存在歧义或者自身的输入错误,如果只设置第二语义代码对自然语言文本进行标记则会存在较高的噪声,通过第一语义代码对自然语言文本进行初筛,筛选出自然语言文本中的相应敏感词汇并进行分类,有助于提高分析效率,减少系统的运算量,增强系统的鲁棒性。
还需要说明的是,“我的女友”中的女友可以在系统中进行提前设置或者通过大数据进行分析,系统根据主体语义图进行相似度推荐。
根据本发明的一个实施例,所述通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果的步骤中,具体包括:
将所述语义图输入神经网络,所述神经网络遍历全部所述插槽并生成所述语义图的验证结果;
所述神经网络包括指向每一个所述语义图的第一神经向量和指向每一个所述插槽的第二神经向量;所述插槽包括第一插槽代码和第二插槽代码,所述第一插槽代码包括对所述插槽进行分类的主体插槽、度量插槽、指令插槽和客体插槽,所述第二插槽代码包括对每个所述插槽进行赋值的主体槽值、度量槽值、指令槽值和客体槽值;
建立基于所述第一神经向量和所述第二神经向量的神经网络通道,对全部所述语义图和全部所述插槽进行关联性检测,发现对应的所述第一语义代码和所述第一插槽代码时,以所述第一语义代码对应的所述第二语义代码为目标,在所述第一插槽代码对应的所述第二插槽代码范围内寻找与所述第二语义代码的语义图对应的槽值,并将寻找结果作为槽位验证结果。
具体来说,通过设置与第一语义代码对应的第一插槽代码,实现语义图中的主体信息、度量信息、指令信息和客体信息,与插槽中的主体插槽、度量插槽、指令插槽和客体插槽快速的定位,定位后通过第二语义代码与第二插槽代码进行匹配计算,其中第二插槽代码预先设置有代码库,例如主体槽值内存储有我、张三、李四和我的女友等形成主体槽值,度量插槽包括具体的时间集合,指令插槽包括具体的指令集合,客体插槽包括火车票、高铁票、动车票、卧铺、软卧、飞机票、经济舱、商务舱和客车票等集合。
根据本发明的一个实施例,所述确定所述槽位验证结果的过程中,还包括:
对所述第一语义代码内的自然语言文本信息,以字符或字节进行切分并组合形成第二语义代码集,遍历所述第二语义代码集选取与所述第二插槽代码对应的所述第二语义代码;
若所述第二将插槽代码范围内存在与所述第二语义代码的语义图对应的槽值,则将对应的槽位验证结果判定为是。
具体来说,若在第二将插槽代码范围内寻找到与第二语义代码对应的槽值,则判定为是。
在一个应用场景中,第二语义代码的赋值为我和张三(主体语义图)、下午八点(度量语义图)、预定(指令语义图)和东北路餐厅(客体语义图),则在第二将插槽代码范围内寻找与上述语义图对应的槽值。
在另一个应用场景中,第二语义代码的赋值为我和李四(主体语义图)、明早九点(度量语义图)、取消(指令语义图)和机票(客体语义图),则在第二将插槽代码范围内寻找与上述语义图对应的槽值。
根据本发明的一个实施例,所述确定所述槽位验证结果的过程中,还包括:
若所述语义图与全部所述插槽的槽位验证结果判定为否,则将该所述语义图丢弃,并将所述语义图对应的所述插槽标记为缺失;
其中,若所述语义图的所述第一语义代码遍历全部所述插槽后,槽位验证结果判定为否,则将丢弃的结果标记为缺失第一语义;
若所述语义图的所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,槽位验证结果判定为否,则将丢弃的结果标记为缺失第二语义。
具体来说,由于包括第一语义代码和第二语义代码,第一语义代码又包括对所述语义图进行分类的主体信息、度量信息、指令信息和客体信息,第二语义代码又包括主体语义图、度量语义图、指令语义图和客体语义图,在输入设备输入的自然语言文本可能存在某种语义图的缺失,但有可能并不会影响结果输出,因此,在缺失某部分语义图时,只需将此部分进行标记,其余部分正常输出。
需要说明的是,上述槽位验证结果判定为单一对应值,即,若有唯一对应的值,则判定为是;若没有或者有多个对应值,则判定为否。
详细来说,缺失第一语义和缺失第二语义中可能存在第一语义代码和第二语义代码无法在第一插槽代码和第二插槽代码找到对应槽值的可能性,此时丢弃语义图并输出无法找到对应的表达式。若找到了许多对应的槽值,则将找到的多个槽值生成多个有向图,并生成多个完整表达式。
在一个应用场景中,若所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,没有在所述第二插槽代码范围内找到对应的槽值,则判定为否,则将丢弃的结果标记为缺失第二语义,将所述语义图丢弃。
在另一个应用场景中,若所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,在所述第二插槽代码范围内找到两个以上对应的槽值,则判定为否,则将丢弃的结果标记为缺失第二语义,将根据找到的槽值数量对应生成在该插槽下并列的有向图,将全部所述有向图连接形成对应所述槽值数量的并列完整表达式。
根据本发明的一个实施例,所述将全部所述有向图连接形成完整表达式的步骤中,具体包括:
根据在所述自然语言文本信息中获取的所述语义图中的所述第一语义代码顺序调整所述有向图的排列顺序,并形成与获取的所述语义图中的所述第一语义代码顺序相同的所述完整表达式。
具体来说,便于根据大数据进行数据统计,掌握输入设备的输入习惯,为后续系统语义解析提供参考。
根据本发明的一个实施例,所述插槽还包括用于记录所述第二语义代码与所述第二插槽代码匹配次数的缓存槽;
所述缓存槽设置有匹配阈值,若所述第二语义代码与所述第二插槽代码的匹配次数达到所述匹配阈值时,则在所述第二插槽代码对应槽值排序范围内,调整对应该所述第二语义代码的槽值排序。
具体来说,该缓存能够捕捉到我们倾向于记住最近激活、提到或被增强的知识的语义,即根据某一词汇出现的次数调整该词汇在插槽的第二插槽代码内的排列次序,便于快速调取,提升系统的鲁棒性。
根据本发明第二方面实施例的一种基于自然语言的语义解析装置,包括:
获取模块,用于获取从所述输入设备输入的自然语言文本信息;
生成模块,用于将获取的所述自然语言文本信息生成语义图;
判定模块,通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;
执行模块,用于根据所述槽位验证结果将全部所述有向图连接形成完整表达式。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)810、通信接口(CommunicationsInterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于自然语言的语义解析方法,该方法包括:应用于服务器,所述服务器与至少一个输入设备通信连接,包括:获取从所述输入设备输入的自然语言文本信息,并生成语义图;通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;
将全部所述有向图连接形成完整表达式。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于自然语言的语义解析方法,该方法包括:应用于服务器,所述服务器与至少一个输入设备通信连接,包括:获取从所述输入设备输入的自然语言文本信息,并生成语义图;通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;
将全部所述有向图连接形成完整表达式。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于自然语言的语义解析方法,该方法包括:应用于服务器,所述服务器与至少一个输入设备通信连接,包括:获取从所述输入设备输入的自然语言文本信息,并生成语义图;通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;将全部所述有向图连接形成完整表达式。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于自然语言的语义解析方法,其特征在于,应用于服务器,所述服务器与至少一个输入设备通信连接,包括:
获取从所述输入设备输入的自然语言文本信息,并生成语义图;
通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;
确定所述槽位验证结果的过程包括将所述语义图遍历全部插槽,若所述语义图与所述插槽的操作槽位验证结果判定为是,则生成该所述语义图在该所述插槽下的有向图;
将全部所述有向图连接形成完整表达式。
2.根据权利要求1所述的一种基于自然语言的语义解析方法,其特征在于,所述获取从所述输入设备输入的自然语言文本信息,并生成语义图的步骤中,具体包括:
提取自然语言文本信息第一语义代码和第二语义代码,所述第一语义代码包括对所述语义图进行分类的主体信息、度量信息、指令信息和客体信息,所述第二语义代码包括对每个所述语义图进行赋值的主体语义图、度量语义图、指令语义图和客体语义图。
3.根据权利要求2所述的一种基于自然语言的语义解析方法,其特征在于,所述通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果的步骤中,具体包括:
将所述语义图输入神经网络,所述神经网络遍历全部所述插槽并生成所述语义图的验证结果;
所述神经网络包括指向每一个所述语义图的第一神经向量和指向每一个所述插槽的第二神经向量;所述插槽包括第一插槽代码和第二插槽代码,所述第一插槽代码包括对所述插槽进行分类的主体插槽、度量插槽、指令插槽和客体插槽,所述第二插槽代码包括对每个所述插槽进行赋值的主体槽值、度量槽值、指令槽值和客体槽值;
建立基于所述第一神经向量和所述第二神经向量的神经网络通道,对全部所述语义图和全部所述插槽进行关联性检测,发现对应的所述第一语义代码和所述第一插槽代码时,以所述第一语义代码对应的所述第二语义代码为目标,在所述第一插槽代码对应的所述第二插槽代码范围内寻找与所述第二语义代码的语义图对应的槽值,并将寻找结果作为槽位验证结果。
4.根据权利要求3所述的一种基于自然语言的语义解析方法,其特征在于,所述确定所述槽位验证结果的过程中,还包括:
对所述第一语义代码内的自然语言文本信息,以字符或字节进行切分并组合形成第二语义代码集,遍历所述第二语义代码集选取与所述第二插槽代码对应的所述第二语义代码;
若所述第二将插槽代码范围内存在与所述第二语义代码的语义图对应的槽值,则将对应的槽位验证结果判定为是。
5.根据权利要求3所述的一种基于自然语言的语义解析方法,其特征在于,所述确定所述槽位验证结果的过程中,还包括:
若所述语义图与全部所述插槽的槽位验证结果判定为否,则将该所述语义图丢弃,并将所述语义图对应的所述插槽标记为缺失;
其中,若所述语义图的所述第一语义代码遍历全部所述插槽后,槽位验证结果判定为否,则将丢弃的结果标记为缺失第一语义;
若所述语义图的所述第二语义代码遍历所述第一插槽代码对应的所述第二插槽代码范围内的槽值后,槽位验证结果判定为否,则将丢弃的结果标记为缺失第二语义。
6.根据权利要求2至5任一所述的一种基于自然语言的语义解析方法,其特征在于,所述将全部所述有向图连接形成完整表达式的步骤中,具体包括:
根据在所述自然语言文本信息中获取的所述语义图中的所述第一语义代码顺序调整所述有向图的排列顺序,并形成与获取的所述语义图中的所述第一语义代码顺序相同的所述完整表达式。
7.根据权利要求3至5任一所述的一种基于自然语言的语义解析方法,其特征在于,所述插槽还包括用于记录所述第二语义代码与所述第二插槽代码匹配次数的缓存槽;
所述缓存槽设置有匹配阈值,若所述第二语义代码与所述第二插槽代码的匹配次数达到所述匹配阈值时,则在所述第二插槽代码对应槽值排序范围内,调整对应该所述第二语义代码的槽值排序。
8.一种基于自然语言的语义解析装置,其特征在于,包括:
获取模块,用于获取从所述输入设备输入的自然语言文本信息;
生成模块,用于将获取的所述自然语言文本信息生成语义图;
判定模块,通过将所述语义图与插槽进行匹配确定所述语义图在该所述插槽下的槽位验证结果;
执行模块,用于根据所述槽位验证结果将全部所述有向图连接形成完整表达式。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器通过总线完成相互间的通信;
所述存储器存储有,能够在所述处理器上运行的计算机指令;
所述处理器调用所述计算机程序指令时,能够执行上述权利要求1至7任一所述的一种基于自然语言的语义解析方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述权利要求1至7任一所述的一种基于自然语言的语义解析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714765.7A CN111898386A (zh) | 2020-07-23 | 2020-07-23 | 基于自然语言的语义解析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010714765.7A CN111898386A (zh) | 2020-07-23 | 2020-07-23 | 基于自然语言的语义解析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898386A true CN111898386A (zh) | 2020-11-06 |
Family
ID=73190407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010714765.7A Withdrawn CN111898386A (zh) | 2020-07-23 | 2020-07-23 | 基于自然语言的语义解析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898386A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732876A (zh) * | 2021-02-08 | 2021-04-30 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
CN114255427A (zh) * | 2021-12-21 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频理解方法、装置、设备、存储介质以及程序产品 |
-
2020
- 2020-07-23 CN CN202010714765.7A patent/CN111898386A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732876A (zh) * | 2021-02-08 | 2021-04-30 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
CN112732876B (zh) * | 2021-02-08 | 2022-07-08 | 杭州北冥星眸科技有限公司 | 一种通用的语义匹配实现方法与系统 |
CN114255427A (zh) * | 2021-12-21 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频理解方法、装置、设备、存储介质以及程序产品 |
CN114255427B (zh) * | 2021-12-21 | 2023-04-18 | 北京百度网讯科技有限公司 | 视频理解方法、装置、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN111191275A (zh) | 敏感数据识别方法、系统及其装置 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
US20170270096A1 (en) | Method and system for generating large coded data set of text from textual documents using high resolution labeling | |
US20230126751A1 (en) | Dynamic intent classification based on environment variables | |
EP2671190B1 (en) | System for data extraction and processing | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
Sheshikala et al. | Natural language processing and machine learning classifier used for detecting the author of the sentence | |
CN111898386A (zh) | 基于自然语言的语义解析方法、装置、设备及存储介质 | |
CN111737990A (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111209753A (zh) | 一种实体命名识别方法及装置 | |
CN114416976A (zh) | 文本标注方法、装置及电子设备 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
CN111492364A (zh) | 数据标注方法、装置及存储介质 | |
CN110852082B (zh) | 同义词的确定方法及装置 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN112487154A (zh) | 一种基于自然语言的智能搜索方法 | |
US20240054280A1 (en) | Segmenting an Unstructured Set of Data | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN114118049B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN115115432A (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN112100368B (zh) | 对话交互意图的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201106 |