CN115270786B - 一种识别问句意图的方法、装置、设备和可读存储介质 - Google Patents
一种识别问句意图的方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN115270786B CN115270786B CN202211177935.8A CN202211177935A CN115270786B CN 115270786 B CN115270786 B CN 115270786B CN 202211177935 A CN202211177935 A CN 202211177935A CN 115270786 B CN115270786 B CN 115270786B
- Authority
- CN
- China
- Prior art keywords
- question
- nouns
- core
- words
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种识别问句意图的方法、装置、设备和可读存储介质,该方法包括,利用依存句法分析对待识别问句进行分析,得到分析结果;根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;根据核心词,识别待识别问句的意图。通过该方法可以达到提高识别问句意图的准确率的效果。
Description
技术领域
本申请涉及识别问句意图的领域,具体而言,涉及一种识别问句意图的方法、装置、设备和可读存储介质。
背景技术
目前,对自然语言形式的问句进行问句意图分析时,主要通过将问句切分成多个字词,然后对字词进行意图分析,进而确定整个问句的意图。
上述确定问句意图时,容易出现切分字词不准确,导致最终分析问句意图出现不准确的情况。
因此,如何提高识别问句意图的准确率,是一个需要解决的技术问题。
发明内容
本申请实施例的目的在于提供一种识别问句意图的方法,通过本申请的实施例的技术方案可以达到提高识别问句意图的准确率的效果。
第一方面,本申请实施例提供了一种识别问句意图的方法,包括,利用依存句法分析对待识别问句进行分析,得到分析结果;根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;根据核心词,识别待识别问句的意图。
本申请在上述实施例中,通过句法分析确定待识别问句中的核心词,通过核心词识别待识别问句的意图,不像现有那样将问句切分成多个字词,进而分析问句的意图,本申请可以节省分析问句意图的时间并且可以达到提高识别问句意图的准确率的效果。
在一些实施例中,根据分析结果,确定待识别问句的核心词,包括:
根据分析结果,确定待识别问句是否存在关键词,其中,关键词包括判断性疑问字词、叙述性疑问字词、诊断性疑问字词、述理性疑问字词和求异性疑问字词中的至少一个;
在确定待识别问句存在关键词时,根据关键词的属性,确定待识别问句的核心词,其中,关键词的属性包括修饰属性或者动宾属性;
在确定待识别问句不存在关键词时,将待识别问句的名词作为待识别问句的核心词。
本申请在上述实施例中,本申请可以通过确定待识别问句是否存在关键词确定待识别问句的核心词,并且可以通过不同的关键词利用不同的方法确定待识别问句的核心词,提高确定核心词的准确性,进而提高识别待识别问句的意图的准确率。
在一些实施例中,根据关键词的属性,确定待识别问句的核心词,包括:
当关键词的属性为修饰属性时,若预设字词前的名词为一个名词,将一个名词作为核心词;
若预设字词前的名词为多个名词,确定多个名词中的核心词。
本申请在上述实施例中,通过预设字词前的名词可以直接确定待识别问句的核心词,可以更方便的获取待识别问句的核心词。
在一些实施例中,确定多个名词中的核心词,包括:
基于多个名词中的每一个名词在知识库中的层次深度,将深度值最小对应的名词作为核心词。
本申请在上述实施例中,若名词为多个时,可以根据名词在知识库中的深度确定核心词,可以更高效的获取待识别问句的核心词。
在一些实施例中,确定多个名词中的核心词,包括:
基于中文词库中多个词语的语义关系,确定多个名词中每一名词的泛化程度;
基于多个名词中每一名词的泛化程度,对多个名词中每一名词进行打分,得到第一分数;
基于历史数据中多个名词中每一名词出现的频率,对多个名词中每一名词进行打分,得到第二分数;
将第一分数和第二分数加权求和,得到多个名词中每一名词的最终分数;
根据最终分数,确定核心词。
本申请在上述实施例中,通过名词的泛化程度得分和历史出现频率得分共同确定最终的核心词,使获取待识别问句的核心词更加准确。
在一些实施例中,确定多个名词中的核心词,包括:
将多个名词输入核心词筛选模型中,得到多个名词对应的分数;
根据多个名词对应的分数,确定核心词。
本申请在上述实施例中,通过核心词筛选模型筛选多个名词中的核心词,可以更准确、直接的获取待识别问句的核心词。
在一些实施例中,在将多个名词输入核心词筛选模型中,得到核心词之前,还包括:
利用不同词语和不同词语对应的分数对基础模型进行训练,得到核心词筛选模型。
本申请在上述实施例中,通过训练的核心词筛选模型筛选多个名词中的核心词,可以更准确、直接的获取待识别问句的核心词。
在一些实施例中,确定待识别问句的核心词,包括:
当关键词的属性为动宾属性时,将关键词对应的主语作为核心词。
本申请在上述实施例中,当关键词是动宾词时,可以将待识别问句的主语作为核心词,保证获取待识别问句的准确性。
在一些实施例中,确定待识别问句的核心词,包括:
确定初始核心词;
对初始核心词进行扩展,得到核心词,其中,扩展的方式包括同义词扩展、同类别扩展和同属性扩展中的至少一个。
本申请在上述实施例中,通过对核心词的扩展,可以得到待识别问句的多个核心词,通过多个核心词识别待识别问句的意图可以更加准确。
在一些实施例中,确定待识别问句的核心词,包括:
当确定初始核心词包括修饰词和被修饰词时,删除修饰词,得到核心词。
本申请在上述实施例中,如果核心词组成为修饰词和被修饰词,删除修饰词可以直接得到核心词,提高核心词获取的精度。
第二方面,本申请实施例提供了一种识别问句意图的装置,包括:
分析模块,用于利用依存句法分析对待识别问句进行分析,得到分析结果;
确定模块,用于根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;
识别模块,用于根据核心词,识别待识别问句的意图。
可选的,确定模块具体用于:
根据分析结果,确定待识别问句是否存在关键词,其中,关键词包括判断性疑问字词、叙述性疑问字词、诊断性疑问字词、述理性疑问字词和求异性疑问字词中的至少一个;
在确定待识别问句存在关键词时,根据关键词的属性,确定待识别问句的核心词,其中,关键词的属性包括修饰属性或者动宾属性;
在确定待识别问句不存在关键词时,将待识别问句的名词作为待识别问句的核心词。
可选的,确定模块具体用于:
当关键词的属性为修饰属性时,若预设字词前的名词为一个名词,将一个名词作为核心词;
若预设字词前的名词为多个名词,确定多个名词中的核心词。
可选的,确定模块具体用于:
基于多个名词中的每一个名词在知识库中的层次深度,将深度值最小对应的名词作为核心词。
可选的,确定模块具体用于:
基于中文词库中多个词语的语义关系,确定多个名词中每一名词的泛化程度;
基于多个名词中每一名词的泛化程度,对多个名词中每一名词进行打分,得到第一分数;
基于历史数据中多个名词中每一名词出现的频率,对多个名词中每一名词进行打分,得到第二分数;
将第一分数和第二分数加权求和,得到多个名词中每一名词的最终分数;
根据最终分数,确定核心词。
可选的,确定模块具体用于:
将多个名词输入核心词筛选模型中,得到多个名词对应的分数;
根据多个名词对应的分数,确定核心词。
可选的,所述装置还包括:
训练模块,用于所述确定模块在将多个名词输入核心词筛选模型中,得到核心词之前,利用不同词语和不同词语对应的分数对基础模型进行训练,得到核心词筛选模型。
可选的,确定模块具体用于:
当关键词的属性为动宾属性时,将关键词对应的主语作为核心词。
可选的,确定模块具体用于:
确定初始核心词;
对初始核心词进行扩展,得到核心词,其中,扩展的方式包括同义词扩展、同类别扩展和同属性扩展中的至少一个。
可选的,确定模块具体用于:
当确定初始核心词包括修饰词和被修饰词时,删除修饰词,得到核心词。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种识别问句意图的方法的流程图;
图2为本申请实施例提供的一种识别问句意图的实施方法的流程图;
图3为本申请实施例提供的一种识别问句意图的装置的示意框图;
图4为本申请实施例提供的一种识别问句意图的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和显示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
首先对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
NLP:自然语言处理(NLP,Natural Language Processing) 是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。
LTP:语言技术平台(Language Technology Platform,LTP)提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。
依存句法分析:是指识别语句中词与词之间的依存关系,并揭示其句法结构,包括主谓关系、动宾关系、核心关系等。用依存语言学来理解语义,精准掌握用户意图。
本申请应用于识别问句意图的场景,具体场景为根据问句中的核心词,识别整个问句的意图。
在很多NLP问题中,对自然语言形式进行问题意图分析是一个基本且有难度的问题,目前对自然语言形式的问句进行问句意图分析时,主要通过将问句切分成多个字词,然后对字词进行意图分析,进而确定整个问句的意图。上述确定问句意图时,容易出现切分字词不准确,导致最终分析问句意图出现不准确的情况。
为此本申请通过利用依存句法分析对待识别问句进行分析,得到分析结果;根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;根据核心词,识别待识别问句的意图。通过句法分析确定待识别问句中的核心词,通过核心词识别待识别问句的意图,不像现有那样将问句切分成多个字词,进而分析问句的意图,本申请可以节省分析问句意图的时间并且可以达到提高识别问句意图的准确率的效果。
本申请实施例中,执行主体可以为识别问句意图系统中的识别问句意图设备,实际应用中,识别问句意图设备可以为终端设备和服务器等电子设备,在此不做限制。
下面结合图1对本申请实施例的识别问句意图的方法进行详细描述。
请参看图1,图1为本申请实施例提供的一种识别问句意图的方法的流程图,如图1所示的识别问句意图的方法包括:
步骤110:利用依存句法分析对待识别问句进行分析,得到分析结果。
其中,待识别问句包括判断性疑问句、叙述性疑问句、诊断性疑问句、述理性疑问句和求异性疑问句中的至少一个。利用依存句法分析对待识别问句进行分析,得到分析结果包括,利用依存句法分析将待识别问句解析成一棵依存句法树,树的节点为待识别问句的字词,树的边为字词之间的依存关系,例如,包括主谓关系、动宾关系、核心关系等。
步骤120:根据分析结果,确定待识别问句的核心词。
其中,核心词包括待识别问句中的部分字词。
在本申请的一些实施例中,根据分析结果,确定待识别问句的核心词,包括:根据分析结果,确定待识别问句是否存在关键词,其中,关键词包括判断性疑问字词、叙述性疑问字词、诊断性疑问字词、述理性疑问字词和求异性疑问字词中的至少一个;在确定待识别问句存在关键词时,根据关键词的属性,确定待识别问句的核心词,其中,关键词的属性包括修饰属性或者动宾属性;在确定待识别问句不存在关键词时,将待识别问句的名词作为待识别问句的核心词。
本申请在上述过程中,本申请可以通过确定待识别问句是否存在关键词确定待识别问句的核心词,并且可以通过不同的关键词利用不同的方法确定待识别问句的核心词,提高确定核心词的准确性,进而提高识别待识别问句的意图的准确率。
其中,关键词包括疑问词,表示待识别问句中的疑问词。修饰属性可以是一些修饰词或者形容词等,动宾属性可以是一些动词或者宾语等。
在本申请的一些实施例中,根据关键词的属性,确定待识别问句的核心词,包括:当关键词的属性为修饰属性时,若预设字词前的名词为一个名词,将一个名词作为核心词;若预设字词前的名词为多个名词,确定多个名词中的核心词。
本申请在上述过程中,通过预设字词前的名词可以直接确定待识别问句的核心词,可以更方便的获取待识别问句的核心词。
其中,预设字词可以是一些语气助词,例如“之”、“的”和“吗”等。
在本申请的一些实施例中,确定多个名词中的核心词,包括:基于多个名词中的每一个名词在知识库中的层次深度,将深度值最小对应的名词作为核心词。
本申请在上述过程中,若名词为多个时,可以根据名词在知识库中的深度确定核心词,可以更高效的获取待识别问句的核心词。
其中,将深度值最小对应的名词作为核心词,例如,“高三八班的班长是谁”,可以确定其中的名词为“高三八班”和“班长”,在知识库中“班长”的深度值小于“高三八班”,因此,“班长”即为核心词。
在本申请的一些实施例中,确定多个名词中的核心词,包括:基于中文词库中多个词语的语义关系,确定多个名词中每一名词的泛化程度;基于多个名词中每一名词的泛化程度,对多个名词中每一名词进行打分,得到第一分数;基于历史数据中多个名词中每一名词出现的频率,对多个名词中每一名词进行打分,得到第二分数;将第一分数和第二分数加权求和,得到多个名词中每一名词的最终分数;根据最终分数,确定核心词。
本申请在上述过程中,通过名词的泛化程度得分和历史出现频率得分共同确定最终的核心词,使获取待识别问句的核心词更加准确。
其中,在中文词库中,每一名词都对应一个泛化程度,用于表示词语的形容的严重程度,形容深度等。可以只根据多个名词中每一名词的泛化程度对名词进行打分,确定核心词,也可以只根据多个名词中每一名词在历史数据中出现的频率进行打分,确定核心词,还可以根据泛化程度得分和出现频率得分共同确定核心词。
在本申请的一些实施例中,确定多个名词中的核心词,包括:将多个名词输入核心词筛选模型中,得到多个名词对应的分数;根据多个名词对应的分数,确定核心词。
本申请在上述过程中,通过核心词筛选模型筛选多个名词中的核心词,可以更准确、直接的获取待识别问句的核心词。
其中,核心词筛选模型可以确定每一名词在中文词库中的泛化程度和历史数据中每一名词出现的频率,进而根据名词的泛化程度和出现的频率对每一名词进行打分,最后根据加权求和可以得到每一名词的最终分数。进而根据每一名词的分数确定核心词。
在本申请的一些实施例中,在将多个名词输入核心词筛选模型中,得到核心词之前,图1所示的方法还包括:利用不同词语和不同词语对应的分数对基础模型进行训练,得到核心词筛选模型。
本申请在上述过程中,通过训练的核心词筛选模型筛选多个名词中的核心词,可以更准确、直接的获取待识别问句的核心词。
在本申请的一些实施例中,确定待识别问句的核心词,包括:当关键词的属性为动宾属性时,将关键词对应的主语作为核心词。
本申请在上述过程中,当关键词是动宾词时,可以将待识别问句的主语作为核心词,保证获取待识别问句的准确性。
其中,当关键词的属性为动宾属性时,将关键词对应的主语作为核心词,例如,当关键词为一个动词或者宾语等字词时,待识别问句为中的主语可以作为核心词。也就是说当关键词的属性为动宾属性时,寻找依存句法树中的根节点上的名词作为核心词。
在本申请的一些实施例中,确定待识别问句的核心词,包括:确定初始核心词;对初始核心词进行扩展,得到核心词,其中,扩展的方式包括同义词扩展、同类别扩展和同属性扩展中的至少一个。
本申请在上述过程中,通过对核心词的扩展,可以得到待识别问句的多个核心词,通过多个核心词识别待识别问句的意图可以更加准确。
其中,同义类别扩展,例如,“大国”扩展出“国家”,“名校”扩展出“大学”。同类别扩展,“女明星”扩展出“明星”,进而再扩展出“人物”,“名山”扩展出“山峰”,进而再扩展出“自然景观”,进而再扩展出“地理”。同属性扩展,通过离线挖掘发现对于人物类答案,性别是有限定作用的等特征,“女演员”扩展出“人物”,限定属性可以是性别,例如,“女”,“中东国家”扩展出“国家”,限定属性可以为所属区域,例如,“东方”。核心词扩展类似同义词扩展,一方面是基于搜索日志查找对应的扩展词,具体是采用了同点击、同时期(session)的搜索问题(query)挖掘扩展;另一方面是基于百科词条中的标签(tag)和类别(category)数据进行扩展。
在本申请的一些实施例中,确定待识别问句的核心词,包括:当确定初始核心词包括修饰词和被修饰词时,删除修饰词,得到核心词。
本申请在上述过程中,如果核心词组成为修饰词和被修饰词,删除修饰词可以直接得到核心词,提高核心词获取的精度。
例如,初始核心词:“美丽的城堡”,核心词:“城堡”;初始核心词:“女演员”,核心词:“演员”。
步骤130:根据核心词,识别待识别问句的意图。
具体的,通过核心词的语义匹配相关意思的疑问句,识别待识别问句的意图。通过核心词的语义,匹配意图库中的意图。
在上述图1所示的过程中,本申请通过利用依存句法分析对待识别问句进行分析,得到分析结果;根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;根据核心词,识别待识别问句的意图。通过句法分析确定待识别问句中的核心词,通过核心词识别待识别问句的意图,不像现有那样将问句切分成多个字词,进而分析问句的意图,本申请可以节省分析问句意图的时间并且可以达到提高识别问句意图的准确率的效果。
下面结合图2对本申请实施例的识别问句意图的实施方法进行详细描述。
请参看图2,图2为本申请实施例提供的一种识别问句意图的实施方法的流程图,如图2所示的识别问句意图的实施方法包括:
以问句“XX学校高一三班的班长是谁”为例,识别问句意图的实施方法包括:
步骤210:确定待识别问句中的疑问词。
具体的,确定待识别问句是否存在疑问词,存在疑问词进行步骤220,不存在疑问词进行步骤230。其中上述疑问句的疑问词为“谁”。
步骤220:根据疑问词的属性,确定待识别问句的核心词。
具体的,当疑问词的属性为修饰属性时,若预设字词前的名词为一个名词,将一个名词作为核心词;若预设字词前的名词为多个名词,确定多个名词中的核心词。当疑问词的属性为动宾属性时,将疑问词对应的主语作为核心词。其中,上述疑问词为修饰属性,则多个名词分别为,“XX学校”、“高一三班”和“班长”。此外确定多个名词中的核心词可以利用图1中所示的方法。
步骤230:将待识别问句的名词作为待识别问句的核心词。
具体的,将待识别问句中的全部名词都作为核心词。
步骤240:根据核心词,识别待识别问句的意图。
此外,图2所示的方法和步骤可参看图1所示的方法和步骤,此处不在过多赘述。
前文通过图1-图2描述了识别问句意图的方法,下面结合图3-图4描述识别问句意图的装置。
请参照图3,为本申请实施例中提供的一种识别问句意图的装置300的示意框图,该装置300可以是电子设备上的模块、程序段或代码。该装置300与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置300具体的功能可以参见下文中的描述,为避免重复,此处适当省略详细描述。
可选的,所述装置300包括:
分析模块310,用于利用依存句法分析对待识别问句进行分析,得到分析结果;
确定模块320,用于根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;
识别模块330,用于根据核心词,识别待识别问句的意图。
可选的,确定模块具体用于:
根据分析结果,确定待识别问句是否存在关键词,其中,关键词包括判断性疑问字词、叙述性疑问字词、诊断性疑问字词、述理性疑问字词和求异性疑问字词中的至少一个;在确定待识别问句存在关键词时,根据关键词的属性,确定待识别问句的核心词,其中,关键词的属性包括修饰属性或者动宾属性;在确定待识别问句不存在关键词时,将待识别问句的名词作为待识别问句的核心词。
可选的,确定模块具体用于:
当关键词的属性为修饰属性时,若预设字词前的名词为一个名词,将一个名词作为核心词;若预设字词前的名词为多个名词,确定多个名词中的核心词。
可选的,确定模块具体用于:
基于多个名词中的每一个名词在知识库中的层次深度,将深度值最小对应的名词作为核心词。
可选的,确定模块具体用于:
基于中文词库中多个词语的语义关系,确定多个名词中每一名词的泛化程度;基于多个名词中每一名词的泛化程度,对多个名词中每一名词进行打分,得到第一分数;基于历史数据中多个名词中每一名词出现的频率,对多个名词中每一名词进行打分,得到第二分数;将第一分数和第二分数加权求和,得到多个名词中每一名词的最终分数;根据最终分数,确定核心词。
可选的,确定模块具体用于:
将多个名词输入核心词筛选模型中,得到多个名词对应的分数;根据多个名词对应的分数,确定核心词。
可选的,所述装置还包括:
训练模块,用于所述确定模块在将多个名词输入核心词筛选模型中,得到核心词之前,利用不同词语和不同词语对应的分数对基础模型进行训练,得到核心词筛选模型。
可选的,确定模块具体用于:
当关键词的属性为动宾属性时,将关键词对应的主语作为核心词。
可选的,确定模块具体用于:
确定初始核心词;对初始核心词进行扩展,得到核心词,其中,扩展的方式包括同义词扩展、同类别扩展和同属性扩展中的至少一个。
可选的,确定模块具体用于:
当确定初始核心词包括修饰词和被修饰词时,删除修饰词,得到核心词。
请参照图4为本申请实施例中提供的一种识别问句意图的装置400的结构示意框图,该装置可以包括存储器410和处理器420。可选的,该装置还可以包括:通信接口430和通信总线440。该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见下文中的描述。
具体的,存储器410,用于存储计算机可读指令。
处理器420,用于处理存储器存储的可读指令,能够执行图1方法中的各个步骤。
通信接口430,用于与其他节点设备进行信令或数据的通信。例如:用于与服务器或者终端的通信,或者与其它设备节点进行通信,本申请实施例并不限于此。
通信总线440,用于实现上述组件直接的连接通信。
其中,本申请实施例中设备的通信接口430用于与其他节点设备进行信令或数据的通信。存储器410可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器410可选的还可以是至少一个位于远离前述处理器的存储装置。存储器410中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器420执行时,电子设备执行上述图1所示方法过程。处理器420可以用于装置300上,并且用于执行本申请中的功能。示例性地,上述的处理器420可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,本申请实施例并不局限于此。
本申请实施例还提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图1所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种识别问句意图的方法、装置、电子设备和可读存储介质,该方法包括,利用依存句法分析对待识别问句进行分析,得到分析结果;根据分析结果,确定待识别问句的核心词,其中,核心词包括待识别问句中的部分字词;根据核心词,识别待识别问句的意图。通过该方法可以达到提高识别问句意图的准确率的效果。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种识别问句意图的方法,其特征在于,包括:
利用依存句法分析对待识别问句进行分析,得到分析结果;
根据所述分析结果,确定所述待识别问句的核心词,其中,所述核心词包括所述待识别问句中的部分字词,所述根据所述分析结果,确定所述待识别问句的核心词,包括,根据所述分析结果,确定所述待识别问句是否存在关键词,其中,所述关键词的属性包括修饰属性或者动宾属性;在确定所述待识别问句存在所述关键词时,当所述关键词的属性为所述修饰属性时,若预设字词前的名词为一个名词,将所述一个名词作为所述核心词;若所述预设字词前的名词为多个名词,确定所述多个名词中的核心词,其中,所述确定所述多个名词中的核心词,包括,基于中文词库中多个词语的语义关系,确定所述多个名词中每一名词的泛化程度;基于所述多个名词中每一名词的泛化程度,对所述多个名词中每一名词进行打分,得到第一分数;基于历史数据中所述多个名词中每一名词出现的频率,对所述多个名词中每一名词进行打分,得到第二分数;将所述第一分数和所述第二分数加权求和,得到所述多个名词中每一名词的最终分数;根据所述最终分数,确定所述核心词;在确定所述待识别问句不存在所述关键词时,将所述待识别问句的名词作为所述待识别问句的核心词;
根据所述核心词,识别所述待识别问句的意图。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个名词中的核心词,包括:
基于所述多个名词中的每一个名词在知识库中的层次深度,将深度值最小对应的名词作为所述核心词。
3.根据权利要求2所述的方法,其特征在于,所述确定所述多个名词中的核心词,包括:
将所述多个名词输入核心词筛选模型中,得到所述多个名词对应的分数;
根据所述多个名词对应的分数,确定所述核心词。
4.根据权利要求3所述的方法,其特征在于,在所述将所述多个名词输入核心词筛选模型中之前,所述方法还包括:
利用不同词语和所述不同词语对应的分数对基础模型进行训练,得到所述核心词筛选模型。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述关键词的属性,确定所述待识别问句的核心词,包括:
当所述关键词的属性为所述动宾属性时,将所述关键词对应的主语作为所述核心词。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述确定所述待识别问句的核心词,包括:
确定初始核心词;
对所述初始核心词进行扩展,得到所述核心词,其中,所述扩展的方式包括同义词扩展、同类别扩展和同属性扩展中的至少一个。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述确定所述待识别问句的核心词,包括:
当确定初始核心词包括修饰词和被修饰词时,删除所述修饰词,得到所述核心词。
8.一种识别问句意图的装置,其特征在于,包括:
分析模块,用于利用依存句法分析对待识别问句进行分析,得到分析结果;
确定模块,用于根据所述分析结果,确定所述待识别问句的核心词,其中,所述核心词包括所述待识别问句中的部分字词,所述根据所述分析结果,确定所述待识别问句的核心词,包括,根据所述分析结果,确定所述待识别问句是否存在关键词,其中,所述关键词的属性包括修饰属性或者动宾属性;在确定所述待识别问句存在所述关键词时,当所述关键词的属性为所述修饰属性时,若预设字词前的名词为一个名词,将所述一个名词作为所述核心词;若所述预设字词前的名词为多个名词,确定所述多个名词中的核心词,其中,所述确定所述多个名词中的核心词,包括,基于中文词库中多个词语的语义关系,确定所述多个名词中每一名词的泛化程度;基于所述多个名词中每一名词的泛化程度,对所述多个名词中每一名词进行打分,得到第一分数;基于历史数据中所述多个名词中每一名词出现的频率,对所述多个名词中每一名词进行打分,得到第二分数;将所述第一分数和所述第二分数加权求和,得到所述多个名词中每一名词的最终分数;根据所述最终分数,确定所述核心词;在确定所述待识别问句不存在所述关键词时,将所述待识别问句的名词作为所述待识别问句的核心词;
识别模块,用于根据所述核心词,识别所述待识别问句的意图。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括:
计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211177935.8A CN115270786B (zh) | 2022-09-27 | 2022-09-27 | 一种识别问句意图的方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211177935.8A CN115270786B (zh) | 2022-09-27 | 2022-09-27 | 一种识别问句意图的方法、装置、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270786A CN115270786A (zh) | 2022-11-01 |
CN115270786B true CN115270786B (zh) | 2022-12-27 |
Family
ID=83757482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211177935.8A Active CN115270786B (zh) | 2022-09-27 | 2022-09-27 | 一种识别问句意图的方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270786B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528531B (zh) * | 2016-10-31 | 2019-09-03 | 北京百度网讯科技有限公司 | 基于人工智能的意图分析方法及装置 |
CN108345608A (zh) * | 2017-01-24 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及设备 |
CN110765759B (zh) * | 2019-10-21 | 2023-05-19 | 普信恒业科技发展(北京)有限公司 | 意图识别方法及装置 |
CN112069298B (zh) * | 2020-07-31 | 2024-06-14 | 杭州远传新业科技股份有限公司 | 基于语义网和意图识别的人机交互方法、设备及介质 |
CN111708874B (zh) * | 2020-08-24 | 2020-11-13 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN112651226B (zh) * | 2020-09-21 | 2022-03-29 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
-
2022
- 2022-09-27 CN CN202211177935.8A patent/CN115270786B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115270786A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Torres-Moreno | Automatic text summarization | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
CN104050256B (zh) | 基于主动学习的问答方法及采用该方法的问答系统 | |
Cetto et al. | Graphene: Semantically-linked propositions in open information extraction | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
Athar | Sentiment analysis of scientific citations | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
Imam et al. | An ontology-based summarization system for arabic documents (ossad) | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN111553160A (zh) | 一种获取法律领域问句答案的方法和系统 | |
Tripathi et al. | Word sense disambiguation in Hindi language using score based modified lesk algorithm | |
Nityasya et al. | Hypernym-hyponym relation extraction from indonesian wikipedia text | |
Tapsai et al. | Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Chifu et al. | A system for detecting professional skills from resumes written in natural language | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
Fudholi et al. | Ontology-based information extraction for knowledge enrichment and validation | |
CN115270786B (zh) | 一种识别问句意图的方法、装置、设备和可读存储介质 | |
Muhammad et al. | EUTS: extractive Urdu text summarizer | |
Zuhori et al. | Ontological knowledge extraction from natural language text | |
Clementeena et al. | A literature survey on question answering system in natural language processing | |
Kalender et al. | THINKER-entity linking system for Turkish language | |
CN112732885A (zh) | 用于问答系统的答案扩展方法、装置及电子设备 | |
Nothman | Learning named entity recognition from Wikipedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |