CN113255351A - 语句意图识别方法、装置、计算机设备及存储介质 - Google Patents
语句意图识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113255351A CN113255351A CN202110691968.3A CN202110691968A CN113255351A CN 113255351 A CN113255351 A CN 113255351A CN 202110691968 A CN202110691968 A CN 202110691968A CN 113255351 A CN113255351 A CN 113255351A
- Authority
- CN
- China
- Prior art keywords
- sentence
- concept
- sentence pattern
- sentences
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及语义识别领域,揭示了一种语句意图识别方法、装置、计算机设备及存储介质,其中方法包括:获取待识别的语句;对所述语句进行分词,得到所述语句包含的关键词;基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。本申请能够提高语句的识别准确度。
Description
技术领域
本申请涉及到语义识别领域,特别是涉及到一种语句意图识别方法、装置、计算机设备及存储介质。
背景技术
目前的现有智能客服系统一般会设计很多标准问和相似问,形成十分庞大的知识库,训练模型对用户问题进行意图识别,通过不断地扩充知识来提高模型的泛化能力,以更好地解答问题,满足用户的诉求。目前的语句识别的匹配方式较僵化,难以精准捕捉到用户问完整的语义信息,易出现仅识别到局部意图的错误,或者可解释性较低,无法准确、全面、高效地识别语句的意图。
发明内容
本申请的主要目的为提供一种语句意图识别方法、装置、计算机设备及存储介质,旨在解决目前无法准确、全面、高效进行语句意图识别的问题。
为了实现上述发明目的,本申请提出一种语句意图识别方法,包括:
获取待识别的语句;
对所述语句进行分词,得到所述语句包含的关键词;
基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;
将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;
根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;
计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
进一步地,所述基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,还包括:
根据各个所述概念的关联度将所述概念进行组合,得到组合概念;
所述将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式,包括:
将所述组合概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与组合概念索引关系,且每个句式结构中包含多个不同的概念及组合概念。
进一步地,所述对所述语句进行分词,得到所述语句包含的关键词之后,还包括:
从知识库中获取所述关键词的同义词;
所述基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,还包括:
将所述同义词映射为与所述关键词相同的概念,以扩充所述概念映射的关键词。
进一步地,所述根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,包括:
将所述概念映射的所述关键词,及所述关键词的同义词作为所述概念包含的实体;
将各个概念包含的实体填入到所述召回句式中对应的概念中对所述召回句式进行词语嵌入,得到相似问句。
进一步地,所述将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式,包括:
获取所述概念的个数,根据所述概念的个数计算所述语句的复杂度;
根据所述语句的复杂度确定匹配率,作为预设匹配率;
根据所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构。
进一步地,所述选取相似度最高的相似问句作为所述语句的意图识别结果之后,还包括:
根据所述意图识别结果,从知识库中获取所述语句的回复语句;
输出所述回复语句。
进一步地,所述根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,包括:
使用BERT算法模型根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句。
本申请还提供一种语句意图识别装置,包括:
语句获取模块,用于获取待识别的语句;
语句分词模块,用于对所述语句进行分词,得到所述语句包含的关键词;
概念映射模块,用于基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;
句式映射模块,用于将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;
句式填充模块,用于根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;
意图识别模块,用于计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述语句意图识别方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述语句意图识别方法的步骤。
本申请例提供了一种引入倒排索引、反向索引的语句意图识别方法,首先获取待识别的语句,然后对所述语句进行分词,得到所述语句包含的关键词,基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述概念表示所述关键词在语句的句式结构中的语义成分,将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构,且所述召回句式包含若干个不同的召回句式,根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,即将所述召回句式中各个概念进行词语嵌入,所述词语为不同的所述概念包含的实体,从而得到所述语句对应的相似问句,然后计算所述相似问句的与所述语句的相似度,再选取相似度最高的相似问句作为所述语句的意图识别结果,由于召回句式已经明确了句子中的各个语义成分,基于召回句式嵌入词语得到的相似问句能够进行准确地意图解析,从而准确、全面地得到所述语句的意图识别结果,提高问句的识别效率与准确度。
附图说明
图1为本申请语句意图识别方法的一实施例流程示意图;
图2为本申请语句意图识别方法的另一实施例流程示意图;
图3为本申请语句意图识别装置的一实施例结构示意图;
图4为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种语句意图识别方法,包括步骤S10-S60,对于所述语句意图识别方法的各个步骤的详细阐述如下。
S10、获取待识别的语句。
S20、对所述语句进行分词,得到所述语句包含的关键词。
本实施例应用于问答语句的识别场景,智能客服系统通过设计很多标准问和相似问的数据,形成庞大的知识库对用户问进行意图识别,通过不断地扩充知识库来提高用户问的语句意图的识别能力,以更好地解答问题,满足用户的问答需求。当用户输入语句后,此时获取语句,将获取的语句定义为待识别的语句,为了更准确地对语句的语义进行识别,对所述待识别的语句进行分词,在一种实施方式中,基于自然语言处理对所述语句进行分词,其中,对于语句中与其前后的字无法连成词的单个字,将该单个字分开作为独字词,对于语句中可成词语的相邻的多个字进行组合,作为多字词,将所述独字词与所述多字词定义为语句的关键词,从而得到所述语句包含的关键词。
例如,获取待识别的语句是“基因卡购买后怎么用”,分词后包括“基因卡”、“购买”、“后”、“怎么”、“用”等多个关键词;例如获取待识别的语句是“法人是一种组织”,分词后包括“法人”、“是”、“一种”、“组织”等多个关键词。
S30、基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分。
本实施例中,预先建立有关键词与概念的倒排索引,定义为预设的倒排索引,所述预设的倒排索引包含关键词与概念的索引关系,即能够根据关键词进行概念的匹配,所述概念表示所述关键词在语句的句式结构中的语义成分,本实施例中,定义句式结构中包含“状态”“实体”“问题类型”“操作”等若干个语义成分,然后根据预设的倒排索引对所述关键词进行匹配,即确定所述关键词在语句中是作为哪种语义成分出现的,从而获取所述关键词映射的概念。
S40、将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构。
本实施例中,在知晓所述语句包含了多少个概念之后,将所述概念通过预设的反向索引进行匹配,得到召回句式,所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念,所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;具体的,在预设的反向索引中对每一种句式结构进行检索,获取每一种句式结构包含的概念,然后将所述待识别语句得到的概念与所述句式结构包含的概念进行匹配,得到每一种句式结构与所述待识别语句的匹配率,具体的,当所述待识别语句得到的概念与所述句式结构包含的概念存在相同的概念越多时,则匹配率越高,然后选取匹配率满足预设匹配率的句式结构,作为召回句式。
S50、根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;
S60、计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
本实施例中,在得到满足召回句式,所述召回句式表征了所述语句能够变化的多种类型,且所述召回句式的数量大于一个,然后根据所述概念包含的实体对所述召回句式进行词语嵌入,即将所述召回句式中包含的各个概念进行填写,具体的,使用BERT预训练模型根据所述概念包含的实体对所述概念进行词语嵌入,得到词语嵌入后的召回句式,将所述召回句式进行词语嵌入后对应的问句定义为相似问句,然后计算所述相似问句的与所述待识别的语句的相似度,通过相似度来判断哪个召回句式进行词语嵌入的结果最准确,在一种实施方式中,选取相似度最高的相似问句作为所述语句的意图识别结果,由于召回句式已经明确了句子中的各个语义成分,根据所述召回句式能够对句子的语义进行准确地解析,解析得到的结果作为待识别的语句的意图识别结果,从而准确地得到所述待识别的语句的意图识别结果。
本实施例提供了一种引入倒排索引、反向索引的语句意图识别方法,首先获取待识别的语句,然后对所述语句进行分词,得到所述语句包含的关键词,基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述概念表示所述关键词在语句的句式结构中的语义成分,将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构,且所述召回句式包含若干个不同的召回句式,根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,即将所述召回句式中各个概念进行词语嵌入,所述词语为不同的所述概念包含的实体,从而得到所述语句对应的相似问句,然后计算所述相似问句的与所述语句的相似度,再选取相似度最高的相似问句作为所述语句的意图识别结果,由于召回句式已经明确了句子中的各个语义成分,基于召回句式嵌入词语得到的相似问句能够进行准确地意图解析,从而准确、全面地得到所述语句的意图识别结果,提高问句的识别效率与准确度。
在一个实施例中,所述基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,还包括:
根据各个所述概念的关联度将所述概念进行组合,得到组合概念;
所述将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式,包括:
将所述组合概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与组合概念索引关系,且每个句式结构中包含多个不同的概念及组合概念。
本实施例中,在得到各个关键词在句式结构中的语义,即将所述关键词映射为概念之后,根据各个所述概念的关联度将所述概念进行组合,得到组合概念,在一种实施方式中,当语句中包含了多个不同的关键词,而有至少两个不同的关键词映射为同一概念时,将两个关键词对应的概念进行组合,从而得到组合概念。然后将所述组合概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与组合概念索引关系,且每个句式结构中包含多个不同的概念及组合概念,即组合概念是在组合概念与句式结构的反向索引中进行匹配,通过将概念进行组合,得到组合概念,能够有效地减少语句尤其是长语句的句子成分,提高召回句式的匹配效率,提高语句识别的效率。
在一个实施例中,所述对所述语句进行分词,得到所述语句包含的关键词之后,还包括:
从知识库中获取所述关键词的同义词;
所述基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,还包括:
将所述同义词映射为与所述关键词相同的概念,以扩充所述概念映射的关键词。
本实施例中,在识别所述语句,对所述语句进行分词,得到所述语句包含的关键词之后,为了更加准确地对关键词进行分类,从知识库中获取所述关键词的同义词,从而对所述关键词进行扩充,扩充后的关键词包含了原始语句中进行分词后得到的关键词以及进行扩充的同义词,在基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,将所述同义词映射为与所述关键词相同的概念,以扩充所述概念映射的关键词,即扩充概念包含的实体,通过扩充关键词,能够适应更多场景的语句识别,提高语句意图识别的适用性。
在一个实施例中,所述根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,包括:
将所述概念映射的所述关键词,及所述关键词的同义词作为所述概念包含的实体;
将各个概念包含的实体填入到所述召回句式中对应的概念中对所述召回句式进行词语嵌入,得到相似问句。
本实施例中,在根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句时,将所述概念映射的所述关键词,及所述关键词的同义词作为所述概念包含的实体,将各个概念包含的实体填入到所述召回句式中对应的概念中对所述召回句式进行词语嵌入,得到相似问句,即不仅根据所述语句的关键词进行嵌入,还将所述关键词的同义词填入到所述召回句式中对应的概念中对所述召回句式进行词语嵌入,从而得到更多类型的相似问句,能够适应更多场景的语句识别,提高语句意图识别的适用性。例如,当召回句式中包含概念X1,概念X1包含了关键词A1,关键词A1具有同义词A2、A3、A4,在生成相似问句时,将关键词A1和同义词A2、A3、A4分别填入概念X1,便可生成包含由不同词的相似问句,从而得到更多类型的相似问句,能够适应更多场景的语句识别,提高语句意图识别的适用性。
在一个实施例中,如图2所示,所述将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式,包括:
S41:获取所述概念的个数,根据所述概念的个数计算所述语句的复杂度;
S42:根据所述语句的复杂度确定匹配率,作为预设匹配率;
S43:根据所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构。
本实施例中,在获取所述概念满足预设匹配率的句式结构,得到召回句式时,不同场景下,所需要的匹配率的精度不同,当语句的结构比较简单,此时需要精准地匹配召回句式,当语句的结构比较复杂,需要提高句式的泛化能力,以能够匹配得到召回句式,具体的,通过获取所述概念的个数,然后根据所述概念的个数计算所述语句的复杂度;再基于历史大数据收集的语句的复杂度与匹配率的关系,根据所述语句的复杂度确定匹配率,作为预设匹配率,然后根据所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构。进一步的,当概念进行组合为组合概念后,则根据所述组合概念的个数计算所述语句的复杂度,从而适应不同复杂度的召回句式的匹配,避免仅识别到局部意图而造成意图的识别错误,提高语句意图识别的精确度。
在一个实施例中,所述选取相似度最高的相似问句作为所述语句的意图识别结果之后,还包括:
根据所述意图识别结果,从知识库中获取所述语句的回复语句;
输出所述回复语句。
本实施例中,在选取相似度最高的相似问句作为所述语句的意图识别结果之后,即确定了所述语句的真正意图,此时便可根据所述意图识别结果,从知识库中获取所述语句的回复语句,然后将所述回复语句输出,以对所述待识别的语句进行回答,对用户的提问进行回答,从而提高语句问答的效率。
在一个实施例中,所述根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,包括:
使用BERT算法模型根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句。
本实施例中,在根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,使用BERT算法模型根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,通过BERT算法模型对召回句式进行词语嵌入,然后对召回句式的集进行排序,可以更完整地刻画句式深层的语义信息,同时减少分词误差对匹配的影响,提高识别的准确率。
参照图3,本申请还提供一种语句意图识别装置,包括:
语句获取模块10,用于获取待识别的语句;
语句分词模块20,用于对所述语句进行分词,得到所述语句包含的关键词;
概念映射模块30,用于基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;
句式映射模块40,用于将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;
句式填充模块50,用于根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;
意图识别模块60,用于计算所述相似问句的与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
如上所述,可以理解地,本申请中提出的所述语句意图识别装置的各组成部分可以实现如上所述语句意图识别方法任一项的功能。
在一个实施例中,所述概念映射模块30还包括执行:
根据各个所述概念的关联度将所述概念进行组合,得到组合概念;
所述句式映射模块40还包括执行:
将所述组合概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与组合概念索引关系,且每个句式结构中包含多个不同的概念及组合概念。
在一个实施例中,所述概念映射模块30还包括执行:
从知识库中获取所述关键词的同义词;
将所述同义词映射为与所述关键词相同的概念,以扩充所述概念映射的关键词。
在一个实施例中,所述句式填充模块50还包括执行:
将所述概念映射的所述关键词,及所述关键词的同义词作为所述概念包含的实体;
将各个概念包含的实体填入到所述召回句式中对应的概念中对所述召回句式进行词语嵌入,得到相似问句。
在一个实施例中,所述句式映射模块40还包括执行:
获取所述概念的个数,根据所述概念的个数计算所述语句的复杂度;
根据所述语句的复杂度确定匹配率,作为预设匹配率;
根据所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构。
在一个实施例中,所述意图识别模块60还包括执行:
根据所述意图识别结果,从知识库中获取所述语句的回复语句;
输出所述回复语句。
在一个实施例中,所述句式填充模块50还包括执行:
使用BERT算法模型根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种语句意图识别方法。
上述处理器执行上述的语句意图识别方法,包括:获取待识别的语句;对所述语句进行分词,得到所述语句包含的关键词;基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
所述计算机设备提供了一种引入倒排索引、反向索引的语句意图识别方法,首先获取待识别的语句,然后对所述语句进行分词,得到所述语句包含的关键词,基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述概念表示所述关键词在语句的句式结构中的语义成分,将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构,且所述召回句式包含若干个不同的召回句式,根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,即将所述召回句式中各个概念进行词语嵌入,所述词语为不同的所述概念包含的实体,从而得到所述语句对应的相似问句,然后计算所述相似问句的与所述语句的相似度,再选取相似度最高的相似问句作为所述语句的意图识别结果,由于召回句式已经明确了句子中的各个语义成分,基于召回句式嵌入词语得到的相似问句能够进行准确地意图解析,从而准确、全面地得到所述语句的意图识别结果,提高问句的识别效率与准确度。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种语句意图识别方法,包括步骤:获取待识别的语句;对所述语句进行分词,得到所述语句包含的关键词;基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
所述计算机可读存储介质提供了一种引入倒排索引、反向索引的语句意图识别方法,首先获取待识别的语句,然后对所述语句进行分词,得到所述语句包含的关键词,基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述概念表示所述关键词在语句的句式结构中的语义成分,将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构,且所述召回句式包含若干个不同的召回句式,根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,即将所述召回句式中各个概念进行词语嵌入,所述词语为不同的所述概念包含的实体,从而得到所述语句对应的相似问句,然后计算所述相似问句的与所述语句的相似度,再选取相似度最高的相似问句作为所述语句的意图识别结果,由于召回句式已经明确了句子中的各个语义成分,基于召回句式嵌入词语得到的相似问句能够进行准确地意图解析,从而准确、全面地得到所述语句的意图识别结果,提高问句的识别效率与准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语句意图识别方法,其特征在于,包括:
获取待识别的语句;
对所述语句进行分词,得到所述语句包含的关键词;
基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;
将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;
根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;
计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
2.根据权利要求1所述的语句意图识别方法,其特征在于,所述基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,还包括:
根据各个所述概念的关联度将所述概念进行组合,得到组合概念;
所述将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式,包括:
将所述组合概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与组合概念索引关系,且每个句式结构中包含多个不同的概念及组合概念。
3.根据权利要求1所述的语句意图识别方法,其特征在于,所述对所述语句进行分词,得到所述语句包含的关键词之后,还包括:
从知识库中获取所述关键词的同义词;
所述基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念之后,还包括:
将所述同义词映射为与所述关键词相同的概念,以扩充所述概念映射的关键词。
4.根据权利要求3所述的语句意图识别方法,其特征在于,所述根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,包括:
将所述概念映射的所述关键词,及所述关键词的同义词作为所述概念包含的实体;
将各个概念包含的实体填入到所述召回句式中对应的概念中对所述召回句式进行词语嵌入,得到相似问句。
5.根据权利要求1所述的语句意图识别方法,其特征在于,所述将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式,包括:
获取所述概念的个数,根据所述概念的个数计算所述语句的复杂度;
根据所述语句的复杂度确定匹配率,作为预设匹配率;
根据所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构。
6.根据权利要求1所述的语句意图识别方法,其特征在于,所述选取相似度最高的相似问句作为所述语句的意图识别结果之后,还包括:
根据所述意图识别结果,从知识库中获取所述语句的回复语句;
输出所述回复语句。
7.根据权利要求1所述的语句意图识别方法,其特征在于,所述根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句,包括:
使用BERT算法模型根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句。
8.一种语句意图识别装置,其特征在于,包括:
语句获取模块,用于获取待识别的语句;
语句分词模块,用于对所述语句进行分词,得到所述语句包含的关键词;
概念映射模块,用于基于预设的倒排索引对所述关键词进行匹配,获取所述关键词映射的概念;所述预设的倒排索引包含关键词与概念的索引关系,所述概念表示所述关键词在语句的句式结构中的语义成分;
句式映射模块,用于将所述概念通过预设的反向索引进行句式结构匹配,得到召回句式;所述预设的反向索引中包含句式结构与概念索引关系,且每个句式结构中包含多个不同的概念;所述召回句式为句式结构中包含了满足预设匹配率的概念的句式结构;
句式填充模块,用于根据所述概念包含的实体对所述召回句式进行词语嵌入,得到相似问句;
意图识别模块,用于计算所述相似问句与所述语句的相似度,选取相似度最高的相似问句作为所述语句的意图识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述语句意图识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述语句意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691968.3A CN113255351B (zh) | 2021-06-22 | 2021-06-22 | 语句意图识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110691968.3A CN113255351B (zh) | 2021-06-22 | 2021-06-22 | 语句意图识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255351A true CN113255351A (zh) | 2021-08-13 |
CN113255351B CN113255351B (zh) | 2023-02-03 |
Family
ID=77189105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110691968.3A Active CN113255351B (zh) | 2021-06-22 | 2021-06-22 | 语句意图识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255351B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168756A (zh) * | 2022-01-29 | 2022-03-11 | 浙江口碑网络技术有限公司 | 搜索意图的查询理解方法和装置,存储介质和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815311A (zh) * | 2016-12-21 | 2017-06-09 | 杭州朗和科技有限公司 | 一种问题匹配方法和装置 |
WO2017177901A1 (zh) * | 2016-04-12 | 2017-10-19 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN111428467A (zh) * | 2020-02-19 | 2020-07-17 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN111444321A (zh) * | 2019-01-16 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 问答方法、装置、电子设备和存储介质 |
CN111639164A (zh) * | 2020-04-30 | 2020-09-08 | 中国平安财产保险股份有限公司 | 问答系统的问答匹配方法、装置、计算机设备及存储介质 |
WO2020224213A1 (zh) * | 2019-05-06 | 2020-11-12 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
WO2020233131A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳追一科技有限公司 | 问答处理方法、装置、计算机设备和存储介质 |
CN112199958A (zh) * | 2020-09-30 | 2021-01-08 | 平安科技(深圳)有限公司 | 概念词序列生成方法、装置、计算机设备及存储介质 |
CN112287090A (zh) * | 2020-11-23 | 2021-01-29 | 深圳季连科技有限公司 | 一种基于知识图谱的金融问题反问方法及系统 |
-
2021
- 2021-06-22 CN CN202110691968.3A patent/CN113255351B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017177901A1 (zh) * | 2016-04-12 | 2017-10-19 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN106815311A (zh) * | 2016-12-21 | 2017-06-09 | 杭州朗和科技有限公司 | 一种问题匹配方法和装置 |
CN111444321A (zh) * | 2019-01-16 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 问答方法、装置、电子设备和存储介质 |
WO2020224213A1 (zh) * | 2019-05-06 | 2020-11-12 | 平安科技(深圳)有限公司 | 语句意图识别方法、装置及计算机可读存储介质 |
WO2020233131A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳追一科技有限公司 | 问答处理方法、装置、计算机设备和存储介质 |
CN111428467A (zh) * | 2020-02-19 | 2020-07-17 | 平安科技(深圳)有限公司 | 生成阅读理解的问题题目的方法、装置、设备及存储介质 |
CN111639164A (zh) * | 2020-04-30 | 2020-09-08 | 中国平安财产保险股份有限公司 | 问答系统的问答匹配方法、装置、计算机设备及存储介质 |
CN112199958A (zh) * | 2020-09-30 | 2021-01-08 | 平安科技(深圳)有限公司 | 概念词序列生成方法、装置、计算机设备及存储介质 |
CN112287090A (zh) * | 2020-11-23 | 2021-01-29 | 深圳季连科技有限公司 | 一种基于知识图谱的金融问题反问方法及系统 |
Non-Patent Citations (1)
Title |
---|
孙一贺等: "时空知识图谱的构建与应用", 《信息工程大学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168756A (zh) * | 2022-01-29 | 2022-03-11 | 浙江口碑网络技术有限公司 | 搜索意图的查询理解方法和装置,存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113255351B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457431B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN109871446B (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN111325037B (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
CN113157863B (zh) | 问答数据处理方法、装置、计算机设备及存储介质 | |
US20230039496A1 (en) | Question-and-answer processing method, electronic device and computer readable medium | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN113377936B (zh) | 智能问答方法、装置及设备 | |
CN111274797A (zh) | 用于终端的意图识别方法、装置、设备及存储介质 | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN111339277A (zh) | 基于机器学习的问答交互方法及装置 | |
CN111291152A (zh) | 案例文书的推荐方法、装置、设备及存储介质 | |
CN111191028A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN115098556A (zh) | 用户需求匹配方法、装置、电子设备及存储介质 | |
CN113255351B (zh) | 语句意图识别方法、装置、计算机设备及存储介质 | |
CN116881470A (zh) | 一种生成问答对的方法及装置 | |
CN111737990A (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
CN110362681B (zh) | 问答系统重复问题识别方法、装置及存储介质 | |
CN111898363A (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN108959327B (zh) | 一种业务处理方法、装置及计算机可读存储介质 | |
CN113220859B (zh) | 基于图像的问答方法、装置、计算机设备及存储介质 | |
CN112905765B (zh) | 一种信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |