CN113326702A - 语义识别方法、装置、电子设备及存储介质 - Google Patents

语义识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113326702A
CN113326702A CN202110652054.6A CN202110652054A CN113326702A CN 113326702 A CN113326702 A CN 113326702A CN 202110652054 A CN202110652054 A CN 202110652054A CN 113326702 A CN113326702 A CN 113326702A
Authority
CN
China
Prior art keywords
slot
slot position
text
value
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110652054.6A
Other languages
English (en)
Other versions
CN113326702B (zh
Inventor
王艳
蒋卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN202110652054.6A priority Critical patent/CN113326702B/zh
Publication of CN113326702A publication Critical patent/CN113326702A/zh
Application granted granted Critical
Publication of CN113326702B publication Critical patent/CN113326702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语义识别方法、装置、电子设备及存储介质。该方法在获取待识别文本后,采用语义识别模块,对待识别文本进行语义识别处理;若语义识别模块识别出待识别文本对应的领域为目标领域、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对第一槽位的槽位值进行纠错处理;并根据第一槽位纠错后的槽位值,确定待识别文本的目标识别结果,以提高语义识别的准确率。同时该方法通过对待识别文本对应的槽位的槽位值进行纠错来提高语义识别的准确率,与现有技术中训练的纠错模型相比,降低了语义识别的成本。

Description

语义识别方法、装置、电子设备及存储介质
技术领域
本申请涉及语义识别技术领域,尤其涉及一种语义识别方法、装置、电子设备及存储介质。
背景技术
随着深度学习的普及,在计算机视觉、语音识别、自然语言处理等方面均取得重大突破。由于相对于其他人机交互方式,语音交互更为符合人们的日常习惯,更为高效,故语音识别技术将广泛应用于智能家居、工业生产、通信、医疗、自动驾驶等各个领域。
在实际语音交互场景,即任务型语音交互场景中,若用户query的意图是想到达目标店铺,但由于用户发音不标准或记错店铺名称等情况,导致机器无法真正解析用户意图。
目前,工业上大多使用的是传统的分阶段纠错框架,来解决任务型语音交互中的识别错误问题,主要包括:
(1)基于大样本训练深度学习模型的纠错算法;
(2)基于垂直领域的通用纠错框架(Domain Common Query Correction,DCQC),该通用纠错框架DCQC由召回层和决策层两层组成。
然而,上述纠错方法中的纠错模型都需要大量高质量的训练数据来保障模型效果,导致纠错数据积累的成本过高,若要更新纠错词库,则需要重新训练模型或增加额外模块。
发明内容
本申请实施例提供一种语义识别方法、装置、电子设备及存储介质,克服了现有技术通过训练纠错模型提高语义识别的准确率的问题,降低了语义识别的成本。
第一方面,提供了一种语义识别方法,该方法可以包括:
获取待识别文本;
采用语义识别模块,对所述待识别文本进行语义识别处理;
若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对所述第一槽位的槽位值进行纠错处理;
根据所述第一槽位纠错后的槽位值,确定所述待识别文本的目标识别结果。
第二方面,提供了一种语义识别装置,该装置可以包括:获取单元、处理单元、纠错单元和确定单元;
所述获取单元,用于获取待识别文本;
所述处理单元,用于采用语义识别模块,对所述待识别文本进行语义识别处理;
所述纠错单元,用于若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对所述第一槽位的槽位值进行纠错处理;
所述确定单元,用于根据所述第一槽位纠错后的槽位值,确定所述待识别文本的目标识别结果。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本申请实施例提供的语义识别方法在获取待识别文本后,采用语义识别模块,对待识别文本进行语义识别处理;若语义识别模块识别出待识别文本对应的领域为目标领域、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对第一槽位的槽位值进行纠错处理;并根据第一槽位纠错后的槽位值,确定待识别文本的目标识别结果,以提高语义识别的准确率。同时该方法通过对待识别文本对应的槽位的槽位值进行纠错来提高语义识别的准确率,与现有技术中训练的纠错模型相比,不需要获取大量的纠错数据来训练纠错模型,以及在更新纠错词库时不需要重新训练纠错模型或增加额外模块,降低了语义识别的成本。
附图说明
图1为本申请实施例提供的一种语义识别方法的应用场景示意图;
图2为本申请实施例提供的一种语义识别方法的流程示意图;
图3为本申请实施例提供的一种自然语言理解模型对待识别文本进行领域识别的过程示意图;
图4为本申请实施例提供的一种识别待识别文本意图和槽位信息的过程示意图;
图5为本申请实施例提供的一种语义识别装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
领域domain,是指同一类型的数据或者资源,以及围绕这些数据或资源提供的服务,比如天气领域、音乐领域、火车票领域、飞机票领域等。
意图intent,是通过用户的交互输入识别出的用户所要表达的目的。通常,意图是指对于领域数据的操作,一般以动宾短语来命名,比如飞机票领域中,有“购票”、“退票”等意图;
槽位slot,是将初步用户意图转化为明确用户指令所需要补全的信息。一个槽位与一个意图中所需要获取的一种信息相对应,也就是说,槽位是意图的参数信息,意图可通过槽位来表达。例如,“今天北京的天气怎么样”的文本,该文本的意图是“查询天气”,需要知道地点、时间这些必要的元素,这些必要元素就是槽位,即“北京”为地点槽位,“今天”为时间槽位。
文法规则主要依赖实体词和意图词,通过实体挖掘发现算法可以得到文本中的实体词(或称“槽位”);将用户问询query文本通过词切分方式,选择词性为动词或者词法分析出主谓形式词条等方式,获取某个意图常用的意图词。当实体词和意图词已知的情况下,可以在对应的领域下配置相应文法规则。
文法规则识别模块,是基于预先配置的文法规则进行文法规则匹配的语义识别模块。文法规则识别模块的输入为query文本,基于所匹配的文法规则,确定该query文本的意图、槽位和领域。基于该query文本的意图、槽位和领域,可确定该query文本的回复信息。其中,文法规则匹配是指query文本中不同语言结构的词条与预设的文法规则中相应语言结构节点对应的词条匹配。预先配置的文法规则可以包括携带指定标签(如fuzzy标签)的文法规则和通用文法规则(即不携带指定标签的文法规则)。
其中,通用文法规则用于对query文本进行文法规则匹配,基于该文法规则,确定该query文本的领域和意图、槽位。
携带指定标签的文法规则同样用于对query文本进行文法规则匹配,基于该文法规则,确定该query文本的领域和意图、槽位。在确定槽位后,确定query文本中的各抽槽位置,并进行槽位抽取,以确定出query文本的各槽位对应的槽位值。其中,抽槽位置是指query文本对应的句式结构中包含的槽位节点在query文本中对应的位置,即query文本中与文法规则中包含的槽位节点对应的字符串所在的位置。
具体的,预先配置不同的抽取长度,如抽取长度包括三个字的抽取长度,四个字的抽取长度和五个字的抽取长度。其中,对于抽取长度的配置可以包括以下任一方式:
方式一、对所有文法规则均预先配置不同的抽取长度,即所有文法规则所配置的抽取长度均相同。
方式二、针对不同领域对应的文法规则,预先配置不同的抽取长度。
该方式中,基于领域为文法规则配置抽取长度,具体的,同一领域对应的文法规则所配置的抽取长度相同,不同领域对应的文法规则所配置的抽取长度不同。
方式三、针对相同领域下不同意图的文法规则,预先配置不同的抽取长度。
该方式中,基于意图为文法规则配置抽取长度,具体的,同一领域且同一意图对应的文法规则所配置的抽取长度相同,同一领域且不同意图对应的文法规则所配置的抽取长度不同。
方式四、对不同的文法规则预先配置不同的抽取长度。
该方式中,基于每个文法规则配置抽取长度,具体的,每个文法规则所配置的抽取长度可能相同,也可以部分相同,也可能完全不同。
需要说明的是,除以上配置方式外,还可以有其他配置方式,具体可以根据实际业务需求来配置抽取长度,本申请实施例在此不做限定。
针对待识别文本中的一个抽槽位置,按照不同的抽取长度,对抽槽位置对应的字符串进行槽位抽取,得到各槽位对应的不同抽取长度的槽位值;若待识别文本携带无意义信息,故为了避免抽取出的槽位的槽位值中携带不无意义信息,可以将该槽位的最小抽取长度的槽位值确定为待识别文本的该槽位对应的槽位值。之后,检测各槽位对应的槽位值与已配置的词库数据中的实体词是否匹配,根据检测结果确定是否对该槽位值进行纠错处理,若确定需要对该槽位值进行纠错处理,则纠错处理后确定出该query文本的各槽位纠错后的槽位值。
例如,携带无意义信息的待识别文本为“带我去肯德基啊”,按照不同的抽取长度,对抽槽位置对应的字符串“肯德基啊”进行槽位抽取,抽取出的槽位的槽位值包括“肯德基”和“肯德基啊”,由于“肯德基”的长度最小,故将“肯德基”确定为该槽位对应的槽位值。
可以理解的是,文法规则识别模块不仅可以用于文本的语义识别,还可以基于文法规则反向挖掘文本的语法结构,以及还可以生成用于补充问答模块中问询信息的问询句式。
NLU模块,是基于预先训练的领域domain分类模型和意图-槽位Intent-slot模型的语义识别模块,可用于对语言文本,如句子、篇章或话语等进行语义分析处理。NLU模块对语言文本的语义识别采用领域domain、意图intent和槽位slot来表示语义结果。其中,槽位为实体词。NLU模型能够从待处理的文本中识别出满足实体命名规则和符合句式要求的实体词作为槽位。NLU模块的输入为query文本,输出的语义识别结果为该query文本的意图、槽位和领域。基于该query文本的意图、槽位和领域,可确定该query文本的回复信息。
文本匹配模块,是基于预先配置的文本进行文本完全匹配的语义识别模块,文本匹配模块的输入为query文本,输出的语义识别结果为与query文本匹配的预先配置的文本。由于预先配置的文本的语义是已知的,故基于所匹配的预先配置的文本,可确定该query文本的回复信息。其中,文本完全匹配是指query文本中的各字符和各字符的排列顺序均与任一预先配置的文本中的各字符和各字符的排列顺序完全匹配。
例如,query文本为“今天天气怎么样”,若预先配置的文本中存在目标文本的各字符和各字符的排列顺序,与“今天天气怎么样”文本中的各字符和各字符的排列顺序匹配,则确定预先配置的目标文本与query文本完全匹配;
此外,若query文本与预先配置的任何文本均不匹配,则确认文本匹配模块无输出。
具体的,若query文本中的至少一个字符与预先配置的文本中的字符不匹配,或query文本中各字符的排列顺序与预先配置的文本中各字符的排列顺序不匹配,则确定query文本与该预先配置的文本不匹配。
问答模块,是预先配置问答对(即QA pair),基于问答对进行匹配的语义识别模块。具体的,确定与query文本匹配的question(问题),将所匹配的question对应的answer(答复)确定为该query文本的回复信息。
进一步的,问答模块可以包括第一问答模块和第二问答模块。
第一问答模块,是基于预先配置的文本进行文本相似度匹配的语义识别模块,其输入为query文本,输出的语义识别结果为与query文本对应的问询信息,该问询信息为query文本的相似文本;将该相似文本对应的answer确定为该query文本的回复信息。其中,相似文本可以是query文本与预先配置的文本间的文本相似度大于预设相似度阈值的候选相似文本中最大相似度对应的预先配置的文本。
第二问答模块,是基于预先配置的关键词进行文本关键词检索的语义识别模块;其输入为query文本,输出的语义识别结果为query文本中所包含的预先配置的关键词。将该关键词对应的answer确定为该query文本的回复信息。其中,第一问答模块的优先级高于第二问答模块的优先级。
图1为本申请实施例提供的语义识别方法的应用场景示意图。用户10与智能设备11进行语音交互的过程中,智能设备11将用户10输入的对话信息发送给服务器12,服务器12对智能设备11上传的对话信息进行语义识别处理,明确用户意图,以控制智能设备11对该对话信息进行相应的响应,向用户给出反馈。用户输入的对话信息可以是语音信息,也可以是文本信息,本申请实施例中不做限定。若用户输入的对话信息是语音信息,则在进行语义识别处理之前,先对语音信息进行语音识别,以得到该语音信息对应的文本信息。
这种应用场景下,智能设备11和服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。智能设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(Personal Computer,PC),还可以是智能音箱、机器人等智能控制设备。服务器12可以为任何能够提供语义识别服务的一台服务器、若干台服务器组成的服务器集群或云计算中心。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。
实施例1:槽位纠错处理
图2为本申请实施例提供的一种语义识别方法的流程示意图,该方法可以包括:
步骤S210、获取待识别文本。
本申请实施例中,待识别文本为用户输入信息,如问询query文本,用户输入信息可以是语音信息、文字信息、图片信息中的一种或多种组合。当用户输入信息为语音信息时,可以采用现有的语音识别方法得到语音信息对应的待识别文本。当用户输入信息为图片信息时,可以采用现有的图像识别技术得到该图片信息中包含的待识别文本。
步骤S220、采用语义识别模块,对待识别文本进行语义识别处理。
在实施该步骤之前,需要预先配置词库数据,并将配置的词库数据存储在搜索引擎(ElasticSearch,ES)数据库中,词库数据中包括已配置的实体词。
在具体实施中,配置词库数据时,可以根据不同的应用场景配置不同的词库数据,即配置与应用场景关联的实体词,作为该应用场景对应的词库数据。例如,对于商场场景,可能涉及到的实体词可能是该商场中的各店铺名称、电梯名称等。又如,对于银行场景,可能涉及到的实体词可能是该银行所能办理的各业务的名词、各办公区域名称等。服务于同一应用场景的机器人均使用该应用场景对应的词库数据。
配置词库数据时,也可以根据不同的企业配置不同的词库数据,即配置与该企业关联的实体词,作为该企业对应的词库数据。服务于同一企业的机器人均使用该企业对应的词库数据。当然,还可以针对每个机器人均配置不同的词库数据。本申请实施例中,用户可以根据实际需求配置所需的词库数据,本申请实施例不对词库数据的配置方式进行限定。
在具体实施例时,完成词库数据的配置后,可根据实际的需求,对词库数据中的实体词进行更新,对词库数据的更新包括增加新的实体词、删除已有的实体词、修改已有的实体词等。例如,以商场场景为例,可以根据商场内商铺的撤销或新增的情况,对相应词库数据中的商铺名称进行删除和添加,以实现该词库数据的更新。此外,在更新词库数据时,可以实时更新词库数据,也可以周期性更新词库数据。本申请实施例中不对词库数据的更新方式进行限定。
本申请实施例中,语义识别模块可以包括:文本匹配模块、文法规则识别模块、自然语言理解NLU模块和问答模块等中的至少一种。
采用文本匹配模块、文法规则识别模块、NLU模块和问答模块中的至少一种语义识别模块,对待识别文本进行语义识别处理。其中,文本匹配模块的优先级高于文法规则识别模块,文法规则识别模块的优先级高于NLU模块的优先级,NLU模块的优先级高于问答模块的优先级。
步骤S230、若语义识别模块识别出待识别文本对应的领域为目标领域、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对第一槽位的槽位值进行纠错处理。
其中,目标领域可以根据实际需求或经验设置,例如,基于智能设备历史采集的语音数据确定出容易出现槽位值错误的领域,确定为目标领域,如商场领域等。这样,可以在命中目标领域后执行后续的槽位纠错处理,以提高语义识别的准确率,更好的识别用户意图。
步骤S240、根据第一槽位纠错后的槽位值,确定待识别文本的目标识别结果。
具体实施时,若待识别文本对应的槽位中存在槽位值与已配置的任意实体词匹配的其余槽位,则将待识别文本对应的目标领域,以及每个第一槽位纠错后的槽位值和其余槽位的槽位值确定为待识别文本的目标识别结果。
若待识别文本对应的槽位中不存在槽位值与已配置的任意实体词匹配的其余槽位,则将待识别文本对应的目标领域和每个第一槽位纠错后的槽位值确定为待识别文本的目标识别结果。
基于上述任一实施例,具体实施时,由于语义识别模块可以包括:文本匹配模块、文法规则识别模块、自然语言理解NLU模块和问答模块等中的至少一种。语义识别模块对待识别文本进行识别处理后,输出语义识别结果的情况可能包括以下四种情况:
情况一,语义识别模块包括文本匹配模块,且文本匹配模块有输出。
此时由于文本匹配模块的优先级最高,故无论语义识别模块是否包含其余语义识别模块,且其余语义识别模块是否有输出,都将文本匹配模块输出的语义识别结果确定为待识别文本的目标识别结果。
情况二,语义识别模块包括文法规则识别模块且文法规则识别模块有输出。
该情况下,若语义识别模块不包括文本匹配模块,或若语义识别模块包括文本匹配模块但文本匹配模块无输出,则根据文法规则识别模块输出的语义识别结果,确定待识别文本的目标识别结果。
情况三,语义识别模块包括NLU模块且NLU模块有输出。
该情况下,若语义识别模块不包括文本匹配模块和文法规则识别模块,或若语义识别模块包括优先级更高的文本匹配模块和文法规则识别模块中的至少一种,但优先级更高的语义识别模块均无输出,则根据NLU模块输出的语义识别结果,确定待识别文本的目标识别结果。
情况四,语义识别模块包括问答模块且问答模块有输出。
该情况下,语义识别模块不包括文本匹配模块、文法规则识别模块和NLU模块,或语义识别模块包括优先级更高的文本匹配模块、文法规则识别模块和NLU模块中的至少一种,但优先级更高的语义识别模块均无输出,则根据问答模块输出的问询信息确定为待识别文本的目标识别结果。
进一步的,在语音交互场景中,采用语音识别方法得到的待识别文本常常因为用户发音不标准或记错目的地名称,如记错店铺名称等情况,导致待识别文本中槽位的槽位值不准确,提高了误召回率。由于用户发音不标准或记错目的地名称,会导致语音识别出的实体词不是词库数据中已配置的实体词,即语音识别出的实体词为未知实体词,故为了避免误召回,提高语义识别的准确性,若基于文法规则识别模块和/或NLU模块确定待识别文本的目标识别结果时,可以对文法规则识别模块和/或NLU模块识别出的槽位进行纠错处理,以得到更准确的槽位值。
基于上述任一实施例,具体实施时,在判断是否对槽位进行纠错处理以及如何进行纠错处理时,至少包括以下几种情况:
(1)在语义识别模块包括文法规则识别模块且文法规则识别模块有输出的情况下:
若文法规则识别模块识别出待识别文本与任一携带指定标签的目标文法规则匹配,则确定待识别文本对应的领域为目标领域,即可能需要对槽位进行纠错,但需要进一步根据各槽位的槽位值进行判断,以确定是否需要对某个或某些槽位进行纠错。具体的:根据目标文法规则,确定待识别文本中的抽槽位置,并进行槽位抽取,以得到待识别文本的各槽位对应的槽位值。当待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位时,对每个第一槽位的槽位值进行纠错处理,得到第一槽位纠错后的槽位值;之后,根据识别出的目标领域和第一槽位纠错后的槽位值,确定待识别文本的目标识别结果。即将文法规则识别模块识别得到的目标领域、意图、各槽位对应的槽位值(包括无需进行纠错的槽位的槽位值、和/或第一槽位纠错后的槽位值),确定为待识别文本的目标识别结果。
若文法规则识别模块识别出待识别文本与任一通用文法规则匹配,则基于该通用文法规则,确定该待识别文本的领域、意图和各槽位的槽位值,并将该待识别文本的领域、意图和各槽位的槽位值确定为待识别文本的目标识别结果。
(2)语义识别模块包括NLU模块且NLU模块有输出的情况下:
若NLU模块识别出待识别文本对应的领域为目标领域、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对每个第一槽位的槽位值进行纠错处理,得到第一槽位纠错后的槽位值;之后,根据识别出的目标领域和第一槽位纠错后的槽位值,确定待识别文本的目标识别结果。
若NLU模块识别出待识别文本对应的领域为非目标领域,则将该NLU模块识别出的该待识别文本的领域、意图和槽位的槽位值确定为待识别文本的目标识别结果。
(3)语义识别模块包括文法规则识别模块和NLU模块均有输出的情况下:
若文法规则识别模块和NLU模块均识别出待识别文本对应的领域为非目标领域,则根据语义识别模块的优先级,将文法规则识别模块识别出的领域和意图、槽位的槽位值确定为待识别文本的目标识别结果。
若文法规则识别模块和NLU模块均识别出待识别文本对应的领域为目标领域、且待识别文本对应的第一槽位的槽位值均与已配置的任意实体词不匹配,则将NLU模块识别得到的第一槽位的槽位值的第一长度与文法规则识别模块识别得到的第一槽位的槽位值的第二长度进行比较;其中,文法规则识别模块识别出的第一槽位和NLU模块识别出的第一槽位是该待识别文本中同一位置对应的槽位。
之后,根据比较结果,确定待识别文本对应的待纠错槽位值,并对待纠错槽位值进行纠错处理,得到第一槽位纠错后的槽位值。
具体实施时,由于文法规则识别模块中的文法规则是人为预先配置的,且是有限的,故采用文法规则识别模块输出的语义识别结果中的槽位的准确率较低,而NLU模块具有学习能力,且输出的语义识别结果中的槽位是通过实体命名规则学习得到的,准确率较高,故在第一长度与第二长度相等时,将NLU模块识别得到的槽位值确定为待纠错槽位值。由于长度越长的槽位携带的有用信息越多,故为了提高语义识别的准确性,在第一长度与第二长度不相等时,将最大长度对应的槽位值确定为待纠错槽位值。之后,对待纠错槽位值进行纠错处理,得到第一槽位纠错后的槽位值。
进一步的,由于同一领域下存在不同意图,考虑到该领域的某些意图下对槽位的识别容易出错,即识别出的槽位值与已配置的实体词不匹配的概率较大,故可以考虑在该领域的这些意图下,对识别出的槽位进行纠错,从而提高语义识别的准确性。
具体实施时,在文法规则识别模块和/或NLU模块识别出待识别文本对应的领域为目标领域、待识别文本对应的意图为目标意图、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位的情况下,对每个第一槽位的槽位值进行纠错处理,得到第一槽位纠错后的槽位值。
也就是说,只有在文法规则识别模块(和/或NLU模块识别)出待识别文本对应的领域为目标领域且待识别文本对应的意图为目标意图时,才考虑对槽位进行纠错,而在文法规则识别模块(和/或NLU模块)识别出待识别文本对应的领域为非目标领域或待识别文本对应的意图为非目标意图时,不考虑对槽位进行纠错。其中,目标意图可以根据实际需求或经验设置,例如,基于智能设备历史采集的语音数据确定出容易出现槽位值错误的意图,确定为目标意图。这样,可以在命中目标领域和目标意图后才执行后续的槽位纠错处理,以提高语义识别的准确率,更好的识别用户意图,由于需要领域和意图均满足才执行纠错处理,降低了处理功耗。
基于上述任一实施例,在一个可能的实施方式中,对任一第一槽位的槽位值进行纠错处理可以包括:
若第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列匹配成功,且该实体词对应的字序列与第一槽位的槽位值对应的字序列满足预设字匹配条件,则将该实体词确定为纠错后的槽位值。
具体实施时,可以先进行拼音匹配,再进行字匹配。具体的:先将第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列进行模糊匹配;若匹配成功,再检测该实体词对应的字序列与第一槽位的槽位值对应的字序列中相同字的字数与第一槽位的槽位值对应的字序列的总字数的比值是否大于预设阈值,若该比值大于预设阈值,将该实体词确定为纠错后的槽位值。
当然,也可以先进行字匹配,再进行拼音匹配。具体的:先检测第一槽位的槽位值对应的字序列与任一已配置的实体词对应的字序列中相同字的字数,与第一槽位的槽位值对应的字序列的总字数的比值是否大于预设阈值,在确定该比值大于预设阈值后,再检测该实体词对应的拼音序列与第一槽位的槽位值对应的拼音序列是否匹配,若匹配成功,则将该实体词确定为纠错后的槽位值。
需要说明的是,具体可以根据实际业务需求对拼音匹配和字匹配的匹配顺序进行调整,本申请实施例在此不做限定。
在一些示例中,预设字匹配条件可以为:第一槽位的槽位值对应的字序列与已配置的实体词对应的字序列中相同字的字数,与第一槽位的槽位值对应的字序列的总字数的比值大于预设阈值。
例如,预设阈值为0.6,第一槽位的槽位值对应的字序列为(肯,德,鸡),已配置的实体词对应的字序列为(肯,德,基),其中,相同字的字数为2,字序列(肯,德,鸡)总字数为3,由于2/3的值为0.667>0.6,故表明该实体词对应的字序列与第一槽位的槽位值对应的字序列满足预设字匹配条件。
在另一些示例中,预设字匹配条件也可以为:第一槽位的槽位值对应的字序列与已配置的实体词对应的字序列中相同字的字数,与第一槽位的槽位值对应的字序列的总字数的比值大于预设阈值,且该相同字中的每个字在第一槽位的槽位值对应的字序列中的位置与在该实体词对应的字序列中的位置相同。
续上例,相同字为“肯”和“德”,在确定该实体词对应的字序列(肯,德,基)与第一槽位的槽位值对应的字序列(肯,德,鸡)满足预设字匹配条件后,由于第一槽位的槽位值对应的字序列中“肯”和“德”分别位于该字序列的第一位置和第二位置,该实体词对应的字序列中“肯”和“德”也分别位于该字序列的第一位置和第二位置,由此表明第一槽位的槽位值对应的字序列与该实体词对应的字序列满足预设字匹配条件。
此外,将第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列进行模糊匹配的方式可以包括:
方式1,计算得到第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列的相似度;获取计算得到的相似度中的最大相似度,并将该最大相似度对应的目标拼音序列确定为与第一槽位的槽位值对应的拼音序列匹配的拼音序列。
方式2,计算得到第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列的相似度;按照相似度从大到小的顺序排列,选择前N个相似度对应的目标拼音序列,确定为与第一槽位的槽位值对应的拼音序列匹配的拼音序列。
方式3,计算得到第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列的相似度;选择相似度大于预设相似度阈值的实体词的拼音序列,确定为与第一槽位的槽位值对应的拼音序列匹配的拼音序列。
其中,预设相似度阈值的大小可以根据实际需要设置,如相似度阈值为80%,则将相似度大于80%的实体词的拼音序列确定与第一槽位的槽位值对应的拼音序列的模糊匹配成功;若计算出的相似度均不大于80%,则确定第一槽位的槽位值对应的拼音序列的模糊匹配失败。
当然,上述三种方式也可以结合使用,例如,方式1和方式3的结合方案即为将满足相似度阈值的相似度中最大相似度对应的实体词的拼音序列,确定为与第一槽位的槽位值对应的拼音序列匹配的拼音序列。此外,是本申请实施例中不对拼音序列的模糊匹配方式进行限定。
基于上述任一实施例,若第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列匹配失败,或任一已配置的实体词对应的字序列与第一槽位的槽位值对应的字序列不满足预设字匹配条件,则确定纠错失败。
需要说明的是,可以利用存储词库数据的ES数据库的全文搜索功能,如倒排索引,对槽位值进行拼音序列的模糊匹配处理和字匹配条件的判断处理。
在一个例子中,以目标领域为商场领域,已配置的实体词为商场内的店铺名称,由于用户发音不标准,识别出query文本中第一槽位的槽位值为“雅根尔”为例。由于第一槽位的槽位值“雅根尔”与已配置的任一实体词不匹配,即属于未知实体词,故将第一槽位的槽位值“雅根尔”的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配,若存在已配置的实体词“雅戈尔”和“雅格尔”对应的拼音序列均与第一槽位的槽位值“雅根尔”的拼音序列匹配成功,且第一槽位的槽位值“雅根尔”对应的字序列均与已配置的实体词“雅戈尔”和“雅格尔”对应的字序列满足预设字匹配条件,则将“雅戈尔”和“雅格尔”确定为第一槽位纠错后的槽位值。
在另一个例子中,以目标领域为商场领域,已配置的实体词为商场内的店铺名称,识别出query文本中第一槽位的槽位值为“小题大做”为例。由于第一槽位的槽位值“小题大做”与已配置的任一实体词不匹配,即属于未知实体词,故将第一槽位的槽位值“小题大做”的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配,若存在已配置的实体词“小蹄大作”对应的拼音序列与第一槽位的槽位值“小题大做”的拼音序列匹配成功,且第一槽位的槽位值“小题大做”对应的字序列与已配置的实体词“小蹄大作”对应的字序列满足预设字匹配条件,则将“小蹄大作”确定为第一槽位纠错后的槽位值。
实施例2:槽位扩充处理
本申请实施例中,作为另一种可能的实施方式,在待识别文本中识别出的槽位的槽位值是词库数据中已配置的实体词,即槽位值为已知实体词的情况下,由于某些领域涉及到的实体词可能存在同音实体词,故为了召回用户真实的槽位值,避免误召回,提高语义识别的准确性,在文法规则识别模块和/或NLU模块有输出时,可以对文法规则识别模块和/或NLU模块识别出的槽位进行扩充处理,以得到相应槽位准确的槽位值。
在一种可能的实施方式中,若文法规则识别模块或NLU模块识别出待识别文本对应的领域为目标领域、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词匹配的第二槽位,则对每个第二槽位的槽位值进行扩充处理,得到第二槽位扩充后的槽位值。
在另一种可能的实施方式中,若文法规则识别模块和NLU模块均识别出待识别文本对应的领域为目标领域、且待识别文本对应的第二槽位的槽位值均与已配置的任意实体词匹配,则将文法规则识别模块识别得到的槽位值确定为待扩充槽位值,并对待扩充槽位值进行扩充处理,得到第二槽位扩充后的槽位值。其中,文法规则识别模块识别出的第二槽位和NLU模块均识别出的第二槽位是该待识别文本中同一位置对应的槽位。
之后,可以根据第二槽位的槽位值和相应扩充后的槽位值,确定待识别文本的目标识别结果。
进一步的,由于同一领域下存在不同意图,考虑到该领域的某些意图下不能识别出某些槽位的全部槽位值,如这些槽位的槽位值可能存在多个同音实体词,而对这些槽位进行识别仅能识别出部分槽位值,考虑到仅识别出部分槽位值可能影响语义识别的准确性,故可以考虑在该领域的这些意图下,对识别出的槽位进行扩充来提高语义识别的准确性。
具体实施时,在文法规则识别模块和/或NLU模块识别出待识别文本对应的领域为目标领域、待识别文本对应的意图为目标意图、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词匹配的第二槽位的情况下,对每个第二槽位的槽位值进行扩充处理,得到第二槽位扩充后的槽位值。
基于上述任一实施例,在一个可能的实施方式中,对任一第二槽位的槽位值进行扩充处理可以包括:
将第二槽位的槽位值对应的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配;
若任一已配置的实体词对应的拼音序列与第二槽位的槽位值对应的拼音序列匹配成功,则将该已配置的实体词确定为扩充后的槽位值;
若任一已配置的实体词对应的拼音序列与第二槽位的槽位值对应的拼音序列匹配失败,则确定扩充失败。
在一个例子中,以目标领域为商场领域,已配置的实体词为商场内的店铺名称,识别出第二槽位的槽位值“哈根达斯”为例。由于第二槽位的槽位值“哈根达斯”与已配置的任意实体词匹配,即属于已知实体词,故将第二槽位的槽位值“哈根达斯”的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配,若存在已配置的实体词“哈根达斯”和“哈根達斯”对应的拼音序列均与第二槽位的槽位值“哈根达斯”的拼音序列匹配成功,且第二槽位的槽位值“哈根达斯”对应的字序列均与已配置的实体词“哈根达斯”和“哈根達斯”对应的字序列满足预设字匹配条件,则将“哈根達斯”确定为第二槽位的扩充后的槽位值,此时第二槽位的槽位值包括“哈根达斯”和“哈根達斯”。
在另一个例子中,以目标领域为商场领域,已配置的实体词为商场内的店铺名称,识别出第二槽位的槽位值“无印良品”为例。由于第二槽位的槽位值“无印良品”与已配置的任意实体词匹配,即属于已知实体词,故将第二槽位的槽位值“无印良品”的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配,若存在已配置的实体词“无印良品”和“無印良品”对应的拼音序列均与第二槽位的槽位值“哈根达斯”的拼音序列匹配成功,且第二槽位的槽位值“无印良品”对应的字序列均与已配置的实体词“无印良品”和“無印良品”对应的字序列满足预设字匹配条件,则将“無印良品”和“无印良品”确定为第二槽位的扩充后的槽位值,此时第二槽位的槽位值包括“无印良品”和“無印良品”。
需要说明的是,对于待识别文本对应的槽位中的槽位值,在存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,以及存在至少一个槽位值与已配置的任意实体词匹配的第二槽位时,可以只对第一槽位进行纠错处理,或只对第二槽位进行扩充处理,或,同时对第一槽位进行纠错处理和对第二槽位进行扩充处理,本申请实施例在此不做限定。
基于上述任一实施例,本申请实施例的NLU模块中预先训练的domain模型,如文本分类模型(text Convolutional Neural Networks,textCNN)模型识别出待识别文本对应的领域的步骤可以包括:
采用四个具有不同卷积核的卷积层,对待识别文本对应的句向量与预先配置的领域对应的词典特征向量进行卷积,得到表征句向量与词典特征向量关联关系的四个领域特征子向量;对四个领域特征子向量进行融合处理,如按照concatenation方式进行特征融合,得到领域特征向量;根据领域特征向量,确定待识别文本对应的领域。
具体的,预先配置的领域对应的词典特征向量是基于预先配置的领域相关的关键词得到预先配置的领域对应的词典后,根据领域对应的词典对文本中领域相关的关键词进行标注得到的。其中,concatenation方式是对各卷积层对应的运算结果进行融合处理,具体的是对各卷积层对应的运算结果进行拼接处理。例如,假设输入向量在第一个卷积层对应的运算结果为:[1,2,3],输入向量在第二个卷积层对应的运算结果:[4,5,6],输入向量在第三个卷积层对应的运算结果为:[7,8,9],输入向量在第四个卷积层对应的运算结果为:[10,11,12],那么,对这4个卷积层对应的运算结果进行融合处理,得到该输入向量对应的特征向量为:{[1,2,3],[4,5,6],[7,8,9],[10,11,12]}。
在一些示例中,第一个卷积层使用的卷积核的尺寸为1×1;第二个卷积层使用的卷积核的尺寸为3×3;第三个卷积层依次使用的卷积核的尺寸为1×1和3×3;第四个卷积层依次使用的卷积核的尺寸为3×3和5×5。
如图3所示的NLU模型中的domain模型对待识别文本进行领域识别的过程示意图。存在4个卷积层:第一个卷积层包括卷积尺寸为1×1的卷积核、第二个卷积层包括卷积尺寸为3×3的卷积核、第三个卷积层包括卷积尺寸为1×1和3×3的两个卷积核和第四个卷积层包括卷积尺寸为3×3和5×5的两个卷积核。
首先,对待识别文本进行分词,采用预设的词向量算法,如One-Hot编码算法或word2vec算法,得到待识别文本中每个词对应的词向量,并采用预设的句向量算法,如词袋模型算法对待识别文本对应的词向量进行运算,得到待识别文本对应的句向量。
然后,查找预先配置的领域对应的词典特征向量,该词典特征向量与待识别文本对应的句向量长度相同。
例如,待识别文本为“我想吃肯德基的鸡翅”,相应的领域对应的词典特征向量为[0,0,0,1,1,1,0,0,0],其包括两类数字,其中,“肯德基”为预先配置的领域对应的关键词,故将待识别文本中与“肯德基”对应的字符标注1,对待识别文本中除“肯德基”之外其他字符标注为0。
接着,将领域对应的词典特征向量拼接在待识别文本对应的句向量之后,得到拼接后的向量;
最后,采用四个具有不同卷积核的卷积层,分别对拼接后的向量进行卷积,得到表征句向量与词典特征向量关联关系的四个领域特征子向量,并对四个领域特征子向量按照concatenation方式进行融合处理,得到领域特征向量,并根据领域特征向量,确定待识别文本对应的领域。
本申请实施例中,领域对应的词典特征向量充分利用了领域相关信息,目标卷积层通过多卷积核的卷积运算可以获取到待识别文本中不同尺度的特征信息,从而可以有效识别出领域相关的文本,提高了语义识别的准确性。
基于上述任一实施例,如图4所示,本申请实施例的NLU模块中预先训练的Intent-slot模型包括长短期记忆(Long Short-Term Memory,LSTM)模型、归一化模型,如softmax模型和条件随机(Conditional Random Field,CRF)模型。预先训练的Intent-slot模型识别出待识别文本对应的意图和词槽的步骤可以包括:
首先,采用预先训练的Intent-slot模型中的LSTM模型,对待识别文本对应的句向量与预先配置的意图对应的词典特征向量进行特征提取,得到意图特征向量。
预先配置的意图对应的词典特征向量是基于预先配置的意图相关的实体词得到预先配置的意图对应的至少一个词典后,根据意图对应的至少一个词典对文本中意图相关的实体词进行标注得到的。
其次,采用Intent-slot模型中的softmax模型,对意图特征向量进行归一化处理,输出处理后的意图特征向量,并根据处理后的意图特征向量,确定待识别文本对应的意图。
最后,采用Intent-slot模型中的CRF模型,对处理后的意图特征向量进行槽位分析,输出槽位向量,并根据槽位向量,确定待识别文本对应的槽位信息。
例如,待识别文本为“我想吃肯德基的鸡翅”,相应的预先配置的意图对应的词典特征向量为[0,0,0,3,3,3,0,5,5],其中,在意图对应的店铺相关词典中可抽取“肯德基”实体词,在意图对应的食品相关词典中可抽取“鸡翅”实体词,且采用不同的数字对待识别文本进行标注,其中,“肯德基”为地点槽位信息。
需要说明的是,当领域对应的词典特征向量或意图对应的词典特征向量中存在竞合的多个特征时,选择非0占比最大的特征向量,作为相应词典特征向量,竞合是指两个特征向量的特征不相同但存在部分特征相同的情况。
例如,文本为“我想吃冰激凌”。在意图领域对应的词典特征向量中存在“我想吃冰”的词条和“我想吃冰激凌”的词条,其中,“我想吃冰”的词条对应的第一特征向量为[0,0,2,2],“我想吃冰激凌”的词条对应的第二特征向量为[0,0,2,2,2],第一特征向量中的特征与第二特征向量中的特征不相同,但存在部分特征相同的情况。此时选择非0占比最大的第二特征向量作为该文本的意图对应的词典特征向量。
本申请实施例提供的语义识别方法在获取待识别文本后,采用语义识别模块,对待识别文本进行语义识别处理;若语义识别模块识别出待识别文本对应的领域为目标领域、且待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对第一槽位的槽位值进行纠错处理;并根据第一槽位纠错后的槽位值,确定待识别文本的目标识别结果,以提高语义识别的准确率。同时该方法通过对待识别文本对应的槽位的槽位值进行纠错来提高语义识别的准确率,与现有技术中训练的纠错模型相比,不需要获取大量的纠错数据来训练纠错模型,以及在更新纠错词库时不需要重新训练纠错模型或增加额外模块,降低了语义识别的成本。
与上述方法对应的,本申请实施例还提供一种语义识别装置,如图5所示,该语义识别装置包括:获取单元310、处理单元320、纠错单元330和确定单元340;
获取单元310,用于获取待识别文本;
处理单元320,用于采用语义识别模块,对所述待识别文本进行语义识别处理;
纠错单元330,用于若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对所述第一槽位的槽位值进行纠错处理;
确定单元340,用于根据所述第一槽位纠错后的槽位值,确定所述待识别文本的目标识别结果。
在一种可能的实现中,所述装置还包括:扩充单元350;
扩充单元350,用于若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词匹配的第二槽位,则对所述第二槽位的槽位值进行扩充处理;
确定单元340,还用于根据所述第二槽位的槽位值和相应扩充后的槽位值,确定所述待识别文本的目标识别结果。
在一种可能的实现中,纠错单元330,具体用于若所述语义识别模块识别出所述待识别文本对应的领域为所述目标领域、所述待识别文本对应的意图为目标意图、且所述待识别文本对应的槽位中存在至少一个所述第一槽位,则对所述第一槽位的槽位值进行纠错处理;
扩充单元350,具体用于若所述语义识别模块识别出所述待识别文本对应的领域为所述目标领域、所述待识别文本对应的意图为目标意图、且所述待识别文本对应的槽位中存在至少一个所述第二槽位,则对所述第二槽位的槽位值进行扩充处理。
在一种可能的实现中,所述语义识别模块包括:文本匹配模块、文法规则识别模块、自然语言理解NLU模块、问答模块中的至少一种。
在一种可能的实现中,若所述语义识别模块为所述文法规则识别模块;
处理单元320,具体用于若采用所述文法规则识别模块识别出所述待识别文本与携带指定标签的目标文法规则匹配,则确定所述待识别文本对应的领域为所述目标领域;
确定单元340,还具体用于根据所述目标文法规则,确定所述待识别文本中的抽槽位置,并进行槽位抽取,确定出所述待识别文本的各槽位对应的槽位值。
在一种可能的实现中,若所述语义识别模块包括:所述文法规则识别模块和所述NLU模块;
纠错单元330,还具体用于若所述文法规则识别模块和所述NLU模块均识别出所述待识别文本对应的领域为所述目标领域、且所述待识别文本对应的所述第一槽位的槽位值均与已配置的任意实体词不匹配,则将所述NLU模块识别得到的所述第一槽位的槽位值的第一长度与所述文法规则识别模块识别得到的所述第一槽位的槽位值的第二长度进行比较;以及,根据比较结果,确定所述待识别文本对应的待纠错槽位值,并对所述待纠错槽位值进行纠错处理,得到纠错后的槽位值。
在一种可能的实现中,若所述语义识别模块包括:所述文法规则识别模块和所述NLU模块;
扩充单元350,还具体用于若所述文法规则识别模块和所述NLU模块均识别出所述待识别文本对应的领域为所述目标领域、且所述待识别文本对应的所述第二槽位的槽位值均与已配置的任意实体词匹配,则将所述文法规则识别模块识别得到的槽位值确定为待扩充槽位值,并对所述待扩充槽位值进行扩充处理,得到扩充后的槽位值。
在一种可能的实现中,纠错单元330,还具体用于若所述第一长度与所述第二长度不相同,则将最大长度对应的槽位值确定为所述待纠错槽位值;或者若所述第一长度与所述第二长度相同,则将所述NLU模块识别得到的槽位值确定为所述待纠错槽位值。
在一种可能的实现中,纠错单元330,还具体用于若所述第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列匹配成功,且所述第一槽位的槽位值对应的字序列与该实体词对应的字序列满足预设字匹配条件,则将该实体词确定为纠错后的槽位值;
其中,所述预设字匹配条件为:所述第一槽位的槽位值对应的字序列与已配置的实体词对应的字序列中相同字的字数、与所述第一槽位的槽位值对应的字序列的总字数的比值大于预设阈值。
在一种可能的实现中,扩充单元350,还具体用于将所述第二槽位的槽位值对应的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配,若任一已配置的实体词对应的拼音序列与所述第二槽位的槽位值对应的拼音序列匹配成功,则将该已配置的实体词确定为扩充后的槽位值。
本申请上述实施例提供的语义识别装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本申请实施例提供的语义识别装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本申请实施例还提供了一种电子设备,如图6所示,包括处理器410、通信接口420、存储器430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。
存储器430,用于存放计算机程序;
处理器410,用于执行存储器430上所存放的程序时,实现如下步骤:
获取待识别文本;
采用语义识别模块,对所述待识别文本进行语义识别处理;
若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对所述第一槽位的槽位值进行纠错处理;
根据所述第一槽位纠错后的槽位值,确定所述待识别文本的目标识别结果。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见上述任一方法实施例中的各步骤来实现,因此,本申请实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的语义识别方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的语义识别方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (13)

1.一种语义识别方法,其特征在于,所述方法包括:
获取待识别文本;
采用语义识别模块,对所述待识别文本进行语义识别处理;
若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对所述第一槽位的槽位值进行纠错处理;
根据所述第一槽位纠错后的槽位值,确定所述待识别文本的目标识别结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词匹配的第二槽位,则对所述第二槽位的槽位值进行扩充处理;
根据所述第二槽位的槽位值和相应扩充后的槽位值,确定所述待识别文本的目标识别结果。
3.如权利要求2所述的方法,其特征在于,
对所述第一槽位的槽位值进行纠错处理,包括:若所述语义识别模块识别出所述待识别文本对应的领域为所述目标领域、所述待识别文本对应的意图为目标意图、且所述待识别文本对应的槽位中存在至少一个所述第一槽位,则对所述第一槽位的槽位值进行纠错处理;
和/或
对所述第二槽位的槽位值进行扩充处理,包括:若所述语义识别模块识别出所述待识别文本对应的领域为所述目标领域、所述待识别文本对应的意图为目标意图、且所述待识别文本对应的槽位中存在至少一个所述第二槽位,则对所述第二槽位的槽位值进行扩充处理。
4.如权利要求1-3任一项所述的方法,其特征在于,所述语义识别模块包括:文本匹配模块、文法规则识别模块、自然语言理解NLU模块、问答模块中的至少一种。
5.如权利要求4所述的方法,其特征在于,若所述语义识别模块为所述文法规则识别模块;采用语义识别模块,对所述待识别文本进行语义识别处理,包括:
若采用所述文法规则识别模块识别出所述待识别文本与携带指定标签的目标文法规则匹配,则确定所述待识别文本对应的领域为所述目标领域;
根据所述目标文法规则,确定所述待识别文本中的抽槽位置,并进行槽位抽取,确定出所述待识别文本的各槽位对应的槽位值。
6.如权利要求4所述的方法,其特征在于,若所述语义识别模块包括:所述文法规则识别模块和所述NLU模块;对所述第一槽位的槽位值进行纠错处理,包括:
若所述文法规则识别模块和所述NLU模块均识别出所述待识别文本对应的领域为所述目标领域、且所述待识别文本对应的所述第一槽位的槽位值均与已配置的任意实体词不匹配,则将所述NLU模块识别得到的所述第一槽位的槽位值的第一长度与所述文法规则识别模块识别得到的所述第一槽位的槽位值的第二长度进行比较;
根据比较结果,确定所述待识别文本对应的待纠错槽位值,并对所述待纠错槽位值进行纠错处理,得到纠错后的槽位值。
7.如权利要求4所述的方法,其特征在于,若所述语义识别模块包括:所述文法规则识别模块和所述NLU模块;对所述第二槽位的槽位值进行扩充处理,包括:
若所述文法规则识别模块和所述NLU模块均识别出所述待识别文本对应的领域为所述目标领域、且所述待识别文本对应的所述第二槽位的槽位值均与已配置的任意实体词匹配,则将所述文法规则识别模块识别得到的槽位值确定为待扩充槽位值,并对所述待扩充槽位值进行扩充处理,得到扩充后的槽位值。
8.如权利要求6所述的方法,其特征在于,根据比较结果,确定所述待识别文本对应的待纠错槽位值,包括:
若所述第一长度与所述第二长度不相同,则将最大长度对应的槽位值确定为所述待纠错槽位值;或者
若所述第一长度与所述第二长度相同,则将所述NLU模块识别得到的槽位值确定为所述待纠错槽位值。
9.如权利要求1所述的方法,其特征在于,对所述第一槽位的槽位值进行纠错处理,包括:
若所述第一槽位的槽位值对应的拼音序列与任一已配置的实体词对应的拼音序列匹配成功,且所述第一槽位的槽位值对应的字序列与该实体词对应的字序列满足预设字匹配条件,则将该实体词确定为纠错后的槽位值;
其中,所述预设字匹配条件为:所述第一槽位的槽位值对应的字序列与已配置的实体词对应的字序列中相同字的字数、与所述第一槽位的槽位值对应的字序列的总字数的比值大于预设阈值。
10.如权利要求2所述的方法,其特征在于,对所述第二槽位的槽位值进行扩充处理,包括:
将所述第二槽位的槽位值对应的拼音序列与已配置的实体词对应的拼音序列进行模糊匹配,若任一已配置的实体词对应的拼音序列与所述第二槽位的槽位值对应的拼音序列匹配成功,则将该已配置的实体词确定为扩充后的槽位值。
11.一种语义识别装置,其特征在于,所述装置包括:获取单元、处理单元、纠错单元和确定单元;
所述获取单元,用于获取待识别文本;
所述处理单元,用于采用语义识别模块,对所述待识别文本进行语义识别处理;
所述纠错单元,用于若所述语义识别模块识别出所述待识别文本对应的领域为目标领域、且所述待识别文本对应的槽位中存在至少一个槽位值与已配置的任意实体词不匹配的第一槽位,则对所述第一槽位的槽位值进行纠错处理;
所述确定单元,用于根据所述第一槽位纠错后的槽位值,确定所述待识别文本的目标识别结果。
12.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1至10任一所述的方法步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一所述的方法步骤。
CN202110652054.6A 2021-06-11 2021-06-11 语义识别方法、装置、电子设备及存储介质 Active CN113326702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110652054.6A CN113326702B (zh) 2021-06-11 2021-06-11 语义识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110652054.6A CN113326702B (zh) 2021-06-11 2021-06-11 语义识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113326702A true CN113326702A (zh) 2021-08-31
CN113326702B CN113326702B (zh) 2024-02-20

Family

ID=77420497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110652054.6A Active CN113326702B (zh) 2021-06-11 2021-06-11 语义识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113326702B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903342A (zh) * 2021-10-29 2022-01-07 镁佳(北京)科技有限公司 一种语音识别纠错方法及装置
CN114386399A (zh) * 2021-12-30 2022-04-22 中国电信股份有限公司 一种文本纠错方法及装置
EP4160470A1 (en) * 2021-09-29 2023-04-05 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method and apparatus for processing natural language text, device and storage medium
CN116110397A (zh) * 2023-04-07 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920497A (zh) * 2018-05-23 2018-11-30 北京奇艺世纪科技有限公司 一种人机交互方法及装置
CN108932278A (zh) * 2018-04-28 2018-12-04 厦门快商通信息技术有限公司 基于语义框架的人机对话方法及系统
CN109101545A (zh) * 2018-06-29 2018-12-28 北京百度网讯科技有限公司 基于人机交互的自然语言处理方法、装置、设备和介质
CN109800310A (zh) * 2018-12-03 2019-05-24 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN110008317A (zh) * 2019-01-23 2019-07-12 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
US20190244603A1 (en) * 2018-02-06 2019-08-08 Robert Bosch Gmbh Methods and Systems for Intent Detection and Slot Filling in Spoken Dialogue Systems
CN110162621A (zh) * 2019-02-22 2019-08-23 腾讯科技(深圳)有限公司 分类模型训练方法、异常评论检测方法、装置及设备
CN110705267A (zh) * 2019-09-29 2020-01-17 百度在线网络技术(北京)有限公司 语义解析方法、装置及存储介质
CN110765763A (zh) * 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN111143561A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 意图识别模型训练方法、装置及电子设备
CN111145734A (zh) * 2020-02-28 2020-05-12 北京声智科技有限公司 一种语音识别方法及电子设备
CN111144128A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 语义解析方法和装置
CN111274368A (zh) * 2020-01-07 2020-06-12 北京声智科技有限公司 槽位填充方法及装置
CN111368548A (zh) * 2018-12-07 2020-07-03 北京京东尚科信息技术有限公司 语义识别方法及装置、电子设备和计算机可读存储介质
CN111400493A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN111625634A (zh) * 2020-05-25 2020-09-04 泰康保险集团股份有限公司 词槽识别方法及装置、计算机可读存储介质、电子设备
US10811013B1 (en) * 2013-12-20 2020-10-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
CN111858888A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种值机场景的多轮对话系统
CN112685550A (zh) * 2021-01-12 2021-04-20 腾讯科技(深圳)有限公司 智能问答方法、装置、服务器及计算机可读存储介质
CN112800317A (zh) * 2021-02-04 2021-05-14 北京易车互联信息技术有限公司 面向汽车垂直领域的搜索平台架构
CN112825114A (zh) * 2019-11-21 2021-05-21 中兴通讯股份有限公司 语义识别方法、装置、电子设备及存储介质
CN112861521A (zh) * 2021-01-29 2021-05-28 思必驰科技股份有限公司 语音识别结果纠错方法、电子设备及存储介质

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10811013B1 (en) * 2013-12-20 2020-10-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
US20190244603A1 (en) * 2018-02-06 2019-08-08 Robert Bosch Gmbh Methods and Systems for Intent Detection and Slot Filling in Spoken Dialogue Systems
CN108932278A (zh) * 2018-04-28 2018-12-04 厦门快商通信息技术有限公司 基于语义框架的人机对话方法及系统
CN108920497A (zh) * 2018-05-23 2018-11-30 北京奇艺世纪科技有限公司 一种人机交互方法及装置
CN109101545A (zh) * 2018-06-29 2018-12-28 北京百度网讯科技有限公司 基于人机交互的自然语言处理方法、装置、设备和介质
CN109800310A (zh) * 2018-12-03 2019-05-24 国网浙江省电力有限公司杭州供电公司 一种基于结构化表达的电力运维文本分析方法
CN111368548A (zh) * 2018-12-07 2020-07-03 北京京东尚科信息技术有限公司 语义识别方法及装置、电子设备和计算机可读存储介质
CN110046232A (zh) * 2019-01-23 2019-07-23 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110008317A (zh) * 2019-01-23 2019-07-12 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN110162621A (zh) * 2019-02-22 2019-08-23 腾讯科技(深圳)有限公司 分类模型训练方法、异常评论检测方法、装置及设备
CN110765763A (zh) * 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110705267A (zh) * 2019-09-29 2020-01-17 百度在线网络技术(北京)有限公司 语义解析方法、装置及存储介质
CN112825114A (zh) * 2019-11-21 2021-05-21 中兴通讯股份有限公司 语义识别方法、装置、电子设备及存储介质
CN111144128A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 语义解析方法和装置
CN111143561A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 意图识别模型训练方法、装置及电子设备
CN111274368A (zh) * 2020-01-07 2020-06-12 北京声智科技有限公司 槽位填充方法及装置
CN111145734A (zh) * 2020-02-28 2020-05-12 北京声智科技有限公司 一种语音识别方法及电子设备
CN111400493A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN111625634A (zh) * 2020-05-25 2020-09-04 泰康保险集团股份有限公司 词槽识别方法及装置、计算机可读存储介质、电子设备
CN111858888A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种值机场景的多轮对话系统
CN112685550A (zh) * 2021-01-12 2021-04-20 腾讯科技(深圳)有限公司 智能问答方法、装置、服务器及计算机可读存储介质
CN112861521A (zh) * 2021-01-29 2021-05-28 思必驰科技股份有限公司 语音识别结果纠错方法、电子设备及存储介质
CN112800317A (zh) * 2021-02-04 2021-05-14 北京易车互联信息技术有限公司 面向汽车垂直领域的搜索平台架构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HENRY WELD 等: "A servey of joint intent detection and slot-filling models in natural language understanding", 《ARXIV》, pages 32 *
陈婷婷;林民;李艳玲;: "基于Attention+Bi-LSTM的公交出行意图和语义槽填充联合识别", 青海师范大学学报(自然科学版), no. 04, pages 19 - 24 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4160470A1 (en) * 2021-09-29 2023-04-05 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method and apparatus for processing natural language text, device and storage medium
CN113903342A (zh) * 2021-10-29 2022-01-07 镁佳(北京)科技有限公司 一种语音识别纠错方法及装置
CN114386399A (zh) * 2021-12-30 2022-04-22 中国电信股份有限公司 一种文本纠错方法及装置
CN116110397A (zh) * 2023-04-07 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116110397B (zh) * 2023-04-07 2023-08-25 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Also Published As

Publication number Publication date
CN113326702B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
US10437929B2 (en) Method and system for processing an input query using a forward and a backward neural network specific to unigrams
CN109165291B (zh) 一种文本匹配方法及电子设备
CN110516253B (zh) 中文口语语义理解方法及系统
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN112100354B (zh) 人机对话方法、装置、设备及存储介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN115438166A (zh) 基于关键词和语义的搜索方法、装置、设备及存储介质
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
US20220165257A1 (en) Neural sentence generator for virtual assistants
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN112767925A (zh) 语音信息识别方法及装置
CN112528653A (zh) 短文本实体识别方法和系统
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
WO2021129410A1 (zh) 文本处理方法及装置
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN113705207A (zh) 语法错误识别方法及装置
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant