CN111611793A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111611793A
CN111611793A CN201910133778.2A CN201910133778A CN111611793A CN 111611793 A CN111611793 A CN 111611793A CN 201910133778 A CN201910133778 A CN 201910133778A CN 111611793 A CN111611793 A CN 111611793A
Authority
CN
China
Prior art keywords
grammar
text data
matched
preset
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910133778.2A
Other languages
English (en)
Other versions
CN111611793B (zh
Inventor
李鹏
宋俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201910133778.2A priority Critical patent/CN111611793B/zh
Publication of CN111611793A publication Critical patent/CN111611793A/zh
Application granted granted Critical
Publication of CN111611793B publication Critical patent/CN111611793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种数据处理方法、装置、设备及存储介质,通过获取待处理的文本数据;根据预设文法集合,确定与文本数据匹配的文法,其中预设文法集合包含的文法中定义了槽位抽取规则;基于所匹配的文法,获取文本数据对应的包含槽位抽取信息的语义信息。本发明提供的方案中,由于预设文法集合包含的文法中定义了槽位抽取规则,使得所定义的文法更加灵活,并且更具实用性。而根据该预设文法合集即可得到文本数据对应的包含槽位抽取信息的语义信息,可实现端对端的领域和意图分类、以及槽位抽取,提高了数据处理的准确率和效率。

Description

数据处理方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
在自然语言运用中,一些智能终端设备,例如智能音箱需要对用户的口语表达进行理解,从而能够进行正确的操作,比如:智能音箱需要明白用户的意图并播放正确的资源或者对用户做出正确的回复。
现有技术的口语语言理解方法,通常将用户的查询信息与预先编译的预设文法集合中的文法进行匹配,获取用户意图分类,在获取用户意图后再进行槽位抽取获得由查询信息转化为计算机指令所需的必要信息。现有技术中的方法较为复杂,处理效率低下,缺乏灵活性和实用性,且在冷启动阶段准确率较低。
发明内容
本发明提供一种数据处理方法、装置、设备及存储介质,以通过输入用户的查询信息即可得到对应的领域、意图和槽位信息,实现端对端的领域和意图分类以及槽位抽取,提高数据处理的准确率和效率。
本发明的第一方面是提供一种数据处理方法,包括:
获取待处理的文本数据;
根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包含的文法中定义了槽位抽取规则;
基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。
作为一种可能的实现方式,每一所述文法中包括至少一个表征所述文法匹配规则的节点;
所述根据预设文法集合,确定与所述文本数据匹配的文法,包括:
对所述文本数据进行分词处理,得到所述文本数据中包含的词汇;
在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则确定为与所述文本数据匹配的文法。
进一步的,所述方法还包括:
若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确定为与所述文本数据匹配的文法。
基于上述任一实施例,所述预设文法集合中还包括至少一个上下文文法;
所述基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息,包括:
若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数据;
基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。
基于上述任一实施例,所述文法的每一节点对应一个备选词汇集合;
所述根据预设文法集合,确定与所述文本数据匹配的文法前,还包括:
根据所述预设文法集合中所述文法包含的各节点的备选词汇集合,获取全量解析路径,所述全量解析路径中的每一解析路径为任一文法包含的每一节点对应的任一备选词汇形成的文本数据;
所述根据预设文法集合,确定与所述文本数据匹配的文法,包括:
根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。
基于上述任一实施例,所述预设文法集合中的文法根据预定泛化规则进行定义。
进一步的,所述预定泛化规则,包括:
所述文法中所包括的至少一个节点标注有规则标签,所述规则标签中定义该节点在所述文法中出现的次数和/或重复次数。
本发明的第二方面是提供一种数据处理装置,包括:
获取模块,用于获取待处理的文本数据;
确定模块,用于根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包含的文法中定义了槽位抽取规则;
处理模块,用于基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。
作为一种可能的实现方式,每一所述文法中包括至少一个表征所述文法匹配规则的节点;
所述确定模块具体用于:
对所述文本数据进行分词处理,得到所述文本数据中包含的词汇;
在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则确定为与所述文本数据匹配的文法。
进一步的,所述确定模块还用于:
若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确定为与所述文本数据匹配的文法。
基于上述任一实施例,所述预设文法集合中还包括至少一个上下文文法;
所述处理模块具体用于:
若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数据;
基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。
基于上述任一实施例,所述文法的每一节点对应一个备选词汇集合;
所述确定模块具体用于:
在根据预设文法集合,确定与所述文本数据匹配的文法前,根据所述预设文法集合中所述文法包含的各节点的备选词汇集合,获取全量解析路径,所述全量解析路径中的每一解析路径为任一文法包含的每一节点对应的任一备选词汇形成的文本数据;
根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。
基于上述任一实施例,所述预设文法集合中的文法是根据预定泛化规则进行定义的。
进一步的,所述预定泛化规则,包括:
所述文法中所包括的至少一个节点标注有规则标签,所述规则标签中定义该节点在所述文法中出现的次数和/或重复次数。
本发明的第三方面是提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
本发明的第四方面是提供一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行时实现如第一方面所述的方法。
本发明提供的数据处理方法、装置、设备及存储介质,通过获取待处理的文本数据;根据预设文法集合,确定与文本数据匹配的文法,其中预设文法集合包含的文法中定义了槽位抽取规则;基于所匹配的文法,获取文本数据对应的包含槽位抽取信息的语义信息。本发明提供的方案中,由于预设文法集合包含的文法中定义了槽位抽取规则,使得所定义的文法更加灵活,并且更具实用性。而根据该预设文法合集即可得到文本数据对应的包含槽位抽取信息的语义信息,可实现端对端的领域和意图分类、以及槽位抽取,提高了数据处理的准确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据处理方法流程图;
图2为本发明另一实施例提供的数据处理方法流程图;
图3为本发明实施例提供的数据处理装置的结构图;
图4为本发明实施例提供的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的数据处理方法流程图。本实施例提供了一种数据处理方法,该方法具体步骤如下:
S101、获取待处理的文本数据。
在本实施例中,首先获取待处理的文本数据,其中可以通过采集用户查询语音(query),并进行语音识别得到的文本数据;也可以由用户通过触摸屏或键盘输入的文本数据,当然也可通过其他方式获取的文本数据。
S102、根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包含的文法中定义了槽位抽取规则。
在本实施例中,可预先获取预设文法集合,其中预设文法集合中包括文法,每一文法中定义了槽位抽取规则并且文法与各领域中意图对应,也即每一领域下可配置多个意图,每一意图下可配置多个文法,例如,领域为音乐(music),意图可以为查询音乐(search_music)。具体的,文法可以如下:
[main](文法入口)
[music_main]{domain=music}(domain表示领域是music)
[music_main](领域下面为意图节点)
[search_music]{intent=search_music}(intent表示意图为search_music,即查询音乐)
[search_music](每个意图下面具有具体的文法,其中“{song}”为槽位抽取标识)
([play_music_verb](不可说){song}*(单曲循环))
[play_music_verb]([Song]|[Song_top]){song}
[play_music_verb][Song_top]{song}
文法中可预先定义了槽位抽取规则,其中槽位是为了从文本数据得到明确指令所需的信息,例如对于音乐领域、音乐查询意图中“[主语][谓语][歌曲]”这一文法,包含三个节点,分别是[主语]、[谓语]和[歌曲],在定义槽位抽取规则时可为将“歌曲”设置为槽位,当文本数据为“我想听忘情水”,则通过查询预设文法集合,确定文本数据与“[主语][谓语][歌曲]”这一文法相匹配,“忘情水”与“歌曲”对应,因此通过槽位抽取可以获取到明确指令为需要播放的音乐为《忘情水》。当然与文本数据匹配的文法中未定义槽位抽取规则,则不进行槽位抽取。
S103、基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。
在本实施例中,在从预设文法集合获取到与文本数据相匹配的文法后,将该匹配文法所属的领域和意图作为文本数据的领域和意图,根据匹配文法中定义的槽位抽取规则对文本数据进行槽位抽取,获取槽位抽取信息,从而得到语义信息,语义信息包括文本数据的领域、意图和槽位抽取信息,进而可以实现对文本数据的数据处理得到相应的计算机指令,以便于机器执行。
本实施例提供的数据处理方法,通过获取待处理的文本数据;根据预设文法集合,确定与文本数据匹配的文法,其中预设文法集合包含的文法中定义了槽位抽取规则;基于所匹配的文法,获取文本数据对应的包含槽位抽取信息的语义信息。本实施例提供的方法由于预设文法集合包含的文法中定义了槽位抽取规则,使得所定义的文法更加灵活,并且更具实用性。而根据该预设文法合集即可得到文本数据对应的包含槽位抽取信息的语义信息,可实现端对端的领域和意图分类、以及槽位抽取,提高了数据处理的准确率和效率。
在上述实施例的基础上,每一所述预设文法由多个节点构成,每一节点对应一个备选词汇集合。具体的,例如预设文法“[主语][谓语][歌曲]”,可以由“主语”、“谓语”、“歌曲”三个节点构成,其中“主语”节点可包括备选词汇“我”、“我们”、“他/她/它”等;“谓语”节点可包括备选词汇“想听”、“要听”、“听”等;“歌曲”节点可包括备选的歌曲名称,例如“忘情水”、“爱你一万年”、“冰雨”等。其中备选词汇可以穷举所有的可能的词汇。
如图2所示,上述实施例中S102所述的根据预设文法集合,确定与所述文本数据匹配的文法,包括:
S201、对所述文本数据进行分词处理,得到所述文本数据中包含的词汇;
在本实施例中,对于文本数据进行分词处理可采用现有技术中的任意分词方法,例如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,此处不再赘述。
S202、在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则确定为与所述文本数据匹配的文法。
在本实施例中,确定与文本数据匹配的文法可采用精准匹配,也即本文数据包含的词汇与文法中所包含的节点一一匹配,具体而言,例如本文数据“我想听忘情水”通过分词可以获取到该本文数据包含的词汇有“我”、“想听”、“忘情水”,能够与文法“[主语][谓语][歌曲]”中所包含的节点“主语”、“谓语”、“歌曲”一一匹配;而本文数据“我非常想听忘情水”通过分词得到的该本文数据包含的词汇“我”、“非常”、“想听”、“忘情水”,以及文本数据“你好、你好,我想听忘情水”通过分词得到的该本文数据包含的词汇“你好”、“你好”、“我”、“想听”、“忘情水”,不能与文法“[主语][谓语][歌曲]”中所包含的节点“主语”、“谓语”、“歌曲”一一匹配。
在上述实施例的基础上,确定与文本数据匹配的文法还可采用模糊匹配,也即所述方法还可包括:
S203、若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确定为与所述文本数据匹配的文法。
在本实施例中,模糊匹配则为允许文本数据与文法存在一定的差异,例如文本数据包含文法中的所有节点,也即文本数据包含的部分词汇与文法所包含的节点匹配,具体而言,例如“我非常想听忘情水”、“你好、你好,我想听忘情水”包含的部分词汇涵盖了文法“[主语][谓语][歌曲]”中所包含的节点,也即与文法所包含的节点匹配;此外模糊匹配也可以为文本数据包含文法中的部分节点。本实施例中还可以自动扩展匹配度,能够自动扩展文法使其能够支持文法之外的一些词汇,从而提高匹配结果查找的准确性。当然模糊匹配也需要有一定的限制,可以预设一匹配度,以该预设匹配度衡量模糊匹配结果的准确性,其中匹配度可以采用现有技术中的匹配度计算方法,例如语义距离、相似度等。
本实施例中,可以首先进行精准匹配,若精准匹配能够的到匹配文法则进行后续步骤,若无法得到匹配文法,则进行模糊匹配,直至得到匹配文法。
在上述实施例的基础上,S102所述的根据预设文法集合,确定与所述文本数据匹配的文法前,还包括:
根据所述预设文法集合中所述文法包含的各节点的备选词汇集合,获取全量解析路径,所述全量解析路径中的每一解析路径为任一文法包含的每一节点对应的任一备选词汇形成的文本数据。
在本实施例中,首先需要加载预设文法集合,由于预设文法集合中仅仅给出了文法,因此还需要根据文法每一节点对应的备选词汇集合获取全量解析路径,具体的,可以将各节点的备选词汇相互组合,例如上述预设文法为“[主语][谓语][歌曲]”的举例中可以得到解析路径:“我想听忘情水”、“我们想听忘情水”、“他/她/它听忘情水”、“我要听爱你一万年”、“我们想听爱你一万年”、“我们想听爱你一万年”、“他/她/它想听爱你一万年”……此处不再一一列举,需要说明的是,针对文法“[主语][谓语][歌曲]”,如果“主语”节点有3个备选词汇,“谓语”节点只有1个备选词,“歌曲”节点有10个备选词汇,则通过排列组合可得到全量解析路径有3×1×10=30个。
相应的,S102所述的根据预设文法集合,确定与所述文本数据匹配的文法,具体包括:
根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。
本实施例中,在获取到预设文法集合每一文法的全量解析路径后,可将文本数据与各解析路径进行一一匹配,若能够与某一解析路径匹配,则将该解析路径对应的文法作为匹配文法。
基于上述任意实施例,所述预设文法集合包含的文法中定义的槽位抽取规则可以为:所述文法中至少一个节点预先标记槽位抽取标识。本实施例中可将预设文法中的一个或多个节点解析为槽位,当然也可将全部节点作为槽位。其中在编译预设文法时需要将槽位所在节点标记槽位抽取标识,例如[节点1]{album},在节点1后增加{album}的标识,从而可以在解析路径时将节点1解析为槽位album(在实际应用中album可以由具体的槽位信息替换,例如{song})。此外还可以对不同的节点抽取相同的槽位,例如,[节点1]{album}、[节点2]{album},节点1和节点2都解析为槽位album。
此外还可对槽位进行映射,例如,[节点3]{album=value},表示将节点3中包含的值都映射成value,槽位为album,可实现对文本数据中的残缺的词汇或错误的词汇进行纠正,例如文本数据为“我想听刘德的忘情水”,对于“歌手”节点中的“刘德”可以映射到“刘德华”,通过定义[歌手节点]{歌手=刘德华},album为“歌手”,value为“刘德华”,而在“歌手”节点的备选词汇集合中配置可以映射到“刘德华”的词汇,例如“刘德”、“德华”,从而可通过上述对槽位映射实现对缺失部分进行纠正。
本实施例中,在获取到匹配的文法后,可从预设文法集合中获取匹配文法对应的领域和意图作为文本数据的领域和意图;由于匹配文法中的节点设置有槽位标识,因此可以将文本数据中与具有槽位标识的节点对应的词汇进行槽位抽取,从而得到槽位抽取信息。
基于上述任意实施例,所述预设文法集合中还包括至少一个上下文文法;其中上下文文法可以为一些常用的省略句,例如“明天呢”、“明天怎么样”等等。当文本数据为“明天呢”等省略句时,则无法根据该文本数据直接获得该文本数据对应的包含槽位抽取信息的语义信息,需要结合上下文文本数据。同样的,所述上下文文法包括至少一个节点,也可定义槽位抽取规则,例如对于上述的上下文文法“明天呢”中可以对节点“明天”标记槽位抽取标识。
进一步的,S103所述的基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息,还可包括:
若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数据;
基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。
在本实施例中,当文本数据与任一上下文文法匹配,则说明该文本数据为省略句,其中匹配过程同样可采用上述实施例中的精准匹配或模糊匹配,匹配过程此处不再赘述。在完成匹配后可以结合上下文文本数据进行数据处理,也即首先获取该文本数据的上下文文本数据,然后将文本数据结合上下文文本数据对应的包含槽位抽取信息的语义信息,获取该文本数据对应的包含槽位抽取信息的语义信息。具体的,例如单独依据文本数据“明天呢”无法准确确定领域和意图,或者确定领域为聊天领域,而若存在上下文,例如“今天天气怎么样”,则结合上下文文法、上下文文本数据对应的包含槽位抽取信息的语义信息,可确定文本数据“明天呢”的领域为天气领域,意图为查询天气,槽位信息可包括“明天”、“天气”、“地点”,也即结合上下文文本数据,文本数据“明天呢”可等同于“明天天气怎么样”,从而能够得到准确、完整的包含槽位抽取信息的语义信息。
基于上述任意实施例,所述方法还可包括:根据预定泛化规则定义文法,并存储于所述预设文法集合中。
在本实施例中,可采用更为泛化的文法书写方式编译预设文法,从而实现文法书写更加方便、文法匹配过程更为精准灵活,通过根据泛化的文法构成的预设文法集合,可以使得在冷启动阶段数据处理也同样具有较高的准确性。当然上述文法的编写过程也可由人工完成。本实施例中可采用预定泛化规则获取预设文法,具体的,所述根据预定泛化规则获取预设文法,可包括:
获取所述文法中所包括的节点,并根据所述预定泛化规则,对至少一个节点标注规则标签,所述规则标签中定义该节点在所述文法中出现的次数和/或重复次数。
本实施例中,可在编写预设文法时对其节点设置可重复次数和/或出现次数。例如,[节点]<a-b>可表示[节点]可重复次数为a到b次;再如在节点前增加预定符号(星号、加号等),如*[节点],表示[节点]可以是0个或者1个,如+*[节点],表示[节点]可以是0个、1个或多个。通过上述预定泛化规则可以约定预设文法中哪些节点是可以重复的,哪些节点是必需的,哪些节点是非必需的等等,从而提高文法的泛化能力,增加数据处理的精准性、灵活性、实用性。
图3为本发明实施例提供的数据处理装置的结构图。本实施例提供的数据处理装置可以执行数据处理方法实施例提供的处理流程,如图3所示,所述数据处理装置30包括获取模块31、确定模块32以及处理模块33。
获取模块31,用于获取待处理的文本数据;
确定模块32,用于根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包含的文法中定义了槽位抽取规则;
处理模块33,用于基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。
作为一种可能的实现方式,每一所述文法中包括至少一个表征所述文法匹配规则的节点;
所述确定模块32具体用于:
对所述文本数据进行分词处理,得到所述文本数据中包含的词汇;
在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则确定为与所述文本数据匹配的文法。
进一步的,所述确定模块32还用于:
若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确定为与所述文本数据匹配的文法。
基于上述任一实施例,所述预设文法集合中还包括至少一个上下文文法;
所述处理模块33具体用于:
若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数据;
基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。
基于上述任一实施例,所述文法的每一节点对应一个备选词汇集合;
所述确定模块32具体用于:
在根据预设文法集合,确定与所述文本数据匹配的文法前,根据所述预设文法集合中所述文法包含的各节点的备选词汇集合,获取全量解析路径,所述全量解析路径中的每一解析路径为任一文法包含的每一节点对应的任一备选词汇形成的文本数据;
根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。
基于上述任一实施例,所述预设文法集合中的文法是根据预定泛化规则进行定义的。
进一步的,所述预定泛化规则,包括:
所述文法中所包括的至少一个节点标注有规则标签,所述规则标签中定义该节点在所述文法中出现的次数和/或重复次数。
本发明实施例提供的数据处理装置可以具体用于执行上述图1和图2所提供的方法实施例,具体功能此处不再赘述。
本发明实施例提供的数据处理装置,通过获取待处理的文本数据;根据预设文法集合,确定与文本数据匹配的文法,其中预设文法集合包含的文法中定义了槽位抽取规则;基于所匹配的文法,获取文本数据对应的包含槽位抽取信息的语义信息。本实施例由于预设文法集合包含的文法中定义了槽位抽取规则,使得所定义的文法更加灵活,并且更具实用性。而根据该预设文法合集即可得到文本数据对应的包含槽位抽取信息的语义信息,可实现端对端的领域和意图分类、以及槽位抽取,提高了数据处理的准确率和效率。
图4为本发明实施例提供的电子设备的结构示意图。本发明实施例提供的电子设备可以执行数据处理方法实施例提供的处理流程,如图4所示,电子设备40包括存储器41、处理器42、计算机程序和通讯接口43;其中,计算机程序存储在存储器41中,并被配置为由处理器42执行以上实施例所述的数据处理方法。
图4所示实施例的电子设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的数据处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待处理的文本数据;
根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包含的文法中定义了槽位抽取规则;
基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。
2.根据权利要求1所述的方法,其特征在于,每一所述文法中包括至少一个表征所述文法匹配规则的节点;
所述根据预设文法集合,确定与所述文本数据匹配的文法,包括:
对所述文本数据进行分词处理,得到所述文本数据中包含的词汇;
在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则确定为与所述文本数据匹配的文法。
3.根据权利要求2所述的方法,其特征在于,还包括:
若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确定为与所述文本数据匹配的文法。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述预设文法集合中还包括至少一个上下文文法;
所述基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息,包括:
若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数据;
基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。
5.根据权利要求1所述的方法,其特征在于,所述文法的每一节点对应一个备选词汇集合;
所述根据预设文法集合,确定与所述文本数据匹配的文法前,还包括:
根据所述预设文法集合中所述文法包含的各节点的备选词汇集合,获取全量解析路径,所述全量解析路径中的每一解析路径为任一文法包含的每一节点对应的任一备选词汇形成的文本数据;
所述根据预设文法集合,确定与所述文本数据匹配的文法,包括:
根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。
6.根据权利要求1所述的方法,其特征在于,
所述预设文法集合中的文法是根据预定泛化规则进行定义的。
7.根据权利要求6所述的方法,其特征在于,所述预定泛化规则,包括:
所述文法中所包括的至少一个节点标注有规则标签,所述规则标签中定义该节点在所述文法中出现的次数和/或重复次数。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理的文本数据;
确定模块,用于根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包含的文法中定义了槽位抽取规则;
处理模块,用于基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。
9.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201910133778.2A 2019-02-22 2019-02-22 数据处理方法、装置、设备及存储介质 Active CN111611793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910133778.2A CN111611793B (zh) 2019-02-22 2019-02-22 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910133778.2A CN111611793B (zh) 2019-02-22 2019-02-22 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111611793A true CN111611793A (zh) 2020-09-01
CN111611793B CN111611793B (zh) 2023-06-13

Family

ID=72199627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910133778.2A Active CN111611793B (zh) 2019-02-22 2019-02-22 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111611793B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466292A (zh) * 2020-10-27 2021-03-09 北京百度网讯科技有限公司 语言模型的训练方法、装置和电子设备
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064885A (zh) * 2012-12-06 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种实现多关键词同步输入系统及方法
CN105824801A (zh) * 2015-03-16 2016-08-03 国家计算机网络与信息安全管理中心 一种基于自动机的实体关系快速抽取方法
CN108563790A (zh) * 2018-04-28 2018-09-21 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064885A (zh) * 2012-12-06 2013-04-24 安徽科大讯飞信息科技股份有限公司 一种实现多关键词同步输入系统及方法
CN105824801A (zh) * 2015-03-16 2016-08-03 国家计算机网络与信息安全管理中心 一种基于自动机的实体关系快速抽取方法
CN108563790A (zh) * 2018-04-28 2018-09-21 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁杰;: "基于文法规则匹配的自然语言处理系统研究与实现" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466292A (zh) * 2020-10-27 2021-03-09 北京百度网讯科技有限公司 语言模型的训练方法、装置和电子设备
CN112466292B (zh) * 2020-10-27 2023-08-04 北京百度网讯科技有限公司 语言模型的训练方法、装置和电子设备
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN111611793B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN110442710B (zh) 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN106875949B (zh) 一种语音识别的校正方法及装置
CN109979450B (zh) 信息处理方法、装置及电子设备
CN111178076B (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
CN111292751B (zh) 语义解析方法及装置、语音交互方法及装置、电子设备
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
KR102267561B1 (ko) 음성 언어 이해 장치 및 방법
CN111611349A (zh) 语音查询方法、装置、计算机设备及存储介质
CN110287364B (zh) 语音搜索方法、系统、设备及计算机可读存储介质
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN111881297A (zh) 语音识别文本的校正方法及装置
CN111611793A (zh) 数据处理方法、装置、设备及存储介质
CN113761137B (zh) 一种提取地址信息的方法及装置
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN114970541A (zh) 文本语义理解方法、装置、设备及存储介质
CN113763947B (zh) 一种语音意图识别方法、装置、电子设备及存储介质
CN114155841A (zh) 语音识别方法、装置、设备及存储介质
CN111401034B (zh) 文本的语义分析方法、语义分析装置及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant