CN112825114A - 语义识别方法、装置、电子设备及存储介质 - Google Patents
语义识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112825114A CN112825114A CN201911151625.7A CN201911151625A CN112825114A CN 112825114 A CN112825114 A CN 112825114A CN 201911151625 A CN201911151625 A CN 201911151625A CN 112825114 A CN112825114 A CN 112825114A
- Authority
- CN
- China
- Prior art keywords
- model
- recognition
- intention
- query text
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种语义识别方法、装置、电子设备及存储介质,利用对意图识别模型和槽值标注模型进行联合训练得到语义联合识别模型,对查询文本进行预测,可直接实现对查询文本意图预测结果和槽值预测结果的关联预测输出;由于在进行模型训练过程中对意图识别模型和槽值标注模型进行联合训练,不需要对各模型进行单独训练,可简化模型训练流程,提升效率;且利用训练得到的具有关联的意图识别模型和槽值标注模型可直接实现对查询文本意图预测结果和槽值预测结果的关联预测输出,既能提升识别效率,又能利用该关联性提升识别的准确率。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种语义识别方法、装置、电子设备及存储介质。
背景技术
以语音技术和NLP技术为支撑的人机对话系统在智能手机、智能家居、车载设备等场景中有较为广泛的应用。其通常包括语义识别(也可称之为语义理解)、对话管理和回复生成三个部分。而语义识别是其中重要的一环,也是后续各个步骤的基础,是指识别用户输入的查询query文本的意图及其中包含的实体信息,具体主要包括意图识别及槽值标注两个主要任务。在相关技术中,语义识别都仅是基于全局语言利用训练语言模型对query文本进行识别,且通常需要单独训练多个独立的神经网络模型来完成query文本的语义解析,单独训练的多个神经网络模型之间无任何关联关系,使得模型训练过程和语义识别过程都变得繁琐笨重,性能和效率都较低,且识别的准确率也有待提高。
发明内容
本发明实施例提供的语义识别方法、装置、电子设备及存储介质,至少解决了相关技术中,模型训练过程和语义识别过程繁琐,性能和效率较低,且识别准确率也较低的问题。
为至少解决上述技术问题,本发明实施例提供了一种语义识别方法,包括:获取待识别查询文本;通过语义联合识别模型,对所述待识别查询文件进行识别,输出意图识别结果和槽值识别结果;所述语义联合识别模型包括:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练,所得到的具有关联性的意图识别模型和槽值标注模型。
为至少解决上述技术问题,本发明实施例还提供了一种语义识别装置,包括:文本获取模块,用于获取待识别查询文本;语义识别模块,用于通过语义联合识别模型,对所述待识别查询文件进行识别,输出意图识别结果和槽值识别结果;所述语义联合识别模型包括:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练,所得到的具有关联性的意图识别模型和槽值标注模型。
为至少解决上述技术问题,本发明实施例还提供了一种电子设备,包括处理器、存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以实现如上所述的语义识别方法的步骤。
为解决上述技术问题,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行,以实现如上所述的语义识别方法的步骤。
有益效果
根据本发明实施例提供的语义识别方法、装置、电子设备及存储介质,利用意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练得到语义联合识别模型,对查询文本进行预测,可直接实现对查询文本意图预测结果和槽值预测结果的关联预测输出;由于在进行模型训练过程中对意图识别模型和槽值标注模型进行联合训练,不需要对各模型进行单独训练,可简化模型训练流程,提升效率;且利用训练得到的具有关联的意图识别模型和槽值标注模型可直接实现对查询文本意图预测结果和槽值预测结果的关联预测输出,既能提升识别效率,又能利用该关联性提升识别的准确率。
进一步地,本发明实施例结合领域知识库和全局语言知识库的融合进行模型的训练和后续的识别,相对仅利用全局语言知识库的做法,可进一步提升语义识别的准确性。
本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明,且应当理解,至少部分有益效果从本发明说明书中的记载变的显而易见。
附图说明
图1为本发明实施例一的语义识别模型训练方法流程示意图;
图2为本发明实施例一语言信息表征量提取方法流程示意图;
图3为本发明实施例一领域信息表征量提取方法流程示意图;
图4为本发明实施例一的语义识别方法流程示意图;
图5为本发明实施例一的语义联合识别模型系统架构示意图;
图6为本发明实施例二的语义识别模型训练装置结构示意图;
图7为本发明实施例二的语义识别装置结构示意图;
图8为本发明实施例二的模型训练流程示意图;
图9为本发明实施例二的预测流程示意图;
图10为本发明实施例三的电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
针对模型训练过程和语义识别过程繁琐,性能和效率较低,且识别准确率也较低的问题,本实施例在进行模型训练过程中对意图识别模型和槽值标注模型进行联合训练,不需要对各模型进行单独训练,可简化模型训练流程,提升效率。
同时,在语义识别时,获取待识别查询文本后,可通过语义联合识别模型,对待识别查询文件进行识别,输出意图识别结果和槽值识别结果。该语义联合识别模型包括:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练,所得到的具有关联性的意图识别模型和槽值标注模型。也即本实施例可利用具有关联的意图识别模型和槽值标注模型可直接实现对查询文本意图预测结果和槽值预测结果的关联预测输出,既能提升识别效率,又能利用该关联性提升识别的准确率。
另外,本实施例结合领域知识库和全局语言知识库的融合进行模型的训练和后续的识别,相对仅利用全局语言知识库的做法,可进一步提升语义识别的准确性。
为了便于理解,本实施例下面以图1所示的语义识别模型训练方法为示例进行说明,请参见图1所示,其包括:
S101:获取用于训练的查询文本。
应当理解的是,本实施例中用于训练的查询(query)文本的下发方式可以通过但不限于语音输入、文字输入、手势输入等。且应当理解的是,本实施例中query文本具体包括的内容可以根据具体应用场景等因素灵活设置,该query文本为用户需要查询时,所输入的查询信息。
S102:提取所述查询文本的语言信息表征量,并利用领域知识库获取查询文本的领域信息表征量,领域知识库中包括至少一个领域对应的词条。
在本步骤中,语音信息表征量是指对输入的查询文本进行利用预训练模型处理后所得到的用于表征该查询文本信息的表征量。例如,该语言信息表征量可包括但不限于该查询文本对应的语境向量。且该语境向量可包括但不限于查询文本的字符序列之开始位置的开始位置语境向量cCLS、查询文本的字符序列之结束位置的结束位置语境向量cSEP、以及该查询文本的各字符的字符语境向量ctoken中的至少一种。
在本实施例的一种示例中,可通过但不限于预训练模型提取查询文本的语言信息表征量。例如:通过预训练模型(例如可采用但不限于深层预训练语言模型)进行query文本的语言知识提取,该阶段的输入为query文本,经过一定颗粒度的文本分割(例如对汉字来说,颗粒度可以字为单位),并加入特定的符号,以及位置信息,片段信息等,最后整合为一个输入向量,经过预训练模型后,可得到以上所示的转换后的语言信息表征量。其中,一种示例的利用预训练模型提取查询文本的语言信息表征量的过程请参见图2所示,可以包括:
S201:将查询文本转换成字符序列,并在该字符序列的开始和结束位置分别添加开始标签CLS和结束标签SEP。
S202:获取字符序列的字符向量、位置向量和片段向量。
S203:将字符向量、位置向量和片段向量输入预训练模型,经预训练模型编码输出得到每个位置的语境向量。
也即,在输入查询文本的字符串后,首先将其转换成字符序列,在其开始和结束位置处分别添加用于表征开始位置和结束位置的标签CLS和SEP,并给出其位置和片段信息,将字符向量、位置向量和片段向量求和作为预训练模型的输入向量。输入向量经过预训练模型,对应每个字符得到对应的字符语境向量Ctoken,以及得到查询文本的字符序列之开始位置的开始位置语境向量cCLS、查询文本的字符序列之结束位置的结束位置语境向量cSEP等。其中,一种示例中,可设置每个输出均为一个固定维数的语境向量。其中,开始位置语境向量cCLS视为编码了整个查询文本的片段的语义信息。
应当理解的是,本实施例中的预训练模型具体采用什么类型的语音模型可以根据具体应用场景灵活选择。例如,在一种示例中,预训练模型可采用但不限于预训练的中文BERT深层语言模型进行提取特征。BERT深层语言模型可以基于大规模语言数据学习上下文敏感的词语和句子表示(contextual embeddings)。
例如假设给定一条query文本,“我想听一首周杰伦的告白气球”,参见图5所示,通过全局语言知识提取分别提取到对应的字符向量、位置向量和片段向量,将得到的字符向量、位置向量和片段向量输入深层预训练语言模型,经预训练模型编码输出得到开始位置语境向量cCLS、结束位置语境向量cSEP、以及各字符的字符语境向量ctoken。
本实施例中,领域知识库可包括但不限于:领域词条与类型对应关系。且领域知识库包括的领域词条预设分词词典中,以供对查询文本进行分词处理。本实施例中的分词词典中包括用于指示对查询文本进行分词处理的各词条,可以该分词词典中的词条为单位,对查询文本进行分词处理。
例如一种示例的领域知识库中的对应关系请参见以下表1所示:
表1
领域词条 | 类型 |
青山泉镇、磁器口、…… | geo |
多看阅读、阅读器、…… | appname |
周杰伦、刘德华、…… | artist |
告白气球、稻花香、…… | song |
本步骤中,基于领域知识库进行领域信息表征量的提取。该阶段主要包括进行领域知识库的收集进而形成知识词典,然后对query文本进行正确的分词,基于分词的结果对各部分进行实体信息的标注,最后,进行知识的数值化映射,即进行向量化的表示。
例如,一种示例中,可通过但不限于网络爬虫,从音乐、视频、娱乐、行政区划、应用商店等类别网站中爬取不同领域专名信息,经清洗,并排除歧义较大的单字、双字词条(如“我”、“我想”等),将其加入领域知识库并填充相关信息。且应当理解的是,上述表1中“类型”具体的数量可以根据具体应用场景灵活设定,且设定的数量可支持动态增减。
在本实施例中,将领域知识库中的词条加入分词词典,以确保自动分词工具能够根据分词词典将查询文本切分为一个个的词条。例如给定一条query文本,如“我想听一首周杰伦的告白气球”,采用该集成词典的分词工具对其进行切分,得到“我/想/听/一首/周杰伦/的/告白气球”。
为了便于理解,下面结合图3所示的利用领域知识库获取查询文本的领域信息表征量的过程进行示例说明,其包括:
S301:利用分词词典对查询文本进行分词处理。
承接上述示例,例如对于训练用的query文本为“我想听一首周杰伦的告白气球”,采用该集成词典的分词工具对其进行切分,得到:
我/想/听/一首/周杰伦/的/告白气球。
S302:利用领域知识库,确定查询文本所包括的各领域词条对应的目标类型;以及根据接收到的领域配置指令确定该查询文本对应的目标领域。
在本步骤中,也即针对query文本的分词结果,将各词条与上述领域知识库进行匹配,进而得到该query文本各字符所属的类型信息。另外,对于该整条query文本,在训练过程中可根据接收到的领域配置指令,标注该查询文本对应的目标领域。
例如,对于上述示例的query文本,假设接收到的领域配置指令中包括的领域为多媒体multimedia,则根据接收到的领域配置指令确定该query文本对应的目标领域为multimedia,此时该query文本匹配的结果如下:
我(none)想(none)听(none)一首(none)周杰伦(artist)的(none)告白气球(song)|||multimedia;
即周杰伦和告白气球属于领域词条,对应的目标类型分别为artist和song,而这一条query文本所属的目标领域为multimedia。
在本实施例的一些实例中,为了保证识别的准确性和效率,可设定每条query文本中的各字符所属的类型不超过K个,且每个字符仅允许匹配一个类型;一条query文本所属的领域不超过L个。其中K和L的具体取值则可根据具体需求灵活设定。
S303:提取目标领域对应的目标领域向量q,以及获取各查询文本各字符(其中未匹配上的字符对应的为0)对应的目标类型向量ttoken。
例如,可将上述分词结果进行转换,使得领域知识(类型)与每个字符对应,其中B代表实体(即词条)开头、M代表实体中、E代表实体结尾、O代表未匹配:
我(O)想(O)听(O)一(O)首(O)周(artist_B)杰(artist_M)伦(artist_E)的(O)告(song_B)白(song_M)气(song_M)球(song_E);
将query文本和字符的领域知识向量化:①query文本领域信息可表示为N维one-hot向量q,N为领域的数量,如该query涉及多个垂域(不超过L个),则将其拼接,不足L个时则补0向量;②类似地,字符领域知识也可表示为M维one-hot向量ttoken,M为领域知识(即类型)标签数量,例如假设类型数量为X,则M=X*K,不足时也可补0向量。
S103:将语言信息表征量和领域信息表征量进行融合分别得到意图识别模型的第一输入向量ICLS和槽值标注模型的第二输入向量stoken。
本步骤中,上述过程抽取的语言信息表征量和所述领域信息表征量进行融合。其中,根据语言信息表征量和领域信息表征量得到意图识别模型的第一输入向量ICLS包括:
将开始位置语境向量cCLS与目标领域向量q进行融合得到第一输入向量ICLS;本实施例中的融合方式包括但不限于:将开始位置语境向量cCLS与目标领域向量q相加,或者求二者的内积。
例如,ICLS的一种表征为:
ICLS=concat(cCLS,qW+b);
其中,对于目标领域向量q可先通过全连接神经网络变换为与cCLS维度相同的向量后,再与开始位置语境向量cCLS融合,W矩阵和b向量为模型训练中学习的参数。应当理解的是,本实施例中,将目标领域向量q变换为与cCLS维度相同的转换方式可以灵活设定。例如可以通过但不限于将目标领域向量q通过全连接神经网络,变换为与cCLS维度相同。且此处的连接神经网络可以为但不限于一层连接神经网络。
类似的,根据语言信息表征量和领域信息表征量得到槽值标注模型的第二输入向量stoken包括:
将查询文本各字符对应的目标类型向量ttoken变换为与查询文本的各字符的字符语境向量ctoken维度相同的向量后,与字符语境向量ctoken进行融合得到第二输入向量stoken。此处的融合方式包括但不限于:将目标类型向量ttoken与字符语境向量ctoken相加,或者求二者的内积。
应当理解的是,本实施例中,将目标类型向量ttoken变换为与字符语境向量ctoken维度相同的转换方式也可以灵活设定。例如也可以通过但不限于将目标类型向量ttoken通过全连接神经网络,变换为与字符语境向量ctoken维度相同。且此处的连接神经网络可以为但不限于一层连接神经网络。
S104:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,以及第一输入向量ICLS和第二输入向量stoken,对意图识别模型和槽值标注模型进行联合训练,得到语义联合识别模型。
在本步骤中,将意图识别作为一个任务进行解析,这里是一个神经网络的形式存在,不是一般性地,例如可以采用但不限于一个前馈神经网络和softmax层进行学习,而槽值信息提取的任务用另一个模型进行解析,不是一般性地,例如采用但不限于CRF模型对各个实体的标签进行学习。而在训练阶段,损失函数采用两者的组合来作为总体的损失,并根据具体的收敛条件进行联合的迭代学习,从而最后得到联合模型。
例如,在本实施例的一种示例中,根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,以及第一输入向量ICLS和第二输入向量stoken,对意图识别模型和槽值标注模型进行联合训练,得到语义联合识别模型包括:
采用分类函数对第一输入向量ICLS对应的意图进行学习,并采用预设的学习模型对第二输入向量stoken对应的实体标签进行学习;
在采用分类函数对所述第一输入向量ICLS对应的意图进行学习,并采用预设的学习模型对所述第二输入向量stoken对应的实体标签进行学习过程中,根据意图识别模型的第一模型损失li和槽值标注模型的第二模型损失ls的变化,对意图识别模型及槽值标注模型的模型参数进行调整,直到调整后的意图识别模型的第一模型损失li和调整后的槽值标注模型的第二模型损失ls达到设定模型损失平衡条件。且应当理解的是,本实施例中所调整的模型参数,包括但不限于意图识别模型和槽值标注模型中,能影响第一模型损失li和第二模型损失ls的各种参数中的至少一种。
本实施例的中的分类函数可以采用但不限于softmax函数、sigmoid函数;例如,得到第一输入向量ICLS后,可采用全连接神经网络和softmax函数对意图进行学习。本实施例中,预设的学习模型可以为但不限于条件随机场模型(CRF模型),隐马尔可夫模型(HMM模型),最大熵马尔可夫模型(MEMM模型);例如在得到第二输入向量stoken后,可采用CRF模型来学习每个字符对应的实体标签;具体训练过程请参见图5所示。
在本实施例中,意图识别和槽值信息提取两个任务的训练采用面向联合学习的自适应优化方法,在训练过程中,利用意图识别模型和槽值标注模型的模型损失(loss)来更新意图识别模型和槽值标注模型参数,并微调(fine-tune)整个深层预训练语言模型的参数。考虑到槽值提取高度依赖于意图识别,同时槽值提取的结果也会对意图识别产生影响,本实施例一种示例中设定的模型损失平衡条件如下:
l=li+1/li*ls;
其中,l为意图识别模型和槽值标注模型的总模型损失,其值可根据具体应用场景灵活设定;li为意图分类模型的第一模型损失,ls为槽值标注模型的第二模型损失。当意图识别模型的第一模型损失li较大时,将会主要根据第一模型损失li来更新参数,相当于在初始阶段主要学习相对容易的意图信息;当意图识别模型的第一模型损失li逐渐减小,槽值标注模型的第二模型损失ls对模型参数的影响将逐渐增大,意味着当意图信息学习得较为充分时,将更多地侧重学习槽值提取;在训练过程中,如意图识别效果变差,则又可根据上述规则自动关联的调整意图识别模型的第一模型损失li,经过上述反复调整,直到调整后的意图识别模型的第一模型损失li和调整后的槽值标注模型的第二模型损失ls达到设定模型损失平衡条件。
应当理解的是,本实施例并不限于使用上述中文BERT深层语言模型,全连接神经网络,一层的全连接神经网络和后接一个softmax函数以及CRF模型,采用各种结果达到本实施例中的联合训练和预测的解析方法,均在本申请范围之内。
基于上述示例的训练过程得到语义联合识别模型后,即可利用该语义联合识别模型进行语义识别,其中一种语义识别方法请参见图4所示,包括:
S401:获取待识别查询文本。
S402:通过系统加载的如上所述的语义识别模型训练方法得到的语义联合识别模型,对待识别查询文件进行识别,输出意图识别结果和槽值识别结果。
本实施例提供的上述方法实现了融合全局语言知识和领域知识的联合进行语义解析,通过上述全局语言知识提取、领域知识提取、基于知识融合的联合学习以及联合预测四个阶段实现;其中全局语言知识和领域知识的融合能够提取到更多更丰富的深层语言表征,而联合学习和预测可一次联合学习和预测到意图信息和槽值(也即关键实体)信息。同时意图信息和关键实体信息又可以互为补充。可见,本实施例提供的方法集成了预训练语言模型和领域知识库,使得模型不仅可从训练数据中学习意图和槽值信息,还可同时接受全局语言知识和领域知识的指导。在训练过程中,语言模型也可以根据训练数据迭代更新,并补充领域知识,从而不断进化,进一步可为多轮对话的分析和理解提供支持。本技术通过联合学习和自适应优化方法,可以捕捉任务之间的关联性和依赖性,提升了query语义理解的效率和准确率。
实施例二:
上述实施例提供的方法可适用于服务器,普通PC机甚至是嵌入式移动设备等各种电子设备,设备可具有中央处理器CPU、内存甚至是图形处理器GPU(可选)等硬件设备,并需电力供应;上述实施例提供的方法也可适用于操作系统软件(Linux、Windows等),并可结合深度学习平台(如TensorFlow、Pytorch等)、机器学习软件库(如sk-learn等)或基于相关计算机语言的软件的集成开发环境实现的相关算法代码实现。
本实施例提供了一种语义识别模型训练装置,其可设置于电子设备中,请参见图6所示,包括:
信息提取模块601,用于提取用于训练的查询文本的语言信息表征量,并利用领域知识库获取查询文本的领域信息表征量,领域知识库中包括至少一个领域对应的词条;具体提取过程请参见上述实施例所示,在此不再赘述。
模型训练模块602,用于将语言信息表征量和领域信息表征量进行融合分别得到意图识别模型的第一输入向量ICLS和槽值标注模型的第二输入向量stoken,根据第一输入向量ICLS和槽值标注模型的第二输入向量stoken对意图识别模型和槽值标注模型进行联合训练,得到语义联合识别模型。具体训练过程请参见上述实施例所示,在此也不再赘述。
本实施例还提供了一种语义识别装置,该语义识别装置可设置于电子设备中,且该电子设备与语义识别模型训练装置所在的电子设备可以为同一设备,也可为不同设备,请参见图7所示,其包括:
文本获取模块701,用于获取待识别查询文本;具体获取取过程请参见上述实施例所示,在此不再赘述。
语义识别模块702,用于通过如上的语义识别模型训练方法得到的语义联合识别模型,对待识别查询文件进行识别,输出意图识别结果和槽值识别结果。具体识别过程请参见上述实施例所示,在此也不再赘述。
应用理解的是,上述各模块中的至少一个模块的功能可以通过但不限于模块所在电子设备的处理器实现。其中,语义识别模型训练装置所执行的训练流程请参见图8所示,训练流程可包括但不限于:
S801:获取用于训练的query文本原始数据,具体的获取方式可采用但不限于上述实施例中所示例的方式。
S802:对获取的query文本原始数据分别进行用于领域知识和全局语言知识的提取处理,具体提取处理过程可采用但不限于上述实施例中所示例的提取处理方式。
S803:分别对得到的领域知识的提取内容和全局语言知识的提取内容进行领域知识的和全局语言知识的标注;具体提取标注方式可采用但不限于上述实施例中所示例的标注方式。
S804:根据标注结果分别进行领域知识的向量表示,和全局语言知识的向量表示;具体向量表示方式可采用但不限于上述实施例中所示例的方式。
S805:分别对领域知识的向量表示和全局语言知识的向量表示进行转换表征;具体转换表征方式可采用但不限于上述实施例图5中所示例的方式。
S806:分别对领域知识的向量表示和全局语言知识的向量表示转换表征后的向量进行融合,分别得到意图识别模型的第一输入向量ICLS和槽值标注模型的第二输入向量stoken;
S807:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练;
S808:输出所得到的具有关联性的意图识别模型和槽值标注模型。
语义识别装置所执行的预测(也即识别)流程请参见图9所示,可包括但不限于:
S901:获取待识别的query文本原始数据,具体的获取方式可采用但不限于上述实施例中所示例的方式。
S902:对获取的query文本原始数据进行数据预处理。
S903:对预处理后的数据进行向量化表征。
S904:输入语义联合识别模型。
S905:输出意图识别结果和槽值识别结果。
其中,在图8和图9所示的两个流程中,数据预处理的方式有所不同,在图8所示的训练阶段,基于领域知识的一侧,需要先将原始数据进行分词的处理,分词时还需要考虑知识词典的使用,保证实体的分割是正确的,然后再基于已分割的知识实体或非实体进行标注,标注的时候对中文来说针对的是字。而对全局语言知识,对中文来说往往就是以字为单位,加入一些特定的符号后进行向量的转换;相对应的,在图9所示的预测流程中,这个预处理的过程就可以合二为一,即只需要将他们都以字为单位分割,然后分别做向量化表示即可。另外,在图9所示的预测流程中,数据预处理过程中需要确定query文本整条文本所属的目标领域时,可以通过但不限于预建立的查询文本领域预测模型,将query文本作为输入,输入该查询文本领域预测模型,将查询文本领域预测模型针对该query文本输出的预测领域,作为该query文本整条文本所属的目标领域。
实施例三:
本实施例还提供了一种电子设备,如上其可为服务器和各种终端,参见图10所示,其包括处理器1001、存储器1002以及通信总线1003;
通信总线1003用于实现处理器1001与存储器1002之间的通信连接;
一种示例中,处理器1001可用于执行存储器1002中存储的算机程序,以实现如上各实施例中的语义识别方法的步骤。
本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically Erasable Programmable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。
在一种示例中,本实施例中的计算机可读存储介质可用于存储计算机程序,该计算机程序可被处理器执行,以实现如上各实施例中的语义识别方法的步骤。
本实施例还提供了一种计算机程序(或称计算机软件),该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现如上各实施例中的语义识别方法中的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的任一计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
可见,本领域的技术人员应该明白,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。
此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种语义识别方法,其特征在于,包括:
获取待识别查询文本;
通过语义联合识别模型,对所述待识别查询文件进行识别,输出意图识别结果和槽值识别结果;
所述语义联合识别模型包括:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练所得到的具有关联性的意图识别模型和槽值标注模型。
2.如权利要求1所述的语义识别方法,其特征在于,所述根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练包括:
获取用于训练的查询文本;
提取所述查询文本的语言信息表征量,并利用领域知识库获取所述查询文本的领域信息表征量,所述领域知识库中包括至少一个领域对应的词条;
将所述语言信息表征量和所述领域信息表征量进行融合分别得到意图识别模型的第一输入向量ICLS和槽值标注模型的第二输入向量stoken;
根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,以及所述第一输入向量ICLS和第二输入向量stoken,对所述意图识别模型和槽值标注模型进行联合训练。
3.如权利要求2所述的语义识别方法,其特征在于,所述语言信息表征量包括所述查询文本的语境向量。
4.如权利要求3所述的语义识别方法,其特征在于,所述领域知识库包括:领域词条与类型对应关系;所述领域知识库包括的领域词条预设在分词词典中;以及
所述利用领域知识库获取所述查询文本的领域信息表征量包括:
利用所述分词词典对所述查询文本进行分词处理;
利用所述领域知识库,确定所述查询文本所包括的各领域词条对应的目标类型;并根据接收到的领域配置指令确定所述查询文本对应的目标领域;
提取所述目标领域对应的目标领域向量q,以及获取所述各查询文本各字符对应的目标类型向量ttoken。
5.如权利要求4所述的语义识别方法,其特征在于,所述查询文本的语境向量包括:所述查询文本的字符序列之开始位置的开始位置语境向量cCLS;
所述根据所述语言信息表征量和所述领域信息表征量得到意图识别模型的第一输入向量ICLS包括:
将所述开始位置语境向量cCLS与所述目标领域向量q进行融合得到第一输入向量ICLS。
6.如权利要求5所述的语义识别方法,其特征在于,所述查询文本的语境向量包括:所述查询文本的各字符的字符语境向量ctoken;
所述根据所述语言信息表征量和所述领域信息表征量得到槽值标注模型的第二输入向量stoken包括:
将所述各查询文本各字符对应的目标类型向量ttoken与所述字符语境向量ctoken进行融合得到第二输入向量stoken。
7.如权利要求6所述的语义识别方法,其特征在于,所述根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,以及所述第一输入向量ICLS和第二输入向量stoken,对所述意图识别模型和槽值标注模型进行联合训练:
采用分类函数对所述第一输入向量ICLS对应的意图进行学习,并采用预设的学习模型对所述第二输入向量stoken对应的实体标签进行学习;
在所述采用分类函数对所述第一输入向量ICLS对应的意图进行学习,并采用预设的学习模型对所述第二输入向量stoken对应的实体标签进行学习过程中,根据所述意图识别模型的第一模型损失和所述槽值标注模型的第二模型损失的变化,对所述意图识别模型及所述槽值标注模型的模型参数进行调整,直到调整后的意图识别模型的第一模型损失和调整后的槽值标注模型的第二模型损失达到设定模型损失平衡条件。
8.一种语义识别装置,其特征在于,包括:
文本获取模块,用于获取待识别查询文本;
语义识别模块,用于通过语义联合识别模型,对所述待识别查询文件进行识别,输出意图识别结果和槽值识别结果;
所述语义联合识别模型包括:根据意图识别模型的第一模型损失和槽值标注模型的第二模型损失,对意图识别模型和槽值标注模型进行联合训练所得到的具有关联性的意图识别模型和槽值标注模型。
9.一种电子设备,其特征在于,包括处理器、存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-7任一项所述的语义识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行,以实现如权利要求1-7任一项所述的语义识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911151625.7A CN112825114A (zh) | 2019-11-21 | 2019-11-21 | 语义识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911151625.7A CN112825114A (zh) | 2019-11-21 | 2019-11-21 | 语义识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112825114A true CN112825114A (zh) | 2021-05-21 |
Family
ID=75907829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911151625.7A Pending CN112825114A (zh) | 2019-11-21 | 2019-11-21 | 语义识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112825114A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326702A (zh) * | 2021-06-11 | 2021-08-31 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN114416976A (zh) * | 2021-12-23 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本标注方法、装置及电子设备 |
CN115249017A (zh) * | 2021-06-23 | 2022-10-28 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN115618968A (zh) * | 2022-12-02 | 2023-01-17 | 北京红棉小冰科技有限公司 | 新意图发现方法、装置、电子设备及存储介质 |
CN115795038A (zh) * | 2023-01-31 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于国产化深度学习框架的意图识别方法和装置 |
-
2019
- 2019-11-21 CN CN201911151625.7A patent/CN112825114A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326702A (zh) * | 2021-06-11 | 2021-08-31 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN113326702B (zh) * | 2021-06-11 | 2024-02-20 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN115249017A (zh) * | 2021-06-23 | 2022-10-28 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN115249017B (zh) * | 2021-06-23 | 2023-12-19 | 马上消费金融股份有限公司 | 文本标注方法、意图识别模型的训练方法及相关设备 |
CN114416976A (zh) * | 2021-12-23 | 2022-04-29 | 北京百度网讯科技有限公司 | 文本标注方法、装置及电子设备 |
CN115618968A (zh) * | 2022-12-02 | 2023-01-17 | 北京红棉小冰科技有限公司 | 新意图发现方法、装置、电子设备及存储介质 |
CN115795038A (zh) * | 2023-01-31 | 2023-03-14 | 南方电网数字电网研究院有限公司 | 基于国产化深度学习框架的意图识别方法和装置 |
CN115795038B (zh) * | 2023-01-31 | 2023-05-05 | 南方电网数字电网研究院有限公司 | 基于国产化深度学习框架的意图识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388793B (zh) | 实体标注方法、意图识别方法及对应装置、计算机存储介质 | |
CN112825114A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN118349673A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN112685565A (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN113609965B (zh) | 文字识别模型的训练方法及装置、存储介质、电子设备 | |
CN111382231B (zh) | 意图识别系统及方法 | |
CN111737991B (zh) | 文本断句位置的识别方法及系统、电子设备及存储介质 | |
US11783179B2 (en) | System and method for domain- and language-independent definition extraction using deep neural networks | |
CN114596844B (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN111159358A (zh) | 多意图识别训练和使用方法及装置 | |
CN111079418A (zh) | 命名体识别方法、装置、电子设备和存储介质 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN110827799B (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN112487813B (zh) | 命名实体识别方法及系统、电子设备及存储介质 | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
CN112069790A (zh) | 文本相似度识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |