CN111814487B - 一种语义理解方法、装置、设备及存储介质 - Google Patents
一种语义理解方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111814487B CN111814487B CN202010691064.6A CN202010691064A CN111814487B CN 111814487 B CN111814487 B CN 111814487B CN 202010691064 A CN202010691064 A CN 202010691064A CN 111814487 B CN111814487 B CN 111814487B
- Authority
- CN
- China
- Prior art keywords
- target
- entity
- text
- entities
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims description 90
- 239000011159 matrix material Substances 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 45
- 238000000605 extraction Methods 0.000 claims description 27
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 20
- 238000012512 characterization method Methods 0.000 claims description 17
- 230000009977 dual effect Effects 0.000 claims description 17
- 238000007670 refining Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000037361 pathway Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种语义理解方法、装置、设备及存储介质,其中,方法包括:获取目标文本;根据目标文本以及预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树,作为目标知识语义树,其中,知识语义树模板包括目标文本所属领域中能够体现语义的多个实体、多个实体分别对应的实体的类型以及多个实体之间的关系,目标知识语义树包括能够体现目标文本语义的多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系;根据目标知识语义树,从标准文本集合中确定目标文本对应的标准文本。本申请提供的语义理解方法能够正确理解目标文本所表达内容的真正语义。
Description
技术领域
本申请涉及自然语言理解技术领域,尤其涉及一种语义理解方法、装置、设备及存储介质。
背景技术
随着人工智能技术的迅猛发展,以智能语音交互为核心的人机交互系统的应用越来越广泛,例如,智能家居、智能客服、聊天机器人、早教机器人等。要实现人机交互,机器需要对用户输入的语料进行语义理解。
语义理解指的是,机器根据用户给出自然语言,理解出用户的意图,在此基础上可以进一步做出响应。然而,由于人类语言具有多样性和复杂性,针对于一种意图的语言表达可能有多种形式,而现有的语义理解方法尚无法准确理解用户所表达内容的真正语义。
发明内容
有鉴于此,本申请提供了一种语义理解方法、装置、设备及存储介质,用以准确理解目标文本所要表达的真正语义,其技术方案如下:
一种语义理解方法,包括:
获取目标文本;
根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树,其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系;
根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本。
可选的,根据所述目标文本以及所述知识语义树模板,生成能够体现所述目标文本语义的知识语义树,包括:
利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,其中,所述语义提炼模型以所述知识语义树模板为依据,采用标注有实体、实体类型及实体间关系的训练样本训练得到,一训练样本的标注信息能够体现该训练样本的语义;
根据能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,生成能够体现所述目标文本语义的知识语义树。
可选的,所述利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,包括:
以所述目标文本和所述知识语义树模板为依据,利用所述语义提炼模型的实体获取模块,获取与所述目标文本的语义相关的多个目标实体,并获取所述多个目标实体分别对应的实体类型;
以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体之间的关系。
可选的,所述语义提炼模型的实体获取模块包括:编码器和解码器;
所述以所述目标文本和所述知识语义树模板为依据,利用所述语义提炼模型的实体获取模块,获取与所述目标文本的语义相关的多个目标实体,包括:
对所述目标文本按字分割,得到所述目标文本中的每个字;
利用所述编码器对所述目标文本中的每个字进行编码,得到所述目标文本中每个字的表征向量;
利用所述编码器和所述目标文本中每个字的表征向量,确定所述目标文本中每个字的标签,其中,一个字的标签能够指示该字在其所在实体中的位置以及该字所在实体对应的实体类别;
利用所述解码器、所述知识语义树模板以及所述目标文本中每个字的表征向量和标签,确定与所述目标文本的语义相关的多个目标实体。
可选的,所述利用所述解码器、所述知识语义树模板以及所述目标文本中每个字的表征向量和标签,确定与所述目标文本的语义相关的多个目标实体,包括:
对于每个解码时刻:
以所述知识语义树模板为依据,利用所述解码器和所述目标文本中每个字的表征向量和标签,确定该解码时刻的注意力向量,并根据该解码时刻的注意力向量预测实体信息,其中,该解码时刻的注意力向量中包含与该解码时刻需要预测的实体信息相关的信息;
以得到在各解码时刻预测出的实体信息;
根据在各解码时刻预测出的实体信息,获得与所述目标文本的语义相关的多个目标实体。
可选的,所述根据该解码时刻的注意力向量预测实体信息,包括:
根据该解码时刻的注意力向量,确定该解码时刻需要预测的实体信息的获取途径,作为目标获取途径,其中,所述目标获取途径为以下获取途径中的一种:从已预测出的实体信息中获取、从所述目标文本中获取、从包含所述目标文本所属领域中各实体的实体集合中获取;
根据该解码时刻的注意力向量和所述目标获取途径获取实体信息,获取的实体信息作为在该解码时刻预测出的实体信息。
可选的,所述根据该解码时刻的注意力向量和所述目标获取途径获取实体信息,包括:
根据该解码时刻的注意力向量,确定该解码时刻需要预测的实体信息分别为目标信息中各实体信息的概率,其中,若所述目标获取途径为从所述已预测出的实体信息中获取,则所述目标信息为所述已预测出的实体信息,若所述目标获取途径为从所述目标文本中获取,则所述目标信息为所述目标文本,若所述目标获取途径为从所述实体集合中获取,则所述目标信息为所述实体集合;
根据该解码时刻需要预测的实体信息分别为所述目标信息中各实体信息的概率,从所述目标信息中获取实体信息。
可选的,所述以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体之间的关系,包括:
以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率,其中,所述指定关系为所述目标文本所属领域的实体间可能存在的各种关系;
根据预测出的概率,确定所述多个目标实体中具有关系的实体对,以及具有关系的实体对之间的关系。
可选的,所述以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率,包括:
以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述实体关系预测模块生成用于确定每个目标实体分别与其它各个目标实体是否存在关系的实体双仿射注意力矩阵、用于确定每个目标实体的实体类型分别与其它各个目标实体的实体类型是否存在关系的实体类型双仿射注意力矩阵、用于确定每个目标实体分别与其它各个目标实体之间的关系为何种关系的实体双线性注意力矩阵、用于确定每个目标实体的实体类型分别与其它各个目标实体的实体类型之间的关系为何种关系的实体类型双线性注意力矩阵;
根据所述实体双仿射注意力矩阵和所述实体类型双仿射注意力矩阵,确定每个目标实体分别与其它各个目标实体存在关系的概率;
根据所述实体双线性注意力矩阵和所述实体类型双线性注意力矩阵,确定每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率。
可选的,所述根据所述目标知识语义树,从所述标准文本集合中确定所述目标文本对应的标准文本,包括:
获取所述标准文本集合中每个标准文本对应的每个扩展文本的知识语义树,其中,所述扩展文本为与其对应的标准文本具有相同语义的非标准文本;
计算所述目标知识语义树与每个扩展文本的知识语义树的相似度,以得到对应于每个扩展文本的相似度;
将最大相似度对应的扩展文本所对应的标准文本,确定为所述目标文本对应的标准文本。
一种语义理解装置,包括:文本获取模块、知识语义树生成模块和标准文本确定模块;
所述文本获取模块,用于获取目标文本;
所述知识语义树生成模块,用于根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树,其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系;
所述标准文本确定模块,用于根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本。
可选的,所述知识语义树生成模块包括:语义提炼子模块和知识语义树生成子模块;
所述语义提炼子模块,用于利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,其中,所述语义提炼模型以所述知识语义树模板为依据,采用标注有实体、实体类型及实体间关系的训练样本训练得到,一训练样本的标注信息能够体现该训练样本的语义;
所述知识语义树生成子模块,用于根据能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,生成能够体现所述目标文本语义的知识语义树。
一种语义理解设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的语义理解方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的语义理解方法的各个步骤。
经由上述方案可知,本申请提供的语义理解方法,在获得目标文本后,可根据目标文本和预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树,进而根据能够体现目标文本语义的知识语义树,确定目标文本对应的标准文本,由于知识语义树模板包括目标文本所属领域中能够体现语义的实体信息(即多个实体、多个实体分别对应的实体的类型以及多个实体之间的关系),因此,本申请以知识语义树模板为依据,能够确定出体现目标文本语义的知识语义树,进而根据体现目标文本真正语义的知识语义树,能够获得表征用户真正意图的标准文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其它的附图。
图1为本申请实施例提供的语义理解方法的流程示意图;
图2为本申请实施例提供的知识语义树模板的一示例的示意图;
图3为本申请实施例提供的根据目标文本以及预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树的流程示意图;
图4为本申请实施例提供的以目标文本和知识语义树模板为依据,利用语义提炼模型的实体获取模块,获取与目标文本的语义相关的多个目标实体的流程示意图;
图5为本申请实施例提供的根据多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系生成的图结构的一示例的示意图;
图6为在图5示出的图结构的基础上进一步生成的树结构的示意图;
图7为本申请实施例提供的根据当前解码时刻的注意力向量预测实体信息的流程示意图;
图8为本申请实施例提供的以多个目标实体分别对应的实体类型以及知识语义树模板为依据,利用语义提炼模型的实体关系预测模块,预测多个目标实体之间的关系的流程示意图;
图9为本申请实施例提供的语义理解装置的结构示意图;
图10为本申请实施例提供的语义理解设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本案发明人在实现本案的过程中发现,目前主流的语义理解方法主要有两种,第一种为基于规则的语义理解方法,第二种为基于深度学习的语义理解方法。
其中,基于规则的语义理解方法的大致思路为,首先对所需理解的文本进行分词及词性标注,然后对分词后的文本进行句法分析,构建句法分析树,最后利用规则,根据句法树获取语义理解结果。
基于深度学习的语义理解方法的大致思路为,首先将所需理解的文本使用BERT模型得到句向量的表示,然后根据下游任务添加相对应的模型结构,以在获得句向量的基础上利用添加的模型结构得到文本语义理解结果。
本案发明人通过对上述两种语义理解方法进行研究发现,上述两种语义理解方法存在较多缺陷,具体体现在如下三个方面:
其一,领域内无法通用,复用性和扩展性成本高。现有的语义理解方案无法理解领域内通用的句子,大部分都是开放域或厂商定制的句子,同时数据方面花费的人力多,复用性不高。
其二,关键字之间无业务关系,或关系表达不健全。考虑直接引入知识图谱带来业务相关语义,但建立知识图谱成本大,同时在处理口语化的表达上效果也不理想,无法表达否定意图等特殊的说法。
其三,使用关键字提炼句子意图时,不能去除干扰意图。现有的语义理解方案识别不了用户的多意图、复杂单意图,消除歧义的效果差。
鉴于现有的语义理解方案存在的缺陷,本案发明人从领域内可通用、建立特殊的知识语义树来表达关系、去除冗余意图三个角度出发,通过进一步深入研究,最终提出了一种效果较好的语义理解方法,该语义理解方法的大致思路为:建立领域内的知识语义树模板,通过具体文本的关键片段和领域内的知识语义树模板,利用模型建立知识语义树,并通过识别树中特殊的标签等方法来去重冗余关系,从而达到正确识别文本意图的目的,进而提升语义理解的效果。
本申请提供的语义理解方法可应用于具有数据处理能力的终端(比如,PC、笔记本电脑、智能手机、PAD、车载终端、智能音箱、智能家居、聊天机器人等),还可以应用于服务器(可以是一个服务器,也可是多个服务器,还可以是服务器集群)。接下来通过下述实施例对本申请提供的语义理解方法进行介绍。
第一实施例
请参阅图1,示出了本申请实施例提供的语义理解方法的流程示意图,可以包括:
步骤S101:获取目标文本。
其中,目标文本即为需要进行语义理解的文本。可选的,在人机交互时,用户通常会输入语音,而目标文本可以为对用户输入语音进行语音识别得到的识别文本,目标文本可以为一句话。
需要说明的是,本申请中的目标文本为具备如下两个条件的文本:
其一,目标文本为特定领域的文本,而不是开放领域的文本。
示例性的,“苹果是什么颜色”为开放领域的文本,而“我想查询下我的信用卡的还款明细”即为特定领域的文本。
其二,目标文本至少包含两个片段,其中一个为与业务有关的片段,另一个为与业务操作有关的片段。
示例性的,“我想查询下我的信用卡的还款明细”中包括了与业务有关的片段“信用卡”,还包括了与业务操作有关的片段“查询”,因此其为满足条件的文本,而“申请提前还款”只包含了与业务操作有关的片段“还款”,其为不满足条件的文本。
另外,需要说明的是,本申请适用于需要正确识别文本中业务意图的场景。本申请中的目标文本优选为包括7-25个字的文本,当然本申请并不限定于此,字数小于7的文本和字数小于25的文本同样适用。
步骤S102:根据目标文本以及预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树,作为目标知识语义树。
其中,知识语义树模板包括目标文本所属领域中能够体现语义的多个实体、多个实体分别对应的实体的类型以及多个实体之间的关系,而目标知识语义树包括能够体现目标文本语义的多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系。
首先需要说明的是,由于知识语义树模板仅为一模板,其并未针对具体的文本,因此,其包含的实体是抽象的实体,并非具体的实体,而目标知识语义树为针对目标句子生成的知识语义树,因此,其包含了具体的实体;其次需要说明的是,本实施例中的知识语义树模板为一通用模板,其不仅适用于目标文本所属领域,还适用于其它领域;最后需要说明的是,目标知识语义树包含的实体可能为出现于目标句子中的字或词,也可能为未出现于目标文本中、但是与目标句子的语义有关的字或词。
步骤S103:根据目标知识语义树,从标准文本集合中确定目标文本对应的标准文本。
具体的,根据目标知识语义树,从标准文本集合中确定目标文本对应的标准文本的实现方式有多种:
在一种可能的实现方式中,可首先获取标准文本集合中每个标准文本对应的每个扩展文本的知识语义树,然后计算目标知识语义树与每个扩展文本的知识语义树的相似度,以得到对应于每个扩展文本的相似度,将最大相似度对应的扩展文本所对应的标准文本,确定为目标文本对应的标准文本。
需要说明的是,标准文本集合中的每个标准文本对应有一个或多个扩展文本,扩展文本为与对应的标准文本具有相同语义的非标准文本,下表示出了标准文本“查询银行卡余额”对应的3个扩展文本:
表1标准文本对应的扩展文本
标准文本 | 扩展文本 |
查询银行卡余额 | 我想看看我的卡里有多少钱 |
查询银行卡余额 | 给我查一下我的银行卡余额 |
查询银行卡余额 | 我那个卡不知道还剩多少钱的存款 |
在另一种可能的实现方式中,可首先获取标准文本集合中每个标准文本的知识语义树,以及每个标准文本对应的每个扩展文本的知识语义树,然后计算目标知识语义树与每个标准文本的知识语义树的相似度,并计算目标知识语义树与每个扩展文本的知识语义树的相似度,以得到对应于每个扩展文本的相似度和对应于每个标准文本的相似度,若最大相似度对应的文本为扩展文本,则将该扩展文本所对应的标准文本确定为目标文本对应的标准文本,若最大相似度对应的文本为标准文本,则将该标准文本确定为目标文本对应的标准文本。
本申请实施例提供的语义理解方法,在获得目标文本后,可根据目标文本和预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树,进而根据能够体现目标文本语义的知识语义树,确定目标文本对应的标准文本,由于知识语义树模板包括目标文本所属领域中能够体现语义的多个实体、多个实体分别对应的实体的类型以及多个实体之间的关系,因此,本申请实施例以知识语义树模板为依据,能够确定出体现目标文本真正语义的知识语义树,进而根据体现目标文本真正语义的知识语义树,能够获得表征用户真正意图的标准文本。
第二实施例
上述实施例提到,目标知识语义树以知识语义树模板为依据生成,本实施例对知识语义树模板进行详细介绍。
请参阅图2,示出了知识语义树模板的一示例的示意图,如图2所示,知识语义树模板包括多种类型的实体和多种类型的实体之间的关系。需要说明的是,知识语义树模板由若干实体节点和实体节点之间的边构成,其中,知识语义树模板的实体节点即为各种类型的实体,知识语义树模板的每条边代表其所连接的两个实体节点之间有关系,而边的类型即为实体节点之间的关系,需要说明的是,知识语义树模板除了包括实体节点外,还包括代表文本的虚拟根节点。
具体的,知识语义树模板可以包括技能实体、业务实体、约束实体和句式实体。其中,技能实体为与业务相关的操作词,比如,“办理”、“查询”、“开通”等,业务实体为领域内的具体业务对象,比如,“信用卡”、“贷款”、“银行卡”等,约束实体为技能实体的限制条件,比如,“不成功”、“未到账”等,句式实体为句子的类别,比如“命令”、“咨询why”、“咨询how”等。
知识语义树模板中实体节点之间的关系可以包括操作关系、动宾关系、主谓关系、约束关系、定语关系。其中,操作关系为虚拟根节点与技能节点(即技能实体)之间的关系,动宾关系为技能节点与其对应的操作对象之间的关系,主谓关系为双向技能节点与起始操作对象之间的关系,约束关系为对技能节点的状态限制,定语关系指的是子节点是父节点的定语。
需要说明的是,知识语义树模板由n棵结构不同的单树组成,比如,图2示出的知识语义树模板中的两棵单树即为结构不同的单树,不同之处在于,一棵单树中的技能节点连接的是业务节点(即业务实体),另一棵单树中的技能节点连接的是技能节点。
本申请中,知识语义树模板中每棵单树的核心是与虚拟根节点连接的技能节点,这意味着每棵单树必须要有的节点包括技能节点,除此之外,每棵单树必须要有的节点还包括句式节点(即句式实体)和业务节点(即业务实体),每个单树必须要有的关系是操作关系、句式关系和动宾关系。需要说明的是,对于一个句子而言,技能实体是整个句子中最主要的动作,业务实体是与技能实体匹配的业务,句式关系表示整个句子层面的句意。
另外需要说明的是,若一技能节点与虚拟根节点之间的关系为定语关系,则该技能节点所在的单树与虚拟根节点所代表的句子的语义无关。若根据知识语义树模板确定的目标知识语义树中包含与目标文本的语义无关的单树,则在利用目标知识语义树确定目标文本对应的标准文本时,可将目标知识语义树中与目标文本的语义无关的单树删除。
第三实施例
本实施例对第一实施例中的“步骤S102:根据目标文本以及预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树,作为目标知识语义树”进行介绍。
请参阅图3,示出了根据目标文本以及预先针对目标文本所属领域构建的知识语义树模板,生成能够体现目标文本语义的知识语义树的流程示意图,可以包括:
步骤S301:利用目标文本、知识语义树模板以及预先构建的语义提炼模型,获取能够体现目标文本语义的多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系。
其中,语义提炼模型以知识语义树模板为依据,采用标注有实体、实体类型及实体间关系的训练样本训练得到,一训练样本的标注信息能够体现该训练样本的语义。
在对训练样本进行标注时,需要注意以下几点:其一,考虑到需要标注的实体并非都出现在训练样本中,普通的句法标注工具无法满足要求,因此,在对训练样本进行标注时尽量选择图形化的标注工具,例如yed、Labelme等;其二,标注需要分为两阶段,首先标注出与训练样本的语义有关的实体以及实体对应的实体类型,然后再标注出实体之间的关系;其三,由于标注需要分为两阶段,所以标注效率会非常缓慢,此时需要借助脚本,标注完实体后,将实体和训练样本自动生成xml格式,标注人员连线判断关系即可;其四,在设计知识语义树时,理论上不存在一树多义或一句多树的问题,但在实际标注中往往人对于句子的理解会产生歧义,因此只要标注树的主干(即树的左半部分)正确就算做正确,不过分要求整棵树完全正确。
使用训练样本训练语义提炼模型的过程包括:以训练样本和知识语义树模板为依据,利用语义提炼模型获取与训练样本语义相关的多个实体,并确定多个实体分别对应的实体类型;以多个实体分别对应的实体类型以及知识语义树模板为依据,利用语义提炼模型预测多个实体之间的关系;根据多个实体、多个实体分别对应的实体类型、多个实体之间的关系以及训练样本的标注信息,更新语义提炼模型的参数。需要说明的是,训练过程中针对训练样本获取实体的过程与后续针对目标文本获取目标实体的过程基本相同,针对训练样本预测实体间关系的过程与后续针对目标文本预测实体间关系的过程基本相同,具体可相互参见。
本实施例中的语义提炼模型包括用于获取实体的实体获取模块,以及用于预测实体间关系的实体关系预测模块,需要说明的是,本实施例中的语义提炼模型采用端到端的方式训练得到,端到端的方式使得实体获取阶段的信息能够传递至实体关系预测阶段,增强了信息间的互通,能够更有效地逐层保留有用的信息。
具体的,步骤S301的具体实现过程可以包括:
步骤S3011、以目标文本和知识语义树模板为依据,利用语义提炼模型的实体获取模块,获取与目标文本的语义相关的多个目标实体,并获取多个目标实体分别对应的实体类型。
在本实施例中,多个目标实体分别对应的实体类型的确定方式有多种,在一种可能的实现方式中,可利用语义提炼模型的实体获取模块获取多个目标实体分别对应的实体类型,对于该实现方式,在利用训练样本对语义提炼模型进行训练时,需要训练语义提炼模型中的实体获取模块既获取与训练样本语义相关的实体,又获取与训练样本语义相关的实体对应的实体类型;在另一种可能的实现方式中,可利用预先构建的实体与实体类型的对应关系表,确定多个目标实体分别对应的实体类型,在该实现方式中,预先构建的实体与实体类型的对应关系表中的实体为在目标文本所在领域收集的实体。
步骤S3012、以多个目标实体分别对应的实体类型以及知识语义树模板为依据,利用语义提炼模型的实体关系预测模块,预测多个目标实体之间的关系。
本实施例中,多个目标实体分别对应的实体类型以及知识语义树模板用于指导语义提炼模型的实体关系预测模块对多个目标实体之间的关系进行预测。需要说明的是,本实施例中预测多个目标实体之间的关系指的是,预测多个目标实体中哪些实体之间有关系,以及有关系的实体之间具体是什么关系。
步骤S302:根据能够体现目标文本语义的多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系,生成能够体现目标文本语义的知识语义树。
确定出目标实体相当于确定出了知识语义树的节点,确定出目标实体对应的实体类型相当于确定出了知识语义树的节点的类型,确定出多个目标实体之间的关系相当于确定出了知识语义树中连接节点的边以及边的类型,因此,在确定出了多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系之后,便可进一步生成知识语义树。
第四实施例
本实施例对上述实施例的步骤S3011中的“以目标文本和知识语义树模板为依据,利用语义提炼模型的实体获取模块,获取与目标文本的语义相关的多个目标实体”进行介绍。
在一种可能的实现方式中,语义提炼模型的实体获取模块可以包括编码器(encoder)和解码器(decoder),基于此,请参阅图4,示出了以目标文本和知识语义树模板为依据,利用语义提炼模型的实体获取模块,获取与目标文本的语义相关的多个目标实体的流程示意图,可以包括:
步骤S401:对目标文本按字分割,得到目标文本中的每个字。
假设目标文本包括n个字,则对目标文本按字分割后可得到I=(x1,x2,…,xn),其中,x1为目标文本中的第1个字,x2为目标文本中的第2个字,以此类推,xn为目标文本中的第n个字。
步骤S402:利用编码器对目标文本中的每个字进行编码,得到目标文本中每个字的表征向量。
可选的,可采用BERT模型对目标文本中的每个字进行编码。
对目标文本中的每个字进行编码后,获得目标文本中每个字的表征向量,可表示为EO1=(w1,w2,…,wn),其中,w1为目标文本中第1个字的表征向量,w2为目标文本中第2个字的表征向量,以此类推,wn为目标文本中的第n个字的表征向量。
步骤S403:利用编码器和目标文本中每个字的表征向量,确定目标文本中每个字的标签。
具体的,编码器中除了包括BERT模型外,还包括CRF层,在获得目标文本中每个字的表征向量后,可将目标文本中每个字的表征向量输入CRF层,利用CRF层确定目标文本中每个字的标签,目标文本中每个字的标签可表示为(g1,g2,...,gn),g1为目标文本中第一个字的标签,g2为目标文本中第二个字的标签,其它以此类推。其中,一个字的标签能够指示该字在其所在实体中的位置以及该字所在实体对应的实体类别。
示例性的,目标文本为“办理Email汇款失败”,对目标文本按字分割后可得到(办,理,Email,汇,款,失,败),利用编码器中的BERT模型对(办,理,Email,汇,款,失,败)中的每个字进行编后,可得到(办,理,Email,汇,款,失,败)中每个字的表征向量(w1,w2,w3,w4,w5,w6,w7),将(w1,w2,w3,w4,w5,w6,w7)输入CRF层可得到(办,理,Email,汇,款,失,败)中每个字的标签(B-技能,E-技能,O-业务,B-业务,E-业务,B-约束,E-约束),其中,“办”的标签为“B-技能”,“B-技能”中的“B”表示“办”为其所在实体中的首个字,“B-技能”中的“技能”表示“办”所在的实体为技能类型的实体,“理”的标签为“E-技能”,“E-技能”中的“E”表示“理”为其所在实体中的最后一个字,“E-技能”中的“技能”表示“理”所在的实体为技能类型的实体,“Email”的标签为“O-业务”,“O-业务”中的“O”表示“Email”就是一个实体,“O-业务”中的“业务”表示“Email”为业务类型的实体,其它字的标签所表示的含义类似,本实施例在此不做赘述。
步骤S404:利用解码器、知识语义树模板以及目标文本中每个字的表征向量和标签,确定与目标文本的语义相关的多个目标实体。
具体的,步骤S404的具体实现过程可以包括:
步骤S4041:对于每个解码时刻,以知识语义树模板为依据,利用解码器和目标文本中每个字的表征向量和标签,确定该解码时刻的注意力向量,并根据该解码时刻的注意力向量预测实体信息,以得到在各解码时刻预测出的实体信息。
其中,一个解码时刻的注意力向量中包含与该解码时刻需要预测的实体信息相关的信息。
步骤S4042:根据在各解码时刻预测出的实体信息,获得与目标文本的语义相关的多个目标实体。
示例性的,目标文本为“怎么赎回我前几天购买的理财产品”,则采用步骤S4041和S4042可获得目标实体“赎回”、“购买”、“理财产品”、“咨询how”。在获得多个目标实体后,可确定“赎回”、“购买”、“理财产品”、“咨询how”分别对应的实体类型,确定过程可参见上述实施例提供的实现方式,经确定“赎回”、“购买”、“理财产品”、“咨询how”对应的实体类型依次为“技能”、“技能”、“业务”、“句式”。
另外,在获得多个目标实体后,为了便于后续生成知识语义树,还需要为每个目标实体赋予实体标识,比如对上述示例中的“赎回”赋予实体标识“1”,对“购买”赋予实体标识“2”,对“理财产品”赋予实体标识“3”,对“咨询how”赋予实体标识“4”。
需要说明的是,在根据多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系生成目标知识语义树时,通常先会生成如图5所示的图结构,然后在图结构的基础上进一步生成如图6所示的树结构,即包含单树的树结构(单树中的每个子节点只与一个父节点连接),如图5所示,图5中的“银行卡”同时与技能实体“开通”和“激活”连接,为了得到单树,需要对“银行卡”进行复制,以得到两个“银行卡”,进而将其中一个“银行卡”与“开通”连接,将另一个“银行卡”与“激活”连接,通过该操作,图5中的图结构便变成了图6中的树结构,需要说明的是,而对于机器而言,其对实体“银行卡”的复制是通过对“银行卡”的实体标识进行复制来实现的。
第五实施例
本实施例对上述实施例中的“步骤S4041:对于每个解码时刻,以知识语义树模板为依据,利用解码器和目标文本中每个字的表征向量和标签,确定该解码时刻的注意力向量,并根据该解码时刻的注意力向量预测实体信息,以得到在各解码时刻预测出的实体信息”进行介绍。
需要说明的是,本申请在预测与目标文本的语义相关的目标实体时,是逐字预测,即在每个解码时刻预测一个字,步骤S4041中提及的“实体信息”即为一个字,这个字可能是某个实体中的一个字,也可能就是一个实体。
在本实施例中,解码器可包括l层单向LSTM组成,对于每层LSTM而言,其获取上一层的隐藏状态、本层上一解码时刻的隐藏状态、本层上一解码时刻的标签状态,根据这些信息生成本层当前时刻的标签状态和本层当前时刻的隐藏状态,假设当前解码时刻为第t个解码时刻,对于解码器中的第l层LSTM,其获取上一层的隐藏状态上一解码时刻的隐藏状态以及上一时刻的标签状态生成第l层当前时刻的标签状态和第l层当前时刻的隐藏状态具体的,第l层LSTM按下式生成和
当前解码时刻(即第t个解码时刻)的注意力向量可根据最后一层即第l层的标签状态和隐藏状态确定,具体的,可根据第和以及下式确定
其中,Wc为权重,bc为偏置,ct为目标文本的表征向量,目标文本的表征向量ct可根据下式确定:
其中,EO1为目标文本中每个字的表征向量,为目标文本的注意力分布,目标文本的注意力分布能够反映目标文本中的各个字与当前解码时刻需要预测的实体信息的相关程度,目标文本的注意力分布可通过下式(4)和(5)确定:
其中,为目标文本中每个字的表征向量,即为EO1。
另外,需要说明的是,在当前解码时刻(即第t个解码时刻),解码器第0层的标签状态,即解码器初始的标签状态为:
其中,EO2=(g0,g1,,gn),EO2中的g1~gn为目标文本中第一个字~第n个字的标签,这里需要说明的是,g0为将目标文本的句向量经上述的CRF层得到的标签,而目标文本的句向量通过将目标文本中每个字的表征向量进行拼接后再进行线性变换得到,tree_tp(EO2)为知识语义树模板中与EO2匹配的单树的表征信息,比如EO2中的实体类型有技能、句式、业务、业务、约束,则知识语义树模板中与EO2匹配的单树即为图2中的最左侧的单树。
在当前解码时刻(即第t个解码时刻),解码器第0层的隐藏状态,即解码器初始的隐藏状态为:
其中,GloVe(ut-1)为上一解码时刻预测的实体信息名称的Embedding向量表示,在训练阶段,GloVe(ut-1)为上一真实实体信息名称的Embedding向量表示,为上一解码时刻的注意力向量,GloVe(gt-1)为上一解码时刻预测出的实体信息所对应的实体类型的Embedding向量表示,在训练阶段,GloVe(gt-1)为上一真实实体信息所对应的实体类型的Embedding向量表示。
另外,需要说明的是,本申请将第l层第0个解码时刻的标签状态固定为目标文本的句式类别的向量表示,第l层第2个解码时刻的标签状态固定为“技能”这一实体类型的向量表示,和是根据知识语义树模板定义的,其它层同理。本申请将第l层第0个解码时刻的隐藏状态定义为:
其中,QT为目标文本的句式类别,GloVe(QT)为目标文本的句式类别的向量表示,QT通过下式确定:
QT=argmax(PQT) (9)
PQT=softmax(w0) (10)
其中,w0即为上式提及的“目标文本的句向量”,即,其通过将目标文本中每个字的表征向量进行拼接后再进行线性变换得到。
上述内容给出了确定当前解码时刻的注意力向量的过程,在获得后,可根据预测实体信息,以得到在当前解码时刻预测出的实体信息,具体的,请参阅图7,示出了根据当前解码时刻的注意力向量预测实体信息的流程示意图,可以包括:
步骤S701:根据当前解码时刻的注意力向量确定当前解码时刻需要预测的实体信息的获取途径,作为目标获取途径。
其中,目标获取途径为以下获取途径中的一种:从目标文本中获取(以下简称途径1)、从已预测出的实体信息中获取(以下简称途径2)、从包含目标文本所属领域中各实体的实体集合中获取(以下简称途径3)。需要说明的是,实体集合为从目标文本所属领域中收集的实体所组成的集合。
具体的,可利用下式确定分别将途径1、途径2和途径3作为目标获取途径的概率:
其中,psrc为将途径1作为目标获取途径的概率,ptgt为将途径2作为目标获取途径的概率,pgen为将途径3作为目标获取途径的概率,在获得分别将途径1、途径2和途径3作为目标获取途径的概率psrc、ptgt和pgen后,可将三个概率中的最大概率对应的途径作为目标获取途径。
步骤S702:根据当前解码时刻的注意力向量和目标获取途径获取实体信息,获取的实体信息作为在当前解码时刻预测出的实体信息。
具体的,根据当前解码时刻的注意力向量和目标获取途径获取实体信息的过程可以包括:
步骤S7021:根据当前解码时刻的注意力向量确定当前解码时刻需要预测的实体信息分别为目标信息中各实体信息的概率。
其中,若目标获取途径为途径1,目标信息为目标文本,则步骤S7021根据当前解码时刻的注意力向量确定当前解码时刻需要预测的实体信息分别为目标文本中各实体信息的概率,具体的,该概率可通过上述的式(4)确定;若目标获取途径为途径2,目标信息为已预测出的实体信息,则步骤S7021根据当前解码时刻的注意力向量确定当前解码时刻需要预测的实体信息分别为已预测出的实体信息中各实体信息的概率,具体的,该概率可通过下式(12)和(13)确定:
其中,为将第1个解码时刻的注意力向量至第t-1个解码时刻的注意力向量进行拼接后得到的注意力向量。
若目标获取途径为途径3,目标信息为上述的实体集合,则步骤S7021根据当前解码时刻的注意力向量确定当前解码时刻需要预测的实体信息分别为实体集合中各实体信息的概率,具体的,该概率通过下式确定:
步骤S7022:根据当前解码时刻需要预测的实体信息分别为目标信息中各实体信息的概率,从目标信息中获取实体信息。
具体的,在获得当前解码时刻需要预测的实体信息分别为目标信息中各实体信息的概率后,可将最大概率对应的实体信息确定为在当前解码时刻预测出的实体信息。
需要说明的是,上述过程提供的是在当前解码时刻,即第t个解码时刻预测实体信息的过程,在其它时刻预测实体信息的过程与之类似,本实施例在此不作赘述。
在获得各解码时刻预测出的实体信息后,便可根据各解码时刻预测出的实体信息获得与目标文本的语义相关的多个目标实体。
第六实施例
本实施例对上述实施例中的“步骤S3012、以多个目标实体分别对应的实体类型以及知识语义树模板为依据,利用语义提炼模型的实体关系预测模块,预测多个目标实体之间的关系”进行介绍。
请参阅图8,示出了步骤S3012的具体实现过程的流程示意图,可以包括:
步骤S801:以多个目标实体分别对应的实体类型以及知识语义树模板为依据,利用实体关系预测模块预测多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率。
其中,指定关系为目标文本所属领域的实体间可能存在的各种关系,比如操作关系、动宾关系、主谓关系、约束关系、定语关系。
具体的,步骤S801的具体实现过程可以包括:
步骤S8011、以多个目标实体分别对应的实体类型以及知识语义树模板为依据,利用实体关系预测模块生成实体双仿射注意力矩阵、实体类型双仿射注意力矩阵、实体双线性注意力矩阵和实体类型双线性注意力矩阵。
本实施例中,实体关系预测模块的输入为实体获取模块中解码器最后一层LSTM生成的隐藏状态和标签状态在进行关系预测时,实体关系预测模块根据当前解码时刻(即第t个解码时刻)和所有历史解码时刻预测的实体信息获得的实体以及获得的实体对应的实体类型生成上述的两个双仿射注意力矩阵和上述的两个双线性注意力矩阵。
需要说明的是,将和作为实体关系预测模块的输入有两个好处:其一,隐藏状态和标签状态包含来自输入文本与预测的实体信息的交融信息,其二,隐藏状态和标签状态在实体获取阶段和实体间关系预测阶段都有使用到,是两个阶段的共享变量,其是连接两个阶段的桥梁,在训练时,可将两个阶段进行联合训练。
本实施例中的实体关系预测模块可以为深度双仿射分类器。步骤S8011生成的实体双仿射注意力矩阵为用于确定多个目标实体中的每个目标实体分别与其它各个目标实体是否存在关系的矩阵,实体类型双仿射注意力矩阵为用于确定多个目标实体中的每个目标实体的实体类型分别与其它各个目标实体的实体类型是否存在关系的矩阵,实体双线性注意力矩阵为用于确定多个目标实体中的每个目标实体分别与其它各个目标实体之间的关系为何种关系的矩阵,实体类型双线性注意力矩阵为用于确定多个目标实体中的每个目标实体的实体类型分别与其它各个目标实体的实体类型之间的关系为何种关系的矩阵。
具体的,实体类型双仿射注意力矩阵可通过下式确定:
其中,gk和gt为两种实体类型,和的表达式如下:
Biaffine(x1,x2)的表达式如下:
具体的,实体双仿射注意力矩阵可通过下式确定:
其中,Sk和St为两个实体,和的表达式如下:
具体的,实体类型双线性注意力矩阵可通过下式确定:
其中,和的表达式如下:
Bilinear(x1,x2)的表达式如下:
具体的,实体双线性注意力矩阵可通过下式确定:
其中,和的表达式如下:
步骤S8012a、根据实体双仿射注意力矩阵和实体类型双仿射注意力矩阵,确定每个目标实体分别与其它各个目标实体存在关系的概率。
具体的,首先将据实体双仿射注意力矩阵与实体类型双仿射注意力矩阵求和,即:
然后根据求和得到的矩阵确定每个目标实体分别与其它各个目标实体存在关系的概率,具体的,可通过下式确定两个目标实体存在关系的概率:
其中,uk为第k个节点(即实体)。
步骤S5012b、根据实体双线性注意力矩阵和实体类型双线性注意力矩阵,确定每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率。
具体的,首先将实体双线性注意力矩阵和实体类型双线性注意力矩阵求和,即:
然后,根据求和得到的矩阵确定每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率,具体的,可通过下式确定两个目标实体存在的关系为指定关系的概率:
其中,为矩阵中的每个元素。
步骤S802:根据预测出的概率,确定多个目标实体中具有关系的实体对,以及具有关系的实体对之间的关系。
通过上述步骤S801~步骤S802,相当于获得了用于生成知识语义树的边集合,其中,边集合中的每条边由三元素表征,分别为起始节点、结束节点以及起始节点与结束节点之间的关系,用于表征一条边的起始节点和结束节点即为多个目标实体中具有关系的两个目标实体,起始节点与结束节点之间的关系即为该具有关系的两个目标实体之间的关系。
第七实施例
本实施例对根据能够体现目标文本语义的多个目标实体、多个目标实体分别对应的实体类型以及多个目标实体之间的关系,生成能够体现目标文本语义的知识语义树的过程进行介绍。
在本实施例中,可利用多生成树(multiple spanning tree,MST)算法生成知识语义树。
在利用MST算法生成知识语义树时,MST算法的输入为节点集合、边集合和其中,节点集合即为由多个目标实体组成的集合,此处的边集合即为通过上述实施例中的步骤S801~S802确定的边集合。
需要说明的是,在MST算法中输入的目的为,当根据节点集合和边集合生成的知识语义树中存在不合理部分时,能够根据对不合理部分进行调整,从而生成更加准确的知识语义树。
本申请从领域内可通用、建立特殊的知识语义树来表达关系、去除冗余意图三个角度出发提出的语义理解方法,以需要语义理解的文本和预先建立的语义知识树模板为依据,利用语义提炼模型对需要语义理解的文本提炼语义,从而能够获得体现文本语义的实体、实体类型和实体间关系,在此基础上能够生成体现文本语义的知识语义树,进而根据该知识语义树能够获得表征用户意图的标准文本。本申请提供的语义理解方法能够正确识别文本的意图,具有较好的语义理解效果。本申请提供的语义理解方法可适用于人机对话领域、机器阅读理解领域等。
第八实施例
本实施例提供了一种与上述实施例提供的语义理解方法对应的语义理解装置,请参阅图9,示出了该语义理解装置的结构示意图,可以包括:文本获取模块901、知识语义树生成模块902和标准文本确定模块903。
文本获取模块901,用于获取目标文本.
知识语义树生成模块902,用于根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树。
其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系。
标准文本确定模块903,用于根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本。
可选的,知识语义树生成模块902可以包括:语义提炼子模块和知识语义树生成子模块。
语义提炼子模块,用于利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系。
其中,所述语义提炼模型以所述知识语义树模板为依据,采用标注有实体、实体类型及实体间关系的训练样本训练得到,一训练样本的标注信息能够体现该训练样本的语义。
知识语义树生成子模块,用于根据能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,生成能够体现所述目标文本语义的知识语义树。
可选的,语义提炼子模块包括:实体信息确定子模块和实体间关系确定子模块。
实体信息确定子模块,用于以所述目标文本和所述知识语义树模板为依据,利用所述语义提炼模型的实体获取模块,获取与所述目标文本的语义相关的多个目标实体,并获取所述多个目标实体分别对应的实体类型。
实体间关系确定子模块,用于以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体之间的关系。
可选的,语义提炼模型的实体获取模块包括:编码器和解码器。
实体信息确定子模块,具体用于对所述目标文本按字分割,得到所述目标文本中的每个字;利用所述编码器对所述目标文本中的每个字进行编码,得到所述目标文本中每个字的表征向量;利用所述编码器和所述目标文本中每个字的表征向量,确定所述目标文本中每个字的标签,其中,一个字的标签能够指示该字在其所在实体中的位置以及该字所在实体对应的实体类别;利用所述解码器、所述知识语义树模板以及所述目标文本中每个字的表征向量和标签,确定与所述目标文本的语义相关的多个目标实体。
可选的,实体信息确定子模块在利用所述解码器、所述知识语义树模板以及所述目标文本中每个字的表征向量和标签,确定与所述目标文本的语义相关的多个目标实体时,具体用于:对于每个解码时刻,以所述知识语义树模板为依据,利用所述解码器和所述目标文本中每个字的表征向量和标签,确定该解码时刻的注意力向量,并根据该解码时刻的注意力向量预测实体信息,其中,该解码时刻的注意力向量中包含与该解码时刻需要预测的实体信息相关的信息;以得到在各解码时刻预测出的实体信息;根据在各解码时刻预测出的实体信息,获得与所述目标文本的语义相关的多个目标实体。
可选的,实体信息确定子模块在根据该解码时刻的注意力向量预测实体信息时,具体用于根据该解码时刻的注意力向量,确定该解码时刻需要预测的实体信息的获取途径,作为目标获取途径,其中,所述目标获取途径为以下获取途径中的一种:从已预测出的实体信息中获取、从所述目标文本中获取、从包含所述目标文本所属领域中各实体的实体集合中获取;根据该解码时刻的注意力向量和所述目标获取途径获取实体信息,获取的实体信息作为在该解码时刻预测出的实体信息。
可选的,实体信息确定子模块在根据该解码时刻的注意力向量和所述目标获取途径获取实体信息时,具体用于根据该解码时刻的注意力向量,确定该解码时刻需要预测的实体信息分别为目标信息中各实体信息的概率,其中,若所述目标获取途径为从所述已预测出的实体信息中获取,则所述目标信息为所述已预测出的实体信息,若所述目标获取途径为从所述目标文本中获取,则所述目标信息为所述目标文本,若所述目标获取途径为从所述实体集合中获取,则所述目标信息为所述实体集合;根据该解码时刻需要预测的实体信息分别为所述目标信息中各实体信息的概率,从所述目标信息中获取实体信息。
可选的,实体间关系确定子模块,具体用于以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率,其中,所述指定关系为所述目标文本所属领域的实体间可能存在的各种关系;根据预测出的概率,确定所述多个目标实体中具有关系的实体对,以及具有关系的实体对之间的关系。
可选的,实体间关系确定子模块在以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率时,具体用于以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述实体关系预测模块生成用于确定每个目标实体分别与其它各个目标实体是否存在关系的实体双仿射注意力矩阵、用于确定每个目标实体的实体类型分别与其它各个目标实体的实体类型是否存在关系的实体类型双仿射注意力矩阵、用于确定每个目标实体分别与其它各个目标实体之间的关系为何种关系的实体双线性注意力矩阵、用于确定每个目标实体的实体类型分别与其它各个目标实体的实体类型之间的关系为何种关系的实体类型双线性注意力矩阵;根据所述实体双仿射注意力矩阵和所述实体类型双仿射注意力矩阵,确定每个目标实体分别与其它各个目标实体存在关系的概率;根据所述实体双线性注意力矩阵和所述实体类型双线性注意力矩阵,确定每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率。
可选的,标准文本确定模块903,具体用于获取所述标准文本集合中每个标准文本对应的每个扩展文本的知识语义树,其中,所述扩展文本为与其对应的标准文本具有相同语义的非标准文本;计算所述目标知识语义树与每个扩展文本的知识语义树的相似度,以得到对应于每个扩展文本的相似度;将最大相似度对应的扩展文本所对应的标准文本,确定为所述目标文本对应的标准文本。
本申请实施例提供的语义理解装置,以需要语义理解的文本和预先建立的语义知识树模板为依据,利用语义提炼模型对需要语义理解的文本提炼语义,从而能够获得体现文本语义的实体、实体类型和实体间关系,在此基础上能够生成体现文本语义的知识语义树,进而根据该知识语义树能够获得表征用户意图的标准文本。本申请提供的语义理解装置能够正确识别文本的意图,具有较好的语义理解效果。
第九实施例
本实施例还提供了一种语义理解设备,请参阅图10,示出了该语义理解设备的结构示意图,该语义理解设备可以包括:至少一个处理器1001,至少一个通信接口1002,至少一个存储器1003和至少一个通信总线1004;
在本申请实施例中,处理器1001、通信接口1002、存储器1003、通信总线1004的数量为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信;
处理器1001可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器1003可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取目标文本;
根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树,其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系;
根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第十实施例
本实施例提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取目标文本;
根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树,其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系;
根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (13)
1.一种语义理解方法,其特征在于,包括:
获取目标文本;
根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树,其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系;
根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本;
所述根据所述目标知识语义树,从所述标准文本集合中确定所述目标文本对应的标准文本,包括:
获取所述标准文本集合中每个标准文本对应的每个扩展文本的知识语义树,其中,所述扩展文本为与其对应的标准文本具有相同语义的非标准文本;
计算所述目标知识语义树与每个扩展文本的知识语义树的相似度,以得到对应于每个扩展文本的相似度;
将最大相似度对应的扩展文本所对应的标准文本,确定为所述目标文本对应的标准文本。
2.根据权利要求1所述语义理解方法,其特征在于,根据所述目标文本以及所述知识语义树模板,生成能够体现所述目标文本语义的知识语义树,包括:
利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,其中,所述语义提炼模型以所述知识语义树模板为依据,采用标注有实体、实体类型及实体间关系的训练样本训练得到,一训练样本的标注信息能够体现该训练样本的语义;
根据能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,生成能够体现所述目标文本语义的知识语义树。
3.根据权利要求2所述的语义理解方法,其特征在于,所述利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,包括:
以所述目标文本和所述知识语义树模板为依据,利用所述语义提炼模型的实体获取模块,获取与所述目标文本的语义相关的多个目标实体,并获取所述多个目标实体分别对应的实体类型;
以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体之间的关系。
4.根据权利要求3所述的语义理解方法,其特征在于,所述语义提炼模型的实体获取模块包括:编码器和解码器;
所述以所述目标文本和所述知识语义树模板为依据,利用所述语义提炼模型的实体获取模块,获取与所述目标文本的语义相关的多个目标实体,包括:
对所述目标文本按字分割,得到所述目标文本中的每个字;
利用所述编码器对所述目标文本中的每个字进行编码,得到所述目标文本中每个字的表征向量;
利用所述编码器和所述目标文本中每个字的表征向量,确定所述目标文本中每个字的标签,其中,一个字的标签能够指示该字在其所在实体中的位置以及该字所在实体对应的实体类别;
利用所述解码器、所述知识语义树模板以及所述目标文本中每个字的表征向量和标签,确定与所述目标文本的语义相关的多个目标实体。
5.根据权利要求4所述的语义理解方法,其特征在于,所述利用所述解码器、所述知识语义树模板以及所述目标文本中每个字的表征向量和标签,确定与所述目标文本的语义相关的多个目标实体,包括:
对于每个解码时刻:
以所述知识语义树模板为依据,利用所述解码器和所述目标文本中每个字的表征向量和标签,确定该解码时刻的注意力向量,并根据该解码时刻的注意力向量预测实体信息,其中,该解码时刻的注意力向量中包含与该解码时刻需要预测的实体信息相关的信息;
根据在各解码时刻预测出的实体信息,获得与所述目标文本的语义相关的多个目标实体。
6.根据权利要求5所述的语义理解方法,其特征在于,所述根据该解码时刻的注意力向量预测实体信息,包括:
根据该解码时刻的注意力向量,确定该解码时刻需要预测的实体信息的获取途径,作为目标获取途径,其中,所述目标获取途径为以下获取途径中的一种:从已预测出的实体信息中获取、从所述目标文本中获取、从包含所述目标文本所属领域中各实体的实体集合中获取;
根据该解码时刻的注意力向量和所述目标获取途径获取实体信息,获取的实体信息作为在该解码时刻预测出的实体信息。
7.根据权利要求6所述的语义理解方法,其特征在于,所述根据该解码时刻的注意力向量和所述目标获取途径获取实体信息,包括:
根据该解码时刻的注意力向量,确定该解码时刻需要预测的实体信息分别为目标信息中各实体信息的概率,其中,若所述目标获取途径为从所述已预测出的实体信息中获取,则所述目标信息为所述已预测出的实体信息,若所述目标获取途径为从所述目标文本中获取,则所述目标信息为所述目标文本,若所述目标获取途径为从所述实体集合中获取,则所述目标信息为所述实体集合;
根据该解码时刻需要预测的实体信息分别为所述目标信息中各实体信息的概率,从所述目标信息中获取实体信息。
8.根据权利要求3所述的语义理解方法,其特征在于,所述以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体之间的关系,包括:
以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率,其中,所述指定关系为所述目标文本所属领域的实体间可能存在的各种关系;
根据预测出的概率,确定所述多个目标实体中具有关系的实体对,以及具有关系的实体对之间的关系。
9.根据权利要求8所述的语义理解方法,其特征在于,所述以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述语义提炼模型的实体关系预测模块,预测所述多个目标实体中的每个目标实体分别与其它各个目标实体存在关系的概率,以及每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率,包括:
以所述多个目标实体分别对应的实体类型和所述知识语义树模板为依据,利用所述实体关系预测模块生成用于确定每个目标实体分别与其它各个目标实体是否存在关系的实体双仿射注意力矩阵、用于确定每个目标实体的实体类型分别与其它各个目标实体的实体类型是否存在关系的实体类型双仿射注意力矩阵、用于确定每个目标实体分别与其它各个目标实体之间的关系为何种关系的实体双线性注意力矩阵、用于确定每个目标实体的实体类型分别与其它各个目标实体的实体类型之间的关系为何种关系的实体类型双线性注意力矩阵;
根据所述实体双仿射注意力矩阵和所述实体类型双仿射注意力矩阵,确定每个目标实体分别与其它各个目标实体存在关系的概率;
根据所述实体双线性注意力矩阵和所述实体类型双线性注意力矩阵,确定每个目标实体分别与其它各个目标实体存在的关系为指定关系的概率。
10.一种语义理解装置,其特征在于,包括:文本获取模块、知识语义树生成模块和标准文本确定模块;
所述文本获取模块,用于获取目标文本;
所述知识语义树生成模块,用于根据所述目标文本以及预先针对所述目标文本所属领域构建的知识语义树模板,生成能够体现所述目标文本语义的知识语义树,作为目标知识语义树,其中,所述知识语义树模板包括所述目标文本所属领域中能够体现语义的多个实体、所述多个实体分别对应的实体的类型以及所述多个实体之间的关系,所述目标知识语义树包括能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系;
所述标准文本确定模块,用于根据所述目标知识语义树,从标准文本集合中确定所述目标文本对应的标准文本;
所述标准文本确定模块具体用于:
获取所述标准文本集合中每个标准文本对应的每个扩展文本的知识语义树,其中,所述扩展文本为与其对应的标准文本具有相同语义的非标准文本;
计算所述目标知识语义树与每个扩展文本的知识语义树的相似度,以得到对应于每个扩展文本的相似度;
将最大相似度对应的扩展文本所对应的标准文本,确定为所述目标文本对应的标准文本。
11.根据权利要求10所述的语义理解装置,其特征在于,所述知识语义树生成模块包括:语义提炼子模块和知识语义树生成子模块;
所述语义提炼子模块,用于利用所述目标文本、所述知识语义树模板以及预先构建的语义提炼模型,获取能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,其中,所述语义提炼模型以所述知识语义树模板为依据,采用标注有实体、实体类型及实体间关系的训练样本训练得到,一训练样本的标注信息能够体现该训练样本的语义;
所述知识语义树生成子模块,用于根据能够体现所述目标文本语义的多个目标实体、所述多个目标实体分别对应的实体类型以及所述多个目标实体之间的关系,生成能够体现所述目标文本语义的知识语义树。
12.一种语义理解设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~9中任一项所述的语义理解方法的各个步骤。
13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9中任一项所述的语义理解方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010691064.6A CN111814487B (zh) | 2020-07-17 | 2020-07-17 | 一种语义理解方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010691064.6A CN111814487B (zh) | 2020-07-17 | 2020-07-17 | 一种语义理解方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814487A CN111814487A (zh) | 2020-10-23 |
CN111814487B true CN111814487B (zh) | 2024-05-31 |
Family
ID=72864928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010691064.6A Active CN111814487B (zh) | 2020-07-17 | 2020-07-17 | 一种语义理解方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814487B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326427A (zh) * | 2020-11-17 | 2021-08-31 | 崔海燕 | 基于大数据定位的业务推送配置更新方法及云计算中心 |
CN112580368B (zh) * | 2020-12-25 | 2023-09-26 | 网易(杭州)网络有限公司 | 会话文本的意图序列识别方法、装置、设备及存储介质 |
CN112699348A (zh) * | 2020-12-25 | 2021-04-23 | 中国平安人寿保险股份有限公司 | 核身信息校验的方法、装置、计算机设备及存储介质 |
CN112668340B (zh) * | 2020-12-28 | 2024-07-12 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN114785842B (zh) * | 2022-06-22 | 2022-08-30 | 北京云迹科技股份有限公司 | 基于语音交换系统的机器人调度方法、装置、设备及介质 |
CN115391608B (zh) * | 2022-08-23 | 2023-05-23 | 哈尔滨工业大学 | 一种图到图结构的自动标注转换方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110276080A (zh) * | 2019-06-28 | 2019-09-24 | 第四范式(北京)技术有限公司 | 一种语义处理方法和系统 |
CN110851610A (zh) * | 2018-07-25 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 知识图谱生成方法、装置、计算机设备以及存储介质 |
CN111160041A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111241838A (zh) * | 2020-01-15 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本实体的语义关系处理方法、装置及设备 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4451435B2 (ja) * | 2006-12-06 | 2010-04-14 | 本田技研工業株式会社 | 言語理解装置、言語理解方法、及び、コンピュータプログラム |
CN107783960B (zh) * | 2017-10-23 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 用于抽取信息的方法、装置和设备 |
-
2020
- 2020-07-17 CN CN202010691064.6A patent/CN111814487B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142917A (zh) * | 2014-05-21 | 2014-11-12 | 北京师范大学 | 一种用于语言理解的层次语义树构建方法及系统 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110851610A (zh) * | 2018-07-25 | 2020-02-28 | 百度在线网络技术(北京)有限公司 | 知识图谱生成方法、装置、计算机设备以及存储介质 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN110276080A (zh) * | 2019-06-28 | 2019-09-24 | 第四范式(北京)技术有限公司 | 一种语义处理方法和系统 |
CN111160041A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111241838A (zh) * | 2020-01-15 | 2020-06-05 | 北京百度网讯科技有限公司 | 文本实体的语义关系处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
Modeling semantic knowledge structures for creative problem solving: Studies on expressing concepts, categories, associations, goals and contex;Alex Doboli, Anurag Umbarkar,Simona Doboli et al.;Knowledge-Based Systems;第78卷;全文 * |
场景语义树图像标注方法;刘咏梅;杨帆;于林森;;中国图象图形学报(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111814487A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814487B (zh) | 一种语义理解方法、装置、设备及存储介质 | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN110263160A (zh) | 一种计算机问答系统中的问句分类方法 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN112667816B (zh) | 一种基于深度学习的方面级情感分析方法及系统 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN113297379A (zh) | 一种文本数据多标签分类方法及装置 | |
CN111814496B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN110377733A (zh) | 一种基于文本的情绪识别方法、终端设备及介质 | |
Firdaus et al. | Incorporating politeness across languages in customer care responses: Towards building a multi-lingual empathetic dialogue agent | |
CN112948561A (zh) | 一种问答知识库自动扩建的方法和装置 | |
CN115391499A (zh) | 生成多任务生成模型的方法、问答对生成方法和相关装置 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN114676705B (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
Su et al. | Low‐Rank Deep Convolutional Neural Network for Multitask Learning | |
CN113609866A (zh) | 文本标记方法、装置、设备及存储介质 | |
CN116450943A (zh) | 基于人工智能的话术推荐方法、装置、设备及存储介质 | |
CN116029394A (zh) | 自适应文本情感识别模型训练方法、电子设备及存储介质 | |
CN116028111A (zh) | 一种多特征融合的智能合约分类模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |