CN111832316A - 语义识别的方法、装置、电子设备和存储介质 - Google Patents
语义识别的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111832316A CN111832316A CN202010623916.8A CN202010623916A CN111832316A CN 111832316 A CN111832316 A CN 111832316A CN 202010623916 A CN202010623916 A CN 202010623916A CN 111832316 A CN111832316 A CN 111832316A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- processed
- input
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 337
- 238000012545 processing Methods 0.000 claims abstract description 95
- 238000004458 analytical method Methods 0.000 claims abstract description 58
- 230000006870 function Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000001419 dependent effect Effects 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000007499 fusion processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000306 component Substances 0.000 description 34
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种语义识别的方法、装置、电子设备和存储介质,该方法包括:对终端获取的信息进行语义分析时,获取待处理语句,对待处理语句进行词语识别处理,得到多个词语和每个词语对应的词性信息,根据待输入词语、待输入词语的词性信息以及第一词语的依存关系,通过词语处理模型确定目标集合更新操作,词语处理模型用于根据待输入词语的词语特征向量、词性信息的词性特征向量和第一词语的依存关系的关系特征向量分别计算第一特征向量和第二特征向量,并根据第一特征向量和第二特征向量计算多个预设集合更新操作的置信度,根据目标集合更新操作循环执行依存关系确定步骤,直至得到依存分析结果,根据依存分析结果对待处理语句进行语义识别。
Description
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种语义识别的方法、装置、电子设备和存储介质。
背景技术
随着人工智能的不断发展,对语义识别的准确度的要求也越来越高。语义识别是自然语言处理(英文:Natural Language Processing,缩写:NLP)技术的重要组成部分之一。在自然语言处理中,用词与词之间的依存关系(即词与词之间的支配关系)来描述语言结构的框架称为依存句法,利用依存句法进行句法分析是自然语言处理的关键技术之一。依存句法分析旨在将句子从词语的序列形式按照某种语法体系转化为图结构(通常为树结构),以揭示词与词之间的从属关系,为语义识别提供了关键的信息。
相关技术中,主要是通过基于转移的依存句法分析的方式,利用分类器,进行转移动作(例如:移进、规约等转移动作)的决策,并通过一系列的转移动作构建一棵依存句法树。分类器通常会选用一些传统的机器学习方法,这种学习方式需要通过人工根据词语、词性、依存关系、词语位置,以及他们之间的组合特征,来构建用于确定依存关系的特征模板。然而,特征模板的构建需要不断地尝试和调整,会耗费大量的时间和精力。同时,传统的机器学习方法由于限定了特征模板,会影响选择转移动作的准确度。并且,在每次选择转移动作时,只会考虑当前状态下最好的转移动作,没有考虑后续状态的影响,可能会导致选择到错误的转移动作,降低了依存句法分析的准确度,进而影响语义识别的准确度。
发明内容
为克服相关技术中存在的问题,本公开提供一种语义识别的方法、装置、电子设备和存储介质。
根据本公开实施例的第一方面,提供一种语义识别的方法,所述方法包括:
对终端获取的信息进行语义分析时,获取待处理语句;
对所述待处理语句进行词语识别处理,得到多个词语和所述多个词语中每个词语对应的词性信息;
根据待输入词语、所述待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作;
其中,所述待处理词语集为所述多个词语中当前待处理的词语的集合;所述待输入词语包括所述待处理词语集中的待处理词语、所述第一词语和第二词语,所述第一词语为所述多个词语中,已确定与所述待处理词语存在依存关系的词语,所述第二词语为所述多个词语中,顺序在所述待处理词语之后的预设数量个词语;
所述词语处理模型用于获取所述待输入词语的词语特征向量,所述词性信息的词性特征向量以及所述第一词语的依存关系的关系特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量通过预设激活函数计算得到第一特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量计算得到第二特征向量,并根据所述第一特征向量和所述第二特征向量计算多个所述预设集合更新操作的置信度;
根据所述目标集合更新操作循环执行依存关系确定步骤,直至得到所述待处理语句的依存分析结果,所述依存分析结果用于表征所述多个词语之间的依存关系;
根据所述依存分析结果对所述待处理语句进行语义识别。
可选地,所述根据待输入词语、所述待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作包括:
将所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,作为所述词语处理模型的输入,得到所述多个预设集合更新操作中每个预设集合更新操作对应的置信度;
将置信度最高的所述预设集合更新操作作为所述目标集合更新操作。
可选地,所述词语处理模型包括输入层,嵌入层,隐藏层,自注意力机制层和输出层,所述将所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,作为所述词语处理模型的输入,得到所述多个预设集合更新操作中每个预设集合更新操作对应的置信度包括:
通过所述输入层将输入的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系输入到所述嵌入层;
通过所述嵌入层根据所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,生成所述词语特征向量、所述词性特征向量和所述关系特征向量,并对所述词语特征向量、所述词性特征向量和所述关系特征向量进行拼接,得到第一拼接特征向量;
通过所述嵌入层分别将所述第一拼接特征向量、所述词性特征向量和所述关系特征向量输入到所述隐藏层和所述自注意力机制层;
通过所述隐藏层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量,通过所述预设激活函数确定第一特征向量,并将所述第一特征向量输入到所述输出层;
通过所述自注意力机制层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量确定所述第二特征向量,并将所述第二特征向量输入到所述输出层;
通过所述输出层根据所述第一特征向量和所述第二特征向量,输出每个所述预设集合更新操作对应的置信度。
可选地,所述依存关系确定步骤包括:
根据所述目标集合更新操作更新所述待处理词语集,得到更新词语集,并根据所述目标集合更新操作确定所述待处理词语集中所述待处理词语的依存关系;
根据所述更新词语集,重新确定所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系;
根据重新确定的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系通过所述词语处理模型,从所述多个预设集合更新操作中确定所述更新词语集对应的集合更新操作;
将所述更新词语集作为新的待处理词语集,并将得到的所述更新词语集对应的集合更新操作,作为新的目标集合更新操作。
可选地,所述目标集合更新操作包括移进操作、第一更新操作以及第二更新操作,所述根据所述目标集合更新操作更新所述待处理词语集,得到更新词语集,并根据所述目标集合更新操作确定所述待处理词语集中所述待处理词语的依存关系包括:
在所述目标集合更新操作为所述第一更新操作的情况下,将指示的两个所述待处理词语中,顺序在后的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第一依存关系;所述第一依存关系表示两个所述词语中,顺序在后词语为顺序在先词语的从属词;
在所述目标集合更新操作为所述第二更新操作的情况下,将指示的两个所述待处理词语中,顺序在先的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第二依存关系;所述第二依存关系表示两个所述词语中,顺序在先词语为顺序在后词语的从属词;
在所述目标集合更新操作为所述移进操作的情况下,将多个所述词语中的指定词语作为所述待处理词语集中新的待处理词语。
可选地,所述预设激活函数包括:
其中,h为所述第一特征向量,为所述第一拼接特征向量对应的权重矩阵、为所述词性特征向量对应的权重矩阵、为所述关系特征向量对应的权重矩阵,xw为所述第一拼接特征向量,xt为所述词性特征向量,xl为所述关系特征向量,b为偏置项。
可选地,所述根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量确定所述第二特征向量包括:
对所述第一拼接特征向量、所述词性特征向量和所述关系特征向量进行拼接,得到第二拼接特征向量;
根据所述第二拼接特征向量,通过第一公式确定目标权重,所述第一公式包括:
其中,X为所述第二拼接特征向量,S为所述目标权重,f为softmax函数,dx为所述第二拼接特征向量的维度;
根据所述第二拼接特征向量和所述目标权重,通过第二公式确定所述第二特征向量;
所述第二公式包括:
L=S·X
其中,L为所述第二特征向量。
可选地,所述对所述待处理语句进行词语识别处理,得到多个词语和所述多个词语中每个词语对应的词性信息包括:
对所述待处理语句进行分词,得到多个待识别词语和所述多个待识别词语中每个待识别词语的词性信息;
将所述多个待识别词语与预设词语数据库中的实体词语进行匹配;
根据匹配到的实体词语和所述待识别词语的词性信息对所述待识别词语进行词语融合处理,得到所述多个词语和每个所述词语对应的词性信息。
根据本公开实施例的第二方面,提供一种语义识别的装置,所述装置包括:
获取模块,被配置为对终端获取的信息进行语义分析时,获取待处理语句;
所述获取模块,还被配置为对所述待处理语句进行词语识别处理,得到多个词语和所述多个词语中每个词语对应的词性信息;
确定模块,被配置为根据待输入词语、所述待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作;
其中,所述待处理词语集为所述多个词语中当前待处理的词语的集合;所述待输入词语包括所述待处理词语集中的待处理词语、所述第一词语和第二词语,所述第一词语为所述多个词语中,已确定与所述待处理词语存在依存关系的词语,所述第二词语为所述多个词语中,顺序在所述待处理词语之后的预设数量个词语;
所述词语处理模型用于获取所述待输入词语的词语特征向量,所述词性信息的词性特征向量以及所述第一词语的依存关系的关系特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量通过预设激活函数计算得到第一特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量计算得到第二特征向量,并根据所述第一特征向量和所述第二特征向量计算多个所述预设集合更新操作的置信度;
执行模块,被配置为根据所述目标集合更新操作循环执行依存关系确定步骤,直至得到所述待处理语句的依存分析结果,所述依存分析结果用于表征所述多个词语之间的依存关系;
识别模块,被配置为根据所述依存分析结果对所述待处理语句进行语义识别。
可选地,所述确定模块包括:
第一确定子模块,被配置为将所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,作为所述词语处理模型的输入,得到所述多个预设集合更新操作中每个预设集合更新操作对应的置信度;
第二确定子模块,被配置为将置信度最高的所述预设集合更新操作作为所述目标集合更新操作。
可选地,所述词语处理模型包括输入层,嵌入层,隐藏层,自注意力机制层和输出层,所述第一确定子模块被配置为:
通过所述输入层将输入的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系输入到所述嵌入层;
通过所述嵌入层根据所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,生成所述词语特征向量、所述词性特征向量和所述关系特征向量,并对所述词语特征向量、所述词性特征向量和所述关系特征向量进行拼接,得到第一拼接特征向量;
通过所述嵌入层分别将所述第一拼接特征向量、所述词性特征向量和所述关系特征向量输入到所述隐藏层和所述自注意力机制层;
通过所述隐藏层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量,通过所述预设激活函数确定第一特征向量,并将所述第一特征向量输入到所述输出层;
通过所述自注意力机制层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量确定所述第二特征向量,并将所述第二特征向量输入到所述输出层;
通过所述输出层根据所述第一特征向量和所述第二特征向量,输出每个所述预设集合更新操作对应的置信度。
可选地,所述执行模块被配置为通过以下方式执行所述依存关系确定步骤:
根据所述目标集合更新操作更新所述待处理词语集,得到更新词语集,并根据所述目标集合更新操作确定所述待处理词语集中所述待处理词语的依存关系;
根据所述更新词语集,重新确定所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系;
根据重新确定的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系通过所述词语处理模型,从所述多个预设集合更新操作中确定所述更新词语集对应的集合更新操作;
将所述更新词语集作为新的待处理词语集,并将得到的所述更新词语集对应的集合更新操作,作为新的目标集合更新操作。
可选地,所述目标集合更新操作包括移进操作、第一更新操作以及第二更新操作,所述执行模块被配置为:
在所述目标集合更新操作为所述第一更新操作的情况下,将指示的两个所述待处理词语中,顺序在后的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第一依存关系;所述第一依存关系表示两个所述词语中,顺序在后词语为顺序在先词语的从属词;
在所述目标集合更新操作为所述第二更新操作的情况下,将指示的两个所述待处理词语中,顺序在先的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第二依存关系;所述第二依存关系表示两个所述词语中,顺序在先词语为顺序在后词语的从属词;
在所述目标集合更新操作为所述移进操作的情况下,将多个所述词语中的指定词语作为所述待处理词语集中新的待处理词语。
可选地,所述预设激活函数包括:
其中,h为所述第一特征向量,为所述第一拼接特征向量对应的权重矩阵、为所述词性特征向量对应的权重矩阵、为所述关系特征向量对应的权重矩阵,xw为所述第一拼接特征向量,xt为所述词性特征向量,xl为所述关系特征向量,b为偏置项。
可选地,所述第一确定子模块被配置为:
对所述第一拼接特征向量、所述词性特征向量和所述关系特征向量进行拼接,得到第二拼接特征向量;
根据所述第二拼接特征向量,通过第一公式确定目标权重,所述第一公式包括:
其中,X为所述第二拼接特征向量,S为所述目标权重,f为softmax函数,dx为所述第二拼接特征向量的维度;
根据所述第二拼接特征向量和所述目标权重,通过第二公式确定所述第二特征向量;
所述第二公式包括:
L=S·X
其中,L为所述第二特征向量。
可选地,所述获取模块包括:
获取子模块,被配置为对所述待处理语句进行分词,得到多个待识别词语和所述多个待识别词语中每个待识别词语的词性信息;
匹配子模块,被配置为将所述多个待识别词语与预设词语数据库中的实体词语进行匹配;
所述获取子模块,还被配置为根据匹配到的实体词语和所述待识别词语的词性信息对所述待识别词语进行词语融合处理,得到所述多个词语和每个所述词语对应的词性信息。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行本公开第一方面所提供的语义识别的方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的语义识别的方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:本公开首先在对终端获取的信息进行语义分析时,获取待处理语句,并对待处理语句进行词语识别处理,得到多个词语和多个词语中每个词语对应的词性信息,再根据待输入词语、待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作,其中,词语处理模型用于根据获取的词语特征向量、词性特征向量和关系特征向量计算第一特征向量和第二特征向量,并根据第一特征向量和第二特征向量计算多个预设集合更新操作的置信度,之后根据目标集合更新操作循环执行依存关系确定步骤,直至得到待处理语句的依存分析结果,最后根据依存分析结果对待处理语句进行语义识别。本公开通过将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型,来得到目标集合更新操作,并根据目标集合更新操作确定依存分析结果。相比于现有技术,由词语处理模型对待输入词语、待输入词语的词性信息以及第一词语的依存关系对应的特征进行组合,不需要人工构建特征模板,同时,考虑了顺序在待处理词语后的词语与待处理词语的依存关系,能够准确地选择目标集合更新操作,依存分析结果的准确度高,提高了语义识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语义识别的方法的流程图。
图2是图1所示实施例示出的一种依存句法树的示意图。
图3是图1所示实施例示出的一种步骤103的流程图。
图4是图1所示实施例示出的一种词语处理模型的示意图。
图5是图1所示实施例示出的一种步骤102的流程图。
图6是根据一示例性实施例示出的一种语义识别的装置的框图。
图7是图6所示实施例示出的一种确定模块的框图。
图8是图6所示实施例示出的一种获取模块的框图。
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的语义识别的方法、装置、电子设备和存储介质之前,首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景可以是语义识别场景,例如事件抽取、情感分析、知识图谱构建、机器翻译等场景。在语义识别场景下,当对待处理语句进行语义识别时,需要通过依存句法分析,判断待处理语句中各主要成分之间的依存关系(例如,主谓关系,动宾关系)。
相关技术中,主要是通过对待处理语句进行词语识别处理,以得到多个词语和每个词语对应的词性信息,并将多个词语按照词语顺序依次输入到待处理词语集中。之后通过基于转移的依存句法分析的方式,将待处理词语集中的待处理词语、待处理词语对应的词性信息和每个词语在待处理语句中的词语位置输入到词语处理模型中,并利用贪心算法,将词语处理模型输出的多个预设集合更新操作中置信度最高的预设集合更新操作作为目标集合更新操作。然后,执行目标集合更新操作来对待处理词语集进行更新,并根据目标集合更新操作生成待处理词语的依存关系,并将已经生成的依存关系存储到存储器中。再通过重复执行上述对待处理词语集进行更新的步骤,直至确定多个词语之间的依存关系,并根据多个词语之间的依存关系构建一棵依存句法树。最后通过该依存句法树对待处理语句进行语义识别。
这种学习方式是针对每一步的目标集合更新操作进行优化,将执行的每一步目标集合更新操作时的上下文和操作类型进行组合,作为分类器学习的一个实例。分类器通常会选用一些传统的机器学习方法,例如,支持向量机(英文:Support Vector Machine,缩写:SVM)、感知机、最大熵或者在线学习算法。这种学习方式需要通过人工根据词语、词性、依存关系、词语位置,以及他们之间的组合特征,来构建用于确定依存关系的特征模板,而特征模板的构建需要不断地尝试和调整,会耗费大量的时间和精力。同时,传统的机器学习方法由于限定了特征模板,泛化性能较差,抗噪声干扰能力较低,容易出现过拟合的情况,导致选择目标集合更新操作的准确度较低。并且,在每次选择目标集合更新操作时,只会考虑当前词语处理模型所判断的待处理词语的依存关系,来选择目标集合更新操作,可能会导致选择到错误的目标集合更新操作,降低了依存句法分析的准确度,进而影响语义识别的准确度。例如,当待处理词语集中包括两个存在第一依存关系的待处理词语1和待处理词语2(待处理词语2为待处理词语1的从属词)时,会通过目标集合更新操作,将待处理词语2移出待处理词语集。但是,在下一个进入待处理词语集的待处理词语3为待处理词语2的从属词时,由于待处理词语2移出了待处理词语集,此时无法判定待处理词语2和待处理词语3之间的依存关系,导致出现依存关系错误的情况。
为了解决现有技术中存在的问题,本公开首先通过构建基于自注意力机制和激活函数的词语处理模型,之后将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型,来得到目标集合更新操作,并根据目标集合更新操作确定依存分析结果。相比于现有技术,由词语处理模型对待输入词语、待输入词语的词性信息以及第一词语的依存关系对应的特征进行组合,不需要人工构建特征模板,同时,考虑了顺序在待处理词语后的词语与待处理词语的依存关系,能够准确地选择目标集合更新操作,依存分析结果的准确度高,提高了语义识别的准确度。
图1是根据一示例性实施例示出的一种语义识别的方法的流程图。如图1所示,该方法可以包括以下步骤:
在步骤101中,对终端获取的信息进行语义分析时,获取待处理语句。
举例来说,在对终端获取的信息进行语义分析时,可以对终端获取的信息进行识别,来获取待处理语句。例如,当终端获取的信息为用户通过终端手动输入的文本时,可以直接将该文本作为待处理语句,当终端获取的信息为用户通过终端输入的语音时,可以对该语言进行语音识别,并将语音识别的结果作为待处理语句。其中,该终端可以是智能手机、平板电脑、智能电视、智能手表、PDA(英文:Personal Digital Assistant,中文:个人数字助理)、便携计算机等带有显示界面的移动终端,也可以是台式计算机等固定终端。
在步骤102中,对待处理语句进行词语识别处理,得到多个词语和多个词语中每个词语对应的词性信息。
示例的,在获取到待处理语句之后,可以对待处理语句进行词语识别处理,以确定待处理语句包含的多个词语以及每个词语对应的词性信息。例如,可以通过预设的分词算法,来对待处理语句进行分词处理,以获取待处理语句包含的多个词语,并对获取的多个词语进行词性标注,以确定每个词语对应的词性信息。其中,预设的分词算法例如可以是CRF算法(英文:Conditional random field algorithm,中文:条件随机场算法)。
在步骤103中,根据待输入词语、待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作。
其中,待处理词语集为多个词语中当前待处理的词语的集合,待输入词语包括待处理词语集中的待处理词语、第一词语和第二词语,第一词语为多个词语中,已确定与待处理词语存在依存关系的词语,第二词语为多个词语中,顺序在待处理词语之后的预设数量个词语。
词语处理模型用于获取待输入词语的词语特征向量,词性信息的词性特征向量以及第一词语的依存关系的关系特征向量,并根据词语特征向量、词性特征向量和关系特征向量通过预设激活函数计算得到第一特征向量,并根据词语特征向量、词性特征向量和关系特征向量计算得到第二特征向量,并根据第一特征向量和第二特征向量计算多个预设集合更新操作的置信度。
在本步骤中,首先可以根据多个词语中每个词语在待处理语句中所处的位置,确定多个词语的词语顺序,并按照多个词语的词语顺序,将多个词语存储在缓存中,例如,可以将多个词语存储在队列中。之后可以将缓存中的多个词语按照词语顺序依次输入到待处理词语集中,以作为待处理词语集中的待处理词语(初始时,待处理词语集为空,即待处理词语集中没有待处理词语),直至将缓存中的全部词语输入到待处理词语集中。待处理词语集可以理解为一个工作区,待处理词语为当前处于工作区中需要确定依存关系的词语,其中,待处理词语集可以是栈,也可以是双向队列,本公开对此不作具体限定。
其次,可以将待处理词语,第一词语和第二词语作为待输入词语,第一词语为已确定的与待处理词语存在依存关系的词语,第二词语为存储在缓存中的顺序在待处理词语之后的预设数量个词语,例如,当使用队列进行缓存时,可以将队列中的前3个词语作为第二词语(即预设数量为3)。之后将待输入词语,待输入词语对应的词性信息以及第一词语的依存关系,输入到预先训练的词语处理模型中,以得到词语处理模型输出的多个预设集合更新操作中每个预设集合更新操作对应的置信度。然后,可以将置信度最高的预设集合更新操作,作为待处理词语集对应的目标集合更新操作。其中,目标集合更新操作用于对待处理词语集中的待处理词语进行更新,例如,当目标集合更新操作为移进操作时,可以将位于缓存中的第一个词语输入到待处理词语集中。
词语处理模型得到每个预设集合更新操作对应的置信度的方式可以是:词语处理模型在接收到待输入词语,待输入词语对应的词性信息以及第一词语的依存关系之后,可以根据待输入词语,待输入词语对应的词性信息以及第一词语的依存关系,生成待输入词语的词语特征向量,词性信息的词性特征向量以及第一词语的依存关系的关系特征向量,并对词语特征向量、词性特征向量和关系特征向量进行拼接。之后将拼接后得到的第一拼接向量、词性特征向量和关系特征向量通过预设激活函数进行特征的自动组合,以得到第一特征向量。同时对第一拼接向量、词性特征向量和关系特征向量采用注意力机制进行特征的进一步抽取,以得到第二特征向量。最后根据第一特征向量和第二特征向量计算多个预设集合更新操作的置信度,并输出每个预设集合更新操作对应的置信度。
在步骤104中,根据目标集合更新操作循环执行依存关系确定步骤,直至得到待处理语句的依存分析结果,依存分析结果用于表征多个词语之间的依存关系。
进一步的,在确定待处理词语集对应的目标集合更新操作之后,可以根据目标集合更新操作循环执行依存关系确定步骤,来不断地更新待处理词语集,即每确定一次当前待处理词语集对应的目标集合更新操作,就按照该目标集合更新操作对待处理词语集进行更新。例如,可以将待处理词语集中的某个待处理词语移出待处理词语集,也可以从缓存中获取新的词语作为待处理词语。之后根据该目标集合更新操作,确定待处理词语集中待处理词语的依存关系,并将该依存关系存储到存储器中,直至得到待处理语句的依存分析结果。其中,依存关系包括:从属关系和关系类型,关系类型例如可以是用于表示待处理语句核心成分的根节点(ROOT)、主谓关系、动宾关系、定中关系、状中关系和右附加关系等。在缓存中的词语全部作为待处理词语集中的待处理词语执行上述依存关系确定步骤后,则确定完成对全部词语的依存关系的判断,得到上述依存分析结果。
在步骤105中,根据依存分析结果对待处理语句进行语义识别。
示例的,在确定依存分析结果后,可以根据依存分析结果对待处理语句进行语义识别。例如,当依存分析结果为由多个词语中每两个词语的依存关系构成的依存句法树时,如图2所示(图2中的两个词语之间的箭头表示两个词语之间的从属关系,箭头的始发节点为父节点,箭头指向子节点,子节点对应的词语为父节点对应词语的从属词,箭头上的标签为二者的关系类型),可以将依存分析结果以Conll格式输出,并根据该依存关系树进行语义识别,以准确地确定待处理语句所要表达的语义。
通过采用上述方案,将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型,来得到目标集合更新操作,并根据目标集合更新操作确定依存分析结果。相比于现有技术,由词语处理模型对待输入词语、待输入词语的词性信息以及第一词语的依存关系对应的特征进行组合,不需要人工构建特征模板,同时,考虑了顺序在待处理词语后的词语与待处理词语的依存关系,能够准确地选择目标集合更新操作,依存分析结果的准确度高,提高了语义识别的准确度。
图3是图1所示实施例示出的一种步骤103的流程图。如图3所示,步骤103可以包括以下步骤:
在步骤1031中,将待输入词语、待输入词语的词性信息以及第一词语的依存关系,作为词语处理模型的输入,得到多个预设集合更新操作中每个预设集合更新操作对应的置信度。
举例来说,如图4所示,词语处理模型包括输入层,嵌入层,隐藏层,自注意力机制层和输出层,在得到多个词语和多个词语中每个词语对应的词性信息之后,可以将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型的输入层。为了避免由于输入词语处理模型的特征的类别较多时,所导致的特征稀疏和维度爆炸的问题,可以先通过输入层将输入的待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到嵌入层。再通过嵌入层根据待输入词语、待输入词语的词性信息以及第一词语的依存关系,生成低维稠密的词语特征向量、词性特征向量和关系特征向量,以避免出现特征稀疏和维度爆炸的问题。再对词语特征向量、词性特征向量和关系特征向量进行拼接,得到第一拼接特征向量。例如,当使用队列进行缓存,且将队列中前3个词语作为第二词语时,可以将第一拼接特征向量表示为:xw={lc(s2),Rc(s2),s1,s2,P(s1),P(s2),R(s1),R(s2),b1,b2,b3,P(b1),P(b2),P(b3)},其中,xw为第一拼接特征向量,si为待处理词语集的第i个待处理词语的词语特征向量,bi为队列中的第i个词语(即第二词语)的词语特征向量,lc(s2)为已确定的s2的从属词的词语特征向量,Rc(s2)为已确定的s2的支配词的词语特征向量,即lc(s2)和Rc(s2)为第一词语的词语特征向量,P()用于表征某一词语的词性特征向量,R()用于表征某一词语的关系特征向量。
其次,通过嵌入层分别将第一拼接特征向量、词性特征向量和关系特征向量输入到隐藏层和自注意力机制层,并通过隐藏层根据第一拼接特征向量、词性特征向量和关系特征向量,通过预设激活函数确定第一特征向量,并将第一特征向量输入到输出层。通过预设激活函数可以将词语特征向量,词性特征向量和关系特征向量进行自动组合,提高了词语处理模型对特征的拟合能力。预设激活函数包括:其中,h为第一特征向量,为第一拼接特征向量对应的权重矩阵、为词性特征向量对应的权重矩阵、为关系特征向量对应的权重矩阵,xw为第一拼接特征向量,xt为词性特征向量,xl为关系特征向量,b为偏置项。
然后,通过自注意力机制层根据第一拼接特征向量、词性特征向量和关系特征向量确定第二特征向量,并将第二特征向量输入到输出层。根据第一拼接特征向量、词性特征向量和关系特征向量确定第二特征向量的方式可以是:对第一拼接特征向量、词性特征向量和关系特征向量进行拼接,得到第二拼接特征向量,并根据第二拼接特征向量,通过第一公式确定目标权重,之后根据第二拼接特征向量和目标权重,通过第二公式确定第二特征向量。第一公式包括:第二公式包括:L=S·X,其中,X为第二拼接特征向量,S为目标权重,f为softmax函数,dx为第二拼接特征向量的维度,L为第二特征向量。
最后通过输出层根据第一特征向量和第二特征向量,输出每个预设集合更新操作对应的置信度。根据第一特征向量和第二特征向量,输出每个预设集合更新操作对应的置信度的方式可以是:通过输出层将第一特征向量和第二特征向量进行拼接,并通过softmax函数得到每个预设集合更新操作对应的置信度的归一化分布。
在步骤1032中,将置信度最高的预设集合更新操作作为目标集合更新操作。
示例的,输出层输出每个预设集合更新操作对应的置信度后,可以将置信度最高的预设集合更新操作作为目标集合更新操作。例如,输出层输出的每个预设集合更新操作对应的置信度分别为0.7、0.2、0.1,则将置信度为0.7的预设集合更新操作作为目标集合更新操作。
可选地,依存关系确定步骤包括:
步骤a)根据目标集合更新操作更新待处理词语集,得到更新词语集,并根据目标集合更新操作确定待处理词语集中待处理词语的依存关系。
举例来说,目标集合更新操作可以包括移进操作、第一更新操作以及第二更新操作。在确定待处理词语集对应的目标集合更新操作之后,可以根据目标集合更新操作对待处理词语集中的待处理词语进行更新,以得到更新词语集,并根据目标集合更新操作确定待处理词语集中待处理词语的依存关系。例如,在目标集合更新操作为第一更新操作的情况下,说明待处理词语之间存在第一依存关系(第一依存关系为第一更新操作对应的依存关系),可以将指示的两个待处理词语中(指示的两个待处理词语为词语处理模型确定的具有第一依存关系的两个待处理词语),顺序在后的词语从待处理词语集中移出,并将指示的两个待处理词语之间的依存关系设置为第一依存关系,同时将指示的两个待处理词语之间的依存关系存储到存储器中,第一依存关系表示两个词语中,顺序在后词语为顺序在先词语的从属词。在目标集合更新操作为第二更新操作的情况下,说明待处理词语之间存在第二依存关系(第二依存关系为第二更新操作对应的依存关系),可以将指示的两个待处理词语中(指示的两个待处理词语为词语处理模型确定的具有第二依存关系的两个待处理词语),顺序在先的词语从待处理词语集中移出,并将指示的两个待处理词语之间的依存关系设置为第二依存关系,同时将指示的两个待处理词语之间的依存关系存储到存储器中,第二依存关系表示两个词语中,顺序在先词语为顺序在后词语的从属词。在目标集合更新操作为移进操作的情况下,说明待处理词语之间不存在依存关系,可以将多个词语中的指定词语作为待处理词语集中新的待处理词语,例如,可以将缓存中的第一个词语作为待处理词语集中新的待处理词语。
进一步的,可以根据依存关系的关系类型的不同,对第一依存关系和第二依存关系进行划分,例如,可以将第一依存关系划分为第一依存关系-主谓关系,第一依存关系-动宾关系等,可以将第二依存关系划分为第二依存关系-主谓关系,第二依存关系-动宾关系等。
步骤b)根据更新词语集,重新确定待输入词语、待输入词语的词性信息以及第一词语的依存关系。
示例的,在得到更新词语集之后,可以根据更新词语集中所包含的待处理词语、当前缓存中所存储的词语以及存储器中存储的依存关系,重新确定待输入词语、待输入词语的词性信息以及第一词语的依存关系。例如,在待处理词语集包括词语1(代词)和词语2(量词),缓存中存储的顺序在待处理词语之后的词语为词语3(名词)、词语4(助词)和词语5(名词),不存在第一词语和第一词语的依存关系,且预设数量为3的情况下,待输入词语包括待处理词语(词语1、词语2),第一词语(空)和第二词语(词语3、词语4和词语5),待输入词语的词性信息为:代词、量词、名词、助词和名词,第一词语的依存关系为空,若目标更新操作为将词语1移出待处理词语集,且词语1和词语2之间存在依存关系,则根据目标更新操作对待处理词语集进行更新后,所得到的更新词语集包括词语2,重新确定的待输入词语包括:待处理词语(词语2),第一词语(词语1)和第二词语(词语3、词语4和词语5),待输入词语的词性信息为:量词、代词、名词、助词和名词,第一词语的依存关系包括词语1和词语2的依存关系。
步骤c)根据重新确定的待输入词语、待输入词语的词性信息以及第一词语的依存关系通过词语处理模型,从多个预设集合更新操作中确定更新词语集对应的目标集合更新操作。
在本步骤中,可以将重新确定的待输入词语、待输入词语的词性信息以及第一词语的依存关系作为词语处理模型的输入,以得到多个预设集合更新操作中每个预设集合更新操作对应的置信度,并将置信度最高的预设集合更新操作作为更新词语集对应的集合更新操作。
步骤d)将更新词语集作为新的待处理词语集,并将得到的更新词语集对应的集合更新操作,作为新的目标集合更新操作。
示例的,在确定更新词语集对应的目标集合更新操作之后,可以将更新词语集作为新的待处理词语集,并将得到的更新词语集对应的集合更新操作,作为新的目标集合更新操作。然后,再重复执行依存关系确定步骤,直至得到待处理语句的依存分析结果。
以待处理词语集为栈,采用队列进行缓存,预设数量为3为例进行举例说明,在待处理语句为“那只棕色的狐狸边叫边跳入了草丛”的情况下,首先对待处理语句进行词语识别处理,得到的多个词语和多个词语中每个词语对应的词性信息如表1所示。
标识 | 词语 | 词性信息 |
0 | 那 | R(代词) |
1 | 只 | Q(量词) |
2 | 棕色 | N(名词) |
3 | 的 | U(助词) |
4 | 狐狸 | N(名词) |
5 | 边 | D(副词) |
6 | 叫 | V(动词) |
7 | 边 | D(副词) |
8 | 跳入 | V(动词) |
9 | 了 | U(助词) |
10 | 草丛 | N(名词) |
表1
之后可以按照多个词语在待处理语句中的词语顺序,将多个词语存储在队列中,并将队列中的多个词语按照词语顺序依次输入到栈中,并执行依存关系确定步骤,参见表2进行说明:
表2
如表2所示,表2中的Arc_right表示第一更新操作,Arc_left表示第二更新操作,Shift表示移进操作,ROOT表示根节点,RAD表示第一依存关系-右附加关系,VOB表示第一依存关系-动宾关系,ATT表示第二依存关系-定中关系,ADV表示第二依存关系-状中关系,SBV表示第二依存关系-主谓关系。开始时栈为空(即步骤0),队列内存储全部的词语(以0,1,2,……代表按照词语顺序排列的多个词语)。由于栈内为空,不存在依存关系,词语处理模型判断执行移进操作,进入到步骤1。此时,栈内仍只有一个词语0,词语处理模型判断执行移进操作,进入到步骤2。当处于步骤2时,栈内有两个词语0、1,并且词语处理模型判断待处理词语之间存在依存关系并判断依存关系为第二依存关系-定中关系,执行第二更新操作,并存储该依存关系,同时将词语0出栈,进入到步骤3。步骤3-15的栈与队列状态的具体变化过程如表2所示,此处不再详细赘述。
当处于步骤16时,此时栈内词语为6、8,如果采用传统的转移依存句法分析,会判定词语6和词语8之间的依存关系为第一依存关系-动宾关系,执行第一更新操作,并将词语8出栈。但实际上,词语10为词语8的从属词,将词语8出栈,会导致无法判定词语8和词语10之间的依存关系,出现依存关系错误的情况。而通过本公开的词语处理模型则可以在步骤16时,执行移进操作,从而能够在之后的步骤中,准确地判断出词语8和词语10号之间的依存关系,提高了依存分析结果的准确度。当处于步骤21时,此时栈内只有一个词语6,队列为空,词语处理模型判断词语6的依存关系为根节点,并存储该依存关系,同时将词语6出栈,以完成对待处理语句的依存分析。
可选地,训练词语处理模型的方式可以是:首先构建训练数据,训练数据可以包括:样本输入集和样本输出集,例如可以将CTB8.0(汉语滨州数据集)、互联网新闻数据集、AI(英文:Artificial Intelligence,中文:人工智能)语音助手数据集作为原始数据,并通过人工修正的方式对原始数据进行标注,以获取训练数据,其中,样本输入集为已分词,且标注好词性信息和词语顺序的待处理语句,样本输出集为已标注好的目标集合更新操作,并将训练数据作为模型训练的样本,得到训练后的词语处理模型。
图5是图1所示实施例示出的一种步骤102的流程图。如图5所示,步骤102包括以下步骤:
在步骤1021中,对待处理语句进行分词,得到多个待识别词语和多个待识别词语中每个待识别词语的词性信息。
在步骤1022中,将多个待识别词语与预设词语数据库中的实体词语进行匹配。
在步骤1023中,根据匹配到的实体词语和待识别词语的词性信息对待识别词语进行词语融合处理,得到多个词语和每个词语对应的词性信息。
在一种场景中,在对待处理语句进行词语识别处理时,需要对待处理语句进行分词处理,以获取多个词语以及每个词语对应的词性信息。但是,在分词处理的过程中,可能会对一些实体进行过度的切分导致失去原本的信息,从而影响依存分析结果的准确度,进而导致不能准确地进行语义识别。例如,当待处理语句为“我想玩植物大战僵尸”时,会将“植物大战僵尸”这一实体通过分词标记切分为:“植物”、“大战”、“僵尸”三个词语。为了提高语义识别的准确度,首先可以对待处理语句进行分词,以得到多个待识别词语和每个待识别词语的词性信息,并将多个待识别词语与预设词语数据库中的实体词语进行匹配,以识别待处理语句中的实体。若匹配到相应的实体词语,根据匹配到的实体词语和待识别词语的词性信息对待识别词语进行词语融合处理,以得到多个词语和多个词语中每个词语对应的词性信息。其中,根据匹配到的实体词语和待识别词语的词性信息对待识别词语进行词语融合处理的方式可以是:首先可以根据匹配到的实体词语在待处理语句的起始位置和终止位置,对起始位置与终止位置之间的待识别词语进行词语融合处理。之后将实体词语内部的分词标记去除,并检查实体词语首尾处是否已经被分词标记隔开,如果没有,则插入分词标记以隔开实体词语。最后可以将实体词语对应的词性信息映射为名词。
综上所述,本公开通过将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型,来得到目标集合更新操作,并根据目标集合更新操作确定依存分析结果。相比于现有技术,由词语处理模型对待输入词语、待输入词语的词性信息以及第一词语的依存关系对应的特征进行组合,不需要人工构建特征模板,同时,考虑了顺序在待处理词语后的词语与待处理词语的依存关系,能够准确地选择目标集合更新操作,依存分析结果的准确度高,提高了语义识别的准确度。
图6是根据一示例性实施例示出的一种语义识别的装置的框图。如图6所示,该装置200包括获取模块201,确定模块202,执行模块203和识别模块204。
获取模块201,被配置为对终端获取的信息进行语义分析时,获取待处理语句。
获取模块201,还被配置为对待处理语句进行词语识别处理,得到多个词语和多个词语中每个词语对应的词性信息。
确定模块202,被配置为根据待输入词语、待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作。
其中,待处理词语集为多个词语中当前待处理的词语的集合,待输入词语包括待处理词语集中的待处理词语、第一词语和第二词语,第一词语为多个词语中,已确定与待处理词语存在依存关系的词语,第二词语为多个词语中,顺序在待处理词语之后的预设数量个词语。
词语处理模型用于获取待输入词语的词语特征向量,词性信息的词性特征向量以及第一词语的依存关系的关系特征向量,并根据词语特征向量、词性特征向量和关系特征向量通过预设激活函数计算得到第一特征向量,并根据词语特征向量、词性特征向量和关系特征向量计算得到第二特征向量,并根据第一特征向量和第二特征向量计算多个预设集合更新操作的置信度。
执行模块203,被配置为根据目标集合更新操作循环执行依存关系确定步骤,直至得到待处理语句的依存分析结果,依存分析结果用于表征多个词语之间的依存关系。
识别模块204,被配置为根据依存分析结果对待处理语句进行语义识别。
图7是图6所示实施例示出的一种确定模块的框图。如图7所示,确定模块202包括第一确定子模块2021和第二确定子模块2022。
第一确定子模块2021,被配置为将待输入词语、待输入词语的词性信息以及第一词语的依存关系,作为词语处理模型的输入,得到多个预设集合更新操作中每个预设集合更新操作对应的置信度。
第二确定子模块2022,被配置为将置信度最高的预设集合更新操作作为目标集合更新操作。
可选地,词语处理模型包括输入层,嵌入层,隐藏层,自注意力机制层和输出层,第一确定子模块2021被配置为:
通过输入层将输入的待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到嵌入层。
通过嵌入层根据待输入词语、待输入词语的词性信息以及第一词语的依存关系,生成词语特征向量、词性特征向量和关系特征向量,并对词语特征向量、词性特征向量和关系特征向量进行拼接,得到第一拼接特征向量。
通过嵌入层分别将第一拼接特征向量、词性特征向量和关系特征向量输入到隐藏层和自注意力机制层。
通过隐藏层根据第一拼接特征向量、词性特征向量和关系特征向量,通过预设激活函数确定第一特征向量,并将第一特征向量输入到输出层。
通过自注意力机制层根据第一拼接特征向量、词性特征向量和关系特征向量确定第二特征向量,并将第二特征向量输入到输出层。
通过输出层根据第一特征向量和第二特征向量,输出每个预设集合更新操作对应的置信度。
可选地,执行模块203被配置为通过以下方式执行依存关系确定步骤:
根据目标集合更新操作更新待处理词语集,得到更新词语集,并根据目标集合更新操作确定待处理词语集中待处理词语的依存关系。
根据更新词语集,重新确定待输入词语、待输入词语的词性信息以及第一词语的依存关系。
根据重新确定的待输入词语、待输入词语的词性信息以及第一词语的依存关系通过词语处理模型,从多个预设集合更新操作中确定更新词语集对应的集合更新操作。
将更新词语集作为新的待处理词语集,并将得到的更新词语集对应的集合更新操作,作为新的目标集合更新操作。
可选地,目标集合更新操作包括移进操作、第一更新操作以及第二更新操作,执行模块203被配置为:
在目标集合更新操作为第一更新操作的情况下,将指示的两个待处理词语中,顺序在后的词语从待处理词语集中移出,并将指示的两个待处理词语之间的依存关系设置为第一依存关系,第一依存关系表示两个词语中,顺序在后词语为顺序在先词语的从属词。
在目标集合更新操作为第二更新操作的情况下,将指示的两个待处理词语中,顺序在先的词语从待处理词语集中移出,并将指示的两个待处理词语之间的依存关系设置为第二依存关系,第二依存关系表示两个词语中,顺序在先词语为顺序在后词语的从属词。
在目标集合更新操作为移进操作的情况下,将多个词语中的指定词语作为待处理词语集中新的待处理词语。
可选地,预设激活函数包括:
可选地,第一确定子模块2021被配置为:
对第一拼接特征向量、词性特征向量和关系特征向量进行拼接,得到第二拼接特征向量。
根据第二拼接特征向量,通过第一公式确定目标权重,第一公式包括:
其中,X为第二拼接特征向量,S为目标权重,f为softmax函数,dx为第二拼接特征向量的维度。
根据第二拼接特征向量和目标权重,通过第二公式确定第二特征向量。
第二公式包括:
L=S·X
其中,L为第二特征向量。
图8是图6所示实施例示出的一种获取模块的框图。如图8所示,获取模块201包括获取子模块2011和匹配子模块2012。
获取子模块2011,被配置为对待处理语句进行分词,得到多个待识别词语和多个待识别词语中每个待识别词语的词性信息。
匹配子模块2012,被配置为将多个待识别词语与预设词语数据库中的实体词语进行匹配。
获取子模块2011,还被配置为根据匹配到的实体词语和待识别词语的词性信息对待识别词语进行词语融合处理,得到多个词语和每个词语对应的词性信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开通过将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型,来得到目标集合更新操作,并根据目标集合更新操作确定依存分析结果。相比于现有技术,由词语处理模型对待输入词语、待输入词语的词性信息以及第一词语的依存关系对应的特征进行组合,不需要人工构建特征模板,同时,考虑了顺序在待处理词语后的词语与待处理词语的依存关系,能够准确地选择目标集合更新操作,依存分析结果的准确度高,提高了语义识别的准确度。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开上述任一方法实施例提供的语义识别的方法的步骤。
综上所述,本公开通过将待输入词语、待输入词语的词性信息以及第一词语的依存关系输入到词语处理模型,来得到目标集合更新操作,并根据目标集合更新操作确定依存分析结果。相比于现有技术,由词语处理模型对待输入词语、待输入词语的词性信息以及第一词语的依存关系对应的特征进行组合,不需要人工构建特征模板,同时,考虑了顺序在待处理词语后的词语与待处理词语的依存关系,能够准确地选择目标集合更新操作,依存分析结果的准确度高,提高了语义识别的准确度。
图9是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的语义识别的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的语义识别的方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述的语义识别的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语义识别的方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (18)
1.一种语义识别的方法,其特征在于,所述方法包括:
对终端获取的信息进行语义分析时,获取待处理语句;
对所述待处理语句进行词语识别处理,得到多个词语和所述多个词语中每个词语对应的词性信息;
根据待输入词语、所述待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作;
其中,所述待处理词语集为所述多个词语中当前待处理的词语的集合;所述待输入词语包括所述待处理词语集中的待处理词语、所述第一词语和第二词语,所述第一词语为所述多个词语中,已确定与所述待处理词语存在依存关系的词语,所述第二词语为所述多个词语中,顺序在所述待处理词语之后的预设数量个词语;
所述词语处理模型用于获取所述待输入词语的词语特征向量,所述词性信息的词性特征向量以及所述第一词语的依存关系的关系特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量通过预设激活函数计算得到第一特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量计算得到第二特征向量,并根据所述第一特征向量和所述第二特征向量计算多个所述预设集合更新操作的置信度;
根据所述目标集合更新操作循环执行依存关系确定步骤,直至得到所述待处理语句的依存分析结果,所述依存分析结果用于表征所述多个词语之间的依存关系;
根据所述依存分析结果对所述待处理语句进行语义识别。
2.根据权利要求1所述的方法,其特征在于,所述根据待输入词语、所述待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作包括:
将所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,作为所述词语处理模型的输入,得到所述多个预设集合更新操作中每个预设集合更新操作对应的置信度;
将置信度最高的所述预设集合更新操作作为所述目标集合更新操作。
3.根据权利要求2所述的方法,其特征在于,所述词语处理模型包括输入层,嵌入层,隐藏层,自注意力机制层和输出层,所述将所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,作为所述词语处理模型的输入,得到所述多个预设集合更新操作中每个预设集合更新操作对应的置信度包括:
通过所述输入层将输入的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系输入到所述嵌入层;
通过所述嵌入层根据所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,生成所述词语特征向量、所述词性特征向量和所述关系特征向量,并对所述词语特征向量、所述词性特征向量和所述关系特征向量进行拼接,得到第一拼接特征向量;
通过所述嵌入层分别将所述第一拼接特征向量、所述词性特征向量和所述关系特征向量输入到所述隐藏层和所述自注意力机制层;
通过所述隐藏层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量,通过所述预设激活函数确定第一特征向量,并将所述第一特征向量输入到所述输出层;
通过所述自注意力机制层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量确定所述第二特征向量,并将所述第二特征向量输入到所述输出层;
通过所述输出层根据所述第一特征向量和所述第二特征向量,输出每个所述预设集合更新操作对应的置信度。
4.根据权利要求1所述的方法,其特征在于,所述依存关系确定步骤包括:
根据所述目标集合更新操作更新所述待处理词语集,得到更新词语集,并根据所述目标集合更新操作确定所述待处理词语集中所述待处理词语的依存关系;
根据所述更新词语集,重新确定所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系;
根据重新确定的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系通过所述词语处理模型,从所述多个预设集合更新操作中确定所述更新词语集对应的集合更新操作;
将所述更新词语集作为新的待处理词语集,并将得到的所述更新词语集对应的集合更新操作,作为新的目标集合更新操作。
5.根据权利要求4所述的方法,其特征在于,所述目标集合更新操作包括移进操作、第一更新操作以及第二更新操作,所述根据所述目标集合更新操作更新所述待处理词语集,得到更新词语集,并根据所述目标集合更新操作确定所述待处理词语集中所述待处理词语的依存关系包括:
在所述目标集合更新操作为所述第一更新操作的情况下,将指示的两个所述待处理词语中,顺序在后的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第一依存关系;所述第一依存关系表示两个所述词语中,顺序在后词语为顺序在先词语的从属词;
在所述目标集合更新操作为所述第二更新操作的情况下,将指示的两个所述待处理词语中,顺序在先的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第二依存关系;所述第二依存关系表示两个所述词语中,顺序在先词语为顺序在后词语的从属词;
在所述目标集合更新操作为所述移进操作的情况下,将多个所述词语中的指定词语作为所述待处理词语集中新的待处理词语。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述对所述待处理语句进行词语识别处理,得到多个词语和所述多个词语中每个词语对应的词性信息包括:
对所述待处理语句进行分词,得到多个待识别词语和所述多个待识别词语中每个待识别词语的词性信息;
将所述多个待识别词语与预设词语数据库中的实体词语进行匹配;
根据匹配到的实体词语和所述待识别词语的词性信息对所述待识别词语进行词语融合处理,得到所述多个词语和每个所述词语对应的词性信息。
9.一种语义识别的装置,其特征在于,所述装置包括:
获取模块,被配置为对终端获取的信息进行语义分析时,获取待处理语句;
所述获取模块,还被配置为对所述待处理语句进行词语识别处理,得到多个词语和所述多个词语中每个词语对应的词性信息;
确定模块,被配置为根据待输入词语、所述待输入词语的词性信息以及第一词语的依存关系,通过预先训练的词语处理模型,从多个预设集合更新操作中确定待处理词语集对应的目标集合更新操作;
其中,所述待处理词语集为所述多个词语中当前待处理的词语的集合;所述待输入词语包括所述待处理词语集中的待处理词语、所述第一词语和第二词语,所述第一词语为所述多个词语中,已确定与所述待处理词语存在依存关系的词语,所述第二词语为所述多个词语中,顺序在所述待处理词语之后的预设数量个词语;
所述词语处理模型用于获取所述待输入词语的词语特征向量,所述词性信息的词性特征向量以及所述第一词语的依存关系的关系特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量通过预设激活函数计算得到第一特征向量,并根据所述词语特征向量、所述词性特征向量和所述关系特征向量计算得到第二特征向量,并根据所述第一特征向量和所述第二特征向量计算多个所述预设集合更新操作的置信度;
执行模块,被配置为根据所述目标集合更新操作循环执行依存关系确定步骤,直至得到所述待处理语句的依存分析结果,所述依存分析结果用于表征所述多个词语之间的依存关系;
识别模块,被配置为根据所述依存分析结果对所述待处理语句进行语义识别。
10.根据权利要求9所述的装置,其特征在于,所述确定模块包括:
第一确定子模块,被配置为将所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,作为所述词语处理模型的输入,得到所述多个预设集合更新操作中每个预设集合更新操作对应的置信度;
第二确定子模块,被配置为将置信度最高的所述预设集合更新操作作为所述目标集合更新操作。
11.根据权利要求10所述的装置,其特征在于,所述词语处理模型包括输入层,嵌入层,隐藏层,自注意力机制层和输出层,所述第一确定子模块被配置为:
通过所述输入层将输入的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系输入到所述嵌入层;
通过所述嵌入层根据所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系,生成所述词语特征向量、所述词性特征向量和所述关系特征向量,并对所述词语特征向量、所述词性特征向量和所述关系特征向量进行拼接,得到第一拼接特征向量;
通过所述嵌入层分别将所述第一拼接特征向量、所述词性特征向量和所述关系特征向量输入到所述隐藏层和所述自注意力机制层;
通过所述隐藏层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量,通过所述预设激活函数确定第一特征向量,并将所述第一特征向量输入到所述输出层;
通过所述自注意力机制层根据所述第一拼接特征向量、所述词性特征向量和所述关系特征向量确定所述第二特征向量,并将所述第二特征向量输入到所述输出层;
通过所述输出层根据所述第一特征向量和所述第二特征向量,输出每个所述预设集合更新操作对应的置信度。
12.根据权利要求9所述的装置,其特征在于,所述执行模块被配置为通过以下方式执行所述依存关系确定步骤:
根据所述目标集合更新操作更新所述待处理词语集,得到更新词语集,并根据所述目标集合更新操作确定所述待处理词语集中所述待处理词语的依存关系;
根据所述更新词语集,重新确定所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系;
根据重新确定的所述待输入词语、所述待输入词语的词性信息以及所述第一词语的依存关系通过所述词语处理模型,从所述多个预设集合更新操作中确定所述更新词语集对应的集合更新操作;
将所述更新词语集作为新的待处理词语集,并将得到的所述更新词语集对应的集合更新操作,作为新的目标集合更新操作。
13.根据权利要求12所述的装置,其特征在于,所述目标集合更新操作包括移进操作、第一更新操作以及第二更新操作,所述执行模块被配置为:
在所述目标集合更新操作为所述第一更新操作的情况下,将指示的两个所述待处理词语中,顺序在后的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第一依存关系;所述第一依存关系表示两个所述词语中,顺序在后词语为顺序在先词语的从属词;
在所述目标集合更新操作为所述第二更新操作的情况下,将指示的两个所述待处理词语中,顺序在先的词语从所述待处理词语集中移出,并将指示的两个所述待处理词语之间的依存关系设置为第二依存关系;所述第二依存关系表示两个所述词语中,顺序在先词语为顺序在后词语的从属词;
在所述目标集合更新操作为所述移进操作的情况下,将多个所述词语中的指定词语作为所述待处理词语集中新的待处理词语。
16.根据权利要求9-15中任一项所述的装置,其特征在于,所述获取模块包括:
获取子模块,被配置为对所述待处理语句进行分词,得到多个待识别词语和所述多个待识别词语中每个待识别词语的词性信息;
匹配子模块,被配置为将所述多个待识别词语与预设词语数据库中的实体词语进行匹配;
所述获取子模块,还被配置为根据匹配到的实体词语和所述待识别词语的词性信息对所述待识别词语进行词语融合处理,得到所述多个词语和每个所述词语对应的词性信息。
17.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8中任一项所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623916.8A CN111832316B (zh) | 2020-06-30 | 2020-06-30 | 语义识别的方法、装置、电子设备和存储介质 |
US17/132,443 US20210407495A1 (en) | 2020-06-30 | 2020-12-23 | Method, apparatus, electronic device and storage medium for semantic recognition |
EP20217110.4A EP3933658A1 (en) | 2020-06-30 | 2020-12-23 | Method, apparatus, electronic device and storage medium for semantic recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623916.8A CN111832316B (zh) | 2020-06-30 | 2020-06-30 | 语义识别的方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832316A true CN111832316A (zh) | 2020-10-27 |
CN111832316B CN111832316B (zh) | 2024-05-24 |
Family
ID=72899556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010623916.8A Active CN111832316B (zh) | 2020-06-30 | 2020-06-30 | 语义识别的方法、装置、电子设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210407495A1 (zh) |
EP (1) | EP3933658A1 (zh) |
CN (1) | CN111832316B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528671A (zh) * | 2020-12-02 | 2021-03-19 | 北京小米松果电子有限公司 | 语义分析方法、装置以及存储介质 |
CN113705198A (zh) * | 2021-10-21 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 场景图生成方法、装置、电子设备及存储介质 |
CN113822034A (zh) * | 2021-06-07 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种复述文本的方法、装置、计算机设备及存储介质 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832315B (zh) * | 2020-06-30 | 2024-04-30 | 北京小米松果电子有限公司 | 语义识别的方法、装置、电子设备和存储介质 |
CN114444472B (zh) * | 2022-04-02 | 2022-07-12 | 北京百度网讯科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN116091120B (zh) * | 2023-04-11 | 2023-06-23 | 北京智蚁杨帆科技有限公司 | 一种基于知识图谱技术的全栈式电价咨询与管理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777042A (zh) * | 2010-01-21 | 2010-07-14 | 西南科技大学 | 基于神经网络和标签库的语句相似度算法 |
US20180189638A1 (en) * | 2016-12-31 | 2018-07-05 | Intel Corporation | Hardware accelerator template and design framework for implementing recurrent neural networks |
CN109313719A (zh) * | 2016-03-18 | 2019-02-05 | 谷歌有限责任公司 | 使用神经网络生成文本段的依存性解析 |
CN109923557A (zh) * | 2016-11-03 | 2019-06-21 | 易享信息技术有限公司 | 使用连续正则化训练联合多任务神经网络模型 |
US10387575B1 (en) * | 2019-01-30 | 2019-08-20 | Babylon Partners Limited | Semantic graph traversal for recognition of inferred clauses within natural language inputs |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN111339751A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种文本关键词处理方法、装置及设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633093B2 (en) * | 2012-10-23 | 2017-04-25 | Ip Reservoir, Llc | Method and apparatus for accelerated format translation of data in a delimited data format |
US9972304B2 (en) * | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10885277B2 (en) * | 2018-08-02 | 2021-01-05 | Google Llc | On-device neural networks for natural language understanding |
US11238845B2 (en) * | 2018-11-21 | 2022-02-01 | Google Llc | Multi-dialect and multilingual speech recognition |
US11216459B2 (en) * | 2019-03-25 | 2022-01-04 | Microsoft Technology Licensing, Llc | Multi-layer semantic search |
WO2020256749A1 (en) * | 2019-06-20 | 2020-12-24 | Google Llc | Word lattice augmentation for automatic speech recognition |
US11862146B2 (en) * | 2019-07-05 | 2024-01-02 | Asapp, Inc. | Multistream acoustic models with dilations |
-
2020
- 2020-06-30 CN CN202010623916.8A patent/CN111832316B/zh active Active
- 2020-12-23 US US17/132,443 patent/US20210407495A1/en active Pending
- 2020-12-23 EP EP20217110.4A patent/EP3933658A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777042A (zh) * | 2010-01-21 | 2010-07-14 | 西南科技大学 | 基于神经网络和标签库的语句相似度算法 |
CN109313719A (zh) * | 2016-03-18 | 2019-02-05 | 谷歌有限责任公司 | 使用神经网络生成文本段的依存性解析 |
CN109923557A (zh) * | 2016-11-03 | 2019-06-21 | 易享信息技术有限公司 | 使用连续正则化训练联合多任务神经网络模型 |
US20180189638A1 (en) * | 2016-12-31 | 2018-07-05 | Intel Corporation | Hardware accelerator template and design framework for implementing recurrent neural networks |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
US10387575B1 (en) * | 2019-01-30 | 2019-08-20 | Babylon Partners Limited | Semantic graph traversal for recognition of inferred clauses within natural language inputs |
CN111339751A (zh) * | 2020-05-15 | 2020-06-26 | 支付宝(杭州)信息技术有限公司 | 一种文本关键词处理方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
郭振;张玉洁;苏晨;徐金安;: "基于字符的中文分词、词性标注和依存句法分析联合模型", 中文信息学报, no. 06 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528671A (zh) * | 2020-12-02 | 2021-03-19 | 北京小米松果电子有限公司 | 语义分析方法、装置以及存储介质 |
CN113822034A (zh) * | 2021-06-07 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种复述文本的方法、装置、计算机设备及存储介质 |
CN113822034B (zh) * | 2021-06-07 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 一种复述文本的方法、装置、计算机设备及存储介质 |
CN113705198A (zh) * | 2021-10-21 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 场景图生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210407495A1 (en) | 2021-12-30 |
EP3933658A1 (en) | 2022-01-05 |
CN111832316B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580290B (zh) | 用于文本分类的训练集的优化方法及装置 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN110008401B (zh) | 关键词提取方法、关键词提取装置和计算机可读存储介质 | |
CN107527619B (zh) | 语音控制业务的定位方法及装置 | |
CN111078838A (zh) | 关键词提取方法、关键词提取装置及电子设备 | |
CN110781305A (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN111832315B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN110674246A (zh) | 问答模型训练方法、自动问答方法及装置 | |
CN112528671A (zh) | 语义分析方法、装置以及存储介质 | |
CN114328838A (zh) | 事件抽取方法、装置、电子设备及可读存储介质 | |
CN111199730B (zh) | 语音识别方法、装置、终端及存储介质 | |
CN111078884A (zh) | 一种关键词提取方法、装置及介质 | |
CN111079422B (zh) | 关键词提取方法、装置及存储介质 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
CN111324214B (zh) | 一种语句纠错方法和装置 | |
CN115547333A (zh) | 语言识别模型的生成方法、生成装置、系统、设备及介质 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN108073294B (zh) | 一种智能组词方法和装置、一种用于智能组词的装置 | |
CN114462410A (zh) | 实体识别方法、装置、终端及存储介质 | |
CN115146633A (zh) | 一种关键词识别方法、装置、电子设备及存储介质 | |
CN113326706A (zh) | 一种跨语言检索方法、装置和电子设备 | |
CN112579767B (zh) | 搜索处理方法、装置和用于搜索处理的装置 | |
CN113901832A (zh) | 人机对话方法、装置、存储介质及电子设备 | |
CN108108350B (zh) | 名词识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |