CN108287858A - 自然语言的语义提取方法及装置 - Google Patents
自然语言的语义提取方法及装置 Download PDFInfo
- Publication number
- CN108287858A CN108287858A CN201710121713.7A CN201710121713A CN108287858A CN 108287858 A CN108287858 A CN 108287858A CN 201710121713 A CN201710121713 A CN 201710121713A CN 108287858 A CN108287858 A CN 108287858A
- Authority
- CN
- China
- Prior art keywords
- semantic
- vector
- character
- semantic vector
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 358
- 238000013528 artificial neural network Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 13
- 238000002156 mixing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000005194 fractionation Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种自然语言的语义提取方法及装置,所述方法包括:在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种自然语言的语义提取方法及装置。
背景技术
随着技术的发展,用户利用自然语言进行信息搜索或指示设备执行特定的操作。这样就涉及到设备要如何识别自然语言,准确提取到用户意图,并执行。例如,语音搜索的应用场景,输入的用户输入的语音,用户的语言被转换成自然语言之后,需要提取语义。
在现有技术中对中文语音识别,主要采用的是中文分词进行识别,对输入的一个中文语句,根据样本词的概率,进行语句分割;然后基于正则表达式进行语义的机械提取。
然而由于中文的庞大语系及语音的不断发展,导致识别困难大及识别精确度不稳定等问题。现有技术中一般采用正则表达式加识别模板进行提取,但是基于正则表达式进行匹配识别,会忽略正则表达式中无需匹配部分的含义,导致提取语义错误高的问题。
发明内容
有鉴于此,本发明实施例期望提供一种自然语言的语义提取方法及装置,以提升自然语言的语义提取的正确率和精确度。
为达到上述目的,本发明的技术方案是这样实现的:本发明实施例第一方面提供一种自然语言的语义提取方法,包括:
在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;
神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;
获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;
选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
基于上述方案,所述神经网络组合排列所述第一语义向量获得第二语义向量,包括:
根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。
基于上述方案,所述根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,包括:
利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。
基于上述方案,所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:
排列组合所述第二语义向量,得到第三语义向量;
根据所述第二语义向量的语义描述获得的所述权重向量;
根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。
基于上述方案,所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,包括:
利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。
基于上述方案,所述根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:
根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;
根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。
基于上述方案,所述神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量,包括:
将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;
所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:
将所述卷积向量输入到高速连接网,生成混合向量;
将所述混合向量输入到长短记忆网,生成依赖关系向量;
所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:将所述依赖关系向量输入到分类器,获得所述分类结果;
根据所述分类结果输出所述语义意图;
基于所述权重向量中权重输出所述关键信息。
基于上述方案,所述方法还包括:
预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;
利用样本数据训练所述神经网络;
获取所述神经网络的运行日志;
根据所述运行日志校正所述神经网络。
基于上述方案,所述预先生成所述字符库,包括:
获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;
获得所述字符的语义描述;
建立所述字符与所述字符的语义描述的所述语义表。
基于上述方案,所述获得所述字符的语义描述,包括:
从预定渠道获取文本资料;
从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述。
本发明实施例第二方面提供一种自然语言的语义提取装置,包括:
查询单元,用于在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;
第一获取单元,用于神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;
第二获取单元,用于获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;
选择确定单元,用于选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
基于上述方案,所述第一获取单元,具体用于根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。
基于上述方案,所述第一获取单元,具体用于利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。
基于上述方案,所述第二获取单元,具体用于排列组合所述第二语义向量,得到第三语义向量;根据所述第二语义向量的语义描述获得的所述权重向量;根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。
基于上述方案,所述选择确定单元,具体用于利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。
基于上述方案,所述选择确定单元,具体用于根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。
基于上述方案,所述第一获取单元,具体用于将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;
所述第二获取单元,具体用于将所述卷积向量输入到高速连接网,生成混合向量;将所述混合向量输入到长短记忆网,生成依赖关系向量;
所述选择确定单元,具体用于将所述依赖关系向量输入到分类器,获得所述分类结果;根据所述分类结果输出所述语义意图;基于所述权重向量中权重输出所述关键信息。
基于上述方案,所述装置还包括:
生成单元,用于预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;
训练单元,用于利用样本数据训练所述神经网络;
第三获取单元,用于获取所述神经网络的运行日志;
校正单元,用于根据所述运行日志校正所述神经网络。
基于上述方案,所述生成单元,具体用于获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;获得所述字符的语义描述;建立所述字符与所述字符的语义描述的所述语义表。
基于上述方案,所述生成单元,具体用于从预定渠道获取文本资料;从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述。
建立所述字符与所述字符的语义描述的所述语义表从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述建立所述字符与所述字符的语义描述的所述语义表从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述本发明实施例提供的自然语言的语义提取方法及装置,在获得一条自然语言的语句时,会基于单字粒度的逐字符获取每一个字符的语义描述,从而形成表针每一个字符的含义的第一语义向量,在通过排列组合得到所述第一语义向量不同排列组合对应的各种第二语义向量,这样就保留了自然语言中每个字符的每一种第一语义向量排列组合得到的含义,相对于采用正则表达式或各种匹配模板的方式,割裂上下文文意而仅按照模板中匹配成功的一个或多个字符来进行语义提取方法,不会损失掉这种强行拆分导致的含义的丢失,通过后续越好条件的筛选,可以从每一种备选语义意图选择出最有可能的备选语义意图作为最终语义意图输出,并基于权重向量得到关键信息。这种语义提取方法在没有强行去除字符部分含义的情况下,通过神经网络的处理,可以再次确保语义提取的正确率和精确度。
附图说明
图1为本发明实施例提供的第一种自然语言的语义提取方法的流程示意图;
图2为本发明实施例提供的第二种自然语言的语义提取方法的流程示意图;
图3为本发明实施例提供的第一种自然语言的语义提取装置的结构示意图;
图4A为本发明实施例提供的一种自然语言的采集效果示意图;
图4B为基于本发明实施例提供的方法形成的语义意图和关键信息形成的应用效果示意图;
图4C为本发明实施例提供了另一个所述自然语言的语义提取方法的应用效果示意图;
图5为本发明实施例提供的一种自然语言的语义提取方法的流程示意图;
图6为本发明实施例提供的一种连续词袋模型的示意图;
图7为本发明实施例提供的另一种自然语言的语义提取方法的流程示意图;
图8为本发明实施例提供的另一种自然语言的语义提取装置的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种自然语言的语义提取方法,包括:
步骤S110:在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;
步骤S120:神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;
步骤S130:获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;
步骤S140:选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
本实施例提供的语义提取方法,可以应用于一台或多台电子设备中。例如,所述语义提取方法可利用于网络侧的网络服务器中。
当所述网络服务器接收到一条所述自然语言的文本之后,会将该文本拆分成单个字符,然后提取每一个字符所有的语义描述,这些语义描述可理解为字符的含义描述。这些语义描述都可以用数值进行表示。例如,一个字符包括P个语义描述,则所述第一语义向量可包括P个元素的向量。当然,在具体实现过程中,所述第一语义向量包括的元素大于P,但是所述第一语义向量可包括空元素。所述空元素可不表示任何语义描述。
例如,所述自然语言包括S个字符,则在步骤S110中将形成S个第一语义向量。将所述第一语义向量,根据其对应的字符,和字符在所述自然语言中的位置关系,依次输入到神经网络,由神经网络对所述第一语义向量进行处理,这样的话,相对于现有技术中直接对自然语言采用统计概率直接进行分词,会损失掉的很多语义描述,相当于最大限度的保留了所述自然语言可能的表达语义描述,可对每一种语义描述进行处理,然后选择出最有可能的语义意图及与所述语义意图关联的关键信息输出。
例如,自然语言“武汉大学生活如何?”,若利用现有的中文分词法,根据“武汉”、“大学”、“武汉大学”、“大学生”、“武汉大学生”等各种可能的词,这些词中当前统计概率最高的次进行该自然语言的拆分。若当前大学这个词统计概率最高,现有技术就可能以脱离该语言已经的拆分方式,将“大学”为界进行前后拆分,得到了“武汉”、“大学”及“生活如何”这些语言,再根据这些词的意思,进行后续处理。例如,进行信息检索可能会以“大学”为重点进行检索,从而损失了该自然语言的其他种语义意图,由于这种强制拆分,显然并不能精确的而获取自然语言所要表的意思。
在本实施例中以单字符为粒度,获取各个字符的意思,生成第一语义向量。这写第一语义向量由于包括每一个字符的意思,显然就不会存在上述强行直接拆分导致的有些语义的损失,从而能够提升语义意图和关键信息提取的精确度。
在一些实施例中,所述步骤S120可包括:
根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。
例如,利用滑动窗口,以一个字符为步长,位于同一个滑动窗口内的所有字符按照排序形成词。每一词所述滑动窗口移动的起始位置不同,第L次移动的起始位置可为第L个;所述L为正整数。每一次所述滑动窗口覆盖了所有自然语言中所有相邻字符,可能组成的词对应的第二语义向量。这样就会形成1个字符、2个字符、3个字符或4个字符或更多个字符组成的词对应的第二语义向量。例如,若自然语言识别之后为“武汉大学生”,若L等于2时,则将被拆分成“武汉”、“大学”及“学生”。当然,即便L等于2,根据滑动窗口的滑动,也会拆分为多种组合,一种所述组合对应于一条第二语义向量。当L等于4时,至少可以拆分成“武汉大学”及“生”这样的表示。故这种通过滑动窗口的不同个数相邻字符组成词,再转换为第二语义向量的操作,可以最大限度保留自然语言中各种语义意图。
进一步地,所述步骤S120可包括:
利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。
在本实施例中直接用卷积网络的卷积窗口进行M个字符的截取,在通过卷积处理得到作为所述第二语义向量的卷积向量。
在本实施例中所述权重向量的生成可以采用预设方法,以下提供几种可选方式:
可选方式一:根据第二语义向量对应的词的词属性确定。所述词属性可包括:表示该词为名词、动词、形容词或副词的指示信息。不同类型的词对表征语义意图的贡献性是不同的。例如,通常名词的权重可以设置大于形容词或副词,动词的权重也可以设置大于形容词或副词。
可选方式二:根据所述第二语义响铃对应的词在自然语句中的语句成分。所述语句成分可包括:主语、谓语、宾语、状语。例如,所述状语的权重可小于主语或谓语的权重。
可选方式三:直接根据每一个第二语义向量对应的语义描述的丰富程度来确定所述权重向量中每一个权重。这里的丰富程度可以根据每一个第二语义向量对应的词包括的词义种类,该第二语义向量对应的语义描述是否出现过或出现概率等来确定。
这里的排列组合所述第二语义向量中的各个所述词,可包括随机排列组合所述词,会得到词组或短语。不同的排列组合的词组或短语表征的语义意图是不同的。有鉴于此,可以通过排列组合自然语言的一次分割中不同的第二语义向量,会得到表征不同语义意图的第三语义向量。
从而产生新的向量。例如,一个第二语义向量包括两个词分别A和B,通过排列组合之后,至少会形成两个第三语义向量,一条第三语义向量包括A和B,另一条第三语义向量包括B和A。显然两个词的排序不同,则可能产生的语义意图不同。
再例如,一条第二语义向量为:“武汉”、“明天”、“如何”、“天气”、“的”这些词,重新对这些词排序之后,可能会出现一条第三语义向量为:“武汉”、“的”“天气”、“明天”、“如何”;还可能会出现一条第三语义向量为:“武汉”、“明天”、“的”、“如何”、“天气”。获取每一条第三语义向量的词的语义描述,发现“的”表达的意思很不重要,可以直接去掉。再根据各条第三语义向量中词合之后形成短语或句子表达含义的出现概率等参数,从而可以得到各个词之间的依赖程度。通常上述例子中,“武汉”、“明天”分别与“天气”的依赖程度都很高,而“武汉”和“明天”之间的依赖程度可能就比较低了。在本实施例中,会生成第四语义向量,这里的第四语义向量包括指示词的语义描述元素和词之间依赖关系的元素。将所述第四语义向量输入到分类器中,则所述分类器就可以根据第四语义向量提取出语义意图。这样的话,就可以避免将“武汉大学生”这个自然语言强行拆分成奇怪的语义意图的问题,提升了语义提取的精确度。
在一些实施例中,所述步骤S130可包括:
排列组合所述第二语义向量,得到第三语义向量;
根据所述第二语义向量的语义描述获得的所述权重向量;
根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。
例如,这样在滑动窗口移动过程中,还是产生很多莫名其妙的词,例如,“武汉明天的天气如何”,在所述滑动窗口滑动的过程中,则会出现“的天”这样的词在数据库中可能不存在词的含义或根据统计概率出现的次数非常少。在所述神经网络的训练过程中,根据词的语义描述或统计概率将这种词的权重设置的很小,这样训练得到的神经网络,在应用中时,这些词对应的权重也会很小。故此时,故,这里的权重向量表示的该第二语义向量各个词的重要程度或词的语义描述的丰富程度。例如,当“武汉明天的天气如何”被拆分成了“武汉”“明天”“的”“天气”“如何”,根据词在自然语言中的成分,和/或词本身含义的丰富程度,确定所述权重。所述词的含义的丰富程度,显然“的”与“武汉”相比,“的”的语义的丰富程度是低于“武汉”的语义描述的丰富程度的。这里权重向量的形成,有利于后续根据权重向量中权重的大小,选择这些词作为该自然语言的关键信息输出。由于本实施例采用神网络对第一语义向量进行处理,这些表征每一个词的语义描述的丰富程度和/或重要程度的权重的算法,在训练阶段就完成,故在应用过程中,直接利用该神经网络进行数据处理,就可以生成对应的词的权重。
这里的关键信息可包括场景信息,这里的场景信息可包括:时间信息及地点信息等这句自然语言的最核心的信息。
有一些卷积向量因为词拆分不得当,得到的词在数据库中可能不会产生词义,在本实施例中会对这种第三语义向量进行过滤,然后过滤之后根据各条第三语义向量中词顺序组合得到的语义描述的丰富程度和/或重要程度,就可以知道一条第二语义向量中各个词之间的关联程度,从而得到表征这种关联程度或依赖程度的元素,生成所述第四语义向量。
所述步骤S140可包括:利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。
在本实施例中所述分类器可为预先通过样本数据训练得到的基于概率等方式进行分类的分类器,例如,向量分类器等,可以选择出当前最有可能的最终语义意图。在本实施例中,所述最终语义意图可能为一条,也可以能为多条。
具体如,所述步骤S120可包括:
将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;
图2所示,所述步骤S130可包括:
步骤S131:将所述卷积向量输入到高速连接网,生成混合向量;
步骤S132:将所述混合向量输入到长短记忆网,生成依赖关系向量;
所述步骤S140可包括:
步骤S141:将所述依赖关系向量输入到分类器,获得所述分类结果;
步骤S142:根据所述分类结果输出所述语义意图;
步骤S143:基于所述权重向量中权重输出所述关键信息
例如,以中文字符为例,一个中文字相当于一个字符,一个标点符号相当于一个字符,一个数字相当于一个字符。
在本实施例中一条自然语言可以由多个字符组成,每一个字符对应于一个所述第一语义向量,将这些所述第一语义向量按照各个字符在所述自然语言中的排列顺序依次排列,会形成语义矩阵,输入到所述卷积网络中,在所述卷积网络中,利用等于不同字符数的卷积窗口,选择所述语义矩阵中的一个或相邻的两个或两个以上的字符组成词,然后将获得该词的卷积向量。再将每一条卷积向量输入到高速连接网,由高速连接网打乱每一条所述卷积向量中的元素,可以基于一个包括多个元素的卷积向量生成多条顺序打乱之后的混合向量。再将一条卷积向量对应的混合向量输入到所述长短记忆网,长短记忆网可提取不同词之间的长程依赖关系的网络,可以通过对混合向量,得到该条对应的卷积向量中各个词之间的关联关系,同时还可以过滤掉一些语义意图很少或在自然语言中没有特殊意义的字符去掉,例如,没有特殊语义意图的标点符号。所述长短记忆网最后输出一条依赖关系向量,由分类器对依赖关系向量进行处理,再由分类器输出语义意图。
所述依赖关系向量与卷积向量之间有对应关系,例如,所述长短记忆网生成的依赖关系相连是基于卷积向量A生成的,则会根据所述卷积向量A的权重向量中权重A最大或排序在前几位,选择所述卷积向量A中对应该元素作为所述关键信息输出。
在本实施例中,所述关键信息包括场景信息。这里的场景信息可包括时间信息、位置信息和/或人物信息等各种信息。
在一些实施例中,所述方法还包括:
预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;
利用样本数据训练所述神经网络;
获取所述神经网络的运行日志;
根据所述运行日志校正所述神经网络。
在本实施例中在提取所述自然语言的语义之前,需要预先生成所述字符库,在本实施例中所述字符库由很多的语义表。这些语义表表征的字符与该字符的语义描述之间的对应关系。
这样的话,在获得一条所述自然语言之后,可以通过查询所述字符库可以获得每一个字符的第一语义向量。
在本实施例中将利用样本数据训练所述神经网络,得到神经网络的网络参数。在所述神经网络投入使用之后,还会监控所述神经网络的运行,获得所述神经网络的运行日志,根据所述运行日志对所述神经网络不断进行优化和校正,以提升所述神经网络的处理精确度,从而方便后续精确提取语义意图和关键信息。
在在本实施例中,所述预先生成所述字符库,包括:
获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;
获得所述字符的语义描述;
建立所述字符与所述字符的含义的语义表。
所述中文标准汉字符集可为现有收集到标准字库中的字符,例如,可包括常用字符和非常用字符。常用字为经常使用的字符,而非常用字符为使用频次较低的字符。所述中外文标点可包括中文字符和英文等外文符号。所述外文字符可包括常用外文的字符和数字等。这里的常用外文包括英文。
在一些实施例中,由于语言的动态变化,很多字符会产生很多新的含义,本实施例中为了减少字符新的表征新含义的语义描述导致语义提取的精确性低,所述获得所述字符的语义描述,包括:
所述获得所述字符的语义描述,包括:
从预定渠道获取文本资料;
从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述。
这里的预定驱动包括新闻媒体渠道,网络驱动或社交应用渠道。这些渠道由于语言的演化会使得一个字符产生很多新的含义,在本实施例中为了尽可能全面的获得字符的语义描述,会从预定驱动获取文本资料,并对文本资料进行识别,根据对应文本资料中上下文关系,确定一个字符在这种场景下的语义描述,若该语义描述是一个新的语义描述,就更新对应的语义表。
如图3所示,本实施例提供一种自然语言的语义提取装置,包括:
查询单元110,用于在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;
第一获取单元120,用于神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;
第二获取单元130,用于获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;
选择确定单元140,用于选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
本实施例提供的自然语言的语义提取装置,应用于各种一台或多台服务器中,多台服务器可组成网络平台。这些网络服务器或网络平台与终端连接,可以解析终端提交的自然语言,从而得到所述语义意图及所述关键信息,从而给出相应的响应。
在本实施例中所述查询单元110、第一获取单元120、第二获取单元130及所述选择确定单元140都可对应于处理器或处理电路。所述处理器可包括中央处理器、微处理器、数字信号处理器、应用处理器或可编程阵列等。所述处理电路可包括专用集成电路。所述处理器或处理电路可通过执行预定代码实现上述单元的功能。
在本实施例中所述语义提取装置,不会直接对自然语言进行强制性中文分词,而是先提取每一个字符的语义描述,形成所述第一语义向量,然后再自然语言中各个字符的第一语义向量输入到神经网络,这样的话,就不会存在着强行中文分词导致的有些语义描述流失掉从而导致的语义意图和关键信息提取的不精确的问题,故从这一方面提升了精确性。在另一方面,该装置是利用神经网络进行所述第一语义向量进行处理,而非现有技术中的正则表达式或模板的强行匹配,这样显然同样可以减少自然语言中不同字符脱离上下文的语义描述的错误提取,再次提升了语义提取的精确性和正确性。
在有些实施例中,所述第一获取单元120,具体用于根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。
在本实施例中所述第一获取单元120,会根据各个字符在自然语言中的排序,将一个或多个相邻位置的字符组合成词对应的第二语义向量,所述第二语义向量中的元素可为各种编码序列或数值等。
例如,所述第一获取单元120,具体用于利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。
在本实施例中利用卷积网络处理所述第一语义向量,利用卷积窗口作为前述的滑动窗口,以一个字符为滑动步长,得到自然语言中各个字符的各个词的可能,形成所述卷积向量。这里的卷积向量为前述第二语义向量的一种。
在一些实施例中,所述第二获取单元130,具体用于排列组合所述第二语义向量,得到第三语义向量;根据所述第二语义向量的语义描述获得的所述权重向量;根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。
在本实施例中还会生成第二语义向量对应的权重向量;权重向量包括的元素为权重,各个权重在权重向量中的排序,与一次第一语义向量的排列组合产生的多个所述第二语义向量中的排序一一对应,这样的话,可以简便的根据权重提取自然语言的关键信息。
在一些实施例中,所述选择确定单元140,具体用于利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。
在实施例中将会继续对第三语义向量进行处理,选择备选向量,并获得备选向量中各个元素之间的依赖关系,生成包括两种元素的第四语义向量,并输入分类器,所述分类器可为各种类型的学习机,由所述学习机等分类器对所述第四语义向量进行处理之后,由所述分类器输出提取的语义。
在一些实施例中,所述选择确定单元140,具体用于根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。
在还有一些实施例中,所述第一获取单元120,具体用于将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;
所述第二获取单元130,具体用于将所述卷积向量输入到高速连接网,生成混合向量;将所述混合向量输入到长短记忆网,生成依赖关系向量;
所述选择确定单元140,具体用于将所述依赖关系向量输入到分类器,获得所述分类结果;根据所述分类结果输出所述语义意图;基于所述权重向量中权重输出所述关键信息。
在还有一些实施例中,所述装置还包括:
生成单元,用于预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;
训练单元,用于利用样本数据训练所述神经网络;
获取单元,用于获取所述神经网络的运行日志;
校正单元,用于根据所述运行日志校正所述神经网络。
这里的生成单元、训练单元、获取单元及校正单元,都可以对应于处理器或处理电路。所述处理器或处理电路的详细描述可以参见前述实施例。
在本实施例中在利用字符库形成所述第一语义向量之前,还会获得所述字符库及所述神经网络,在完成字符库的生成及神经网络的训练之后,就可以使用所述字符库和神经网络对自然语言进行信息提取了。在本实施例中,所述神经网络投入运行之后,还会获取所述运行日志,根据运行日志校正所述神经网络,这样确保神经网络的信息提取的正确率和精确度。
在一些实施例中,所述生成单元,还将具体用于按预定时间间隔,更新所述字符库,以使所述字符库根据现实世界中各个字符的含义的变化,发生对应的变化,从而确保后续自然语言中信息提取的精确度。这里的预定时间间隔中的任意两个时间间隔可相等,也可以不等,若任意两个预定时间间隔相等,则是周期性的更新所述字符库。
在有些实施例中,所述生成单元,具体用于获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;获得所述字符的语义描述;建立所述字符与所述字符的语义描述的所述语义表。
在本实施例中所述生成单元,获取字符的来源有多个,以尽可能的全面获得字符的语义描述。
在本实施例中,为了获得各个字符的语义描述变迁,所述生成单元,还具体用于从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述语义描述。
这样就可以确保字符库中的字符的语义描述,与现实使用保持步调一致,从而提升识别的精确度。
以下结合上述任意实施例提供几个具体示例:
示例一:
如图4A至图4B所示,本示例提供一种自然语言的语义提取方法的应用场景。用户终端接收利用音频采集单元(如麦克风)等采集到用户输入的自然语言。例如,用户按住如图4A中录音界面的话筒按钮,用户终端开始进行录音,在完成录音之后会将对应的录音转化成包括一个或多个文字的文本。该文本是与录音采集的音频相对应的一种自然语言。在将自然语言转换成文本之后,会采用本发明实施例提供的自然语言的语义提取方法,对自然语言进行语义意图和关键信息的提取,然后根据得到的所述语义意图及所述关键信息,进行信息搜索,得到如图4B所示的搜寻结果,将所述搜寻结果返回给用户终端,用户终端显示所述搜寻结果。
图4C是另一个应用本发明实施例提供的自然语言的语义提取方法的应用示例。在图4C中接收到自然语言“我搜索附近的肯德基”,然后执行图1所示的方法,得到用户的搜索意图和关键信息,依据获得的搜索意图和关键信息进行信息检索,得到的检索结果反馈给用户终端,显示在用户终端的搜索页面上。
在本示例中的所述用户终端可为手机、平板电脑或可穿戴式设备等各种用户使用的电子设备。
示例二:
如图5所示,本示例提供一种自然语言的语义提取方法,主要包括:离线的字符语义训练、深度混合语义模型训练,以及在线应用。在线应用包括利用训练得到的所述字符语义训练得到的字符库及深度混合语义模型训练得到的神经网络,得到输入的自然语言的场景信息和关键信息。
以下分别描述字符语义训练及所述深度混合语义模型训练。
一、字符语义训练:
1.1)字符集选择和生成:
选择中文标准汉字集(6000个常用字+1.4万个非常用字),中英文标点符号,西文字符(英文和数字),作为后续语料和用户描述处理的标准内容。对语料数据和用户描述做如下预处理:繁体中文转简体,全角符号转半角符号,预处理后的字符出现在字符集范围之外的字符使用统一的标识符替换,编码统一转换为8比特万国码(8-bit UnicodeTransformation Format,UTF-8)编码。
1.2)使用词向量模型训练单字粒度的语义描述。通过大规模中文新闻语料,利用字符的出现的前后关系利用神经网络训练每个字符的语义描述。
图6所示为连续词袋(Continuous Bag Of Words,CBOW)模型一个示例的示意图,利用上下文来预测当前词概率,如上文为“中国”,下文为“球赛”,当前词为“足”的概率。图6中W(t)指示的为“足”的信息;t表示的自然语言中第t个字,t+1为“足”前一个字符。关联第t个字符前后的字符,得到第t个字符的语义描述或为每一个语义描述的概率。
通过1.2中模型通过神经网络训练得到每个字符的一个P维的向量描述。所述P为不小于2的整数,在本示例中所述P的取值可为20、30、50、80、100或150或200等取值。这样的话,生成的第一语义向量包括P个元素,为P维度的向量。
二、深度混合语义模型训练
2.1)大规模标注语料集:标注语料集为场景构建完成后,针对每一类场景,由人工标注的语料,如“武汉的天气如何”对应于“天气”,“附近的肯德基”对应于“地图”,从而获得训练样本。
领域知识库:实体词库,如果地址信息、音乐歌名、歌手等等,将知识库按所属的场景构建成训练语料,作为模型训练的输入数据
2.2)深度混合语义分类模型,这里的深度混合语义模型可如图7所示。
语义描述:
对训练语料的字符通过查询字符库中的语义表查表找到对应的语义向量,构建语义矩阵作为模型的输入。
字卷积网:
对语义矩阵使用大小分别为N个字符的卷积窗口执行卷积操作,生成卷积向量,卷积向量可用于描述由字组成的词的语义描述,获取不同组合的不同描述,作为后续网络的输入。在在线应用时,这些不同的组合会有不同的权重,也就反应了该组合对场景的重要程度,作为提取场景关键信息的依据。这里的N的取值依次为1、2、3及4等取值。
高速连接网:
对字卷积网生成的组合语义描述,使用高速连接网进行语义混合,对语义向量进行一次混合重计算,达到语义扩展的效果。
长短记忆网(LSTM):
自然语言描述的语义具有跳跃性、依赖性,即描述的每个组成部分是具有相互依赖关系的,而字卷积网提取的是局部信息,而未关注这种长程依赖关系。将字卷积网生成的语义向量序列输入到长短记忆网中,提取这种语义的依赖关系,最终生成一个标注语料的语义向量描述,作为分类器的输入。
分类器:
分类器采用Softmax算法对长短记忆网生成的语义向量生成场景预测,并和人工标注的场景分类进行比较,计算误差并将误差反向更新到整个模型中进行训练。
使用标注语料对深度混合语义模型进行迭代训练,收敛达到预定的预测精度后得到模型用于在线预测。
三、在线应用。
利用训练得到的字符库查询自然语言中各个字符的语义描述,生成字符语义向量,利用深度混合语义模型加载构建一个在线服务,对于用户输入的自然语言描述,按照深度混合语义模型的训练过程相同的步骤输出场景分类(不做误差更新),同时根据字卷积网的权重提取描述场景的关键信息,作为最后的输出参数,提供给场景服务进行检索,返回最终展现结果。
在一些示例中为了提升后续提取精确度,还会进行字符库及神经网络的迭代更新。在线服务在用户使用过程会产生点击行为,通过日志分析出相应的点击流数据,对模型进行再训练调优。
在本示例中所述深度混合语义模型,为前述神经网络的一种。
示例三:
如图8所示,本示例提供一种自然语言的语义提取装置的一个可选的硬件结构示意图,包括处理器11、输入/输出接口13(例如显示屏、触摸屏、扬声器),存储介质14以及网络接口12,组件可以经系统总线15连接通信。相应地,存储介质14中均存储有用于执行本发明实施例记载的自然语言的语义提取方法可执行指令。图8中示出的各硬件模块可根据需要部分实施、全部实施或实施其他的硬件模块,各类型硬件模块的数量可以为一个或多个,各硬件模块可以在同一地理位置实施,或者分布在不同的地理位置实施,可以用于执行上述图1或图2所示的自然语言的语义提取方法的至少之一。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种自然语言的语义提取方法,其特征在于,包括:
在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;
神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;
获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;
选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
2.根据权利要求1所述的方法,其特征在于,
所述神经网络组合排列所述第一语义向量获得第二语义向量,包括:
根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。
3.根据权利要求2所述的方法,其特征在于,
所述根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,包括:
利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。
4.根据权利要求2所述的方法,其特征在于,
所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:
排列组合所述第二语义向量,得到第三语义向量;
根据所述第二语义向量的语义描述获得的所述权重向量;
根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。
5.根据权利要求4所述的方法,其特征在于,
所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,包括:
利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。
6.根据权利要求5所述的方法,其特征在于,
所述根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:
根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;
根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。
7.根据权利要求1至6任一项所述的方法,其特征在于,
所述神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量,包括:
将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;
所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:
将所述卷积向量输入到高速连接网,生成混合向量;
将所述混合向量输入到长短记忆网,生成依赖关系向量;
所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:
将所述依赖关系向量输入到分类器,获得所述分类结果;
根据所述分类结果输出所述语义意图;
基于所述权重向量中权重输出所述关键信息。
8.根据权利要求1至6任一项所述的方法,其特征在于,
所述方法还包括:
预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;
利用样本数据训练所述神经网络;
获取所述神经网络的运行日志;
根据所述运行日志校正所述神经网络。
9.根据权利要求8所述的方法,其特征在于,
所述预先生成所述字符库,包括:
获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;
获得所述字符的语义描述;
建立所述字符与所述字符的语义描述的所述语义表。
10.根据权利要求8所述的方法,其特征在于,
所述获得所述字符的语义描述,包括:
从预定渠道获取文本资料;
从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述。
11.一种自然语言的语义提取装置,其特征在于,包括:
查询单元,用于在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;
第一获取单元,用于神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;
第二获取单元,用于获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;
选择确定单元,用于选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。
12.根据权利要求11所述的装置,其特征在于,
所述第一获取单元,具体用于根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。
13.根据权利要求12所述的装置,其特征在于,
所述第一获取单元,具体用于利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。
14.根据权利要求11所述的装置,其特征在于,
所述第二获取单元,具体用于排列组合所述第二语义向量,得到第三语义向量;根据所述第二语义向量的语义描述获得的所述权重向量;根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。
15.根据权利要求14所述的装置,其特征在于,
所述选择确定单元,具体用于利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。
16.根据权利要求15所述的装置,其特征在于,
所述选择确定单元,具体用于根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。
17.根据权利要求11至16任一项所述的装置,其特征在于,
所述第一获取单元,具体用于将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;
所述第二获取单元,具体用于将所述卷积向量输入到高速连接网,生成混合向量;将所述混合向量输入到长短记忆网,生成依赖关系向量;
所述选择确定单元,具体用于将所述依赖关系向量输入到分类器,获得所述分类结果;根据所述分类结果输出所述语义意图;基于所述权重向量中权重输出所述关键信息。
18.根据权利要求11至16任一项所述的装置,其特征在于,
所述装置还包括:
生成单元,用于预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;
训练单元,用于利用样本数据训练所述神经网络;
第三获取单元,用于获取所述神经网络的运行日志;
校正单元,用于根据所述运行日志校正所述神经网络。
19.根据权利要求18所述的装置,其特征在于,
所述生成单元,具体用于获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;获得所述字符的语义描述;建立所述字符与所述字符的语义描述的所述语义表。
20.根据权利要求18所述的装置,其特征在于,
所述生成单元,具体用于从预定渠道获取文本资料;从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710121713.7A CN108287858B (zh) | 2017-03-02 | 2017-03-02 | 自然语言的语义提取方法及装置 |
PCT/CN2018/075375 WO2018157703A1 (zh) | 2017-03-02 | 2018-02-06 | 自然语言的语义提取方法及装置和计算机存储介质 |
TW107106425A TWI677796B (zh) | 2017-03-02 | 2018-02-26 | 自然語言的語義提取方法及裝置和電腦儲存介質 |
US16/426,032 US11113234B2 (en) | 2017-03-02 | 2019-05-30 | Semantic extraction method and apparatus for natural language, and computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710121713.7A CN108287858B (zh) | 2017-03-02 | 2017-03-02 | 自然语言的语义提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108287858A true CN108287858A (zh) | 2018-07-17 |
CN108287858B CN108287858B (zh) | 2021-08-10 |
Family
ID=62831516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710121713.7A Active CN108287858B (zh) | 2017-03-02 | 2017-03-02 | 自然语言的语义提取方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11113234B2 (zh) |
CN (1) | CN108287858B (zh) |
TW (1) | TWI677796B (zh) |
WO (1) | WO2018157703A1 (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241524A (zh) * | 2018-08-13 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN109492103A (zh) * | 2018-11-09 | 2019-03-19 | 北京三快在线科技有限公司 | 标签信息获取方法、装置、电子设备及计算机可读介质 |
CN110458162A (zh) * | 2019-07-25 | 2019-11-15 | 上海兑观信息科技技术有限公司 | 一种智能提取图像文字信息的方法 |
CN110727428A (zh) * | 2019-12-19 | 2020-01-24 | 杭州健戎潜渊科技有限公司 | 一种转换业务逻辑层代码的方法、装置和电子设备 |
CN111046674A (zh) * | 2019-12-20 | 2020-04-21 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111062206A (zh) * | 2018-10-16 | 2020-04-24 | 株式会社理光 | 一种子词单元的拆分方法、装置及计算机可读存储介质 |
CN111078842A (zh) * | 2019-12-31 | 2020-04-28 | 北京每日优鲜电子商务有限公司 | 查询结果的确定方法、装置、服务器及存储介质 |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
CN111354354A (zh) * | 2018-12-20 | 2020-06-30 | 深圳市优必选科技有限公司 | 一种基于语义识别的训练方法、训练装置及终端设备 |
CN111368918A (zh) * | 2020-03-04 | 2020-07-03 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111401034A (zh) * | 2018-12-28 | 2020-07-10 | 深圳市优必选科技有限公司 | 文本的语义分析方法、语义分析装置及终端 |
CN111460169A (zh) * | 2020-03-27 | 2020-07-28 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111737468A (zh) * | 2020-06-23 | 2020-10-02 | 中国平安人寿保险股份有限公司 | 短语聚类方法、装置、设备及存储介质 |
CN111930942A (zh) * | 2020-08-07 | 2020-11-13 | 腾讯云计算(长沙)有限责任公司 | 文本分类方法、语言模型训练方法、装置及设备 |
CN112395885A (zh) * | 2020-11-27 | 2021-02-23 | 安徽迪科数金科技有限公司 | 短文本语义理解模板生成方法、语义理解处理方法及装置 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112580352A (zh) * | 2021-03-01 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN114580410A (zh) * | 2020-11-30 | 2022-06-03 | 财团法人工业技术研究院 | 文件语句概念标注系统及其训练方法与标注方法 |
CN114997162A (zh) * | 2022-05-26 | 2022-09-02 | 中国工商银行股份有限公司 | 一种训练数据提取方法和装置 |
CN117332788A (zh) * | 2023-11-30 | 2024-01-02 | 山东同其万疆科技创新有限公司 | 一种基于英语口语文本的语义分析方法 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10572607B1 (en) * | 2018-09-27 | 2020-02-25 | Intuit Inc. | Translating transaction descriptions using machine learning |
CN110162749B (zh) * | 2018-10-22 | 2023-07-21 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109558576B (zh) * | 2018-11-05 | 2023-05-23 | 中山大学 | 一种基于自注意力机制的标点符号预测方法 |
CN110162593B (zh) * | 2018-11-29 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
CN110046346B (zh) * | 2019-03-18 | 2023-07-25 | 广东小天才科技有限公司 | 一种语料意图监控的方法和装置、终端设备 |
TWI701620B (zh) * | 2019-03-21 | 2020-08-11 | 洽吧智能股份有限公司 | 文件資訊提取歸檔系統 |
CN111753822B (zh) * | 2019-03-29 | 2024-05-24 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
US10943068B2 (en) * | 2019-03-29 | 2021-03-09 | Microsoft Technology Licensing, Llc | N-ary relation prediction over text spans |
CN110222168B (zh) * | 2019-05-20 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种数据处理的方法及相关装置 |
CN110598206B (zh) * | 2019-08-13 | 2023-04-07 | 平安国际智慧城市科技股份有限公司 | 文本语义识别方法、装置、计算机设备和存储介质 |
KR20210032105A (ko) * | 2019-09-16 | 2021-03-24 | 한국전자통신연구원 | 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치 |
CN110868315B (zh) * | 2019-09-23 | 2022-11-01 | 中移(杭州)信息技术有限公司 | 一种北向接口的信息处理方法 |
CN111027331B (zh) * | 2019-12-05 | 2022-04-05 | 百度在线网络技术(北京)有限公司 | 用于评估翻译质量的方法和装置 |
CN111160042B (zh) * | 2019-12-31 | 2023-04-28 | 重庆觉晓科技有限公司 | 一种文本语义解析方法和装置 |
CN113360751B (zh) * | 2020-03-06 | 2024-07-09 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和介质 |
CN111400340B (zh) * | 2020-03-12 | 2024-01-09 | 杭州城市大数据运营有限公司 | 一种自然语言处理方法、装置、计算机设备和存储介质 |
CN111597779B (zh) * | 2020-04-23 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
CN111625635B (zh) * | 2020-05-27 | 2023-09-29 | 北京百度网讯科技有限公司 | 问答处理方法、装置、设备及存储介质 |
CN111539223B (zh) * | 2020-05-29 | 2023-08-18 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111897965B (zh) * | 2020-09-29 | 2021-01-01 | 北京三快在线科技有限公司 | 话题生成方法、装置、存储介质和电子设备 |
CN112562686B (zh) * | 2020-12-10 | 2022-07-15 | 青海民族大学 | 一种使用神经网络的零样本语音转换语料预处理方法 |
CN112559687B (zh) * | 2020-12-15 | 2024-07-30 | 中国平安人寿保险股份有限公司 | 问题识别及查询方法、装置、电子设备及存储介质 |
CN112951235B (zh) * | 2021-01-27 | 2022-08-16 | 北京云迹科技股份有限公司 | 一种语音识别方法及装置 |
CN112687328B (zh) * | 2021-03-12 | 2021-08-31 | 北京贝瑞和康生物技术有限公司 | 确定临床描述信息的表型信息的方法、设备和介质 |
CN113065360B (zh) * | 2021-04-16 | 2023-02-07 | 平安国际智慧城市科技股份有限公司 | 词语语义模型的构建方法、装置、计算机设备及存储介质 |
CN113326693B (zh) * | 2021-05-28 | 2024-04-16 | 智者四海(北京)技术有限公司 | 一种基于词粒度的自然语言模型的训练方法与系统 |
CN113569577B (zh) * | 2021-06-07 | 2024-04-05 | 北京微智信业科技有限公司 | 一种基于自然语言语义分析的文本识别方法 |
CN113420566B (zh) * | 2021-07-16 | 2022-11-08 | 山东浪潮科学研究院有限公司 | 一种长文语义合理性判断方法、设备及介质 |
CN113626602A (zh) * | 2021-08-19 | 2021-11-09 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
US20230237274A1 (en) * | 2022-01-27 | 2023-07-27 | International Business Machines Corporation | Explainable passage classification |
CN114678029B (zh) * | 2022-05-27 | 2022-09-02 | 深圳市人马互动科技有限公司 | 语音处理方法、系统、计算机可读存储介质及程序产品 |
KR20240018229A (ko) * | 2022-08-02 | 2024-02-13 | 김민구 | 시내퍼 모델을 이용한 자연어 처리 시스템 및 방법 |
CN115826627A (zh) * | 2023-02-21 | 2023-03-21 | 白杨时代(北京)科技有限公司 | 一种编队指令的确定方法、系统、设备及存储介质 |
CN118245022B (zh) * | 2024-05-29 | 2024-08-06 | 竞跃数字科技(山东)有限公司 | 基于低代码平台的半自动需求建模方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474065A (zh) * | 2013-09-24 | 2013-12-25 | 贵阳世纪恒通科技有限公司 | 基于自动分类技术的语音意图判定识别方法 |
WO2014083945A1 (ja) * | 2012-11-30 | 2014-06-05 | 三菱電機株式会社 | 意図推定装置および意図推定方法 |
CN103942204A (zh) * | 2013-01-18 | 2014-07-23 | 佳能株式会社 | 用于挖掘意图的方法和设备 |
CN104424216A (zh) * | 2013-08-23 | 2015-03-18 | 佳能株式会社 | 用于意图挖掘的方法和设备 |
US20150339590A1 (en) * | 2014-05-21 | 2015-11-26 | Yahoo! Inc. | Synthetic question formulation |
CN105335398A (zh) * | 2014-07-18 | 2016-02-17 | 华为技术有限公司 | 一种服务推荐方法及终端 |
CN106372107A (zh) * | 2016-08-19 | 2017-02-01 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317507A (en) * | 1990-11-07 | 1994-05-31 | Gallant Stephen I | Method for document retrieval and for word sense disambiguation using neural networks |
US5325298A (en) * | 1990-11-07 | 1994-06-28 | Hnc, Inc. | Methods for generating or revising context vectors for a plurality of word stems |
US5224040A (en) * | 1991-03-12 | 1993-06-29 | Tou Julius T | Method for translating chinese sentences |
WO2002057946A1 (en) * | 2001-01-18 | 2002-07-25 | The Board Of Trustees Of The University Of Illinois | Method for optimizing a solution set |
WO2002073451A2 (en) * | 2001-03-13 | 2002-09-19 | Intelligate Ltd. | Dynamic natural language understanding |
US6901411B2 (en) * | 2002-02-11 | 2005-05-31 | Microsoft Corporation | Statistical bigram correlation model for image retrieval |
CA2498728A1 (en) * | 2004-02-27 | 2005-08-27 | Dictaphone Corporation | A system and method for normalization of a string of words |
US20060248071A1 (en) * | 2005-04-28 | 2006-11-02 | Xerox Corporation | Automated document localization and layout method |
US7672987B2 (en) * | 2005-05-25 | 2010-03-02 | Siemens Corporate Research, Inc. | System and method for integration of medical information |
US8356245B2 (en) * | 2007-01-05 | 2013-01-15 | International Business Machines Corporation | System and method of automatically mapping a given annotator to an aggregate of given annotators |
CN101226595B (zh) * | 2007-01-15 | 2012-05-23 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
US9075825B2 (en) * | 2011-09-26 | 2015-07-07 | The University Of Kansas | System and methods of integrating visual features with textual features for image searching |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
US20180204184A1 (en) * | 2014-03-26 | 2018-07-19 | Unanimous A. I., Inc. | Parallelized sub-factor aggregation in real-time swarm-based collective intelligence systems |
US10712929B2 (en) * | 2014-03-26 | 2020-07-14 | Unanimous A. I., Inc. | Adaptive confidence calibration for real-time swarm intelligence systems |
US20180365710A1 (en) * | 2014-09-26 | 2018-12-20 | Bombora, Inc. | Website interest detector |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
WO2016134183A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and methods for neural language modeling |
CN104834735B (zh) * | 2015-05-18 | 2018-01-23 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
US10257140B1 (en) * | 2015-08-04 | 2019-04-09 | Google Llc | Content sharing to represent user communications in real-time collaboration sessions |
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN105894088B (zh) * | 2016-03-25 | 2018-06-29 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
US20180082017A1 (en) * | 2016-09-21 | 2018-03-22 | Helsingin Yliopisto | Method and apparatus for information retrieval |
US9959247B1 (en) * | 2017-02-17 | 2018-05-01 | Google Llc | Permuting in a matrix-vector processor |
CN108509408B (zh) * | 2017-02-27 | 2019-11-22 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
US10600406B1 (en) * | 2017-03-20 | 2020-03-24 | Amazon Technologies, Inc. | Intent re-ranker |
-
2017
- 2017-03-02 CN CN201710121713.7A patent/CN108287858B/zh active Active
-
2018
- 2018-02-06 WO PCT/CN2018/075375 patent/WO2018157703A1/zh active Application Filing
- 2018-02-26 TW TW107106425A patent/TWI677796B/zh active
-
2019
- 2019-05-30 US US16/426,032 patent/US11113234B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014083945A1 (ja) * | 2012-11-30 | 2014-06-05 | 三菱電機株式会社 | 意図推定装置および意図推定方法 |
CN103942204A (zh) * | 2013-01-18 | 2014-07-23 | 佳能株式会社 | 用于挖掘意图的方法和设备 |
CN104424216A (zh) * | 2013-08-23 | 2015-03-18 | 佳能株式会社 | 用于意图挖掘的方法和设备 |
CN103474065A (zh) * | 2013-09-24 | 2013-12-25 | 贵阳世纪恒通科技有限公司 | 基于自动分类技术的语音意图判定识别方法 |
US20150339590A1 (en) * | 2014-05-21 | 2015-11-26 | Yahoo! Inc. | Synthetic question formulation |
CN105335398A (zh) * | 2014-07-18 | 2016-02-17 | 华为技术有限公司 | 一种服务推荐方法及终端 |
CN106372107A (zh) * | 2016-08-19 | 2017-02-01 | 中兴通讯股份有限公司 | 自然语言文句库的生成方法及装置 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241524A (zh) * | 2018-08-13 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN111062206B (zh) * | 2018-10-16 | 2023-11-21 | 株式会社理光 | 一种子词单元的拆分方法、装置及计算机可读存储介质 |
CN111062206A (zh) * | 2018-10-16 | 2020-04-24 | 株式会社理光 | 一种子词单元的拆分方法、装置及计算机可读存储介质 |
CN109492103A (zh) * | 2018-11-09 | 2019-03-19 | 北京三快在线科技有限公司 | 标签信息获取方法、装置、电子设备及计算机可读介质 |
US11947911B2 (en) | 2018-12-07 | 2024-04-02 | Tencent Technology (Shenzhen) Company Limited | Method for training keyword extraction model, keyword extraction method, and computer device |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
CN111354354B (zh) * | 2018-12-20 | 2024-02-09 | 深圳市优必选科技有限公司 | 一种基于语义识别的训练方法、训练装置及终端设备 |
CN111354354A (zh) * | 2018-12-20 | 2020-06-30 | 深圳市优必选科技有限公司 | 一种基于语义识别的训练方法、训练装置及终端设备 |
CN111401034A (zh) * | 2018-12-28 | 2020-07-10 | 深圳市优必选科技有限公司 | 文本的语义分析方法、语义分析装置及终端 |
CN111401034B (zh) * | 2018-12-28 | 2023-10-10 | 深圳市优必选科技有限公司 | 文本的语义分析方法、语义分析装置及终端 |
CN110458162A (zh) * | 2019-07-25 | 2019-11-15 | 上海兑观信息科技技术有限公司 | 一种智能提取图像文字信息的方法 |
CN110458162B (zh) * | 2019-07-25 | 2023-06-23 | 上海兑观信息科技技术有限公司 | 一种智能提取图像文字信息的方法 |
CN110727428A (zh) * | 2019-12-19 | 2020-01-24 | 杭州健戎潜渊科技有限公司 | 一种转换业务逻辑层代码的方法、装置和电子设备 |
CN111046674A (zh) * | 2019-12-20 | 2020-04-21 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111046674B (zh) * | 2019-12-20 | 2024-05-31 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111078842A (zh) * | 2019-12-31 | 2020-04-28 | 北京每日优鲜电子商务有限公司 | 查询结果的确定方法、装置、服务器及存储介质 |
CN111368918A (zh) * | 2020-03-04 | 2020-07-03 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111368918B (zh) * | 2020-03-04 | 2024-01-05 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN111460169B (zh) * | 2020-03-27 | 2023-06-02 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111460169A (zh) * | 2020-03-27 | 2020-07-28 | 科大讯飞股份有限公司 | 语义表达式生成方法、装置及设备 |
CN111737468A (zh) * | 2020-06-23 | 2020-10-02 | 中国平安人寿保险股份有限公司 | 短语聚类方法、装置、设备及存储介质 |
CN111930942A (zh) * | 2020-08-07 | 2020-11-13 | 腾讯云计算(长沙)有限责任公司 | 文本分类方法、语言模型训练方法、装置及设备 |
CN111930942B (zh) * | 2020-08-07 | 2023-08-15 | 腾讯云计算(长沙)有限责任公司 | 文本分类方法、语言模型训练方法、装置及设备 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112395885A (zh) * | 2020-11-27 | 2021-02-23 | 安徽迪科数金科技有限公司 | 短文本语义理解模板生成方法、语义理解处理方法及装置 |
CN112395885B (zh) * | 2020-11-27 | 2024-01-26 | 安徽迪科数金科技有限公司 | 短文本语义理解模板生成方法、语义理解处理方法及装置 |
CN114580410A (zh) * | 2020-11-30 | 2022-06-03 | 财团法人工业技术研究院 | 文件语句概念标注系统及其训练方法与标注方法 |
CN112580352A (zh) * | 2021-03-01 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN114997162A (zh) * | 2022-05-26 | 2022-09-02 | 中国工商银行股份有限公司 | 一种训练数据提取方法和装置 |
CN114997162B (zh) * | 2022-05-26 | 2024-06-14 | 中国工商银行股份有限公司 | 一种训练数据提取方法和装置 |
CN117332788B (zh) * | 2023-11-30 | 2024-03-01 | 山东同其万疆科技创新有限公司 | 一种基于英语口语文本的语义分析方法 |
CN117332788A (zh) * | 2023-11-30 | 2024-01-02 | 山东同其万疆科技创新有限公司 | 一种基于英语口语文本的语义分析方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018157703A1 (zh) | 2018-09-07 |
US11113234B2 (en) | 2021-09-07 |
CN108287858B (zh) | 2021-08-10 |
TW201833793A (zh) | 2018-09-16 |
TWI677796B (zh) | 2019-11-21 |
US20190278846A1 (en) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287858A (zh) | 自然语言的语义提取方法及装置 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN102831177B (zh) | 语句纠错方法及其系统 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
CN103870000A (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN105956053A (zh) | 一种基于网络信息的搜索方法及装置 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN107993636B (zh) | 基于递归神经网络的乐谱建模与生成方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN112364125B (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN112069833B (zh) | 日志分析方法、日志分析装置及电子设备 | |
CN117709465A (zh) | 一种基于大语言模型的关键信息抽取方法 | |
CN117332062A (zh) | 一种数据处理方法和相关装置 | |
CN110516236B (zh) | 一种社交短文本细粒度情感采集方法 | |
CN113553844B (zh) | 一种基于前缀树特征与卷积神经网络的领域识别方法 | |
CN114969347A (zh) | 缺陷查重实现方法、装置、终端设备及存储介质 | |
CN109388800B (zh) | 一种基于加窗词向量特征的短文本情感分析方法 | |
CN115526177A (zh) | 对象关联模型的训练 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221024 Address after: 430000, No.1, Yangguang fifth road, Miaoshan, Jiangxia Economic Development Zone, Wuhan City, Hubei Province Patentee after: Tencent Technology (Wuhan) Co.,Ltd. Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |