CN110347793A - 一种中文语义解析方法及装置 - Google Patents
一种中文语义解析方法及装置 Download PDFInfo
- Publication number
- CN110347793A CN110347793A CN201910577678.9A CN201910577678A CN110347793A CN 110347793 A CN110347793 A CN 110347793A CN 201910577678 A CN201910577678 A CN 201910577678A CN 110347793 A CN110347793 A CN 110347793A
- Authority
- CN
- China
- Prior art keywords
- target text
- word
- chinese
- vector
- name entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 177
- 238000003780 insertion Methods 0.000 claims abstract description 12
- 230000037431 insertion Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 101100005554 Mus musculus Ccl20 gene Proteins 0.000 claims description 5
- 241000039077 Copula Species 0.000 claims description 2
- 230000036541 health Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种中文语义解析方法及装置,包括:获取中文目标文本,利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词;向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将词向量进行独热编码one‑hot,得到词向量的离散特征向量;采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量;将连续特征向量和离散特征向量进行语义解析,得到中文目标文本的第一语义解析结果;结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果。本发明提高了对中文目标文本的抽象语义的解析能力。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种中文语义解析方法及装置。
背景技术
近年来,语义解析领域成为了自然语言处理中的研究热点,同时神经网络技术也用在了自然语言处理的各个方面,因此结合神经网络技术的高效表达能力而构建的语义解析研究十分重要。
通过将自然语言解析成各种设计好的语义表示一直以来都是自然语言处理的重要研究内容,常见的语义表示结构有:基于lambda表达式的逻辑语义表示、基于组合范畴语法(CCG)的语法和语义表示和基于知识库的语义知识表示等。传统的语义解析方法通常使用SVM、线性回归、随机森林等传统的机器学习方法对自然语言句子进行解析;这些方法在一定程度上能获得符合逻辑的语义表示,但是需要事先定义非常复杂的启发式规则和外部知识并且传统的语义表示所包含的语义比较少。抽象语义表示(AMR),是近年来新提出的一种语义表示,其将自然语言句子表示成富含语义信息的有向无环图;该结构的目标是从句子中抽取丰富的语义信息构建一个支持不同语言的统一结构表示来为其他潜在的自然语言处理任务提供帮助,例如:机器翻译、文本生成、句子匹配等。如何能够提升语义解析的能力,是当前的一个研究方向。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种中文语义解析方法及装置。
本发明解决上述技术问题的技术方案如下:
一种中文语义解析方法,包括:
S1、获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;
向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;
采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;
S2、将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;
S3、结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。
本发明的有益效果是:通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词,向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量,采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量,将得到的离散特征和连续特征进行语义解析,得到中文目标文本的第一语义解析结果,结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析,提高了对中文目标文本的语义的解析能力。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,所述步骤S2中的所述解析过程具体包括:
将所述连续特征向量和所述离散特征向量放入堆中;
将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;
根据所述分类结果,确定并执行所述堆和栈所要执行的操作。
进一步地,所述根据所述分类结果,确定并执行所述堆和栈所要执行的操作,具体包括:
当所述分类结果为移动时,执行Shift操作,包括将所述堆中的第一个特征向量放入栈中;
当所述分类结果为弹出时,执行Larc操作,包括将所述栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从所述栈中弹出连接后的特征向量;
当所述分类结果为连接时,执行RArc操作,包括将所述栈中前两个特征向量使用关系词按照后一个词连接前一个词的顺序;
当所述分类结果为减少时,执行Reduce操作,包括将所述栈中的第一个特征向量弹出;
当所述分类结果为去环时,执行ReEnt操作,包括将所述栈中的第一个特征向量放入所述堆的底部。
进一步地,所述步骤S2中得到第一语义解析结果具体包括:
在所述要执行的操作完成后,所述堆和栈同时为空时,所述堆和栈中的所述连续特征和所述离散特征处理完成,得到所述中文目标文本的第一语义解析结果。
进一步地,所述S1中获取中文目标文本,向量化组成所述中文目标文本的各词,得到词向量,具体包括:
通过句法分析工具得到所述中文目标文本中的词语、词语的词性、所述词语和词性与所述中文目标文本的依存关系、命名实体词及所述命名实体词之间的关系词,作为所述中文目标文本的词向量。
进一步的,所述步骤S3具体包括:
通过知识库识别所述中文目标文本的命名实体词及命名实体词之间的关系词;
根据所述中文目标文本的命名实体词及命名实体词之间的关系词,将所述中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正,得到所述中文目标文本的第二语义解析结果。
进一步的,所述知识库包括命名实体和命名实体间的关系。
采用上述进一步方案的有益效果是:设置栈和堆,将中文目标文本中的词向量的连续特征向量和离散特征向量输入栈和堆中,依据softmax分类器对特征向量的分类结果,进行不同的操作,直到最后完成了堆和栈的操作,得到中文目标文本的第一语义解析结果,通过知识库中的命名实体和命名实体间的关系,对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,增强了中文语义的解析能力。
本发明解决上述技术问题的另一种技术方案如下:
一种中文语义解析装置,包括:
分解模块,用于获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;
向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;
采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;
解析模块,用于将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;
修正模块,用于结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。
本发明的有益效果是:通过分解模块、解析模块和修正模块通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词,向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量,采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量,将得到的离散特征和连续特征进行语义解析,得到中文目标文本的第一语义解析结果,结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析,提高了对中文目标文本的语义的解析能力。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,所述解析模块,具体用于将所述连续特征向量和所述离散特征向量放入堆中;
将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;
根据所述分类结果,确定并执行所述堆和栈所要执行的操作。
进一步地,当所述分类结果为移动时,执行Shift操作,包括将所述堆中的第一个特征向量放入栈中;
当所述分类结果为弹出时,执行Larc操作,包括将所述栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从所述栈中弹出连接后的特征向量;
当所述分类结果为连接时,执行RArc操作,包括将所述栈中前两个特征向量使用关系词将后一个词连接前一个词;
当所述分类结果为减少时,执行Reduce操作,包括将所述栈中的第一个特征向量弹出;
当所述分类结果为去环时,执行ReEnt操作,包括将所述栈中的第一个特征向量放入所述堆的底部。
进一步地,所述解析模块,还具体用于在所述要执行的操作完成后,所述堆和栈同时为空时,所述堆和栈中的所述连续特征向量和所述离散特征向量处理完成,得到所述中文目标文本的第一语义解析结果。
进一步地,所述分解模块,具体用于通过句法分析工具得到所述中文目标文本中的词语、词语的词性、所述词语和词性与所述中文目标文本的依存关系、命名实体词及所述命名实体词之间的关系词,作为所述中文目标文本的词向量。
进一步地,所述修正模块,具体用于通过知识库识别所述中文目标文本的命名实体词及命名实体词之间的关系词;
根据所述中文目标文本的命名实体词及命名实体词之间的关系词,将所述中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正,得到所述中文目标文本的第二语义解析结果。
在上述技术方案的基础上,本发明还提供了一种存储介质,存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述技术方案所述的一种中文语义解析方法。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述一种中文语义解析方法的流程示意图;
图2为本发明所述一种中文语义解析装置的模块结构图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1所示,一种中文语义解析方法的流程示意图,包括:
S1、获取中文目标文本,利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词;
向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将词向量进行独热编码one-hot,得到词向量的离散特征向量;
采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量;
应理解,在本实施例中,句法分析工具采用CoreNLP,词嵌入工具采用word2vec,独热编码one-hot可以通过建立字典,字典包括词性和命名实体。将建立的词语、词性及词语和词性与中文目标文本的依存关系建立依存树,采用深度搜索算法遍历树的每一个节点,得到父节点和子节点的离散特征,这些离散特征就是词向量的离散特征向量。因此,词向量的离散特征向量包括词语、词性及词语和词性的与中文目标文本的依存关系,中文目标文本中的词向量的离散特征向量是词向量的高维向量特征。
词向量的连续特征向量是通过Word Embedding方法实现中文语句的字级别语义编码,通过机器学习的方法将中文单个词语映射到低维向量,得到中文目标文本中词向量的连续特征向量,其中单个词语的低维向量就是中文目标文本中的词向量的连续特征向量。
S2、将连续特征向量和离散特征向量进行语义解析,得到中文目标文本的第一语义解析结果。
S3、结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果。
通过本实施例向量化中文目标文本中的词语,得到词向量,通过独热编码one-hot得到词向量的离散特征向量,通过词嵌入Word Embedding技术得到词向量的连续特征向量,将得到的离散特征和连续特征进行语义解析,得到中文目标文本的第一语义解析结果,结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,结合中文目标文本中的词向量的离散特征向量和连续特征向量,提高了对中文目标文本的语义的解析能力。
基于上述实施例,还包括,进一步地,将连续特征向量和离散特征向量,放入堆中,将堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果,根据分类结果,确定并执行堆和栈所要执行的操作。
应理解,本实施例中的softmax分类器是可基于训练数据提前进行训练,此外,在训练时设置softmax分类器的分类结果,将特征向量进行分类,得到移动、弹出、连接、减少、去环等分类结果。
进一步地,当分类结果为移动时,执行Shift操作,包括将堆中的第一个特征向量放入栈中;
当分类结果为弹出时,执行Larc操作,包括将栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从栈中弹出连接后的特征向量;
当分类结果为连接时,执行RArc操作,包括将栈中前两个特征向量使用关系词将后一个词连接前一个词;
当分类结果为减少时,执行Reduce操作,包括将栈中的第一个特征向量弹出;
当分类结果为去环时,执行ReEnt操作,包括将栈中的第一个特征向量放入堆的底部。
进一步地,在要执行的操作完成后,堆和栈同时为空时,堆和栈中的连续特征和离散特征处理完成,得到中文目标文本的第一语义解析结果。
应理解,本实施例中,栈作为一种数据结构,只能在一端进行插入和删除操作的特殊线性表,按照先进后出的原则进行存储数据。堆作为一种数据结构,是非线性数据结构,相当于一维数据,有两个直接后继节点。将所有的离散向量和连续向量放入堆中,其中离散向量和连续向量放入堆中的顺序按照先依次放置离散向量,再依次放置连续向量。
进一步地,通过句法分析器,得到中文目标文本中的词语、词语的词性及词语和词性与中文目标文本的依存关系,作为中文目标文本的词向量。
应理解,本实施例中不对具体的句法分析器做限制,可以根据实际使用采用不同的句法分析器。
进一步地,通过知识库识别中文目标文本的命名实体及命名实体间的关系;
根据中文目标文本的命名实体及命名实体间的关系,将中文目标文本的第一语义解析结果中的命名实体及命名实体间的关系进行改正,得到中文目标文本的第二语义解析结果。
进一步地,知识库包括命名实体和命名实体间的关系。
应理解,本实施例中的知识库包括命名实体和命名实体间的关系。其中,命名实体包括组织机构、政府部门、人名和专有名词等。
其中,修正过程包括:将第一语义解析结果中的命名实体和命名实体间的关系基于知识库进行补充完整,同时将错误的命名实体关系进行改正。
例如:如当中文文本信息是“张家界市卫生健康工作推进会议召开,传达省卫生健康委上半年卫生健康推进会议精神”获取文本信息中的命名实体词和命名实体词之间的关系词,张家界市、省、卫生健康委;
获取中文文本信息中的离散特征向量和连续特征向量,将离散特征向量放入堆中,输入softmax分类器,得到分类结果,已经分类结果,确定执行的操作,得到第一语义解析结果“张家界市召开卫生健康工作推进会议,传达省卫生健康委上半年精神”利用知识库,对第一语义解析结果中的命名实体和命名实体之间的关系进行修正,得到第二语义解析结果“张家界市召开卫生健康工作推进会议,传达湖南省卫生健康委上半年卫生健康推进会议精神。”
通过本实施例,设置栈和堆,将中文目标文本中的词向量的连续特征向量和离散特征向量输入栈和堆中,依据softmax分类器对特征向量的分类结果,进行不同的操作,直到最后完成了堆和栈的操作,得到中文目标文本的第一语义解析结果,通过知识库中的命名实体和命名实体间的关系,对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,提升了中文语义的解析速度,增强了中文语义的解析能力。
如图2所示,一种中文语义解析装置的模块结构图,包括:
分解模块,用于获取中文目标文本,利用句法分析工具获取中文目标文本中所包含的命名实体词及命名实体词之间的关系词;
向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将词向量进行独热编码one-hot,得到词向量的离散特征向量;
采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量;
解析模块,用于将连续特征向量和离散特征向量进行语义解析,得到中文目标文本的第一语义解析结果;
修正模块,用于结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果。
基于上述实施例通过分解模块、解析模块和修正模块通过句法分析工具获取中文目标文本中的命名实体词和命名实体词之间的关系词,向量化组成中文目标文本的各词语和命名实体词及命名实体词之间的关系词,得到词向量,将词向量进行独热编码one-hot,得到词向量的离散特征向量,采用词嵌入工具对中文目标文本进行语义特征抽取,得到中文目标文本中词向量的连续特征向量,将得到的离散特征和连续特征进行语义解析,得到中文目标文本的第一语义解析结果,结合知识库对第一语义解析结果进行修正,得到中文目标文本的第二语义解析结果,结合获取到的离散特征向量和连续特征向量就中文目标文本进行语义解析,提高了对中文目标文本的语义的解析能力。
进一步地,解析模块,具体用于将连续特征向量和离散特征向量放入堆中;
将堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;
根据分类结果,确定并执行堆和栈所要执行的操作。
进一步地,当分类结果为移动时,执行Shift操作,包括将堆中的第一个特征向量放入栈中;
当分类结果为弹出时,执行Larc操作,包括将栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从栈中弹出连接后的特征向量;
当分类结果为连接时,执行RArc操作,包括将栈中前两个特征向量使用关系词将后一个词连接前一个词;
当分类结果为减少时,执行Reduce操作,包括将栈中的第一个特征向量弹出;
当分类结果为去环时,执行ReEnt操作,包括将栈中的第一个特征向量放入堆的底部。
进一步地,解析模块,还具体用于在要执行的操作完成后,堆和栈同时为空时,堆和栈中的连续特征向量和离散特征向量处理完成,得到中文目标文本的第一语义解析结果。
进一步地,分解模块,具体用于通过句法分析工具得到中文目标文本中的词语、词语的词性、词语和词性与中文目标文本的依存关系、命名实体词及命名实体词之间的关系词,作为中文目标文本的词向量。
进一步地,修正模块,具体用于通过知识库识别中文目标文本的命名实体词及命名实体词之间的关系词;
根据中文目标文本的命名实体词及命名实体词之间的关系词,将中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正,得到中文目标文本的第二语义解析结果。
此外,本发明还提供了一种存储介质,存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述实施例所述的一种中文语义解析方法。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种中文语义解析方法,其特征在于,包括:
S1、获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;
向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;
采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;
S2、将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;
S3、结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中的所述解析过程具体包括:
将所述连续特征向量和所述离散特征向量放入堆中;
将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;
根据所述分类结果,确定并执行所述堆和栈所要执行的操作。
3.根据权利要求2所述的方法,其特征在于,所述根据所述分类结果,确定并执行所述堆和栈所要执行的操作,具体包括:
当所述分类结果为移动时,执行Shift操作,包括将所述堆中的第一个特征向量放入栈中;
当所述分类结果为弹出时,执行Larc操作,包括将所述栈中的前两个特征向量使用关系词按照前一个词连接后一个词的顺序,从所述栈中弹出连接后的特征向量;
当所述分类结果为连接时,执行RArc操作,包括将所述栈中前两个特征向量使用关系词将后一个词连接前一个词;
当所述分类结果为减少时,执行Reduce操作,包括将所述栈中的第一个特征向量弹出;
当所述分类结果为去环时,执行ReEnt操作,包括将所述栈中的第一个特征向量放入所述堆的底部。
4.根据权利要求3所述的中文语义解析方法,其特征在于,所述步骤S2中得到第一语义解析结果具体包括:
在所述要执行的操作完成后,所述堆和栈同时为空时,所述堆和栈中的所述连续特征向量和所述离散特征向量处理完成,得到所述中文目标文本的第一语义解析结果。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述S1中获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词,具体包括:
通过句法分析工具得到所述中文目标文本中的词语、词语的词性、所述词语和词性与所述中文目标文本的依存关系、命名实体词及所述命名实体词之间的关系词,作为所述中文目标文本的词向量。
6.根据权利要求5所述的方法,其特征在于,所述步骤S3具体包括:
通过知识库识别所述中文目标文本的命名实体词及命名实体词之间的关系词;
根据所述中文目标文本的命名实体词及命名实体词之间的关系词,将所述中文目标文本的第一语义解析结果中的命名实体词及命名实体词间的关系词进行改正,得到所述中文目标文本的第二语义解析结果。
7.根据权利要求6所述的方法,其特征在于,
所述知识库包括命名实体和命名实体间的关系。
8.一种中文语义解析装置,其特征在于,包括:
分解模块,用于获取中文目标文本,利用句法分析工具获取所述中文目标文本中所包含的命名实体词及所述命名实体词之间的关系词;
向量化组成所述中文目标文本的各词语和所述命名实体词及所述命名实体词之间的关系词,得到词向量,将所述词向量进行独热编码one-hot,得到所述词向量的离散特征向量;
采用词嵌入工具对所述中文目标文本进行语义特征抽取,得到所述中文目标文本中词向量的连续特征向量;
解析模块,用于将所述连续特征向量和所述离散特征向量进行语义解析,得到所述中文目标文本的第一语义解析结果;
修正模块,用于结合知识库对所述第一语义解析结果进行修正,得到所述中文目标文本的第二语义解析结果。
9.根据权利要求8所述的装置,其特征在于,
所述解析模块,具体用于将所述连续特征向量和所述离散特征向量放入堆中;
将所述堆中的所有特征向量按照存储的顺序输入softmax分类器,得到分类结果;
根据所述分类结果,确定并执行所述堆和栈所要执行的操作。
10.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至7中任一项所述的一种中文语义解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577678.9A CN110347793A (zh) | 2019-06-28 | 2019-06-28 | 一种中文语义解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577678.9A CN110347793A (zh) | 2019-06-28 | 2019-06-28 | 一种中文语义解析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110347793A true CN110347793A (zh) | 2019-10-18 |
Family
ID=68177116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910577678.9A Pending CN110347793A (zh) | 2019-06-28 | 2019-06-28 | 一种中文语义解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347793A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160042A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本语义解析方法和装置 |
CN111737974A (zh) * | 2020-08-18 | 2020-10-02 | 北京擎盾信息科技有限公司 | 一种语句的语义抽象化表示方法及装置 |
CN113836922A (zh) * | 2021-08-19 | 2021-12-24 | 赢火虫信息科技(上海)有限公司 | 一种命名实体的纠错方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN109408804A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 舆情分析方法、系统、设备和存储介质 |
CN109684626A (zh) * | 2018-11-16 | 2019-04-26 | 深思考人工智能机器人科技(北京)有限公司 | 语义识别方法、模型、存储介质和装置 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
-
2019
- 2019-06-28 CN CN201910577678.9A patent/CN110347793A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN109408804A (zh) * | 2018-09-03 | 2019-03-01 | 平安科技(深圳)有限公司 | 舆情分析方法、系统、设备和存储介质 |
CN109684626A (zh) * | 2018-11-16 | 2019-04-26 | 深思考人工智能机器人科技(北京)有限公司 | 语义识别方法、模型、存储介质和装置 |
CN109871535A (zh) * | 2019-01-16 | 2019-06-11 | 四川大学 | 一种基于深度神经网络的法语命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
CHANGXING WU: ""Co-training for Implicit Discourse Relation Recognition Based on Manual and Distributed Features"", 《NEURAL PROCESSING LETTERS》, 23 January 2017 (2017-01-23), pages 1 - 18 * |
刘军: "《基于scikit-learn的机器学习算法与实践》", 东南大学出版社, pages: 164 * |
陈晓阳: ""基于深度学习的短文本语义相似度计算"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
陈晓阳: ""基于深度学习的短文本语义相似度计算"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 April 2016 (2016-04-15), pages 1 - 14 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160042A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本语义解析方法和装置 |
CN111160042B (zh) * | 2019-12-31 | 2023-04-28 | 重庆觉晓科技有限公司 | 一种文本语义解析方法和装置 |
CN111737974A (zh) * | 2020-08-18 | 2020-10-02 | 北京擎盾信息科技有限公司 | 一种语句的语义抽象化表示方法及装置 |
CN111737974B (zh) * | 2020-08-18 | 2020-12-04 | 北京擎盾信息科技有限公司 | 一种语句的语义抽象化表示方法及装置 |
CN113836922A (zh) * | 2021-08-19 | 2021-12-24 | 赢火虫信息科技(上海)有限公司 | 一种命名实体的纠错方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及系统 | |
US5895446A (en) | Pattern-based translation method and system | |
CN101937430B (zh) | 一种汉语句子中事件句式的抽取方法 | |
CN110347793A (zh) | 一种中文语义解析方法及装置 | |
CN101470701A (zh) | 支持基于有限状态机的语义规则的文本分析器及其方法 | |
Lonsdale et al. | Peppering knowledge sources with SALT: Boosting conceptual content for ontology generation | |
Philpot et al. | Semi-automatic construction of a general purpose ontology | |
Neumann | Applying explanation-based learning to control and speeding-up natural language generation | |
CN103678607B (zh) | 一种情感标注系统的构建方法 | |
Gardent et al. | RTG based surface realisation for TAG | |
Kulkarni et al. | Dependency parser for Sanskrit verses | |
JPH02112068A (ja) | テキスト簡略表示方式 | |
JP2997469B2 (ja) | 自然言語理解方法および情報検索装置 | |
KR100921563B1 (ko) | 의존 문법 구문 트리를 이용한 문장 요약 방법 | |
Probst | Automatically induced syntactic transfer rules for machine translation under a very limited data scenario | |
Spence et al. | Syntactic annotation of a Hupa text corpus | |
Menon et al. | A synchronised tree adjoining grammar for English to Tamil machine translation | |
CN113741900B (zh) | 一种前端页面应用的开发方法、装置及相关设备 | |
CN110457551B (zh) | 自然语言的语义递归表示系统的构造方法 | |
JP2004318344A (ja) | 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム | |
Ramalho et al. | Algebraic specification of documents | |
Gardent et al. | Paraphrastic grammars | |
Reeve | Integrating hidden markov models into semantic web annotation platforms | |
Détrez | Methods and tools for automating language engineering | |
Kornai et al. | Lexemes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |