CN109710937A - 依存句法树构建系统 - Google Patents
依存句法树构建系统 Download PDFInfo
- Publication number
- CN109710937A CN109710937A CN201811617007.2A CN201811617007A CN109710937A CN 109710937 A CN109710937 A CN 109710937A CN 201811617007 A CN201811617007 A CN 201811617007A CN 109710937 A CN109710937 A CN 109710937A
- Authority
- CN
- China
- Prior art keywords
- word
- context
- sentence
- syntax tree
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000012634 fragment Substances 0.000 claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 239000012141 concentrate Substances 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及语境核心词提取领域,具体为一种基于语境的依存句法树构建系统,其包括:获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树。实现了基于最小语境进行依存句法树的构建。
Description
技术领域
本发明涉及语境核心词提取领域,具体为一种基于语境的依存句法树构建系统。
背景技术
关键词提取领域有很多的研究成果,主要可以分为基于统计的方法、基于机器学习的方法与基于语义的方法。在基于语义相关性的关键词提取算法,通过词共现信息计算短语之间的语义相关度,将文件描绘成一个相关度图。基于语义分析的关键词提取方法虽然比前两种方法提取的关键词质量更高,但还存在着词义消歧的问题,难以获得最小语境。
基于上述技术问题,需要设计一种新的基于语境的依存句法树构建系统。
发明内容
本发明的目的是提供一种基于语境的依存句法树构建系统。
为了解决上述技术问题,本发明提供了一种基于语境的依存句法树构建系统,包括:
获取模块,获取句子;
切分模块,通过核心词判断将句子切分形成片段序列;
语境归属模块,判断片段序列之间的中间词的归属语境;
最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及
构建依存句法树模块,基于最小语境集合构建依存句法树。
进一步,所述获取模块适于获取句子,即
初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。
进一步,所述切分模块适于通过核心词判断将句子切分形成片段序列,即基于熵对比的语境核心词判断算法将句子切分形成片段序列,即
遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;
针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;
查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,count>累加;
针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n,m=n-1,获得语境共现频率向量Vi;
式中为其它词wj的共现频率,为其它词wj和词wi的共现次数;
基于公式计算出每个词wi的语境共现熵值H(Vi),完成整个文本的训练;
针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;
基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列。
进一步,所述语境归属模块适于判断片段序列之间的中间词的归属语境,即
相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。
进一步,所述切分模块适于通过核心词判断将句子切分形成片段序列,即基于入度和比较的语境核心词判断算法将句子切分形成片段序列,即将一个句子S′拆分成n′个词形成词集合WS′′;
遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语境共现频率向量Vi′′;式中:为其他词wj′′的共现频率,为其他词wj′′和词ωi′′的共现次数;
将语境共现频率向量Vi′′对应词集合WS′′中所有词的入度Vi′j′′,组成来源词为ωi′′的入度向量;Vi′j′′为来源词为ωi′′时,词ωi′′与词wj′′共现的次数占词wi′′与所有词共现次数的比例;
将各词的入度向量按序号排列成矩阵,形成对应句子S′的入度矩阵,序号中列序号为j′,行序号为i′,i′为来源词为ωi′′的入度向量,j′为对应词wj′′的入度;
针对入度矩阵中的每一列j′求和,则为对应词wj′′的入度和;
取入度和最大的词为句子S′的语境核心词;
基于各词的入度和按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和,则按拐点将折线图切分成各个片段,形成片段序列。
进一步,所述语境归属模块适于判断片段序列之间的中间词的归属语境,即
假设二个片段序列之间的词为wx′′,相邻二个片段序列的核心词分别为wy′′与wz′′,则判断Vz′x′′与Vy′x′′的大小,词wx′′归属入度较大的核心词对应的片段序列语境中,wx′′,wz′′,wy′′∈WS′′,x′,z′,y′∈n′;
当Vz′x′′与Vy′x′′大小相同时,则比较Vx′z′′与Vx′y′′的大小,词wx′′归属入度较小的核心词对应的片段序列语境中;
其中,Vz′x′′与Vy′x′′为来源词wx′′分别相对核心词wz′′与核心词wy′′的入度;Vx′z′′与Vx′y′′为来源词分别为核心词wz′′与wy′′相对于词wx′′的入度。
进一步,所述最小语境集合模块适于去除单个词的语境,以获得最小语境集合,即
将只包含单个词的语境进行判断中间词的归属语境,直至不存在单个词的语境,所剩余的各语境即为最小语境集合。
进一步,所述构建依存句法树模块适于基于最小语境集合构建依存句法树,即
将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子,再进过获取模块适于获取句子、切分模块适于通过核心词判断将句子切分形成片段序列、语境归属模块适于判断片段序列之间的中间词的归属语境、最小语境集合模块适于去除单个词的语境以获得最小语境集合后,求出新的最小语境,然后进行循环迭代,直到仅有一个最小语境为止,最后再按最小语境的生成层次组合成一个句子的依存句法树。
本发明的有益效果是,本发明通过获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树,实现了基于最小语境进行依存句法树的构建。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明所涉及的基于语境的依存句法树构建系统的原理框图;
图2是本发明所涉及的基于语境的依存句法树构建系统的工作流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
图1是本发明所涉及的基于语境的依存句法树构建系统的原理框图。
如图1所示,本实施例提供了一种基于语境的依存句法树构建系统,包括:获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树,实现了基于最小语境进行依存句法树的构建。
在本实施例中,基于语境的依存句法树的构建可以通过终端辅助完成;所述终端可以但不限于采用计算机,以对基于语境的依存句法树的构建进行辅助;终端可以包括存储器、存储控制器、处理器、外设接口、显示触摸屏。
存储器、存储控制器、处理器、外设接口、显示触摸屏各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或多条通讯总线或信号线实现电性连接。获取模块、切分模块、语境归属模块、最小语境集合模块以及构建依存句法树模块可以包括至少一个可以软件或固件的形式存储于存储器中或固化在终端的操作系统中的软件模块。
其中,存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行所述程序。处理器以及其他可能的组件对存储器的访问可以在存储控制器的控制下进行。
处理器可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
外设接口将各种输入/输出装置耦合至处理器以及存储器。在一些实施例中,外设接口、处理器以及存储控制器可以在单个芯片中实现,在其他一些实施例中,他们可以分别由独立的芯片实现。
显示触摸屏用于接收外部的触摸操作,并将外部操作发送给处理器处理,从而将外部表示的操作转化为相应控制指令;例如在本实施例中,研究人员可以通过显示触摸屏输入所需训练的文本集。
可以理解,图1所示的结构仅为示意,终端还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或者其组合实现。
图2是本发明所涉及的基于语境的依存句法树构建系统的工作流程图。
如图2所示,在本实施例中,所述获取模块适于获取句子,即初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。
在本实施例中,通过核心词判断将句子切分形成片段序列可以通过两种优选的实施方式实现,即基于熵对比的语境核心词判断算法将句子切分形成片段序列和基于入度和比较的语境核心词判断算法将句子切分形成片段序列,同时对应两种不同的通过核心词判断将句子切分形成片段序列得实施方式,还有两种判断片段序列之间的中间词的归属语境的优选实施方式。
在本实施例中,所述切分模块适于通过核心词判断将句子切分形成片段序列,即基于熵对比的语境核心词判断算法将句子切分形成片段序列,即遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,count>累加;针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n,m=n-1,获得语境共现频率向量Vi;式中:为其他词wj的共现频率;为其他词wj和词wi的共现次数;基于公式计算出每个词的语境共现熵值H(Vi),完成整个文本的训练;针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列;
语境中的核心词都是以同一背景知识与语境中其它词相连接,即背景知识应具有高可相容性,否则核心词无法与其所在语境中的其它词都产生背景知识链接;因此,核心词的语境共现频率向量中会出现很多与之链接的词;并且词的语境共现频率向量的频率会在文本集词典Vocabulary分布的相对均匀;因此核心词对应的语境共现熵值会相对较大;而非核心词虽然可能具有多个背景知识,由于其为非核心词,背景知识只能附接到语境的核心词中,因为一个文本集中语境的个数是有限的,同时与非核心词相连接的核心词个数也是有限的,所以非核心词对应的语境共现熵值会相对较小。
在本实施例中,所述语境归属模块适于判断片段序列之间的中间词的归属语境,即相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境;因为语境共现熵值代表核心词的背景知识相容能力的强弱,语境共现熵值越高,核心词背景知识的相容能力越强,也即片段之间的词修饰该核心词的概率越大。
在本实施例中,所述切分模块适于通过核心词判断将句子切分形成片段序列,即基于入度和比较的语境核心词判断算法将句子切分形成片段序列;即将一个句子S′拆分成n′个词形成词集合WS′′;遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语境共现频率向量Vi′′;式中:为其他词wj′′的共现频率;为其他词wj′′和词wi′′的共现次数;将语境共现频率向量Vi′′对应词集合WS′′中所有词的入度Vi′j′′,组成来源词为wi′′的入度向量;Vi′j′′为来源词为wi′′时,词wi′′与词wj′′共现的次数占词wi′′与所有词共现次数的比例;将各词的入度向量按序号排列成矩阵,形成对应句子S′的入度矩阵,序号中列序号为j′,行序号为i′,i′为来源词为wi′′的入度向量,j′为对应词wj′′的入度;针对入度矩阵中的每一列j′求和,则为对应词wj′′的入度和;取入度和最大的词为句子S′的语境核心词;基于各词的入度和按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和,则按拐点将折线图切分成各个片段,形成片段序列;
由于词wi′′与词wi′′在一个文本集中共现的次数是一定的,也即公式中相同,所不同的在于分母;分母越大越小,则入度越小,表示入度的来源词在文本集中与其它所有词的总共现次数越多;核心词由于背景知识的逻辑相容性越高,所以与其它词逻辑相容连接的概率越大,因此核心词相对于非核心词在概率上词的语境共现次数总和越大。
在本实施例中,所述语境归属模块适于判断片段序列之间的中间词的归属语境,即假设二个片段序列之间的词为wx′′,相邻二个片段序列的核心词分别为wy′′与wz′′,则判断Vz′x′′与Vi′x′′的大小,词wx′′归属入度较大的核心词对应的片段序列语境中,wx′′,wz′′,wy′′∈WS′′,x′,z′,y′∈n′;当Vz′x′′与Vy′x′′大小相同时(一般情况下同时为0),则比较Vx′z′′与Vx′y′′的大小,词wx′′归属入度较小的核心词对应的片段序列语境中;其中,Vz′x′′与Vy′x′′为来源词wx′′分别相对核心词wz′′与核心词wy′′的入度;Vx′z′′与Vx′y′′为来源词分别为核心词wz′′与wy′′相对于词wx′′的入度。
在本实施例中,所述最小语境集合模块适于去除单个词的语境,以获得最小语境集合,即将只包含单个词的语境进行判断中间词的归属语境,直至不存在单个词的语境,所剩余的各语境即为最小语境集合;由于最小语境作为底层的语境单位,它相对于其它大尺度的语境而言,更接近于文本的语义;因为语境用来表述文本的背景知识,语境越小代表该语境与其它语境的区分越细,因此,也越接近于文本的语义。
在本实施例中,所述构建依存句法树模块适于基于最小语境集合构建依存句法树,即将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子,再进过获取模块适于获取句子、切分模块适于通过核心词判断将句子切分形成片段序列、语境归属模块适于判断片段序列之间的中间词的归属语境、最小语境集合模块适于去除单个词的语境以获得最小语境集合后,求出新的最小语境,然后进行循环迭代,直到仅有一个最小语境为止,最后再按最小语境的生成层次组合成一个句子的依存句法树。
本实施例给出了文本分析与信息提取研究中很常用的概念N-Gram中的N值的判断依据,最小语境树对应的文本片段为N-Gram中的用以分析词上下文的片段,显然最小语境树中包含的词大小是不断变化的,因此,N-Gram采用固定值来设定一个词的上下文会造成上层算法训练和学习一定的偏差,故本实施例可以通过最小语境树求解解决了这个问题。
综上所述,获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树,实现了基于最小语境进行依存句法树的构建。
通过依存句法树构建过程中对于最小语境的求解,获取了最接近文本语义的语境。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (8)
1.一种依存句法树构建系统,其特征在于,包括:
获取模块,获取句子;
切分模块,通过核心词判断将句子切分形成片段序列;
语境归属模块,判断片段序列之间的中间词的归属语境;
最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及
构建依存句法树模块,基于最小语境集合构建依存句法树。
2.如权利要求1所述的基于语境的依存句法树构建系统,其特征在于,
所述获取模块适于获取句子,即
初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。
3.如权利要求2所述的基于语境的依存句法树构建系统,其特征在于,
所述切分模块适于通过核心词判断将句子切分形成片段序列,即
遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;
针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;
查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,couni>累加;
针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n.m=n-1,获得语境共现频率向量Vi;
式中为其它词wj的共现频率,为其它词wj和词wi的共现次数;
基于公式计算出每个词wi的语境共现熵值H(Vi),完成整个文本的训练;
针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;
基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列。
4.如权利要求3所述的基于语境的依存句法树构建系统,其特征在于,
所述语境归属模块适于判断片段序列之间的中间词的归属语境,即
相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。
5.如权利要求2所述的基于语境的依存句法树构建系统,其特征在于,
所述切分模块适于通过核心词判断将句子切分形成片段序列,即
基于入度和比较的语境核心词判断算法将句子切分形成片段序列,即
将一个句子S′拆分成n′个词形成词集合WS′′;
遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语境共现频率向量Vi′′;式中:为其他词wj′′的共现频率,为其他词wj′′和词ωi′′的共现次数;
将语境共现频率向量Vi′′对应词集合WS′′中所有词的入度Vi′j′′,组成来源词为ωi′′的入度向量;Vi′j′′为来源词为ωi′′时,词ωi′′与词wj′′共现的次数占词wi′′与所有词共现次数的比例;
将各词的入度向量按序号排列成矩阵,形成对应句子S′的入度矩阵,序号中列序号为j′,行序号为i′,i′为来源词为ωi′′的入度向量,j′为对应词wj′′的入度;
针对入度矩阵中的每一列j′求和,则为对应词wj′′的入度和;
取入度和最大的词为句子S′的语境核心词;
基于各词的入度和按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和,则按拐点将折线图切分成各个片段,形成片段序列。
6.如权利要求5所述的基于语境的依存句法树构建系统,其特征在于,
所述语境归属模块适于判断片段序列之间的中间词的归属语境,即
假设二个片段序列之间的词为wx′′,相邻二个片段序列的核心词分别为wy′′与wz′′,则判断Vz′x′′与Vy′x′′的大小,词wx′′归属入度较大的核心词对应的片段序列语境中,wx′′,wz′′,wy′′∈WS′′,x′,z′,y′∈n′;
当Vz′x′′与Vy′x′′大小相同时,则比较Vx′z′′与Vx′y′′的大小,词wx′′归属入度较小的核心词对应的片段序列语境中;
其中,Vz′x′′与Vy′x′′为来源词wx′′分别相对核心词wz′′与核心词wy′′的入度;Vx′z′′与Vx′y′′为来源词分别为核心词wz′′与wy′′相对于词wx′′的入度。
7.如权利要求4或权利要求6所述的基于语境的依存句法树构建系统,其特征在于,
所述最小语境集合模块适于去除单个词的语境,以获得最小语境集合,即
将只包含单个词的语境进行判断中间词的归属语境,直至不存在单个词的语境,所剩余的各语境即为最小语境集合。
8.如权利要求7所述的基于语境的依存句法树构建系统,其特征在于,
所述构建依存句法树模块适于基于最小语境集合构建依存句法树,即
将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子,再进过获取模块适于获取句子、切分模块适于通过核心词判断将句子切分形成片段序列、语境归属模块适于判断片段序列之间的中间词的归属语境、最小语境集合模块适于去除单个词的语境以获得最小语境集合后,求出新的最小语境,然后进行循环迭代,直到仅有一个最小语境为止,最后再按最小语境的生成层次组合成一个句子的依存句法树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617007.2A CN109710937A (zh) | 2018-12-27 | 2018-12-27 | 依存句法树构建系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617007.2A CN109710937A (zh) | 2018-12-27 | 2018-12-27 | 依存句法树构建系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710937A true CN109710937A (zh) | 2019-05-03 |
Family
ID=66258876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811617007.2A Pending CN109710937A (zh) | 2018-12-27 | 2018-12-27 | 依存句法树构建系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710937A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802569A (zh) * | 2021-02-05 | 2021-05-14 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221869A1 (en) * | 2007-03-07 | 2008-09-11 | Microsoft Corporation | Converting dependency grammars to efficiently parsable context-free grammars |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
-
2018
- 2018-12-27 CN CN201811617007.2A patent/CN109710937A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221869A1 (en) * | 2007-03-07 | 2008-09-11 | Microsoft Corporation | Converting dependency grammars to efficiently parsable context-free grammars |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
Non-Patent Citations (2)
Title |
---|
JIN HAN 等: "A New Dependency Parsing Tree Generation Algorithm Base on the Semantic Dependency Relationship Between Words", 《INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND SECURITY ICCCS 2018: CLOUD COMPUTING AND SECURITY》 * |
JIN HAN 等: "A New Dependency Parsing Tree Generation Algorithm Based on the Semantic Dependency Relationship Between Words", 《INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND SECURITY ICCCS 2018: CLOUD COMPUTING AND SECURITY》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802569A (zh) * | 2021-02-05 | 2021-05-14 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
CN112802569B (zh) * | 2021-02-05 | 2023-08-08 | 北京嘉和海森健康科技有限公司 | 一种语义信息的获取方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
Goldberg et al. | An efficient algorithm for easy-first non-directional dependency parsing | |
US20110302168A1 (en) | Graphical models for representing text documents for computer analysis | |
Zhang et al. | An empirical study of TextRank for keyword extraction | |
Qian et al. | Joint chinese word segmentation, pos tagging and parsing | |
WO2013144220A1 (en) | A method and apparatus for computer assisted innovation | |
WO2010055967A1 (en) | System for extracting ralation between technical terms in large collection using a verb-based pattern | |
CN102567409A (zh) | 一种提供检索关联词的方法及装置 | |
CN109473169A (zh) | 一种疾病诊断方法、装置及终端设备 | |
Coulet et al. | Using pattern structures for analyzing ontology-based annotations of biomedical data | |
JP5994490B2 (ja) | データ検索プログラム、データベース装置および情報処理システム | |
CN114237621A (zh) | 一种基于细粒度共注意机制的语义代码搜索方法 | |
Gherasim et al. | Methods and tools for automatic construction of ontologies from textual resources: A framework for comparison and its application | |
CN109710937A (zh) | 依存句法树构建系统 | |
Mahmoud et al. | Ontology learning based on word embeddings for text big data extraction | |
Parameswarappa et al. | Kannada word sense disambiguation for machine translation | |
CN115617989A (zh) | 一种中文专利关键信息语料库的构建方法、系统和计算机设备 | |
JP2000020538A (ja) | 情報検索方法、情報検索装置および情報検索プログラム記憶媒体 | |
KR102371224B1 (ko) | 공항 및 항공 기술의 트렌드 분석 장치 및 방법 | |
CN107729518A (zh) | 一种关系型数据库的全文检索方法及装置 | |
CN113793663A (zh) | 一种医疗数据处理方法和系统 | |
Xinyi et al. | Using sequential pattern mining and interactive recommendation to assist pipe-like mashup development | |
CN109684644A (zh) | 基于语境的依存句法树的构建方法 | |
Sangati et al. | Efficiently extract recurring tree fragments from large treebanks | |
Shareha et al. | Multimodal integration (image and text) using ontology alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190503 |
|
RJ01 | Rejection of invention patent application after publication |