CN109684644A - 基于语境的依存句法树的构建方法 - Google Patents
基于语境的依存句法树的构建方法 Download PDFInfo
- Publication number
- CN109684644A CN109684644A CN201811617009.1A CN201811617009A CN109684644A CN 109684644 A CN109684644 A CN 109684644A CN 201811617009 A CN201811617009 A CN 201811617009A CN 109684644 A CN109684644 A CN 109684644A
- Authority
- CN
- China
- Prior art keywords
- word
- context
- sentence
- degree
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语境核心词提取领域,具体为一种基于语境的依存句法树的构建方法,其包括:步骤S100,获取句子;步骤S200,通过核心词判断将句子切分形成片段序列;步骤S300,判断片段序列之间的中间词的归属语境;步骤S400,去除单个词的语境,获得最小语境集合;以及步骤S500,基于最小语境集合构建依存句法树。实现了基于核心词进行依存句法树的构建。
Description
技术领域
本发明涉及语境核心词提取领域,具体为一种基于语境的依存句法树的构建方法。
背景技术
当前国内外对于语境核心词提取算法的研究较少,更多的是对于关键词提取算法的研究。基于核心词构建依存句法树对于文本特征提取具有良好的性能。
基于上述技术问题,需要设计一种新的基于语境的依存句法树的构建方法。
发明内容
本发明的目的是提供一种基于语境的依存句法树的构建方法。
为了解决上述技术问题,本发明提供了一种基于语境的依存句法树的构建方法,包括:
步骤S100,获取句子;
步骤S200,通过核心词判断将句子切分形成片段序列;
步骤S300,判断片段序列之间的中间词的归属语境;
步骤S400,去除单个词的语境,获得最小语境集合;以及
步骤S500,基于最小语境集合构建依存句法树。
进一步,所述步骤S100中获取句子的方法包括:
初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。
进一步,所述步骤S200中通过核心词判断将句子切分形成片段序列的方法包括:
基于熵对比的语境核心词判断算法将句子切分形成片段序列,即
步骤S201,遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;
步骤S202,针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;
步骤S203,查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,count>累加;
步骤S204,针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n,m=n-1,获得语境共现频率向量Vi;
式中:为其他词wj的共现频率;为其他词wj和词wi的共现次数;
步骤S205,基于公式计算出每个词的语境共现熵值H(Vi),完成整个文本的训练;
步骤S206,针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;
步骤S207,基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列。
进一步,所述步骤S300中判断片段序列之间的中间词的归属语境的方法包括:
相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。
进一步,所述步骤S200中通过核心词判断将句子切分形成片段序列的方法还包括:基于入度和比较的语境核心词判断算法将句子切分形成片段序列为;即
步骤S201,将一个句子S′拆分成n′个词形成词集合WS′′;
步骤S202,遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:
其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语境共现频率向量Vi′′;式中:为其他词wj′′的共现频率,为其他词wj′′和词wi′′的共现次数;
步骤S203,将语境共现频率向量Vi′′对应词集合WS′′中所有词的入度Vi′j′′,组成来源词为wi′′的入度向量;Vi′j′′为来源词为wi′′时,词wi′′与词wj′′共现的次数占词wi′′与所有词共现次数的比例;
步骤S204,将各词的入度向量按序号排列成矩阵,形成对应句子S′的入度矩阵,序号中列序号为j′,行序号为i′,i′为来源词为wi′′的入度向量,j′为对应词wj′′的入度;
步骤S205,针对入度矩阵中的每一列j′求和,则为对应词wj′′的入度和;
步骤S206,取入度和最大的词为句子S′的语境核心词;
步骤S207,基于各词的入度和按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和,则按拐点将折线图切分成各个片段,形成片段序列。
进一步,所述步骤S300中判断片段序列之间的中间词的归属语境的方法还包括:
假设二个片段序列之间的词为wx′′,相邻二个片段序列的核心词分别为wy′′与wz′′,则判断Vz′x′′与Vy′x′′的大小,词wx′′归属入度较大的核心词对应的片段序列语境中,wx′′,wz′′,wy′′∈WS′′,x′,z′,y′∈n′;
当Vz′x′′与Vy′x′′大小相同时,则比较Vx′z′′与Vx′y′′的大小,词wx′′归属入度较小的核心词对应的片段序列语境中;
其中,Vz′x′′与Vy′x′′为来源词wx′′分别相对核心词wz′′与核心词wy′′的入度;Vx′z′′与Vx′y′′为来源词分别为核心词wz′′与wy′′相对于词wx′′的入度。
进一步,所述步骤S400中去除单个词的语境,获得最小语境集合的方法包括:将只包含单个词的语境进行判断中间词的归属语境,直至不存在单个词的语境,所剩余的各语境即为最小语境集合。
进一步,所述步骤S500中基于最小语境集合构建依存句法树的方法包括:将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子,重复步骤S100到步骤S400,求出新的最小语境,然后进行循环迭代,直到仅有一个最小语境为止,最后再按最小语境的生成层次组合成一个句子的依存句法树。
本发明的有益效果是,本发明通过步骤S100,获取句子;步骤S200,通过核心词判断将句子切分形成片段序列;步骤S300,判断片段序列之间的中间词的归属语境;步骤S400,去除单个词的语境,获得最小语境集合;以及步骤S500,基于最小语境集合构建依存句法树;实现了基于核心词进行依存句法树的构建。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明所涉及的基于语境的依存句法树的构建方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
图1是本发明所涉及的基于语境的依存句法树的构建方法的流程图。
如图1所示,本实施例提供了一种基于语境的依存句法树的构建方法,包括:步骤S100,获取句子;步骤S200,通过核心词判断将句子切分形成片段序列;步骤S300,判断片段序列之间的中间词的归属语境;步骤S400,去除单个词的语境,获得最小语境集合;以及步骤S500,基于最小语境集合构建依存句法树,实现了基于核心词进行依存句法树的构建。
在本实施例中,所述步骤S100,获取句子的方法包括:初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。
在本实施例中,所述步骤S200中通过核心词判断将句子切分形成片段序列的方法包括:基于熵对比的语境核心词判断算法将句子切分形成片段序列,即步骤S201,遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;步骤S202,针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;步骤S203,查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,count>累加;步骤S204,针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n,m=n-1,获得语境共现频率向量Vi;式中:为其他词wj的共现频率;为其他词wj和词wi的共现次数;步骤S205,基于公式计算出每个词的语境共现熵值H(Vi),完成整个文本的训练;步骤S206,针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;步骤S207,基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列;
语境中的核心词都是以同一背景知识与语境中其它词相连接,即背景知识应具有高可相容性,否则核心词无法与其所在语境中的其它词都产生背景知识链接;因此,核心词的语境共现频率向量中会出现很多与之链接的词;并且词的语境共现频率向量的频率会在文本集词典Vocabulary分布的相对均匀;因此核心词对应的语境共现熵值会相对较大;而非核心词虽然可能具有多个背景知识,由于其为非核心词,背景知识只能附接到语境的核心词中,因为一个文本集中语境的个数是有限的,同时与非核心词相连接的核心词个数也是有限的,所以非核心词对应的语境共现熵值会相对较小。
在本实施例中,所述步骤S300中判断片段序列之间的中间词的归属语境的方法包括:相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境;因为语境共现熵值代表核心词的背景知识相容能力的强弱,语境共现熵值越高,核心词背景知识的相容能力越强,也即片段之间的词修饰该核心词的概率越大。
在本实施例中,所述步骤S200中通过核心词判断将句子切分形成片段序列的方法还包括:基于入度和比较的语境核心词判断算法将句子切分形成片段序列为;即步骤S201,将一个句子S′拆分成n′个词形成词集合WS′′;步骤S202,遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语境共现频率向量Vi′′;式中:为其他词wj′′的共现频率;为其他词wj′′和词wi′′的共现次数;步骤S203,将语境共现频率向量Vi′′对应词集合WS′′中所有词的入度Vi′j′′,组成来源词为wi′′的入度向量;Vi′j′′为来源词为wi′′时,词wi′′与词wj′′共现的次数占词wi′′与所有词共现次数的比例;步骤S204,将各词的入度向量按序号排列成矩阵,形成对应句子S′的入度矩阵,序号中列序号为j′,行序号为i′,i′为来源词为wi′′的入度向量,j′为对应词wj′′的入度;步骤S205,针对入度矩阵中的每一列j′求和,则为对应词wj′′的入度和;步骤S206,取入度和最大的词为句子S′的语境核心词;步骤S207,基于各词的入度和按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和,则按拐点将折线图切分成各个片段,形成片段序列;
由于词wi′′与词wj′′在一个文本集中共现的次数是一定的,也即公式中相同,所不同的在于分母;分母越大越小,则入度越小,表示入度的来源词在文本集中与其它所有词的总共现次数越多;核心词由于背景知识的逻辑相容性越高,所以与其它词逻辑相容连接的概率越大,因此核心词相对于非核心词在概率上词的语境共现次数总和越大。
在本实施例中,所述步骤S300中判断片段序列之间的中间词的归属语境的方法还包括:假设二个片段序列之间的词为wx′′,相邻二个片段序列的核心词分别为wy′′与wz′′,则判断Vz′x′′与Vy′z′′的大小,词wx′′归属入度较大的核心词对应的片段序列语境中,wx′′,wz′′,wy′′∈WS′′,x′,z′,y′∈n′;当Vz′x′′与Vy′x′′大小相同时(一般情况下同时为0),则比较Vx′z′′与Vx′y′′的大小,词wx′′归属入度较小的核心词对应的片段序列语境中;其中,Vz′x′′与Vy′x′′为来源词wx′′分别相对核心词wz′′与核心词wy′′的入度;Vx′z′′与Vx′y′′为来源词分别为核心词wz′′与wy′′相对于词wx′′的入度。
在本实施例中,所述步骤S400中去除单个词的语境,获得最小语境集合的方法包括:将只包含单个词的语境进行判断中间词的归属语境,直至不存在单个词的语境,所剩余的各语境即为最小语境集合;由于最小语境作为底层的语境单位,它相对于其它大尺度的语境而言,更接近于文本的语义;因为语境用来表述文本的背景知识,语境越小代表该语境与其它语境的区分越细,因此,也越接近于文本的语义。
在本实施例中,所述步骤S500中基于最小语境集合构建依存句法树的方法包括:将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子,重复步骤S100到步骤S400,求出新的最小语境,然后进行循环迭代,直到仅有一个最小语境为止,最后再按最小语境的生成层次组合成一个句子的依存句法树;通过依存句法树的构建,可以更好的提取核心词。
本实施例给出了文本分析与信息提取研究中很常用的概念N-Gram中的N值的判断依据,最小语境树对应的文本片段为N-Gram中的用以分析词上下文的片段,显然最小语境树中包含的词大小是不断变化的,因此,N-Gram采用固定值来设定一个词的上下文会造成上层算法训练和学习一定的偏差,故本实施例可以通过最小语境树求解解决了这个问题。
综上所述,本发明通过步骤S100,获取句子;步骤S200,通过核心词判断将句子切分形成片段序列;步骤S300,判断片段序列之间的中间词的归属语境;步骤S400,去除单个词的语境,获得最小语境集合;以及步骤S500,基于最小语境集合构建依存句法树,实现了基于核心词进行依存句法树的构建。
通过依存句法树构建过程中对于最小语境的求解,获取了最接近文本语义的语境。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (8)
1.一种基于语境的依存句法树的构建方法,其特征在于,包括:
步骤S100,获取句子;
步骤S200,通过核心词判断将句子切分形成片段序列;
步骤S300,判断片段序列之间的中间词的归属语境;
步骤S400,去除单个词的语境,获得最小语境集合;以及
步骤S500,基于最小语境集合构建依存句法树。
2.如权利要求1所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S100中获取句子的方法包括:
初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。
3.如权利要求2所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S200中通过核心词判断将句子切分形成片段序列的方法包括:
基于熵对比的语境核心词判断算法将句子切分形成片段序列,即
步骤S201,遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;
步骤S202,针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;
步骤S203,查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,count>累加;
步骤S204,针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n,m=n-1,获得语境共现频率向量Vi;
式中为其它词wj的共现频率,为其它词wj和词wi的共现次数;
步骤S205,基于公式计算出每个词wi的语境共现熵值H(Vi),完成整个文本的训练;
步骤S206,针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;
步骤S207,基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列。
4.如权利要求3所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S300中判断片段序列之间的中间词的归属语境的方法包括:
相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。
5.如权利要求2所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S200中通过核心词判断将句子切分形成片段序列的方法还包括:基于入度和比较的语境核心词判断算法将句子切分形成片段序列为;即
步骤S201,将一个句子S′拆分成n′个词形成词集合WS′′;
步骤S202,遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:
其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语境共现频率向量Vi′′;式中:为其他词wj′′的共现频率,为其他词wj′′和词wi′′的共现次数;
步骤S203,将语境共现频率向量Vi′′对应词集合WS′′中所有词的入度Vi′j′′,组成来源词为wi′′的入度向量;Vi′j′′为来源词为wi′′时,词wi′′与词wj′′共现的次数占词wi′′与所有词共现次数的比例;
步骤S204,将各词的入度向量按序号排列成矩阵,形成对应句子S′的入度矩阵,序号中列序号为j′,行序号为i′,i′为来源词为wi′′的入度向量,j′为对应词wj′′的入度;
步骤S205,针对入度矩阵中的每一列j′求和,则为对应词wi′′的入度和;
步骤S206,取入度和最大的词为句子S′的语境核心词;
步骤S207,基于各词的入度和按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的入度和均大于拐点处的词的入度和,则按拐点将折线图切分成各个片段,形成片段序列。
6.如权利要求5所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S300中判断片段序列之间的中间词的归属语境的方法还包括:
假设二个片段序列之间的词为wx′′,相邻二个片段序列的核心词分别为wy′′与wz′′,则判断Vz′x′′与Vy′x′′的大小,词wx′′归属入度较大的核心词对应的片段序列语境中,wx′′,wz′′,wy′′∈WS′′,x′,z′,y′∈n′;
当Vz′x′′与Vy′x′′大小相同时,则比较Vx′z′′与Vx′y′′的大小,词wx′′归属入度较小的核心词对应的片段序列语境中;
其中,Vz′x′′与Vy′x′′为来源词wx′′分别相对核心词wz′′与核心词wy′′的入度;Vx′z′′与Vx′y′′为来源词分别为核心词wz′′与wy′′相对于词wx′′的入度。
7.如权利要求4或权利要求6所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S400中去除单个词的语境,获得最小语境集合的方法包括:
将只包含单个词的语境进行判断中间词的归属语境,直至不存在单个词的语境,所剩余的各语境即为最小语境集合。
8.如权利要求7所述的基于语境的依存句法树的构建方法,其特征在于,
所述步骤S500中基于最小语境集合构建依存句法树的方法包括:
将最小语境集合中每个语境的核心词按句子中的位置排序组成一个新句子,重复步骤S100到步骤S400,求出新的最小语境,然后进行循环迭代,直到仅有一个最小语境为止,最后再按最小语境的生成层次组合成一个句子的依存句法树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617009.1A CN109684644A (zh) | 2018-12-27 | 2018-12-27 | 基于语境的依存句法树的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811617009.1A CN109684644A (zh) | 2018-12-27 | 2018-12-27 | 基于语境的依存句法树的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684644A true CN109684644A (zh) | 2019-04-26 |
Family
ID=66190816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811617009.1A Pending CN109684644A (zh) | 2018-12-27 | 2018-12-27 | 基于语境的依存句法树的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684644A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069624A (zh) * | 2019-04-28 | 2019-07-30 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446941A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种基于历史信息的自然语言层次句法分析方法 |
CN101814065A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 句法分析装置及句法分析方法 |
CN107590130A (zh) * | 2017-09-30 | 2018-01-16 | 北京三快在线科技有限公司 | 场景确定方法及装置、存储介质和电子设备 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
US20180365216A1 (en) * | 2017-06-20 | 2018-12-20 | The Boeing Company | Text mining a dataset of electronic documents to discover terms of interest |
-
2018
- 2018-12-27 CN CN201811617009.1A patent/CN109684644A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446941A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种基于历史信息的自然语言层次句法分析方法 |
CN101814065A (zh) * | 2009-02-23 | 2010-08-25 | 富士通株式会社 | 句法分析装置及句法分析方法 |
US20180365216A1 (en) * | 2017-06-20 | 2018-12-20 | The Boeing Company | Text mining a dataset of electronic documents to discover terms of interest |
CN107590130A (zh) * | 2017-09-30 | 2018-01-16 | 北京三快在线科技有限公司 | 场景确定方法及装置、存储介质和电子设备 |
CN108536757A (zh) * | 2018-03-19 | 2018-09-14 | 武汉大学 | 一种基于用户历史网络潜在有害主题引导方法 |
Non-Patent Citations (1)
Title |
---|
JIN HAN 等: "A New Dependency Parsing Tree Generation Algorithm Base on the Semantic Dependency Relationship Between Words", 《INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND SECURITY ICCCS 2018:CLOUD COMPUTING AND SECURITY》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069624A (zh) * | 2019-04-28 | 2019-07-30 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
CN110069624B (zh) * | 2019-04-28 | 2021-05-04 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
US11551008B2 (en) | 2019-04-28 | 2023-01-10 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for text processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559556B (zh) | 表格模式解析和序列掩码的语言模型预训练方法及系统 | |
CN107797991B (zh) | 一种基于依存句法树的知识图谱扩充方法及系统 | |
KR101061391B1 (ko) | 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템 | |
CN104915340B (zh) | 自然语言问答方法及装置 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CN102799577B (zh) | 一种中文实体间语义关系抽取方法 | |
CN103189860B (zh) | 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法 | |
CN111159223A (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN108052583A (zh) | 电商本体构建方法 | |
US20160203130A1 (en) | Method and system for identifying and evaluating semantic patterns in written language | |
CN111259653A (zh) | 基于实体关系消歧的知识图谱问答方法、系统以及终端 | |
CN105917327A (zh) | 用于将文本输入到电子设备中的系统和方法 | |
WO2015093541A1 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN112035511A (zh) | 基于医学知识图谱的目标数据搜索方法及相关设备 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN109344250A (zh) | 基于医保数据的单病种诊断信息快速结构化方法 | |
CN103020454A (zh) | 发病关键因素提取与疾病预警方法及系统 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
CN107844608B (zh) | 一种基于词向量的句子相似度比较方法 | |
WO2015093539A1 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN110390022A (zh) | 一种自动化的专业知识图谱构建方法 | |
Pande et al. | Application of natural language processing tools in stemming | |
CN103744837A (zh) | 基于关键词抽取的多文本对照方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190426 |