CN109977418B - 一种基于语义向量的短文本相似性度量方法 - Google Patents

一种基于语义向量的短文本相似性度量方法 Download PDF

Info

Publication number
CN109977418B
CN109977418B CN201910279109.6A CN201910279109A CN109977418B CN 109977418 B CN109977418 B CN 109977418B CN 201910279109 A CN201910279109 A CN 201910279109A CN 109977418 B CN109977418 B CN 109977418B
Authority
CN
China
Prior art keywords
short text
semantic
verb
semantic similarity
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910279109.6A
Other languages
English (en)
Other versions
CN109977418A (zh
Inventor
刘文松
林峰
胡竹青
张锦辉
张鹏
杨燕吉
张志鹏
邵瑞
朱泐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Original Assignee
NARI Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp filed Critical NARI Group Corp
Priority to CN201910279109.6A priority Critical patent/CN109977418B/zh
Publication of CN109977418A publication Critical patent/CN109977418A/zh
Application granted granted Critical
Publication of CN109977418B publication Critical patent/CN109977418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开一种基于语义向量的短文本相似性度量方法,对短文本t 1t 2分词后,根据根动词的分布判断短文本是否存在事件块;如存在,基于根动词提取事件块,并对事件块的语义相似性进行分析。如相似,依据分词位置和词性提取修饰块,并对修饰块的语义相似性进行分析。在此基础上,以短文本t 1的修饰块顺序为基准,在短文本t 2中查找语义相同的块,调整到对应顺序。最后用词向量表示分词,构建短文本的语义向量,计算二者的余弦距离,作为语义相似性度量。本发明方法通过依存句法分析,提取事件块和修饰块,块内部是具有一定语义关系的若干分词,兼顾了局部的语义关系;通过基于语义分析的块交换,兼顾了多样化的语言表达特点。

Description

一种基于语义向量的短文本相似性度量方法
技术领域
本发明涉及一种基于语义向量的短文本相似性度量方法,属于文本分析挖掘技术领域。
背景技术
在电力、金融、医学、图书、互联网等行业中,文本数据量呈爆炸式増长。以电力行业为例,信息系统约80%的业务数据为半结构/非结构化的文本数据。为开展进一步的商业分析,需对现有文本数据中内含的知识进行分析挖掘,即首先实现相近文本的自动聚类,其次是对同类文本进行特征提取、类型标记和监督训练,进而实现新文本的分类预测。考虑到庞大的文本数量,有效的文本聚类是后续分析挖掘工作的基础。长文本一般指一篇文档或至少一个段落,即使相似性度量不准确,也因为丰富的文本特征(足够的词汇量),可以获得良好的聚类效果。短文本一般由若干短语或一个句子组成,考虑到中文表述的多样性,甚至存在同一类两则短文本几乎没有相同词汇、且结构不同的情况(如“电脑中毒了”和“感染了计算机病毒”),使得良好的相似性度量,尤其是语义相似性度量尤为重要。
针对语义相似性的度量,一般采用word2vec度量分词的语义相似性。word2vec基于CBOW和Skip-gram原理,对百万级的语料库进行机器训练,以高维的词向量,来表征分词的语义,通过计算词向量之间的余弦距离,作为分词间的语义相似性。该方法已在工业界得到应用和推广。
在分词语义相似性度量的基础上,考虑短文本的语义相似性度量。短文本的语义相似性度量,其经典方法是对短文本的分词遍历计算语义相似性,取最大值作为该分词的语义相似性。在此基础上,取分词集合的语义计算平均值,作为短文本的语义相似性。该方法的不足,在于忽略了分词间的语义关系,使得文本语义碎片化。在此基础上,借鉴编辑距离,有研究提出语义编辑距离。编辑距离是指一个字符串通过删除、插入、替换改变为另一个字符串的最小操作。但编辑距离用的是文本匹配。语义编辑距离是通过知识网络分析分词的语义,将短文本分成头、中、尾三块,对
Figure BDA0002021089760000011
种组合遍历计算,从而获取语义相似性最大时,头、中、尾三块的划分方法,以及相应的块交换距离,以此作为语义编辑距离。该研究对于“电脑中毒了”和“感染了计算机病毒”这样的短文本有较高的相似性结果。但对于“吴老师带领同学一起做技术”和“吴老师带学生们去郊游”这样的语义,没有良好的辨识性。有研究基于依存句法进行语义相似性分析。依存句法是由法国语言学家L.Tesniere于1959年在《结构句法基础》中提出,其核心基于两点假设:首先,根动词是中心词,支配其它语言成分,而不受其它成分支配;其次,所有受支配成分都以某种关系从属于支配者。据此,依据分词、词性、位置,一是可确立根动词、二是可确定邻近词的关系。依存句法分析已有较为成熟的实现方法。该研究获取依存句法后,以根动词为谓语,对根动词之前的名词、根动词之后的名词进行组合,对两个短文本的组合对数量、组合对之间的语义相似性(同样的,采用知识网络分析分词语义)进行计算,并求取平均值。该方法的优点,在于提取了核心事件。但是组合的做法,对于“电脑中毒了”和“感染了计算机病毒”这样的复杂句法,效果有限。
除了上述方法,很多研究希望扩展或者构建新的文本特征。如利用中文维基百科的词汇关系对短文本的隐喻词进行特征扩展。如融合短文本的特征词和结构距离作为新的文本特征;如基于深层噪音自动编码器提取特征,利用深度学习网络,将高维稀疏的短文本空间向量变换到低维本质特征空间。上述方法尚未有大规模应用于工业界的报道。
发明内容
本发明的目的在于提供一种基于语义向量的短文本相似性度量方法,针对短文本特征稀疏、表达多样的特点,通过基于语义分析的块交换,兼顾了多样化的语言表达特点,构建了面向全文的语义向量,避免全文语义的碎片化。
为达到上述目的,本发明采用的技术方案如下:
一种基于语义向量的短文本相似性度量方法,包括以下步骤:
1)对短文本t1和t2进行分词,同时得到短文本t1和t2的分词词性;
2)根据短文本t1和t2的分词和词性,进行依存句法分析,获得句法结构;
3)根据根动词分布,对短文本t1和t2分类分析,分类分析如下:
a)如果短文本t1与t2均不存在根动词,则采用通用语义相似性公式计算短文本t1与t2的相似性,并输出结果;
b)如果短文本t1与t2任意一者存在根动词,而另一者不存在根动词,则语义相似性为0,并输出结果;
c)如果短文本t1与t2均存在根动词,则提取事件块,然后进入步骤4);
4)对短文本t1与t2的事件块进行语义相似性分析;如果短文本t1与t2的事件块的语义相似性计算为0,则语义不相似;如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值,则语义相似,则提取修饰块;
5)以短文本t1的修饰块顺序为基准,采用通用语义相似性公式,依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性;如果计算结果大于设定的阈值,则语义相似,则将短文本t2的修饰块调整到与t1相对应的位置;否则语义不相似,不调整;
6)修饰块交换后,将短文本t1和t2所有分词由词向量表示;短文本t1和t2中所有的分词都用词向量表示后,即构成短文本t1和t2的语义向量;
7)对短文本t1和t2的语义向量计算余弦距离,作为二者的语义相似性,输出计算结果。
前述的步骤3)中,事件块是指以根动词为核心事件的谓语,进而确定主语成分、宾语成分和动词补语。
前述的事件块的提取方式为:
(c1)对于主语成分,基于根动词当前位置向前查询非名词,以非名词至根动词之间的名词为主语成分;如条件不满足,即不存在主语成分;
(c2)对于宾语成分,基于根动词当前位置向后查询非名词,以非名词与根动词之间的名词为宾语成分;如条件不满足,即不存在宾语成分;
(c3)对于动词补语,除根动词以外,如存在动词,即为动词补语;否则不存在动词补语。
前述的短文本,如果存在,则仅存在一个事件块。
前述的步骤4)中,事件块的语义相似性计算如下:
Figure BDA0002021089760000021
其中,Smc表示事件块的语义相似性,BS,BP,Bo和BC是布尔量,如果短文本t1和t2均存在主语则BS为1,否则为0,如果短文本t1和t2均存在谓语则BP为1,否则为0,如果短文本t1和t2均存在宾语则Bo为1,否则为0,如果短文本t1和t2均存在动词补语则BC为1,否则为0;SS,SP,So和SC分别是短文本t1和t2的事件块的主语,谓语,宾语和动词补语的语义相似性,采用通用语义相似性公式计算。
前述的步骤4)中,提取修饰块是指根据依存句法指明的分词依存关系,将与主语成分、谓语、宾语成分、动词补语直接向量的分词及其依存分词,视为一个修饰块。
前述的步骤6)中,所述分词的词向量因长度导致没有对齐的,填0补齐。
前述的通用语义相似性计算如下:
Figure BDA0002021089760000031
其中,SB为通用语义相似性,B1和B2分别为短文本t1和t2,或者短文本t1和t2中的部分文本,包括主语,谓语,宾语,动词补语或修饰块;
B1={w11,w12,…w1L},w1l为B1的分词,l=1,2,…,L,L是B1中的分词数,L≤N,N是短文本t1的分词数;
B2={w21,w22,…w2K},w2k为B2的分词,k=1,2,…,K,K是B2中的分词数,K≤M,M是短文本t2的分词数;
S1l是B1中分词w1l的语义相似性,计算如下:
S1l=max{Sc(w1l,w21)+Sc(w1l,w22),…Sc(w1l,w2K)}
其中,Sc(w1l,w21)表示分词w1l和分词w21的语义相似性;
S2k是B2中分词w2k的语义相似性。
本发明的优点如下:
a)基于依存句法,分根动词均有、根动词均无、根动词一有一无进行处理,保证了文本描述事件的一致性;
b)对于根动词均有的情况,根据公式(1)分析语义相似性,充分考虑了主语、谓语、宾语、补语是否缺省、是否语义相似,据此可覆盖六种句法类型。可以根据实际应用,可以对公式(1)进行拓展;
c)根据依存句法,由事件块提取修饰块,照顾了局部相邻分词的语义关系;
d)基于修饰块,进行语义相似性分析,并进行位置调整,照顾了句法的复杂性;
e)基于修饰块的语义交换和词向量,构建了面向全文的语义向量,避免全文语义的碎片化。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供一种基于语义向量的短文本相似性度量方法。该方法对短文本t1和t2分词后,根据根动词的分布判断短文本是否存在事件块;如存在,基于根动词提取事件块,并对事件块的语义相似性进行分析。如相似,依据分词位置和词性提取修饰块,并对修饰块的语义相似性进行分析。在此基础上,以短文本t1的块顺序为基准,在短文本t2中查找语义相同的块,调整到对应顺序。用词向量表示分词,如两者长度不同,则对应位置填零补齐。以此作为短文本的语义向量,计算二者的余弦距离,作为语义相似性度量。该方法通过依存句法分析,提取事件块和修饰块,块内部是具有一定语义关系的若干分词,兼顾了局部的语义关系。通过基于语义分析的块交换,兼顾了多样化的语言表达特点。构建了面向全文的语义向量,避免全文语义的碎片化。
本实施例以两个短文本t1和t2为例进行详细说明。
步骤1:对短文本t1和t2进行分词,可得t1={wi1,wi2,…wiN}和t2={wj1,wj2,…wjM},
N是t1的分词数,M是t2的分词数;
同时可得到t1和t2的分词词性。
步骤2:根据分词和词性,进行依存句法分析,获得句法结构。
步骤3:根据根动词分布,对t1和t2分类分析:
如果t1与t2均不存在根动词,则采用通用语义相似性公式计算短文本t1与t2的相似性,并直接输出结果。
如果t1与t2任意一者存在根动词,而另一者不存在根动词,则语义相似性为0,直接输出结果。
如果t1与t2均存在根动词,提取事件块,然后进入步骤4对t1与t2的事件块进行语义相似性分析。
本步骤中,事件块是指:以根动词为核心事件的谓语,进而确定主语成分、宾语成分和动词补语。
对于本发明的短文本,如果存在的话,则仅存在一个事件块。
事件块提取方式为:
(1)对于主语成分,基于根动词当前位置向前查询非名词,以非名词至根动词之间的名词为主语成分。如条件不满足,即不存在主语成分。
(2)对于宾语成分,基于根动词当前位置向后查询非名词,以非名词与根动词之间的名词为宾语成分。如条件不满足,即不存在宾语成分。
(3)对于动词补语,除根动词以外,如存在动词,即为动词补语;否则不存在。
步骤4:对t1与t2的事件块进行语义相似性分析:
事件块语义相似性分析是指:基于事件块的主语成分、谓语、宾语成分和动词补语,按照公式(1)计算事件块的语义相似性:
Figure BDA0002021089760000041
其中,BS是布尔量,如果短文本t1和t2均存在主语则BS为1,否则为0;SS是短文本t1和t2的事件块的主语的语义相似性,采用通用语义相似性公式计算。变量(SP,BP)、(So,Bo)、(SC,BC)按相似方式解释。
如果t1与t2的事件块的语义相似性计算为0,则语义不相似,直接输出结果。
如果t1与t2的事件块语义相似,则提取修饰块。
本发明中,设定一个阈值,如果所计算的事件块语义相似性,超过该设定的阈值,则认为是语义相似。
提取修饰块是指:根据依存句法指明的分词依存关系,将与主语成分、谓语、宾语成分、动词补语直接向量的分词及其依存分词,视为一个修饰块。
步骤5:以短文本t1的修饰块顺序为基准,采用通用语义相似性公式,依次计算与短文本t2中的修饰块的语义相似性。如语义相似,将t2的修饰块调整到与t1相对应的位置;如语义不相似,则不调整。
同理,设定一个阈值,如果所计算的修饰块语义相似性,超过该设定的阈值,则认为是语义相似。
步骤6:修饰块交换后,将t1和t2所有分词由词向量表示;因长度导致没有对齐的,填0处理。短文本t1和t2中所有的分词都用词向量表示后,即构成短文本t1和t2的语义向量。
步骤7:对t1和t2的语义向量计算余弦距离,作为二者的语义相似性,输出计算结果。
本发明中,通用语义相似性计算是指按公式(2)计算语义相似性SB
Figure BDA0002021089760000051
其中,B1={w11,w12,…w1L},B2={w21,w22,…w2K},L是B1中的分词数量,L≤N;K是B2中的分词数量,K≤M。
B1和B2为通用表示,可以是短文本,主语,谓语,宾语,和动词补语,也可以是修饰块,例如,如果计算两个短文本中主语的语义相似性,则B1和B2表示主语,如果计算两个短文本中修饰块的语义相似性,则B1和B2表示修饰块,对于不存在根动词的情况,B1和B2即表示短文本t1和t2
S1l是B1中分词w1l的语义相似性,l∈[1,L];S2k同理解释,k∈[1,K]。
S1l按照公式(3)计算:
S1l=max{Sc(w1l,w21)+Sc(w1l,w22),…Sc(w1l,w2K)} (3)
其中,Sc(w1l,w21)表示分词w1l和分词w21的语义相似性,即B1中的分词w1l与B2中所有分词计算语义相似性,选取最大者作为分词w1l的语义相似性S1l,SB是块B1与B2分词语义相似性的平均值。
分词的语义相似性计算为:分词用词向量表示(词向量就是一组数字),分词的语义相似性,就是计算词向量的余弦距离。
本方法既对“电脑中毒了”和“感染了电脑病毒”这种方法有效,也对“吴老师带领同学一起做技术”和“吴老师带学生们去郊游”这种核心事件及事件意图的句法有效。
最后需要说明的是,本发明运用了word2vec和依存句法分析的技术成果,其内容不属于本发明声明保护范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (4)

1.一种基于语义向量的短文本相似性度量方法,其特征在于,包括以下步骤:
1)对短文本t1和t2进行分词,同时得到短文本t1和t2的分词词性;
2)根据短文本t1和t2的分词和词性,进行依存句法分析,获得句法结构;
3)根据根动词分布,对短文本t1和t2分类分析,分类分析如下:
a)如果短文本t1与t2均不存在根动词,则采用通用语义相似性公式计算短文本t1与t2的相似性,并输出结果;
b)如果短文本t1与t2任意一者存在根动词,而另一者不存在根动词,则语义相似性为0,并输出结果;
c)如果短文本t1与t2均存在根动词,则提取事件块,然后进入步骤4);所述事件块是指以根动词为核心事件的谓语,进而确定主语成分、宾语成分和动词补语;
所述事件块的提取方式为:
(c1)对于主语成分,基于根动词当前位置向前查询非名词,以非名词至根动词之间的名词为主语成分;如条件不满足,即不存在主语成分;
(c2)对于宾语成分,基于根动词当前位置向后查询非名词,以非名词与根动词之间的名词为宾语成分;如条件不满足,即不存在宾语成分;
(c3)对于动词补语,除根动词以外,如存在动词,即为动词补语;否则不存在动词补语;
4)对短文本t1与t2的事件块进行语义相似性分析;如果短文本t1与t2的事件块的语义相似性计算为0,则语义不相似;如果短文本t1与t2的事件块的语义相似性计算结果大于设定的阈值,则语义相似,则提取修饰块;
所述事件块的语义相似性计算如下:
Figure FDA0003960938750000011
其中,Smc表示事件块的语义相似性,BS,BP,Bo和BC是布尔量,如果短文本t1和t2均存在主语则BS为1,否则为0,如果短文本t1和t2均存在谓语则BP为1,否则为0,如果短文本t1和t2均存在宾语则Bo为1,否则为0,如果短文本t1和t2均存在动词补语则BC为1,否则为0;SS,SP,So和SC分别是短文本t1和t2的事件块的主语,谓语,宾语和动词补语的语义相似性,采用通用语义相似性公式计算;
所述提取修饰块是指,根据依存句法指明的分词依存关系,将与主语成分、谓语、宾语成分、动词补语直接向量的分词及其依存分词,视为一个修饰块;
5)以短文本t1的修饰块顺序为基准,采用通用语义相似性公式,依次计算短文本t1中修饰块与短文本t2中修饰块的语义相似性;如果计算结果大于设定的阈值,则语义相似,则将短文本t2的修饰块调整到与t1相对应的位置;否则语义不相似,不调整;
6)修饰块交换后,将短文本t1和t2所有分词由词向量表示;短文本t1和t2中所有的分词都用词向量表示后,即构成短文本t1和t2的语义向量;
7)对短文本t1和t2的语义向量计算余弦距离,作为二者的语义相似性,输出计算结果。
2.根据权利要求1所述的一种基于语义向量的短文本相似性度量方法,其特征在于,所述短文本,如果存在,则仅存在一个事件块。
3.根据权利要求1所述的一种基于语义向量的短文本相似性度量方法,其特征在于,所述步骤6)中,所述分词的词向量因长度导致没有对齐的,填0补齐。
4.根据权利要求1所述的一种基于语义向量的短文本相似性度量方法,其特征在于,所述通用语义相似性计算如下:
Figure FDA0003960938750000021
其中,SB为通用语义相似性,B1和B2分别为短文本t1和t2,或者短文本t1和t2中的部分文本,包括主语,谓语,宾语,动词补语或修饰块;
B1={w11,w12,…w1L},w1l为B1的分词,l=1,2,…,L,L是B1中的分词数,L≤N,N是短文本t1的分词数;
B2={w21,w22,…w2K},w2k为B2的分词,k=1,2,…,K,K是B2中的分词数,K≤M,M是短文本t2的分词数;
S1l是B1中分词w1l的语义相似性,计算如下:
S1l=max{Sc(w1l,w21)+Sc(w1l,w22),…Sc(w1l,w2K)};
其中,Sc(w1l,w21)表示分词w1l和分词w21的语义相似性;
S2k是B2中分词w2k的语义相似性。
CN201910279109.6A 2019-04-09 2019-04-09 一种基于语义向量的短文本相似性度量方法 Active CN109977418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910279109.6A CN109977418B (zh) 2019-04-09 2019-04-09 一种基于语义向量的短文本相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910279109.6A CN109977418B (zh) 2019-04-09 2019-04-09 一种基于语义向量的短文本相似性度量方法

Publications (2)

Publication Number Publication Date
CN109977418A CN109977418A (zh) 2019-07-05
CN109977418B true CN109977418B (zh) 2023-03-31

Family

ID=67083612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910279109.6A Active CN109977418B (zh) 2019-04-09 2019-04-09 一种基于语义向量的短文本相似性度量方法

Country Status (1)

Country Link
CN (1) CN109977418B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7509313B2 (en) * 2003-08-21 2009-03-24 Idilia Inc. System and method for processing a query
CN104331394A (zh) * 2014-08-29 2015-02-04 南通大学 一种基于观点的文本分类方法
CN108763402B (zh) * 2018-05-22 2021-08-27 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法

Also Published As

Publication number Publication date
CN109977418A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN105095204B (zh) 同义词的获取方法及装置
Denis et al. Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN108334495A (zh) 短文本相似度计算方法及系统
CN113792818A (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
EP3203383A1 (en) Text generation system
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN108984661A (zh) 一种知识图谱中实体对齐方法和装置
CN110532328A (zh) 一种文本概念图构造方法
CN112417854A (zh) 中文文档抽取式摘要方法
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
US7752033B2 (en) Text generation method and text generation device
CN114997288A (zh) 一种设计资源关联方法
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Abdolahi et al. Sentence matrix normalization using most likely n-grams vector
CN109977418B (zh) 一种基于语义向量的短文本相似性度量方法
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Mohri et al. Probabilistic context-free grammar induction based on structural zeros
Schweighofer Improving Legal Case Summarization Using Document-Specific Catchphrases
CN111814025A (zh) 一种观点提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Wensong

Inventor after: Lin Feng

Inventor after: Hu Zhuqing

Inventor after: Zhang Jinhui

Inventor after: Zhang Peng

Inventor after: Yang Yanji

Inventor after: Zhang Zhipeng

Inventor after: Shao Rui

Inventor after: Zhu Le

Inventor before: Liu Wensong

Inventor before: Lin Feng

Inventor before: Hu Zhuqing

Inventor before: Zhang Jinhui

Inventor before: Zhang Peng

Inventor before: Yang Yanji

Inventor before: Zhang Zhipeng

Inventor before: Shao Rui

Inventor before: Zhu Le

GR01 Patent grant
GR01 Patent grant