CN109062892A - 一种基于Word2Vec的中文语句相似度计算方法 - Google Patents

一种基于Word2Vec的中文语句相似度计算方法 Download PDF

Info

Publication number
CN109062892A
CN109062892A CN201810747766.4A CN201810747766A CN109062892A CN 109062892 A CN109062892 A CN 109062892A CN 201810747766 A CN201810747766 A CN 201810747766A CN 109062892 A CN109062892 A CN 109062892A
Authority
CN
China
Prior art keywords
similarity
sentence
adjustment factor
word
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810747766.4A
Other languages
English (en)
Inventor
姜涛
王庆
宫俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810747766.4A priority Critical patent/CN109062892A/zh
Publication of CN109062892A publication Critical patent/CN109062892A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Word2Vec的中文语句相似度计算方法。该方法基于大型语料库训练得到词向量模型,并且通过LTP句法分析器将句子表示成句法成分树结构。该计算方法包括:接受用户输入的问题Q;对用户输入的问题Q进行分词,词性分析以及句法分析;将用户输入的问题Q与问题模板中的每个问题A进行匹配计算,获得问题Q与问题A之间的相似度调节系数score1和语义相似度得分score2;根据相似度调节系数score1和语义相似度score2计算获得问题Q与问题A之间的语句相似度score。本发明通过将句子的结构信息添加到语句相似度计算中,以及通过计算词汇之间的句法关系有效提高了相似度计算的准确率。

Description

一种基于Word2Vec的中文语句相似度计算方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种中文语句相似度计算方法。
背景技术
句子相似度计算是文本信息处理中一项很重要的基础研究工作,该技术广泛应用于文本摘要、自动问答系统和机器翻译中。这些应用系统的准确性极大程度上取决于句子相似度计算的准确性。因此,提高句子相似度计算的准确性是当前研究要解决的首要问题。
统计语言模型现已成为自然语言处理研究领域的主流,但以往自然语言处理领域的统计学习方法大多属于浅层模型,对数据的表示学习能力较弱,相似度的计算是基于表层特征,如候选答案的词频、查询词和候选答案的距离,而表层特征没有考虑语法、语义的因素,特别是词相同,但词语不同的情况。随着深度学习在语音和图像领域上表现出优异的表示学习能力,尤其是Word2Vec模型的提出,使词向量的表示更加准确,基于句法语义分析方法的出现也弥补了表层特征的不足。
在先申请“一种基于词向量的句子相似度比较方法”(申请号:201711273188.7)公开了一种基于词向量的句子相似度比较方法,先构建句子成分向量树,然后通过softpartial tree kernel函数计算最终的句子相似度得分。但该方法对句子中词语之间的关联,以及句子中词语的序列关系、位置关系对句子语义的影响,并没有进行充分考虑和具体计算。
发明内容
针对在先技术存在的不足,本发明提出了一种基于Word2Vec的中文语句相似度计算方法,该方法基于大型语料库训练得到词向量模型,通过LTP句法分析器将句子表示成句法成分树结构,通过设置两个句子的相似度调节系数和语义相似度,使两个句子的语句相似度可通过句子相似度调节系数和句子语义相似度加权求和得到。
本发明的技术方案是这样实现的:
一种基于Word2Vec的中文语句相似度计算方法,该方法包括:
S1.1,通过Word2Vec训练一中文语料库,得到词向量模型;
S1.2,通过爬虫软件爬取网上语料,创建问题模板;
S1.3,对用户输入的问题Q和问题模板中的一个问题A进行分词,词性分析以及句法分析;
S1.4,将用户输入的问题Q与问题模板中的该问题A通过词向量模型进行匹配计算,获得用户输入的问题Q与问题模板中的该问题A之间的相似度调节系数score1和语义相似度score2;
S1.5,通过相似度调节系数score1和语义相似度score2计算获得用户输入的问题Q与问题模板中该问题A的语句相似度score,所述语句相似度score、相似度调节系数score1和语义相似度score2满足公式:score=a1*score1+a2*score2,其中a1+a2=1;
S1.6,重复上述步骤S1.3-S1.5,遍历问题模板库中的所有问题,得到用户输入问题Q与问题模板中所有问题的语句相似度score;
S1.7,从问题模板中选择与用户输入的问题Q语句相似度score值最大的问题的答案推送给用户。
进一步的,所述步骤S1.1中的中文语料库采用的是维基百科的中文语料。
进一步的,所述步骤S1.3中先使用LTP句法分析器对问题Q和问题A对应的中文语句做预处理,具体包括如下步骤:
S1.3.1,使用LTP句法分析器中的分词模型对所述中文语句进行分词,过滤停用词以及去除无意义词语的操作;
S1.3.2,根据分词的结果,使用LTP句法分析器中的词性标注模型对分词后的词语进行词性标注;
S1.3.3,根据词性标注的结果,使用LTP句法分析器中的依存句法分析模型对标注词性后的句子进行依存句法分析,得到语义依存树。
进一步的,所述步骤S1.4中相似度调节系数score1的计算公式Ⅰ为:score1=k*λ*γ*β,语义相似度score2的计算公式Ⅱ为:score2=b1*Sim1(Q,A)+b2*Sim2(Q,A)+b3*Sim3(Q,A);公式Ⅰ中,k为句型调节系数,用于区分疑问句和陈述句,疑问句对陈述句的调节系数为0.1,句型相同时调节系数为1;λ为句子成分调节系数,用于在问题Q和问题A对应的两个句子划分的成分数量不等时进行调节,m、n分别代表问题Q和问题A对应句子划分的成分个数,i为问题Q和问题A对应句子划分成分后相同成分的个数;γ为否定调节系数,用于问题Q和问题A对应的两个句子的谓语中心词是反义词或者一个的谓语中心词是另一个的谓语中心词前面加否定词的情况时的调节,γ的值为-1,当语句相似度为负,表示两个句子的意思相反;β为词组位置调节系数,计算公式为其中R1和R2是问题Q和问题A的词组位置向量;公式Ⅱ中,Sim1(Q,A)、Sim2(Q,A)、Sim3(Q,A)分别表示核心词语相似度、重要词语相似度、次要词语相似度,b1、b2、b3分别表示三个部分的权重系数,b1+b2+b3=1;所述核心词语是指语义依存树的根节点,即全局核心词语,所述重要词语是指语义依存树中与核心词语直接相连的名词、动词、形容词和副词的集合,所述次要词语是指句子中除核心词语重要词语之外的名词、动词、形容词和副词的集合。
更进一步的,所述词组位置调节系数β计算步骤包括:
S1.4.1,对问题Q和问题A分别进行分词,分别得到多个词组或短语,记为向量T1和T2;
S1.4.2,合并T1和T2,得到它们的并集T,并集T包含的词组个数记为K;
S1.4.3,对于T中的每个词组Ti,查找与之相同的T1中的词组,提取该词组在T1中的下标j,然后构建词组位置向量R1,令R1i=j,同理构建向量R2;
S1.4.4,将R1、R2带入公式计算词组位置调节系数β。
本发明技术方案中所述的LTP句法分析器是基于哈尔滨工业大学语言技术平台(Language Technology Platform,LTP)的一种句法分析工具。
本发明的有益效果在于:
1.通过将句子的结构信息添加到语句相似度计算中,以及通过考虑词汇之间的句法关系,提高了复杂句式相似度计算的准确率。
2.通过采用LTP句法分析器对语句做预处理,使本发明计算方法处理对象的语句成分更加标准化、规范化,容易更快更好地得出计算结果。
3.相似度调节系数score1内部进一步引入了句型调节系数、句子成分调节系数、否定调节系数和词组位置调节系数,使相似度调节的作用更加准确可靠。
4.语义相似度score2内部进一步引入了核心词语相似度、重要词语相似度、次要词语相似度,及b1、b2、b3三个权重系数,使语义相似度的计算调更加准确。
附图说明
附图1为本发明中文语句相似度计算方法整体流程示意图;
附图2为本发明中文语句相似度计算方法的词性标注以及句法分析结果示意图;
附图3为本发明中文语句相似度计算方法的依存句法树示意图。
具体实施方式
下面结合附图对本发明具体实施方式做进一步说明:
如附图1-3所示,一种基于Word2Vec的中文语句相似度计算方法,该方法包括:
S1.1,通过Word2Vec训练一中文语料库,得到词向量模型;
S1.2,通过爬虫软件爬取网上语料,创建问题模板;
S1.3,对用户输入的问题Q和问题模板中的一个问题A进行分词,词性分析以及句法分析;
S1.4,将用户输入的问题Q与问题模板中的该问题A通过词向量模型进行匹配计算,获得用户输入的问题Q与问题模板中的该问题A之间的相似度调节系数score1和语义相似度score2;
S1.5,通过相似度调节系数score1和语义相似度score2计算获得用户输入的问题Q与问题模板中该问题A的语句相似度score,所述语句相似度score、相似度调节系数score1和语义相似度score2满足公式:score=a1*score1+a2*score2,其中a1+a2=1;
S1.6,重复上述步骤S1.3-S1.5,遍历问题模板库中的所有问题,得到用户输入问题Q与问题模板中所有问题的语句相似度score;
S1.7,从问题模板中选择与用户输入的问题Q语句相似度score值最大的问题的答案推送给用户。
进一步的,所述步骤S1.1中的中文语料库采用的是维基百科的中文语料。
进一步的,所述步骤S1.3中先使用LTP句法分析器对问题Q和问题A对应的中文语句做预处理,具体包括如下步骤:
S1.3.1,使用LTP句法分析器中的分词模型对所述中文语句进行分词,过滤停用词以及去除无意义词语的操作;
S1.3.2,根据分词的结果,使用LTP句法分析器中的词性标注模型对分词后的词语进行词性标注;
S1.3.3,根据词性标注的结果,使用LTP句法分析器中的依存句法分析模型对标注词性后的句子进行依存句法分析,得到语义依存树。
进一步的,所述步骤S1.4中相似度调节系数score1的计算公式Ⅰ为:score1=k*λ*γ*β,语义相似度score2的计算公式Ⅱ为:score2=b1*Sim1(Q,A)+b2*Sim2(Q,A)+b3*Sim3(Q,A);公式Ⅰ中,k为句型调节系数,用于区分疑问句和陈述句,疑问句对陈述句的调节系数为0.1,句型相同时调节系数为1;λ为句子成分调节系数,用于在问题Q和问题A对应的两个句子划分的成分数量不等时进行调节,m、n分别代表问题Q和问题A对应句子划分的成分个数,i为问题Q和问题A对应句子划分成分后相同成分的个数;γ为否定调节系数,用于问题Q和问题A对应的两个句子的谓语中心词是反义词或者一个的谓语中心词是另一个的谓语中心词前面加否定词的情况时的调节,γ的值为-1,当语句相似度为负,表示两个句子的意思相反;β为词组位置调节系数,计算公式为其中R1和R2是问题Q和问题A的词组位置向量;公式Ⅱ中,Sim1(Q,A)、Sim2(Q,A)、Sim3(Q,A)分别表示核心词语相似度、重要词语相似度、次要词语相似度,b1、b2、b3分别表示三个部分的权重系数,b1+b2+b3=1;所述核心词语是指语义依存树的根节点,即全局核心词语,所述重要词语是指语义依存树中与核心词语直接相连的名词、动词、形容词和副词的集合,所述次要词语是指句子中除核心词语重要词语之外的名词、动词、形容词和副词的集合。
更进一步的,所述词组位置调节系数β计算步骤包括:
S1.4.1,对问题Q和问题A分别进行分词,分别得到多个词组或短语,记为向量T1和T2;
S1.4.2,合并T1和T2,得到它们的并集T,并集T包含的词组个数记为K;
S1.4.3,对于T中的每个词组Ti,查找与之相同的T1中的词组,提取该词组在T1中的下标j,然后构建词组位置向量R1,令R1i=j,同理构建向量R2;
S1.4.4,将R1、R2带入公式计算词组位置调节系数β。
参照附图1-3,上述实施方式的一个具体实施例为:
步骤1:使用Word2Vec工具训练维基百科中文语料库,得到词向量模型;
步骤2:对用户输入的问题Q和问题模板库中的问题A进行分词,词性分析以及句法分析;
步骤2-1:使用LTP中的分词模型对中文语句进行分词,过滤停用词以及去除无意义词语等操作。
步骤2-2:根据分词的结果,使用LTP中的词性标注模型对分词后的词语进行词性标注。
步骤2-3:根据词性标注的结果,使用LTP中的依存句法分析模型对标注词性后的句子进行依存句法分析,得到语义依存树,如附图3。
步骤3:将所述用户输入的问题Q与所述问题模板中的每个问题A进行匹配计算,获得所述用户输入的问题Q与所述问题模板中的每个问题A之间的相似度调节系数score1=k*λ*γ*β;
步骤3-1:计算句型调节系数k,主要是区分疑问句和陈述句,将疑问句对陈述句的调节系数设置为0.1,句型相同时k为1。
步骤3-2:计算句子成分系数λ,即句子划分的成分不等时的调节系数,其值设为m何n分别代表输入问题Q和问题模板中问题A所包含的成分个数,i为输入问题Q和问题模板中问题A中相对应成分的个数。
步骤3-3:计算否定系数γ,即两个句子中明显出现输入问题Q和问题模板中问题A的谓语中心词是反义词或対义词,或者输入问题Q和问题模板中问题A的谓语中心词前有“不”的情况,则将γ的值设置为-1,因此语句相似度为负说明两个句子的意思相反。
步骤3-4:计算词组位置调节系数β,计算公式为
其中R1和R2是输入问题Q和问题A的词组位置向量。
步骤3-4-1:对问题Q和问题A分别进行分词,分别得到若干个词组或短语,记为向量T1和T2。
步骤3-4-2:通过T1和T2,得到它们的并集T,包含k个词组。
步骤3-4-3:对于T中的每个词组Ti,查找T1中与之相同的词组,记下该词组在T1中的下标j,然后构建词组位置向量R1,令R1i=j;同理构建向量R2.
步骤3-4-4:通过R1和R2计算词组位置调节系数β。
步骤4:将所述用户输入的问题Q与所述问题模板中的每个问题A进行匹配计算,获得所述用户输入的问题Q与所述问题模板中的每个问题A之间的语义相似度得分score2=b1*Sim1(Q,A)+b2*Sim2(Q,A)+b3*Sim3(Q,A);
score2的值由Sim1(Q,A),Sim2(Q,A),Sim3(Q,A)三部分共同构成
步骤4-1:计算核心词相似度Sim1(Q,A);
步骤4-2:计算重要词语相似度Sim2(Q,A);
步骤4-3:计算次要词语相似度Sim3(Q,A);
步骤5:根据所述相似度调节系数score1和语义相似度score2计算获得所述用户输入的问题Q与所述问题模板中的每个问题A之间的语句相似度score,计算公式为score=a1*score1+a2*score2,a1+a2=1;
步骤6:从所述问题模板中选择与所述用户输入的问题Q具有最高语句相似度的问题的答案推送给用户。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何利用本发明基于Word2Vec的中文语句相似度计算方法的思路均属于本发明技术构思的保护范围,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于Word2Vec的中文语句相似度计算方法,该方法包括:
S1.1,通过Word2Vec训练一中文语料库,得到词向量模型;
S1.2,通过爬虫软件爬取网上语料,创建问题模板;
S1.3,对用户输入的问题Q和问题模板中的一个问题A进行分词,词性分析以及句法分析;
S1.4,将用户输入的问题Q与问题模板中的该问题A通过词向量模型进行匹配计算,获得用户输入的问题Q与问题模板中的该问题A之间的相似度调节系数score1和语义相似度score2;
S1.5,通过相似度调节系数score1和语义相似度score2计算获得用户输入的问题Q与问题模板中该问题A的语句相似度score,所述语句相似度score、相似度调节系数score1和语义相似度score2满足公式:score=a1*score1+a2*score2,其中a1+a2=1;
S1.6,重复上述步骤S1.3-S1.5,遍历问题模板库中的所有问题,得到用户输入问题Q与问题模板中所有问题的语句相似度score;
S1.7,从问题模板中选择与用户输入的问题Q语句相似度score值最大的问题的答案推送给用户。
2.根据权利要求1所述的计算方法,其特征在于:所述步骤S1.1中的中文语料库采用的是维基百科的中文语料。
3.根据权利要求1所述的计算方法,其特征在于,所述步骤S1.3中先使用LTP句法分析器对问题Q和问题A对应的中文语句做预处理,具体包括如下步骤:
S1.3.1,使用LTP句法分析器中的分词模型对所述中文语句进行分词,过滤停用词以及去除无意义词语的操作;
S1.3.2,根据分词的结果,使用LTP句法分析器中的词性标注模型对分词后的词语进行词性标注;
S1.3.3,根据词性标注的结果,使用LTP句法分析器中的依存句法分析模型对标注词性后的句子进行依存句法分析,得到语义依存树。
4.根据权利要求1所述的计算方法,其特征在于,所述步骤S1.4中相似度调节系数score1的计算公式Ⅰ为:score1=k*λ*γ*β,语义相似度score2的计算公式Ⅱ为:score2=b1*Sim1(Q,A)+b2*Sim2(Q,A)+b3*Sim3(Q,A);公式Ⅰ中,k为句型调节系数,用于区分疑问句和陈述句,疑问句对陈述句的调节系数为0.1,句型相同时调节系数为1;λ为句子成分调节系数,用于在问题Q和问题A对应的两个句子划分的成分数量不等时进行调节,m、n分别代表问题Q和问题A对应句子划分的成分个数,i为问题Q和问题A对应句子划分成分后相同成分的个数;γ为否定调节系数,用于问题Q和问题A对应的两个句子的谓语中心词是反义词或者一个的谓语中心词是另一个的谓语中心词前面加否定词的情况时的调节,γ的值为-1,当语句相似度为负,表示两个句子的意思相反;β为词组位置调节系数,计算公式为其中R1和R2是问题Q和问题A的词组位置向量;公式Ⅱ中,Sim1(Q,A)、Sim2(Q,A)、Sim3(Q,A)分别表示核心词语相似度、重要词语相似度、次要词语相似度,b1、b2、b3分别表示三个部分的权重系数,b1+b2+b3=1;所述核心词语是指语义依存树的根节点,即全局核心词语,所述重要词语是指语义依存树中与核心词语直接相连的名词、动词、形容词和副词的集合,所述次要词语是指句子中除核心词语重要词语之外的名词、动词、形容词和副词的集合。
5.根据权利要求4所述的计算方法,其特征在于,所述词组位置调节系数β计算步骤包括:
S1.4.1,对问题Q和问题A分别进行分词,分别得到多个词组或短语,记为向量T1和T2;
S1.4.2,合并T1和T2,得到它们的并集T,并集T包含的词组个数记为K;
S1.4.3,对于T中的每个词组Ti,查找与之相同的T1中的词组,提取该词组在T1中的下标j,然后构建词组位置向量R1,令R1i=j,同理构建向量R2;
S1.4.4,将R1、R2带入公式计算词组位置调节系数β。
CN201810747766.4A 2018-07-10 2018-07-10 一种基于Word2Vec的中文语句相似度计算方法 Pending CN109062892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810747766.4A CN109062892A (zh) 2018-07-10 2018-07-10 一种基于Word2Vec的中文语句相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810747766.4A CN109062892A (zh) 2018-07-10 2018-07-10 一种基于Word2Vec的中文语句相似度计算方法

Publications (1)

Publication Number Publication Date
CN109062892A true CN109062892A (zh) 2018-12-21

Family

ID=64819185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810747766.4A Pending CN109062892A (zh) 2018-07-10 2018-07-10 一种基于Word2Vec的中文语句相似度计算方法

Country Status (1)

Country Link
CN (1) CN109062892A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918651A (zh) * 2019-02-14 2019-06-21 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN110287282A (zh) * 2019-05-20 2019-09-27 湖南大学 基于树核计算的智能对话系统应答方法及智能对话系统
CN110532566A (zh) * 2019-09-03 2019-12-03 山东浪潮通软信息科技有限公司 一种垂直领域问句相似度计算的实现方法
CN110688472A (zh) * 2019-10-09 2020-01-14 厦门今立方科技有限公司 一种自动筛选问题答案的方法、终端设备及存储介质
CN110990537A (zh) * 2019-12-11 2020-04-10 中山大学 一种基于边缘信息和语义信息的句子相似度计算方法
CN111027331A (zh) * 2019-12-05 2020-04-17 百度在线网络技术(北京)有限公司 用于评估翻译质量的方法和装置
CN111428002A (zh) * 2020-03-23 2020-07-17 南京烽火星空通信发展有限公司 一种自然语言人机交互式的智能问答实现方法
WO2020222202A1 (en) * 2019-05-02 2020-11-05 The Clinician Pte. Ltd System and method for phrase comparison consolidation and reconciliation
TWI712949B (zh) * 2019-05-28 2020-12-11 雲義科技股份有限公司 語意相似度計算方法
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
CN112733517A (zh) * 2021-01-12 2021-04-30 上海复佳信息科技有限公司 需求模板符合性检查的方法、电子设备及存储介质
CN113128202A (zh) * 2020-01-10 2021-07-16 中国科学院软件研究所 一种面向物联网服务的智能编排方法和装置
CN113239666A (zh) * 2021-05-13 2021-08-10 深圳市智灵时代科技有限公司 一种文本相似度计算方法及系统
CN113312908A (zh) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN113536772A (zh) * 2021-07-15 2021-10-22 浙江诺诺网络科技有限公司 一种文本处理方法、装置、设备及存储介质
CN114254090A (zh) * 2021-12-08 2022-03-29 马上消费金融股份有限公司 问答知识库的扩充方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021555A (zh) * 2017-11-21 2018-05-11 浪潮金融信息技术有限公司 一种基于深度卷积神经网络的问句相似度度量方法
CN108256056A (zh) * 2018-01-12 2018-07-06 广州杰赛科技股份有限公司 智能问答方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021555A (zh) * 2017-11-21 2018-05-11 浪潮金融信息技术有限公司 一种基于深度卷积神经网络的问句相似度度量方法
CN108256056A (zh) * 2018-01-12 2018-07-06 广州杰赛科技股份有限公司 智能问答方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
廖志芳 等: ""中文短文本语法语义相似度算法"", 《湖南大学学报》 *
李晓 等: ""基于Word2vec的句子语义相似度计算研究"", 《计算机科学》 *
梁敬东 等: ""基于 word2vec 和 LSTM 的句子相似度计算及其 在水稻 FAQ 问答系统中的应用"", 《南京农业大学学报》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918651B (zh) * 2019-02-14 2023-05-02 北京小米智能科技有限公司 同义词性模板获取方法及装置
CN109918651A (zh) * 2019-02-14 2019-06-21 北京小米智能科技有限公司 同义词性模板获取方法及装置
WO2020222202A1 (en) * 2019-05-02 2020-11-05 The Clinician Pte. Ltd System and method for phrase comparison consolidation and reconciliation
CN110287282A (zh) * 2019-05-20 2019-09-27 湖南大学 基于树核计算的智能对话系统应答方法及智能对话系统
TWI712949B (zh) * 2019-05-28 2020-12-11 雲義科技股份有限公司 語意相似度計算方法
CN112101037A (zh) * 2019-05-28 2020-12-18 云义科技股份有限公司 语意相似度计算方法
CN110532566A (zh) * 2019-09-03 2019-12-03 山东浪潮通软信息科技有限公司 一种垂直领域问句相似度计算的实现方法
CN110532566B (zh) * 2019-09-03 2023-05-02 浪潮通用软件有限公司 一种垂直领域问句相似度计算的实现方法
CN110688472A (zh) * 2019-10-09 2020-01-14 厦门今立方科技有限公司 一种自动筛选问题答案的方法、终端设备及存储介质
US11481562B2 (en) 2019-12-05 2022-10-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for evaluating translation quality
CN111027331A (zh) * 2019-12-05 2020-04-17 百度在线网络技术(北京)有限公司 用于评估翻译质量的方法和装置
CN110990537A (zh) * 2019-12-11 2020-04-10 中山大学 一种基于边缘信息和语义信息的句子相似度计算方法
CN110990537B (zh) * 2019-12-11 2023-06-27 中山大学 一种基于边缘信息和语义信息的句子相似度计算方法
CN113128202A (zh) * 2020-01-10 2021-07-16 中国科学院软件研究所 一种面向物联网服务的智能编排方法和装置
CN113128202B (zh) * 2020-01-10 2022-05-17 中国科学院软件研究所 一种面向物联网服务的智能编排方法和装置
CN111428002A (zh) * 2020-03-23 2020-07-17 南京烽火星空通信发展有限公司 一种自然语言人机交互式的智能问答实现方法
CN112733517A (zh) * 2021-01-12 2021-04-30 上海复佳信息科技有限公司 需求模板符合性检查的方法、电子设备及存储介质
CN113312908A (zh) * 2021-01-26 2021-08-27 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN113312908B (zh) * 2021-01-26 2024-02-06 北京新方通信技术有限公司 句子相似度计算方法、系统及计算机可读存储介质
CN113239666A (zh) * 2021-05-13 2021-08-10 深圳市智灵时代科技有限公司 一种文本相似度计算方法及系统
CN113239666B (zh) * 2021-05-13 2023-09-29 深圳市智灵时代科技有限公司 一种文本相似度计算方法及系统
CN113536772A (zh) * 2021-07-15 2021-10-22 浙江诺诺网络科技有限公司 一种文本处理方法、装置、设备及存储介质
CN114254090A (zh) * 2021-12-08 2022-03-29 马上消费金融股份有限公司 问答知识库的扩充方法及装置

Similar Documents

Publication Publication Date Title
CN109062892A (zh) 一种基于Word2Vec的中文语句相似度计算方法
CN109408642B (zh) 一种基于距离监督的领域实体属性关系抽取方法
WO2020211275A1 (zh) 基于预训练模型与微调技术的医疗文本关系抽取方法
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
Cussens Part-of-speech tagging using Progol
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN102214166B (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN110348024A (zh) 基于法律知识图谱的智能识别系统
CN107092605A (zh) 一种实体链接方法及装置
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
Schröder et al. Neural end-to-end coreference resolution for German in different domains
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN106502987B (zh) 一种基于种子句子的句子模板召回的方法和设备
Volk et al. Bi-particle adverbs, PoS-tagging and the recognition of German separable prefix verbs
CN106250367B (zh) 基于改进的Nivre算法构建越南语依存树库的方法
Govilkar et al. Question answering system using ontology in Marathi language
Huang et al. A robust estimation scheme of reading difficulty for second language learners
Liu et al. Linked open data query based on natural language
He et al. [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning
CN112149428A (zh) 基于语义分析和深度学习的智能写作辅助系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221