CN109271494B - 一种自动提取中文问答语句焦点的系统 - Google Patents

一种自动提取中文问答语句焦点的系统 Download PDF

Info

Publication number
CN109271494B
CN109271494B CN201810911629.XA CN201810911629A CN109271494B CN 109271494 B CN109271494 B CN 109271494B CN 201810911629 A CN201810911629 A CN 201810911629A CN 109271494 B CN109271494 B CN 109271494B
Authority
CN
China
Prior art keywords
focus
word
question
module
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810911629.XA
Other languages
English (en)
Other versions
CN109271494A (zh
Inventor
鲍军鹏
田孟
何晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201810911629.XA priority Critical patent/CN109271494B/zh
Publication of CN109271494A publication Critical patent/CN109271494A/zh
Application granted granted Critical
Publication of CN109271494B publication Critical patent/CN109271494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种自动提取中文问答语句焦点的系统,该方法包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块,该方法基于双向循环神经网络模型提取问题焦点,可以同时提取问句中的多个焦点,且能够区分多个焦点的不同语义;能够自动学习出不同问句的句型模式以及每种句型模型中焦点的位置,无需专家设计提取规则;能够适应未知的新焦点词,准确提取未知焦点词。该方法不但提取焦点正确率高,而且还具有很好的泛化能力,能够大大减少训练语料数量。该方法对于提高问答系统性能有重要作用。

Description

一种自动提取中文问答语句焦点的系统
技术领域
本发明涉及智能信息处理和计算机技术领域,特别涉及一种自动提取中文问答语句焦点的系统。
背景技术
自动问答是当前人工智能和自然语言处理技术应用的一个重点。自动问答系统都是以自然语言文本为输入,然后系统针对输入文本输出相应的答案。自动问答系统中的一个关键技术就是分析提取问句的焦点词。而自然语言文本灵活多变,不规范性、模糊性很强。尤其是对于中文,这些特性尤为突出。不同问题涉及的焦点也不一样。所以使用人工语法规则来提取焦点的策略难以实用。设计语法规则不仅需要人类专家花费大量的精力,而且根据语法规则提取问题焦点的方法正确率低,泛化能力差。使用统计机器学习方法来提取焦点,则一方面需要大量的训练语料数据才能获得较准确词语分布概率;另一方面,统计方法难以处理新出现的、未知的词语。传统焦点词提取算法准确率差,不能满足问答系统的要求。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种自动提取中文问答语句焦点的系统,不仅准确率高,而且具有很好的泛化能力。
为了实现上述目的,本发明采用的技术方案是:
一种自动提取中文问答语句焦点的系统系统,包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块;
1)分词和词向量模块将问句切分成一个词序列,并生成所有词的词向量;
2)焦点信息模块确定每一类问题的焦点信息,标记训练数据中每个问句中的焦点位置,生成清洗后的训练数据;
3)焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型,学习记忆不同问句的句型模式以及每种句型模式中的焦点位置,最后生成多焦点提取网络模型;
4)焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量,然后依次将词向量输入多焦点提取网络模型中,最终得到该问句焦点所在的位置。
所述的步骤1中对于输入问句可以使用中文分词工具(例如jieba、NLPIR等)将其切分成词序列。然后再利用word2vec等工具训练生成每个词的词向量。词向量也可以在训练模型的过程中自动生成;
所述的步骤2中:首先对每一类问题人工确定该类问题所关注的焦点数目和具体焦点,例如对于行李类问题,其关注焦点数目只有1个,就是要携带的物品;对于航班时刻类问题,其关注的焦点数目有2个,一个是出发地点,一个是目的地点,然后人工标记训练数据中每一个问句的焦点词位置,并生成该该问句的输出向量,即,该问句中焦点词所对应位置的期望输出值标记为1,其余词所对应位置的期望输出值设置为0,如果该问句所对应问题有多个焦点,则每一个焦点生成一个相应的输出向量。最后,由一个输入问句和对应的输出向量就构成了一条具体的清洗后的训练数据。
所述的多焦点提取网络模型使用神经网络自动提取中文问答语句的焦点,该网络中输入层与隐层之间全连接,隐层与输出层之间全连接,隐层神经元之间在时间上前后相互连接,所有神经元激活函数均使sigmoid函数,包括x、t、h、o四个数值,其中xt表示句子中第t个词的词向量,ht表示当输入第t个词时正向计算的隐层值,ht'表示当输入第t个词时反向计算的隐层值,h0和h’n+1是全零向量,分别表示网络正向和反向的初始隐层值,n是句子中词的个数,
Figure BDA0001761971200000031
是第k个焦点对应的输出组在输入第t个词时的输出值,即第t个词是第k个焦点的可能性。
所述的输出层设置了多组输出,每一组提取一个对应焦点,既能同时提取多个焦点,又能区分各焦点的不同语义。
所述的多焦点提取网络模型能够兼顾完全焦点和不完全焦点问句,不完全焦点问句是指一个问句中未包含全部焦点,而只是包含了部分焦点,在执行阶段给每一组输出值设定一个判定阈值,当第k组最大输出值大于τk时,则判定问句中包含该组所期望焦点,并输出最大值所对应的焦点词;否则,判定问句中未出现该组所期望焦点,τk的值由下式计算,其中
Figure BDA0001761971200000032
代表样例中第k组非焦点词所在位置输出的最大值,
Figure BDA0001761971200000033
代表第k组焦点词所在位置输出的最小值,为了统一,将完全焦点问句的τ值设为0;
Figure BDA0001761971200000034
所述的焦点训练模块在训练阶段学习记忆多种不同的问句句型,并且记忆每种句型中各个位置上的词成为焦点词的概率,该方法所记忆的句型与按照词性组合或者语法确定的句型不同,不要求输入问句的句型与记忆句型完全一致,只要句型类似就可以正确提取焦点,该方法能够提取出未知的新焦点词,由于该方法并不是直接学习记忆焦点词本身,而是记忆每种句型中焦点词的可能出现位置,所以,即使在训练库中没出现过的未知新焦点词,只要它周围的词与训练集中焦点周围的词类似,该方法就能够将该词作为焦点正确提取出来。
所述的焦点训练模块在训练时,按照问题文本中词的顺序依次输入每一个词的词向量,若t时刻输入词是该问题对应的焦点词,则将该时刻的期望输出值设置为1,否则设置为0;所述的焦点提取模块在执行时,同样按照词在问句中的顺序,依次把词向量输入多焦点提取网络模型,然后计算每个词成为焦点的概率,选择每一个输出组中输出值最大位置上的词作为问句焦点词;若存在不完全焦点问题,则需判断每一组的最大输出值与该组阈值之间的关系,若最大输出值大于阈值,则提取焦点,否则判定该组对应的焦点不存在。
本发明的有益效果:
本发明利用计算机自动提取中文问句的焦点词,可以同时提取问句中的多个焦点,且能够区分多个焦点的不同语义;能够自动学习出不同问句的句型模式以及每种句型模型中焦点的位置,无需设计提取规则;能够适应未知的新焦点词,准确提取未知焦点词。该方法不但提取焦点正确率高,而且还具有很好的泛化能力,能够大大减少训练语料数量。该方法对于提高问答系统性能有重要作用。
附图说明
图1是本方法的多焦点提取网络模型按时间展开结构。
图2是本方法的模块框架图。
图3是本方法的多焦点提取网络模型训练过程流程图。
图4是本方法的多焦点提取网络模型焦点提取过程流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明的自动提取中文问答语句焦点的方法包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块。分词和词向量模块将问句切分成一个词序列,并生成所有词的词向量。焦点信息模块确定每一类问题的焦点信息,标记训练数据中每个问句中的焦点位置,生成清洗后的训练数据。焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型,学习记忆不同问句的句型模式以及每种句型模式中的焦点位置,最后生成多焦点提取网络模型。焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量,然后依次将词向量输入多焦点提取网络模型中,然后自动给出该问句焦点所在的位置,从而得到该问句的焦点词。
多焦点提取网络模型结构如图1所示。输入层与隐层之间全连接,隐层与输出层之间全连接,隐层神经元之间在时间上前后相互连接。所有神经元激活函数均使sigmoid函数。图中xt表示句子中第t个词的词向量,ht表示当输入第t个词时正向计算的隐层值,ht'表示当输入第t个词时反向计算的隐层值。h0和h’n+1是全零向量,分别表示网络正向和反向的初始隐层值,n是句子中词的个数。
Figure BDA0001761971200000051
是第k个焦点对应的输出组在输入第t个词时的输出值,即第t个词是第k个焦点的可能性。
本方法中各神经元的计算公式如下,其中f是sigmoid函数。
ht=f(Vht-1+Wxt) (1)
ht'=f(V'h't-1+W'xt) (2)
Figure BDA0001761971200000052
Figure BDA0001761971200000053
tk*代表第k个焦点所在的位置。第k组n个输出值中最大值所处现的位置就是第k个焦点所在的位置,n表示一个问句中词的总数。也就是说,本方法判定输入问句中哪一个位置上的词最有可能是第k组的焦点词,即,第k组焦点词概率最大的一个位置。
焦点训练模块在训练阶段学习记忆多种不同的问句句型,并且记忆每种句型中各个位置上的词成为焦点词的概率。该方法所记忆的句型与按照词性组合或者语法确定的句型不同。该方法具有很好的泛化能力,不要求输入问句的句型与记忆句型完全一致,只要句型类似就可以正确提取焦点。该方法能够提取出未知的新焦点词。由于该方法并不是直接学习记忆焦点词本身,而是记忆每种句型中焦点词的可能出现位置。所以,即使在训练库中没出现过的未知新焦点词,只要它周围的词与训练集中焦点周围的词类似,该方法就能够将该词作为焦点正确提取出来。
本方法能够同时提取问句中的多个焦点词,并区分多个焦点词之间的不同语义。该方法的输出层设置了多组输出,每一组提取一个对应焦点。这样该方法既能同时提取多个焦点,又能区分各焦点的不同语义。
本方法能够兼顾完全焦点和不完全焦点问句。不完全焦点问句是指一个问句中未包含全部焦点,而只是包含了部分焦点。在执行阶段我们给每一组输出值设定一个判定阈值。当第k组最大输出值大于τk时,则判定问句中包含该组所期望焦点,并输出最大值所对应的焦点词;否则,判定问句中未出现该组所期望焦点。τk的值可由下式计算,其中
Figure BDA0001761971200000061
代表样例中第k组非焦点词所在位置输出的最大值,
Figure BDA0001761971200000062
代表第k组焦点词所在位置输出的最小值。为了统一,将完全焦点问句的τ值设为0。
Figure BDA0001761971200000063
焦点训练模块在训练时,按照问题文本中词的顺序依次输入每一个词的词向量。若t时刻输入词是该问题对应的焦点词,则将该时刻的期望输出值设置为1,否则设置为0。焦点提取模块在执行时,同样按照词在问句中的顺序,依次把词向量输入多焦点提取网络模型中,然后计算每个词成为焦点的概率,选择每一个输出组中输出值最大位置上的词作为问句焦点词。若存在不完全焦点问题,则需判断每一组的最大输出值与该组阈值之间的关系,若最大输出值大于阈值,则提取焦点,否则判定该组对应的焦点不存在。
具体实施
本发明提供了一种针对中文问句的焦点词自动提取的方法。用人工神经网络对训练语料数据进行训练,学习出不同问句的句型模式,然后通过神经网络给出焦点词的最可能位置,从而最终提取出一个或者多个焦点词。
参照图1,本方法每次将一个词向量输入神经网络。词向量为100维。多焦点提取网络模型的输入层有50个神经元;隐层有100个神经元,包括50个正向计算的神经元和50个反向计算的神经元。输出层有k(k≥1)组神经元,每组有1个神经元。输入层与隐层之间全连接,隐层与输出层之间全连接,隐层神经元之间在时间上前后相互连接。所有神经元激活函数均使sigmoid函数,学习速率α设置为0.1。
参照图2,其为本方法的模块框架图,首先是2-1分词和词向量模块。该模块对问句进行分词,然后根据分词结果参照词向量字典得到问句的词向量表示,词向量可以预先训练得到,也可以在训练模型的过程中自动生成。其次是2-2焦点信息模块。该模块确定每一类问题的焦点信息,并标记每一个问句的焦点词位置,为问句中的每一个焦点设置一组输出。将焦点词所对应的位置的期望输出值标记为1,其余词的期望输出值设置为0,生成清洗后的训练数据。然后是2-3焦点训练模块。该模块通过训练神经网络得到多焦点提取网络模型。最后是2-4焦点提取模块。该模块依次输入问句中每个词的词向量,最后会提取出该问句的焦点词,提取过程如图4所示。
参照图3,其为本方法焦点训练模块进行训练的流程图。在开始训练时,所有权值初始化为一个很小的随机数。首先进行步骤3-1,初始化参数值,包括循环次数初始值h,停止训练时的期望误差e0,训练问句个数N。然后进行步骤3-2,将当前的问题编号i指向第一个问题。进行步骤3-3对问题i进行分词,得到一个词序列,并将这个词序列转化为词向量。进行步骤3-4将词向量按照顺序输入到网络模型中,计算得到每个词成为焦点词的概率。若t时刻输入词是该问题对应的焦点词,则将该时刻的期望输出值设置为1,否则设置为0。进行步骤3-5计算网络实际输出和期望输出之间的误差δ;进行步骤3-6利用误差δ,按照反向传播算法更新网络中的所有权值;进行步骤3-7将问题编号i指向下一个问题。进行步骤3-8,判断当前处理的问题是否是训练数据中的最后一个问题。若是则进行步骤3-9循环次数h的值加一;否则跳回步骤3-3。进行步骤3-10判断循环次数是否为10的整数倍,若是则进行步骤3-11使用测试数据测试该多焦点提取网络模型,计算焦点提取误差e;否则跳回步骤3-2。进行步骤3-12判断误差e是否小于模型的期望误差e0,若小于则训练结束;否则跳回步骤3-2。
参照图4,其为本方法焦点提取模块提取问句焦点的流程图。按照词在问句中的顺序,依次把词向量输入神经网络。首先进行步骤4-1,对问题进行分词,得到一个词序列,并将这个词序列转化为词向量。然后进行步骤4-2,将问题的词向量按照顺序输入到网络模型中,计算得到每个词成为焦点词的概率。进行步骤4-3,设置焦点编号k=0,表示从第0个焦点开始逐个提取问题的焦点。进行步骤4-4,判断第k组的最大输出值是否大于τk,若大于则进行步骤4-5选择该组最大输出值位置上的词作为该组对应的焦点;否则进行步骤4-5判定该组对应的焦点词不存在。进行步骤4-6设置k=k+1,即准备提取下一组的焦点。进行步骤4-7判断k是否小于该类问题总的焦点的个数m,即判断是否已经提取了问句的所有焦点。若小于则跳回步骤4-4;否则结束。

Claims (3)

1.一种自动提取中文问答语句焦点的系统,其特征在于,包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块;
1)分词和词向量模块将问句切分成一个词序列,并生成所有词的词向量;
2)焦点信息模块确定每一类问题的焦点信息,标记训练数据中每个问句中的焦点位置,生成清洗后的训练数据;
3)焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型,学习记忆不同问句的句型模式以及每种句型模式中的焦点位置,最后生成多焦点提取网络模型;
4)焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量,然后依次将词向量输入多焦点提取网络模型中,最终得到该问句焦点所在的位置;
所述的步骤1中对于输入问句可以使用中文分词工具将其切分成词序列,然后再利用word2vec等工具训练生成每个词的词向量,词向量也可以在训练模型的过程中自动生成;
所述的步骤2中:
首先对每一类问题人工确定该类问题所关注的焦点数目和具体焦点,然后人工标记训练数据中每一个问句的焦点词位置,并生成该该问句的输出向量,即,该问句中焦点词所对应位置的期望输出值标记为1,其余词所对应位置的期望输出值设置为0,如果该问句所对应问题有多个焦点,则每一个焦点生成一个相应的输出向量,最后,由一个输入问句和对应的输出向量就构成了一条具体的清洗后的训练数据;
所述的多焦点提取网络模型使用神经网络自动提取中文问答语句的焦点,该网络中输入层与隐层之间全连接,隐层与输出层之间全连接,隐层神经元之间在时间上前后相互连接,所有神经元激活函数均使sigmoid函数,包括x、t、h、o四个数值;
ht=f(Vht-1+Wxt) (1)
h′t=f(V′h′t-1+W'xt) (2)
Figure FDA0002952739650000021
Figure FDA0002952739650000022
tk*代表第k个焦点所在的位置,第k组n个输出值中最大值所处现的位置就是第k个焦点所在的位置,n表示一个问句中词的总数,也就是说,本方法判定输入问句中哪一个位置上的词最有可能是第k组的焦点词,即,第k组焦点词概率最大的一个位置;
其中,xt表示句子中第t个词的词向量,ht表示当输入第t个词时正向计算的隐层值,h′t表示当输入第t个词时反向计算的隐层值,h0和h’n+1是全零向量,分别表示网络正向和反向的初始隐层值,n是句子中词的个数,
Figure FDA0002952739650000023
是第k个焦点对应的输出组在输入第t个词时的输出值,即第t个词是第k个焦点的可能性;
所述的输出层设置了多组输出,每一组提取一个对应焦点,既能同时提取多个焦点,又能区分各焦点的不同语义;
所述的多焦点提取网络模型能够兼顾完全焦点和不完全焦点问句,不完全焦点问句是指一个问句中未包含全部焦点,而只是包含了部分焦点,在执行阶段给每一组输出值设定一个判定阈值,当第k组最大输出值大于τk时,则判定问句中包含该组所期望焦点,并输出最大值所对应的焦点词;否则,判定问句中未出现该组所期望焦点,τk的值由下式计算,其中
Figure FDA0002952739650000031
代表样例中第k组非焦点词所在位置输出的最大值,
Figure FDA0002952739650000032
代表第k组焦点词所在位置输出的最小值;
Figure FDA0002952739650000033
2.根据权利要求1所述的一种自动提取中文问答语句焦点的系统,其特征在于,所述的焦点训练模块在训练阶段学习记忆多种不同的问句句型,并且记忆每种句型中各个位置上的词成为焦点词的概率,只要句型类似就可以正确提取焦点,记忆每种句型中焦点词的可能出现位置。
3.根据权利要求1所述的一种自动提取中文问答语句焦点的系统,其特征在于,所述的焦点训练模块在训练时,按照问题文本中词的顺序依次输入每一个词的词向量,若t时刻输入词是该问题对应的焦点词,则将该时刻的期望输出值设置为1,否则设置为0;所述的焦点提取模块在执行时,同样按照词在问句中的顺序,依次把词向量输入多焦点提取网络模型,然后计算每个词成为焦点的概率,选择每一个输出组中输出值最大位置上的词作为问句焦点词;若存在不完全焦点问题,则需判断每一组的最大输出值与该组阈值之间的关系,若最大输出值大于阈值,则提取焦点,否则判定该组对应的焦点不存在。
CN201810911629.XA 2018-08-10 2018-08-10 一种自动提取中文问答语句焦点的系统 Active CN109271494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810911629.XA CN109271494B (zh) 2018-08-10 2018-08-10 一种自动提取中文问答语句焦点的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810911629.XA CN109271494B (zh) 2018-08-10 2018-08-10 一种自动提取中文问答语句焦点的系统

Publications (2)

Publication Number Publication Date
CN109271494A CN109271494A (zh) 2019-01-25
CN109271494B true CN109271494B (zh) 2021-04-27

Family

ID=65153365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810911629.XA Active CN109271494B (zh) 2018-08-10 2018-08-10 一种自动提取中文问答语句焦点的系统

Country Status (1)

Country Link
CN (1) CN109271494B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457450B (zh) * 2019-07-05 2023-12-22 平安科技(深圳)有限公司 基于神经网络模型的答案生成方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN106156003A (zh) * 2016-06-30 2016-11-23 北京大学 一种问答系统中的问句理解方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107392433A (zh) * 2017-06-27 2017-11-24 北京神州泰岳软件股份有限公司 一种提取企业关联关系信息的方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224640A (zh) * 2015-09-25 2016-01-06 杭州朗和科技有限公司 一种提取观点的方法和设备
CN106156003A (zh) * 2016-06-30 2016-11-23 北京大学 一种问答系统中的问句理解方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107239446A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络与注意力机制的情报关系提取方法
CN107392433A (zh) * 2017-06-27 2017-11-24 北京神州泰岳软件股份有限公司 一种提取企业关联关系信息的方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置

Also Published As

Publication number Publication date
CN109271494A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN109657041B (zh) 基于深度学习的问题自动生成方法
CN110334354B (zh) 一种中文关系抽取方法
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN104866472B (zh) 分词训练集的生成方法和装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110096711A (zh) 序列全局关注和局部动态关注的自然语言语义匹配方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN107832295B (zh) 阅读机器人的标题选择方法及系统
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN111914552A (zh) 一种数据增强模型的训练方法及装置
CN112905772B (zh) 语义相关性分析方法、装置及相关产品
CN111199149A (zh) 一种对话系统的语句智能澄清方法及系统
CN111651993A (zh) 融合局部-全局字符级关联特征的中文命名实体识别方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN110727844A (zh) 一种基于生成对抗网络的在线评论商品特征观点提取方法
CN113282721A (zh) 基于网络结构搜索的视觉问答方法
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN110991515A (zh) 一种融合视觉上下文的图像描述方法
CN109271494B (zh) 一种自动提取中文问答语句焦点的系统
Lee et al. An unsupervised approach to user simulation: toward self-improving dialog systems
CN114357166B (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant