CN112115250A - 一种问句自动生成方法及系统 - Google Patents

一种问句自动生成方法及系统 Download PDF

Info

Publication number
CN112115250A
CN112115250A CN202011040840.2A CN202011040840A CN112115250A CN 112115250 A CN112115250 A CN 112115250A CN 202011040840 A CN202011040840 A CN 202011040840A CN 112115250 A CN112115250 A CN 112115250A
Authority
CN
China
Prior art keywords
semantic
data
question
vector
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011040840.2A
Other languages
English (en)
Inventor
周兴发
方凡
饶璐
谭斌
杨兰
孙锐
展华益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011040840.2A priority Critical patent/CN112115250A/zh
Publication of CN112115250A publication Critical patent/CN112115250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种问句自动生成方法,包括对原始数据进行语义向量初始化,得到数据语义初始化向量序列;根据数据语义初始化向量序列确定待提问目标的位置;对数据语义初始化向量序列和待提问目标的位置进行语义编码,得到数据语义编码加强后的向量序列;根据数据语义编码加强后的向量序列,确定问句类型;根据数据语义编码加强后的向量序列和问句类型,生成与待提问目标和问句类型相符合的问句。还公开了一种系统,包括数据初始化模块、位置确定模块、编码获取模块、问句类型选择模块和问句生成模块。本发明给定一个待提问的数据源,能自动生成高质量的与之相符合的问句,不受限于语法和语义的中间表示、转换规则或模板且不需要人工干预。

Description

一种问句自动生成方法及系统
技术领域
本发明涉及数据挖掘和数据处理技术领域,具体的说,是一种问句自动生成方法及问句生成系统。
背景技术
随着互联网的高速推进,对话系统,智慧教育等领域得到了极大的发展,人们对更流畅的对话过程以及挖掘有价值的问句有了进一步的要求。问句自动生成作为问答系统的一个逆向任务,具备提供大规模高质量问答对的潜质从而为问答系统提供流畅的问句回复;在智慧教育领域中,问句自动生成可以发掘有价值的待提问目标,同时生成与之相符合的问句,从而可以作为知识衡量评价的重要一环。
问句自动生成旨在发掘文本中待提问的目标,然后据此生成有价值的问句。现有技术中,问句自动生成的主流方法有基于规则的方法和基于神经网络的方法两类。
基于规则的方法通常根据数据源的特点,将输出语句转换为语法结构表示,利用结构表示匹配预先设计好的模板以语法和语义为依托,首先应用语法或语义解析,以获取中间符号表示;然后再问句生成部分采用transformation-或template-based方法将中间表示转换为自然语言问题。Transformation-based方法重排输入语句的表达形式(surfacefrom)以生成问句;Template-based方法从预定义的问句模板来生成问句。该方法实现简单,可定制,但同时问句的表示受限于语法和语义的中间表示、转换规则或模板;模板需要预定义,需要人工干预;依赖于词的句法角色,而非语义角色。
基于神经网络的方法主要利用深度学习中的Seq2Seq技术,自动生成问句。其允许在一个统一的框架里联合优化多个不同的问题,在此框架中,传统的parsing-based内容选择策略被attention机制和copy机制等更灵的方式替换;另外,问句生成完全数据驱动,相对于transformation规则不要求更多的人力,且比问句模板更具备语言灵活性(languageflexibility)。该方法无需预定义模块,鲁棒性较好,但是,其纯粹的基于编码解码端到端的方法,通常生成的问句与待提问目标无关或者问句类型不符合,生成问句的语言质量、问题质量仍有大量的提升空间。
发明内容
本发明的目的在于提供一种问句自动生成方法及系统,用于解决现有技术中基于规则的方法受限于语法和语义的中间表示、转换规则或模板以及需要人工干预的问题,以及基于神经网络的方法存在生成的问句与待提问目标无关或者问句类型不相符合的现象。
本发明通过下述技术方案解决上述问题:
一种问句自动生成方法,包括:
步骤S100:对原始数据进行语义向量初始化,得到数据语义初始化向量序列;
步骤S200:根据所述数据语义初始化向量序列确定待提问目标的位置;
步骤S300:对所述数据语义初始化向量序列和待提问目标的位置进行语义编码,得到数据语义编码加强后的向量序列;
步骤S400:根据所述数据语义编码加强后的向量序列和待提问目标的编码向量信息,确定问句类型;
步骤S500:根据所述数据语义编码加强后的向量序列和问句类型,生成与待提问目标和问句类型相符合的问句。
可选地,所述步骤S100具体包括:
步骤S110:对原始数据进行语义单元分割,将原始数据转换为语义单元序列数据;
步骤S120:对语义单元序列数据进行语义向量初始化,得到语义单元初始化向量;
步骤S130:使用语义向量融合方法对所述语义单元初始化向量进行融合,得到数据语义初始化向量序列。
可选地,所述步骤S200具体包括:
步骤S210:将所述数据语义初始化向量序列作为输入,带入第一语义编码网络中进行信息的前向传播,得到数据语义编码向量序列;第一语义编码网络包括但不限制为CNN、LSTM、GRU以及Bert等神经网络;
步骤S220:对所述数据语义编码向量序列进行序列标注,得到待提问目标的位置。
可选地,所述步骤S300具体包括:
步骤S310:根据待提问目标的位置提取待提问目标的语义编码序列;
步骤S320:将待提问目标的语义编码序列代入池化网络得到待提问目标的编码向量信息,数据语义编码向量序列的每个序列单元分别与待提问目标的语义编码序列进行编码对齐,得到对齐权重;
步骤S330:对待提问目标的语义编码序列加权求和,然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上,得到加强后的数据语义向量序列
可选地,所述步骤S400具体为:将数据语义编码加强后的向量序列输入问句类型判断网络,根据问句类型判断网络输出的问句类型概率分布,得到与待提问目标相符合的问句类型。问句类型判断网络可以是任何可对语义编码加强后的向量序列进行编码的神经网络模型,如LSTM+Softmax以及GRU+Softmax等等。
可选地,所述步骤S500具体包括:
步骤S510:初始化待提问目标的问句类型,得到问句类型编码向量;
步骤S520:使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码,得到数据的语义向量;第二语义编码网络可以为CNN、LSTM以及GRU等神经网络;
步骤S530:使用数据的语义向量作为解码网络的初始状态输入,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。解码网络包括但不限于LSTM以及GRU等等。
一种问句自动生成系统,包括:
数据初始化模块,被配置成对原始数据进行语义单元分割得到语义单元序列数据,再对语义单元序列数据进行语义向量初始化得到语义单元初始化向量,融合语义单元初始化向量得到数据语义初始化向量序列;
位置确定模块,被配置成将数据语义初始化向量序列输入第一语义编码网络得到数据语义编码向量序列,再对所述数据语义编码向量序列进行序列标注,得到待提问目标的集合及待提问目标的位置;
编码获取模块,被配置成根据待提问目标的位置提取出待提问目标的语义编码序列信息,采用编码对齐网络,使数据语义编码向量序列与待提问目标的语义编码序列进行对齐;对待提问目标的语义编码序列加权求和,然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上;
问句类型选择模块,被配置成将数据语义编码加强后的向量序列输入问句类型判断网络,得到与待提问目标相符合的问句类型概率分布P,使用定义的问句类型选择函数选择与待提问目标相符合的最终问句类型;
问句生成模块,被配置成初始化待提问目标的问句类型得到问句类型编码向量;使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码,得到数据的语义向量;使用数据的语义向量作为解码网络的初始状态输入,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。
本发明与现有技术相比,具有以下优点及有益效果:
本发明在给定一个待提问的数据源的基础上,能自动生成高质量的与之相符合的问题,解决了现有基于规则的方法受限于语法和语义的中间表示、转换规则或模板、需要人工干预,以及基于神经网络的方法生成的问句与待提问目标无关或者问句类型不相符合的问题。
附图说明
图1为本发明的流程图;
图2为本发明的系统框图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种问句自动生成方法,包括:
步骤S100:对原始数据进行语义向量初始化,得到数据语义初始化向量序列,具体包括:
步骤S110:对原始数据进行语义单元分割,将原始数据转换为语义单元序列数据;
步骤S120:使用语义单元向量初始化网络对语义单元序列数据进行语义向量初始化,得到语义单元初始化向量;
步骤S130:使用语义向量融合网络,对所述语义单元初始化向量进行融合,得到数据语义初始化向量序列。
所述分割的方法包括基于词的分割、基于字的分割以及基于N-1gram的分割。
例如针对原始文本数据:[成都是四川省的省会城市],基于字的最小分割后的结果为:Tc=[成,都,是,四,川,省,的,省,会,城,市],基于词的一种分割结果为:Tw=[成都,是,四川省,的,省会,城市]。针对Tw采用语义编码初始化后的结果为:Vw=[v0,v1,v2,v3,v4,v5],其中
Figure BDA0002706592510000061
i=1,2,3,4,5;d为初始化向量的维度,
Figure BDA0002706592510000062
表示向量空间,Vw表示基于词的向量表示,同理Vc表示基于字的编码向量表示。
所述语义向量融合网络包括最大化融合、均值融合、加权求和融合以及由用户指定融合的函数进行融合;例如针对上述初始化结果V0=fm(fw(Vw),fc(Vc)),其中fm表示融合函数,可以为最大化函数,均值函数,加权求和函数等;fw,fc为维度归一化函数,可以为卷积神经网络,长短时记忆网络(LSTM)等函数;
步骤S200:根据所述数据语义初始化向量序列确定待提问目标的位置,具体包括:
步骤S210:将所述数据语义初始化向量序列作为输入,带入第一语义编码网络中进行信息的前向传播,得到数据语义编码向量序列V1;第一语义编码网络包括但不限制为CNN、LSTM、GRU以及Bert等神经网络;
步骤S220:对所述数据语义编码向量序列进行序列标注,得到待提问目标的位置,包括:将所述数据语义编码向量序列带入第一标注序列网络中得到待提问目标在上下文中的开始位置,同时把数据语义编码向量序列带入第二标注序列网络中得到待提问目标在上下文中的结束位置;第一标注序列网络、第二标注序列网络包括但不限于CRF和指针网络等序列标注方法。
步骤S300:对所述数据语义初始化向量序列和待提问目标的位置进行语义编码,得到数据语义编码加强后的向量序列V2,具体包括:
步骤S310:根据待提问目标的位置提取待提问目标的语义编码序列;
步骤S320:将待提问目标的语义编码序列代入池化网络得到待提问目标的编码向量信息,数据语义编码向量序列的每个序列单元分别与待提问目标的语义编码序列进行编码对齐,得到对齐权重;
步骤S330:对待提问目标的语义编码序列加权求和,然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上;
步骤S400:根据所述数据语义编码加强后的向量序列和待提问目标的编码向量信息,确定问句类型,具体为:
将数据语义编码加强后的向量序列和待提问目标的编码向量信息输入问句类型判断网络,按照概率进行随机掩码扰动后输入单层前馈神经网络,得到与待提问目标相符合的问句类型概率分布,根据问句类型判断网络输出的问句类型概率分布,得到与待提问目标相符合的问句类型。问句类型判断网络可以是任何可对语义编码加强后的向量序列进行编码的神经网络模型,如LSTM+Softmax以及GRU+Softmax等等。
例如与待提问目标相符合的问句类型概率分布为P,
Figure BDA0002706592510000071
其中r为问句类型个数。那么与待提问目标相符合的最终问句类型q=max(P)或者其它包括但不限定于用户自定义的问句类型选取方式,如top K概率值最大的对应问句类型。
步骤S500:根据所述数据语义编码加强后的向量序列和问句类型,生成与待提问目标和问句类型相符合的问句,具体包括:
步骤S510:初始化待提问目标的问句类型,得到问句类型编码向量;
步骤S520:使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码,得到数据的语义向量;第二语义编码网络可以为CNN、LSTM以及GRU等神经网络
步骤S530:使用数据的语义向量作为解码网络的初始状态输入,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。解码网络包括但不限于LSTM以及GRU等等。
首先初始化待提问目标的问句类型q的问句类型编码向量为Vq,其中
Figure BDA0002706592510000081
m为Vq的向量维度;然后串联Vq到数据每一个序列语义编码V2上,得到带有问句类型信息的数据语义编码序列V3;然后使用V3作为问句生成编码网络的输入,得到问句生成编码网络输出的编码序列向量V4。其中,问句生成编码网络可以采用任何可以对序列向量进行处理的神经网络,比如卷积网络,LSTM,GRU,BERT等等;最后使用包括但不限于问句生成编码网络的编码序列向量最后一个向量作为问句生成的解码网络的初始化状态向量,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,自动生成与待提问目标和问句类型相符合的问句。比如针对“成都是四川省的省会城市”这个上下文文本信息,可以提取出“成都”作为待提问目标,自动生成问句“成都是哪个省的省会?”;也可以提取出“四川省”作为待提问目标,自动生成问句“四川省的省会是哪个城市?”
实施例2:
结合附图2所示,一种问句自动生成系统,包括:
数据初始化模块,被配置成对原始数据进行语义单元分割得到语义单元序列数据,再对语义单元序列数据进行语义向量初始化得到语义单元初始化向量,融合语义单元初始化向量得到数据语义初始化向量序列;
位置确定模块,被配置成将数据语义初始化向量序列输入第一语义编码网络得到数据语义编码向量序列,再对所述数据语义编码向量序列进行序列标注,得到待提问目标的集合及待提问目标的位置;
编码获取模块,被配置成根据待提问目标的位置提取出待提问目标的语义编码序列信息,采用编码对齐网络,使数据语义编码向量序列与待提问目标的语义编码序列进行对齐;对待提问目标的语义编码序列加权求和,然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上;
问句类型选择模块,被配置成将数据语义编码加强后的向量序列输入问句类型判断网络,得到与待提问目标相符合的问句类型概率分布P,使用定义的问句类型选择函数选择与待提问目标相符合的最终问句类型;
问句生成模块,被配置成初始化待提问目标的问句类型得到问句类型编码向量;使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码,得到数据的语义向量;使用数据的语义向量作为解码网络的初始状态输入,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (7)

1.一种问句自动生成方法,其特征在于,包括:
步骤S100:对原始数据进行语义向量初始化,得到数据语义初始化向量序列;
步骤S200:根据所述数据语义初始化向量序列确定待提问目标的位置;
步骤S300:对所述数据语义初始化向量序列和待提问目标的位置进行语义编码,得到数据语义编码加强后的向量序列;
步骤S400:根据所述数据语义编码加强后的向量序列,确定问句类型;
步骤S500:根据所述数据语义编码加强后的向量序列和问句类型,生成与待提问目标和问句类型相符合的问句。
2.根据权利要求1所述的一种问句自动生成方法,其特征在于,所述步骤S100具体包括:
步骤S110:对原始数据进行语义单元分割,将原始数据转换为语义单元序列数据;
步骤S120:对语义单元序列数据进行语义向量初始化,得到语义单元初始化向量;
步骤S130:使用语义向量融合方法对所述语义单元初始化向量进行融合,得到数据语义初始化向量序列。
3.根据权利要求1或2所述的一种问句自动生成方法,其特征在于,所述步骤S200具体包括:
步骤S210:将所述数据语义初始化向量序列作为输入,带入第一语义编码网络中进行信息的前向传播,得到数据语义编码向量序列;
步骤S220:对所述数据语义编码向量序列进行序列标注,得到待提问目标的位置。
4.根据权利要求3所述的一种问句自动生成方法,其特征在于,所述步骤S300具体包括:
步骤S310:根据待提问目标的位置提取待提问目标的语义编码序列;
步骤S320:将待提问目标的语义编码序列代入池化网络得到待提问目标的编码向量信息,数据语义编码向量序列的每个序列单元分别与待提问目标的语义编码序列进行编码对齐,得到对齐权重;
步骤S330:对待提问目标的语义编码序列加权求和,然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上,得到加强后的数据语义向量序列。
5.根据权利要求1所述的一种问句自动生成方法,其特征在于,所述步骤S400具体为:将数据语义编码加强后的向量序列和待提问目标的编码向量信息输入问句类型判断网络,根据问句类型判断网络输出的问句类型概率分布,得到与待提问目标相符合的问句类型。
6.根据权利要求1所述的一种问句自动生成方法,其特征在于,所述步骤S500具体包括:
步骤S510:初始化待提问目标的问句类型,得到问句类型编码向量;
步骤S520:使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码,得到数据的语义向量;
步骤S530:使用数据的语义向量作为解码网络的初始状态输入,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。
7.一种问句自动生成系统,其特征在于,包括:
数据初始化模块,被配置成对原始数据进行语义单元分割得到语义单元序列数据,再对语义单元序列数据进行语义向量初始化得到语义单元初始化向量,融合语义单元初始化向量得到数据语义初始化向量序列;
位置确定模块,被配置成将数据语义初始化向量序列输入第一语义编码网络得到数据语义编码向量序列,再对所述数据语义编码向量序列进行序列标注,得到待提问目标的集合及待提问目标的位置;
编码获取模块,被配置成根据待提问目标的位置提取出待提问目标的语义编码序列信息,采用编码对齐网络,使数据语义编码向量序列与待提问目标的语义编码序列进行对齐;对待提问目标的语义编码序列加权求和,然后与待提问目标的编码向量信息一起串接到数据语义初始化向量序列对应的语义编码上;
问句类型选择模块,被配置成将数据语义编码加强后的向量序列输入问句类型判断网络,得到与待提问目标相符合的问句类型概率分布P,使用定义的问句类型选择函数选择与待提问目标相符合的最终问句类型;
问句生成模块,被配置成初始化待提问目标的问句类型得到问句类型编码向量;使用第二语义编码网络对数据语义编码加强后的向量序列进行语义编码,得到数据的语义向;使用数据的语义向量作为解码网络的初始状态输入,问句类型编码向量和起始符SOS的初始化向量作为解码网络的初始输入向量,然后经解码网络迭代生成与待提问目标和问句类型相符合的问句。
CN202011040840.2A 2020-09-28 2020-09-28 一种问句自动生成方法及系统 Pending CN112115250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040840.2A CN112115250A (zh) 2020-09-28 2020-09-28 一种问句自动生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040840.2A CN112115250A (zh) 2020-09-28 2020-09-28 一种问句自动生成方法及系统

Publications (1)

Publication Number Publication Date
CN112115250A true CN112115250A (zh) 2020-12-22

Family

ID=73798299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040840.2A Pending CN112115250A (zh) 2020-09-28 2020-09-28 一种问句自动生成方法及系统

Country Status (1)

Country Link
CN (1) CN112115250A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN110188362A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本处理方法及装置
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN111143691A (zh) * 2019-12-31 2020-05-12 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN110188362A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本处理方法及装置
CN111143691A (zh) * 2019-12-31 2020-05-12 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111401049A (zh) * 2020-03-12 2020-07-10 京东方科技集团股份有限公司 一种实体链接方法及装置

Similar Documents

Publication Publication Date Title
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111444298B (zh) 一种基于兴趣点知识图谱预训练的地址匹配算法
CN112860908A (zh) 基于多源异构电力设备数据的知识图谱自动化构建方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111522965A (zh) 一种基于迁移学习的实体关系抽取的问答方法及系统
CN111125367B (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN113254616B (zh) 面向智能问答系统的句向量生成方法及系统
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN112417891A (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN111967265B (zh) 一种数据集自动生成的中文分词与实体识别联合学习方法
CN116821326A (zh) 基于自注意力和相对位置编码的文本摘要生成方法及装置
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222