CN108287822B - 一种中文相似问题生成系统与方法 - Google Patents
一种中文相似问题生成系统与方法 Download PDFInfo
- Publication number
- CN108287822B CN108287822B CN201810065131.6A CN201810065131A CN108287822B CN 108287822 B CN108287822 B CN 108287822B CN 201810065131 A CN201810065131 A CN 201810065131A CN 108287822 B CN108287822 B CN 108287822B
- Authority
- CN
- China
- Prior art keywords
- question
- chinese
- generating
- similarity
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文相似问题生成系统与方法,该系统包括:预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注;命名实体识别模块,用于对给定的问题进行识别,得到识别命名实体;问题分类模块,用于对给定的问题按照语义进行分类;相似语义问题生成模块,用于针对给定的问题,生成语义相似的问题;所述相似语义问题生成模块包括基于规则的相似语义问题生成子模块和基于机器学习的相似语义问题生成子模块。本发明能有效的提高生成的问题问句与原始问题的匹配程度和合理性。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种中文相似问题生成系统与方法。
背景技术
自然语言处理(natural language processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言,自然语言处理的关键技术包括自然语句的分词、词性标注、命名实体识别、指代消解、句法依存分析等。
问答技术(question answering),是信息检索技术的一种高级形式,它能用准确、简洁的自然语言回答用户的自然语言问题。自动问答系统能够自动分析问题并给出相应的候选答案,传统的自动问答系统主要由问题分析、信息检索和答案生成等模块构成。
传统的自动问答主要是面向文本集合进行的,包括分析问题中的关键词,将关键词提交到搜索引擎,从文本库中检索相关文档,获取返回结果中确信度最高的前若干文档,再从中生成答案。但是随着语义网技术的发展与逐渐普及,知识图谱(knowledgegraph)、链接数据(linkeddata)等信息组织程度较高的结构化知识库兴起,例如DBpedia和Freebase,使得新式基于结构化知识库实现自动问答成为可能。在这种知识库的基础上进行自动问答,比传统基于文本的自动问答更为高效、准确。如果用户能够使用查询对知识库进行提问,无疑能够精准快速地获得答案。但是在实际运用自动问答技术时,大部分用户并不能够实现这种“专业”的提问方式,而往往只会使用人类自然语言的形式进行提问,因此基于自然语言问句的知识库问答具有重要价值。在基于知识库的自动问答过程中,用户输入中文自然语言问句后,传统方法对问句仅采取简单处理得到关键词,生成的查询结构化程度不高,不能实现对知识库数据准确高效的查询。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种中文相似问题生成系统与方法。
本发明解决其技术问题所采用的技术方案是:一种中文相似问题生成系统,包括:
预处理模块,用于接收给定的问句,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
命名实体识别模块,用于对给定的问句进行识别,得到识别命名实体;
问题分类模块,用于对给定的问句按照语义进行分类,所述分类类别依据伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign,UIUC)提出的分类体系架构,主要分为七大类,其中包括:描述、人物、地点、时间、数字、实体、未知;
相似语义问题生成模块,用于针对给定的问句,生成语义相似的问题;
所述相似语义问题生成模块包括基于规则的相似语义问题生成子模块和基于机器学习的相似语义问题生成子模块;
所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行语义词扩展,然后对替扩展后的语义词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
按上述方案,所述命名实体识别模块得到多个初步识别命名实体;将所述多个初步识别命名实体组成查询词条在属性数据库中进行搜索,得到多个候选完整命名实体;分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。
按上述方案,所述相似语义问题生成模块还用于对生成的语义相似的问句进行筛选排序,根据需要保留排名前列的问题。
按上述方案,所述相似语义问题生成模块对基于规则的相似语义问题生成子模块生成的问题排序的依据如下:
对基于规则的相似语义问题生成子模块生成的问题,采用概率模型以评估句子通顺程度(或称为合理性),具体如下:
对生成句子中每个替换词计算其前后项生成概率(考虑2-gram语言模型),假设原句子为Sold,新生成句子为Tnew,则计算公式如下:
P(Sold→Tnew)=P(s0s1…si…sn→t0t1…ti…tn)=P(t0)P(t0|s0)P(t1|s1)P(t1|t0)…P(ti-1|si-1)P(ti-1|ti)P(ti+1|ti)P(ti|si)…P(tn|tn-1)
其中,n表示句子长度;P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率,考虑到Sold→Tnew变换过程中只有替换进行同义词替换位置发生词项改变,因此其余位置P(ti|si)=1,因此上式可简化为如下形式:
P(Sold→Tnew)=ΠmP(ti|si)P(ti|ti-1)P(ti+1|ti)
其中,m为Sold中被替换的同义词位置个数,为避免连乘引发的精度缺失,考虑对等式两遍取log,为方便表示,令L(Sold→Tnew)≡log P(Sold→Tnew),则上式可转化为:
L(Sold→Tnew)=∑m[log P(ti|si)+log P(ti+1|ti)+log P(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,N(ti,ti-1)表示词项ti,ti-1在语料库(为先验语料库)中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,通常c为|V|,即词表大小。
因此,基于上述公式可以对基于规则生成所有新句子计算其通顺程度,从而能够对所有生成句子进行排序以选出最为合理的前n个语句。
按上述方案,所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:
1)获得中文问句作为训练集;
2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn;
2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
2.4)计算分词yn;
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
2.5)将分词yn顺序组合,获得输出中文问句;
3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到指定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
按上述方案,所述相似语义问题生成模块对基于机器学习的相似语义问题生成子模块生成的问题排序的依据如下:
计算接收给定的问题与生成的问题的相似度,如果相似度小于0.85则舍弃该生成的问题,然后对剩下的符合相似度要求的问题按相似度进行排序。
按上述方案,所述步骤2.2)中循环神经网络采用的神经单元为LSTM(Long Short-Term Memory)或GRU(Gated Recurrent Unit),通常该模型用于机器翻译相关应用,这里我们主要用来进行相似问句生成。
本发明还提供一种中文相似问题生成方法,其特征在于,包括以下步骤:
1)接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
2)对给定的问题进行识别,得到识别命名实体;
3)对给定的问题按照语义进行分类,所述分类类别包括七大类:描述、人物、地点、时间、数字、实体、未知;
4)针对给定的问题,生成语义相似的问题;
生成相似语义问题包括以下方法:基于规则的相似语义问题生成方法和基于机器学习的相似语义问题生成方法;
所述基于规则的相似语义问题生成方法是根据词性标注的分词和命名实体进行同义词扩展(同义词或近义词替换),然后对扩展后的替换词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成方法是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
按上述方案,所述步骤4)中基于机器学习的相似语义问题生成是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成,过程如下:
4.1)获得中文问句作为训练集;
4.2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
4.2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn;
4.2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
4.2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
4.2.4)计算分词yn;
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
4.2.5)将分词yn顺序组合,获得输出中文问句;
4.3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到设定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
本发明产生的有益效果是:使用本发明方法,能有效的提高生成的问题问句与原始问题的匹配程度和合理性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的结构示意图;
图2是本发明实施例的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,一种中文相似问题生成系统,包括:
预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;(其中,给定问句进行句法依存关系分析用于对句子结构分析(主谓宾等),以便在模板生成判断当前词是否可进行同义词替换,以便相似问句生成时能够保留相应专有名词,如特定地名、人名、机构名等,以免在生成过程中引起句义改变)
给定的问题为1、上海哪里最热闹,
处理的结果为:<上海><哪里><最><热闹>。
命名实体识别模块,用于对给定的问句进行识别,得到识别命名实体;
比如,上海我们识别为地名,这样在后期替换中,我们不替换这个分词。
问题分类模块,用于对给定的问句按照语义进行分类,所述分类类别按照UIUC标准包括七大类:描述、人物、地点、时间、数字、实体、未知;
相似语义问题生成模块,用于针对给定的问句,生成语义相似的问题;
所述相似语义问题生成模块包括基于规则的相似语义问题生成子模块和基于机器学习的相似语义问题生成子模块;
所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词进行语义词扩展(同义词或近义词替换),然后对替扩展后的语义词进行重新组合,生成候选问题;
A、上海哪里最繁华?
B、上海哪里顶繁华?
所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:
1)获得中文问句作为训练集;
2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn;
2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
步骤2.2)中循环神经网络采用的神经单元为LSTM(Long Short-Term Memory)或GRU(Gated Recurrent Unit),通常该模型用于机器翻译相关应用,这里我们主要用来进行相似问句生成。
2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αin f(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
2.4)计算分词yn;
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
2.5)将分词yn顺序组合,获得输出中文问句;
3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到指定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
本实施例中,生成的问题为:C、上海最著名的食物在哪里?
对生成的结果,对基于规则的相似语义问题生成子模块生成的问题,采用模型评估问题的合理性,具体如下:
对基于规则的相似语义问题生成子模块生成的问题,采用概率模型以评估句子通顺程度(或称为合理性),具体如下:
对生成句子中每个替换词计算其前后项生成概率(考虑2-gram语言模型),假设原句子为Sold,新生成句子为Tnew,则计算公式如下:
P(Sold→Tnew)=P(s0s1…si…sn→t0t1…ti…tn)=P(t0)P(t0|s0)P(t1|s1)P(t1|t0)…P(ti-1|si-1)P(ti-1|ti)P(ti+1|ti)P(ti|si)…P(tn|tn-1)
其中,n表示句子长度;P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率,考虑到Sold→Tnew变换过程中只有替换进行同义词替换位置发生词项改变,因此其余位置P(ti|si)=1,因此上式可简化为如下形式:
P(Sold→Tnew)=ПmP(ti|si)P(ti|ti-1)P(ti+1|ti)
其中,m为Sold中被替换的同义词位置个数,为避免连乘引发的精度缺失,考虑对等式两遍取log,为方便表示,令L(Sold→Tnew)≡log P(Sold→Tnew),则上式可转化为:
L(Sold→Tnew)=∑m[log P(ti|si)+log P(ti+1|ti)+log P(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,N(ti,ti-1)表示词项ti,ti-1在语料库(为先验语料库)中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,通常c为|V|,即词表大小。
因此,基于上述公式可以对基于规则生成所有新句子计算其通顺程度,从而能够对所有生成句子进行排序以选出最为合理的前n个语句。
相似语义问题生成模块对基于机器学习的相似语义问题生成子模块生成的问题排序的依据如下:
计算接收给定的问题与生成的问题的相似度,如果相似度小于0.85则舍弃该生成的问题,然后对剩下的符合相似度要求的问题按相似度进行排序。
如果我们最后选择3个相似结果,可以在对基于规则的相似语义问题生成子模块生成的问题中选择前2个,然后在基于机器学习的相似语义问题生成子模块生成的问题中选择第一个,作为结果组合。
类似的,根据上述系统,本发明还提供一种对应的中文相似问题生成方法,包括以下步骤:
1)接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
2)对给定的问题进行识别,得到识别命名实体;
3)对给定的问题按照语义进行分类,所述分类类别包括七大类:描述、人物、地点、时间、数字、实体、未知;
4)针对给定的问题,生成语义相似的问题;
生成相似语义问题包括以下方法:基于规则的相似语义问题生成方法和基于机器学习的相似语义问题生成方法;
所述基于规则的相似语义问题生成方法是根据词性标注的分词和命名实体进行同义词替换扩展(同义词或近义词替换),然后对扩展后的替换词进行重新组合,生成候选问题;
所述基于机器学习的相似语义问题生成方法是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (9)
1.一种中文相似问题生成系统,其特征在于,包括:
预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
命名实体识别模块,用于对给定的问题进行识别,得到识别命名实体;
问题分类模块,用于对给定的问题按照语义进行分类,所述分类类别包括:描述、人物、地点、时间、数字、实体、未知;
相似语义问题生成模块,用于针对给定的问题,生成语义相似的问题;
所述相似语义问题生成模块主要包含两个子模块,即:基于规则的相似语义问题生成子模块及基于机器学习的相似语义问题生成子模块;
所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行同义词扩展替换,然后对扩展替换后的同义词进行重新组合,生成候选问题;对候选问题采用概率模型以评估句子通顺程度,所述概率模型如下:
logP(Sold→Tnew)=∑m[logP(ti|si)+logP(ti+1|ti)+logP(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,m为Sold中被替换的同义词位置个数,P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率;N(ti,ti-1)表示词项ti,ti-1在语料库中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,c为|V|,即词表大小;
所述基于机器学习的相似语义问题生成子模块,用于通过循环序列神经网络方法建模,利用训练数据构建模型进行问题生成。
2.根据权利要求1所述的中文相似问题生成系统,其特征在于,所述命名实体识别模块得到多个初步识别命名实体;将所述多个初步识别命名实体组成查询词条在属性数据库中进行搜索,得到多个候选完整命名实体;分别计算所述多个候选完整命名实体与用户输入语料的相似度;选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。
3.根据权利要求1所述的中文相似问题生成系统,其特征在于,所述相似语义问题生成模块还用于对生成的语义相似的问句进行筛选排序,根据需要保留排名前列的问题。
4.根据权利要求1所述的中文相似问题生成系统,其特征在于,所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:
1)获得中文问句作为训练集;
2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn;
2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αinf(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
2.4)计算分词yn;
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
2.5)将分词yn顺序组合,获得输出中文问句;
3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到指定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
5.根据权利要求4所述的中文相似问题生成系统,其特征在于,所述步骤2.2)中循环神经网络采用的神经单元为LSTM或GRU。
6.根据权利要求3所述的中文相似问题生成系统,其特征在于,所述相似语义问题生成模块对基于机器学习的相似语义问题生成子模块生成的问题排序的依据如下:
计算接收给定的问题与生成的问题的相似度,如果相似度小于设定阈值,则舍弃该生成的问题,然后对剩下的符合相似度要求的问题按相似度进行排序。
7.根据权利要求6所述的中文相似问题生成系统,其特征在于,所述阈值为0.85。
8.一种中文相似问题生成方法,其特征在于,包括以下步骤:
1)接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;
2)对给定的问题进行识别,得到识别命名实体;
3)对给定的问题按照语义进行分类,所述分类类别包括七大类:描述、人物、地点、时间、数字、实体、未知;
4)针对给定的问题,生成语义相似的问题;
生成相似语义问题包括以下方法:基于规则的相似语义问题生成方法和基于机器学习的相似语义问题生成方法;
所述基于规则的相似语义问题生成方法是根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行语义词扩展,然后对扩展后的语义词进行重新组合,生成候选问题;对候选问题采用概率模型以评估句子通顺程度,所述概率模型如下:
logP(Sold→Tnew)=∑m[logP(ti|si)+logP(ti+1|ti)+logP(ti|ti-1)]
其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:
其中,m为Sold中被替换的同义词位置个数,P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率;N(ti,ti-1)表示词项ti,ti-1在语料库中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,c为|V|,即词表大小;
所述基于机器学习的相似语义问题生成方法是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成。
9.根据权利要求8所述的中文相似问题生成方法,其特征在于,所述步骤4)中基于机器学习的相似语义问题生成是利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成,过程如下:
4.1)获得中文问句作为训练集;
4.2)采用基于attention机制的sequence to sequence模型对训练集中的中文问句进行转换,转换结果为中文问句;具体如下:
4.2.1)设转换后的中文问句为X,其分词为xm;输出的中文问句为Y,其分词为yn;
4.2.2)采用循环神经网络计算中文问句X中各分词xm的函数值f(xm);
4.2.3)计算参数ci
ci=αi1f(x1)+αi2f(x2)+αi3f(x3)+…+αinf(xn),n=1,2,3,…,N;
N为中文问句X的分词个数;αin为语料库中事先设定的注意力模型权值;参数ci的个数与中文问句Y的分词个数相同;
4.2.4)计算分词yn;
y1=g(c1);
yn=g(cn,y1,y2,…,yn-1);
分词yn的个数是预设的;
4.2.5)将分词yn顺序组合,获得输出中文问句;
4.3)利用测试数据集测试训练模型效果,以保证其生成中文问句效果能够达到设定测试标准;否则调整神经单元参数,重新训练模型直至性能能够达标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065131.6A CN108287822B (zh) | 2018-01-23 | 2018-01-23 | 一种中文相似问题生成系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065131.6A CN108287822B (zh) | 2018-01-23 | 2018-01-23 | 一种中文相似问题生成系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108287822A CN108287822A (zh) | 2018-07-17 |
CN108287822B true CN108287822B (zh) | 2022-03-01 |
Family
ID=62835813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810065131.6A Active CN108287822B (zh) | 2018-01-23 | 2018-01-23 | 一种中文相似问题生成系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108287822B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033390B (zh) * | 2018-07-27 | 2020-02-18 | 深圳追一科技有限公司 | 自动生成相似问句的方法和装置 |
CN109522920B (zh) * | 2018-09-18 | 2020-10-13 | 义语智能科技(上海)有限公司 | 基于结合语义特征的同义判别模型的训练方法及设备 |
CN109542929B (zh) * | 2018-11-28 | 2020-11-24 | 山东工商学院 | 语音查询方法、装置和电子设备 |
CN110032623B (zh) * | 2018-12-12 | 2023-02-24 | 创新先进技术有限公司 | 用户问句与知识点标题的匹配方法和装置 |
CN109858021B (zh) * | 2019-01-02 | 2023-11-14 | 平安科技(深圳)有限公司 | 业务问题统计方法、装置、计算机设备及其存储介质 |
CN109918627B (zh) * | 2019-01-08 | 2024-03-19 | 平安科技(深圳)有限公司 | 文本生成方法、装置、电子设备及存储介质 |
CN110245219A (zh) * | 2019-04-25 | 2019-09-17 | 义语智能科技(广州)有限公司 | 一种基于自动扩展问答数据库的问答方法及设备 |
CN110059324B (zh) * | 2019-04-26 | 2022-12-13 | 广州大学 | 基于依存信息监督的神经网络机器翻译方法及装置 |
CN110188351B (zh) * | 2019-05-23 | 2023-08-25 | 鼎富智能科技有限公司 | 语句通顺度及句法评分模型的训练方法及装置 |
CN110334197A (zh) * | 2019-06-28 | 2019-10-15 | 科大讯飞股份有限公司 | 语料处理方法及相关装置 |
CN110442760B (zh) * | 2019-07-24 | 2022-02-15 | 银江技术股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
CN110674272B (zh) * | 2019-09-05 | 2022-12-06 | 科大讯飞股份有限公司 | 一种问题答案确定方法及相关装置 |
CN110633372A (zh) * | 2019-09-23 | 2019-12-31 | 珠海格力电器股份有限公司 | 一种文本增广处理方法、装置及存储介质 |
CN110765277B (zh) * | 2019-10-22 | 2023-06-09 | 河海大学常州校区 | 一种基于知识图谱的移动端的在线设备故障诊断方法 |
CN111079406B (zh) * | 2019-12-13 | 2022-01-11 | 华中科技大学 | 自然语言处理模型训练方法、任务执行方法、设备及系统 |
CN111191442B (zh) * | 2019-12-30 | 2024-02-02 | 杭州远传新业科技股份有限公司 | 相似问题生成方法、装置、设备及介质 |
CN113627134A (zh) * | 2020-05-06 | 2021-11-09 | 台达电子工业股份有限公司 | 数据标注系统及数据标注方法 |
CN111309893A (zh) * | 2020-05-15 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 基于源问题生成相似问题的方法和装置 |
CN111814451A (zh) * | 2020-05-21 | 2020-10-23 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、设备和存储介质 |
CN112257422B (zh) * | 2020-10-22 | 2024-06-11 | 京东方科技集团股份有限公司 | 命名实体归一化处理方法、装置、电子设备及存储介质 |
CN112328762B (zh) * | 2020-11-04 | 2023-12-19 | 平安科技(深圳)有限公司 | 基于文本生成模型的问答语料生成方法和装置 |
CN112507097B (zh) * | 2020-12-17 | 2022-11-18 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112667780B (zh) * | 2020-12-31 | 2024-07-19 | 上海众源网络有限公司 | 一种评论信息的生成方法、装置、电子设备及存储介质 |
CN113128234B (zh) * | 2021-06-17 | 2021-11-02 | 明品云(北京)数据科技有限公司 | 一种实体识别模型的建立方法、系统、电子设备及介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870528B (zh) * | 2012-12-17 | 2018-04-17 | 东方概念有限公司 | 深度问题回答系统中的问题分类和特征映射的方法和系统 |
CN105701253B (zh) * | 2016-03-04 | 2019-03-26 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
US11250332B2 (en) * | 2016-05-11 | 2022-02-15 | International Business Machines Corporation | Automated distractor generation by performing disambiguation operations |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
-
2018
- 2018-01-23 CN CN201810065131.6A patent/CN108287822B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108287822A (zh) | 2018-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN106776562B (zh) | 一种关键词提取方法和提取系统 | |
KR20190133931A (ko) | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN110717045A (zh) | 一种基于信访信件概况的信件要素自动提取方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN113157859A (zh) | 一种基于上位概念信息的事件检测方法 | |
JP2022130337A (ja) | 機械学習に基づく名前付きエンティティ認識(ner)メカニズムの弱教師ありかつ説明可能な学習 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN113407697A (zh) | 深度百科学习的中文医疗问句分类系统 | |
CN112417170A (zh) | 面向不完备知识图谱的关系链接方法 | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
CN114064901B (zh) | 一种基于知识图谱词义消歧的书评文本分类方法 | |
Kshirsagar et al. | A Review on Application of Deep Learning in Natural Language Processing | |
Day et al. | A study of deep learning for factoid question answering system | |
CN113869040A (zh) | 一种电网调度的语音识别方法 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
Iwatsuki et al. | Using formulaic expressions in writing assistance systems | |
CN114117069B (zh) | 一种用于知识图谱智能问答的语义理解方法及系统 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
Cherrat et al. | Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches. | |
Tayal et al. | DARNN: Discourse Analysis for Natural languages using RNN and LSTM. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |