CN109918681A - 一种基于汉字-拼音的融合问题语义匹配方法 - Google Patents

一种基于汉字-拼音的融合问题语义匹配方法 Download PDF

Info

Publication number
CN109918681A
CN109918681A CN201910249978.4A CN201910249978A CN109918681A CN 109918681 A CN109918681 A CN 109918681A CN 201910249978 A CN201910249978 A CN 201910249978A CN 109918681 A CN109918681 A CN 109918681A
Authority
CN
China
Prior art keywords
sen
pinyin
chinese character
sequence
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910249978.4A
Other languages
English (en)
Other versions
CN109918681B (zh
Inventor
谢金宝
战岭
王振东
王玉静
梁欣涛
向键鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201910249978.4A priority Critical patent/CN109918681B/zh
Publication of CN109918681A publication Critical patent/CN109918681A/zh
Application granted granted Critical
Publication of CN109918681B publication Critical patent/CN109918681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提出了一种融合问题语义匹配方法,属于自然语言处理领域。本发明用于自动匹配回答消费者线上咨询时所提出的问题,同时通过汉字‑拼音特征融合的方法降低消费者所输入的同音错别字对问题语义匹配模型性能的影响。本发明所提出的双孪生长短时记忆网络结构通过两个单孪生长短时记忆网络独立地对汉字与拼音两种特征进行语义提取,使模型能够以不同的方式提取汉字序列与拼音序列的特征,再通过汉字与拼音特征拼接并进行语义合成,得到融合了汉字与拼音特征的语义向量,最后通过计算两个问题语义向量之间的负指数曼哈顿距离,输出两个问题的语义匹配程度。本发明提高了问题语义匹配模型在实际应用中的效果。

Description

一种基于汉字-拼音的融合问题语义匹配方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于汉字-拼音的融合问题语义匹配方法。
背景技术
随互联网的快速发展,在线消费逐渐成为了人们的主要消费方式之一。与此同时,消费者在消费的过程中遇到的问题也逐渐增多。以往商家需要雇佣大量的客服人员来在线解答消费者所遇到的问题,而近年来以人工智能技术为核心的智能客服可以自动根据消费者所提出的问题,在知识库中找到与之相匹配的答案来进行回答,不仅缩短了客服的响应时间,而且降低了商家的人力成本。
问题语义匹配技术,是智能客服中最核心的技术。近年来,随着深度学习的快速发展,基于神经网络(如卷积神经网络CNN、长短时记忆网络LSTM、注意力机制Attention等)的深度学习模型被广泛地利用于问题语义匹配任务中。
然而在实际应用中,用户所输入的问题往往带有各种各样的拼写错误,现有的问题语义匹配模型很容易受到输入错误的干扰,从而导致匹配准确率的降低。在这些错误中,同音错别字错误就是常见的错误之一,因此本领域需要一种能够避免同音错别字干扰的问题语义匹配系统。
发明内容
针对以上问题,本发明提出一种基于汉字-拼音的融合问题语义匹配方法。采用字符级的汉字与拼音序列作为输入,分别对经过预处理的两句问题提取汉字特征与拼音特征,再分别通过双向长短时记忆网络进行特征融合,最后采用负指数曼哈顿距离来计算特征融合后两句中文问题向量之间的语义相似度。
一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,包括以下步骤:
步骤(1):将中文问题语料数据分为训练数据与测试数据;
步骤(2):对训练数据与测试数据进行预处理;
步骤(3):使用经过预训练的词嵌入向量建立词嵌入矩阵;
步骤(4):建立双孪生结构的LSTM神经网络模型;
步骤(5):在预处理后的训练数据上训练模型;
步骤(6):在预处理后的测试数据上测试模型。
进一步地,步骤(1)中所述中文问题语料数据每个样本的格式为:问题1\t问题2\t标签,其中,“问题1”、“问题2”分别为两句中文问题,“\t”为分隔符,“标签”为“问题1”、“问题2”共同对应的标签,分为0与1,其中“0”代表“问题1”与“问题2”的语义不同,“1”代表“问题1”与“问题2”的语义相同。
进一步地,步骤(1)对中文问题语料数据按百分比进行切分,得到训练数据与测试数据。
进一步地,所述步骤(2)具体包括以下步骤:
步骤2a:将所述训练数据与测试数据中所有样本所包含的“问题1”、“问题2”以单个字作为基本单位进行分割并生成对应的拼音,得到字符级的汉字序列与拼音序列;
步骤2b:由所述训练数据中的汉字序列与拼音序列构成字典word2index,序列中所有不同的汉字与拼音在字典中对应唯一的索引数字;
步骤2c:根据所述字典,将所述训练数据与测试数据中所包含的的汉字序列与拼音序列转换为其在字典中所对应的索引,得到汉字索引序列与拼音索引序列;
步骤2d:对所述的汉字索引序列与拼音索引序列按最大长度进行补齐。
可选地,所述步骤(3)具体包括以下步骤:
步骤3a:将所述经过预训练的词嵌入向量读取到一个字典word2vec中;
步骤3b:初始化词嵌入矩阵为全0矩阵embedding_matrix;
步骤3c:由所述字典word2index与word2vec对词嵌入矩阵embedding_matrix进行修改。
可选地,所述步骤(4)具体包括以下步骤:
步骤4a:建立输入层,输入层共包含四个输入,分别为所述问题1的汉字序列sen_l、所述问题2的汉字序列sen_r、所述问题1的拼音序列sen_l_pinyin、所述问题2的拼音序列sen_r_pinyin;
步骤4b:建立嵌入层,将所述sen_l、sen_r、sen_l_pinyin、sen_r_pinyin分别输入到嵌入层、得到经过词嵌入的序列embedded_sen_l、embedded_sen_r、embedded_sen_l_pinyin、embedded_sen_r_pinyin;
步骤4c:建立编码层,编码层采用双孪生结构的LSTM来对输入序列进行编码,即两组孪生LSTM,记为Encoding_Layer与Encoding_Layer_pinyin,其中Encoding_Layer用来对汉字序列进行
编码,Encoding_Layer_pinyin用来对拼音序列进行编码,所述embedded_sen_l、embedded_sen_r分别输入到Encoding_Layer得到encoded_sen_l、encoded_sen_r,所述embedded_sen_l_pinyin、embedded_sen_r_pinyin分别输入到Encoding_Layer_pinyin得到encoded_sen_l_pinyin、encoded_sen_r_pinyin;
步骤4d:建立融合层,将所述encoded_sen_l与encoded_sen_l_pinyin串联,得到merged_sen_l,将所述encoded_sen_r与encoded_sen_r_pinyin串联,得到merged_sen_r;
步骤4e:建立语义合成层,语义合成层采用双向LSTM进行语义合成,所述merged_sen_l输入到语义合成层后得到语义向量composed_sen_l,所述merged_sen_r输入到语义合成层后得到语义向量composed_sen_r;
步骤4f:计算所述两个语义向量composed_sen_l与composed_sen_r(分别记为V1(v11,v12,…,v1n)、V2(v21,v22,…,v2n))之间的负指数曼哈顿距离,范围在(0,1]之间,公式为:
步骤4g:对所述距离按阈值分类为0(语义不同)或1(语义相同);
步骤4h:编译模型以便进行训练。
进一步地,所述步骤(5)将所述神经网络模型在经过预处理后的训练数据进行训练。
进一步地,所述步骤(6)采用经过预处理后的测试数据进行测试,评价指标采用F1-Score。
综上所述,本发明提出了一种融合问题语义匹配方法,属于自然语言处理领域。本发明用于自动匹配回答消费者线上咨询时所提出的问题,同时通过汉字-拼音特征融合的方法降低消费者所输入的同音错别字对问题语义匹配模型性能的影响。本发明所提出的双孪生长短时记忆网络结构通过两个单孪生长短时记忆网络独立地对汉字与拼音两种特征进行语义提取,使模型能够以不同的方式提取汉字序列与拼音序列的特征,再通过汉字与拼音特征拼接并进行语义合成,得到融合了汉字与拼音特征的语义向量,最后通过计算两个问题语义向量之间的负指数曼哈顿距离,输出两个问题的语义匹配程度。本发明提高了问题语义匹配模型在实际应用中的效果。
有益效果:
1.本发明在数据预处理阶段将问题句分割为字符级的序列,结合具有选择性记忆能力的长短时记忆网络进行特征提取,相对于通过分词处理的序列,有效地避免了分词准确率对特征提取效果的影响。
2.本发明采用汉字特征与拼音特征相融合来提取问题的语义,提高了模型对同音错别字的识别能力,从而降低用户输入错误对模型性能的影响。
3.本发明提出的双孪生结构采用两个孪生长短时记忆网络分别提取问题的汉字特征与拼音特征,相比于单孪生长短时记忆网络,能够使模型有效地区分汉字序列与拼音序列的特点。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于汉字-拼音的融合问题语义匹配方法实施例流程图;
图2为数据预处理部分流程图;
图3为本发明基于双孪生LSTM的汉字-拼音特征融合问题语义匹配方法的神经网络模型整体框图。
具体实施方式
下面将结合附图对本发明的具体实施方式进行进一步的说明。
本发明的数据预处理流程图如图1所示,本发明所采用的中文问题语料数据为实际用户在线提出的中文问题数据,数据中每个样本都由一对中文问题(记为“问题1”、“问题2”)及相应的语义匹配标签所构成。
数据预处理包括以下步骤:
步骤1:将中文问题语料数据的70%划分为训练数据用于训练模型,30%划分为测试数据用于测试模型。为了便于区分,训练数据中的中文问题对用“问题1”、“问题2”表示,测试数据中的中文问题对用“问题1’”“问题2’”表示;
步骤2:将所有的中文问题进行字符化,处理成由单独的汉字组成的汉字序列,如“问”,“题”,“1”、“问”,“题”,“2”;
步骤3:生成上述汉字序列所对应的拼音序列,如“wen”,“ti”,“1”、“wen”,“ti”,“2”;
步骤4:根据所有汉字、拼音序列建立索引字典,字典中的元素为所有不同的字符到其索引的映射,其中索引“0”预留给补齐序列所用的特殊字符“__PAD__”,索引“1”预留给字典中所没有的字,用“__OOV__”表示;
步骤5:将汉字序列与拼音序列中的元素转换成在索引字典中所对应的索引,得到汉字索引序列与拼音索引序列;
步骤6:将所得的汉字索引序列与拼音索引序列补齐到所设定的最大长度,以便输入到问题语义匹配模型中,补齐所用索引为“0”,最大长度设置为100,补齐位置为序列的后部。
建立词嵌入矩阵包括以下步骤:
步骤1:将经过预训练的词嵌入向量读取到一个字典word2vec中,字典中的每个元素为一个键值对,所述“键”为单个汉字或拼音,所述“值”为对应于键的300维预训练向量;
步骤2:初始化词嵌入矩阵为全0矩阵embedding_matrix,维数为(len(word2index),300),其中len(word2index)为字典word2index中元素的个数;
步骤3:遍历所述字典word2index中的键值对,将所述词嵌入矩阵embedding_matrix中的第“值”行设置为所述字典word2vec中“键”所对应的300维向量,若“键”不存在于word2vec,则将该行初始化为(-1,1)之间的300维向量,所得词嵌入矩阵作为神经网络模型嵌入层的初始化参数。
本发明的神经网络模型整体框图如图2所示,包括以下步骤:
步骤1:将输入层接收到的问题1、2各自对应的汉字、拼音索引序列输入到嵌入层,为每个索引初始化一个300维的词向量,用于语义提取。嵌入层的输入维数为len(word2index),即字典word2index中元素的个数,输出维数为300,输入序列长度为100,参数矩阵初始化为所述词嵌入矩阵embedding_matrix,设置嵌入层参数为可训练,嵌入层输出的嵌入矩阵维数为:(样本个数,序列最大长度,300);
步骤2:将所得问题1、2的汉字嵌入矩阵输入到编码层孪生结构的双向长短时记忆网络1中进行汉字语义提取,将所得问题1、2的拼音嵌入矩阵输入到编码层孪生结构的双向长短时记忆网络2中进行拼音语义提取,所述长短时记忆网络神经元个数设定为128,返回序列设置为True,即每输入一个序列中元素的同时输出一个向量;
步骤3:将编码后问题1、2对应的汉字序列与拼音序列输入到融合层进行融合,融合方式为串联;
步骤4:将经过融合的问题1、2各自的语义向量输入到语义合成层进行语义合成,语义合成层所采用长短时记忆网络的神经元个数设定为128,返回序列设置为False,即只有在输入序列最后一个元素后输出一个语义向量;
步骤5:计算并输出经过合成的问题1、2所对应语义向量之间的负指数曼哈顿距离;
步骤6:对输出的距离进行分类:距离大于0.5分类为0(语义不同),距离小于等于0.5分类为1(语义相同)。
建立模型实例并编译模型,优化器采用Adam、损失函数采用mean_squared_error。
在经过预处理后的训练数据上训练模型,批大小设置为256,训练次数设置为50次。
在经过预处理后的测试数据上进行测试,评价指标采用F1-Score,,计算公式为:
其中,TP为模型正确预测出标签“1”的个数,FP为模型将标签“0”预测为标签“1”的个数,TN为模型正确预测出标签“0”的个数,FN为模型将标签“1”预测为标签“0”的个数。
综上所述,本发明提出了一种融合问题语义匹配方法,属于自然语言处理领域。本发明用于自动匹配回答消费者线上咨询时所提出的问题,同时通过汉字-拼音特征融合的方法降低消费者所输入的同音错别字对问题语义匹配模型性能的影响。本发明所提出的双孪生长短时记忆网络结构通过两个单孪生长短时记忆网络独立地对汉字与拼音两种特征进行语义提取,使模型能够以不同的方式提取汉字序列与拼音序列的特征,再通过汉字与拼音特征拼接并进行语义合成,得到融合了汉字与拼音特征的语义向量,最后通过计算两个问题语义向量之间的负指数曼哈顿距离,输出两个问题的语义匹配程度。本发明提高了问题语义匹配模型在实际应用中的效果。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,包括以下步骤:
步骤(1):将中文问题语料数据分为训练数据与测试数据;
步骤(2):对训练数据与测试数据进行预处理;
步骤(3):使用经过预处理的训练数据的词嵌入向量建立词嵌入矩阵;
步骤(4):建立双孪生结构的LSTM神经网络模型;
步骤(5):在预处理后的训练数据上训练模型;
步骤(6):在预处理后的测试数据上测试模型。
2.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,
所述将中文问题语料数据分为训练数据与测试数据中,中文问题语料数据每个样本的格式为:问题1\t问题2\t标签,其中,“问题1”、“问题2”分别为两句中文问题,“\t”为分隔符,“标签”为“问题1”、“问题2”共同对应的标签,分为0与1,其中“0”代表“问题1”与“问题2”的语义不同,“1”代表“问题1”与“问题2”的语义相同。
3.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,对中文问题语料数据按百分比进行切分,得到训练数据与测试数据。
4.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,所述对训练数据与测试数据进行预处理具体包括以下步骤:
步骤2a:将所述训练数据与测试数据中所有样本所包含的“问题1”、“问题2”以单个字作为基本单位进行分割并生成对应的拼音,得到字符级的汉字序列与拼音序列;
步骤2b:由所述训练数据中的汉字序列与拼音序列构成字典word2index,序列中所有不同的汉字与拼音在字典中对应唯一的索引数字;
步骤2c:根据所述字典,将所述训练数据与测试数据中所包含的汉字序列与拼音序列转换为其在字典中所对应的索引,得到汉字索引序列与拼音索引序列;
步骤2d:对所述的汉字索引序列与拼音索引序列按最大长度进行补齐。
5.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,所述使用经过预处理的训练数据的词嵌入向量建立词嵌入矩阵具体包括以下步骤:
步骤3a:将所述经过预处理的训练数据的词嵌入向量读取到一个字典word2vec中;
步骤3b:初始化词嵌入矩阵为全0矩阵embedding_matrix;
步骤3c:由所述字典word2index与word2vec对词嵌入矩阵embedding_matrix进行修改。
6.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,所述建立双孪生结构的LSTM神经网络模型具体包括以下步骤:
步骤4a:建立输入层,输入层共包含四个输入,分别为所述问题1的汉字序列sen_l、所述问题2的汉字序列sen_r、所述问题1的拼音序列sen_l_pinyin、所述问题2的拼音序列sen_r_pinyin;
步骤4b:建立嵌入层,将所述sen_l、sen_r、sen_l_pinyin、sen_r_pinyin分别输入到嵌入层、得到经过词嵌入的序列embedded_sen_l、embedded_sen_r、embedded_sen_l_pinyin、embedded_sen_r_pinyin;
步骤4c:建立编码层,编码层采用双孪生结构的LSTM来对输入序列进行编码,即两组孪生LSTM,记为Encoding_Layer与Encoding_Layer_pinyin,其中Encoding_Layer用来对汉字序列进行编码,Encoding_Layer_pinyin用来对拼音序列进行编码,所述embedded_sen_l、embedded_sen_r分别输入到Encoding_Layer得到encoded_sen_l、encoded_sen_r,所述embedded_sen_l_pinyin、embedded_sen_r_pinyin分别输入到Encoding_Layer_pinyin得到encoded_sen_l_pinyin、encoded_sen_r_pinyin;
步骤4d:建立融合层,将所述encoded_sen_l与encoded_sen_l_pinyin串联,得到merged_sen_l,将所述encoded_sen_r与encoded_sen_r_pinyin串联,得到merged_sen_r;
步骤4e:建立语义合成层,语义合成层采用双向LSTM进行语义合成,所述merged_sen_l输入到语义合成层后得到语义向量composed_sen_l,所述merged_sen_r输入到语义合成层后得到语义向量composed_sen_r;
步骤4f:计算所述两个语义向量composed_sen_l与composed_sen_r,将composed_sen_l记为V1(v11,v12,…,v1n、将composed_sen_r记为V2(v21,v22,…,v2n)两个向量之间的负指数曼哈顿距离,范围在(0,1]之间,公式为:
步骤4g:对所述距离按阈值分类为0或1,分别代表语义不同与语义相同;
步骤4h:编译模型以便进行训练。
7.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,所述在预处理后的训练数据上训练模型具体为将所述神经网络模型在经过预处理后的训练数据进行训练。
8.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法,其特征在于,所述在预处理后的测试数据上测试模型采用经过预处理后的测试数据进行测试,评价指标采用F1-Score。
CN201910249978.4A 2019-03-29 2019-03-29 一种基于汉字-拼音的融合问题语义匹配方法 Active CN109918681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910249978.4A CN109918681B (zh) 2019-03-29 2019-03-29 一种基于汉字-拼音的融合问题语义匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910249978.4A CN109918681B (zh) 2019-03-29 2019-03-29 一种基于汉字-拼音的融合问题语义匹配方法

Publications (2)

Publication Number Publication Date
CN109918681A true CN109918681A (zh) 2019-06-21
CN109918681B CN109918681B (zh) 2023-01-31

Family

ID=66967698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910249978.4A Active CN109918681B (zh) 2019-03-29 2019-03-29 一种基于汉字-拼音的融合问题语义匹配方法

Country Status (1)

Country Link
CN (1) CN109918681B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674378A (zh) * 2019-09-26 2020-01-10 科大国创软件股份有限公司 基于余弦相似度和最小编辑距离的中文语义识别方法
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111753062A (zh) * 2019-11-06 2020-10-09 北京京东尚科信息技术有限公司 一种会话应答方案确定方法、装置、设备及介质
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质
CN112183453A (zh) * 2020-10-15 2021-01-05 哈尔滨市科佳通用机电股份有限公司 基于深度学习的注水口盖板未锁闭到位故障检测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357633A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Dynamic phrase expansion of language input
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
US20180210875A1 (en) * 2015-10-26 2018-07-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing input data, apparatus and non-volatile computer storage medium
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN108874777A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种文本反垃圾的方法及装置
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210875A1 (en) * 2015-10-26 2018-07-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing input data, apparatus and non-volatile computer storage medium
US20170357633A1 (en) * 2016-06-10 2017-12-14 Apple Inc. Dynamic phrase expansion of language input
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN108874174A (zh) * 2018-05-29 2018-11-23 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN108874777A (zh) * 2018-06-11 2018-11-23 北京奇艺世纪科技有限公司 一种文本反垃圾的方法及装置
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ZHIWEN XIE等: "Topic enhanced deep structured semantic models for knowledge base question answering", 《INFORMATION SCIENCES》 *
刘姝雯: "基于深度神经网络的中文文本蕴含识别研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
刘逸雪等: "基于Bi-LSTM的数学主观题自动阅卷方法", 《管理观察》 *
李亚超等: "神经机器翻译综述", 《计算机学报》 *
谢金宝等: "基于语义理解注意力神经网络的多元特征融合中文文本分类", 《电子与信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674378A (zh) * 2019-09-26 2020-01-10 科大国创软件股份有限公司 基于余弦相似度和最小编辑距离的中文语义识别方法
CN110879802A (zh) * 2019-10-28 2020-03-13 同济大学 一种日志模式提取及匹配方法
CN111753062A (zh) * 2019-11-06 2020-10-09 北京京东尚科信息技术有限公司 一种会话应答方案确定方法、装置、设备及介质
CN111222335A (zh) * 2019-11-27 2020-06-02 上海眼控科技股份有限公司 语料修正方法、装置、计算机设备和计算机可读存储介质
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111414481B (zh) * 2020-03-19 2023-09-26 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN111859994A (zh) * 2020-06-08 2020-10-30 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质
CN111859994B (zh) * 2020-06-08 2024-01-23 北京百度网讯科技有限公司 机器翻译模型获取及文本翻译方法、装置及存储介质
CN112183453A (zh) * 2020-10-15 2021-01-05 哈尔滨市科佳通用机电股份有限公司 基于深度学习的注水口盖板未锁闭到位故障检测方法及系统

Also Published As

Publication number Publication date
CN109918681B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN109918681A (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN109635279B (zh) 一种基于神经网络的中文命名实体识别方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN107076567A (zh) 多语言图像问答
CN110059160A (zh) 一种端到端的基于上下文的知识库问答方法及装置
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN112115721A (zh) 一种命名实体识别方法及装置
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN113283236B (zh) 一种复杂中文文本中的实体消歧方法
CN112990296A (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN111553159B (zh) 一种问句生成方法及系统
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN114357127A (zh) 基于机器阅读理解及常用问题解答模型的智能问答方法
CN113158671B (zh) 一种结合命名实体识别的开放域信息抽取方法
CN112256847B (zh) 融合事实文本的知识库问答方法
CN111428104A (zh) 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
CN110750646A (zh) 一种旅店评论文本的属性描述提取方法
CN113012822A (zh) 一种基于生成式对话技术的医疗问答系统
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant