CN111209404B - 一种基于深度学习辅助生成相似问句的方法 - Google Patents

一种基于深度学习辅助生成相似问句的方法 Download PDF

Info

Publication number
CN111209404B
CN111209404B CN202010302501.0A CN202010302501A CN111209404B CN 111209404 B CN111209404 B CN 111209404B CN 202010302501 A CN202010302501 A CN 202010302501A CN 111209404 B CN111209404 B CN 111209404B
Authority
CN
China
Prior art keywords
question
model
expanded
deep learning
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010302501.0A
Other languages
English (en)
Other versions
CN111209404A (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN202010302501.0A priority Critical patent/CN111209404B/zh
Publication of CN111209404A publication Critical patent/CN111209404A/zh
Application granted granted Critical
Publication of CN111209404B publication Critical patent/CN111209404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于深度学习辅助生成相似问句的方法,包括以下步骤:S1:在客服系统中进行知识库建表,根据客服系统中的历史问法,对问句进行分词、倒排索引后,存入到开源软件中;S2:对初始问句并进行预处理,并在开源软件中进行搜索,生成拓展问句;S3:对拓展问句进行特征提取,并输入到第一深度学习模型中进行处理;S4:采用第一深度学习模型来判断拓展问句属于哪类标准问题,最后根据结果进行打标;S5:将所述拓展问句作为初始问句来重复步骤S2~S4,将生成的扩展问句的信息传入到第二深度学习模型中以判断拓展问句是否和相似问句属于同一类标准问题。本发明相较于现有技术能够避免人工添加相似问题带来的时间成本,利用多模型融合使得准确率获得提高。

Description

一种基于深度学习辅助生成相似问句的方法
技术领域
涉及数据处理领域,具体涉及一种基于深度学习辅助生成相似问句的方法。
背景技术
虽然网络搜索引擎在如今众多的互联网应用中己经取得了巨大的成就,但其作为人们获取信息的主要手段或多或少还存在着一些不足,具体包括以下几点:(1)通常搜索引擎返回的是与用户查询最相关的若干个网页,用户需要从上到下一个接一个地浏览搜索引擎返回的结果列表,并且看完网页的大部分内容,才能从中归纳总结出真正需要的内容和信息。这样往往会耗费用户大量的时间,并且容易使得用户因为其过于繁琐而产生厌烦;(2)搜索引擎对于关键词查询的处理会使得不熟悉使用搜索引擎的用户,多次提交不同的查询给搜索引擎以期望得到想要的信息,但是这样也会得到很多不需要的信息,给用户在有效地利用搜索引擎帮助其检索信息时带来诸多的不便;(3)目前的搜索引擎大都基于关键词查询,对于用户的输入要先经过分词处理,这样通常会丢失输入的语义信息,导致搜索引擎返回的结果不够准确。
为了解决上面的问题,问答系统应运而生。首先,问答的查询方式为完整而口语化的问句,帮助用户节省精心构造查询条件的时间,并充分利用问句的语义信息;其次,问答系统的返回为高精准度网页结果或明确的答案字串,避免用户花费较多的时间从整个网页中归纳总结出需要的内容信息。由于机器学习在计算机视觉,自然语言处理领域的成功应用,人工智能在近些年得到了快速的发展。而问答系统作为自然语言处理领域的一个重要任务,也得到了越来越多的关注。目前市面上也涌现出了许多领域性的智能问答系统,比如智能客服。通过对客户的问题进行回答,智能客服可以大大减少企业的人力成本。
在现有的智能客服中,首先需要构建知识库,为每个标准问题收集大量的相似问句。当用户提问时,判断哪组的相似问最接近,则将这组标准问题的faq作为当前用户问句的回复。所以知识库中相似问题的积累是整个智能客服的关键。然而单靠客服同学设计相似问题,不仅繁琐,而且会错过最佳时机,采用人工标注的方式需要耗费较长的时间。
例如专利公开布号为CN106599215A(公布日:2017.04.26)的专利公开了一种基于深度学习的问句生成方法和问句生成系统,所述问句生成方法包括:获取种子问句;对所述种子问句进行分词;对经过所述分词的种子问句进行语义词扩展;对经过所述扩展的语义词进行重组生成候选问句;通过预设的语义分类模型对所述候选问句进行语义检测,获取语义正确的候选问句。实施本发明实施例,不仅节省人工,而且提高了生成的问句的准确性。
上述专利提供的方法虽然能够节省人工,但生成的相似问句多样性较为有限,且在准确性上不能满足现有的需求。
发明内容
为了解决上述问题,本发明提供一种基于深度学习辅助生成相似问句的方法,能够避免人工添加相似问题带来的时间成本,拥有更加多样化的相似问句,利用多模型融合是的结果准确率更高。
本发明的技术方案如下所示:
一种基于深度学习辅助生成相似问句的方法,包括以下步骤:
S1:在客服系统中进行知识库建表,根据客服系统中的历史问法,对问句进行分词、倒排索引后,存入到开源软件中;
S2:对初始问句并进行预处理,并在开源软件中进行搜索,返回topN的历史问法,生成拓展问句;
S3:将拓展问句输入到第一深度学习模型中进行处理;
S4:采用第一深度学习模型来判断拓展问句属于哪类标准问题,最后根据结果进行打标;
S5:将所述拓展问句作为初始问句来重复步骤S2~S4,将生成的扩展问句的信息传入到第二深度学习模型中以判断拓展问句是否和相似问句属于同一类标准问题。
优选的,所述步骤S4中的第一深度学习模型为多分类bert模型,所述步骤S5中的第二深度学习模型为二分类bert模型。
优选的,所述多分类bert模型和二分类bert模型均由bert预训练中文模型微调而来,具体为:在知识库中,对相似问句分词后进行特征提取,利用bert预训练中文模型进行编码,将对应的标准问题进行one-hot编码,作为模型训练的输出数据,对bert预训练中文模型进行微调,获得多分类bert模型和二分类bert模型。
优选的,所述步骤S4中多分类模型处理拓展问句的过程为:所述拓展问句输入到多分类bert模型中,进行softmax操作,选取概率最大的分数所对应的标签,并设定域值,判断是否接受这个相似问句。
优选的,所述扩展问句的信息包括扩展问句的文本、分数以及所述扩展问句第几次生成的。
优选的,所述二分类bert模型的输出层采用cross entry作为损失函数,以进行模型训练,输出当前的扩展问句是否为相似问句。
更优选的,所述步骤S5中的重复步骤共进行3次。
本发明的有益效果为:本发明能够避免人工添加相似问题带来的时间成本。这个过程一般需要专业人士花费大量时间进行维护,而深度学习采用从数据中进行学习的方式,可以根据数据的特性进行学习并完成一系列任务,本发明提供了更加多样化的相似问句,由于人工设计的局限性,生成的相似问句多样性较为有限,深度学习里用其强大的复杂问题处理能力,可以在有数据支撑的前提下做到更加多样化的文本,本发明利用多模型融合使得准确率获得了提高。
附图说明
图1为本发明实施例的流程示意图。
具体实施方式
下面将结合附图对本发明的实施例做进一步的说明。
如图1所示,一种基于深度学习辅助生成相似问句的方法,包括以下步骤:
1、建表:
在客服系统中进行知识库建表,根据客服系统中的历史问法,对问句进行分词、倒排索引后,存入到开源软件es(即Elasticsearch)中。
2、问句拓展:
输入初始问句,根据初始问句在es中进行搜索,返回topN的历史问法。
3、模型训练:采用多分类bert模型判断拓展问句属于哪类标准问题,拓展问句输入到微调后的多分类bert模型,进行softmax操作,选取概率最大的分数所对应的标签,并设定域值,判断是否接受这个相似问句,最后根据结果进行打标,将结果再传入二分类bert模型判断拓展问句是否和相似问句属于同一类标准问题。
在模型训练的步骤中,还包括多分类bert模型的微调过程,具体为:在知识库中,每个相似问句分词后进行embedding,利用谷歌开源的bert预训练中文模型进行编码,将对应的标准问题进行one-hot编码,作为模型训练的输出数据。准备好了输入输出数据,对bert模型进行微调。
在模型训练步骤中,为了获得更多的相似问句,以扩展问句作为初始问句重复进行问句拓展到模型训练的过程,后一次生成的拓展问句,设定的域值要比前一次高,共重复3次。最后将三次生成的扩展问句,包括文本、分数、第几次生成的等信息作为输入,传入到二分类bert模型中,二分类bert模型输出层采用cross entry作为损失函数,进行模型训练,输出当前的扩展问句是否为相似问句。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.一种基于深度学习辅助生成相似问句的方法,其特征在于,包括以下步骤:
S1:在客服系统中进行知识库建表,根据客服系统中的历史问法,对问句进行分词、倒排索引后,存入到开源软件中;
S2:对初始问句进行预处理,并在开源软件中进行搜索,返回topN的历史问法,生成拓展问句;
S3:将拓展问句输入到第一深度学习模型中进行处理;
S4:采用第一深度学习模型来判断拓展问句属于哪类标准问题,最后根据结果进行打标;
S5:将所述拓展问句作为初始问句来重复步骤S2~S4,将生成的拓展问句的信息传入到第二深度学习模型中以判断拓展问句是否和初始问句属于同一类标准问题;
所述步骤S4中的第一深度学习模型为多分类bert模型,所述步骤S5中的第二深度学习模型为二分类bert模型;
所述多分类bert模型和的二分类bert模型均由bert预训练中文模型微调而来,具体为:在知识库中,对拓展问句分词后进行特征提取,利用bert预训练中文模型进行编码,将对应的标准问题进行one-hot编码,作为模型训练的输出数据,对bert预训练中文模型进行微调,获得多分类bert模型和的二分类bert模型;
所述步骤S4中的多分类模型对拓展问句进行处理的过程为:所述拓展问句输入到多分类bert模型中,进行softmax操作,选取概率最大的分数所对应的标签,并设定域值,判断是否接受这个拓展问句,在重复步骤S2~S4的过程中,后一次生成的拓展问句,设定的域值要比前一次高;
所述拓展问句的信息包括拓展问句的文本、分数以及所述拓展问句第几次生成的。
2.根据权利要求1所述的基于深度学习辅助生成相似问句的方法,所述二分类bert模型的输出层采用cross entry作为损失函数,以进行模型训练,输出当前的拓展问句是否和初始问句属于同一类标准问题。
3.根据权利要求1所述的基于深度学习辅助生成相似问句的方法,其特征在于,所述步骤S5中的重复步骤共进行3次。
CN202010302501.0A 2020-04-17 2020-04-17 一种基于深度学习辅助生成相似问句的方法 Active CN111209404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302501.0A CN111209404B (zh) 2020-04-17 2020-04-17 一种基于深度学习辅助生成相似问句的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302501.0A CN111209404B (zh) 2020-04-17 2020-04-17 一种基于深度学习辅助生成相似问句的方法

Publications (2)

Publication Number Publication Date
CN111209404A CN111209404A (zh) 2020-05-29
CN111209404B true CN111209404B (zh) 2020-12-22

Family

ID=70788832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302501.0A Active CN111209404B (zh) 2020-04-17 2020-04-17 一种基于深度学习辅助生成相似问句的方法

Country Status (1)

Country Link
CN (1) CN111209404B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033390B (zh) * 2018-07-27 2020-02-18 深圳追一科技有限公司 自动生成相似问句的方法和装置
CN109101579B (zh) * 2018-07-19 2021-11-23 深圳追一科技有限公司 客服机器人知识库歧义检测方法
CN110543555A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 一种用于智能客服中的标问召回方法和装置

Also Published As

Publication number Publication date
CN111209404A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN111639171B (zh) 一种知识图谱问答方法及装置
CN110298033B (zh) 关键词语料标注训练提取系统
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN102262634B (zh) 一种自动问答方法及系统
CN111625658A (zh) 基于知识图谱的语音交互方法、装置、设备及存储介质
CN114036281B (zh) 基于知识图谱的柑橘管控问答模块构建方法及问答系统
CN104102721A (zh) 信息推荐方法和装置
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN112395410B (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN113806563A (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN110866102A (zh) 检索处理方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
CN111737498A (zh) 一种应用于离散制造业生产过程的领域知识库建立方法
CN117131383A (zh) 一种提高双塔模型搜索精排性能的方法
CN111209404B (zh) 一种基于深度学习辅助生成相似问句的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of generating similar questions based on deep learning

Effective date of registration: 20211203

Granted publication date: 20201222

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220322

Granted publication date: 20201222

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of generating similar questions based on deep learning

Effective date of registration: 20220322

Granted publication date: 20201222

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230131

Granted publication date: 20201222

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161

PC01 Cancellation of the registration of the contract for pledge of patent right