CN112948560A - 佛学问答数据生成方法、装置、计算机设备及存储介质 - Google Patents

佛学问答数据生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112948560A
CN112948560A CN202110307594.0A CN202110307594A CN112948560A CN 112948560 A CN112948560 A CN 112948560A CN 202110307594 A CN202110307594 A CN 202110307594A CN 112948560 A CN112948560 A CN 112948560A
Authority
CN
China
Prior art keywords
question
field
buddhist
buddhism
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110307594.0A
Other languages
English (en)
Inventor
章林
文彬
李剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110307594.0A priority Critical patent/CN112948560A/zh
Publication of CN112948560A publication Critical patent/CN112948560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本案涉及人工智能技术领域,提供一种佛学问答数据生成方法、装置、计算机设备及存储介质,方法部分:自动判断待判断的问题是否属于佛学领域的问题,以及判断佛学领域的问题与问题答案是否匹配,能够加快判断速度,提高判断效率,同时,减少判断失误;接着对所述佛学领域的问题以及所述问题答案进行规范调整,以对佛学领域的问题以及问题答案进行统一的规范调整,提高佛学领域的问题以及问题答案的精简度,以实现快速筛选出合格的、高质量的佛学问答数据;最后利用目标问题以及目标问题答案进行模型训练,把目标问题以及目标问题答案结合一起进行训练,得到佛学问答模型,以提高模型的预测质量。

Description

佛学问答数据生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种佛学问答数据生成方法、装置、计算机设备及存储介质。
背景技术
随着科技的发展,人工智能(AI,Artificial Intelligence)逐渐开始进入工业、商业和生活领域。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
基于人机交互的智能问答是人工智能的重要应用方向,广泛应用在各个领域的咨询场景中,随着互联网技术的发展,在越来越多的场景下需要根据问题搜索答案,以得到用于答案问题的答案。例如,在佛学问答场景中,用户可以向线上的机器人咨询佛学问题,机器人在问答数据(包括问题和答案)中搜索合适的答案以回应用户。
然而,佛学问答数据是佛学问答模型构建的基础,训练一个较好的模型离不开大量的、高质量的问答数据的支持;训练佛学问答模型需要从各个渠道获取大量问答数据,再通过众包的方式,人工筛选出合格的、高质量的问答数据,但是这样筛选的时间周期长,同时耗费大量人力,人工筛选效率慢,同时判断的人员可能没有相关的佛学背景,导致判断失误,由此,亟需一个佛学问答模型可以快速生成出合格的、高质量的佛学问答数据。
发明内容
本发明提供一种佛学问答数据生成方法、装置、计算机设备及存储介质,以解决人工筛选效率慢,以及判断的人员可能没有相关的佛学背景,导致判断失误的问题。
一种佛学问答数据生成方法,包括:
获取待判断的问题;
判断所述待判断的问题是否属于佛学领域的问题;
若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
判断所述佛学领域的问题与所述问题答案是否匹配;
若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
一种佛学问答数据生成装置,包括:
第一获取模块,用于获取待判断的问题;
第一判断模块,用于判断所述待判断的问题是否属于佛学领域的问题;
第二获取模块,用于若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
第二判断模块,用于判断所述佛学领域的问题与所述问题答案是否匹配;
调整模块,用于若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
模型训练模块,用于利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
得到模块,用于接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述佛学问答数据生成方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述佛学问答数据生成方法的步骤。
上述佛学问答数据生成方法、装置、计算机设备及存储介质,所实现的其中一个方案中,能够自动判断待判断的问题是否属于佛学领域的问题,以及判断佛学领域的问题与问题答案是否匹配,能够加快判断速度,提高判断效率,同时,减少判断失误;接着对所述佛学领域的问题以及所述问题答案进行规范调整,以对佛学领域的问题以及问题答案进行统一的规范调整,提高佛学领域的问题以及问题答案的精简度,以实现快速筛选出合格的、高质量的佛学问答数据;最后利用目标问题以及目标问题答案进行模型训练,把目标问题以及目标问题答案结合一起进行训练,得到佛学问答模型,以提高模型的预测质量。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中佛学问答数据生成方法的一应用环境示意图;
图2是本发明一实施例中佛学问答数据生成方法的一流程图;
图3是本发明一实施例中佛学问答数据生成方法的另一流程图;
图4是本发明一实施例中佛学问答数据生成方法的另一流程图;
图5是本发明一实施例中佛学问答数据生成方法的另一流程图;
图6是本发明一实施例中佛学问答数据生成方法的另一流程图;
图7是本发明一实施例中佛学问答数据生成方法的另一流程图;
图8是本发明一实施例中佛学问答数据生成方法的另一流程图;
图9是本发明一实施例中佛学问答数据生成装置的一示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的佛学问答数据生成方法,可应用在如图1的应用环境中,其中,其中服务端通过网络与客户端进行通信。
其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。客户端可以为智能手机,用户利用智能手机通过网络发送第一输入语句。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种佛学问答数据生成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取待判断的问题;
获取待判断的问题,待判断的问题可以是任何合理的自然语言的句子,比如,待判断的问题可以为:“三世诸佛皆于娑婆成就佛道是什么意思?”、“今天的天气怎么样?”、“佛教所说的二十五种因果报应是什么?”等。
S20:判断所述待判断的问题是否属于佛学领域的问题;
判断所述待判断的问题是否属于佛学领域的问题,若所述待判断的问题属于佛学领域的问题,则获取佛学领域的问题的问题答案;若所述待判断的问题不属于佛学领域的问题,则重新获取待判断的问题。
在一实施例中,如图3所示,步骤S20中,也即所述判断所述待判断的问题是否属于佛学领域的问题,具体包括如下步骤:
S21:获取与佛理以及禅修相关的佛学问题;
其中,与佛学问题相关的问题可以为佛理以及禅修,作为一种扩展,佛学问题的范围还包括:寺院、僧众、信徒、宗派、仪式、典故。
S22:利用所述佛学问题训练神经网络得到问题分类模型;
获取佛理以及禅修相关的佛学问题,例如,佛理以及禅修相关的佛学问题可以为:“三世诸佛皆于娑婆成就佛道是什么意思?”、“佛教所说的二十五种因果报应是什么?”、“佛教是什么时候传入中国的?”以及“放生时的三皈依文内容是什么?”等。利用佛学问题进行神经网络的训练,得到问题分类模型。本方案中的问题分类模型可以直接通过获取到与佛学相关的佛学问题,利用所述佛学问题训练得到,也可以通过对待筛选的问题进行筛选,分出佛学领域的问题和非佛学领域的问题,再利用佛学领域的问题和非佛学领域的问题进行训练得到,此处不做详述。
S23:通过所述问题分类模型来判断所述待判断的问题是否属于佛学领域的问题。
将待判断的问题输入所述问题分类模型中,以通过所述问题分类模型判断出该待判断的问题是否属于佛学领域的问题。
其中,本方案中的问题分类模型可以采用TensorFlow来进行训练,其中,TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。
在图3对应的实施例中,本方案先获取与佛理以及禅修相关的佛学问题。利用佛学问题训练神经网络以得到问题分类模型,以使得后续待判断的问题通过该问题分类模型判断出该问题是否为佛学领域的问题,以提高模型的预测质量。
在一实施例中,如图4所示,所述问题分类模型还可以是通过如下方式训练得到:
S221:对所述待筛选的问题进行筛选,以筛选出佛学领域的问题和非佛学领域的问题;
S222:利用标注数据分别对所述佛学领域的问题和所述非佛学领域的问题进行不同的标注;
其中,标注数据是指通过计算机等工具对各类型的数据如:文本、视频、图像、音频等,通过不同的标注方式为他们贴上标签并提供给机器学习的过程;本方案利用标注数据分别对所述佛学领域的问题和所述非佛学领域的问题进行不同的标注。例如,对所述佛学领域的问题标注为“佛学”,对非佛学领域的问题标注为“非佛学”。
其中,对所述待筛选的问题进行筛选,以从待筛选的问题中筛选出佛学领域的问题和非佛学领域的问题,把待筛选的问题区别出两类:佛学领域的问题和非佛学领域的问题,而且佛学领域的问题相当于正样本,非佛学领域的问题相当于负样本。
S223:根据所述佛学领域的问题对应的标注,从佛学领域的问题中提取到佛学特征;
根据佛学领域的问题对应的“佛学”标注,从佛学领域的问题“三世诸佛皆于娑婆成就佛道是什么意思?”中提取到佛学特征“三世诸佛”、“佛道”。
S224:根据非佛学领域的问题对应的标注,从非佛学领域的问题中提取到非佛学特征;
根据非佛学领域的问题对应的“非佛学”标注,从非佛学领域的问题“今天的天气怎么样?”中提取到非佛学特征“天气”。
S225:利用所述佛学特征以及所述非佛学特征进行问题分类模型的训练。
利用所述佛学特征“三世诸佛”以及所述非佛学特征“天气”进行神经网络的训练,得到问题分类模型。
在图4对应的实施例中,本方案采用佛学领域的问题和所述非佛学领域的问题训来练问题分类模型,佛学领域的问题和非佛学领域的问题相当于正负样本,问题分类模型在训练过程中学习到佛学特征和非佛学特征,有利于进一步提高模型的预测质量。
S30:若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
比如,佛学领域的问题“三世诸佛皆于娑婆成就佛道是什么意思?”,获取佛学领域的问题的问题答案“三世诸佛都是在娑婆世界成佛。娑婆世界就是我们所在的世界,只有在这个世界才能成佛。”
S40:判断所述佛学领域的问题与所述问题答案是否匹配;
判断所述佛学领域的问题与所述问题答案是否匹配,若佛学领域的问题与所述问题答案匹配,则对佛学领域的问题以及问题答案进行规范调整;若佛学领域的问题与所述问题答案不匹配,则重新获取佛学领域的问题的问题答案。
在一实施例中,如图5所示,步骤S40中,也即所述判断所述佛学领域的问题与所述问题答案是否匹配,具体包括如下步骤:
S41:从所述佛学领域的问题中提取问题特性;
从佛学领域的问题“三世诸佛皆于娑婆成就佛道是什么意思?”中提取问题特性:“三世诸佛”、“娑婆”、“佛道”。
S42:从所述问题答案中提取问题答案特性;
从佛学领域的问题的问题答案“三世诸佛都是在娑婆世界成佛。娑婆世界就是我们所在的世界,只有在这个世界才能成佛。”中提取问题答案特性“三世诸佛”、“娑婆”、“成佛”。
S43:将所述问题特性与所述问题答案特性进行对比,得到对比结果;
将所述问题特性“三世诸佛”、“娑婆”、“佛道”与问题答案特性“三世诸佛”、“娑婆”、“成佛”进行对比,得到对比值为75%的对比结果。
S44:根据所述对比结果来判断所述佛学领域的问题与所述问题答案的是否匹配。
其中,若对比值若超过预设的对比值,则说明问题与所述问题答案的是匹配的,若对比值若没有超过预设的对比值,则说明问题与所述问题答案的是不匹配的;预设的对比值是指预习设定的数值,例如,预设的对比值为50%、60%,对比值越高问题与所述问题答案的匹配程度就越高,本方案中的对比值为75%超过预设的对比值50%,则判断出所述问题与所述问题答案相匹配。
在图5对应的实施例中,本方案中将问题特性与问题答案特性进行对比,得到对比结果,再根据对比结果判断问题和问题答案的是否匹配,以自动判断出该问题答案是否回答了该佛学领域的问题,能够加快判断速度,提高判断效率。
S50:若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
在一实施例中,如图6所示,步骤S50中,也即所述对所述佛学领域的问题进行规范调整,得到调整后的目标问题,具体包括如下步骤:
S51:采用正则表达式判断所述佛学领域的问题中是否出现无用标点符号,其中,所述无用标点符号是指预设标点符号外的标点符号;
采用正则表达式判断所述佛学领域的问题中是否出现无用标点符号,所述无用标点符号是指预设标点符号外的标点符号,其中,预设标点符号是指预先设定的标点符号,例如:“。”、“?”“,”,无用标点符号可以为“......”、“@”、“#”、“¥”等。
其中,正则表达式,又称正规表示法、常规表示法(英语:Regular Express ion,在代码中常简写为regex、regexp或RE)。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式通常被用来检索、替换那些符合某个模式的文本,从而达到文本匹配目的工具。
采用正则表达式判断所述佛学领域的问题中是否出现无用标点符号,若所述佛学领域的问题中出现无用标点符号,则对所述佛学领域的问题中的所述无用标点符号进行删除;若佛学领域的问题中没有出现无用标点符号,则判断所述佛学领域的问题中是否出现称谓。
S52:若所述佛学领域的问题中出现无用标点符号,则对所述佛学领域的问题中的所述无用标点符号进行删除,得到删除所述无用标点符号后的目标问题;
比如,佛学领域的问题为:“三世诸佛@@@皆于娑婆成就佛道是什么意思?”,采用正则表达式判断出佛学领域的问题中出现无用标点符号“@@@”,则对无用标点符号“@@@”进行删除,得到删除无用标点符号后“@@@”的初始问题:“三世诸佛皆于娑婆成就佛道是什么意思?”。
作为一种扩展,对所述佛学领域的问题进行规范调整还包括:采用正则表达式判断所述佛学领域的问题中是否出现限定词汇,其中,所述限定词汇为网络用语,例如限定词汇为:“扎心”、“过奖了”、“你的良心不会痛吗”等网络用语;若所述佛学领域的问题中出现所述限定词汇,则对所述佛学领域的问题中的所述限定词汇进行删除,得到删除所述限定词汇后的问题。
作为另一种扩展,分析佛学领域的问题得到佛学领域的问题的问题句式;判断佛学领域的问题的问题句式是否需要调整,若判断出需要调整佛学领域的问题的问题句式,则根据样本问题句式对佛学领域的问题进行句式调整,得到问题句式统一的佛学领域的问题;其中,样本问题句式为单句式的疑问句。例如,佛学领域的问题为:“佛说:三世诸佛皆于娑婆成就佛道,那么三世诸佛皆于娑婆成就佛道是什么意思?”分析佛学领域的问题得到佛学领域的问题的问题句式为双句式的疑问句,则根据样本问题句式对佛学领域的问题进行句式调整,调整为单句式的疑问句,得到问题句式统一的佛学领域的问题“三世诸佛皆于娑婆成就佛道是什么意思?”。
在图6对应的实施例中,针对佛学领域的问题进行规范调整,主要是规整问题的格式,规范调整包括对无用标点符号进行删除,以提炼问题的精髓,以得到符合规范的佛学领域的问题,有利于进一步提高后续模型的预测质量。
在一实施例中,如图7所示,步骤S50中,也即所述对所述佛学领域的问题进行规范调整,具体还包括如下步骤:
S53:判断所述佛学领域的问题中是否出现称谓;
其中,称谓指人们因亲属或其他关系而建立起来的称呼、名称。采用正则表达式判断佛学领域的问题中是否出现称谓,例如,佛学领域的问题“师兄,三世诸佛皆于娑婆成就佛道是什么意思?”。
判断所述佛学领域的问题中是否出现称谓,若所述佛学领域的问题中出现称谓,则对所述佛学领域的问题中的所述称谓进行删除;若所述佛学领域的问题中没有出现称谓,则对问题答案进行摘要提取处理。
S54:若所述佛学领域的问题中出现称谓,则对所述佛学领域的问题中的所述称谓进行删除。
其中,判断出佛学领域的问题“师兄,三世诸佛皆于娑婆成就佛道是什么意思?”中出现称谓“师兄”,则对佛学领域的问题中的所述称谓“师兄”进行删除,以得到删除称谓后的佛学领域的问题“三世诸佛皆于娑婆成就佛道是什么意思?”。
在图7对应的实施例中,针对佛学领域的问题进行规范调整,规范调整还包括对称谓进行删除,以提炼问题的精髓,以得到符合规范的高质量的佛学领域的问题,有利于进一步提高后续模型的预测质量。
在一实施例中,如图8所示,步骤S50中,也即所述对问题答案进行规范调整,得到调整后的目标问题答案,具体包括如下步骤:
S55:对所述问题答案进行摘要提取处理,得到所述摘要提取处理后的初始问题答案;
利用Textrank算法对所述问题答案进行摘要提取处理,得到多个摘要,可理解地,TextRank算法是基于图模型的一种抽取式摘要方法,TextRank算法为利用一篇文档内部的词语间的语义信息便可以抽取该文档的摘要。TextRank算法进行摘要提取处理的原理:把问题答案分割成若干组成句子,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,选取多个摘要;再从多个摘要中选取超过预设的重要值的摘要作为所述摘要提取处理后的初始问题答案。
S56:对所述初始问题答案进行筛选,去除语义关联度高的冗余句子,得到筛选后的目标问题答案。
利用MMR模型对所述初始问题答案进行筛选,去除语义关联高的冗余句子,得到筛选后的目标问题答案。
可理解地,MMR是Maximal Marginal Releuance的缩写,中文为最大边界相关算法或最大边缘相关算法,MMR算法目的是减少排序结果的冗余,同时保证结果的相关性。
在图8对应的实施例中,针对佛学领域的问题答案进行规范调整,规范调整包括对所述问题答案进行摘要提取处理以及去除语义关联度高的冗余句子,提炼问题答案的精髓,将得到筛选后的目标问题答案,以得到符合规范的高质量的佛学领域的问题答案,有利于进一步提高后续模型的预测质量。
S60:利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
将目标问题以及目标问题答案结合在一起,输入到神经网络进行模型训练,例如,将目标问题为“三世诸佛皆于娑婆成就佛道是什么意思?”作为模型的编码器的输入,以及将目标问题答案为“三世诸佛都是在娑婆世界成佛。娑婆世界就是我们所在的世界,只有在这个世界才能成佛。”作为模型的解码器的输入来训练训练,得到佛学问答模型。
S70:接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
将接收到的用户输入的佛学领域的问输入至佛学问答模型中,以得到用户输入的佛学领域的问题关联的佛学问题。
在图2对应的实施例中,本方案能够自动判断待判断的问题是否属于佛学领域的问题,以及判断佛学领域的问题与问题答案是否匹配,能够加快判断速度,提高判断效率,同时,减少判断失误;接着对所述佛学领域的问题以及所述问题答案进行规范调整,以对佛学领域的问题以及问题答案进行统一的规范调整,提高佛学领域的问题以及问题答案的精简度,以实现快速筛选出合格的、高质量的佛学问答数据;最后利用目标问题以及目标问题答案进行模型训练,把目标问题以及目标问题答案结合一起进行训练,得到佛学问答模型,以提高模型的预测质量。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明的实施过程构成任何限定。
在一实施例中,提供一种佛学问答数据生成装置,该佛学问答数据生成装置与上述实施例中佛学问答数据生成方法一一对应。如图9所示,该佛学问答数据生成装置包括第一获取模块10、第一判断模块20、第二获取模块30、第二判断模块40、调整模块50、模型训练模块60和得到模块70。各功能模块详细说明如下:
第一获取模块10,用于获取待判断的问题;
第一判断模块20,用于判断所述待判断的问题是否属于佛学领域的问题;
第二获取模块30,用于若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
第二判断模块40,用于判断所述佛学领域的问题与所述问题答案是否匹配;
调整模块50,用于若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
模型训练模块60,用于利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
得到模块70,用于接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
所述第一判断模块20,具体用于:
获取与佛理以及禅修相关的佛学问题;
利用所述佛学问题训练神经网络得到问题分类模型;
通过所述问题分类模型来判断所述待判断的问题是否属于佛学领域的问题。
所述第一判断模块20包括问题分类模型训练单元,所述问题分类模型训练单元,具体用于:
对所述待筛选的问题进行筛选,以筛选出佛学领域的问题和非佛学领域的问题;
利用标注数据分别对所述佛学领域的问题和所述非佛学领域的问题进行不同的标注;
根据所述佛学领域的问题对应的标注,从佛学领域的问题中提取到佛学特征;
根据非佛学领域的问题对应的标注,从非佛学领域的问题中提取到非佛学特征;
利用所述佛学特征以及所述非佛学特征进行问题分类模型的训练。
所述第二判断模块40,具体用于:
从所述佛学领域的问题中提取问题特性;
从所述问题答案中提取问题答案特性;
将所述问题特性与所述问题答案特性进行对比,得到对比结果;
根据所述对比结果来判断所述佛学领域的问题与所述问题答案的是否匹配。
所述调整模块50,具体用于:
采用正则表达式判断所述佛学领域的问题中是否出现无用标点符号,其中,所述无用标点符号是指预设标点符号外的标点符号;
若所述佛学领域的问题中出现无用标点符号,则对所述佛学领域的问题中的所述无用标点符号进行删除,得到删除所述无用标点符号后的目标问题。
所述调整模块50,具体还用于:
判断所述佛学领域的问题中是否出现称谓;
若所述佛学领域的问题中出现称谓,则对所述佛学领域的问题中的所述称谓进行删除。
关于佛学问答数据生成装置的具体限定可以参见上文中对于佛学问答数据生成方法的限定,在此不再赘述。上述佛学问答数据生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储述佛学领域的问题、问题答案、目标问题、目标问题答案等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种佛学问答数据生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待判断的问题;
判断所述待判断的问题是否属于佛学领域的问题;
若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
判断所述佛学领域的问题与所述问题答案是否匹配;
若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待判断的问题;
判断所述待判断的问题是否属于佛学领域的问题;
若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
判断所述佛学领域的问题与所述问题答案是否匹配;
若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种佛学问答数据生成方法,其特征在于,包括:
获取待判断的问题;
判断所述待判断的问题是否属于佛学领域的问题;
若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
判断所述佛学领域的问题与所述问题答案是否匹配;
若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
2.如权利要求1所述的佛学问答数据生成方法,其特征在于,所述判断所述待判断的问题是否属于佛学领域的问题,包括:
获取与佛理以及禅修相关的佛学问题;
利用所述佛学问题训练神经网络得到问题分类模型;
通过所述问题分类模型来判断所述待判断的问题是否属于佛学领域的问题。
3.如权利要求2所述的佛学问答数据生成方法,其特征在于,所述问题分类模型还可以是通过如下方式训练得到:
对所述待筛选的问题进行筛选,以筛选出佛学领域的问题和非佛学领域的问题;
利用标注数据分别对所述佛学领域的问题和所述非佛学领域的问题进行不同的标注;
根据所述佛学领域的问题对应的标注,从佛学领域的问题中提取到佛学特征;
根据非佛学领域的问题对应的标注,从非佛学领域的问题中提取到非佛学特征;
利用所述佛学特征以及所述非佛学特征进行问题分类模型的训练。
4.如权利要求1所述的佛学问答数据生成方法,其特征在于,所述判断所述佛学领域的问题与所述问题答案是否匹配,包括:
从所述佛学领域的问题中提取问题特性;
从所述问题答案中提取问题答案特性;
将所述问题特性与所述问题答案特性进行对比,得到对比结果;
根据所述对比结果来判断所述佛学领域的问题与所述问题答案的是否匹配。
5.如权利要求1所述的佛学问答数据生成方法,其特征在于,所述对所述佛学领域的问题进行规范调整,得到调整后的目标问题,包括:
采用正则表达式判断所述佛学领域的问题中是否出现无用标点符号,其中,所述无用标点符号是指预设标点符号外的标点符号;
若所述佛学领域的问题中出现无用标点符号,则对所述佛学领域的问题中的所述无用标点符号进行删除,得到删除所述无用标点符号后的目标问题。
6.如权利要求1所述的佛学问答数据生成方法,其特征在于,所述对所述佛学领域的问题进行规范调整,还包括:
判断所述佛学领域的问题中是否出现称谓;
若所述佛学领域的问题中出现称谓,则对所述佛学领域的问题中的所述称谓进行删除。
7.如权利要求1所述的佛学问答数据生成方法,其特征在于,所述对问题答案进行规范调整,得到调整后的目标问题答案,包括:
对所述问题答案进行摘要提取处理,得到所述摘要提取处理后的初始问题答案;
对所述初始问题答案进行筛选,去除语义关联度高的冗余句子,得到筛选后的目标问题答案。
8.一种佛学问答数据生成装置,其特征在于,包括:
第一获取模块,用于获取待判断的问题;
第一判断模块,用于判断所述待判断的问题是否属于佛学领域的问题;
第二获取模块,用于若所述待判断的问题属于佛学领域的问题,则获取所述佛学领域的问题的问题答案;
第二判断模块,用于判断所述佛学领域的问题与所述问题答案是否匹配;
调整模块,用于若所述佛学领域的问题与所述问题答案匹配,则对所述佛学领域的问题以及所述问题答案进行规范调整,得到调整后的目标问题以及对应的目标问题答案;
模型训练模块,用于利用所述目标问题以及所述目标问题答案进行模型训练,得到佛学问答模型;
得到模块,用于接收用户输入的佛学领域的问题,并将所述用户输入的佛学领域的问题输入至所述佛学问答模型,得到与所述用户输入的佛学领域的问题相关联的佛学答案。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述佛学问答数据生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述佛学问答数据生成方法的步骤。
CN202110307594.0A 2021-03-23 2021-03-23 佛学问答数据生成方法、装置、计算机设备及存储介质 Pending CN112948560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307594.0A CN112948560A (zh) 2021-03-23 2021-03-23 佛学问答数据生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307594.0A CN112948560A (zh) 2021-03-23 2021-03-23 佛学问答数据生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112948560A true CN112948560A (zh) 2021-06-11

Family

ID=76228045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307594.0A Pending CN112948560A (zh) 2021-03-23 2021-03-23 佛学问答数据生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112948560A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446302A (zh) * 2018-09-25 2019-03-08 中国平安人寿保险股份有限公司 基于机器学习的问答数据处理方法、装置和计算机设备
US20190087408A1 (en) * 2017-09-15 2019-03-21 International Business Machines Corporation Training data update
JP2019192246A (ja) * 2018-04-20 2019-10-31 株式会社Nttドコモ 自然言語質問回答システム用のトレーニングデータを提供する方法および装置
CN111414457A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 基于联邦学习的智能问答方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190087408A1 (en) * 2017-09-15 2019-03-21 International Business Machines Corporation Training data update
JP2019192246A (ja) * 2018-04-20 2019-10-31 株式会社Nttドコモ 自然言語質問回答システム用のトレーニングデータを提供する方法および装置
CN109446302A (zh) * 2018-09-25 2019-03-08 中国平安人寿保险股份有限公司 基于机器学习的问答数据处理方法、装置和计算机设备
CN111414457A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 基于联邦学习的智能问答方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN108363743A (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN107861954A (zh) 基于人工智能的信息输出方法和装置
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN112597366B (zh) 基于Encoder-Decoder的事件抽取方法
CN113010657A (zh) 基于解答文本的答案处理方法和答案推荐方法
CN105956181A (zh) 搜索方法及装置
CN113343108A (zh) 推荐信息处理方法、装置、设备及存储介质
CN107436931B (zh) 网页正文抽取方法及装置
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN112016300A (zh) 预训练模型处理、下游任务处理方法、装置及存储介质
CN113919363A (zh) 基于人工智能的句向量生成模型的处理方法、装置及设备
CN109858035A (zh) 一种情感分类方法、装置、电子设备和可读存储介质
WO2021228084A1 (zh) 语音数据识别方法、设备及介质
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN116483314A (zh) 一种自动化智能活动图生成方法
CN112948560A (zh) 佛学问答数据生成方法、装置、计算机设备及存储介质
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114048753A (zh) 词义识别模型训练、词义判断方法、装置、设备及介质
CN114358579A (zh) 评阅方法、评阅装置、电子设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination