CN117474043B - 一种基于训练模型的智能问答系统 - Google Patents

一种基于训练模型的智能问答系统 Download PDF

Info

Publication number
CN117474043B
CN117474043B CN202311819489.0A CN202311819489A CN117474043B CN 117474043 B CN117474043 B CN 117474043B CN 202311819489 A CN202311819489 A CN 202311819489A CN 117474043 B CN117474043 B CN 117474043B
Authority
CN
China
Prior art keywords
association
text
question
training model
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311819489.0A
Other languages
English (en)
Other versions
CN117474043A (zh
Inventor
张德文
邓日晓
聂璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Sanxiang Bank Co Ltd
Original Assignee
Hunan Sanxiang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Sanxiang Bank Co Ltd filed Critical Hunan Sanxiang Bank Co Ltd
Priority to CN202311819489.0A priority Critical patent/CN117474043B/zh
Publication of CN117474043A publication Critical patent/CN117474043A/zh
Application granted granted Critical
Publication of CN117474043B publication Critical patent/CN117474043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及智能问答技术领域,尤其涉及一种基于训练模型的智能问答系统,包括,数据收集单元,其用于收集某一用户的若干问题文本和对应的回答结果;预训练模型构建单元,根据确定连续性发问的若干问题文本和对应的回答结果进行预训练,生成预训练模型,包括,预处理单元,其用以对若干问题文本进行预处理,生成预处理数据包;判断单元,其用以对预处理数据包内的数据进行连续性判断和关联处理;构建单元,其根据连续性发问的问题文本和对应的回答结果生成预训练模型;预训练模型优化单元,其用以对构建的预训练模型进行优化调整。本发明通过针对用户连续性的发问进行关联判断,以提高问答系统中的预训练模型针对连续性的问题的结果的处理程度。

Description

一种基于训练模型的智能问答系统
技术领域
本发明涉及智能问答技术领域,尤其涉及一种基于训练模型的智能问答系统。
背景技术
现有智能问答系统主要基于传统的自然语言处理技术和规则引擎,虽然能够回答一些简单问题,但在面对复杂问题时存在一定的局限性。现有技术对于语义理解和知识推理能力较弱,导致回答的准确性和全面性不足。
中国专利公开号:CN 112214581A,公开了一种智能问答系统,包括:话题模型模块和问答模型模块,其中:所述话题模型模块,以问句信息为输入,输出对应于所述问句信息的话题信息;所述问答模型模块,以所述问句信息及其对应的话题信息为输入,通过联合注意力机制对所述问句信息及其对应的话题信息进行处理,得到对应于所述问句信息的回答信息,还公开了一种智能问答方法,应用此公开的技术方案。由此可见,所述智能问答系统存在以下问题:对于连续性发问的问题在回答结果中存在无法进行关联处理。
发明内容
为此,本发明提供一种基于训练模型的智能问答系统,用以克服现有技术中对于连续性发问的问题在回答结果中存在无法进行关联处理的问题。
为实现上述目的,本发明提供一种基于训练模型的智能问答系统,包括,
数据收集单元,其用于收集某一用户的若干问题文本和对应的回答结果;
预训练模型构建单元,其与所述数据收集单元相连,根据确定连续性发问的若干问题文本和对应的回答结果进行预训练,生成预训练模型;
预训练模型优化单元,其与所述预训练模型构建单元相连,用以对构建的预训练模型进行优化调整,包括,对任一连续性问题的回答结果根据用户的选择习惯进行选择比例计算并输出选择比例最大的回答结果、对于任一连续性发问的问题文本进行预训练模型符合度分析并确定是否继续进行此问题文本的训练、对预训练模型在进行构建过程中的数据存储情况进行存储时长调整和关联存储时长分级判断和处理;
所述预训练模型构建单元,包括,
预处理单元,其与所述数据收集单元相连,用以对若干问题文本进行预处理,生成预处理数据包,所述预处理包括,关联此用户的输入习惯、对问题文本进行语序分析和逻辑分析、对分析后的问题文本进行停用词变更及文本清洗;
判断单元,其与所述预处理单元相连,用以对预处理数据包内的数据进行连续性判断和关联处理,确定属于连续性发问的任一问题文本,并与其关联的问题文本连接生成关联树生成,并确定此关联树下的任一问题文本的关联等级,进行回答结果关联,汇总分析任一回答结果重复次数的比例值,进行列举;
构建单元,其与所述预处理单元和所述判断单元相连,所述构建单元内存有Transformer架构,所述构建单元根据连续性发问的问题文本和对应的回答结果进行预训练,生成预训练模型。
进一步地,在所述预处理单元内存有预处理初始资料库,所述预处理初始资料库内存有方言词库、停用词库、清洗词库,所述预处理初始资料库与该用户的输入习惯相关联,所述输入习惯包括,输入文本的语序、输入文本的逻辑过程、输入词汇;
根据关联的输入习惯和所述方言词库对输入的任一问题文本进行文本语序分析和逻辑分析,生成初始分析数据,所述语序分析为对问题文本的语句结构进行分析,所述逻辑分析为对任意两个问题文本的逻辑关联进行分析;
针对所述初始分析数据,关联所述停用词库和清洗词库,对任一问题文本进行停用词变更和文本清洗,汇总全部处理后的问题文本生成预处理数据包。
进一步地,在所述判断单元存有预设关联时长、向前回溯预设关联时长的个数,根据任一问题文本的输入时间,往前回溯预设个数的预设关联时长,将其作为关联时段,提取所述预处理数据包在此关联时段下的若干问题文本,对此关联时段下任一问题文本与此问题文本进行连续性判断;
针对判断连续性的问题文本和此关联时段下其中任一问题文本,分别进行关键词提取,并对两者提取的内容进行相同关键词分析,确定判断连续性的问题文本是否与此关联时段下其中任一问题文本存有连续性;
对于此关联时段下任一问题文本,若确定判断连续性的问题文本与其存有连续,则判断连续性的问题文本为连续性发问文本,将判断连续性的问题文本为连续性发问文本与此问题文本进行关联,生成关联树,继续进行关联时段内下一问题文本的连续性判断;
若确定判断连续性的问题文本与其不存有连续,则对此关联时段下的下一问题文本进行连续性判断;
直至此关联时段下所有问题文本的连续性判断均已完成,则对生成的关联树的问题文本,确定在关联时段下的问题文本所处的关联等级及需进行的处理内容。
进一步地,针对任一生成的关联树,且在关联时段下的问题文本,计算此问题文本与判断连续性的问题文本的实际关联度,并确定在关联时段下的问题文本所处的关联等级及需进行的关联处理内容,在所述判断单元内存有第一关联度和第二关联度,所述第一关联度小于所述第二关联度;
当实际关联度小于等于第一关联度时,此问题文本处于第三关联等级,删除关联树中的此问题文本;
当实际关联度大于第一关联度,且实际关联度小于第二关联度时,此问题文本处于第二关联等级,保留关联树中的此问题文本;
当实际关联度大于第二关联度时,此问题文本处于第一关联等级,将此问题文本与判断连续性的问题文本进行关联强化,当回答判断连续性的问题文本时,将其与生成关联树的问题文本的回答结果进行关联。
进一步地,针对任一进行连续性发问的问题文本,在进行回答结果关联时,当存有若干处于第一关联等级的问题文本时,则所述判断单元将所有问题文本的回答结果进行汇总分析,根据任一回答结果的重复次数在所有回答结果中的比例值,进行排序列举,以供用户进行选择;
所述构建单元根据用户的选择情况,对此进行连续性发问结果关联处理的问题文本进行预训练模型构建。
进一步地,所述预训练模型优化单元内存有选择周期和针对此用户建立的选择习惯模型,所述选择习惯模型根据此用户在预设的前几个选择周期内的所有选择习惯建立,并实时更新选择此用户的选择习惯;
当所述预训练模型针对任一连续性发问的问题文本进行构建时,所述预训练模型优化单元根据预训练模型得到的多回答结果与所述选择习惯模型进行对比,计算任一回答结果的选择比例,并对选择比例最大的回答结果进行输出。
进一步地,在所述预训练模型优化单元内,针对任一连续性发问的问题文本进行预训练模型符合度分析,在所述预训练模型内存有预设训练符合比,根据两者对比结果确定预训练模型是否继续进行此问题文本的训练;
当预训练模型符合度小于预设训练符合比时,预训练模型继续进行此问题文本的训练。
进一步地,当所述预训练模型针对任一连续性发问的问题文本进行构建时,所述预训练模型优化单元内存有针对此问题文本存储时长的检测单元,所述检测单元对此问题文本存储的数据量和存储时长进行检测,并根据其检测结果进行存储时长调整等级判断,在所述预训练模型优化单元内设有数据量调整阈值和存储时长调整阈值;
对于任一问题文本,
若数据量大于等于数据量调整阈值,且存储时长大于等于存储时长调整阈值,则此问题文本处于第一存储时长调整等级;
若存有一项小于其设定阈值,则此问题文本处于第二存储时长调整等级;
若任一项均小于其设定阈值,则此问题文本处于正常存储时间,继续对此问题文本进行存储时长调整等级判断。
进一步地,当任一问题文本处于第一存储时长调整等级或第二存储时长调整等级时,对此问题文本与所在的关联树查找,确定其在关联树内的关联度等级,进行存储判断;
若任一关联树内均不存有此问题文本,则删除此问题文本的存储内容;
若此问题文本在任一关联数树内,且处于第二关联等级,则对此问题文本进行关联存储时长分级判断和处理;
若此问题文本在任一关联数树内,且处于第一关联等级,则对此问题文本进行存储时长延时处理。
进一步地,在所述预训练模型优化单元存有针对所述预训练模型中关联树内第二关联等级的问题文本的存储关联时长,所述存储关联时长包括,第一存储关联时长和第二存储关联时长,所述第一存储关联时长小于所述第二存储关联时长,对于处于进行关联存储时长分级判断的任一问题文本,将其存储时长与存储关联时长对比,判断此问题文本的存储等级及处理方法;
对于任一连续性发问的问题文本,
当存储时长小于等于第一存储关联时长时,此问题文本处于第一存储等级,对下一问题文本问题文本进行判断;
当存储时长大于第一存储关联时长时,且,存储时长小于等于第二存储关联时长时,此问题文本处于第二存储等级,对其存储内容进行删除提醒;
当存储时长大于第二存储关联时长时,此问题文本处于第三存储等级,对其存储内容进行删除处理。
与现有技术相比,本发明的有益效果在于,本发明在用户使用该智能问答系统提问的过程中,针对用户连续性的发问进行关联判断,以便于提高该智能问答系统中的预训练模型针对此用户连续性的发问的问题的学习程度,同时,将用户的发问习惯在该系统中进行分析,提高系统中的预训练模型的针对用户习惯的拟合程度,使智能问答系统在回应用户时套用此习惯,从而提高用户体验舒适度,并对系统中训练出的预训练模型进行及时的优化,提高系统对问题的回答能力。
进一步地,本发明通过将预处理单元与用户的输入习惯相关联,便于后续构建的预训练模型对该用户发问的文本进行分析和判断处理,同时,提高智能问答系统对于该用户问题进行针对性处理,在分析问题的过程中学习该用户的语言习惯,使智能问答系统在回应用户时套用此习惯,以提高用户在使用智能问答系统时的适应程度。
进一步地,本发明通过对任一问题文本进行关联时段下的连续性判断,以便智能问答系统在进行关联问题处理的过程中,获取关联问题的回答结果,并将其与本问题文本的结果进行相互关联,以达到准确回答连续发问的问题文本的效果,同时,为后续需要建立的预训模型做前期准备。
进一步地,本发明对任一问题文本和与它生成关联树的问题问本进行关联度计算,以确定关联文本在回答结果中的联系,同时,删除关联度低的关联文本,减少智能问答系统在回答处理中的数据量,以使后续建立的预训练模型更加便捷。
进一步地,本发明对任一进行连续性发问的问题文本,在回答结果关联中,对于存有的若干处于第一关联等级的问题文本所对应的记过,进行罗列,让用户自行选择,且,在构建单元中,在建立针对连续性发问的预训练模型中对用户的选择情况进行记录,以获得符合用户选择习惯的预训练模型,同时,使用户在使用智能问答系统时能够更加准确的贴合用户的需求,而减少多回答结果时智能问答系统的数据量。
进一步地,本发明对预训练模型训练后依旧存有多回答结果时,对于需要输出的回答结果进行用户习惯比对,以输出最符合用户习惯的结果,以提高智能问答系统回答时的准确度,同时,选择习惯模型还会进行实时更新,以便于预训练模型对用户习惯的实时学习,提升后续输出答案的准确度。
进一步地,本发明对预训练模型内对任一连续性发问的问题文本进行符合度分析,确定预训练模型是否成熟,从而控制预训练模型的训练程序进行,减少预训练模型训练过程的数据量,使预训练模型针对薄弱的问题文本进行主动完善。
进一步地,本发明对任一问题文本根据其所存储的数据量进行存储时长调整等级判断,以便后续对此问题的存储时长进行判断,同时,对存储时长进行分等级处理能够减少预训练模型中部分数据量的处理,减少预训练模型数据过于复杂导致的模型训练时间长,且使用效率降低的问题。
进一步地,本发明对于需要进行存储时长调整的问题文本进行关联树确定,确定此问题文本对连续性发问过程中的其他问题的关联程度,以减少误删数据量大且关联程度高的数据,提高预训练模型在其训练过程中关联度较高数据的存储时间,而删除发散性的数据,提高预训练模型的完成度。
进一步地,本发明对问题文本的存储时长进行分等级处理,确定是否删除此问题的存储内容,以减少预处理模型中对于连续性问的问题文本的数据处理量,提高预处理模型的运行效率。
附图说明
图1为实施例所述基于训练模型的智能问答系统的软件结构示意图;
图2为实施例所述基于训练模型的智能问答系统的内部数据处理流程图;
图3为实施例中问题文本W1、问题文本W2、问题文本W3生成关联树的参考示意图;
图4为实施例中针对处于第一存储时长调整等级或第二存储时长调整等级问题文本的存储时长调整的判断逻辑图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1、图2所示,图1为实施例所述基于训练模型的智能问答系统的软件结构示意图,图1为实施例所述基于训练模型的智能问答系统的软件结构示意图,图2为实施例所述基于训练模型的智能问答系统的内部数据处理流程图。
本发明提供一种基于训练模型的智能问答系统,包括,
数据收集单元,其用于收集某一用户的若干问题文本和对应的回答结果;
预训练模型构建单元,其与所述数据收集单元相连,根据确定连续性发问的若干问题文本和对应的回答结果进行预训练,生成预训练模型;
预训练模型优化单元,其与所述预训练模型构建单元相连,用以对构建的预训练模型进行优化调整,包括,对任一连续性问题的回答结果根据用户的选择习惯进行选择比例计算并输出选择比例最大的回答结果、对于任一连续性发问的问题文本进行预训练模型符合度分析并确定是否继续进行此问题文本的训练、对预训练模型在进行构建过程中的数据存储情况进行存储时长调整和关联存储时长分级判断和处理;
所述预训练模型构建单元,包括,
预处理单元,其与所述数据收集单元相连,用以对若干问题文本进行预处理,生成预处理数据包,所述预处理包括,关联此用户的输入习惯、对问题文本进行语序分析和逻辑分析、对分析后的问题文本进行停用词变更及文本清洗;
判断单元,其与所述预处理单元相连,用以对预处理数据包内的数据进行连续性判断和关联处理,确定属于连续性发问的任一问题文本,并与其关联的问题文本连接生成关联树生成,并确定此关联树下的任一问题文本的关联等级,进行回答结果关联,汇总分析任一回答结果重复次数的比例值,进行列举;
构建单元,其与所述预处理单元和所述判断单元相连,所述构建单元内存有Transformer架构,所述构建单元根据连续性发问的问题文本和对应的回答结果进行预训练,生成预训练模型。
本发明在用户使用该智能问答系统提问的过程中,针对用户连续性的发问进行关联判断,以便于提高该智能问答系统中的预训练模型针对此用户连续性的发问的问题的学习程度,同时,将用户的发问习惯在该系统中进行分析,提高系统中的预训练模型的针对用户习惯的拟合程度,使智能问答系统在回应用户时套用此习惯,从而提高用户体验舒适度,并对系统中训练出的预训练模型进行及时的优化,提高系统对问题的回答能力。
具体而言,本实施例中,在所述预处理单元内存有预处理初始资料库,所述预处理初始资料库内存有方言词库、停用词库、清洗词库,所述预处理初始资料库与该用户的输入习惯相关联,所述输入习惯包括,输入文本的语序、输入文本的逻辑过程、输入词汇;
根据关联的输入习惯和所述方言词库对输入的任一问题文本进行文本语序分析和逻辑分析,生成初始分析数据,所述语序分析为对问题文本的语句结构进行分析,所述逻辑分析为对任意两个问题文本的逻辑关联进行分析;
针对所述初始分析数据,关联所述停用词库和清洗词库,对任一问题文本进行停用词变更和文本清洗,汇总全部处理后的问题文本生成预处理数据包。
实施例中,针对用户A,其输入习惯为倒装句,输入问题文本W1中含有部分地方方言,则在对问题文本W1进行输入语序分析时,根据倒装句的习惯,分析问题中的语句结构,包括,主语、谓语、宾语、状语等,主语和谓语中分析出的指代词需要分析出,状语中的时序词、地点词汇等也需要重要分析,组成初始分析数据,对于地方方言内容则在方言词库进行查找对比分析,用以方便进行语句结构分析。
本发明通过将预处理单元与用户的输入习惯相关联,便于后续构建的预训练模型对该用户发问的文本进行分析和判断处理,同时,提高智能问答系统对于该用户问题进行针对性处理,在分析问题的过程中学习该用户的语言习惯,使智能问答系统在回应用户时套用此习惯,以提高用户在使用智能问答系统时的适应程度。
具体而言,本实施例中,在所述判断单元存有预设关联时长、向前回溯预设关联时长的个数,根据任一问题文本的输入时间,往前回溯预设个数的预设关联时长,将其作为关联时段,提取所述预处理数据包在此关联时段下的若干问题文本,对此关联时段下任一问题文本与此问题文本进行连续性判断;
针对判断连续性的问题文本和此关联时段下其中任一问题文本,分别进行关键词提取,并对两者提取的内容进行相同关键词分析,确定判断连续性的问题文本是否与此关联时段下其中任一问题文本存有连续性;
对于此关联时段下任一问题文本,
若确定判断连续性的问题文本与其存有连续,则判断连续性的问题文本为连续性发问文本,将判断连续性的问题文本为连续性发问文本与此问题文本进行关联,生成关联树,继续进行关联时段内下一问题文本的连续性判断;
若确定判断连续性的问题文本与其不存有连续,则对此关联时段下的下一问题文本进行连续性判断;
直至此关联时段下所有问题文本的连续性判断均已完成,则对生成的关联树的问题文本,确定在关联时段下的问题文本所处的关联等级及需进行的处理内容。
若根据任一问题文本W1的输入时间为2023年10月31日12:30,在所述判断单元存有预设关联时长Tg(Tg=30min)、向前回溯个数n(n=2),往前回溯预设个数n的预设关联时长,将其作为关联时段,即,对于问题文本W1,其关联时段的起始时间为2023年10月31日11:30,结束时间为2023年10月31日12:30。
提取所述预处理数据包在此关联时段下的若干问题文本,本实施例中,包括三个问题文本:问题文本W2(输入时间:2023年10月31日12:10)、问题文本W3(输入时间:2023年10月31日12:15)、问题文本W4(输入时间:2023年10月31日12:25)。
问题文本W1中关村存有关键词,G1、G2、G5、G7。
对于问题文本W2,其中含有关键词,G1、G2、G3,对于问题文本W3,其中含有关键词,G5、G6、G8,对于问题文本W4,其中含有关键词,G3、G9、G10。
问题文本W2与问题文本W1存有关联性,则将其进行关联,生成关联树,继续对文本W3进行连续性判断;问题文本W3与问题文本W1存有关联性,则将其进行关联,生成关联树,则对问题文本W4的连续性判断;问题文本W4为问题文本W1不存有连续的问题文本。
参考图3所示,图3为实施例中问题文本W1、问题文本W2、问题文本W3生成关联树的参考示意图,针对问题文本W1,所生成的关联树信息为:问题文本W2针对关键词G1、G2与问题文本W1存有关联性,问题文本W3针对关键词G5与问题文本W1存有关联性。
本发明通过对任一问题文本进行关联时段下的连续性判断,以便智能问答系统在进行关联问题处理的过程中,获取关联问题的回答结果,并将其与本问题文本的结果进行相互关联,以达到准确回答连续发问的问题文本的效果,同时,为后续需要建立的预训模型做前期准备。
具体而言,本实施例中,针对任一生成的关联树,且在关联时段下的问题文本,计算此问题文本与判断连续性的问题文本的实际关联度,并确定在关联时段下的问题文本所处的关联等级及需进行的关联处理内容,在所述判断单元内存有第一关联度和第二关联度,所述第一关联度小于所述第二关联度;
当实际关联度小于等于第一关联度时,此问题文本处于第三关联等级,删除关联树中的此问题文本;
当实际关联度大于第一关联度,且实际关联度小于第二关联度时,此问题文本处于第二关联等级,保留关联树中的此问题文本;
当实际关联度大于第二关联度时,此问题文本处于第一关联等级,将此问题文本与判断连续性的问题文本进行关联强化,当回答判断连续性的问题文本时,将其与生成关联树的问题文本的回答结果进行关联。
在所述判断单元内存有第一关联度X1和第二关联度X2,所述第一关联度X1小于所述第二关联度X2。
生成关联树的问题文本进行分级处理,计算其中任一问题文本与判断连续性的问题文本的实际关联度。
本实施例中,针对问题文本W2其实际关联度为Xw2。
当实际关联度Xw2小于等于第一关联度X1时,问题文本W2处于第三关联等级,删除关联树中的问题文本W2;当实际关联度Xw2大于第一关联度X1,且实际关联度Xw2小于第二关联度X2时,问题文本W2处于第二关联等级,保留关联树中的问题文本W2;当实际关联度Xw2大于第二关联度X2时,问题文本W2处于第一关联等级,将问题文本W2与问题文本W1进行关联强化,当问题文本W1时,将其与生成关联树的问题文本W2的回答结果进行关联。
本发明对任一问题文本和与它生成关联树的问题问本进行关联度计算,以确定关联文本在回答结果中的联系,同时,删除关联度低的关联文本,减少智能问答系统在回答处理中的数据量,以使后续建立的预训练模型更加便捷。
具体而言,本实施例中,针对任一进行连续性发问的问题文本,在进行回答结果关联时,当存有若干处于第一关联等级的问题文本时,则所述判断单元将所有问题文本的回答结果进行汇总分析,根据任一回答结果的重复次数在所有回答结果中的比例值,进行排序列举,以供用户进行选择;
所述构建单元根据用户的选择情况,对此进行连续性发问结果关联处理的问题文本进行预训练模型构建。
本发明对任一进行连续性发问的问题文本,在回答结果关联中,对于存有的若干处于第一关联等级的问题文本所对应的记过,进行罗列,让用户自行选择,且,在构建单元中,在建立针对连续性发问的预训练模型中对用户的选择情况进行记录,以获得符合用户选择习惯的预训练模型,同时,使用户在使用智能问答系统时能够更加准确的贴合用户的需求,而减少多回答结果时智能问答系统的数据量。
具体而言,本实施例中,所述预训练模型优化单元内存有选择周期和针对此用户建立的选择习惯模型,所述选择习惯模型根据此用户在预设的前几个选择周期内的所有选择习惯建立,并实时更新选择此用户的选择习惯;
当所述预训练模型针对任一连续性发问的问题文本进行构建时,所述预训练模型优化单元根据预训练模型得到的多回答结果与所述选择习惯模型进行对比,计算任一回答结果的选择比例,并对选择比例最大的回答结果进行输出。
针对问题文本W1存有回答结果A1,A2,A3。在选择习惯模型中针对A1,A2,A3存有选择比例:A1为20%,A2为50%,A3为2%。因此,输出问题文本W1的回答结果A2。
本发明对预训练模型训练后依旧存有多回答结果时,对于需要输出的回答结果进行用户习惯比对,以输出最符合用户习惯的结果,以提高智能问答系统回答时的准确度,同时,选择习惯模型还会进行实时更新,以便于预训练模型对用户习惯的实时学习,提升后续输出答案的准确度。
具体而言,本实施例中,在所述预训练模型优化单元内,针对任一连续性发问的问题文本进行预训练模型符合度分析,在所述预训练模型内存有预设训练符合比,根据两者对比结果确定预训练模型是否继续进行此问题文本的训练;
当预训练模型符合度小于预设训练符合比时,预训练模型继续进行此问题文本的训练。
在预训练模型内存有预设训练符合比为80%,而对于问题文本W1的进行预训练模型符合度分析后得出的预训练模型符合为70%,因此,预训练模型继续进行问题文本W1的训练。
本发明对预训练模型内对任一连续性发问的问题文本进行符合度分析,确定预训练模型是否成熟,从而控制预训练模型的训练程序进行,减少预训练模型训练过程的数据量,使预训练模型针对薄弱的问题文本进行主动完善。
参阅图4所示,图4为实施例中针对处于第一存储时长调整等级或第二存储时长调整等级问题文本的存储时长调整的判断逻辑图。
具体而言,本实施例中,当所述预训练模型针对任一连续性发问的问题文本进行构建时,所述预训练模型优化单元内存有针对此问题文本存储时长的检测单元,所述检测单元对此问题文本存储的数据量和存储时长进行检测,并根据其检测结果进行存储时长调整等级判断,在所述预训练模型优化单元内设有数据量调整阈值和存储时长调整阈值;
对于任一问题文本,
若数据量大于等于数据量调整阈值,且存储时长大于等于存储时长调整阈值,则此问题文本处于第一存储时长调整等级;
若存有一项小于其设定阈值,则此问题文本处于第二存储时长调整等级;
若任一项均小于其设定阈值,则此问题文本处于正常存储时间,继续对此问题文本进行存储时长调整等级判断。
若问题文本W1存储的数据量为S1,其存储时长为C1。
在所述预训练模型优化单元内设有数据量调整阈值S0和存储时长调整阈值C0。
若数据量S1大于数据量调整阈值S0,且存储时长C1大于存储时长调整阈值C0,则问题文本W1处于第一存储时长调整等级。
若数据量S1小于数据量调整阈值S0,存储时长C1大于存储时长调整阈值C0,则此问题文本处于第二存储时长调整等级。若数据量S1大于等于数据量调整阈值S0,存储时长C1小于存储时长调整阈值C0,则此问题文本处于第二存储时长调整等级。
若数据量S1小于数据量调整阈值S0,且,存储时长C1小于存储时长调整阈值C0,则问题文本W1处于正常存储时间,继续对问题文本W1进行存储时长调整等级判断。
本发明对任一问题文本根据其所存储的数据量进行存储时长调整等级判断,以便后续对此问题的存储时长进行判断,同时,对存储时长进行分等级处理能够减少预训练模型中部分数据量的处理,减少预训练模型数据过于复杂导致的模型训练时间长,且使用效率降低的问题。
继续参阅图4所示,具体而言,本实施例中,当任一问题文本处于第一存储时长调整等级或第二存储时长调整等级时,对此问题文本与所在的关联树查找,确定其在关联树内的关联度等级,进行存储判断;
若任一关联树内均不存有此问题文本,则删除此问题文本的存储内容;
若此问题文本在任一关联数树内,且处于第二关联等级,则对此问题文本进行关联存储时长分级判断和处理;
若此问题文本在任一关联数树内,且处于第一关联等级,则对此问题文本进行存储时长延时处理。
本发明对于需要进行存储时长调整的问题文本进行关联树确定,确定此问题文本对连续性发问过程中的其他问题的关联程度,以减少误删数据量大且关联程度高的数据,提高预训练模型在其训练过程中关联度较高数据的存储时间,而删除发散性的数据,提高预训练模型的完成度。
具体而言,本实施例中,在所述预训练模型优化单元存有针对所述预训练模型中关联树内第二关联等级的问题文本的存储关联时长,所述存储关联时长包括,第一存储关联时长和第二存储关联时长,所述第一存储关联时长小于所述第二存储关联时长,对于处于进行关联存储时长分级判断的任一问题文本,将其存储时长与存储关联时长对比,判断此问题文本的存储等级及处理方法;
对于任一连续性发问的问题文本,
当存储时长小于等于第一存储关联时长时,此问题文本处于第一存储等级,对下一问题文本问题文本进行判断;
当存储时长大于第一存储关联时长时,且,存储时长小于等于第二存储关联时长时,此问题文本处于第二存储等级,对其存储内容进行删除提醒;
当存储时长大于第二存储关联时长时,此问题文本处于第三存储等级,对其存储内容进行删除处理。
所述预训练模型优化单元存有针对所述预训练模型中关联树内第二关联等级的问题文本的存储关联时长Cg,所述存储关联时长Cg包括,第一存储关联时长Cg1和第二存储关联时长Cg2,所述第一存储关联时长Cg1小于所述第二存储关联时长Cg2。
若任一关联树下,处于第二关联等级的问题文本W1,其存储时长为C1。
当存储时长C1小于等于第一存储关联时长Cg1时,此问题文本处于第一存储等级,对下一问题文本问题文本进行判断;当存储时长C1大于第一存储关联时长Cg1时,且,存储时长小于等于第二存储关联时长Cg2时,此问题文本处于第二存储等级,对其存储内容进行删除提醒;当存储时长C1大于第二存储关联时长Cg2时,此问题文本处于第三存储等级,对其存储内容进行删除处理。
本发明对问题文本的存储时长进行分等级处理,确定是否删除此问题的存储内容,以减少预处理模型中对于连续性问的问题文本的数据处理量,提高预处理模型的运行效率。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于训练模型的智能问答系统,其特征在于,包括,
数据收集单元,其用于收集某一用户的若干问题文本和对应的回答结果;
预训练模型构建单元,其与所述数据收集单元相连,根据确定连续性发问的若干问题文本和对应的回答结果进行预训练,生成预训练模型;
预训练模型优化单元,其与所述预训练模型构建单元相连,用以对构建的预训练模型进行优化调整,包括,对任一连续性问题的回答结果根据用户的选择习惯进行选择比例计算并输出选择比例最大的回答结果、对于任一连续性发问的问题文本进行预训练模型符合度分析并确定是否继续进行此问题文本的训练、对预训练模型在进行构建过程中的数据存储情况进行存储时长调整和关联存储时长分级判断和处理;
所述预训练模型构建单元,包括,
预处理单元,其与所述数据收集单元相连,用以对若干问题文本进行预处理,生成预处理数据包,所述预处理包括,关联此用户的输入习惯、对问题文本进行语序分析和逻辑分析、对分析后的问题文本进行停用词变更及文本清洗;
判断单元,其与所述预处理单元相连,用以对预处理数据包内的数据进行连续性判断和关联处理,确定属于连续性发问的任一问题文本,并与其关联的问题文本连接生成关联树生成,并确定此关联树下的任一问题文本的关联等级,进行回答结果关联,汇总分析任一回答结果重复次数的比例值,进行列举;
构建单元,其与所述预处理单元和所述判断单元相连,所述构建单元内存有Transformer架构,所述构建单元根据连续性发问的问题文本和对应的回答结果进行预训练,生成预训练模型。
2.根据权利要求1所述的基于训练模型的智能问答系统,其特征在于,在所述预处理单元内存有预处理初始资料库,所述预处理初始资料库内存有方言词库、停用词库、清洗词库,所述预处理初始资料库与该用户的输入习惯相关联,所述输入习惯包括,输入文本的语序、输入文本的逻辑过程、输入词汇;
根据关联的输入习惯和所述方言词库对输入的任一问题文本进行文本语序分析和逻辑分析,生成初始分析数据,所述语序分析为对问题文本的语句结构进行分析,所述逻辑分析为对任意两个问题文本的逻辑关联进行分析;
针对所述初始分析数据,关联所述停用词库和所述清洗词库,对任一问题文本进行停用词变更和文本清洗,汇总全部处理后的问题文本生成预处理数据包。
3.根据权利要求2所述的基于训练模型的智能问答系统,其特征在于,在所述判断单元存有预设关联时长、向前回溯预设关联时长的个数,根据任一问题文本的输入时间,往前回溯预设个数的预设关联时长,将其作为关联时段,提取所述预处理数据包在此关联时段下的若干问题文本,对此关联时段下任一问题文本与此问题文本进行连续性判断;
针对判断连续性的问题文本和此关联时段下其中任一问题文本,分别进行关键词提取,并对两者提取的内容进行相同关键词分析,确定判断连续性的问题文本是否与此关联时段下其中任一问题文本存有连续性;
对于此关联时段下任一问题文本,
若确定判断连续性的问题文本与其存有连续,则判断连续性的问题文本为连续性发问文本,将判断连续性的问题文本为连续性发问文本与此问题文本进行关联,生成关联树,继续进行关联时段内下一问题文本的连续性判断;
若确定判断连续性的问题文本与其不存有连续,则对此关联时段下的下一问题文本进行连续性判断;
直至此关联时段下所有问题文本的连续性判断均已完成,则对生成的关联树的问题文本,确定在关联时段下的问题文本所处的关联等级及需进行的处理内容。
4.根据权利要求3所述的基于训练模型的智能问答系统,其特征在于,针对任一生成的关联树,且在关联时段下的问题文本,计算此问题文本与判断连续性的问题文本的实际关联度,并确定在关联时段下的问题文本所处的关联等级及需进行的关联处理内容,在所述判断单元内存有第一关联度和第二关联度,所述第一关联度小于所述第二关联度;
当实际关联度小于等于第一关联度时,此问题文本处于第三关联等级,删除关联树中的此问题文本;
当实际关联度大于第一关联度,且实际关联度小于第二关联度时,此问题文本处于第二关联等级,保留关联树中的此问题文本;
当实际关联度大于第二关联度时,此问题文本处于第一关联等级,将此问题文本与判断连续性的问题文本进行关联强化,当回答判断连续性的问题文本时,将其与生成关联树的问题文本的回答结果进行关联。
5.根据权利要求4所述的基于训练模型的智能问答系统,其特征在于,针对任一进行连续性发问的问题文本,在进行回答结果关联时,当存有若干处于第一关联等级的问题文本时,则所述判断单元将所有问题文本的回答结果进行汇总分析,根据任一回答结果的重复次数在所有回答结果中的比例值,进行排序列举,以供用户进行选择;
所述构建单元根据用户的选择情况,对此进行连续性发问结果关联处理的问题文本进行预训练模型构建。
6.根据权利要求5所述的基于训练模型的智能问答系统,其特征在于,所述预训练模型优化单元内存有选择周期和针对此用户建立的选择习惯模型,所述选择习惯模型根据此用户在预设的前几个选择周期内的所有选择习惯建立,并实时更新选择此用户的选择习惯;
当所述预训练模型针对任一连续性发问的问题文本进行构建时,所述预训练模型优化单元根据预训练模型得到的多回答结果与所述选择习惯模型进行对比,计算任一回答结果的选择比例,并对选择比例最大的回答结果进行输出。
7.根据权利要求5所述的基于训练模型的智能问答系统,其特征在于,在所述预训练模型优化单元内,针对任一连续性发问的问题文本进行预训练模型符合度分析,在所述预训练模型内存有预设训练符合比,根据两者对比结果确定预训练模型是否继续进行此问题文本的训练;
当预训练模型符合度小于预设训练符合比时,预训练模型继续进行此问题文本的训练。
8.根据权利要求5所述的基于训练模型的智能问答系统,其特征在于,当所述预训练模型针对任一连续性发问的问题文本进行构建时,所述预训练模型优化单元内存有针对此问题文本存储时长的检测单元,所述检测单元对此问题文本存储的数据量和存储时长进行检测,并根据其检测结果进行存储时长调整等级判断,在所述预训练模型优化单元内设有数据量调整阈值和存储时长调整阈值;
对于任一问题文本,
若数据量大于等于数据量调整阈值,且存储时长大于等于存储时长调整阈值,则此问题文本处于第一存储时长调整等级;
若存有一项小于其设定阈值,则此问题文本处于第二存储时长调整等级;
若任一项均小于其设定阈值,则此问题文本处于正常存储时间,继续对此问题文本进行存储时长调整等级判断。
9.根据权利要求8所述的基于训练模型的智能问答系统,其特征在于,当任一问题文本处于第一存储时长调整等级或第二存储时长调整等级时,对此问题文本与所在的关联树查找,确定其在关联树内的关联度等级,进行存储判断;
若任一关联树内均不存有此问题文本,则删除此问题文本的存储内容;
若此问题文本在任一关联数树内,且处于第二关联等级,则对此问题文本进行关联存储时长分级判断和处理;
若此问题文本在任一关联数树内,且处于第一关联等级,则对此问题文本进行存储时长延时处理。
10.根据权利要求9所述的基于训练模型的智能问答系统,其特征在于,在所述预训练模型优化单元存有针对所述预训练模型中关联树内第二关联等级的问题文本的存储关联时长,所述存储关联时长包括,第一存储关联时长和第二存储关联时长,所述第一存储关联时长小于所述第二存储关联时长,对于处于进行关联存储时长分级判断的任一问题文本,将其存储时长与存储关联时长对比,判断此问题文本的存储等级及处理方法;
对于任一连续性发问的问题文本,
当存储时长小于等于第一存储关联时长时,此问题文本处于第一存储等级,对下一问题文本问题文本进行判断;
当存储时长大于第一存储关联时长时,且,存储时长小于等于第二存储关联时长时,此问题文本处于第二存储等级,对其存储内容进行删除提醒;
当存储时长大于第二存储关联时长时,此问题文本处于第三存储等级,对其存储内容进行删除处理。
CN202311819489.0A 2023-12-27 2023-12-27 一种基于训练模型的智能问答系统 Active CN117474043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311819489.0A CN117474043B (zh) 2023-12-27 2023-12-27 一种基于训练模型的智能问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311819489.0A CN117474043B (zh) 2023-12-27 2023-12-27 一种基于训练模型的智能问答系统

Publications (2)

Publication Number Publication Date
CN117474043A CN117474043A (zh) 2024-01-30
CN117474043B true CN117474043B (zh) 2024-04-02

Family

ID=89633359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311819489.0A Active CN117474043B (zh) 2023-12-27 2023-12-27 一种基于训练模型的智能问答系统

Country Status (1)

Country Link
CN (1) CN117474043B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368042A (zh) * 2020-02-13 2020-07-03 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及计算机存储介质
CN113158665A (zh) * 2021-04-02 2021-07-23 西安交通大学 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113821602A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN115146124A (zh) * 2022-07-08 2022-10-04 广州华多网络科技有限公司 问答系统应答方法及其装置、设备、介质、产品
WO2022252636A1 (zh) * 2021-06-01 2022-12-08 平安科技(深圳)有限公司 基于人工智能的回答生成方法、装置、设备及存储介质
CN117235239A (zh) * 2023-11-13 2023-12-15 智慧眼科技股份有限公司 一种主动式对话大模型构建装置、方法、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368042A (zh) * 2020-02-13 2020-07-03 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及计算机存储介质
CN113158665A (zh) * 2021-04-02 2021-07-23 西安交通大学 一种基于文本摘要生成与双向语料改善对话文本生成的方法
WO2022252636A1 (zh) * 2021-06-01 2022-12-08 平安科技(深圳)有限公司 基于人工智能的回答生成方法、装置、设备及存储介质
CN113821602A (zh) * 2021-09-29 2021-12-21 平安银行股份有限公司 基于图文聊天记录的自动答疑方法、装置、设备及介质
CN115146124A (zh) * 2022-07-08 2022-10-04 广州华多网络科技有限公司 问答系统应答方法及其装置、设备、介质、产品
CN117235239A (zh) * 2023-11-13 2023-12-15 智慧眼科技股份有限公司 一种主动式对话大模型构建装置、方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LCN的医疗知识问答模型;马满福;刘元喆;李勇;王霞;贾海;史彦斌;张小康;;西南大学学报(自然科学版);20201020(第10期);全文 *

Also Published As

Publication number Publication date
CN117474043A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN108764480B (zh) 一种信息处理的系统
CN106649704B (zh) 一种智能对话控制方法和系统
CN108829682B (zh) 计算机可读存储介质、智能问答方法及智能问答装置
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN114020862A (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN111026884B (zh) 一种提升人机交互对话语料质量与多样性的对话语料库生成方法
CN101599071A (zh) 对话文本主题的自动提取方法
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN116881426B (zh) 一种基于aigc的自解释问答系统
CN112115242A (zh) 一种基于朴素贝叶斯分类算法的智能客服问答系统
CN110851584A (zh) 一种法律条文精准推荐系统和方法
CN110675292A (zh) 一种基于人工智能的儿童语言能力评测方法
CN117474043B (zh) 一种基于训练模型的智能问答系统
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
Ye et al. A sentiment based non-factoid question-answering framework
CN111858875A (zh) 智能交互方法、装置、设备及存储介质
CN116542676A (zh) 一种基于大数据分析的智能客服系统及其方法
CN117131166A (zh) 一种基于大语言模型的自动出题方法和系统
CN111613107A (zh) 一种人工智能作业系统
WO2023245523A1 (zh) 用于生成训练数据的方法以及装置
CN109726002A (zh) 一种处理流程调整方法及装置
CN115203356A (zh) 专业领域问答库构建方法、问答方法及系统
Clifton et al. Bangor at TREC 2004: Question Answering Track.
CN114238595A (zh) 一种基于知识图谱的冶金知识问答方法及系统
CN114547342A (zh) 一种基于知识图谱的高校专业智能问答系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant