CN118152547B - 一种根据提问者理解能力的机器人回答方法、介质及系统 - Google Patents

一种根据提问者理解能力的机器人回答方法、介质及系统 Download PDF

Info

Publication number
CN118152547B
CN118152547B CN202410578260.0A CN202410578260A CN118152547B CN 118152547 B CN118152547 B CN 118152547B CN 202410578260 A CN202410578260 A CN 202410578260A CN 118152547 B CN118152547 B CN 118152547B
Authority
CN
China
Prior art keywords
professional
sentence
class
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410578260.0A
Other languages
English (en)
Other versions
CN118152547A (zh
Inventor
周书田
于海洋
王炳文
彭晓彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Wangxin Information Technology Co ltd
Original Assignee
Qingdao Wangxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Wangxin Information Technology Co ltd filed Critical Qingdao Wangxin Information Technology Co ltd
Priority to CN202410578260.0A priority Critical patent/CN118152547B/zh
Publication of CN118152547A publication Critical patent/CN118152547A/zh
Application granted granted Critical
Publication of CN118152547B publication Critical patent/CN118152547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种根据提问者理解能力的机器人回答方法、介质及系统,属于人工智能技术领域,该根据提问者理解能力的机器人回答方法包括以下步骤:收集用户提出问题的文本,并提取专业术语,得到专业术语集、以及专业句集;提取类专业术语,得到类专业术语集、以及类专业句集;对专业句集、类专业句集分析语气,判断用户是否提问,且将专业句集、所述类专业句集进行二元划分后,计算用户文本对专业术语的应用指数;根据应用指数,筛选对应的知识数据集,以及对提问者的理解能力进行分级,并将对应级别与新问题合并作为prompt,得到回答文本;本发明能够根据提问者理解能力输出提问者理解的回答。

Description

一种根据提问者理解能力的机器人回答方法、介质及系统
技术领域
本发明属于人工智能技术领域,具体而言,涉及一种根据提问者理解能力的机器人回答方法、介质及系统。
背景技术
语义理解是人工智能领域中的核心技术之一。在人机交互场景中,机器需要识别用户的输入语义,才能生成高质量的响应。近年来,序列到序列(seq2seq)模型及其变体(如Transformer)在机器翻译、对话系统等领域取得了巨大成功。这些模型通过编码器-解码器的框架,建模输入和输出序列之间的语义映射,实现端到端的生成任务。
然而,这些seq2seq模型都是数据驱动,它们的理解能力和输出质量高度依赖训练数据的覆盖面。对于那些训练数据中没有覆盖或者量不足的长尾分布领域,模型的生成效果仍然很难达到要求。此外,在实际应用中不同用户对语义理解的要求也有较大差异。对专业知识了解充分的用户,期望机器给出专业性更强的回答;而知识面有限的用户则需要简单易懂的响应结果。
当前的Seq2Seq模型主要采用单一的数据集进行训练,所有的用户都共享相同的模型。这样得到的对话系统存在无法适应不同用户的个性化理解要求的问题。
发明内容
有鉴于此,本发明提供一种根据提问者理解能力的机器人回答方法、介质及系统,能够根据提问者理解能力输出提问者理解的回答。
本发明是这样实现的:
本发明的第一方面提供一种根据提问者理解能力的机器人回答方法,其中,包括以下步骤:
S10、获取提问者与机器人的历史互动记录,收集用户提出的文本记录,记作用户文本;
S20、对所述用户文本基于预先设定好的知识库进行专业术语提取,得到专业术语集、以及专业术语所在语句集,记为专业句集;
S30、采用大语言模型根据预先设定好的知识库进行类专业术语提取,得到类专业术语集、以及类专业术语所在语句集,记为类专业句集;
S40、根据历史互动记录,对所述专业句集、所述类专业句集进行语气分析,判断用户是否提问,且将所述专业句集、所述类专业句集划分为已知专业句集、未知专业句集、已知类专业句集、未知类专业句集;
S50、根据所述专业术语集、所述类专业术语集、所述已知专业句集、所述未知专业句集、所述已知类专业句集、所述未知类专业句集,计算用户文本对专业术语的应用指数;
S60、根据计算得到的专业术语的应用指数,在所述知识库中筛选对应理解能力级别的知识数据集,作为机器人回答提问者的知识库参考;
S70、根据计算得到的专业术语应用指数,对提问者的理解能力进行分级,并将对应的理解能力级别与提问者的新提问合并作为prompt,输入大语言模型,得到的输出作为机器人的回答文本。
在上述技术方案的基础上,本发明的一种根据提问者理解能力的机器人回答方法还可以做如下改进:
其中,所述步骤S10具体包括:
设置互动记录的收集范围;
从数据库中提取该用户的互动记录文本,记录以UTF-8格式存储;
对文本记录进行清洗预处理;
构建用户提问记录语料库;
构建机器人回答记录语料库。
进一步的,所述步骤S20具体包括:
建立人工标注的专业术语知识库;
利用N元语法模型提取候选专业术语;
在知识库中查找验证专业术语;
判断每个专业术语在文本中的上下文句子;
构成专业术语及上下文句子集合。
进一步的,所述步骤S30具体包括:
训练识别类专业术语的文本分类模型;
使用文本分类模型对用户文本进行类专业术语识别;
判断识别出的类专业术语所在句子;
计算句子与了类专业术语向量的相似度;
剔除相似度较低句子。
进一步的,所述步骤S40具体包括:
构建表达不同语气的语气词库;
利用语气词库判断问句;
在专业句集和类专业句集中识别问句;
统计术语对应的问句数量,划分已知与未知集合,已知集合为用户陈述句占比大于阈值的集合,未知集合为用户疑问句占比大于阈值的集合;
经语气词库与统计分析,判断语气词在句子中的占比。
进一步的,所述步骤S50具体包括:
定义计算用户输入文本词语和句法信息的专业术语应用指数计算公式;
计算用户文本中的专业术语密度、专业句覆盖率、未知专业句占比三个因素;
设定权重算法,基于三因素计算指数。
进一步的,所述步骤S60具体包括:
基于指数区间划分用户知识理解能力级别;
构建知识梯度的文本文档集;
匹配用户指数对应文档子集作为回答知识库。
进一步的,所述步骤S70具体包括:
构建表示不同文本难度的提示样本集;
训练序列到序列或T5模型实现问答映射;
选择用户理解级别对应的提示语句与问题合并成新prompt,输入问答映射模型;
评价并迭代优化输出回答质量;
得到的输出作为对用户问句的结果。
本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种根据提问者理解能力的机器人回答方法。
本发明的第三方面提供一种根据提问者理解能力的机器人回答系统,其中,包含上述的计算机可读存储介质。
相比现有技术,本发明的技术效果主要体现在以下三个方面:
1.通过构建领域知识库,改进了模型对长尾问题的语义理解和生成能力。知识库内容丰富,覆盖面广,有效扩展了训练数据集的语义表示。模型输出时也可以检索知识库以丰富回答内容;
2.根据用户的理解水平和问句情况,实现了个性化地调整模型提示输入的技术。相比单一固定输入,本方案的prompts设计更加灵活丰富,可以引导模型生成不同难度、风格的输出结果;
3.应用大规模预训练语言模型,极大拓展了文本生成的语义表达能力。这类模型对语义信息高度敏感,理解类比能力强,是当前最强大的语义表示框架。本方案充分利用其能力,生成的文本质量明显高于以往基于RNN的Seq2Seq模型。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种根据提问者理解能力的机器人回答方法的流程图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。
如图1所示,是本发明第一方面提供一种根据提问者理解能力的机器人回答方法的第一实施例流程图,在本实施例中,包括以下步骤:
S10、获取提问者与机器人的历史互动记录,收集用户提出的文本记录,记作用户文本;
S20、对用户文本基于预先设定好的知识库进行专业术语提取,得到专业术语集、以及专业术语所在语句集,记为专业句集;
S30、采用大语言模型根据预先设定好的知识库进行类专业术语提取,得到类专业术语集、以及类专业术语所在语句集,记为类专业句集;
S40、根据历史互动记录,对专业句集、类专业句集进行语气分析,判断用户是否提问,且将专业句集、类专业句集划分为已知专业句集、未知专业句集、已知类专业句集、未知类专业句集;
S50、根据专业术语集、类专业术语集、已知专业句集、未知专业句集、已知类专业句集、未知类专业句集,计算用户文本对专业术语的应用指数;
S60、根据计算得到的专业术语的应用指数,在知识库中筛选对应理解能力级别的知识数据集,作为机器人回答提问者的知识库参考;
S70、根据计算得到的专业术语应用指数,对提问者的理解能力进行分级,并将对应的理解能力级别与提问者的新提问合并作为prompt,输入大语言模型,得到的输出作为机器人的回答文本。
针对步骤S10的具体实施方式,可以分为以下几个子步骤:
1、设定互动记录的收集范围。具体可以设定最近一定时间段内的互动记录,例如最近1年内的记录。也可以设定最近与该用户的多少次互动记录,例如最近100次互动记录;
2、从数据库中提取该用户的互动记录。包括用户提问的原始文本记录,以及机器人给出的回答文本记录。文本记录以UTF-8格式存储;
3、对文本记录进行预处理。包括清除标点符号、转换为小写字母等,得到干净的文本记录。这一步主要是为了后续的文本分析做准备;
4、构建用户提问记录的语料库。将预处理后的用户提问文本记录整合,按时间顺序构建语料库。这一步得到的语料库反映了该用户在一段时间内的提问习惯和兴趣爱好;
5、构建机器人回答记录的语料库。将预处理后的机器人回答文本记录整合,按时间顺序构建语料库。这一步得到的语料库反映了机器人基于该用户提问的回答风格和知识覆盖范围。
这一步骤S10的主要作用是收集用户与机器人过去的互动文本记录,为后续分析用户对专业知识的理解程度打下基础。通过构建提问语料库和回答语料库,可以更全面地反映用户的知识结构。
针对步骤S20的具体实施方式,可以分为以下几个子步骤:
1、建立专业术语知识库。需要人工识别各个专业领域的专业术语,整理建立专业术语知识库。知识库可采用关系数据库存储,每个专业术语记录包括名称、定义、所属专业领域等信息。其中,知识库的建立步骤如下:
(1)确定知识库的覆盖领域和体系:根据方法的应用场景和目标用户群体,确定知识库需要覆盖的专业领域,比如计算机、医学、法律等;并确定知识点之间的上下级与关联关系,设计出树状的知识本体结构;
(2)文本数据采集与知识抽取:针对选择的专业领域,通过网络爬虫、信息检索等技术从大量半结构化和非结构化数据源中采集学术论文、新闻报道、百科全书等相关文本;利用自然语言处理技术从中抽取概念、实体以及事实,构建初始知识图谱;
(3)知识融合与质量控制:将从不同来源获取的重复或相似知识进行去重、关联与融合,消除冲突,并结合领域专家进行审核,删除错误知识,不断优化知识框架与内容质量;
(4)应用通用模型插件知识:利用预训练语言模型等技术,快速对语言知识网络模型进行微调,使其既具有泛化语义理解能力,又掌握领域所需的专业常识,将其中的知识表示剥离嵌入知识库,实现知识的适配与补全;
(5)持续迭代更新:建立知识库的维护与迭代机制,持续使用类似流程不断丰富知识库内容,扩展覆盖面;并监测使用过程中的知识缺失,进行针对性知识补充。
2、利用N-gram模型对用户文本进行N元语法分析,提取文本中的N-gram词组作为候选专业术语。N值一般取2-5,即考虑2-5个词组成的候选词组;其中N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,称之为汉语语言模型(CLM,ChineseLanguage Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换,汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
3、对每个候选专业术语,在专业术语知识库中查找,如果知识库中存在该词组记录,则判定该词组为真正的专业术语,加入专业术语集。
4、进一步判断每个专业术语在用户文本中所在的句子,将这些句子提取出来,构成专业术语所在句子的集合,即专业句集。
5、对专业句集进行语义分析,剔除与专业术语意义无关的句子。这一步采用词向量等自然语言理解技术判断句子语义。
6、得到精炼的专业术语集合以及专业术语所在句子集合。
这一步骤S20主要通过N元语法模型抽取候选专业术语,结合人工构建的专业术语知识库判断真伪,从而自动化地从文本中提取出专业术语及其上下文句子,为判断用户对专业知识的理解程度奠定基础。
针对步骤S30的具体实施方式,可以分为以下几个子步骤:
1、基于BERT等预训练语言模型,训练识别类专业术语的文本分类模型。构建包含真实专业术语和非专业术语的训练数据集,带标注类别,利用迁移学习等技术进行模型训练;
2、使用训练得到的文本分类模型对用户文本进行类专业术语识别。模型对每个词语和短语进行判断,判定为类专业术语或非类专业术语,得到一组类专业术语的集合;
3、判断每个识别出的类专业术语在用户文本中所在的句子,将这些句子提取出来,构成类专业术语所在句子的集合,即类专业句集;
4、采用词向量技术计算每个句子向量的均值,与类专业术语向量的余弦相似度。设定相似度阈值,剔除相似度较低的句子;
5、得到精炼的类专业术语集合以及类专业术语所在句子集合。
这一步骤S30通过迁移学习方法训练专业术语识别模型,实现从文本中自动提取类专业术语。区别于S20中的N元语法方法,这种方法可以识别新出现的类专业术语。结合向量相似度技术剔除无关句子,为后续判断用户对类专业知识的理解程度奠定基础。
针对步骤S40的具体实施方式,可以分为以下几个子步骤:
1、构建语气词库。收集表达命令、疑问、感叹等语气的词语和短语,建立语气词库。语气词库存储为关系型数据库,包括语气词及其所表达语气类别等信息;
2、利用文本特征提取技术,从用户的历史互动记录中提取问句。针对每个句子,计算其与语气词库中各类别语气词的覆盖率,即句子中语气词数量与总词数的比例。如果覆盖率超过设定阈值,则判断该句子为问句;
3、在步骤S20中得到的专业句集和步骤S30中得到的类专业句集中,筛选出被判断为问句的语句,分别构成专业问句集和类专业问句集。对应地可以得到已知陈述句集和类专业陈述句集;
4、统计用户历史互动记录中已知专业术语和类专业术语的出现次数,以及这些术语对应问句和陈述句的数量。如果某专业术语的问句数量占比超过阈值,则将这个术语及对应的句子判定为“未知”类别,加入未知专业句集和未知类专业句集;
5、经过以上处理,得到用户文本中专业句集和类专业句集的二元分类,即已知和未知两类,表示用户对这些专业知识的理解程度。
这一步骤S40通过语气词库判定问句,再结合用户历史记录,实现对专业句集和类专业句集的二元划分,为后续评估用户对专业知识的理解程度打下基础。
针对步骤S50的具体实施方式,可以分为以下几个子步骤:
1、定义专业术语应用指数计算公式。该指数综合考虑三个因素的计算结果,包括:用户文本中专业术语密度、专业句覆盖率、未知专业句占比;
2、专业术语密度指用户文本中专业术语数量与总词数的比例。直接利用词频统计方法计算;
3、专业句覆盖率指专业句集中句子数量与用户文本总句子数量的比例。利用句子划分技术获取用户文本句子总数;
4、未知专业句占比指未知专业句集中句子数量与专业句集总句子数量的比例。通过步骤S40得到的划分结果计算;
5、综合以上三个因素,设定权重加权算法计算专业术语应用指数。指数值范围为0-1,值越大表示用户文本对专业知识的应用程度越高。
这一步骤S50通过从词语、句子两个层面评估用户文本对专业知识的使用,定义量化的评价指数,为后续确定用户知识理解能力水平及机器人回答策略提供参考依据。
针对步骤S60的具体实施方式,可以分为以下几个子步骤:
1、基于专业术语应用指数的数值范围,划分多个用户知识理解能力级别。例如可以划分为初级、中级、高级三个级别。每个级别对应指数值的一个区间范围;
2、构建知识库文档集。文本文档表示一定知识量的知识点,文档数量代表知识量。按从低到高的顺序组织文档,形成知识梯度;
3、根据用户文本得到的专业术语应用指数值,匹配知识库中不同知识理解能力级别对应的文档子集。如果指数值为初级区间,则选择知识库底层文档构成回答知识库;
4、回答知识库文档数量与用户指数值正相关。指数值越高,选择文档子集的上限索引值越大,即知识量级别越高。相应地,文档集子集与用户知识理解能力水平相适应。
这一步骤S60基于前面评估得到的定量指数,实现自动化构建与个性化用户知识水平相匹配的机器人回答知识库,为后续生成适合用户理解能力的回答文本提供知识来源。
针对步骤S70的具体实施方式,可以分为以下几个子步骤:
1、代表不同文本难度的提示样本数据集。根据语言模型困惑度等指标,手工标注文本难度级别;
2、训练seq2seq模型或谷歌T5模型,建立用户提问和回答文本之间的映射模型。模型综合了上下文和知识库支持,实现高质量的问答;
3、根据前面步骤提问者的理解能力级别,从提示样本集中选择对应等级的提示语句,与用户问题拼接成新prompt,输入问答映射模型;
4、模型输出答案,如果质量不够好,则调节prompt的难度级别,再次生成。评价维度包括语法、语义的正确性,以及答案文本的难度与用户知识水平的匹配程度;
5、迭代优化找到最佳prompt,对应的输出作为对用户提问的回答结果。
通过上述流程,实现了根据每个用户具体的知识水平状况,动态调整问答模型的提示输入,生成个性化、适配性强的回答文本。
这一步骤S70借助大规模预训练语言模型实现对不同知识水平用户的自然语言问答,是本方法的关键输出。
如图1所示,是本发明第一方面提供一种根据提问者理解能力的机器人回答方法的第二实施例流程图,在本实施例中,包括以下步骤:
S10、获取提问者与机器人的历史互动记录,收集用户提出的文本记录,记作用户文本;
S20、对用户文本基于预先设定好的知识库进行专业术语提取,得到专业术语集、以及专业术语所在语句集,记为专业句集;
S30、采用大语言模型根据预先设定好的知识库进行类专业术语提取,得到类专业术语集、以及类专业术语所在语句集,记为类专业句集;
S40、根据历史互动记录,对专业句集、类专业句集进行语气分析,判断用户是否提问,且将专业句集、类专业句集划分为已知专业句集、未知专业句集、已知类专业句集、未知类专业句集;
S50、根据专业术语集、类专业术语集、已知专业句集、未知专业句集、已知类专业句集、未知类专业句集,计算用户文本对专业术语的应用指数;
S60、根据计算得到的专业术语的应用指数,在知识库中筛选对应理解能力级别的知识数据集,作为机器人回答提问者的知识库参考;
S70、根据计算得到的专业术语应用指数,对提问者的理解能力进行分级,并将对应的理解能力级别与提问者的新提问合并作为prompt,输入大语言模型,得到的输出作为机器人的回答文本。
在步骤S10中,主要目的是收集用户与机器人的历史互动记录,为后续分析用户对专业知识的理解程度打下基础。其中关键的是构建用户提问文本集合以及机器人回答文本集合。具体实施方式如下:
定义最近互动记录的时间范围,例如最近1年内的互动记录。
从数据库中检索出用户在时间范围内的提问记录集合,其中表示第条提问语句。
从数据库中检索出机器人对应中每条提问的回答记录集合,其中表示对应第条提问的回答语句。
对提问记录集合中的每条提问进行文本清洗预处理,得到清洗后的提问集合。文本清洗预处理函数定义为,具体可以包括清除标点符号,皮词去除等操作。
对回答记录集合进行相同的清洗预处理,得到清洗后的回答集合
将预处理后的提问集合整合构建用户提问语料库
将预处理后的回答集合整合构建机器人回答语料库
在步骤S20中,目标是从用户文本中提取出专业术语及其所在句子,为判断用户对专业知识的理解程度奠定基础。提取过程中采用N元语法模型识别候选专业术语,并结合人工构建的专业术语知识库进行验证。具体实施方式如下:
构建专业术语知识库,存储格式为关系型数据库。每个专业术语条目包括:
术语名称
术语定义
术业所属领域
输入用户文本,利用N元语法模型提取候选专业术语:
执行N元切分,生成词序列
滑窗扫描,提取所有长度为的词组作为候选专业术语集合
对每个候选术语,在知识库中搜索,如果存在匹配的术语条目,则判定为真实专业术语,加入集合,作为最终提取的专业术语集合。
对每个识别出的专业术语,进一步判断其在原文本中的上下文窗口,提取窗口句子构成集合
中每个句子,利用词向量技术计算其与包含专业术语的句子的语义相似度。设定相似度阈值,剔除相似度较低的无关句子。
最终得到精炼的专业术语集合以及专业术语上下文句子集合
在步骤S30中,关键是训练一个文本分类模型,用于从用户文本中识别出类专业术语。实现上采用基于BERT等预训练语言模型的迁移学习方法。具体实施方式如下:
构建训练数据集,其中表示文本片段,表示是否为类专业术语。
基于BERT,添加分类层,构建文本分类模型,损失函数为交叉熵损失。其中是模型对样本的分类预测概率。
训练模型参数,最小化损失函数。优化算法为Adam等,可以调节超参数进行正则化,防止过拟合。
输入用户文本,利用训练好的模型进行类专业术语判断:。其中表示训练得到的文本分类模型,为训练的参数。
对每个被判断为类专业术语的文本拆分,提取其上下文句子构成集合
中每个句子,利用词向量技术计算其与包含类专业术语的句子的语义相似度,设定相似度阈值进行句子筛选。
最终得到文本分类模型识别出的类专业术语集合以及类专业术语上下文句子集合
在步骤S40中,利用语气词库和统计分析的方法,实现对前面步骤中提取出的专业句集合和类专业句集合的进一步区分,具体实施如下:
构建语气词库,存储各类语气词,格式为关系型数据库。主要包括:
疑问语气词
感叹语气词
命令语气词
对专业句集合中的每句,统计句子中包含的语气词类别比例:
疑问词占比:
感叹词占比:
命令词占比:
如果超过阈值,则判断句子为问句,加入疑问句集合;如果超过阈值,则判断句子为感叹句,加入感叹句集合;如果超过阈值,则判断句子为问句,加入命令句集合。其余构成陈述句集合。类专业句集合也同理处理。
统计用户历史记录中,专业术语对应的问句数量和陈述句数量
如果,则判定该术语为“未知”概念,加入集合。每个未知术语对应的问句也划分为未知集合
至此,获得了用户对已知与未知专业知识的划分结果。
在步骤S50中,目标是定义一个专业术语应用指数,评价用户文本对专业知识的使用和理解程度。具体方法如下:
用户文本词数表示为
专业术语集合为,术语数量为。则专业术语密度为:
专业句子集合为,句子数量为。专业句覆盖率为:
未知专业句子集合,该集合句子数量为。则未知句占比为:
专业术语应用指数的计算公式为:
其中为加权系数。
在步骤S60中,需要实现根据前面计算的专业术语应用指数,动态构建与用户知识水平相匹配的回答知识库。具体方法如下:
根据指数的数值,将用户知识理解能力划分为个等级,表示为集合
构建知识库文档集合,其中文档按知识量从低到高排列。
计算出索引区间:
其中代表等级对应的文档索引区间。
对于应用指数,计算其对应知识级别,然后在知识库文档集合中选择子集,其中每个文档满足
获得的文档子集即构成了根据用户水平匹配的回答知识库。
在步骤S70中,利用seq2seq模型实现根据不同用户的个性化理解能力对其提问进行自然语言回答。具体实施方式如下:
构建多级提示模板集合,根据文本难度进行了静态手工标定。
训练序列到序列模型,输入为用户提问关联提示模板,输出为回答文本。损失函数为生成损失,进行模型训练。
对用户的提问,获取其前面步骤计算出的知识级别
选择对应的提示模板,拼接序列作为模型输入。
模型生成回答。评估回答效果,如果不满意迭代更改提示模板级别,直到生成质量达到要求。
得到的即为针对该用户个性化水平的问答结果。
本发明第二方面提供一种计算机可读存储介质的第一实施例,在本实施例中,计算机可读存储介质中存储有程序指令,程序指令运行时,用于执行上述的一种根据提问者理解能力的机器人回答方法。
本发明第三方面提供一种根据提问者理解能力的机器人回答系统的第一实施例,在本实施例中,包含上述的计算机可读存储介质。
本发明能够有效解决上述技术问题,主要原理在于:
1.构建高质量结构化知识库,为Seq2Seq模型提供外部知识支持,弥补训练数据的不足;
2.精细评估用户文本的语义特征,进行知识水平分级,实现个性化回答;
3.应用基于 Transformer 等注意力机制的预训练语言模型,其中自注意力结构能高效学习文本的内在语义信息,从而有效表达复杂语义。
通过这三者的有机结合,即知识引导、个性化学习和超强表达模型,本方法全面提升了 Seq2Seq 模型的语义理解和生成能力。既能覆盖长尾问题,又适应不同用户,性能显著优于传统技术。这是本方法有效的技术原理所在。

Claims (6)

1.一种根据提问者理解能力的机器人回答方法,其特征在于,包括以下步骤:
S10、获取提问者与机器人的历史互动记录,收集用户提出的文本记录,记作用户文本;
S20、对所述用户文本基于预先设定好的知识库进行专业术语提取,得到专业术语集、以及专业术语所在语句集,记为专业句集;
S30、采用大语言模型根据预先设定好的知识库进行类专业术语提取,得到类专业术语集、以及类专业术语所在语句集,记为类专业句集;
S40、根据历史互动记录,对所述专业句集、所述类专业句集进行语气分析,判断用户是否提问,且将所述专业句集、所述类专业句集划分为已知专业句集、未知专业句集、已知类专业句集、未知类专业句集;
S50、根据所述专业术语集、所述类专业术语集、所述已知专业句集、所述未知专业句集、所述已知类专业句集、所述未知类专业句集,计算用户文本对专业术语的应用指数;
S60、根据计算得到的专业术语的应用指数,在所述知识库中筛选对应理解能力级别的知识数据集,作为机器人回答提问者的知识库参考;
S70、根据计算得到的专业术语应用指数,对提问者的理解能力进行分级,并将对应的理解能力级别与提问者的新提问合并作为prompt,输入大语言模型,得到的输出作为机器人的回答文本;
其中,用户文本词数表示为N;专业术语集合为T,术语数量为|T|,则专业术语密度为:
专业句子集合为S,句子数量为|S|;
专业句覆盖率为:
未知专业句子集合Qunknown,该集合句子数量为Nunknown
则未知句占比为:
专业术语应用指数I的计算公式为:
I=w1d+w2r-w3p;
其中w1,w2,w3为加权系数;
其中,所述步骤S10具体包括:
设置互动记录的收集范围;
从数据库中提取该用户的互动记录文本,记录以UTF-8格式存储;
对文本记录进行清洗预处理;
构建用户提问记录语料库;
构建机器人回答记录语料库;
其中,所述步骤S20具体包括:
建立人工标注的专业术语知识库;
利用N元语法模型提取候选专业术语;
在知识库中查找验证专业术语;
判断每个专业术语在文本中的上下文句子;
构成专业术语及上下文句子集合;
其中,所述步骤S30具体包括:
训练识别类专业术语的文本分类模型;
使用文本分类模型对用户文本进行类专业术语识别;
判断识别出的类专业术语所在句子;
计算句子与类专业术语向量的相似度;
剔除相似度较低句子;
其中,所述步骤S40具体包括:
构建表达不同语气的语气词库;
利用语气词库判断问句;
在专业句集和类专业句集中识别问句;
统计术语对应的问句数量,划分已知与未知集合,已知集合为用户陈述句占比大于阈值的集合,所述未知集合为用户疑问句占比大于阈值的集合;
经语气词库与统计分析,判断语气词在句子中的占比;
其中,训练识别类专业术语的文本分类模型,具体是:基于BERT预训练语言模型,训练识别类专业术语的文本分类模型,构建包含真实专业术语和非专业术语的训练数据集,带标注类别,利用迁移学习的技术进行模型训练;使用训练得到的文本分类模型对用户文本进行类专业术语识别,模型对每个词语和短语进行判断,判定为类专业术语或非类专业术语,得到一组类专业术语的集合。
2.根据权利要求1所述的一种根据提问者理解能力的机器人回答方法,其特征在于,所述步骤S50具体包括:
定义计算用户输入的文本词语和句法信息的专业术语应用指数计算公式;
计算用户文本中的专业术语密度、专业句覆盖率、未知专业句占比三个因素;
设定权重算法,基于三因素计算指数。
3.根据权利要求2所述的一种根据提问者理解能力的机器人回答方法,其特征在于,所述步骤S60具体包括:
基于指数区间划分用户知识理解能力级别;
构建知识梯度的文本文档集;
匹配用户指数对应文档子集作为回答知识库。
4.根据权利要求3所述的一种根据提问者理解能力的机器人回答方法,其特征在于,所述步骤S70具体包括:
构建表示不同文本难度的提示样本集;
训练序列到序列或T5模型实现问答映射;
选择用户理解级别对应的提示语句与问题合并成新prompt,输入问答映射模型;
评价并迭代优化输出回答质量;
得到的输出作为对用户问句的结果。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行权利要求1-4任一项所述的一种根据提问者理解能力的机器人回答方法。
6.一种根据提问者理解能力的机器人回答系统,其特征在于,包含权利要求5所述的计算机可读存储介质。
CN202410578260.0A 2024-05-11 2024-05-11 一种根据提问者理解能力的机器人回答方法、介质及系统 Active CN118152547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410578260.0A CN118152547B (zh) 2024-05-11 2024-05-11 一种根据提问者理解能力的机器人回答方法、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410578260.0A CN118152547B (zh) 2024-05-11 2024-05-11 一种根据提问者理解能力的机器人回答方法、介质及系统

Publications (2)

Publication Number Publication Date
CN118152547A CN118152547A (zh) 2024-06-07
CN118152547B true CN118152547B (zh) 2024-08-09

Family

ID=91299165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410578260.0A Active CN118152547B (zh) 2024-05-11 2024-05-11 一种根据提问者理解能力的机器人回答方法、介质及系统

Country Status (1)

Country Link
CN (1) CN118152547B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118626627A (zh) * 2024-08-13 2024-09-10 山东浪潮科学研究院有限公司 一种基于大模型的智能问答方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547342A (zh) * 2022-02-28 2022-05-27 中国石油大学(华东) 一种基于知识图谱的高校专业智能问答系统及方法
CN116127095A (zh) * 2023-01-04 2023-05-16 北京工业大学 一种序列模型与知识图谱结合的问答方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825860B (zh) * 2019-10-24 2022-08-23 厦门快商通科技股份有限公司 知识库问答抽取方法、系统、移动终端及存储介质
CN112328762B (zh) * 2020-11-04 2023-12-19 平安科技(深圳)有限公司 基于文本生成模型的问答语料生成方法和装置
CN114154484B (zh) * 2021-11-12 2023-01-06 中国长江三峡集团有限公司 基于混合深度语义挖掘的施工专业术语库智能构建方法
US20240144922A1 (en) * 2022-10-31 2024-05-02 Microsoft Technology Licensing, Llc Slot extraction for intents using large language models
US20230350929A1 (en) * 2023-07-04 2023-11-02 Asif Hasan Method and system for generating intent responses through virtual agents
CN117688189B (zh) * 2023-12-27 2024-06-14 珠江水利委员会珠江水利科学研究院 一种融合知识图谱、知识库和大型语言模型的问答系统构建方法
CN117952777A (zh) * 2024-01-05 2024-04-30 国网山东省电力公司莱芜供电公司 一种基于大语言模型的电力运维系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547342A (zh) * 2022-02-28 2022-05-27 中国石油大学(华东) 一种基于知识图谱的高校专业智能问答系统及方法
CN116127095A (zh) * 2023-01-04 2023-05-16 北京工业大学 一种序列模型与知识图谱结合的问答方法

Also Published As

Publication number Publication date
CN118152547A (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN111639171B (zh) 一种知识图谱问答方法及装置
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN118152547B (zh) 一种根据提问者理解能力的机器人回答方法、介质及系统
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN117435716B (zh) 电网人机交互终端的数据处理方法及系统
CN111553159B (zh) 一种问句生成方法及系统
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN112397201B (zh) 一种面向智能问诊系统的复述句生成优化方法
CN113868380A (zh) 一种少样本意图识别方法及装置
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN117909466A (zh) 领域问答系统、构造方法、电子设备及存储介质
CN117474010A (zh) 面向电网语言模型的输变电设备缺陷语料库构建方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN115033706A (zh) 一种知识图谱自动补全和更新的方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN117972049A (zh) 一种基于大语言模型的医疗器械申报材料生成方法及系统
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant