CN116127015A

CN116127015A - 基于人工智能自适应的nlp大模型分析系统

Info

Publication number: CN116127015A
Application number: CN202310008830.8A
Authority: CN
Inventors: 邵瑞琪; 徐可人; 胡正扬; 蔡晓志
Original assignee: Beijing Facewall Intelligent Technology Co ltd
Current assignee: Beijing Facewall Intelligent Technology Co ltd
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-16

Abstract

本发明涉及NLP大模型技术领域，具体地说，涉及基于人工智能自适应的NLP大模型分析系统。其包括输入单元、匹配单元和输出单元，输入单元用于对客户输入的文本信息进行采集、识别，输入单元将采集的文本信息送入匹配单元，匹配单元将文本信息与模型数据库比对、检索，输出单元抓取检索结果并进行反馈输出，对客户输入的文本信息进行词汇答复。通过纠错模块实现输入文本的信息矫正，防止文本信息中的错别字对系统检索造成影响，进而提高系统检索精度；识别模块对输入文本信息的长度进行判别，可将单词与长、短句词汇进行区分，单词可直接进入关键词检索，进而提升系统的反应速度，大大提升了人工智能回复问题的速度。

Description

基于人工智能自适应的NLP大模型分析系统

技术领域

本发明涉及NLP大模型技术领域，具体地说，涉及基于人工智能自适应的NLP大模型分析系统。

背景技术

自然语言处理(NLP)是实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言是人类发展过程中形成的一种信息交流的方式，包括口语及书面语，反映了人类的思维，自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

在智能客服等实际应用场景中，人工智能通过NLP大模型分析系统对用户输入的文本信息进行分析、回复，实现人机交互，而用户输入的文本信息中，由于用户的大意会出现错别字等错误信息，而错别字会污染输入文本，进而造成系统的误判，系统使用错误的文本信息指令在模型数据库中检索，在进行答案输出时，会出现答非所问等情况的出现，严重影响系统的回复精度，因此，设计基于人工智能自适应的NLP大模型分析系统，实现输入文本的错别字矫正，提升输出文本的精确度。

发明内容

本发明的目的在于提供基于人工智能自适应的NLP大模型分析系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供基于人工智能自适应的NLP大模型分析系统，包括输入单元、匹配单元和输出单元，所述输入单元用于对客户输入的文本信息进行采集、识别，所述输入单元将采集的文本信息送入匹配单元，所述匹配单元将文本信息与模型数据库比对、检索，所述输出单元抓取检索结果并进行反馈输出，对客户输入的文本信息进行词汇答复。

作为本技术方案的进一步改进，所述输入单元包括输入模块和识别模块，所述识别模块通过文本占用计算机存储器字节进行判断，对长、短句词汇和单词进行识别、区分。

作为本技术方案的进一步改进，所述匹配单元包括纠错模块，所述纠错模块用于对文本信息进行校对，并对错误词汇进行纠正，经过所述纠错模块矫正的文本信息被送入并行检索模块，所述并行检索模块将文本信息与模型数据库检索，所述并行检索模块将检索结构输入至匹配模块，所述匹配模块将检索结果与文本信息进行匹配。

作为本技术方案的进一步改进，所述并行检索模块包括整段词汇检索模块、关键词提取模块和关键词检索模块，所述关键词提取模块用于对长、短句词汇中的关键词进行提取，一方面将关键词洗入模型数据库通过关键词检索模块进行词汇检索，另一方面将长、短句词汇整个洗入模型数据库通过整段词汇检索模块进行词汇检索。

作为本技术方案的进一步改进，所述关键词提取模块在对文本关键词进行提取时包括以下步骤：

S2.1、将输入的原始文本信息进行文本预处理，将长、短句词汇的原始文本中词语的统计信息抽取文档的关键词；

S2.2、对原始文本信息进行预处理得到候选词的集合组成的候选词库；

S2.3、采用关键词算法对候选词权重进行计算；

S2.4、从候选词库中得到关键词。

作为本技术方案的进一步改进，所述关键词算法为：

TF-IDF＝TF×IDF；

IDF＝log(语料库中文档总数/(包含该词的文档数+1))。

其中，TF表示一个词在文档中出现的次数；DF表示整个语料库中含有某个词的文档个数；IDF为逆文档频率；+1的作用是做平滑处理；

TF-IDF值越大表示该特征词对这个文本的重要性越大，即表示该特征词权重占比较大，因此，将TF-IDF值较大的词作为关键词。

作为本技术方案的进一步改进，所述纠错模块包括文本输入模块，所述文本输入模块将输入单元中的文本信息输入至词序列模块中，所述词序列模块通过对比文本与专业相关词库的相似度对句子相关语序进行检索，若输入的文本信息没有错误，直接通过合法性检查模块检索确认后，由矫正输出模块将文本信息输出；

经过词序列模块对比后，若发现文本信息有错误，则通过错别字定位模块对错别字进行定位，通过候选词生成模块从专业相关词库选出与错别字相似的待选词，将待选词生成错别字纠正用候选集。

作为本技术方案的进一步改进，所述错别字定位模块基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用动态规划查找最大概率路径,找出基于词频的最大切分组合，整合字粒度和词粒度，并通过困惑度计算得到错别字位置。

作为本技术方案的进一步改进，所述矫正输出模块遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，得到最优纠正词。

作为本技术方案的进一步改进，所述输出单元包括答案抓取模块和答案输出模块，所述答案抓取模块将最优纠正词从待选词的候选集中抓取出来，并通过答案输出模块进行输出。

与现有技术相比，本发明的有益效果：

1、该基于人工智能自适应的NLP大模型分析系统中，通过纠错模块实现输入文本的信息矫正，防止文本信息中的错别字对系统检索造成影响，进而提高系统检索精度。

2、该基于人工智能自适应的NLP大模型分析系统中，设置有识别模块，对输入文本信息的长度进行判别，可将单词与长、短句词汇进行区分，单词可直接进入关键词检索，进而提升系统的反应速度，大大提升了人工智能回复问题的速度。

3、该基于人工智能自适应的NLP大模型分析系统中，通过并行检索模块，实现关键词检索与整段词汇检索共同检索，对输入文本进行多重检索，最后由答案抓取模块在待选词的候选集中抓取最优结果，进而提升系统输出的准确度。

附图说明

图1为本发明实施例1的整体结构框图；

图2为本发明实施例1的并行检索模块结果框图；

图3为本发明实施例1的纠错模块结构框图；

图4为本发明实施例1的关键词提取模块流程框图。

图中各个标号意义为：

1、输入单元；101、输入模块；102、识别模块；1021、长、短句词汇；1022、单词；

2、匹配单元；

201、纠错模块；2011、文本输入模块；2012、词序列模块；2013、专业相关词库；2014、错别字定位模块；2015、候选词生成模块；2016、合法性检查模块；2017、矫正输出模块；

203、并行检索模块；2031、整段词汇检索模块；2032、关键词提取模块；2033、关键词检索模块；204、匹配模块；

3、模型数据库；

4、输出单元；401、答案抓取模块；402、答案输出模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1-图4所示，本实施例提供基于人工智能自适应的NLP大模型分析系统，包括输入单元1、匹配单元2和输出单元4，NLP大模型分析系统在智能客服等场景中应用时，需要通过语言分析客户的需求，并进行分析实现自动答复，客户在进行问题咨询时，通过输入单元1对客户输入的文本信息进行采集、识别，输入单元1将采集的文本信息送入匹配单元2，匹配单元2可以对客户输入的文本信息正确性进行判别，识别文本中的错别字并进行纠正，纠正后文本信息与模型数据库3比对、检索，智能选择合适答复词汇，通过输出单元4抓取检索结果并进行反馈输出，对客户输入的文本信息进行准确答复。

在用户输入文本信息后，需要智能判别用户输入信息类别，进而提升系统反馈响应的速度，输入单元1包括输入模块101和识别模块102，识别模块102通过文本占用计算机存储器字节进行判断，对长、短句词汇1021和单词1022进行识别、区分；由于长、短句词汇1021占用的字节空间占用较长，而单词1022占用的字节空间较短，当纠错模块201对单词1022进行判别、纠错之后，可将单词1022直接作为关键词，通过关键词检索模块2033进行检索，进而实现对长、短句词汇1021和单词1022的识别。

其中，匹配单元2包括纠错模块201，纠错模块201用于对文本信息进行校对，并对错误词汇进行纠正，经过纠错模块201矫正的文本信息被送入并行检索模块203将文本信息与模型数据库3检索，并行检索模块203将检索结构输入至匹配模块204，匹配模块204将检索结果与文本信息进行匹配，最终由答案抓取模块401抓取最优答复词汇。

为了增加系统的检索、响应速度，通过识别模块102对文本信息进行长度识别，同时，为了增加词汇检索的准确性，通过并行检索的方式，提高系统回复准确性，并行检索模块203包括整段词汇检索模块2031、关键词提取模块2032和关键词检索模块2033，如图2所示，关键词提取模块2032对长、短句词汇1021中的关键词进行提取，一方面将关键词洗入模型数据库3通过关键词检索模块2033进行词汇检索，另一方面将长、短句词汇1021整个洗入模型数据库3通过整段词汇检索模块2031进行词汇检索；通过并行检索的方式，同时输出检索结果，最后通过答案抓取模块401选择最优结果进行输出。

其中，如图4所示，关键词提取模块2032在对文本关键词进行提取时包括以下步骤：

S2.1、将输入的原始文本信息进行文本预处理，将长、短句词汇1021的原始文本中词语的统计信息抽取文档的关键词；

S2.3、采用关键词算法对候选词权重进行计算；

S2.4、从候选词库中得到关键词。

其中，关键词算法为：

TF-IDF＝TF×IDF；

IDF＝log(语料库中文档总数/(包含该词的文档数+1))。

其中，TF表示一个词在句子中出现的次数；DF表示整个词库中含有某个词的句子个数；IDF为逆句子频率；+1的作用是做平滑处理；

为了防止文本信息错误导致系统回复结果出现误差，纠错模块201包括文本输入模块2011，文本输入模块2011将输入单元1中的文本信息输入至词序列模块2012中，词序列模块2012将文本信息与专业相关词库2013进行对比，专业相关词库2013为输入文本相关领域常用组合词汇组成的数据词库，词序列模块2012通过对比文本与专业相关词库2013的相似度对句子相关语序进行检索，若输入的文本信息没有错误，直接通过合法性检查模块2016检索确认后，由矫正输出模块2017将文本信息输出至并行检索模块203；

经过词序列模块2012对比后，若发现文本信息有错误，则通过错别字定位模块2014对错别字进行定位，从字粒度和词粒度两方面检测错误，整合这两种粒度的疑似错误结果，通过候选词生成模块2015从专业相关词库2013选出与错别字相似的待选词，将待选词生成错别字纠正用候选集，候选词生成模块2015用于生成疑似错别字的候选集，通过合法性检查模块2016是对待输出的文本信息进行合法性检查，避免输出错误非法的数据；合法性检查模块2016通过在javascript中写合法性检查函数，实现校验逻辑。

进一步的，通过错别字定位模块2014可找出文本中的错别字位置，错别字定位模块2014基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用动态规划查找最大概率路径,找出基于词频的最大切分组合，整合字粒度和词粒度，并通过困惑度计算得到错别字位置，其中，困惑度是用来评价语言模型好坏的指标，通过计算文本信息中的困惑度，可以判断出错别字的具体位置。

为了保障输出词汇的精度，通过矫正输出模块2017遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，对所有候选集结果比较并排序，得到最优纠正词，最后，通过输出单元4中的答案抓取模块401将最优纠正词从待选词的候选集中抓取出来，并通过答案输出模块402对回复词汇进行输出，对客户提出的问题完成答复。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于人工智能自适应的NLP大模型分析系统，其特征在于：包括输入单元(1)、匹配单元(2)和输出单元(4)，所述输入单元(1)用于对客户输入的文本信息进行采集、识别，所述输入单元(1)将采集的文本信息送入匹配单元(2)，所述匹配单元(2)将文本信息与模型数据库(3)比对、检索，所述输出单元(4)抓取检索结果并进行反馈输出，对客户输入的文本信息进行词汇答复。

2.根据权利要求1所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述输入单元(1)包括输入模块(101)和识别模块(102)，所述识别模块(102)通过文本占用计算机存储器字节进行判断，对长、短句词汇(1021)和单词(1022)进行识别、区分。

3.根据权利要求1所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述匹配单元(2)包括纠错模块(201)，所述纠错模块(201)用于对文本信息进行校对，并对错误词汇进行纠正，经过所述纠错模块(201)矫正的文本信息被送入并行检索模块(203)，所述并行检索模块(203)将文本信息与模型数据库(3)检索，所述并行检索模块(203)将检索结构输入至匹配模块(204)，所述匹配模块(204)将检索结果与文本信息进行匹配。

4.根据权利要求3所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述并行检索模块(203)包括整段词汇检索模块(2031)、关键词提取模块(2032)和关键词检索模块(2033)，所述关键词提取模块(2032)用于对长、短句词汇(1021)中的关键词进行提取，一方面将关键词洗入模型数据库(3)通过关键词检索模块(2033)进行词汇检索，另一方面将长、短句词汇(1021)整个洗入模型数据库(3)通过整段词汇检索模块(2031)进行词汇检索。

5.根据权利要求4所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述关键词提取模块(2032)在对文本关键词进行提取时包括以下步骤：

S2.1、将输入的原始文本信息进行文本预处理，将长、短句词汇(1021)的原始文本中词语的统计信息抽取文档的关键词；

S2.3、采用关键词算法对候选词权重进行计算；

S2.4、从候选词库中得到关键词。

6.根据权利要求5所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述关键词算法为：

TF-IDF＝TF×IDF；

IDF＝log(语料库中文档总数/(包含该词的文档数+1))；

其中，TF表示一个词在文档中出现的次数；IDF为逆文档频率；+1的作用是做平滑处理。

7.根据权利要求3所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述纠错模块(201)包括文本输入模块(2011)，所述文本输入模块(2011)将输入单元(1)中的文本信息输入至词序列模块(2012)中，所述词序列模块(2012)通过对比文本与专业相关词库(2013)的相似度对句子相关语序进行检索，若输入的文本信息没有错误，直接通过合法性检查模块(2016)检索确认后，由矫正输出模块(2017)将文本信息输出；

经过词序列模块(2012)对比后，若发现文本信息有错误，则通过错别字定位模块(2014)对错别字进行定位，通过候选词生成模块(2015)从专业相关词库(2013)选出与错别字相似的待选词，将待选词生成错别字纠正用候选集。

8.根据权利要求7所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述错别字定位模块(2014)基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用动态规划查找最大概率路径,找出基于词频的最大切分组合，整合字粒度和词粒度，并通过困惑度计算得到错别字位置。

9.根据权利要求7所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述矫正输出模块(2017)遍历所有的疑似错误位置，并使用音似、形似词典替换错误位置的词，得到最优纠正词。

10.根据权利要求9所述的基于人工智能自适应的NLP大模型分析系统，其特征在于：所述输出单元(4)包括答案抓取模块(401)和答案输出模块(402)，所述答案抓取模块(401)将最优纠正词从待选词的候选集中抓取出来，并通过答案输出模块(402)进行输出。