CN117521673B - 一种具备分析训练性能的自然语言处理系统 - Google Patents
一种具备分析训练性能的自然语言处理系统 Download PDFInfo
- Publication number
- CN117521673B CN117521673B CN202410021455.5A CN202410021455A CN117521673B CN 117521673 B CN117521673 B CN 117521673B CN 202410021455 A CN202410021455 A CN 202410021455A CN 117521673 B CN117521673 B CN 117521673B
- Authority
- CN
- China
- Prior art keywords
- data
- confidence
- training
- processing system
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 66
- 238000004458 analytical method Methods 0.000 title claims abstract description 34
- 238000003058 natural language processing Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 10
- 239000000463 material Substances 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 241000287196 Asthenes Species 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,所述处理系统从云数据库获取数据并将处理结果数据上传至云数据库,本发明涉及自然语言处理技术领域。该具备分析训练性能的自然语言处理系统,采用阈值对比方式将置信度概率分为三个批次,在概率较大的情况下可直接获取最大值对应的释义,而置信度概率中等时,可结合上下文内容再次训练来进一步筛分,获得更高的置信度,而在所有置信度概率均较低时,即表示系统判定目前的置信度均较低,则还可从网络上再次爬取数据作为对比依据,反复进行训练,直至获取合格的置信度概率,采用此方式有效的避免了单一选择导致的误差值,提高了获取正确释义的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为一种具备分析训练性能的自然语言处理系统。
背景技术
现有的自然语言处理系统在理解语义时可能存在误差,尤其是对于复杂的句子结构和上下文的理解,系统可能无法正确解析含有歧义、隐喻或多义词的句子,导致错误的理解和处理结果。
中国专利CN108197105B公开了一种自然语言处理方法、装置、存储介质及电子设备。该方法包括:获取用户输入的自然语言信息,以及与所述自然语言信息相关联的相关信息;根据所述自然语言信息得到多个语义解析信息;将所述多个语义解析信息和所述相关信息输入预测模型,所述预测模型根据所述相关信息得到对应所述多个语义解析信息的多个概率值;从所述多个概率值中确定概率值最大的语义解析信息为目标语义解析信息。不再仅仅针对自然语言信息本身进行解析识别,在预测模型中,通过相关信息对自然语言信息进行辅助识别,提高了对自然语言信息解析识别的准确度;
该自然语言处理方法虽然可以通过预测模型结合大量数据去训练和预测,但是通常只会从多个结果中获取可能性最大的结果,但是可能性最大的结果,不一定就是正确结构,依旧存在较大的错误概率;且由于自然语言处理系统的训练数据通常是从现实世界中收集的,其中可能存在偏见和歧视,一些常见网络用词还会与原有含义偏离甚至完全相反,这些误差可能会被系统学习和复制,导致系统在进行一些语义识别翻译,或人工智能对话方面运用时,会表现出无法正确识别语义或识别的语义误差较大的行为。
发明内容
针对现有技术的不足,本发明提供了一种具备分析训练性能的自然语言处理系统,解决了的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,所述处理系统从云数据库获取数据并将处理结果数据上传至云数据库,所述处理系统包括:
所述语句词汇拆分标记单元,用于将待处理语句拆分为小单元并分别标记标签,标签按排序;
所述数据对比标记单元,用于从云数据库或上下文中同类型文案获取与对应词汇相关的特征,按排序标记,其中标签与特征按照下标对应;
所述训练模型,将特征和对应的标签输入训练模型使用机器学习算法进行训练,训练过程中,模型会学习特征与标签之间的关系,得出若干类整合的语句的释义,并预测释义的置信度概率标记为/>;
所述置信度处理分析单元,用于对若干组置信度概率进行排序并与设定阈值对比,依据对比结果直接获得最终释义或再次训练后获得最终释义。
优选的,所述置信度处理分析单元对若干组置信度概率按从大到小顺序重新排序,并标记为,然后通过与/>的对应关系重新与释义绑定记录,并将/>与置信度概率阈值/>进行对比:
;
其中,为/>中第j个/>值,若有/>则输出/>对应的释义为最终释义;若无/>,则保留阈值/>之间的/>对应的释义;若所有/>,则判定所有释义置信度均为低置信度,反馈信号重新训练,重新训练的云数据库数据通过爬虫程序从网络上重新爬取新的数据补充原有库存数据,单次爬取内容条数达到设定值/>后停止爬取,并将该数据转入训练模型再次训练;
所述上下文推理插件,对于的情形,反馈信号至数据对比标记单元从上下文重新获取相关的特征,将阈值/>之间的/>与特征再次输入训练模型训练,获取再次训练的最大值/>对应的释义。
优选的,所述人工管理模块,用于人工查看上下文推理插件选取的上下文内容和待重复训练语句,或置信度处理分析单元分析出的结果,并由人工选择正确释义;
所述语义输出模块,用于输出置信度处理分析单元直接得到的唯一释义,或再次训练得到唯一释义,或人工管理模块直接确定的正确释义,并将训练结果上传至云数据库保存。
优选的,所述数据对比标记单元获取的特征包括词汇、词性、句法结构、上下文关系,以辅助训练模型理解语义。
优选的,所述语句词汇拆分标记单元包括语句词汇拆分模块和拆分词汇标记模块,所述语句词汇拆分模块将完整语句拆分为词语、词组、分句、从句,拆分词汇标记模块对拆分出的语句单元标记标签。
优选的,所述云数据库内的数据资料按照类别进行分类,并提取关键词标记,其加载有爬虫程序以从网络上爬取资料,爬取的数据仅保留与待处理语言相关的数据,去除多余无关数据,筛选规则人工设定。
优选的,所述数据对比标记单元包括:
所述上下文数据输入模块,输入待训练语句的上下文内容,用于再次训练使用;
所述数据库数据提取模块,用于从云数据库中获取需要的资料数据,获取方式通过关键词或类别从云数据库内获取对应数据;
所述数据对比筛选模块,用于对数据库数据提取模块获取的数据,对比语句词汇拆分标记单元拆分的小单元语句,筛选对应有用的数据;
所述筛选数据标记模块,用于对数据对比筛选模块筛选出的数据进行标记。
优选的,所述置信度处理分析单元包括:
所述置信度阈值设定模块,用于人工设定置信度阈值,且;
所述置信度对比排列模块,用于将训练获取的置信度概率值相互对比排序,以及与置信度阈值进行对比。
优选的,通过所述人工管理模块选择的释义具有优先权。
优选的,所述置信度处理分析单元内设定循环训练次数,/>为非0自然数,再次循环训练一次/>,直至有/>,次数/>达到次数上限/>后,无论是否出现,均输出/>最大值对应的释义为最终释义。
本发明提供了一种具备分析训练性能的自然语言处理系统。与现有技术相比具备以下有益效果:
1、该具备分析训练性能的自然语言处理系统,通过采用训练模型可自动将待处理语言对比大数据分析获取多种释义并获取对应的置信度概率,相对于现有技术直接获取最大值的方式,本申请采用阈值对比方式将置信度概率分为三个批次,在概率较大的情况下可直接获取最大值对应的释义,而置信度概率中等时,可结合上下文内容再次训练来进一步筛分,获得更高的置信度,而在所有置信度概率均较低时,即表示系统判定目前的置信度均较低,则还可从网络上再次爬取数据作为对比依据,反复进行训练,直至获取合格的置信度概率,采用此方式有效的避免了单一选择导致的误差值,提高了获取正确释义的准确度。
2、该具备分析训练性能的自然语言处理系统,通过设置人工管理模块,提供了人工参与的窗口,对于翻译等自然语言处理时,可通过具有优先权的人工选择方式直接确定,在先机器处理缩小范围后,由人工进行选择,可进一步提高准确度,为系统处理自然语言的方式增加了人力因素,更为精准的同时也不会有较大的工作量。
3、该具备分析训练性能的自然语言处理系统,通过设置规则对爬虫程序爬取的数据进行筛选精简,可在冗杂的网络大数据中获取精简有效的通过记录循环的次数并设置上限,在循环若干次后若依旧没有足够大的置信度概率,则选择最大概率的释义,此方式在保证较大的置信度概率的基础上,可保证系统不会有过大的数据处理工作量,避免处理时间过长影响效率。
4、该具备分析训练性能的自然语言处理系统,采用多种类型的机器学习算法,为系统提供了多种选择,应用于不同自然语言处理的运用场合,选择合适的机器学习算法,可提高效率并提高适配性。
附图说明
图1为本发明的总系统原理框图;
图2为本发明语句词汇拆分标记单元的原理框图;
图3为本发明数据对比标记单元的原理框图;
图4为本发明置信度处理分析单元的原理框图;
图5为本发明的逻辑流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供四种技术方案:
图1-3示出了第一种实施方式:一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,处理系统从云数据库获取数据并将处理结果数据上传至云数据库,处理系统包括:
语句词汇拆分标记单元,用于将待处理语句拆分为小单元并分别标记标签,标签按排序;
数据对比标记单元,用于从云数据库或上下文中同类型文案获取与对应词汇相关的特征,按排序标记,其中标签与特征按照下标对应;
训练模型,将特征和对应的标签输入训练模型使用机器学习算法进行训练,训练过程中,模型会学习特征与标签之间的关系,得出若干类整合的语句的释义,并预测释义的置信度概率标记为/>;
置信度处理分析单元,用于对若干组置信度概率进行排序并与设定阈值对比,依据对比结果直接获得最终释义或再次训练后获得最终释义;
置信度处理分析单元对若干组置信度概率按从大到小顺序重新排序,并标记为,然后通过与/>的对应关系重新与释义绑定记录,并将/>与置信度概率阈值/>进行对比:
;
其中,为/>中第j个/>值,若有/>则输出/>对应的释义为最终释义;若无/>,则保留阈值/>之间的/>对应的释义;若所有/>,则判定所有释义置信度均为低置信度,反馈信号重新训练,重新训练的云数据库数据通过爬虫程序从网络上重新爬取新的数据补充原有库存数据,单次爬取内容条数达到设定值/>后停止爬取,并将该数据转入训练模型再次训练;
上下文推理插件,对于的情形,反馈信号至数据对比标记单元从上下文重新获取相关的特征,将阈值/>之间的/>与特征再次输入训练模型训练,获取再次训练的最大值/>对应的释义。
通过采用训练模型可自动将待处理语言对比大数据分析获取多种释义并获取对应的置信度概率,相对于现有技术直接获取最大值的方式,本申请采用阈值对比方式将置信度概率分为三个批次,在概率较大的情况下可直接获取最大值对应的释义,而置信度概率中等时,可结合上下文内容再次训练来进一步筛分,获得更高的置信度,而在所有置信度概率均较低时,即表示系统判定目前的置信度均较低,则还可从网络上再次爬取数据作为对比依据,反复进行训练,直至获取合格的置信度概率,采用此方式有效的避免了单一选择导致的误差值,提高了获取正确释义的准确度。
人工管理模块,用于人工查看上下文推理插件选取的上下文内容和待重复训练语句,或置信度处理分析单元分析出的结果,并由人工选择正确释义;
语义输出模块,用于输出置信度处理分析单元直接得到的唯一释义,或再次训练得到唯一释义,或人工管理模块直接确定的正确释义,并将训练结果上传至云数据库保存。
数据对比标记单元获取的特征包括词汇、词性、句法结构、上下文关系,以辅助训练模型理解语义。
语句词汇拆分标记单元包括语句词汇拆分模块和拆分词汇标记模块,语句词汇拆分模块将完整语句拆分为词语、词组、分句、从句,拆分词汇标记模块对拆分出的语句单元标记标签。
数据对比标记单元包括:
上下文数据输入模块,输入待训练语句的上下文内容,用于再次训练使用;
数据库数据提取模块,用于从云数据库中获取需要的资料数据,获取方式通过关键词或类别从云数据库内获取对应数据;
数据对比筛选模块,用于对数据库数据提取模块获取的数据,对比语句词汇拆分标记单元拆分的小单元语句,筛选对应有用的数据;
筛选数据标记模块,用于对数据对比筛选模块筛选出的数据进行标记。
置信度处理分析单元包括:
置信度阈值设定模块,用于人工设定置信度阈值,且;
置信度对比排列模块,用于将训练获取的置信度概率值相互对比排序,以及与置信度阈值进行对比。
通过人工管理模块选择的释义具有优先权。
通过设置人工管理模块,提供了人工参与的窗口,对于翻译等自然语言处理时,可通过具有优先权的人工选择方式直接确定,在先机器处理缩小范围后,由人工进行选择,可进一步提高准确度,为系统处理自然语言的方式增加了人力因素,更为精准的同时也不会有较大的工作量。
云数据库内的数据资料按照类别进行分类,并提取关键词标记,其加载有爬虫程序以从网络上爬取资料,爬取的数据仅保留与待处理语言相关的数据,去除多余无关数据,筛选规则人工设定。
置信度处理分析单元内设定循环训练次数,/>为非0自然数,再次循环训练一次/>,直至有/>,次数/>达到次数上限/>后,无论是否出现/>,均输出/>最大值对应的释义为最终释义。
通过设置规则对爬虫程序爬取的数据进行筛选精简,可在冗杂的网络大数据中获取精简有效的通过记录循环的次数并设置上限,在循环若干次后若依旧没有足够大的置信度概率,则选择最大概率的释义,此方式在保证较大的置信度概率的基础上,可保证系统不会有过大的数据处理工作量,避免处理时间过长影响效率。
训练模型的机器学习算法采用向量机(SVM)算法,将预处理后的文本数据转换成特征向量表示,可以使用词袋模型、TF-IDF等方法将文本数据转换成数值特征,训练好的SVM模型可以用来预测新的文本数据的标签,并且可以输出特征和标签之间的置信度概率,其预测函数可以表示为:
f(x)= sign(w^T×x+b);
其中,w是特征的权重向量,b是偏置项,x是特征向量,sign是符号函数,表示输出标签的正负,置信度概率可以通过对f(x)进行sigmoid函数转换得到:
P(y=1|x)=1/(1+exp(-f(x));
其中,P(y=1|x)表示在给定特征x的条件下,标签y为1的概率,exp表示指数函数,这个概率可以用来衡量模型对于给定特征的置信度。
第二种实施方式,与第一种实施方式的主要区别在于:训练模型的机器学习算法采用随机森林算法,随机森林算法预测置信度概率的公式如下:
P(label|features)=(1/n)×ΣP(label|features,tree_i);
其中,P(label|features) 表示给定特征时标签的置信度概率,n 表示随机森林中树的数量,P(label|features, tree_i) 表示在第 i 棵树中给定特征时标签的置信度概率,通过计算所有树中的置信度概率的平均值,可以得到最终的置信度概率。
第三种实施方式,与第二种实施方式的主要区别在于:训练模型的机器学习算法采用决策树算法,预测置信度概率的具体公式如下:
P(y|x)=Nt/N;
其中,P(y|x)表示在给定特征x的条件下,标签y的置信度概率;Nt表示在决策树叶节点t中满足特征x的样本数量;N表示在决策树叶节点t中的样本总数量。
通过计算上述公式,可以得到在给定特征x的条件下,标签y的置信度概率,这样就可以利用决策树算法对自然语言学习特征与标签之间的关系进行预测,并得到相应的置信度概率。
采用多种类型的机器学习算法,为系统提供了多种选择,应用于不同自然语言处理的运用场合,选择合适的机器学习算法,可提高效率并提高适配性。
在某次模拟训练时,设定为70%-30%,/>,输入一段文字进行训练,出现第三种对比结果,重复训练获得的置信度概率数值/>如下表所示,在第五次对比获得超过70%的/>值,因此终止循环,选取该/>值对应的释义为最终释义:
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种具备分析训练性能的自然语言处理系统,包括处理系统和云数据库,所述处理系统从云数据库获取数据并将处理结果数据上传至云数据库,其特征在于:所述处理系统包括:
语句词汇拆分标记单元,用于将待处理语句拆分为小单元并分别标记标签,标签按排序;
数据对比标记单元,用于从云数据库或上下文中同类型文案获取与对应词汇相关的特征,按/>排序标记,其中标签与特征按照下标对应;
训练模型,将特征和对应的标签输入训练模型使用机器学习算法进行训练,训练过程中,模型会学习特征与标签之间的关系,得出若干类整合的语句的释义,并预测释义的置信度概率标记为/>;
置信度处理分析单元,用于对若干组置信度概率进行排序并与设定阈值对比,依据对比结果直接获得最终释义或再次训练后获得最终释义;
所述置信度处理分析单元对若干组置信度概率按从大到小顺序重新排序,并标记为,通过与/>的对应关系重新与释义绑定记录,并将/>与置信度概率阈值/>进行对比:
;
其中,为/>中第j个/>值,若有/>则输出/>对应的释义为最终释义;若无/>,则保留阈值/>之间的/>对应的释义;若所有/>,则判定所有释义置信度均为低置信度,反馈信号重新训练,重新训练的云数据库数据通过爬虫程序从网络上重新爬取新的数据补充原有库存数据,单次爬取内容条数达到设定值/>后停止爬取,并将该数据转入训练模型再次训练;
上下文推理插件,对于的情形,反馈信号至数据对比标记单元从上下文重新获取相关的特征,将阈值/>之间的/>与特征再次输入训练模型训练,获取再次训练的最大值/>对应的释义;
所述置信度处理分析单元内设定循环训练次数,/>为非0自然数,再次循环训练一次/>,直至有/>,次数/>达到次数上限/>后,无论是否出现/>,均输出/>最大值对应的释义为最终释义。
2.根据权利要求1所述的一种具备分析训练性能的自然语言处理系统,其特征在于:人工管理模块,用于人工查看上下文推理插件选取的上下文内容和待重复训练语句,或置信度处理分析单元分析出的结果,并由人工选择正确释义;
语义输出模块,用于输出置信度处理分析单元直接得到的唯一释义,或再次训练得到唯一释义,或人工管理模块直接确定的正确释义,并将训练结果上传至云数据库保存。
3.根据权利要求1所述的一种具备分析训练性能的自然语言处理系统,其特征在于:所述数据对比标记单元获取的特征包括词汇、词性、句法结构、上下文关系,以辅助训练模型理解语义。
4.根据权利要求1所述的一种具备分析训练性能的自然语言处理系统,其特征在于:所述语句词汇拆分标记单元包括语句词汇拆分模块和拆分词汇标记模块,所述语句词汇拆分模块将完整语句拆分为词语、词组、分句、从句,拆分词汇标记模块对拆分出的语句单元标记标签。
5.根据权利要求1所述的一种具备分析训练性能的自然语言处理系统,其特征在于:所述云数据库内的数据资料按照类别进行分类,并提取关键词标记,其加载有爬虫程序以从网络上爬取资料,爬取的数据仅保留与待处理语言相关的数据,去除多余无关数据,筛选规则人工设定。
6.根据权利要求1所述的一种具备分析训练性能的自然语言处理系统,其特征在于:数据对比标记单元包括:
上下文数据输入模块,输入待训练语句的上下文内容,用于再次训练使用;
数据库数据提取模块,用于从云数据库中获取需要的资料数据,获取方式通过关键词或类别从云数据库内获取对应数据;
数据对比筛选模块,用于对数据库数据提取模块获取的数据,对比语句词汇拆分标记单元拆分的小单元语句,筛选对应有用的数据;
筛选数据标记模块,用于对数据对比筛选模块筛选出的数据进行标记。
7.根据权利要求1所述的一种具备分析训练性能的自然语言处理系统,其特征在于:置信度处理分析单元包括:
置信度阈值设定模块,用于人工设定置信度阈值,且/>;
置信度对比排列模块,用于将训练获取的置信度概率值相互对比排序,以及与置信度阈值进行对比。
8.根据权利要求2所述的一种具备分析训练性能的自然语言处理系统,其特征在于:通过所述人工管理模块选择的释义具有优先权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021455.5A CN117521673B (zh) | 2024-01-08 | 2024-01-08 | 一种具备分析训练性能的自然语言处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410021455.5A CN117521673B (zh) | 2024-01-08 | 2024-01-08 | 一种具备分析训练性能的自然语言处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117521673A CN117521673A (zh) | 2024-02-06 |
CN117521673B true CN117521673B (zh) | 2024-03-22 |
Family
ID=89766895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410021455.5A Active CN117521673B (zh) | 2024-01-08 | 2024-01-08 | 一种具备分析训练性能的自然语言处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117521673B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359294A (zh) * | 2018-09-18 | 2019-02-19 | 湖北文理学院 | 一种基于神经机器翻译的古汉语翻译方法 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN113220768A (zh) * | 2021-06-04 | 2021-08-06 | 杭州投知信息技术有限公司 | 基于深度学习的简历信息结构化方法及系统 |
CN113918704A (zh) * | 2021-10-28 | 2022-01-11 | 平安普惠企业管理有限公司 | 基于机器学习的问答方法、装置、电子设备及介质 |
CN114416942A (zh) * | 2021-12-29 | 2022-04-29 | 南京视察者智能科技有限公司 | 一种基于深度学习的自动化问答方法 |
CN115130601A (zh) * | 2022-07-07 | 2022-09-30 | 上海交通大学 | 基于多维特征融合的二阶段学术数据网页分类方法及系统 |
WO2023084222A1 (en) * | 2021-11-10 | 2023-05-19 | Privitar Limited | Machine learning based models for labelling text data |
CN116561251A (zh) * | 2023-04-24 | 2023-08-08 | 北京芯水科技有限公司 | 一种自然语言处理方法 |
CN116579347A (zh) * | 2023-03-07 | 2023-08-11 | 西安电子科技大学 | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 |
CN116719913A (zh) * | 2023-04-27 | 2023-09-08 | 江苏师范大学 | 一种基于改进命名实体识别的医疗问答系统及其构建方法 |
CN117251559A (zh) * | 2023-09-20 | 2023-12-19 | 广东筑小宝人工智能科技有限公司 | 基于自然语言大模型的工程标准规范获取方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475015B2 (en) * | 2003-09-05 | 2009-01-06 | International Business Machines Corporation | Semantic language modeling and confidence measurement |
US10229195B2 (en) * | 2017-06-22 | 2019-03-12 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
US11003859B2 (en) * | 2018-11-30 | 2021-05-11 | International Business Machines Corporation | Machine-learning automated structural quality analysis |
-
2024
- 2024-01-08 CN CN202410021455.5A patent/CN117521673B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359294A (zh) * | 2018-09-18 | 2019-02-19 | 湖北文理学院 | 一种基于神经机器翻译的古汉语翻译方法 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN113220768A (zh) * | 2021-06-04 | 2021-08-06 | 杭州投知信息技术有限公司 | 基于深度学习的简历信息结构化方法及系统 |
CN113918704A (zh) * | 2021-10-28 | 2022-01-11 | 平安普惠企业管理有限公司 | 基于机器学习的问答方法、装置、电子设备及介质 |
WO2023084222A1 (en) * | 2021-11-10 | 2023-05-19 | Privitar Limited | Machine learning based models for labelling text data |
CN114416942A (zh) * | 2021-12-29 | 2022-04-29 | 南京视察者智能科技有限公司 | 一种基于深度学习的自动化问答方法 |
CN115130601A (zh) * | 2022-07-07 | 2022-09-30 | 上海交通大学 | 基于多维特征融合的二阶段学术数据网页分类方法及系统 |
CN116579347A (zh) * | 2023-03-07 | 2023-08-11 | 西安电子科技大学 | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 |
CN116561251A (zh) * | 2023-04-24 | 2023-08-08 | 北京芯水科技有限公司 | 一种自然语言处理方法 |
CN116719913A (zh) * | 2023-04-27 | 2023-09-08 | 江苏师范大学 | 一种基于改进命名实体识别的医疗问答系统及其构建方法 |
CN117251559A (zh) * | 2023-09-20 | 2023-12-19 | 广东筑小宝人工智能科技有限公司 | 基于自然语言大模型的工程标准规范获取方法及系统 |
Non-Patent Citations (5)
Title |
---|
Towards Better Confidence Estimation for Neural Models;Vishal Thanvantri Vasudevan等;ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);20190417;7335-7339 * |
一种基于概率上下文无关文法的汉语句法分析;林颖;史晓东;郭锋;;中文信息学报;20060325(02);1-7 * |
基于Laplace谱结构特征和局部特征的图像分类;孙山;梁栋;鲍文霞;张成;;安徽大学学报(自然科学版);20151130(06);60-66 * |
异源语料融合研究;吕学强;仵永栩;周强;刘殷;;中文信息学报;20160915(05);160-168 * |
理论术语抽取的深度学习模型及自训练算法研究;赵洪;王芳;;情报学报;20180924(09);67-82 * |
Also Published As
Publication number | Publication date |
---|---|
CN117521673A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309912B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN110532398B (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN113672931B (zh) | 一种基于预训练的软件漏洞自动检测方法及装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN112036705A (zh) | 一种质检结果数据获取方法、装置及设备 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN115408525A (zh) | 基于多层级标签的信访文本分类方法、装置、设备及介质 | |
CN111783464A (zh) | 一种面向电力的领域实体识别方法、系统及存储介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN117521673B (zh) | 一种具备分析训练性能的自然语言处理系统 | |
CN115713082A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN114722818A (zh) | 一种基于对抗迁移学习的命名实体识别模型 | |
CN114003773A (zh) | 一种基于自构建多场景的对话追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |