CN112651223B - 一种基于ner和nlu的骚扰信息判断方法及系统 - Google Patents
一种基于ner和nlu的骚扰信息判断方法及系统 Download PDFInfo
- Publication number
- CN112651223B CN112651223B CN202011386602.7A CN202011386602A CN112651223B CN 112651223 B CN112651223 B CN 112651223B CN 202011386602 A CN202011386602 A CN 202011386602A CN 112651223 B CN112651223 B CN 112651223B
- Authority
- CN
- China
- Prior art keywords
- information
- natural language
- language understanding
- word slot
- harassment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 239000003550 marker Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 18
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 238000003062 neural network model Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于NER和NLU的骚扰信息判断方法及系统,其中,所述方法包括:获得第一文本信息;对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;对所述第一文本信息进行命名实体识别,获得词槽内容信息;根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;判断所述第一结果信息是否包含骚扰信息;如果所述第一结果信息包含骚扰信息,获得第一标记信息;根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。解决了现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题。
Description
技术领域
本发明涉及信息识别领域,尤其涉及一种基于NER和NLU的骚扰信息判断方法及系统。
背景技术
随着信息行业的快速发展,骚扰信息的生产者不完全仅是人类,还包括机器人,这意味着对骚扰信息识别方案提出了更高的要求,包括更快的响应速度、更精准的识别率、更小的误差、更强大的兼容特性、更低成本的词库更新能力等。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题。
发明内容
本申请实施例通过提供一种基于NER和NLU的骚扰信息判断方法及系统,解决了现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题,达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
鉴于上述问题,提出了本申请实施例提供一种基于NER和NLU的骚扰信息判断方法及系统。
第一方面,本申请实施例提供了一种基于NER和NLU的骚扰信息判断方法,所述方法包括:获得第一文本信息;对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;对所述第一文本信息进行命名实体识别,获得词槽内容信息;根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;判断所述第一结果信息是否包含骚扰信息;如果所述第一结果信息包含骚扰信息,获得第一标记信息;根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。
另一方面,本申请还提供了一种基于NER和NLU的骚扰信息判断系统,所述系统包括:第一获得单元,所述第一获得单元用于获得第一文本信息;第二获得单元,所述第二获得单元用于对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;第三获得单元,所述第三获得单元用于对所述第一文本信息进行命名实体识别,获得词槽内容信息;第四获得单元,所述第四获得单元用于根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;第一判断单元,所述第一判断单元用于判断所述第一结果信息是否包含骚扰信息;第五获得单元,所述第五获得单元用于如果所述第一结果信息包含骚扰信息,获得第一标记信息;第一标记单元,所述第一标记单元用于根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。
第三方面,本发明提供了一种基于NER和NLU的骚扰信息判断系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现第一方面所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息,对所述第一文本信息进行命名实体识别,获得词槽内容信息。根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息,如果所述第一结果信息包含骚扰信息,获得第一标记信息,根据所述第一标记信息,将所述第一文本信息标记为骚扰信息,进而达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例一种基于NER和NLU的骚扰信息判断方法的流程示意图;
图2为本申请实施例一种基于NER和NLU的骚扰信息判断系统的结构示意图;
图3为本申请实施例示例性电子设备的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第四获得单元14,第一判断单元15,第五获得单元16,第一标记单元17,总线300,接收器301,处理器302,发送器303,存储器304,总线接口305 。
具体实施方式
本申请实施例通过提供一种基于NER和NLU的骚扰信息判断方法及系统,解决了现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题,达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
随着信息行业的快速发展,骚扰信息的生产者不完全仅是人类,还包括机器人,这意味着对骚扰信息识别方案提出了更高的要求,包括更快的响应速度、更精准的识别率、更小的误差、更强大的兼容特性、更低成本的词库更新能力等。但现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例提供了一种基于NER和NLU的骚扰信息判断方法,所述方法包括:获得第一文本信息;对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;对所述第一文本信息进行命名实体识别,获得词槽内容信息;根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;判断所述第一结果信息是否包含骚扰信息;如果所述第一结果信息包含骚扰信息,获得第一标记信息;根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种基于NER和NLU的骚扰信息判断方法,其中,所述方法包括:
步骤S100:获得第一文本信息;
具体而言,所述第一文本信息为需要进行判断的来源文本信息,包括信息、邮件、即时聊天软件(IM)等,如果获得来源信息是语音类,则通过音频识别转文字技术转成文本信息。
步骤S200:对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;
具体而言,所述自然语言理解(NLU,Natural Language Understanding)是指从自然语言到机器内部的一个映射,是指机器能够执行人类所期望的某些语言功能,所述自然语言理解处理为通过自然语言理解获取对所述第一文本信息的理解。所述自然语言理解意图列表信息为经过自然语言理解处理后,通过分类的方式将所述第一文本信息划分到相应的意图种类列表当中,判断其属于哪个领域,不同的意图会有不同的领域词典,比如书名、歌曲名、商品名等。
步骤S300:对所述第一文本信息进行命名实体识别,获得词槽内容信息;
具体而言,所述命名实体识别(NER,Named Entity Recognition) 为识别所述第一文本信息中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,主要获取对句子中某些特定词汇的理解。所述词槽内容信息为用户对话中需要被系统所理解的一些必要的限定条件,并影响到对话系统的执行结果,例如:“换到中央台”中的“中央台”就是一个“电视台词槽”,它会一定程度上影响系统对“换台”这个意图的执行。
步骤S400:根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;
具体而言,所述第一结果信息为对第一文本信息同时进行自然语言理解和命名实体识别的处理计算后所得到的结果信息,所述第一结果信息将作为各自的打分依据作为是否包含骚扰信息的判断。
步骤S500:判断所述第一结果信息是否包含骚扰信息;
具体而言,将自然语言理解与命名实体识别的计算结果放入打分器进行分值计算与判断,目的是判断所述第一结果信息是否包含骚扰信息,从而解决现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题。
步骤S600:如果所述第一结果信息包含骚扰信息,获得第一标记信息;
具体而言,所述第一标记信息为对经计算得到的所述第一结果信息文本中包含骚扰信息进行标记,进而完成后续的信息识别处理,达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
步骤S700:根据所述第一标记信息,将所述第一文本信息标记为骚扰信息;
具体而言,如果所述第一结果信息包含骚扰信息,根据所述第一标记信息,则对所述第一文本信息标记为骚扰信息,否则,跳出该流程。从而解决现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题,达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
进一步而言,其中,所述获得第一文本信息,本申请实施例还包括:
步骤S810:获得第一信息;
步骤S820:判断所述第一信息的格式信息;
步骤S830:如果所述第一信息为第一文本信息,对所述第一文本信息进行自然语言理解处理;
步骤S840:如果所述第一信息为音频信息,获得第一转换信息;
步骤S850:根据所述第一转换信息,将所述音频信息转换为第一文本信息。
具体而言,所述第一信息为需要进行判断的来源信息,所述第一信息的格式信息为所述第一信息的来源格式,信息来源可格式能会存在两种情况:语音类和文字类,语音类包括电话,语音聊天等,文字类包括信息,邮件,即时聊天软件(IM)等。如果所述第一信息为第一文本信息,则进行下一步自然语言理解处理,如果所述第一信息为音频信息,获得第一转换信息,所述第一转换信息为将音频文件通过音频识别转文字技术转成的文本信息,根据所述第一转换信息,将所述音频信息转换为第一文本信息。
进一步而言,其中,所述对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息,本申请实施例还包括:
步骤S910:获得骚扰语料训练集;
步骤S920:获得日志数据;
步骤S930:将所述骚扰语料训练集中的数据和所述日志数据作为输入数据输入骚扰模型进行训练,获得输出信息;
步骤S940:根据所述输出信息,获得所述自然语言理解意图列表信息;
具体而言,所述骚扰语料训练集为骚扰信息的训练语料,包括语料抓取、语料清晰、语料预处理等,所述日志数据为记录系统产生的过程性事件记录数据,是模型的主要训练来源,有助模型的自我学习与精度提升。
进一步而言,所述骚扰模型为神经网络模型,所述神经网络模型即机器学习中的神经网络模型,神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂神经网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络模型是以神经元的数学模型为基础来描述的。人工神经网络(Artificial Neural Networks),是对人类大脑系统的一阶特性的一种描述。简单地讲,它是一个数学模型。通过大量训练数据的训练,将所述骚扰语料训练集中的数据和所述日志数据输入神经网络模型,则输出满足所述骚扰语料训练集中的数据和所述日志数据的所述自然语言理解意图列表信息。
更进一步而言,所述训练的过程实质为监督学习的过程,每一组监督数据均包括所述骚扰语料训练集中的数据、所述日志数据和标识满足所述骚扰语料训练集中的数据和所述日志数据的所述自然语言理解意图列表信息的标识信息,将所述骚扰语料训练集中的数据、所述日志数据输入到神经网络模型中,根据用来标识满足所述骚扰语料训练集中的数据和所述日志数据的所述自然语言理解意图列表信息的标识信息,所述神经网络模型进行不断的自我修正、调整,直至获得的输出信息与所述标识信息一致,则结束本组数据监督学习,进行下一组数据监督学习;当所述神经网络模型的输出信息达到预定的准确率/达到收敛状态时,则监督学习过程结束。通过对所述神经网络模型的监督学习,进而使得所述神经网络模型处理所述输入信息更加准确,进而解决现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题,达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
进一步而言,其中,所述对所述第一文本信息进行命名实体识别,获得词槽内容信息,本申请实施例还包括:
步骤S1010:根据骚扰词规则,获得正则实体;
步骤S1020:根据骚扰词典库,获得词典实体;
步骤S1030:将所述骚扰词典库和训练数据集作为训练数据,获得模型实体;
步骤S1040:将所述正则实体和所述词典实体通过匹配逻辑进行词槽填充,获得第一词槽内容信息;
步骤S1050:将所述模型实体通过模型预测进行词槽填充,获得第二词槽内容信息;
步骤S1060:根据所述第一词槽内容信息和所述第二词槽内容信息,获得所述词槽内容信息。
具体而言,所述骚扰词规则为依赖于手工规则的系统,结合命名实体库,对每条骚扰词规则进行权重辅助,然后通过实体与规则的相符情况来进行类型判断,大多数时候,所述骚扰词规则往往依赖具体语言领域和文本风格,难以覆盖所有的语言现象。所述正则实体为基于所提供的正则表达式模式提取实体,来自骚扰词的规则配置,根据所述骚扰词规则获得。所述骚扰词典库为已有的骚扰词识别数据库,所述词典实体来自所述骚扰词典库,为从骚扰词典中抽取的实体结构信息,包括同一实体多种变体和不同实体同名。所述训练数据集为数据挖掘过程中用于训练数据挖掘模型的数据集合,将所述骚扰词典库和所述训练数据集作为训练数据,所述训练数据分别来自于所述骚扰词典库与所述训练数据集,获得所述模型实体,所述模型实体为神经网络模型,是一个数学模型,能够完整地表示几何信息、拓扑信息,能够支持各种运算如欧拉运算、物性计算、有限元分析等,包含信息量的完整而全面。三种实体最后会通过两种方式进行计算,所述正则实体与所述词典实体通过匹配逻辑进行词槽填充,所述词槽填充也就是序列标注问题,即对于给定的句子中的每个词分别打上相应的标签,从而获得用户对话中需要被系统所理解的一些必要的限定条件,并影响到对话系统的执行结果,即为所述第一词槽内容信息,而所述模型实体通过模型预测功能来填充词槽,从而获得所述第二词槽内容信息,根据所述第一词槽内容信息和所述第二词槽内容信息,综合分析获得所述词槽内容信息。
进一步而言,其中,所述根据所述自然语言理解意图列表信息和 \或所述词槽内容信息,获得第一结果信息,本申请实施例还包括:
步骤S1110:判断所述自然语言理解意图列表信息和所述词槽内容信息是否均具有计算结果;
步骤S1120:如果所述自然语言理解意图列表信息和所述词槽内容信息只有所述自然语言理解意图列表信息或所述词槽内容信息具有计算结果,获得具有计算结果的一方,将其作为第一结果信息。
具体而言,先判断是否自然语言理解与命名实体识别都有计算结果,如果一方未命中,所述自然语言理解意图列表信息和所述词槽内容信息只有所述自然语言理解意图列表信息或所述词槽内容信息具有计算结果,则只输出命中的结果,将其作为第一结果信息。
进一步而言,其中,所述判断所述自然语言理解意图列表信息和所述词槽内容信息是否均具有计算结果之后,本申请实施例步骤S1120还包括:
步骤S1121:如果所述自然语言理解意图列表信息和所述词槽内容信息均具有计算结果,判断所述自然语言理解意图列表信息中是否存在近似度大于预定阈值的意图;
步骤S1122:如果所述自然语言理解意图列表信息中存在近似度大于预定阈值的意图,将所述自然语言理解意图列表信息的计算结果作为第一结果信息。
具体而言,如果自然语言理解与命名实体识别都命中,所述自然语言理解意图列表信息和所述词槽内容信息均具有计算结果,则判断自然语言理解计算出的意图列表中是否存在近似度大于90%的意图,如果所述自然语言理解意图列表信息中存在近似度大于90%的意图,则选用自然语言理解的识别结果作为第一结果信息。
进一步而言,其中,所述判断所述自然语言理解意图列表信息中是否存在近似度大于预定阈值的意图之后,本申请实施例步骤S1122 还包括:
步骤S11221:如果所述自然语言理解意图列表信息中不存在近似度大于预定阈值的意图,将所述词槽内容信息的计算结果作为第一结果信息。
具体而言,如果自然语言理解与命名实体识别都命中,均具有计算结果,则判断自然语言理解计算出的意图列表中是否存在近似度大于90%的意图,如果不存在自然语言理解近似度大于90%的意图,均优先采用命名实体识别的识别结果作为第一结果信息。
综上所述,本申请实施例所提供的一种基于NER和NLU的骚扰信息判断方法及系统具有如下技术效果:
1、由于采用了对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息,对所述第一文本信息进行命名实体识别,获得词槽内容信息。根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息,如果所述第一结果信息包含骚扰信息,获得第一标记信息,根据所述第一标记信息,将所述第一文本信息标记为骚扰信息,进而达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
2、由于采用了自然语言理解(NLU)与实体命名识别(NER) 两种方案结合的识别架构,从功能角度上来说,选用两种方案结合可以充分利用其两者的特性进行互补,进而达到了对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
实施例二
基于与前述实施例中一种基于NER和NLU的骚扰信息判断方法同样发明构思,本发明还提供了一种基于NER和NLU的骚扰信息判断系统,如图2所示,所述系统包括:
第一获得单元11,所述第一获得单元11用于获得第一文本信息;
第二获得单元12,所述第二获得单元12用于对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;
第三获得单元13,所述第三获得单元13用于对所述第一文本信息进行命名实体识别,获得词槽内容信息;
第四获得单元14,所述第四获得单元14用于根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;
第一判断单元15,所述第一判断单元15用于判断所述第一结果信息是否包含骚扰信息;
第五获得单元16,所述第五获得单元16用于如果所述第一结果信息包含骚扰信息,获得第一标记信息;
第一标记单元17,所述第一标记单元17用于根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。
进一步的,所述系统还包括:
第六获得单元,所述第六获得单元用于获得第一信息;
第二判断单元,所述第二判断单元用于判断所述第一信息的格式信息;
第一处理单元,所述第一处理单元用于如果所述第一信息为第一文本信息,对所述第一文本信息进行自然语言理解处理;
第七获得单元,所述第七获得单元用于如果所述第一信息为音频信息,获得第一转换信息;
第一转换单元,所述第一转换单元用于根据所述第一转换信息,将所述音频信息转换为第一文本信息。
进一步的,所述系统还包括:
第八获得单元,所述第八获得单元用于获得骚扰语料训练集;
第九获得单元,所述第九获得单元用于获得日志数据;
第十获得单元,所述第十获得单元用于将所述骚扰语料训练集中的数据和所述日志数据作为输入数据输入骚扰模型进行训练,获得输出信息;
第十一获得单元,所述第十一获得单元用于根据所述输出信息,获得所述自然语言理解意图列表信息。
进一步的,所述系统还包括:
第十二获得单元,所述第十二获得单元用于根据骚扰词规则,获得正则实体;
第十三获得单元,所述第十三获得单元用于根据骚扰词典库,获得词典实体;
第十四获得单元,所述第十四获得单元用于将所述骚扰词典库和训练数据集作为训练数据,获得模型实体;
第十五获得单元,所述第十五获得单元用于将所述正则实体和所述词典实体通过匹配逻辑进行词槽填充,获得第一词槽内容信息;
第十六获得单元,所述第十六获得单元用于将所述模型实体通过模型预测进行词槽填充,获得第二词槽内容信息;
第十七获得单元,所述第十七获得单元用于根据所述第一词槽内容信息和所述第二词槽内容信息,获得所述词槽内容信息。
进一步的,所述系统还包括:
第三判断单元,所述第三判断单元用于判断所述自然语言理解意图列表信息和所述词槽内容信息是否均具有计算结果;
第十八获得单元,所述第十八获得单元用于如果所述自然语言理解意图列表信息和所述词槽内容信息只有所述自然语言理解意图列表信息或所述词槽内容信息具有计算结果,获得具有计算结果的一方,将其作为第一结果信息。
进一步的,所述系统还包括:
第四判断单元,所述第四判断单元用于如果所述自然语言理解意图列表信息和所述词槽内容信息均具有计算结果,判断所述自然语言理解意图列表信息中是否存在近似度大于预定阈值的意图;
第一结果单元,所述第一结果单元用于如果所述自然语言理解意图列表信息中存在近似度大于预定阈值的意图,将所述自然语言理解意图列表信息的计算结果作为第一结果信息。
进一步的,所述系统还包括:
第二结果单元,所述第二结果单元用于如果所述自然语言理解意图列表信息中不存在近似度大于预定阈值的意图,将所述词槽内容信息的计算结果作为第一结果信息。
前述图1实施例一中的一种基于NER和NLU的骚扰信息判断方法的各种变化方式和具体实例同样适用于本实施例的一种基于NER 和NLU的骚扰信息判断系统,通过前述对一种基于NER和NLU的骚扰信息判断方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于NER和NLU的骚扰信息判断系统的实施方法,所以为了说明书的简洁,在此不再详述。
示例性电子设备
下面参考图3来描述本申请实施例的电子设备。
图3图示了根据本申请实施例的电子设备的结构示意图。
基于与前述实施例中一种基于NER和NLU的骚扰信息判断方法的发明构思,本发明还提供一种基于NER和NLU的骚扰信息判断系统,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于NER和NLU的骚扰信息判断方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305 在总线300和接收器 301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他系统通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本发明实施例提供的一种基于NER和NLU的骚扰信息判断方法,所述方法包括:获得第一文本信息;对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;对所述第一文本信息进行命名实体识别,获得词槽内容信息;根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;判断所述第一结果信息是否包含骚扰信息;如果所述第一结果信息包含骚扰信息,获得第一标记信息;根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。解决了现有技术极大的耗费时间与精力,无法做到迅速响应,针对性不强,无法做到低成本更新的技术问题,达到对信息识别更快的响应速度,更精准的识别率与更小的误差,更低成本的兼容特性的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种基于NER和NLU的骚扰信息判断方法,其中,所述方法包括:
获得第一文本信息;
对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;
对所述第一文本信息进行命名实体识别,获得词槽内容信息;
根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;
判断所述第一结果信息是否包含骚扰信息;
如果所述第一结果信息包含骚扰信息,获得第一标记信息;
根据所述第一标记信息,将所述第一文本信息标记为骚扰信息;
其中,所述对所述第一文本信息进行命名实体识别,获得词槽内容信息,包括:
根据骚扰词规则,获得正则实体;
根据骚扰词典库,获得词典实体;
将所述骚扰词典库和训练数据集作为训练数据,获得模型实体;
将所述正则实体和所述词典实体通过匹配逻辑进行词槽填充,获得第一词槽内容信息;
将所述模型实体通过模型预测进行词槽填充,获得第二词槽内容信息;
根据所述第一词槽内容信息和所述第二词槽内容信息,获得所述词槽内容信息。
2.如权利要求1所述的方法,其中,所述获得第一文本信息,包括:
获得第一信息;
判断所述第一信息的格式信息;
如果所述第一信息为第一文本信息,对所述第一文本信息进行自然语言理解处理;
如果所述第一信息为音频信息,获得第一转换信息;
根据所述第一转换信息,将所述音频信息转换为第一文本信息。
3.如权利要求1所述的方法,其中,所述对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息,包括:
获得骚扰语料训练集;
获得日志数据;
将所述骚扰语料训练集中的数据和所述日志数据作为输入数据输入骚扰模型进行训练,获得输出信息;
根据所述输出信息,获得所述自然语言理解意图列表信息。
4.如权利要求1所述的方法,其中,所述根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息,包括:
判断所述自然语言理解意图列表信息和所述词槽内容信息是否均具有计算结果;
如果所述自然语言理解意图列表信息和所述词槽内容信息只有所述自然语言理解意图列表信息或所述词槽内容信息具有计算结果,获得具有计算结果的一方,将其作为第一结果信息。
5.如权利要求4所述的方法,其中,所述判断所述自然语言理解意图列表信息和所述词槽内容信息是否均具有计算结果之后,包括:
如果所述自然语言理解意图列表信息和所述词槽内容信息均具有计算结果,判断所述自然语言理解意图列表信息中是否存在近似度大于预定阈值的意图;
如果所述自然语言理解意图列表信息中存在近似度大于预定阈值的意图,将所述自然语言理解意图列表信息的计算结果作为第一结果信息。
6.如权利要求5所述的方法,其中,所述判断所述自然语言理解意图列表信息中是否存在近似度大于预定阈值的意图之后,包括:
如果所述自然语言理解意图列表信息中不存在近似度大于预定阈值的意图,将所述词槽内容信息的计算结果作为第一结果信息。
7.一种基于NER和NLU的骚扰信息判断系统,其中,所述系统包括:
第一获得单元,所述第一获得单元用于获得第一文本信息;
第二获得单元,所述第二获得单元用于对所述第一文本信息进行自然语言理解处理,获得自然语言理解意图列表信息;
第十二获得单元,用于根据骚扰词规则,获得正则实体;
第十三获得单元,用于根据骚扰词典库,获得词典实体;
第十四获得单元,用于将所述骚扰词典库和训练数据集作为训练数据,获得模型实体;
第十五获得单元,用于将所述正则实体和所述词典实体通过匹配逻辑进行词槽填充,获得第一词槽内容信息;
第十六获得单元,用于将所述模型实体通过模型预测进行词槽填充,获得第二词槽内容信息;
第十七获得单元,用于根据所述第一词槽内容信息和所述第二词槽内容信息,获得所述词槽内容信息;
第四获得单元,所述第四获得单元用于根据所述自然语言理解意图列表信息和\或所述词槽内容信息,获得第一结果信息;
第一判断单元,所述第一判断单元用于判断所述第一结果信息是否包含骚扰信息;
第五获得单元,所述第五获得单元用于如果所述第一结果信息包含骚扰信息,获得第一标记信息;
第一标记单元,所述第一标记单元用于根据所述第一标记信息,将所述第一文本信息标记为骚扰信息。
8.一种基于NER和NLU的骚扰信息判断系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386602.7A CN112651223B (zh) | 2020-12-01 | 2020-12-01 | 一种基于ner和nlu的骚扰信息判断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011386602.7A CN112651223B (zh) | 2020-12-01 | 2020-12-01 | 一种基于ner和nlu的骚扰信息判断方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651223A CN112651223A (zh) | 2021-04-13 |
CN112651223B true CN112651223B (zh) | 2023-03-24 |
Family
ID=75349926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011386602.7A Active CN112651223B (zh) | 2020-12-01 | 2020-12-01 | 一种基于ner和nlu的骚扰信息判断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651223B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574112A (zh) * | 2015-12-14 | 2016-05-11 | 北京奇虎科技有限公司 | 一种通信过程的评论信息处理方法及系统 |
CN108121701A (zh) * | 2017-12-26 | 2018-06-05 | 深圳市海派通讯科技有限公司 | 一种防骚扰的自动识别方法及其智能终端 |
CN109785840A (zh) * | 2019-03-05 | 2019-05-21 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN111107227A (zh) * | 2019-12-13 | 2020-05-05 | 刘俊露 | 一种电话语音、文本信息防诈骗/骚扰系统 |
CN111177310A (zh) * | 2019-12-06 | 2020-05-19 | 广西电网有限责任公司 | 电力服务机器人智能场景会话方法及装置 |
CN111556207A (zh) * | 2020-03-26 | 2020-08-18 | 平安普惠企业管理有限公司 | 识别骚扰电话的方法、装置、计算机设备和存储介质 |
CN111901473A (zh) * | 2020-09-04 | 2020-11-06 | 中国平安人寿保险股份有限公司 | 一种来电处理方法、装置、设备及存储介质 |
-
2020
- 2020-12-01 CN CN202011386602.7A patent/CN112651223B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574112A (zh) * | 2015-12-14 | 2016-05-11 | 北京奇虎科技有限公司 | 一种通信过程的评论信息处理方法及系统 |
CN108121701A (zh) * | 2017-12-26 | 2018-06-05 | 深圳市海派通讯科技有限公司 | 一种防骚扰的自动识别方法及其智能终端 |
CN109785840A (zh) * | 2019-03-05 | 2019-05-21 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN111177310A (zh) * | 2019-12-06 | 2020-05-19 | 广西电网有限责任公司 | 电力服务机器人智能场景会话方法及装置 |
CN111107227A (zh) * | 2019-12-13 | 2020-05-05 | 刘俊露 | 一种电话语音、文本信息防诈骗/骚扰系统 |
CN111556207A (zh) * | 2020-03-26 | 2020-08-18 | 平安普惠企业管理有限公司 | 识别骚扰电话的方法、装置、计算机设备和存储介质 |
CN111901473A (zh) * | 2020-09-04 | 2020-11-06 | 中国平安人寿保险股份有限公司 | 一种来电处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112651223A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11966703B2 (en) | Generating replacement sentences for a particular sentiment | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN104809103B (zh) | 一种人机对话的语义分析方法及系统 | |
JP5831951B2 (ja) | 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN112163067A (zh) | 一种语句答复方法、语句答复装置及电子设备 | |
CN108536670A (zh) | 输出语句生成装置、方法和程序 | |
WO2022048194A1 (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN108804526A (zh) | 兴趣确定系统、兴趣确定方法及存储介质 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN118113831A (zh) | 问答数据的处理方法、装置、电子设备及存储介质 | |
CN114238370A (zh) | 一种ner实体识别算法在报表查询中的应用方法及系统 | |
CN117744664A (zh) | 面向大模型场景的内容评估方法、装置、设备及存储介质 | |
CN111401038B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
Saunders et al. | Towards using prosody to scaffold lexical meaning in robots | |
CN112651223B (zh) | 一种基于ner和nlu的骚扰信息判断方法及系统 | |
CN111639160A (zh) | 领域识别的方法、交互的方法、电子设备及存储介质 | |
CN115098665A (zh) | 一种对话数据扩展方法、装置及设备 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
CN115689603A (zh) | 用户反馈信息收集方法、装置及用户反馈系统 | |
CN110955768A (zh) | 一种基于句法分析的问答系统答案生成方法 | |
KR20200072005A (ko) | 음성 인식된 문장의 보정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Method and System for Judging Harassment Information Based on NER and NLU Effective date of registration: 20231108 Granted publication date: 20230324 Pledgee: Guotou Taikang Trust Co.,Ltd. Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd. Registration number: Y2023980064435 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |