CN112749530B - 文本编码方法、装置、设备及计算机可读存储介质 - Google Patents
文本编码方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112749530B CN112749530B CN202110033100.4A CN202110033100A CN112749530B CN 112749530 B CN112749530 B CN 112749530B CN 202110033100 A CN202110033100 A CN 202110033100A CN 112749530 B CN112749530 B CN 112749530B
- Authority
- CN
- China
- Prior art keywords
- text
- coding
- target text
- result
- coding result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013145 classification model Methods 0.000 claims abstract description 32
- 230000014509 gene expression Effects 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本编码方法,包括:将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果;利用至少两个文本分类模型对目标文本进行分类,若至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将目标文本的模型编码结果作为第二编码结果;根据第一编码结果与第二编码结果,生成目标文本的最终编码结果。本申请基于自然语言处理技术的相关算法对目标文本进行处理,可以使最终编码结果的查准率和查全率大大提升。
Description
技术领域
本申请涉及控制技术领域,特别涉及一种文本编码方法、装置、设备及计算机可读存储介质。
背景技术
汽车行业存在大量的客户反馈,涉及产品评价及体验评价等,由于汽车厂商和经销商都非常注重提高客户的整体体验,所以,让计算机理解海量客户反馈,并从客户反馈中提炼有价值的信息,帮助汽车厂商和经销商提升产品与服务的水平变得尤为重要。
目前,针对客户反馈文本的编码方式,主要是采用人工编码的方式,但人工编码成本高、处理海量数据效率低且基于个人理解的编码结果不稳定,信息提炼有偏差。
此外,现有文本编码的技术主要是规则编码,规则编码主要是依据关键词或者关键表达式结构提取文本信息,但规则编码的查准率较高、但查全率非常低;而且,一种意思常常有多种表达方式且文本存在感情色彩,单纯的利用规则编码很难精准把握文本涵义;同时,关键词和关键表达式编码也会导致文本大量漏编。并且,仅用规则编码对于文本信息的处理效率是不高的。
发明内容
本申请提供了一种文本编码方法、装置、设备及计算机可读存储介质,能够提升编码结果的准确性以及全面性。
第一方面,本申请提供了一种文本编码方法,包括:
将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式;
利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;
根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。
第二方面,本申请提供了一种文本编码装置,包括:
第一编码单元,用于将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设关键表达式;
第二编码单元,用于利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;
第三编码单元,用于根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。
第三方面,本申请提供了一种电子设备,包括:处理器、存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行上述文本编码方法。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述文本编码方法。
在以上本申请提供的技术方案中,将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果;利用至少两个文本分类模型对目标文本进行分类,若至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将目标文本的模型编码结果作为第二编码结果;根据第一编码结果与第二编码结果,生成目标文本的最终编码结果。可见,本申请基于自然语言处理技术的相关算法,将多种算法优化结合对目标文本进行分类,即利用多个文本分类模型进行文本分类,并基于分类结果选择是否使用模型编码结果,继而可以基于模型编码结果以及规则编码结果,生成目标文本的最终编码结果,可以使最终编码结果的查准率和查全率大大提升。
附图说明
图1为本申请示出的一种文本编码方法的流程示意图;
图2为本申请示出的多级码示意图;
图3为本申请示出的查准率和查全率的分析示意图;
图4为本申请示出的一种文本编码装置的组成示意图;
图5为本申请示出的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,为本申请实施例提供的一种文本编码方法的流程示意图,该方法包括以下步骤S101-S103:
S101:将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果,其中,匹配成功是指从目标文本中匹配到至少一个预设关键词和/或至少一个预设关键表达式。
在本申请实施例中,目标文本可以是原始的初始文本、也可以是对初始文本进行预处理后的文本。
需要说明的是,本申请实施例不对初始文本所属的文本领域进行限定,比如,该初始文本可以是汽车销售服务的客户反馈文本。此外,本申请实施例也不对初始文本的文本长度进行限定,比如,初始文本是一句话、或一段话。
由于可以对某初始文本进行预处理,从而得到目标文本,故而,在本申请实施例的一种实现方式中,S101中的“将目标文本进行规则匹配”之前,还可以包括:获取待编码的初始文本;去除该初始文本中的停用词和/或无意义的标点符号,得到目标文本。
在本实现方式中,可以对初始文本进行数据清洗,以去除该初始文本中的无意义的标点符号和/或停用词,其中,为了去除初始文本中的停用词,可以预先创建一个停用词表,通过遍历停用词表,将初始文本与停用词表进行匹配,将匹配到的各个停用词从初始文本中删除;此外,还可以通过文本匹配或语义识别等方式,从初始文本中去除其它干扰句意的词句,以减少无意义词带来的干扰。这样,通过上述一种或多种处理后,即可得到目标文本,这使得后续基于目标文本进行的文本编码结果更为准确。
进一步地,还可以按照一定规则删除无意义且不需要编码的惯用句,例如:
句子1:客户表示保养的速度很快。
句子2:此问题已由JOY自行解决。
句子3:客户表示如果有不懂的,会联系经销店。
其中,句子1不是惯用句,需要进行编码;句子2和句子3是惯用句,不需要进行编码。
那么,对于上述初始文本来讲,该初始文本可能包含一个或多个句子。当该初始文本包含一个句子、且该句子为惯用句时,后续将不对该初始文本进行编码,反之,当该初始文本包含一个句子、且该句子不是惯用句时,后续将会对该初始文本进行编码;但是,当该初始文本包含多个句子时,可以去除这些句子中的惯用句,后续将剩余的句子进行编码。
故而,在本申请实施例的一种实现方式中,在得到目标文本之前,还可以删除该初始文本中的惯用句,从而将删除惯用句后的初始文本,作为目标文本。
需要说明的是,当需要对大量的初始文本进行处理时,可以对这些初始文本进行批量处理,包括上述的“去除停用词、去除无意义的标点符号、去除干扰句意的词句、以及删除惯用句”等操作,以得到一条或多条目标文本。
在本申请实施例中,对于得到的每一目标文本,可以按照下述方式进行文本编码,具体介绍如下。
首先,可以采用分词技术对目标文本进行分词处理,从而得到该目标文本中的各个分词。具体实现时,可以按照规则对整个目标文本进行切片,为此,需要加载切片规则等配置文件和机器编码用到的AI模型,目的是对目标文本的语义区间有一个大致的划分。
然后,通过步骤S101对目标文本的各个分词进行规则匹配。
在本申请实施例的一种实现方式中,S101中的“将目标文本进行规则匹配”,具体可以包括:将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配,其中,码框用于将收集的大量文本语料转化为数据的标准架构。
在本实现方式中,可以在码框中,预设大量的关键词以及正则表达式,其中,对于每一关键词,该关键词可以是具有正调性或负调性的词。
关于码框,码框用于将收集的大量文本语料转化为数据的标准架构,分多级树状展开。举例,如果分为三级,一级码即为描述内容最大的方面,比如描述汽车销售服务的“咨询服务”、“接待服务”、“产品介绍”、“试乘试驾”、“价格洽谈”、“交车”、“硬件”等内容的一级码;二级码即为一级码各方面的展开,比如描述一级码“试乘试驾”下的“试驾邀请”、“试驾讲解”、“试驾流程”、“试驾车辆”、“时间路线”、“试驾讲解演示”等内容的二级码;三级码即为二级码各方面的展开,比如描述二级码“试驾讲解演示”下的“主动介绍产品”、“过程中有问必答”等内容的三级码,三级码是描述汽车销售服务的最小单元。
码框中的各级码可以用数字表述,比如1010101,1010102,……,102101,102102,……,等等。其中的位数具有一定的含义,如图2所示的多级码示意图,以1010101为例,左数第1位数表示正负调性,1表示正、3表示负,左数第2位数和第3位数代表一级码,左数第4位数和第5位数代表二级码,左数第6位数和第7位数代表三级码。
需要说明的是,上述码框可以是针对某个具体领域创建的,比如,该码框为根据汽车行业客户反馈领域积累的多年经验历经多次调整后形成的。
基于此,可以将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配。
其中,这些关键词可以分为正调性的关键词、以及负调性的关键词。例如,在销售回访文本领域,正调性的关键词可以包括:主动联系、主动沟通、经常打电话、有回访、主动打电话、有后续跟踪、定期回访、及时跟进、跟进及时、实时跟踪、经常会打电话、打电话跟进、询问客户用车的情况、询问车辆的使用情况、打电话关心客户、立刻打电话给客户、都会打电话、会回访等关键词;负调性的关键词可以包括:没有回访、没有后续跟踪、没有跟踪、应该跟进、不了了之、还没有回复、希望有人回复、希望能回复、没人联系客户等关键词。
其中,正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。例如,*(需要|想要).*(饮料|喝的|饮品).*。
当将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配时,如果该目标文本中包含一个或多个预设关键词(比如通过遍历关键词列表得到)、和/或匹配上一个或多个正则表达式,则说明匹配成功,此时,可以按照预设编码方式(基于关键词和/或正则表达式的编码方式)对目标文本进行编码,这里,将对目标文本进行编码得到的编码结果,定义为第一编码结果。
但是,如果没有匹配成功,即如果该目标文本中未包含一个或多个预设关键词、且未匹配上一个或多个正则表达式,则不对该目标文本进行编码。
S102:利用至少两个文本分类模型对目标文本进行分类,若该至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将目标文本的模型编码结果作为第二编码结果。
需要说明的是,让计算机理解人类语言是近些年人工智能的一个重要方向,而文本分类是自然语言处理(Natural Language Processing,简称NLP)技术的重要分支之一,以文本语料为客户反馈文本为例,NLP技术在本申请要解决的主要问题是:从用户反馈评论中发掘事先定义的用户对体验的各个方面(码框或者评价对象)的评价,此问题归根结底是一个句法分析并进行文本多分类的问题。在NLP中,常用的文本分类算法包括朴素贝叶斯、支持向量机(Support Vector Machine,简称SVM)、长短时记忆网络(Long Short-TermMemory,简称LSTM)、卷积神经网络(Convolutional Neural Networks,简称CNN)、来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,简称BERT)模型、梯度提升决策树(Gradient Boosting Decision Tree,简称GBDT)等,但是,因为客户反馈文本涵义的复杂程度,单一模型的分类结果的查准率和查全率不高,模型的评价效果一般。
其中,关于查准率和查全率,参见图3所示的查准率和查全率的分析示意图。在图3中,A表示检索到的、相关的(搜索到的也想要的),B表示检索到的、但不相关的(搜索到的但没用的),C表示未检索到的、但却相关的(没搜到、然而实际上想要的),D表示未检索到的、也不相关的(没搜到也没用的);查准率(Precision,精确率,简称P)=系统准确识别的条目数/识别的所有条目数,即,P(精确率)=A/(A+B);查全率(Recall,召回率,简称R)=系统准确识别的条目数/所有该类别的条目数,即,R(召回率)=A/(A+C)。
由于单一模型的分类结果的查准率和查全率不高,因此,本申请实施例通过多模型组合,将多个弱分类器组成一个强分类器,即,可以训练多个弱分类器,并使这些弱分类器组成一个强分类器。因此,在本申请实施例的一种实现方式中,S102中的“至少两个文本分类模型”,可以包括:基于支持向量机SVM的tgrocery模型、基于神经网络的长短时记忆网络LSTM模型和fasttext模型中的至少两个模型。
在本实现方式中,需要预先构建基于SVM的tgrocery模型、基于神经网络的LSTM模型以及fasttext模型,以利用各个模型进行优势互补。其中,基于SVM的tgrocery模型和fasttext模型,能够简单快速的进行文本分类、且在短文本上的分类效果不错;而基于神经网络的LSTM模型,其使用词向量深度神经网络,模型速度稍慢、且前期准备工作很多,但在长文本以及语义理解上可以与传统机器学习优势互补。
为了构建上述模型,可以预先创建一个数据集。例如,基于上述码框,由于已经积攒了大量的初始人工编码样本,可以从中抽取一定数量(比如10万左右)的人工编码样本作为数据集,以便利用该数据集进行建模。其中,可以将该数据集按照一定比例(比如4:1)进行划分,一部分作为模型的训练集、另一部分作为模型的测试集。
下面对基于SVM的tgrocery模型、基于神经网络的LSTM模型以及fasttext模型进行分别介绍。
1、基于SVM的tgrocery模型
实验表明,当利用训练集训练得到基于SVM的tgrocery模型后,利用测试集对该模型进行测试,测试准确率可以达到84.6%。
对于基于SVM的tgrocery模型而言,文本被看做高维空间的一个点,不同类别的文本通过平面被划分开来,预测一个文本属于码框中的某个编码只需确定文本的点落在哪一个空间中,tgrocery就是基于这种思想。
2、基于神经网络的LSTM模型
实验表明,当利用训练集训练得到基于神经网络的LSTM模型后,利用测试集对该模型进行测试,测试准确率可以达到89.02%。
循环神经网络是一个结构相对复杂的非线性系统,文本被看做时间序列,以文本中的词(比如词的word2vec向量)为单位,按时间先后顺序输入网络中,当文本最后一个词输入后,对应的整个系统的输出便是文本所属的类别代码,这种模型的网络参数多、训练收敛时间长,但此模型考虑了文本的前后文语义信息,所以能够处理规则编码很难处理的正话反说的问题,故而,该模型在情感分析方面有独特的优势,其所用的LSTM便是基于这种网络。
3、fasttext模型
实验表明,当利用训练集训练得到fasttext模型后,利用测试集对该模型进行测试,测试准确率可以达到81.2%。
fasttext是短文本分类工具,主要基于文本分类问题是有一些“线性”问题的部分,也就是说,不必做过多的非线性转换、特征组合即可捕获很多分类信息,因此,有些任务即便简单的模型便可以解决了,所以使用了单层网络训练速度很快。
在S102中,将目标文本分别输入到N(N≥2)个文本分类模型(即弱分类器)中,这N(N≥2)个弱分类器组成了一个强分类器。可以利用每一文本分类模型对该目标文本进行文本分类,如果这N个文本分类模型的分类结果一致,则确定每一文本分类模型的分类结果的置信度,当这N个分类结果的置信度均大于预设阈值(比如该预设阈值为0.95,平衡查准率和查全率)时,可以获取这三个文本分类模型对目标文本的编码结果,这里,将该编码结果定义为第二编码结果。
需要说明的是,由于上述N个文本分类模型的模型编码方式一致,因此,可以将这N个模型的任一模型的编码结果,作为第二编码结果即可。
但是,当N个文本分类模型的分类结果不一致,或者分类一致但N个分类结果的置信度不均大于预设阈值,则不获取目标文本的模型编码结果,即不对目标文本进行编码。
S103:根据第一编码结果与第二编码结果,生成目标文本的最终编码结果。
当通过S101得到目标文本的第一编码结果、且通过S102得到目标文本的第二编码结果后,则基于目标文本的第一编码结果与第二编码结果,生成目标文本的最终编码结果。
在本申请实施例的一种实现方式中,S103中的“根据第一编码结果与第二编码结果,生成目标文本的最终编码结果”,具体可以包括:
若存在相同编码结果和不同编码结果,则将该相同编码结果和不同编码结果,作为目标文本中的最终编码结果;其中,相同编码结果为目标文本中的各个第一文本单元在第一编码结果或第二编码结果中的编码结果,第一文本单位是指在第一编码结果和第二编码结果中具有相同编码结果的文本单元;不同编码结果为目标文本中的各个第二文本单元在第二编码结果中的编码结果,第二文本单位是指在第一编码结果和第二编码结果中具有不同编码结果的文本单元。
具体来讲,在本实现方式中,关于目标文本的第一编码结果和第二编码结果,由于这两个编码结果可以是以词为单位进行编码的,因此,对于目标文本中的每一分词,可以从第一编码结果和第二编码结果中找出该分词的编码结果,当该分词在第一编码结果和第二编码结果中的编码结果相同,则将该分词定义为第一文本单元,反之,当该分词在第一编码结果和第二编码结果中的编码结果不同,则将该分词定义为第二文本单位。那么,对于目标文本中的各个第一文本单元,获取该各个第一文本单元在第一编码结果或第二编码结果中的相同编码结果,对于目标文本中的各个第二文本单元,获取该各个第二文本单元在第二编码结果中的编码结果,将这些获取到的编码结果进行组合,即可得到目标文本的最终编码结果。
进一步地,本申请实施例还可以包括:若不存在相同编码结果,则将第二编码结果,作为目标文本中的最终编码结果。具体来讲,当目标文本中不存在第一文本单元,即第一编码结果和第二编码结果中不存在同一分词的相同编码结果,则直接将第二编码结果,作为目标文本的最终编码结果。
进一步地,本申请实施例还可以包括:当通过S101将目标文本进行规则匹配之后,若匹配失败,则将第二编码结果,作为目标文本的最终编码结果。具体来讲,将目标文本进行规则匹配,如果没有匹配成功,即如果该目标文本中未包含一个或多个预设关键词、且未匹配上一个或多个正则表达式,则不对该目标文本进行编码,而是直接将第二编码结果,作为目标文本的最终编码结果。
进一步地,在本申请实施例中,还可以预先创建一个人工校正平台,授权用户(比如编码员)可以抽取目标文本的上述最终编码结果、或S102中的模型编码结果进行验证,如果验证其编码结果不够准确,可利用该人工校正平台,对其编码结果进行校正。同时,编码平台会记录更新的人工编码结果,并将新的人工编码结果加入数据集,用于对S102中的模型进行迭代训练,采用这种方式可以不断的对模型进行优化,让模型实现自学习,基于此,可以根据人工校正结果统计机器编码的准确率,通过对模型参数进行不断调整,逐步提高模型输出的分类结果的准确率。
在以上本申请实施例提供的文本编码方法中,将目标文本进行规则匹配,若匹配成功,则生成目标文本的第一编码结果;利用至少两个文本分类模型对目标文本进行分类,若至少两个文本分类模型对目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将目标文本的模型编码结果作为第二编码结果;根据第一编码结果与第二编码结果,生成目标文本的最终编码结果。可见,本申请基于自然语言处理技术的相关算法,将多种算法优化结合对目标文本进行分类,即利用多个文本分类模型进行文本分类,并基于分类结果选择是否使用模型编码结果,继而可以基于模型编码结果以及规则编码结果,生成目标文本的最终编码结果,可以使最终编码结果的查准率和查全率大大提升。
参见图4,为本申请实施例提供的一种文本编码装置的组成示意图,该装置包括:
第一编码单元410,用于将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设关键表达式;
第二编码单元420,用于利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果;
第三编码单元430,用于根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果。
在本申请实施例的一种实现方式中,所述装置还包括:
预处理单元,用于将目标文本进行规则匹配之前,获取待编码的初始文本;去除所述初始文本中的停用词和/或无意义的标点符号,得到目标文本。
在本申请实施例的一种实现方式中,预处理单元,还用于:
在得到目标文本之前,删除所述初始文本中的惯用句。
在本申请实施例的一种实现方式中,第一编码单元410,具体用于:
将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配,其中,所述码框用于将收集的大量文本语料转化为数据的标准架构。
在本申请实施例的一种实现方式中,所述至少两个文本分类模型,包括:
基于支持向量机SVM的tgrocery模型、基于神经网络的长短时记忆网络LSTM模型和fasttext模型中的至少两个模型。
在本申请实施例的一种实现方式中,第三编码单元430,具体用于:
若存在相同编码结果和不同编码结果,则将所述相同编码结果和所述不同编码结果,作为所述目标文本中的最终编码结果;
其中,所述相同编码结果为所述目标文本中的各个第一文本单元在所述第一编码结果或所述第二编码结果中的编码结果,所述第一文本单位是指在所述第一编码结果和所述第二编码结果中具有相同编码结果的文本单元;所述不同编码结果为所述目标文本中的各个第二文本单元在所述第二编码结果中的编码结果,所述第二文本单位是指在所述第一编码结果和所述第二编码结果中具有不同编码结果的文本单元。
在本申请实施例的一种实现方式中,所述装置还包括:
第四编码单元,用于若不存在所述相同编码结果,则将所述第二编码结果,作为所述目标文本中的最终编码结果。
在本申请实施例的一种实现方式中,所述装置还包括:
第五编码单元,用于将目标文本进行规则匹配之后,若匹配失败,则将所述第二编码结果,作为所述目标文本的最终编码结果。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种电子设备,该电子设备的结构示意图如图5所示,该电子设备5000包括至少一个处理器5001、存储器5002和总线5003,至少一个处理器5001均与存储器5002电连接;存储器5002被配置用于存储有至少一个计算机可执行指令,处理器5001被配置用于执行该至少一个计算机可执行指令,从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种文本编码方法的步骤。
进一步,处理器5001可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其它具有逻辑处理能力的器件,如MCU(Microcontroller Unit,微控制单元)、CPU(Central Process Unit,中央处理器)。
应用本申请实施例,基于自然语言处理技术的相关算法,将多种算法优化结合对目标文本进行分类,即利用多个文本分类模型进行文本分类,并基于分类结果选择是否使用模型编码结果,继而可以基于模型编码结果以及规则编码结果,生成目标文本的最终编码结果,可以使最终编码结果的查准率和查全率大大提升。
本申请实施例还提供了另一种计算机可读存储介质,存储有计算机程序,该计算机程序用于被处理器执行时实现本申请中任意一个实施例或任意一种可选实施方式提供的任意一种文本编码方法的步骤。
本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(RandomAccess Memory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
应用本申请实施例,基于自然语言处理技术的相关算法,将多种算法优化结合对目标文本进行分类,即利用多个文本分类模型进行文本分类,并基于分类结果选择是否使用模型编码结果,继而可以基于模型编码结果以及规则编码结果,生成目标文本的最终编码结果,可以使最终编码结果的查准率和查全率大大提升。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (6)
1.一种文本编码方法,其特征在于,包括:
将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设正则表达式;
利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果,所述至少两个文本分类模型,包括基于支持向量机 SVM的tgrocery模型、基于神经网络的长短时记忆网络LSTM模型和fasttext模型中的至少两个模型;
根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果;
其中,所述将目标文本进行规则匹配,包括:将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配,所述码框用于将收集的大量文本语料转化为数据的标准架构;
其中,所述根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果,包括:若存在相同编码结果和不同编码结果,则将所述相同编码结果和所述不同编码结果,作为所述目标文本中的最终编码结果,所述相同编码结果为所述目标文本中的各个第一文本单元在所述第一编码结果或所述第二编码结果中的编码结果,所述第一文本单位是指在所述第一编码结果和所述第二编码结果中具有相同编码结果的文本单元;所述不同编码结果为所述目标文本中的各个第二文本单元在所述第二编码结果中的编码结果,所述第二文本单位是指在所述第一编码结果和所述第二编码结果中具有不同编码结果的文本单元;
其中,所述方法还包括:若不存在所述相同编码结果,则将所述第二编码结果,作为所述目标文本中的最终编码结果;
其中,所述将目标文本进行规则匹配之后,还包括:若匹配失败,则将所述第二编码结果,作为所述目标文本的最终编码结果。
2.根据权利要求1所述的方法,其特征在于,所述将目标文本进行规则匹配之前,还包括:
获取待编码的初始文本;
去除所述初始文本中的停用词和/或无意义的标点符号,得到目标文本。
3.根据权利要求2所述的方法,其特征在于,所述得到目标文本之前,还包括:
删除所述初始文本中的惯用句。
4.一种文本编码装置,其特征在于,包括:
第一编码单元,用于将目标文本进行规则匹配,若匹配成功,则生成所述目标文本的第一编码结果,所述匹配成功是指从所述目标文本中匹配到至少一个预设关键词和/或至少一个预设关键表达式;
第二编码单元,用于利用至少两个文本分类模型对所述目标文本进行分类,若所述至少两个文本分类模型对所述目标文本进行分类的分类结果相同、且各分类结果的置信度大于预设阈值,则将所述目标文本的模型编码结果作为第二编码结果,所述至少两个文本分类模型,包括基于支持向量机 SVM的tgrocery模型、基于神经网络的长短时记忆网络LSTM模型和fasttext模型中的至少两个模型;
第三编码单元,用于根据所述第一编码结果与所述第二编码结果,生成所述目标文本的最终编码结果;
其中,第一编码单元,具体用于:将目标文本与码框中的各个预设关键词以及各个预设正则表达式进行规则匹配,所述码框用于将收集的大量文本语料转化为数据的标准架构;
其中,第三编码单元,具体用于:若存在相同编码结果和不同编码结果,则将所述相同编码结果和所述不同编码结果,作为所述目标文本中的最终编码结果,所述相同编码结果为所述目标文本中的各个第一文本单元在所述第一编码结果或所述第二编码结果中的编码结果,所述第一文本单位是指在所述第一编码结果和所述第二编码结果中具有相同编码结果的文本单元;所述不同编码结果为所述目标文本中的各个第二文本单元在所述第二编码结果中的编码结果,所述第二文本单位是指在所述第一编码结果和所述第二编码结果中具有不同编码结果的文本单元;
其中,所述装置还包括:第四编码单元,用于若不存在所述相同编码结果,则将所述第二编码结果,作为所述目标文本中的最终编码结果;
其中,所述装置还包括:第五编码单元,用于将目标文本进行规则匹配之后,若匹配失败,则将所述第二编码结果,作为所述目标文本的最终编码结果。
5.一种电子设备,其特征在于,包括:处理器、存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于通过调用所述计算机程序,执行如权利要求1-3中任一项所述的文本编码方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3任一项所述的文本编码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110033100.4A CN112749530B (zh) | 2021-01-11 | 2021-01-11 | 文本编码方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110033100.4A CN112749530B (zh) | 2021-01-11 | 2021-01-11 | 文本编码方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749530A CN112749530A (zh) | 2021-05-04 |
CN112749530B true CN112749530B (zh) | 2023-12-19 |
Family
ID=75650640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110033100.4A Active CN112749530B (zh) | 2021-01-11 | 2021-01-11 | 文本编码方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749530B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757798A (zh) * | 2022-11-29 | 2023-03-07 | 广发银行股份有限公司 | 客户反馈实时分类方法、系统、计算机设备和存储介质 |
CN118364116B (zh) * | 2024-06-20 | 2024-10-01 | 浙江大华技术股份有限公司 | 物料分类的方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590156A (zh) * | 2016-07-09 | 2018-01-16 | 北京至信普林科技有限公司 | 一种基于训练集循环扩充的文本多分类的方法 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108897732A (zh) * | 2018-06-08 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 语句类型识别方法和装置、存储介质及电子装置 |
CN109117470A (zh) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | 一种评价文本信息的评价关系提取方法及装置 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110532381A (zh) * | 2019-07-15 | 2019-12-03 | 中国平安人寿保险股份有限公司 | 一种文本向量获取方法、装置、计算机设备及存储介质 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN111444342A (zh) * | 2020-03-24 | 2020-07-24 | 湖南董因信息技术有限公司 | 一种基于多重弱监督集成的短文本分类方法 |
CN112052305A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 信息提取方法、装置、计算机设备及可读存储介质 |
-
2021
- 2021-01-11 CN CN202110033100.4A patent/CN112749530B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590156A (zh) * | 2016-07-09 | 2018-01-16 | 北京至信普林科技有限公司 | 一种基于训练集循环扩充的文本多分类的方法 |
CN109117470A (zh) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | 一种评价文本信息的评价关系提取方法及装置 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108897732A (zh) * | 2018-06-08 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 语句类型识别方法和装置、存储介质及电子装置 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110532381A (zh) * | 2019-07-15 | 2019-12-03 | 中国平安人寿保险股份有限公司 | 一种文本向量获取方法、装置、计算机设备及存储介质 |
CN111444342A (zh) * | 2020-03-24 | 2020-07-24 | 湖南董因信息技术有限公司 | 一种基于多重弱监督集成的短文本分类方法 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN112052305A (zh) * | 2020-09-02 | 2020-12-08 | 平安资产管理有限责任公司 | 信息提取方法、装置、计算机设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
基于深度学习的文本分类研究;王莹;中国优秀硕士学位论文全文数据库信息科技辑;I138-1409 * |
基于电商商品评论文本的情感分析研究;雷运涛;中国优秀硕士学位论文全文数据库信息科技辑;I138-2566 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749530A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175227B (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN106815252B (zh) | 一种搜索方法和设备 | |
CN111159407B (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
CN110188272A (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN111259130B (zh) | 用于在对话中提供答复语句的方法及装置 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112749530B (zh) | 文本编码方法、装置、设备及计算机可读存储介质 | |
CN112149410A (zh) | 语义识别方法、装置、计算机设备和存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
CN111368096A (zh) | 基于知识图谱的信息分析方法、装置、设备和存储介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
Irissappane et al. | Leveraging GPT-2 for classifying spam reviews with limited labeled data via adversarial training | |
CN113886531A (zh) | 智能问答话术确定方法、装置、计算机设备和存储介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113571198B (zh) | 转化率预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |