CN112966509A - 文本质量评估方法、装置、存储介质及计算机设备 - Google Patents
文本质量评估方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN112966509A CN112966509A CN202110412219.2A CN202110412219A CN112966509A CN 112966509 A CN112966509 A CN 112966509A CN 202110412219 A CN202110412219 A CN 202110412219A CN 112966509 A CN112966509 A CN 112966509A
- Authority
- CN
- China
- Prior art keywords
- text
- evaluated
- quality
- evaluation
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开一种文本质量评估方法、装置、存储介质及计算机设备,其中,该方法包括:获取待评估文本;对待评估文本进行分词处理,以得到待评估文本的分词结果;基于分词结果,获取待评估文本的文本特征、文本信息熵以及待评估文本在预设的语音模型中的文本出现概率;根据文本特征、文本信息熵和文本出现概率对待评估文本进行文本质量评估,以得到待评估文本的评估结果,其中评估结果包含用于表示文本可读性的预设质量等级中每一等级对应的评估分。本申请实施例将文本特征、文本信息熵与文本在语言模型中的文本出现概率作为关键特征,并结合预设质量等级,进行文本质量评分,提升文本质量评估的准确性,且可准确区分文本的可读性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本质量评估方法、装置、存储介质及计算机设备。
背景技术
在电话客服场景中,存在海量的录音文件,通过目前成熟的自动语音识别(Automatic Speech Recognition,ASR)技术可将音频转化为电话客服对话文本数据。如何对文本数据进文本质量评分,特别是如何准确区分文本的可读性,已经成为业界的重要研究课题之一。
发明内容
本申请实施例提供一种文本质量评估方法、装置、存储介质及计算机设备,可以将文本特征、文本信息熵与文本在语言模型中的文本出现概率作为关键特征,并结合预设质量等级,对待评估文本进文本质量评分,提升了文本质量评估的准确性,且可以准确区分文本的可读性。
第一方面,提供一种文本质量评估方法,所述方法包括:获取待评估文本;对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果;对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征;根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵;根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率;根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估分数,所述预设质量等级用于表示文本可读性。
第二方面,提供一种文本质量评估装置,所述装置包括:获取单元,用于获取待评估文本;分词单元,用于对所述待评估文本进行分词,以得到所述待评估文本的分词结果;特征提取单元,用于对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征;第一计算单元,用于根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵;第二计算单元,用于根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率;评估单元,用于根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估分数,所述预设质量等级用于表示文本可读性。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如第一方面所述的文本质量评估方法中的步骤。
第四方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如第一方面所述的文本质量评估方法中的步骤。
本申请实施例提供一种文本质量评估方法、装置、存储介质及计算机设备,通过获取待评估文本;然后对待评估文本进行分词处理,以得到所待评估文本的分词结果;然后对待评估文本的分词结果进行特征提取,以得到待评估文本的文本特征;然后根据待评估文本的分词结果,计算待评估文本的文本信息熵;根据待评估文本的分词结果,计算待评估文本在预设的语音模型中的文本出现概率;然后根据待评估文本的文本特征、文本信息熵和文本出现概率对待评估文本进行文本质量评估,以得到待评估文本的评估结果,其中评估结果包含预设质量等级中每一等级对应的评估分数,预设质量等级用于表示文本可读性。本申请实施例将文本特征、文本信息熵与文本在语言模型中的文本出现概率作为关键特征,并结合预设质量等级,对待评估文本进文本质量评分,然后基于文本的多种信息以及预设质量等级进行文本质量评估,大大提升了文本质量评估的准确性,以及可以准确区分文本的可读性;本申请实施例涉及的方案无需依赖于评论信息,更多的是基于文本本身的特征信息,可以应用于更多的通话场景中的语义文本质量评估。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本质量评估方法的流程示意图。
图2为本申请实施例提供的文本质量评估装置的结构示意图。
图3为本申请实施例提供的文本质量评估装置的另一结构示意图。
图4为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本质量评估方法、装置、计算机设备和存储介质。具体地,本申请实施例的文本质量评估方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(Personal Computer,PC)、个人数字助理(Personal Digital Assistant,PDA)等终端设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
在电话客服场景中,存在海量的录音文件,通过目前成熟的自动语音识别(Automatic Speech Recognition,ASR)技术可将音频转化为电话客服对话文本数据。如何对文本数据进文本质量评分,特别是如何准确区分文本的可读性,已经成为业界的重要研究课题之一。
常用的文本质量评估方法,比如根据中文文本的句法结构是否完整来进行文本质量打分,比如根据文本和评论两方面的文本特征信息进行文本质量打分。
对于根据中文文本的句法结构是否完整来进行文本质量打分的方式,只根据文本的句法结构单方面的信息,没有考虑文本承载的信息量、语言的流畅度等方面的因素,导致文本质量评的准确性较低。
对于根据文本和评论两方面的文本特征信息进行文本质量打分的方式,需要依赖评论信息,而电话客服场景中的文本缺少评论信息,该方式在电话客服场景中的文本质量评估并不理想。
因此,本申请实施例提出了一种文本质量评估方法、装置、存储介质及计算机设备,可以将文本特征、文本信息熵与文本在语言模型中的文本出现概率作为关键特征,并结合预设质量等级,对待评估文本进文本质量评分,然后基于文本的多种信息以及预设质量等级进行文本质量评估,大大提升了文本质量评估的准确性,以及可以准确区分文本的可读性;本申请实施例涉及的方案无需依赖于评论信息,更多的是基于文本本身的特征信息,可以应用于更多的通话场景中的语义文本质量评估。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例采用机器学习的方式来训练文本质量评估模型,使得训练后的文本质量评估模型来对待评估文本进行文本质量评估。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
本申请各实施例提供了一种文本质量评估方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以文本质量评估方法由服务器执行为例来进行说明。
请参阅图1,图1为本申请实施例提供的文本质量评估方法的流程示意图。需要说明的是,本申请实施例的文本质量评估方法可应用于本申请实施例的文本质量评估装置,该文本质量评估别装置可被配置于计算机设备上。具体流程可以如下:
步骤101,获取待评估文本。
其中,在电话销售、客服、催收等众多电话通话场景中,存在海量的录音文件,通过目前成熟的自动语音识别ASR技术可将音频转化为对话文本数据。该待评估文本可以为将录音文件识别为对话文本后的数据。
步骤102,对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果。
例如,可以根据特有专名词典和分词工具,对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果。通过特有专名词典和分词工具的组合应用,可将待评估文本的语句较好的切分开来。
例如,该特有专名词典收录有特定场景或特定领域内的人名、地名、机构名称、商品名称、建筑名称、山川河流名称等专有名词,并提供相关信息的专科词典。该特有专名词典是根据特定应用场景或特定领域中常用的专有名词预先设定的。
例如,分词工具可以采用中文处理开源库或者中文处理开源工具包,比如结巴(jieba)分词工具、语言技术平台LTP、汉语分词系统NLPIR、中文词法分析工具包THULAC等。常见的分词工具大多数是条件随机场(Conditional Random Fields,CRF)算法,深度学习中会加入双向长短期记忆网络(Long Short-Term Memory,LSTM)等算法,可以理解为是隐马尔可夫的变种算法。
例如,待评估文本为“请问有钱花是什么产品”,对于词汇“有钱花”,jieba分词工具的原本词典里是没有的,当仅用jieba分词工具来分词时,词汇“有钱花”很大概率分不出来。比如该特有专名词典收录了金融领域中的理财产品的专有名词“有钱花”,当结合使用特有专名词典与分词工具来分词时,因为特有专名词典收录了专有名词“有钱花”,则可以将词汇“有钱花”清楚分出来。例如,待评估文本为“请问有钱花是什么产品”的分词结果是“请问/有钱花/是/什么/产品”。
步骤103,对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征。
其中,所述文本特征包括以下任意多种:文本长度、词重复度、标点个数、生僻个数、字重复度、整句中词最大长度、词出现频率。
例如,通过对待评估文本的分词结果进行相应特征挖掘和提取,比如提取出文本长度、词重复度、标点个数、生僻个数、字重复度、整句中词最大长度、词在某文本集中的出现频率等文本特征。
步骤104,根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵。
其中,文本信息熵表示本文信息的紊乱程度。一个文本越是有序,文本信息熵就越低;反之,一个文本越是混乱,文本信息熵就越高。因此可以认为文本信息熵是文本有序化程度的一个度量。可以通过以下公式一来计算文本信息熵:
H(X)=-∑(Pi*log Pi);
其中,假如一个字符串i需要计算它的信息熵H(X),则Pi表示字符i的出现概率Pi=该字符出现次数/所有字符数,然后将所有的Pi乘上取对数后的值logPi后累加,最后取负,得到该字符串的信息熵。
其中,在根据待评估文本的分词结果,计算待评估文本的文本信息熵时,可以利用上述公式一来计算该待评估文本的文本信息熵,其中,在上述公式一中,Pi分词结果中单个词i的出现频率,Pi=单个词词频/样本集总词个数,所有词的pi*logpi总和再取负,即为该待评估文本的文本信息熵。
步骤105,根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率。
其中,该预设的语音模型为通过已有的大量语料进行训练建立的语言模型。在计算计算待评估文本在预设的语音模型中的文本出现概率时,将待评估文本的分词结果输入到该语音模型中获得该待评估文本的出现概率。
例如,该预设的语音模型可以为采用HMM算法、深度学习算法transformer,seq2seq模型等模型来实现。
例如,以HMM语音模型为例,HMM算法可以理解为每一步由当前状态预测下一个词的出现概率,然后将所有词的出现概率累积就能得到整个文本的出现概率,建立HMM语言模型是为了输出文本的出现概率。
例如,“我想”的出现概率比“我讷”的出现概率大,用公式表达即为:p(我想)>p(我讷)。
例如,“我想吃”的出现概率比“我可吃”的出现概率大,用公式表达即为:p(我想)*p(想吃)>p(我可)*(可吃)。
其中,在建立语音模型时,需要将从内部客服场景中获取到的大量正确的文本输入初始语音模型中进行训练,以得到训练到的预设的语音模型。
步骤106,根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估分数,所述预设质量等级用于表示文本可读性。
在一些实施例中,所述预设质量等级包括以下四个质量等级:
第一质量等级用于表示能读并完全正确的文本质量;
第二质量等级用于表示能读懂但有瑕疵的文本质量;
第三质量等级用于表示能读懂部分含义的文本质量;
第四质量等级用于表示完全读不懂的文本质量。
在一些实施例中,所述根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,包括:
将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果。
其中,该文本质量评估模型可以使用MLP分类器作为参考模型进行训练得到,也可以使用机器学习中集成学习如lightgbm,xgboost等算法,或者深度学习相关模型算法作为参数模型进行训练得到。
在一些实施例中,在所述将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果之前,还包括:
获取训练集,所述训练集包括多个标注文本;
对所述训练集中的标注文本进行分词处理,以得到每一所述标注文本的分词结果;
对所述训练集中每一所述标注文本的分词结果进行特征提取,以得到每一所述标注文本的文本特征;
根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本的文本信息熵;
根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本在预设的语音模型中的文本出现概率;
将所述训练集中的所述标注文本的文本特征、文本信息熵和文本出现概率作为输入参数,以及将所述预设质量等级中每一等级对应的评估分数作为输出参数,对所述文本质量评估模型中进行学习训练,以更新所述文本质量评估模型的模型参数,生成训练后的文本质量评估模型。
在一些实施例中,所述获取训练集,包括:
获取包含有多个初始语音识别文本的训练集;
根据文本长度和词个数对所述初始语音识别文本进行初筛处理;
根据所述预设质量等级对所述初筛后的多个初始语音识别文本进行标注,以得到所述多个标注文本。
例如,在获取训练集时,将ASR识别后的初始语音识别文本通过简单规则初筛,比如按照文本长度、词个数等进行初筛,然后将初筛后的初始语音识别文本提供给标注人员进行质量等级的标注,进而得到标注文本,其中标注的质量等级划分为:能读并完全正确、能读懂但有瑕疵、能读懂部分含义、完全读不懂。
例如,在进行分词时,可以根据特有专名词典和分词工具,对训练集中的标注文本进行分词处理,以得到标注文本的分词结果。通过特有专名词典和分词工具的组合应用,可将标注文本的语句较好的切分开来。
例如,通过对标注文本的分词结果进行相应特征挖掘和提取,比如提取出标注文本的文本长度、词重复度、标点个数、生僻个数、字重复度、整句中词最大长度、词在训练集中的出现频率等文本特征。
例如,在根据待标注文本的分词结果,计算标注文本的文本信息熵时,可以利用上述公式一来计算该标注文本的文本信息熵,其中,在上述公式一中,Pi分词结果中单个词i的出现频率,Pi=单个词词频/样本集总词个数,所有词的pi*logpi总和再取负,即为该标注文本的文本信息熵。
例如,在训练模型阶段,可以采用上述公式一计算文本信息熵,也可以不取负,若计算出所有词的pi*logpi总和后没有取负,则模型训练出来的权重,负的计算结果和正的计算结果只是影响模型给好和坏的权重赋值时内容表达的含义相反而已,最终模型都能学到这个文本信息熵特征的潜在含义。
例如,该预设的语音模型为通过已有的大量语料进行训练建立的语言模型。在计算计算标注文本在预设的语音模型中的文本出现概率时,将标注文本的分词结果输入到该语音模型中获得该标注文本的出现概率。
例如,将文本特征、文本信息熵以及语言模型输出的文本出现概率作为输入,标注文本部分的四个质量等级分类作为输出,构建评估模型(比如MLP模型),并利用训练集训练,并在测试集上验证效果,保证分类的准确性。其中,训练集和测试集中的样本可以为相同的样本,也可以为部分相同的样本。
其中,模型在训练过程中会对不同特征自动配置相应的权重。以文本特征为例,可以针对不同文本特征设置不同的权重,模型最终训练完成后,会在测试集上测试结果,以准确率、召回率、f1-score等作为评判标准,进一步更新和调整模型参数及相关特征的权重。
例如,通过学习训练,可以得到了一个基于MLP训练的文本质量综合评分的评估模型,能对输入的文本进行质量打分。该评估模型可用于机器人话术提炼中对相同含义语句排序,以及ASR识别错误的发现。
在一些实施例中,在所述得到所述待评估文本的评估结果之后,还包括:
根据所述评估结果,对所述待评估文本进行分类;
基于分类结果对已评估的文本集中语义相似的已评估文本进行排序。
例如,第一质量等级用于表示能读并完全正确的文本质量,在评估模型中用0表示能读并完全正确;第二质量等级用于表示能读懂但有瑕疵的文本质量,在评估模型中用1表示能读懂但有瑕;第三质量等级用于表示能读懂部分含义的文本质量,在评估模型中用2表示能读懂部分含义;第四质量等级用于表示完全读不懂的文本质量,在评估模型中用3表示完全读不懂。
比如,待识别文本为“我想早点吃饭”,经过分词后得到的分词结果为“我/想/早点/吃饭”,然后进行文本特征、文本信息熵和文本出现概率等特征的提取,然后将文本特征、文本信息熵和文本出现概率输入评估模型中进行文本质量评估,最终得出的含有上述四种质量等级【0,1,2,3】对应的评估结果为最终概率值为(0.97,0.02,0.01,0),其中第一质量等级对应的概率最高,所以这一句文本分在“能读并完全正确”这个分类里面,这样就得到了这个文本的质量评分,即将该文本“我想早点吃饭”分类为“0:能读并完全正确”。
比如,待识别文本为“我讷早点吃饭”,经过分词后得到的分词结果为“我/讷/早点/吃饭”,然后进行文本特征、文本信息熵和文本出现概率等特征的提取,然后将文本特征、文本信息熵和文本出现概率输入评估模型中进行文本质量评估,最终得出的含有上述四种质量等级【0,1,2,3】对应的评估结果为最终概率值为(0.02,0.97,0.01,0),其中第二质量等级对应的概率最高,所以这一句文本分在“能读懂但有瑕疵”这个分类里面,这样就得到了这个文本的质量评分,即将该文本“我讷早点吃饭”分类为“1:能读懂但有瑕疵”。
例如,在根据评估结果对待评估文本进行分类后,该评估模型在应用于机器人话术提炼中,可以基于分类结果对已评估的文本集中语义相似语义相同的文本进行排序。
例如,还可以根据分类结果对文本集进行筛选,比如当评估后分类为“2:能读懂部分含义”,或者“3:完全读不懂”时,可能存在方言语音,有可能ASR识别错误,可以基于分类结果来应用于ASR识别错误发现的情形中。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
本申请实施例通过获取待评估文本;然后对待评估文本进行分词处理,以得到所待评估文本的分词结果;然后对待评估文本的分词结果进行特征提取,以得到待评估文本的文本特征;然后根据待评估文本的分词结果,计算待评估文本的文本信息熵;根据待评估文本的分词结果,计算待评估文本在预设的语音模型中的文本出现概率;然后根据待评估文本的文本特征、文本信息熵和文本出现概率对待评估文本进行文本质量评估,以得到待评估文本的评估结果,其中评估结果包含预设质量等级中每一等级对应的评估分数,预设质量等级用于表示文本可读性。本申请实施例将文本特征、文本信息熵与文本在语言模型中的文本出现概率作为关键特征,并结合预设质量等级,对待评估文本进文本质量评分,然后基于文本的多种信息以及预设质量等级进行文本质量评估,大大提升了文本质量评估的准确性,以及可以准确区分文本的可读性;本申请实施例涉及的方案无需依赖于评论信息,更多的是基于文本本身的特征信息,可以应用于更多的通话场景中的语义文本质量评估。
为便于更好的实施本申请实施例的文本质量评估方法,本申请实施例还提供一种文本质量评估装置。请参阅图2和图3,图2和图3均为本申请实施例提供的文本质量评估装置的结构示意图。其中,该文本质量评估装置200可以包括:
获取单元201,用于获取待评估文本;
分词单元202,用于对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果;
特征提取单元203,用于对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征;
第一计算单元204,用于根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵;
第二计算单元205,用于根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率;
评估单元206,用于根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估,所述预设质量等级用于表示文本可读性。
在一些实施例中,所述文本特征包括以下任意多种:文本长度、词重复度、标点个数、生僻个数、字重复度、整句中词最大长度、词出现频率。
在一些实施例中,所述评估单元206,用于将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果。
在一些实施例中,所述预设质量等级包括以下四个质量等级:
第一质量等级用于表示能读并完全正确的文本质量;
第二质量等级用于表示能读懂但有瑕疵的文本质量;
第三质量等级用于表示能读懂部分含义的文本质量;
第四质量等级用于表示完全读不懂的文本质量。
在一些实施例中,如图3所示,该文本质量评估装置200还包括:训练单元207;
其中,所述获取单元201,还用于获取训练集,所述训练集包括多个标注文本;
所分词单元202,还用于对所述训练集中的标注文本进行分词处理,以得到每一所述标注文本的分词结果;
所述特征提取单元203,还用于对所述训练集中每一所述标注文本的分词结果进行特征提取,以得到每一所述标注文本的文本特征;
所述第一计算单元204,还用于根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本的文本信息熵;
所述第二计算单元205,还用于根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本在预设的语音模型中的文本出现概率;
所述训练单元207,用于将所述训练集中的所述标注文本的文本特征、文本信息熵和文本出现概率作为输入参数,以及将所述预设质量等级中每一等级对应的评估分数作为输出参数,对所述文本质量评估模型中进行学习训练,以更新所述文本质量评估模型的模型参数,生成训练后的文本质量评估模型。
在一些实施例中,所述获取单元201,还用于获取训练集,具体为:
获取包含有多个初始语音识别文本的训练集;
根据文本长度和词个数对所述初始语音识别文本进行初筛处理;
根据所述预设质量等级对所述初筛后的多个初始语音识别文本进行标注,以得到所述多个标注文本。
在一些实施例中,所述评估单元206,还用于:
根据所述评估结果,对所述待评估文本进行分类;
基于分类结果对已评估的文本集中语义相似的已评估文本进行排序。
上述所有的技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图2所示的装置可以执行上述文本质量评估方法实施例,并且装置中的各个单元的前述和其它操作和/或功能分别实现上述方法实施例的相应流程,为了简洁,在此不再赘述。
相应的,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机等设备。该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。如图4所示,图4为本申请实施例提供的计算机设备的结构示意图。该计算机设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中,处理器301与存储器302电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器301是计算机设备300的控制中心,利用各种接口和线路连接整个计算机设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行计算机设备300的各种功能和处理数据,从而对计算机设备300进行整体监控。
在本申请实施例中,计算机设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能:
获取待评估文本;对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果;对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征;根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵;根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率;根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估分数,所述预设质量等级用于表示文本可读性。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
在一些实施例中,如图4所示,计算机设备300还包括:显示单元303、射频电路304、音频电路305、输入单元306以及电源307。其中,处理器301分别与显示单元303、射频电路304、音频电路305、输入单元306以及电源307电性连接。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
显示单元303可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元303可以包括显示面板和触控面板。
射频电路304可用于收发射频信号,以通过无线通信与网络设备或其他计算机设备建立无线通讯,与网络设备或其他计算机设备之间收发信号。
音频电路305可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路305可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路305接收后转换为音频数据,再将音频数据输出处理器301处理后,经射频电路304以发送给比如另一计算机设备,或者将音频数据输出至存储器302以便进一步处理。音频电路305还可能包括耳塞插孔,以提供外设耳机与计算机设备的通信。
输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源307用于给计算机设备300的各个部件供电。在一些实施例中,电源307可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源307还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图4中未示出,计算机设备300还可以包括摄像头、传感器、无线保真模块、蓝牙模块等,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种文本质量评估方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种文本质量评估方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本质量评估方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本质量评估方法、装置、存储介质及计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种文本质量评估方法,其特征在于,所述方法包括:
获取待评估文本;
对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果;
对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征;
根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵;
根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率;
根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估分数,所述预设质量等级用于表示文本可读性。
2.如权利要求1所述的文本质量评估方法,其特征在于,所述文本特征包括以下任意多种:文本长度、词重复度、标点个数、生僻个数、字重复度、整句中词最大长度、词出现频率。
3.如权利要求1所述的文本质量评估方法,其特征在于,所述根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,包括:
将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果。
4.如权利要求3所述的文本质量评估方法,其特征在于,所述预设质量等级包括以下四个质量等级:
第一质量等级用于表示能读并完全正确的文本质量;
第二质量等级用于表示能读懂但有瑕疵的文本质量;
第三质量等级用于表示能读懂部分含义的文本质量;
第四质量等级用于表示完全读不懂的文本质量。
5.如权利要求4所述的文本质量评估方法,其特征在于,在所述将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果之前,还包括:
获取训练集,所述训练集包括多个标注文本;
对所述训练集中的标注文本进行分词处理,以得到每一所述标注文本的分词结果;
对所述训练集中每一所述标注文本的分词结果进行特征提取,以得到每一所述标注文本的文本特征;
根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本的文本信息熵;
根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本在预设的语音模型中的文本出现概率;
将所述训练集中的所述标注文本的文本特征、文本信息熵和文本出现概率作为输入参数,以及将所述预设质量等级中每一等级对应的评估分数作为输出参数,对所述文本质量评估模型中进行学习训练,以更新所述文本质量评估模型的模型参数,生成训练后的文本质量评估模型。
6.如权利要求5所述的文本质量评估方法,其特征在于,所述获取训练集,包括:
获取包含有多个初始语音识别文本的训练集;
根据文本长度和词个数对所述初始语音识别文本进行初筛处理;
根据所述预设质量等级对所述初筛后的多个初始语音识别文本进行标注,以得到所述多个标注文本。
7.如权利要求1所述的文本质量评估方法,其特征在于,在所述得到所述待评估文本的评估结果之后,还包括:
根据所述评估结果,对所述待评估文本进行分类;
基于分类结果对已评估的文本集中语义相似的已评估文本进行排序。
8.一种文本质量评估装置,其特征在于,所述装置包括:
获取单元,用于获取待评估文本;
分词单元,用于对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果;
特征提取单元,用于对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征;
第一计算单元,用于根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵;
第二计算单元,用于根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率;
评估单元,用于根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,其中所述评估结果包含预设质量等级中每一等级对应的评估,所述预设质量等级用于表示文本可读性。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1-7任一项所述的文本质量评估方法中的步骤。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行权利要求1-7任一项所述的文本质量评估方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110412219.2A CN112966509B (zh) | 2021-04-16 | 2021-04-16 | 文本质量评估方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110412219.2A CN112966509B (zh) | 2021-04-16 | 2021-04-16 | 文本质量评估方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966509A true CN112966509A (zh) | 2021-06-15 |
CN112966509B CN112966509B (zh) | 2023-04-07 |
Family
ID=76280606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110412219.2A Active CN112966509B (zh) | 2021-04-16 | 2021-04-16 | 文本质量评估方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966509B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505117A (zh) * | 2021-07-26 | 2021-10-15 | 平安信托有限责任公司 | 基于数据指标的数据质量评估方法、装置、设备及介质 |
CN117874172A (zh) * | 2024-03-11 | 2024-04-12 | 中国传媒大学 | 文本可读性评估方法及系统 |
CN117874172B (zh) * | 2024-03-11 | 2024-05-24 | 中国传媒大学 | 文本可读性评估方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN107274903A (zh) * | 2017-05-26 | 2017-10-20 | 北京搜狗科技发展有限公司 | 文本处理方法和装置、用于文本处理的装置 |
CN108269125A (zh) * | 2018-01-15 | 2018-07-10 | 口碑(上海)信息技术有限公司 | 评论信息质量评估方法及系统、评论信息处理方法及系统 |
CN109101518A (zh) * | 2018-05-21 | 2018-12-28 | 全球能源互联网研究院有限公司 | 语音转录文本质量评估方法、装置、终端及可读存储介质 |
CN109710922A (zh) * | 2018-12-06 | 2019-05-03 | 深港产学研基地产业发展中心 | 文本识别方法、装置、计算机设备和存储介质 |
CN110046342A (zh) * | 2019-02-19 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种文本质量检测方法 |
CN111126063A (zh) * | 2019-12-26 | 2020-05-08 | 北京百度网讯科技有限公司 | 文本质量评估方法及装置 |
CN111144100A (zh) * | 2019-12-24 | 2020-05-12 | 五八有限公司 | 一种问题文本识别方法、装置、电子设备及存储介质 |
CN111339765A (zh) * | 2020-02-18 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本质量评估方法、文本推荐方法及装置、介质及设备 |
CN111460224A (zh) * | 2020-03-27 | 2020-07-28 | 广州虎牙科技有限公司 | 评论数据的质量标注方法、装置、设备及存储介质 |
CN111488931A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN112183065A (zh) * | 2020-09-16 | 2021-01-05 | 北京思源智通科技有限责任公司 | 文本评估方法、装置、计算机可读存储介质及终端设备 |
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
CN112597766A (zh) * | 2020-12-29 | 2021-04-02 | 杭州电子科技大学 | 一种基于BERT-base网络的带噪半监督文本分类方法 |
-
2021
- 2021-04-16 CN CN202110412219.2A patent/CN112966509B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN107274903A (zh) * | 2017-05-26 | 2017-10-20 | 北京搜狗科技发展有限公司 | 文本处理方法和装置、用于文本处理的装置 |
CN108269125A (zh) * | 2018-01-15 | 2018-07-10 | 口碑(上海)信息技术有限公司 | 评论信息质量评估方法及系统、评论信息处理方法及系统 |
CN109101518A (zh) * | 2018-05-21 | 2018-12-28 | 全球能源互联网研究院有限公司 | 语音转录文本质量评估方法、装置、终端及可读存储介质 |
CN109710922A (zh) * | 2018-12-06 | 2019-05-03 | 深港产学研基地产业发展中心 | 文本识别方法、装置、计算机设备和存储介质 |
CN110046342A (zh) * | 2019-02-19 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种文本质量检测方法 |
CN111144100A (zh) * | 2019-12-24 | 2020-05-12 | 五八有限公司 | 一种问题文本识别方法、装置、电子设备及存储介质 |
CN111126063A (zh) * | 2019-12-26 | 2020-05-08 | 北京百度网讯科技有限公司 | 文本质量评估方法及装置 |
CN111339765A (zh) * | 2020-02-18 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本质量评估方法、文本推荐方法及装置、介质及设备 |
CN111460224A (zh) * | 2020-03-27 | 2020-07-28 | 广州虎牙科技有限公司 | 评论数据的质量标注方法、装置、设备及存储介质 |
CN111488931A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN112183065A (zh) * | 2020-09-16 | 2021-01-05 | 北京思源智通科技有限责任公司 | 文本评估方法、装置、计算机可读存储介质及终端设备 |
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
CN112597766A (zh) * | 2020-12-29 | 2021-04-02 | 杭州电子科技大学 | 一种基于BERT-base网络的带噪半监督文本分类方法 |
Non-Patent Citations (1)
Title |
---|
孟 园 等: "基于文本内容特征选择的评论质量检测" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505117A (zh) * | 2021-07-26 | 2021-10-15 | 平安信托有限责任公司 | 基于数据指标的数据质量评估方法、装置、设备及介质 |
CN117874172A (zh) * | 2024-03-11 | 2024-04-12 | 中国传媒大学 | 文本可读性评估方法及系统 |
CN117874172B (zh) * | 2024-03-11 | 2024-05-24 | 中国传媒大学 | 文本可读性评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112966509B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709630A (zh) | 语音质检方法、装置、设备及存储介质 | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN111177350A (zh) | 智能语音机器人的话术形成方法、装置和系统 | |
CN113129866B (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
CN115083434B (zh) | 一种情绪识别方法、装置、计算机设备及存储介质 | |
CN111539212A (zh) | 文本信息处理方法、装置、存储介质及电子设备 | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN111651497A (zh) | 用户标签挖掘方法、装置、存储介质及电子设备 | |
US9805740B2 (en) | Language analysis based on word-selection, and language analysis apparatus | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN112966509B (zh) | 文本质量评估方法、装置、存储介质及计算机设备 | |
US11829875B2 (en) | Information processing device, information processing method and computer readable storage medium | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN114417974B (zh) | 模型训练方法、信息处理方法、装置、电子设备和介质 | |
CN112116181A (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN115292495A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
CN114118087A (zh) | 实体确定方法、装置、电子设备及存储介质 | |
CN115733925A (zh) | 业务语音意图呈现方法、装置、介质及电子设备 | |
CN114117057A (zh) | 产品反馈信息的关键词提取方法及终端设备 | |
CN110502630A (zh) | 信息处理方法及设备 | |
CN112308453B (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |