CN110442876B - 文本挖掘方法、装置、终端及存储介质 - Google Patents

文本挖掘方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN110442876B
CN110442876B CN201910742419.7A CN201910742419A CN110442876B CN 110442876 B CN110442876 B CN 110442876B CN 201910742419 A CN201910742419 A CN 201910742419A CN 110442876 B CN110442876 B CN 110442876B
Authority
CN
China
Prior art keywords
text
standard
target
quality inspection
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910742419.7A
Other languages
English (en)
Other versions
CN110442876A (zh
Inventor
张超
汤耀华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910742419.7A priority Critical patent/CN110442876B/zh
Publication of CN110442876A publication Critical patent/CN110442876A/zh
Application granted granted Critical
Publication of CN110442876B publication Critical patent/CN110442876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及金融科技领域,本发明公开了一种文本挖掘方法、装置、终端及存储介质,所述文本挖掘方法包括:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。本发明解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题。

Description

文本挖掘方法、装置、终端及存储介质
技术领域
本发明涉及金融科技技术领域,尤其涉及一种文本挖掘方法、装置、终端及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融工业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
目前客服行业的质检考核过程通常是抽查审核客服录音,分为人工审核和机器审核两种。由于人工审核缺少客观性,无法全面客观地实现客服录音的质量评估,因此行业更多采用机器审核的方式,但是机器审核较为僵化,只能根据标准样板进行审核,无法深入挖掘客服录音中词句的文本应用,从而无法实现灵活审核,大大降低了质检工作质量和质检效率。
因此,如何实现高精度的文本挖掘,提高文本挖掘效率,是当前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种文本挖掘方法、装置、终端及存储介质,旨在解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题。
为实现上述目的,本发明实施例提供一种文本挖掘方法,所述文本挖掘方法包括:
获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。
可选地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:
根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
可选地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵的步骤包括:
获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
可选地,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:
获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
可选地,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:
将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;
若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;
根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。
可选地,所述根据所述目标变种片段修改所述质检范式的步骤包括:
根据所述质检要素文本,确定所述目标变种片段的变种类型;
若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;
若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。
可选地,所述对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:
对所述客服录音进行语音标准化识别处理,以获得语音文本数据;
对所述语音文本数据进行文本分词处理,以获得第一文本数据;
对所述第一文本数据进行文本纠错处理,以获得第二文本数据;
对所述第二文本数据进行文本改写处理,以获得标准文本数据。
本发明还提供一种文本挖掘装置,所述文本挖掘装置包括:
识别模块,用于获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
建立模块,用于根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
确定模块,用于根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
挖掘模块,用于若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。
可选地,所述建立模块包括:
建立单元,用于根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
确定单元,用于确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
可选地,所述建立单元包括:
第一确定子单元,用于获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
第一获取子单元,用于获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
建立子单元,用于根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
可选地,所述确定单元包括:
第二获取子单元,用于获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
第二确定子单元,用于根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
可选地,所述挖掘模块包括:
统计单元,用于将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;
检测单元,用于若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;
修改单元,用于根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。
可选地,所述修改单元包括:
第三确定子单元,用于根据所述质检要素文本,确定所述目标变种片段的变种类型;
第一变种子单元,用于若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;
第二变种子单元,用于若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。
可选地,所述识别模块包括:
标准化单元,用于对所述客服录音进行语音标准化识别处理,以获得语音文本数据;
分词单元,用于对所述语音文本数据进行文本分词处理,以获得第一文本数据;
纠错单元,用于对所述第一文本数据进行文本纠错处理,以获得第二文本数据;
改写单元,用于对所述第二文本数据进行文本改写处理,以获得标准文本数据。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本挖掘程序,其中:
所述文本挖掘程序被所述处理器执行时实现如上所述的文本挖掘方法的步骤。
此外,为实现上述目的,本发明还提供计算机存储介质;
所述计算机存储介质上存储有文本挖掘程序,所述文本挖掘程序被处理器执行时实现如上述的文本挖掘方法的步骤。
本发明获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。通过以上方案,本发明解决了客服录音文本挖掘精度低,文本挖掘效率低下的技术问题,实现了高精度的文本挖掘,提高了客服录音的文本挖掘效率,进而间接提高了质检工作质量和质检效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明文本挖掘方法一实施例的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例终端可以是PC机或服务器设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本挖掘程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文本挖掘程序,并执行下述文本挖掘方法各个实施例中的操作。
本发明实施例方案的主要思路是:获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。本发明解决了客服录音文本挖掘精度低,文本挖掘效率低下的技术问题,实现了高精度的文本挖掘,提高了客服录音的文本挖掘效率,进而间接提高了质检工作质量和质检效率。
本发明实施例考虑到,由于现有技术中,人工审核缺少客观性,无法全面客观地实现客服录音的质量评估,因此行业更多采用机器审核的方式,但是机器审核较为僵化,只能根据标准样板进行审核,无法深入挖掘客服录音中词句的文本应用,从而无法实现灵活审核,大大降低了质检工作质量和质检效率。本发明提供一种解决方案,可以解决客服录音文本挖掘精度低,文本挖掘效率低下的技术问题,实现高精度的文本挖掘,提高客服录音的文本挖掘效率,进而间接提高质检工作质量和质检效率。
基于上述硬件结构,提出本发明文本挖掘方法实施例。
本发明属于金融科技领域(Fintech),本发明提供一种文本挖掘方法,在文本挖掘方法一实施例中,参照图2,所述文本挖掘方法包括:
步骤S10,获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
步骤S20,根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
步骤S30,根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
步骤S40,若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。
具体内容如下:
步骤S10,获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
通常地,客服在与客户沟通的过程中会留存有客服录音,终端将对该客服录音进行语音识别,以将客服录音转化为文本数据。需要说明的是,由于质检对象是客服,故文本数据是指一通客服录音中,客服的语音转成的文本,而非用户的语音转成的文本。
具体地,所述对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:
步骤a,对所述客服录音进行语音标准化识别处理,以获得语音文本数据;
本实施例中,由于语音识别过程中,客服录音可能存在语法错误或者语义分歧,因此需要对语音识别得到的文本数据进行标准化处理,以得到标准文本数据。自然语言标准处理可将文本数据中的文本错误查找出来并修正。
步骤b,对所述文本数据进行文本分词处理,以获得第一文本数据;
英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,因此对文本数据的标准化处理需要进行分词。所述文本数据由多个词组组成,终端将对文本数据中的词组进行分隔,从而得到有意义的词组。
通过词袋模型(Bag of Words,简称BoW),基于词的特征,将各个文本样本的词与对应的词频进行聚类,实现文本向量化,从而形成词组聚类;或者通过词集模型(Set ofWords,简称SoW),和词袋模型不同的是词集模型仅考虑词是否在文本中出现,而不考虑词频。
基于以上模型进行文本分词处理,从而得到第一文本数据。
步骤c,对所述第一文本数据进行文本纠错处理,以获得第二文本数据;
文本错误常见的错误主要包括别字,纯拼音,模糊音,拼音汉字混合,拼音其他符号混合等多种问题。第一文本数据中可能存在以上一种或多种问题,因此需要进行文本纠错处理。
文本纠错处理分为两步走,第一步是错误检测,第二步是错误纠正。1、错误检测部分先通过中文分词器对第一文本数据进行切词,由于第一文本数据中可能含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两方面检测错误,整合这两种粒度的疑似错误结果,形成疑似错误位置候选集;2、错误纠正部分,遍历所有的疑似错误位置,并使用音似、形似词典替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。
通过以上文本纠错处理,可获得第二文本数据。
步骤d,对所述第二文本数据进行文本改写处理,以获得标准文本数据。
文本改写处理通过改造第二文本数据中的词汇属性以达到清理杂乱文本的效果。例如将第二文本数据中的语序语法、词汇字眼进行修正,从而达到将第二文本数据的文本语义表达清晰畅通的技术效果,而经过文本改写处理后得到的修正文本即为标准文本数据。
步骤S20,根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
所述预设标准话术文本是指一通客服录音中,开头语、安全提醒、身份证核实、确认本人等的话术文本。例如:开头语的话术文本是“您好!这里是a银行工作人员给您致电。感谢您使用b产品!本次来电主要是与您确认借款的相关信息,请问您现在通话方便吗?为了保证服务质量,本次通话可能会被录音,请您了解”。一个预设标准话术文本中可以包括多个检测要素,例如“a银行工作人员”、“与您确认借款”、“本次通话可能会被录音”等等。
本实施例根据标准文本数据和预设标准话术文本建立编辑距离矩阵,从编辑距离矩阵中获取到目标回溯路径。所述目标回溯路径指的是根据编辑距离矩阵模型的计算获取到的可用于标识性文本回溯的文本路径,该目标回溯路径能够确定标准文本数据与预设标准话术文本的文本对应路径。
具体地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:
步骤e,根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
可根据标准文本数据和预设标准话术文本建立编辑距离矩阵,所述编辑距离矩阵为矩阵模型,通过初始化矩阵模型,为标准文本数据和预设标准话术文本进行字符匹配,并计算出匹配字符的编辑距离。
具体地,所述根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵的步骤包括:
步骤e1,获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
标准文本数据中不可能全部都是质检的内容,可能包括业务解答,业务办理提示等内容,而这些内容可能是无关信息,会干扰质检过程。因此,终端需要根据预设标准话术文本从标准文本数据中提取出待检测文本,以将待质检的一小段文本从一大段文本中提取出来作为待检测文本,避免直接使用匹配模型来质检一小段文本和一大段文本。
待检测文本中一般会出现多句话连在一起,中间没有标点符号分开的情况。例如,“嗯嗯感谢您申请的配合我们会尽快为您处理”。在本实施例中,需要将在待检测文本中符合质检内容的文本片段找出来(例如,“感谢您申请的配合”)。
预设标准话术文本中保存有质检要素文本,用于检测待检测文本中是否存在该质检要素文本。例如,“感谢您的申请和配合”。获取该质检要素文本可对待检测文本进行文本定位。
步骤e2,获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
确定质检要素文本和待检测文本的文本内容,并确定质检要素文本的第一文本长度和待检测文本的第二文本长度,即二者的字符串长度。
步骤e3,根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
通过质检要素文本、第一文本长度、待检测文本和第二文本长度即可建立编辑距离矩阵。以下为举例:
若质检要素文本为str1,待检测文本为str2,第一文本长度为len1,第二文本长度为len2。
设str1=感谢您的申请和配合,str2=嗯嗯感谢您申请的配合我们会尽快为您处理;len1为str1的长度,len2为str2的长度。
那么,根据以上信息,执行disM[len2+1][len1+1],本实施例可建立如下表1所示的矩阵:
表1
编辑距离矩阵中包括str1和str2,各个字符串都有对应的字符,为方便文本定位,需要对所述矩阵进行数据初始化,以获得字符串各自的字符排列数组,如下表2所示的矩阵:
#
# 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
1
2
3
4
5
6
7
8
9
表2
具体地,编辑距离模型的模型运算遵循三种编辑规则,而三种编辑操作对应着矩阵的三种走法,见表3:
表3
从计算公式可以看出,[i][j]可能来自[i][j-1],[i-1][j]或[i-][j-1]之中,并且只能来自于其中一个。而生成编辑距离矩阵的过程中,从矩阵的左上角遍历到右下角,而矩阵回溯的过程,需要从右下角往左上角遍历。查看[i][j]的来源是[i][j-1],[i-1][j],[i-1][j-1]中的其中一个。
根据以上三种编辑规则,循环计算整个矩阵,以获得以下编辑距离矩阵的具体数据,见下表4:
表4
通过循环计算整个矩阵,获得编辑距离矩阵中的所有编辑距离。
步骤f,确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
最小编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。所述计算公式为disM[len2][len1],也就是说disM[len2][len1]的数值即为最小编辑距离。由表4所计算的结果可知,表4右下角的13是最小的编辑距离。
矩阵中的计算完成之后,需要进行文本路径回溯,见下表5,从右下角最小的13处开始回溯到左上角。回溯的路径,即是生成最小编辑距离13的最优路径之一。(注意:并不一定是最优路径)
具体地,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:
步骤f1,获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
步骤f2,根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
根据最小编辑距离可获取到最小编辑距离在矩阵模型中所映射的待检测文本,并确定待检测文本在矩阵模型中的字符坐标编号,同时,由于编辑距离矩阵是二维坐标的,因此可同时获取到质检要素文本的字符定位编号。而字符坐标编号和字符定位编号能够直接定位到匹配字符上,从而实现文本的字符回溯。
回溯的原理需要确定[i][j]的具体数值,而[i][j]的来源是[i][j-1],[i-1][j],[i-1][j-1]中的其中一个,通过回溯即可确定最终的路径编号。
表5
由此获得str1和str2的匹配数组定位编号(表5中的加深表格),将各个定位编号表格连接起来所形成的回溯结果即为目标回溯路径。
步骤S30,根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
所述目标回溯路径为质检要素文本和待检测文本提供字符映射匹配参考。根据质检要素文本和待检测文本的匹配编号即可确定文本对应关系。
由目标回溯路径可知,str1中的“感”对应着str2中的“感”;str1中的“的”对应着str2中的“您”;str1中的“合”对应着str2中的“合我们会尽快为您处理”。即编辑距离矩阵可以计算最小编辑距离时的字符对应关系,见表6:
表6
通过构建编辑距离矩阵,终端构建了质检要素文本(“感谢您的申请和配合”)和待定位文本(“嗯嗯感谢您申请的配合我们会尽快为您处理”)之间的对应关系。即质检要素文本(“感谢您的申请和配合”)对应待定位文本中的“感谢您申请的配合”,其开始和结束位置是(2,10)(以0为索引起始)。
文本对应关系反映了质检要素文本在待检测文本中的起始位置和结束位置,因此通过文本对应关系可对待检测文本进行文本定位处理,从而确定文本变种片段。所述文本变种片段指的是跟质检要素文本存在文本不匹配待检测文本。例如,“感谢您”变成了“谢谢您”,“微众银行”表达成了“温州银行”等等。由此可知,文本对应关系能够将以上存在文本变化的待检测文本片段筛选出来,从而定位出文本变种片段。
步骤S40,若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。
在本实施例中,需要确定所述文本变种片段是否具备文本挖掘条件,假设该文本变种片段能够成为质检要素文本的可替代词汇语句,例如文本变种片段“谢谢您”可替代质检要素文本中的“感谢您”,那么质检要素文本“谢谢您”将进行更新,通过添加“谢谢您”作为质检要素文本的补充更新样本,从而更新预设标准话术文本的容错机制,使得预设标准话术文本的审核参考范围扩大。
具体地,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:
步骤g,将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;
获取到文本变种片段之后,系统终端将把文本变种片段保存在预设数据库中。可以理解的是,在系统终端长时间的质检应用过程中,预设数据库中将保存有大量的文本变种片段。例如“谢谢您”(对应“感谢您”)、“温州银行”(对应“微众银行”)、“设请”(对应“申请”)等等。系统终端将在预设数据库中直接统计各个文本变种片段的数量统计值,例如“谢谢您”出现了120次,“温州银行”出现了80次,“设请”出现了10次。
步骤h,若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;
本实施例将预设挖掘条件具体化为:判断文本变种片段的数量统计值是否达到预设阈值。通过对所有数量统计值进行判断,从而筛选出大于预设阈值的数量统计值,将该数量统计值设置为目标统计值。所述目标统计值可以是多个。例如,“谢谢您”的统计值120大于预设阈值20,“温州银行”的统计值80大于预设阈值20,“设请”的统计值10小于预设阈值20,由此可知120和80为目标统计值。获取目标统计值对应的目标变种片段(即“谢谢您”和“温州银行”)。同时获取质检要素文本的质检范式。
当然,以上所述文本变种片段、目标变种片段、数量统计值和目标统计值仅为举例,不代表本发明中仅限以上的例子。
步骤i,根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。
确定目标变种片段,即证明当前目标变种片段可以作为本发明进行文本挖掘的重要样本数据。也就是说,预设标准话术文本中的质检要素文本可以以目标变种片段进行更新,例如,质检要素文本的质检范式a:(.*)(感谢您)(的)?(申请)(和)(配合)(.*)”,那么根据目标变种片段,系统终端可加入目标变种片段的数据样本,以充盈质检范式a的容错率,生成新的质检范式a:(.*)(感谢您|谢谢您)(的)?(申请)(和|的)(配合)(.*)。同理根据目标变种片段和质检范式b:(.*)(微众银行)?(给您|的)?(致电|来电)(.*),可更新获取到新的质检范式b:(.*)(微众银行|温州银行)?(给您|的)?(致电|来电)(.*)。
可以理解的是,以上的质检范式仅为举例。
本发明获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。通过以上方案,本发明解决了客服录音文本挖掘精度低,文本挖掘效率低下的技术问题,实现了高精度的文本挖掘,提高了客服录音的文本挖掘效率,进而间接提高了质检工作质量和质检效率。
进一步地,基于第一实施例,提出本发明文本挖掘方法的第二实施例,在该实施例中,所述根据所述目标变种片段修改所述质检范式的步骤包括:
步骤A,根据所述质检要素文本,确定所述目标变种片段的变种类型;
步骤B,若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;
步骤C,若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。
假设质检要素文本为“微众银行”,而目标变种片段为“温州银行”,根据“微众银行”和“温州银行”的解析可知,二者为近似音变种。假设质检要素文本为“微众银行”,而目标变种片段为“湾早A哈”,根据解析可知,二者为方言音变种。因此,为避免近似音变种和方言音变种对文本挖掘的干扰,导致文本挖掘效率降低,本实施例对目标变种片段进行分类。利用质检要素文本对目标变种片段进行判断,可通过互联网或本地的方言音数据包或近似音数据包,对质检要素文本和目标变种片段进行解析,以确定目标变种片段的变种类型。
在确定变种类型之后,若确定变种类型为近似音类型,证明目标变种片段与质检要素文本存在近似音变种情况,那么系统终端将根据目标变种片段生成近似音容错范式,所述近似音容错范式代表了质检范式的近似音容错数据,将近似音容错范式添加到质检范式中,从而充实质检范式的近似音容错机制。
同理,若变种类型为方言音类型,则证明目标变种片段与质检要素文本存在方言音变种情况,那么系统终端将根据目标变种片段生成方言音容错范式,所述方言音容错范式代表了质检范式的方言音容错数据,将方言音容错范式添加到质检范式中,从而充实质检范式的方言音容错机制。
本实施例通过对变种类型的区分,可更加方便地对文本挖掘进行分类,从而实现区分挖掘,能够提高预设标准文本数据的训练效率,进而提高文本挖掘效率。
此外,本发明实施例还提出一种文本挖掘装置,所述文本挖掘装置包括:
识别模块,用于获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
建立模块,用于根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
确定模块,用于根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
挖掘模块,用于若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本。
可选地,所述建立模块包括:
建立单元,用于根据所述标准文本数据和所述预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
确定单元,用于确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
可选地,所述建立单元包括:
第一确定子单元,用于获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
第一获取子单元,用于获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
建立子单元,用于根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
可选地,所述确定单元包括:
第二获取子单元,用于获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
第二确定子单元,用于根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
可选地,所述挖掘模块包括:
统计单元,用于将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;
检测单元,用于若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;
修改单元,用于根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。
可选地,所述修改单元包括:
第三确定子单元,用于根据所述质检要素文本,确定所述目标变种片段的变种类型;
第一变种子单元,用于若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;
第二变种子单元,用于若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。
可选地,所述识别模块包括:
标准化单元,用于对所述客服录音进行语音标准化识别处理,以获得语音文本数据;
分词单元,用于对所述语音文本数据进行文本分词处理,以获得第一文本数据;
纠错单元,用于对所述第一文本数据进行文本纠错处理,以获得第二文本数据;
改写单元,用于对所述第二文本数据进行文本改写处理,以获得标准文本数据。
此外,本发明实施例还提出一种终端,终端包括:存储器109、处理器110及存储在存储器109上并可在处理器110上运行的文本挖掘程序,所述文本挖掘程序被处理器110执行时实现上述的文本挖掘方法各实施例的步骤。
此外,本发明还提供了一种计算机存储介质,所述计算机存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述文本挖掘方法各实施例的步骤。
本发明终端及存储介质(即计算机存储介质)的具体实施方式的拓展内容与上述文本挖掘方法各实施例基本相同,在此不做赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种文本挖掘方法,其特征在于,所述文本挖掘方法包括:
获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本;
其中,对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:
对所述客服录音进行语音识别处理得到文本数据;
查找并修正所述文本数据中的文本错误,以获得标准文本数据。
2.如权利要求1所述的文本挖掘方法,其特征在于,所述根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径的步骤包括:
根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并获取所述编辑距离矩阵中的编辑距离;
确定所述编辑距离中的最小编辑距离,并根据所述最小编辑距离确定目标回溯路径。
3.如权利要求2所述的文本挖掘方法,其特征在于,所述根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵的步骤包括:
获取预设标准话术文本的质检要素文本,并根据所述预设标准话术文本确定所述标准文本数据中的待检测文本;
获取所述质检要素文本的第一文本长度,并获取所述待检测文本的第二文本长度;
根据所述质检要素文本、所述第一文本长度、所述待检测文本和所述第二文本长度建立编辑距离矩阵。
4.如权利要求3所述的文本挖掘方法,其特征在于,所述根据所述最小编辑距离确定目标回溯路径的步骤包括:
获取所述最小编辑距离对应的待检测文本的字符坐标编号,以及所述质检要素文本的字符定位编号;
根据所述字符坐标编号和所述字符定位编号确定目标回溯路径。
5.如权利要求4所述的文本挖掘方法,其特征在于,所述若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本的步骤包括:
将所述文本变种片段保存在预设数据库中,并分别统计所述预设数据库中各文本变种片段的数量统计值;
若从所有数量统计值中检测到大于预设阈值的目标统计值,则获取所述目标统计值对应的目标变种片段,并获取所述质检要素文本的质检范式;
根据所述目标变种片段修改所述质检范式,以获得新的质检要素文本,并将新的质检要素文本同步到所述预设标准话术文本。
6.如权利要求5所述的文本挖掘方法,其特征在于,所述根据所述目标变种片段修改所述质检范式的步骤包括:
根据所述质检要素文本,确定所述目标变种片段的变种类型;
若所述变种类型为近似音类型,则根据所述目标变种片段生成近似音容错范式,并将所述近似音容错范式添加至所述质检范式;
若所述变种类型为方言音类型,则根据所述目标变种片段生成方言音容错范式,并将所述方言音容错范式添加至所述质检范式。
7.如权利要求1-6任一项所述的文本挖掘方法,其特征在于,所述对所述客服录音进行语音识别处理,以获得标准文本数据的步骤包括:
对所述客服录音进行语音标准化识别处理,以获得语音文本数据;
对所述语音文本数据进行文本分词处理,以获得第一文本数据;
对所述第一文本数据进行文本纠错处理,以获得第二文本数据;
对所述第二文本数据进行文本改写处理,以获得标准文本数据。
8.一种文本挖掘装置,其特征在于,所述文本挖掘装置包括:
识别模块,用于获取客服录音,并对所述客服录音进行语音识别处理,以获得标准文本数据;
建立模块,用于根据所述标准文本数据和预设标准话术文本建立编辑距离矩阵,并确定所述编辑距离矩阵中的目标回溯路径;
确定模块,用于根据所述目标回溯路径确定文本对应关系,并根据所述文本对应关系确定所述标准文本数据的文本变种片段;
挖掘模块,用于若所述文本变种片段满足预设挖掘条件,则根据所述文本变种片段更新所述预设标准话术文本;
所述识别模块,还用于对所述客服录音进行语音识别处理得到文本数据;
查找并修正所述文本数据中的文本错误,以获得标准文本数据。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在处理器上运行的文本挖掘程序,所述文本挖掘程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本挖掘方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有文本挖掘程序,所述文本挖掘程序被处理器执行时实现如权利要求1至7中任一项所述的文本挖掘方法的步骤。
CN201910742419.7A 2019-08-09 2019-08-09 文本挖掘方法、装置、终端及存储介质 Active CN110442876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910742419.7A CN110442876B (zh) 2019-08-09 2019-08-09 文本挖掘方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910742419.7A CN110442876B (zh) 2019-08-09 2019-08-09 文本挖掘方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN110442876A CN110442876A (zh) 2019-11-12
CN110442876B true CN110442876B (zh) 2023-09-05

Family

ID=68434828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910742419.7A Active CN110442876B (zh) 2019-08-09 2019-08-09 文本挖掘方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN110442876B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291162B (zh) * 2020-02-26 2024-04-09 深圳前海微众银行股份有限公司 质检例句挖掘方法、装置、设备及计算机可读存储介质
CN112562678A (zh) * 2020-11-26 2021-03-26 携程计算机技术(上海)有限公司 基于客服录音的智能对话方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN103927352A (zh) * 2014-04-10 2014-07-16 江苏唯实科技有限公司 利用知识库海量关联信息的中文名片ocr数据修正系统
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN109920415A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 基于语音识别的人机问答方法、装置、设备和存储介质
CN109933754A (zh) * 2019-01-31 2019-06-25 平安科技(深圳)有限公司 查找合同修改部分的方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165717A1 (en) * 2001-04-06 2002-11-07 Solmer Robert P. Efficient method for information extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN103927352A (zh) * 2014-04-10 2014-07-16 江苏唯实科技有限公司 利用知识库海量关联信息的中文名片ocr数据修正系统
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN109920415A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 基于语音识别的人机问答方法、装置、设备和存储介质
CN109933754A (zh) * 2019-01-31 2019-06-25 平安科技(深圳)有限公司 查找合同修改部分的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110442876A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
Peitz et al. Modeling punctuation prediction as machine translation
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
CN111292751B (zh) 语义解析方法及装置、语音交互方法及装置、电子设备
CN106897439A (zh) 文本的情感识别方法、装置、服务器以及存储介质
CN111326144B (zh) 语音数据处理方法、装置、介质和计算设备
CN110442876B (zh) 文本挖掘方法、装置、终端及存储介质
CN110442853A (zh) 文本定位方法、装置、终端及存储介质
CN112489626A (zh) 一种信息识别方法、装置及存储介质
CN109460558B (zh) 一种语音翻译系统的效果评判方法
CN111354340B (zh) 数据标注准确度验证方法、装置、电子设备及存储介质
US20170125015A1 (en) Methods and apparatus for joint stochastic and deterministic dictation formatting
JP2018206262A (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
JP2013054607A (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
Li et al. Chinese spelling check based on neural machine translation
US11907656B2 (en) Machine based expansion of contractions in text in digital media
CN110599028B (zh) 文本定位方法、装置、设备及存储介质
CN113536776B (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
CN115983285A (zh) 问卷稽核方法、装置、电子设备和存储介质
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
JP2000089786A (ja) 音声認識結果の修正方法および装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN115881108A (zh) 语音识别方法、装置、设备及存储介质
CN112000767A (zh) 一种基于文本的信息抽取方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant