CN113361644B - 模型训练方法、电信业务特征信息提取方法、装置及设备 - Google Patents

模型训练方法、电信业务特征信息提取方法、装置及设备 Download PDF

Info

Publication number
CN113361644B
CN113361644B CN202110753862.1A CN202110753862A CN113361644B CN 113361644 B CN113361644 B CN 113361644B CN 202110753862 A CN202110753862 A CN 202110753862A CN 113361644 B CN113361644 B CN 113361644B
Authority
CN
China
Prior art keywords
service
feature
information
extraction rule
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110753862.1A
Other languages
English (en)
Other versions
CN113361644A (zh
Inventor
代晓菊
蒋润青
孙海
李铮
李战克
贾博民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Ideal Information Industry Group Co Ltd
Original Assignee
Shanghai Ideal Information Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ideal Information Industry Group Co Ltd filed Critical Shanghai Ideal Information Industry Group Co Ltd
Priority to CN202110753862.1A priority Critical patent/CN113361644B/zh
Publication of CN113361644A publication Critical patent/CN113361644A/zh
Application granted granted Critical
Publication of CN113361644B publication Critical patent/CN113361644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及自然语言处理技术领域,公开了一种模型训练方法、电信业务特征信息提取方法、装置及设备。该方法包括:根据获取的实际业务工单文本的训练数据集合中业务特征信息得到业务特征的提取规则信息;基于提取规则信息从待提取业务特征信息的测试数据集合提取得到业务特征信息;根据提取的业务特征信息与训练数据集合的业务特征信息的对比结果筛选得到满足预设条件以及不满足预设条件的提取规则信息;重新调整不满足预设条件的提取规则信息,对调整后的提取规则信息重复执行前述步骤,直到得到提取出测试数据集合中的所有业务特征信息且满足预设条件的提取规则信息。本发明实施例可提高电信行业等的业务特征信息提取的准确率以及效率。

Description

模型训练方法、电信业务特征信息提取方法、装置及设备
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种模型训练方法、电信业务特征信息提取方法、装置及设备。
背景技术
文本特征信息提取是计算机对自然语言的特征进行自动识别并提取的过程,在客服领域有重要应用,例如以电信10000号客服中心平台为例,希望能够通过自动提取业务特征信息的手段,实现用户来电工单的诉求信息的自动提取及快速填充,从而达到加快现场话务员服务响应能效,提升整体服务质量,提高客服整体运营数据分析的智能化程度,优化管理效果。
目前随着人工智能的不断发展,文本特征信息提取的相关研究也越来越多,但是现有的文本特征信息提取技术在电信行业领域的落地应用较少,尤其是在提取指定业务特定信息的应用中受到不同业务特征信息会有交叉重叠、特征信息不规范等因素的影响导致最终提取结果的准确性和效率上都难以达到实际应用标准。
发明内容
有鉴于此,本发明实施例提供了一种模型训练方法、电信业务特征信息提取方法、装置及设备,以提高电信行业等的业务特征信息提取的准确率以及效率。
为解决上述技术问题,本发明实施例提供了一种模型训练方法,用于训练提取电信行业的业务特征信息的模型,所述方法包括:
获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合;
根据所述训练数据集合中业务特征信息得到业务特征的提取规则信息;所述提取规则信息包括:根据所述训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围;
基于所述提取规则信息从所述测试数据集合提取得到业务特征信息;
根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息;
重新调整所述不满足所述预设条件的提取规则信息,对调整后的所述提取规则信息重复执行所述提取业务特征信息、筛选提取规则信息以及重新调整所述不满足所述预设条件的提取规则信息的步骤,直到得到提取出所述测试数据集合中的所有业务特征信息且满足所述预设条件的提取规则信息。
本发明实施例还提供了一种电信业务特征信息提取方法,包括:
获取待提取业务特征信息的工单文本数据;
基于如前所述的模型训练方法得到提取规则信息;所述提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围;
根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
结合所述特征库对所述待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
本发明实施例还提供了一种模型训练装置,用于训练提取电信行业的业务特征信息的模型,所述装置包括:
获取模块,用于获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合;
规则构建模块,用于根据所述训练数据集合中业务特征信息得到业务特征的提取规则信息;所述提取规则信息包括:根据所述训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围;
提取模块,用于基于所述提取规则信息从所述测试数据集合提取得到业务特征信息;
筛选模块,用于根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息;
迭代模块,用于重新调整所述不满足所述预设条件的提取规则信息,对调整后的所述提取规则信息重复执行所述提取业务特征信息、筛选提取规则信息以及重新调整所述不满足所述预设条件的提取规则信息的步骤,直到得到提取出所述测试数据集合中的所有业务特征信息且满足所述预设条件的提取规则信息。
本发明实施例还提供了一种电信业务特征信息提取装置,包括:
数据获取模块,用于获取待提取业务特征信息的工单文本数据;
规则获取模块,用于基于前所述的模型训练装置得到提取规则信息;所述提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围;
词库构建模块,用于根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
分词模块,用于结合所述特征库对所述待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
特征提取模块,用于遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
本发明实施例还提供了一种计算机设备,包括:存储器和处理器,存储器存储计算机程序,处理器运行所述计算机程序以实现如前所述的方法。
另外,所述基于所述提取规则信息从所述测试数据集合提取得到业务特征信息,包括:
根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
结合所述特征库对所述测试数据集合中的工单文本进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
另外,所述根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的比较结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息,包括:
对比返回的所述所有业务特征信息的结果集合与所述训练数据集合的业务特征信息,并计算所述提取规则信息的准确率,若所述准确率大于准确率阈值,则确定相应业务特征的提取规则信息满足预设条件,并保存相应业务特征的提取规则信息,若所述准确率小于或者等于所述准确率阈值,则确定相应业务特征的提取规则信息不满足所述预设条件。
另外,所述根据所述特征元素集合构建业务特征专有词性的特征库,包括:
以预设文件命名规则对所述特征元素集合进行文件命名,将所述特征元素集合的命名规则与其对应的指定业务特征名称保存到特征库。
另外,所述停用词库的词汇包括以下一者或其任意组合:英文字符、副词、语气词。
另外,所述结合所述特征库对所述测试数据集合中的工单文本进行分词得到分词结果集合,包括:
将所述特征库按照各字段提取先后的优先级排序整合入预设分词字典库,依次对所述测试数据集合中的工单文本进行分词得到分词结果集合。
与现有技术相比,本发明实施例提供的模型训练方法及业务特征信息提取方法及装置、设备,通过业务特征识别提取规则及业务特征元素区间范围来精准、快速的将指定的业务特征信息提取出来,并通过给定准确率阀值控制参数调整,以此来保证最终提取结果的准确性,从而在保证高质量的基础上大大提升了客服人员人工提取业务特征的效率,进而有利于提高客户来访需求的工单的业务特征提取的准确性,达到加快现场话务员服务响应能效,提升整体服务质量,提高热线整体运营数据分析的智能化程度,优化管理的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,可以理解地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明一实施例提供的模型训练方法的流程图;
图2是本发明一实施例提供的模型训练方法中提取业务特征信息步骤的流程图;
图3为本发明一实施例提供的电信业务特征信息提取方法的流程图;
图4是本发明一实施例提供的模型训练装置的结构示意图;
图5是本发明一实施例提供的电信业务特征信息提取装置的结构示意图;
图6是本发明一实施例提供的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本发明而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本发明所要求保护的技术方案。
本发明实施例提供一种模型训练方法,用于训练提取电信行业的业务特征信息的模型。如图1所示,本实施例的模型训练方法包括步骤101至步骤107。
步骤101:获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合。
其中,实际业务工单文本的训练数据集合记为T,待提取业务特征信息的测试数据集合记为U。作为示例而非限制,本实施例中,以电信10000号的客户来访工单的工单文本为例,获取实际客户来访工单的工单文本的训练数据集合T及待提取业务特征信息的测试数据集合U。
步骤102:根据训练数据集合中业务特征信息得到业务特征的提取规则信息。提取规则信息包括:根据训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围。
具体地,于步骤102中,根据基于实际业务工单文本的训练数据集合提供的判断依据,构建业务特征信息与特征元素的识别提取规则,并选择各业务特征的特征元素在实际工单文本中的出现位置构建特征元素区间范围,将识别提取规则和特征元素区间范围均保存至配置文件中,待程序运行时进行读取。另外从实际工单结果中抽取各业务特征的特征元素集合,分别保存在不同的文件中。
步骤103:基于提取规则信息从测试数据集合提取得到业务特征信息。
可选地,本实施例中,步骤103包括步骤1031至步骤1037。
步骤1031:根据特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库。
可选地,步骤1031中,以预设文件命名规则对特征元素集合进行文件命名,将特征元素集合的命名规则与其对应的指定业务特征名称保存到特征库。比如,以文件命名规则R对特征元素集合的文件进行文件命名,例如(t1,t2,…,tn),按照特征元素集合的命名规则R形成业务特征专有词性的特征库。
可选地,步骤1031中,停用词库的词汇包括以下一者或其任意组合:英文字符、副词、语气词。然不限于此,停用词库还可以包括其他与业务无关的词汇,并且可根据实际工单文本数据内容的需要,增添、删改停用词库,在此不做具体限制。
步骤1032:结合特征库对测试数据集合中的工单文本进行分词得到分词结果集合,并利用停用词库过滤分词结果集合。
具体地,可以采用中文分词工具结合特征库对待提取业务特征信息的测试数据工单文本进行分词,并利用构建的停用词库过滤分词结果集合。可选地,步骤1032中可将特征库按照各字段提取先后的优先级排序整合入预设分词字典库,依次对测试数据集合中的工单文本进行分词得到分词结果集合。本实施例中,可以利用中文分词工具,比如HanLP,将业务特征专有词性的特征库按照各字段提取先后的优先级排序整合入HanLP的自定义分词字典库,依次对步骤 101中获取的测试数据集合U的工单文本进行分词得到分词结果集合,然后利用步骤1031构建的停用词库过滤每条数据的分词结果集合。
步骤1033:遍历过滤后的分词结果集合,若识别到业务特征专有词性的分词,则结合业务特征信息的特征元素区间范围,判断识别到的业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足业务特征信息与特征元素的识别提取规则,则执行步骤1034,若不满足规则,则执行步骤1035。
步骤1034:将识别到的业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合。
步骤1035:丢弃识别到的业务特征专有词性的分词。
步骤1036:确定是否遍历结束,若遍历结束,则执行步骤1037,若未遍历结束,则返回执行步骤1033。
因此,步骤1033至步骤1037中,依次逐条遍历分词结果集合,当识别到步骤1031的业务特征专有词性的分词时,则读取对应业务特征信息的特征元素区间范围,判断在该区间范围内是否满足业务特征信息与特征元素的识别提取规则,如果满足,则保存该分词对应字段的信息至对应字段的分词结果集合中,不满足则不予保存,直至遍历结束,返回测试数据集合中所有的业务特征信息结果集合。举例而言,在遍历分词结果集合时,当识别到待提取业务特征的专业词性时,则触发业务特征提取条件。比如业务特征是“新套餐种类”,步骤1031 中对应专属词性为t1,对应的特征元素集合中的一个特征元素为“199”,对应的特征元素区间范围是触发条件点的前后10位分词,对应的识别提取规则为“十全十美5G畅享199套餐”=1000M宽带、2189一年、60G流量、1000分钟通话。那么在实际分词过程中“199”特征元素的分词词性命名为t1,从“199”在分词集合中的位置开始,取前后10位分词,判断在前后10位分词结果中是否同时出现“1000M”、“2189”、“60G”、“1000分钟”等特征的分词,如果出现,则保存业务特征“新套餐种类”的提取结果为“十全十美5G畅享199套餐”,将其保存至业务特征“新套餐种类”的提取结果集合中,以此类推至全部遍历结束,返回所有提取结果集合。
步骤104:根据提取的业务特征信息与训练数据集合的业务特征信息的对比结果筛选得到提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息。
步骤105:是否存在不满足预设条件的提取规则信息,若存在不满足预设条件的提取规则信息,则继续执行步骤106,若不存在不满足预设条件的提取规则信息,则执行步骤107。
即重新调整不满足预设条件的提取规则信息,对调整后的提取规则信息重复执行提取业务特征信息、筛选提取规则信息以及重新调整不满足所述预设条件的提取规则信息的步骤,直到得到提取出测试数据集合中的所有业务特征信息且满足预设条件的提取规则信息。
可选地步骤104根据提取的业务特征信息与训练数据集合的业务特征信息的比较结果筛选得到提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息,包括:对比返回的所有业务特征信息的结果集合与训练数据集合的业务特征信息,并计算提取规则信息的准确率,若准确率大于准确率阈值,则确定相应业务特征的提取规则信息满足预设条件,并保存相应业务特征的提取规则信息,若所述准确率小于或者等于准确率阈值,则确定相应业务特征的提取规则信息不满足预设条件。
具体而言,根据步骤103得到的测试结果集合(即从测试数据集合提取得到的业务特征信息)与训练数据集合中的业务特征信息(即实际的工单数据结果)进行比对,计算各业务特征提取的准确率,若大于给定的准确率阀值,则保留相应的业务特征的识别提取规则、特征元素集合和特征元素区间范围;若小于或者等于给定的准确率阀值,则返回步骤102重新调整相应业务特征信息的识别提取规则、特征元素集合与特征元素区间范围,重复执行步骤103至步骤106直至所有业务特征信息全部提取完毕,然后返回所有业务特征的识别提取规则、特征元素集合和特征元素区间范围,保存至最终的业务配置文件中。在本发明具体实施例中,利用测试数据集U通过训练模型后,得到的最终准确率与给定阈值进行判定与比较,以确定模型是否结束训练。给定阈值可以根据业务需求设置,在此不做具体限制。
下面以电信10000号用户来电工单文本业务特征信息提取模型为例详细说明本实施例的模型训练方法。该模型训练方法步骤如下:
步骤SO:获取电信10000号用户来电工单文本的训练数据集合及待提取业务特征的测试数据集合。其中,训练数据集合包含10000条数据,测试数据集合包含2000条数据。
步骤S1,构建业务特征信息与特征元素的识别提取规则如表1所示,并根据训练数据集合中具体工单的业务特征提取结果抽取业务特征元素“99”、“129”、“169”、“199”、“299”、“399”、“599”,保存至特征元素集合文件t1,在配置文件中设置特征识别区间范围长度为10。
表1
步骤S2,将特征元素集合文件t1保存至特征库,并设置专有词性为t1,另外构建包括但不限于部分数字、英文字符、副词、语气词以及其他与业务无关的词汇的停用词库,可根据实际工单文本数据内容的需要,增添、删改停用词库。
步骤S3,利用HanLP中文分词工具,先将业务特征专有词库整合入HanLP 的自定义词库,并设置分词优先级优先分词,依次对测试数据集合的工单文本进行分词,通过停用词库筛除后得到分词结果集合。
步骤S4,依次遍历分词结果集合,根据业务特征专有词性t1的分词作为提取触发条件,当识别到词性为t1的分词时,则从配置文件中读取对应的特征识别提取规则和特征元素区间范围,保存并返回满足业务特征信息的识别提取规则的结果,直至遍历结束。
步骤S5,将遍历结束后返回的结果与训练数据集合工单的实际结果进行比对,计算准确率,判断是否高于给定的准确率阀值,若是则将业务特征的识别提取规则、特征元素集合和特征元素区间范围保存至最终的业务配置文件中,若否则对业务特征识别提取规则、特征元素集合与特征区间范围进行参数调整,重复执行步骤S1-S4,直至达到给定准确率阈值则结束。
本实施例与现有技术相比,通过给定准确率阈值,并以迭代的方式调整业务特征识别提取规则、特征元素集合以及业务特征元素区间范围,直到模型训练后的业务特征识别提取规则、特征元素集合以及业务特征元素区间范围能够高效、准确地提取业务特征信息,满足实际业务需求。
本发明实施例还提供一种电信业务特征信息提取方法,如图3所示,该方法包括步骤301至步骤307。
步骤301:获取待提取业务特征信息的工单文本数据。
步骤302:基于模型训练方法得到提取规则信息。提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围。
其中,模型训练方法为前述实施例所述的模型训练方法。
步骤303:根据特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库。
步骤304:结合特征库对待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用停用词库过滤分词结果集合。
步骤305:遍历过滤后的分词结果集合,若识别到业务特征专有词性的分词,则结合业务特征信息的特征元素区间范围,判断识别到的业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则。若满足业务特征信息与特征元素的识别提取规则,则执行步骤306,若不满足规则,则执行步骤 307。
步骤306:将识别到的业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合。
步骤307:丢弃识别到的业务特征专有词性的分词。
步骤308:确定是否遍历结束,若遍历结束,则执行步骤309,若未遍历结束,则返回重复执行步骤步骤305至步骤308,直到遍历结束。
步骤309:返回提取的所有业务特征信息的结果集合。
本实施例的业务特征信息提取方法中业务特征提取与前述实施例的业务特征提取的主要区别在于,在前述实施例中,是对测试数据集合进行业务特征提取,在本实施例中,是对获取的实际工单文本数据进行业务特征提取。本实施例对于两者相同的部分不再赘述。
本发明实施例相对于现有技术而言,通过利用构建业务特征元素集合单元触发业务特征提取,再通过业务特征识别提取规则及业务特征元素区间范围来精准、快速的将指定的业务特征信息提取出来,并通过给定准确率阀值控制参数调整,以此来保证最终提取结果的准确性,从而在保证高质量的基础上大大提升了客服人员人工提取业务特征的效率。本发明能够实现客户来访需求的工单的高准确业务特征提取,达到加快现场话务员服务响应能效,提升整体服务质量,提高热线整体运营数据分析的智能化程度,优化管理的效果。
本发明实施例还提供一种模型训练装置400,用于训练提取电信行业的业务特征信息的模型,如图4所示,该装置400包括:
获取模块401,用于获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合。
规则构建模块402,用于根据训练数据集合中业务特征信息得到业务特征的提取规则信息。提取规则信息包括:根据训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围。
提取模块403,用于基于提取规则信息从测试数据集合提取得到业务特征信息。
可选地,提取模块403包括:
特征库构建子模块,用于根据特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库。
可选地,特征库构建子模块用于以预设文件命名规则对所述特征元素集合进行文件命名,将所述特征元素集合的命名规则与其对应的指定业务特征名称保存到特征库。可选地,所述停用词库的词汇包括以下一者或其任意组合:英文字符、副词、语气词及其他与业务无关的词汇。
分词子模块,用于结合特征库对测试数据集合中的工单文本进行分词得到分词结果集合,并利用停用词库过滤分词结果集合。
可选地,分词子模块用于将特征库按照各字段提取先后的优先级排序整合入预设分词字典库,依次对所述测试数据集合中的工单文本进行分词得到分词结果集合。
遍历子模块,用于遍历过滤后的分词结果集合,若识别到业务特征专有词性的分词,则结合业务特征信息的特征元素区间范围,判断识别到的业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足业务特征信息与特征元素的识别提取规则,则将识别到的业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足业务特征信息与特征元素的识别提取规则,则丢弃识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
筛选模块404,用于根据提取的业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息。
可选地,筛选模块404具体用于对比返回的所有业务特征信息的结果集合与训练数据集合的业务特征信息,并计算所述提取规则信息的准确率,若准确率大于准确率阈值,则确定相应业务特征的提取规则信息满足预设条件,并保存相应业务特征的提取规则信息,若准确率小于或者等于准确率阈值,则确定相应业务特征的提取规则信息不满足预设条件。
迭代模块405,用于重新调整不满足预设条件的提取规则信息,对调整后的提取规则信息重复执行提取业务特征信息、筛选提取规则信息以及重新调整不满足预设条件的提取规则信息的步骤,直到得到提取出测试数据集合中的所有业务特征信息且满足预设条件的提取规则信息。
本实施例与现有技术相比,通过给定准确率阈值,并以迭代的方式调整业务特征识别提取规则、特征元素集合以及业务特征元素区间范围,直到模型训练后的业务特征识别提取规则、特征元素集合以及业务特征元素区间范围能够高效、准确地提取业务特征信息,满足实际业务需求。
本发明实施例还提供一种电信业务特征信息提取装置500,如图5所示,该装置500包括:
数据获取模块501,用于获取待提取业务特征信息的工单文本数据;
规则获取模块502,用于基于如前述所述的模型训练装置得到提取规则信息。提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围。
词库构建模块503,用于根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库。
分词模块504,用于结合所述特征库对所述待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
特征提取模块505,用于遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
本发明实施例相对于现有技术而言,通过利用构建业务特征元素集合单元触发业务特征提取,再通过业务特征识别提取规则及业务特征元素区间范围来精准、快速的将指定的业务特征信息提取出来,并通过给定准确率阀值控制参数调整,以此来保证最终提取结果的准确性,从而在保证高质量的基础上大大提升了客服人员人工提取业务特征的效率。本发明能够实现客户来访需求的工单的高准确业务特征提取,达到加快现场话务员服务响应能效,提升整体服务质量,提高热线整体运营数据分析的智能化程度,优化管理的效果。
本发明一实施例还提供一种计算机设备。如图6所示,该设备包括:存储器602、处理器601;
所述存储器602存储有可被所述至少一个处理器601执行的指令,所述指令被所述至少一个处理器601执行以实现前述实施例所述的方法。
该计算机设备包括一个或多个处理器601以及存储器602,图6中以一个处理器601为例。处理器601、存储器602可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器601通过运行存储在存储器602中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
一个或者多个模块存储在存储器602中,当被一个或者多个处理器601执行时,执行上述任意方法实施方式中的模型训练方法以及电信业务特征提取方法。
上述设备可执行本发明实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
本申请一实施例还提供一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括: U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (8)

1.一种模型训练方法,其特征在于,用于训练提取电信行业的业务特征信息的模型,所述方法包括:
获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合;
根据所述训练数据集合中业务特征信息得到业务特征的提取规则信息;所述提取规则信息包括:根据所述训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围;
基于所述提取规则信息从所述测试数据集合提取得到业务特征信息;
根据测试数据集合提取的业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息;
重新调整所述不满足所述预设条件的提取规则信息,对调整后的所述提取规则信息重复执行所述提取业务特征信息、筛选提取规则信息以及重新调整所述不满足所述预设条件的提取规则信息的步骤,直到得到提取出所述测试数据集合中的所有业务特征信息且满足所述预设条件的提取规则信息;
基于所述提取规则信息从所述测试数据集合提取得到业务特征信息,包括:
根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
结合所述特征库对所述测试数据集合中的工单文本进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合;
根据测试数据集合提取的业务特征信息与所述训练数据集合的业务特征信息的比较结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息,包括:
对比返回的所述所有业务特征信息的结果集合与所述训练数据集合的业务特征信息,并计算所述提取规则信息的准确率,若所述准确率大于准确率阈值,则确定相应业务特征的提取规则信息满足预设条件,并保存相应业务特征的提取规则信息,若所述准确率小于或者等于所述准确率阈值,则确定相应业务特征的提取规则信息不满足所述预设条件。
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述特征元素集合构建业务特征专有词性的特征库,包括:
以预设文件命名规则对所述特征元素集合进行文件命名,将所述特征元素集合的命名规则与其对应的指定业务特征名称保存到特征库。
3.根据权利要求1所述的模型训练方法,其特征在于,所述停用词库的词汇包括以下一者或其任意组合:英文字符、副词、语气词。
4.根据权利要求1所述的模型训练方法,其特征在于,所述结合所述特征库对所述测试数据集合中的工单文本进行分词得到分词结果集合,包括:
将所述特征库按照各字段提取先后的优先级排序整合入预设分词字典库,依次对所述测试数据集合中的工单文本进行分词得到分词结果集合。
5.一种电信业务特征信息提取方法,其特征在于,包括:
获取待提取业务特征信息的工单文本数据;
基于如权利要求1至4中任一项所述的模型训练方法得到提取规则信息;所述提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围;
根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
结合所述特征库对所述待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
6.一种模型训练装置,其特征在于,用于训练提取如权利要求1至4中任一项所述的电信行业的业务特征信息的模型,所述装置包括:
获取模块,用于获取实际业务工单文本的训练数据集合及待提取业务特征信息的测试数据集合;
规则构建模块,用于根据所述训练数据集合中业务特征信息得到业务特征的提取规则信息;所述提取规则信息包括:根据所述训练数据集合中的业务特征信息的业务判断依据构建的业务特征信息与特征元素的识别提取规则,以及从所述训练数据集合中的业务特征信息中抽取的特征元素集合、特征元素区间范围;
提取模块,用于基于所述提取规则信息从所述测试数据集合提取得到业务特征信息;
筛选模块,用于根据提取的所述业务特征信息与所述训练数据集合的业务特征信息的对比结果筛选得到所述提取规则信息中满足预设条件的提取规则信息以及不满足预设条件的提取规则信息;
迭代模块,用于重新调整所述不满足所述预设条件的提取规则信息,对调整后的所述提取规则信息重复执行所述提取业务特征信息、筛选提取规则信息以及重新调整所述不满足所述预设条件的提取规则信息的步骤,直到得到提取出所述测试数据集合中的所有业务特征信息且满足所述预设条件的提取规则信息。
7.一种电信业务特征信息提取装置,其特征在于,包括:
数据获取模块,用于获取待提取业务特征信息的工单文本数据;
规则获取模块,用于基于如权利要求6所述的模型训练装置得到提取规则信息;所述提取规则信息包括:业务特征信息与特征元素的识别提取规则、特征元素集合以及特征元素区间范围;
词库构建模块,用于根据所述特征元素集合构建业务特征专有词性的特征库以及与业务无关的停用词库;
分词模块,用于结合所述特征库对所述待提取业务特征信息的工单文本数据进行分词得到分词结果集合,并利用所述停用词库过滤所述分词结果集合;
特征提取模块,用于遍历过滤后的所述分词结果集合,若识别到业务特征专有词性的分词,则结合所述业务特征信息的特征元素区间范围,判断识别到的所述业务特征专有词性的分词是否满足业务特征信息与特征元素的识别提取规则,若满足所述业务特征信息与特征元素的识别提取规则,则将所述识别到的所述业务特征专有词性的分词对应的信息保存至业务特征信息的结果集合,若不满足所述业务特征信息与特征元素的识别提取规则,则丢弃所述识别到的所述业务特征专有词性的分词,直到遍历结束,返回提取的所有业务特征信息的结果集合。
8.一种计算机设备,其特征在于,包括:存储器和处理器,存储器存储计算机程序,处理器运行所述计算机程序以实现如权利要求1至5中任一项所述的方法。
CN202110753862.1A 2021-07-03 2021-07-03 模型训练方法、电信业务特征信息提取方法、装置及设备 Active CN113361644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110753862.1A CN113361644B (zh) 2021-07-03 2021-07-03 模型训练方法、电信业务特征信息提取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110753862.1A CN113361644B (zh) 2021-07-03 2021-07-03 模型训练方法、电信业务特征信息提取方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113361644A CN113361644A (zh) 2021-09-07
CN113361644B true CN113361644B (zh) 2024-05-14

Family

ID=77538155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110753862.1A Active CN113361644B (zh) 2021-07-03 2021-07-03 模型训练方法、电信业务特征信息提取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113361644B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693244A (zh) * 2011-03-23 2012-09-26 日电(中国)有限公司 用于识别非结构化文本中的信息的方法和装置
CN108319586A (zh) * 2018-01-31 2018-07-24 天闻数媒科技(北京)有限公司 一种信息提取规则的生成和语义解析方法及装置
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN109145282A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 断句模型训练方法、断句方法、装置及计算机设备
CN109359186A (zh) * 2018-10-25 2019-02-19 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109766540A (zh) * 2018-12-10 2019-05-17 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN110135693A (zh) * 2019-04-12 2019-08-16 北京中科闻歌科技股份有限公司 一种风险识别方法、装置、设备及存储介质
CN110223675A (zh) * 2019-06-13 2019-09-10 苏州思必驰信息科技有限公司 用于语音识别的训练文本数据的筛选方法及系统
CN110443236A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 贷后文本要点信息提取方法及装置
CN110516036A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 法律文书信息提取方法、装置、计算机设备及存储介质
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置
US10706236B1 (en) * 2018-06-28 2020-07-07 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
CN111563034A (zh) * 2020-04-14 2020-08-21 北京明略软件系统有限公司 一种模拟数据的生成方法和装置
CN111597813A (zh) * 2020-05-21 2020-08-28 上海创蓝文化传播有限公司 一种基于命名实体识别提取短信文本摘要的方法及装置
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN112651236A (zh) * 2020-12-28 2021-04-13 中电金信软件有限公司 提取文本信息的方法、装置、计算机设备和存储介质
CN112668323A (zh) * 2019-10-14 2021-04-16 北京慧点科技有限公司 基于自然语言处理的文本要素提取方法及其文本审查系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242180A1 (en) * 2003-07-23 2006-10-26 Graf James A Extracting data from semi-structured text documents

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693244A (zh) * 2011-03-23 2012-09-26 日电(中国)有限公司 用于识别非结构化文本中的信息的方法和装置
CN109145282A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 断句模型训练方法、断句方法、装置及计算机设备
CN108363716A (zh) * 2017-12-28 2018-08-03 广州索答信息科技有限公司 领域信息分类模型生成方法、分类方法、设备及存储介质
CN108319586A (zh) * 2018-01-31 2018-07-24 天闻数媒科技(北京)有限公司 一种信息提取规则的生成和语义解析方法及装置
US10706236B1 (en) * 2018-06-28 2020-07-07 Narrative Science Inc. Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
CN109359186A (zh) * 2018-10-25 2019-02-19 杭州时趣信息技术有限公司 一种确定地址信息的方法、装置和计算机可读存储介质
CN109766540A (zh) * 2018-12-10 2019-05-17 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN110135693A (zh) * 2019-04-12 2019-08-16 北京中科闻歌科技股份有限公司 一种风险识别方法、装置、设备及存储介质
CN110223675A (zh) * 2019-06-13 2019-09-10 苏州思必驰信息科技有限公司 用于语音识别的训练文本数据的筛选方法及系统
CN110516036A (zh) * 2019-07-18 2019-11-29 平安科技(深圳)有限公司 法律文书信息提取方法、装置、计算机设备及存储介质
CN110443236A (zh) * 2019-08-06 2019-11-12 中国工商银行股份有限公司 贷后文本要点信息提取方法及装置
CN112668323A (zh) * 2019-10-14 2021-04-16 北京慧点科技有限公司 基于自然语言处理的文本要素提取方法及其文本审查系统
CN111126065A (zh) * 2019-12-02 2020-05-08 南京医渡云医学技术有限公司 一种自然语言文本的信息提取方法及装置
CN111563034A (zh) * 2020-04-14 2020-08-21 北京明略软件系统有限公司 一种模拟数据的生成方法和装置
CN111597813A (zh) * 2020-05-21 2020-08-28 上海创蓝文化传播有限公司 一种基于命名实体识别提取短信文本摘要的方法及装置
CN112632292A (zh) * 2020-12-23 2021-04-09 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质
CN112651236A (zh) * 2020-12-28 2021-04-13 中电金信软件有限公司 提取文本信息的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113361644A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN109815991B (zh) 机器学习模型的训练方法、装置、电子设备及存储介质
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN110765770A (zh) 一种合同自动生成方法及装置
EP3869360A9 (en) New category tag mining method and device, electronic device and computer-readable medium
CN111767715A (zh) 人物识别的方法、装置、设备及存储介质
CN111612012A (zh) 健康码的识别方法及装置
CN107291684A (zh) 语言文本的分词方法和系统
CN114389834B (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN112163553A (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN110489559A (zh) 一种文本分类方法、装置及存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
US11263396B2 (en) System and method for document conversion to a template
CN116702727A (zh) 一种表格处理方法、装置、设备及介质
CN113361644B (zh) 模型训练方法、电信业务特征信息提取方法、装置及设备
CN112434049A (zh) 表格数据存储方法、装置、存储介质及电子装置
CN107784024B (zh) 构建当事人画像的方法及装置
CN107291749A (zh) 一种数据指标关联关系的确定方法及装置
CN105786929A (zh) 一种信息监测方法及装置
CN105868271B (zh) 一种姓名统计方法及装置
CN113836918A (zh) 文档搜索方法、装置、计算机设备及计算机可读存储介质
CN111027319A (zh) 自然语言时间词的解析方法、装置和计算机设备
CN113254698B (zh) 一种具备辅助填写功能的表格设计方法及系统
CN113077272B (zh) 通信业务营销案优化方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant