CN108446388A - 文本数据质检方法、装置、设备及计算机可读存储介质 - Google Patents
文本数据质检方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108446388A CN108446388A CN201810240050.5A CN201810240050A CN108446388A CN 108446388 A CN108446388 A CN 108446388A CN 201810240050 A CN201810240050 A CN 201810240050A CN 108446388 A CN108446388 A CN 108446388A
- Authority
- CN
- China
- Prior art keywords
- quality inspection
- text
- inspection points
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文本数据质检方法、装置、设备及计算机可读存储介质。所述方法包括:获取消息级别的对话文本数据和会话级别的会话文本数据并进行预处理;根据预先设定的质检点和质检点对应的规则,分别利用全文搜索引擎和预设神经网络模型,从预处理后的对话文本数据和会话文本数据中标记出质检点;根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合,以作为最终的质检点结果。本发明实施例可将与全文搜索引擎匹配得到的质检结果,和利用预设神经网络模型分类出的质检结果,按照预设规则结合,以提高文本数据质检效率和准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本数据质检方法、装置、设备及计算机可读存储介质。
背景技术
在坐席销售的过程中,可能会与客户产生大量的对话文本,这些对话文本会保存在坐席销售的平台中。若要想对对话文本进行分析,目前采用的方法是先随机抽取一定条数的文本内容,再通过人工的方法进行分析。然而机器随机抽取的结果中,可能包含大量合规的文本内容。这样不仅使得分析人员工作效率不高,而且会遗漏大量的文本内容。如果遗漏的文本内容包含不合规(存在错误的地方)的内容,如重大违规项,则会引起客户不满,带来不小影响。
发明内容
本发明实施例提供一种文本数据质检方法、装置、设备及计算机可读存储介质,可将与全文搜索引擎匹配得到的质检结果,和利用预设神经网络模型分类出的质检结果,按照预设规则结合,以提高质检效率和准确率。
第一方面,本发明实施例提供了一种文本数据质检方法,该方法包括:
获取消息级别的对话文本数据和会话级别的会话文本数据;
将所述对话文本数据和会话文本数据进行预处理;
根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并在预处理后的会话文本数据中标记;
利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并在预处理后的会话文本数据标记出分类的质检点;
在预处理后的会话文本数据中,根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合,并将整合后的质检点结果作为最终的质检点结果。
第二方面,本发明实施例提供了一种文本数据质检装置,该装置包括用于执行上述第一方面所述一种文本数据质检方法的单元。
第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括存储器,以及与所述存储器相连的处理器;所述存储器用于存储计算机程序,所述处理器用于运行所述存储器中存储的计算机程序,以执行上述第一方面所述的文本数据质检的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现上述第一方面所述的文本数据质检的方法。
本发明实施例可将与全文搜索引擎匹配得到的质检结果,和利用预设神经网络模型分类出的质检结果,按照预设规则结合,以提高文本数据质检效率和准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本数据质检方法的流程示意图;
图2是本发明实施例提供的一种文本数据质检方法的子流程示意图;
图3是本发明实施例提供的一种文本数据质检方法的另一子流程示意图;
图4是本发明实施例提供的一种文本数据质检方法的另一子流程示意图;
图5是本发明实施例提供的一种文本数据质检方法的另一子流程示意图;
图6是本发明实施例提供的一种文本数据质检装置的示意性框图;
图7是本发明实施例提供的第一标记单元的示意性框图;
图8是本发明实施例提供的训练单元的示意性框图;
图9是本发明实施例提供的第二标记单元的示意性框图;
图10是本发明实施例提供的整合单元的示意性框图;
图11是本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。也应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语。这些术语仅用来将这些元素彼此区分开。例如,在不脱离本发明范围的前提下,第一获取单元可以被称为第二获取单元,并且类似地,第二获取单元可以被称为第一获取单元。第一获取单元和第二获取单元均为获取单元,但它们并非同一获取单元。
图1为本发明实施例提供的一种文本数据质检方法的流程示意图。该方法包括以下步骤S101-S106。
S101,获取消息级别的对话文本数据和会话级别的会话文本数据。其中,消息级别的对话文本数据从坐席销售的平台中得到,该对话文本数据中保存的是坐席与客户之间的对话文本。该对话文本数据属于消息级别,可以理解为对话文本数据是以坐席与客户之间发送的消息为单位保存的数据,该对话文本数据由众多的消息文本数据组成,每一条消息文本数据包括消息编号、发送人、接收人、具体的消息内容、发送消息的时间等。会话级别的会话文本数据理解为以坐席与客户之间的一个对话(会话)为单位保存的数据,即会话文本数据中保存的是坐席与客户之间的多个对话数据,如每个对话数据中包括对话编号、对话内容。每个对话内容中对应有多条消息文本数据。消息级别的对话文本数据由于是以消息为单位保存的数据,所以会存在散乱无序、无上下文关系、无人员关系等,不便于用户查看。
会话级别的会话文本数据可以根据消息级别的对话文本数据加工处理后得到,具体加工处理的流程包括:对消息级别的对话文本数据进行预处理,如去重等;从预处理后的消息级别的对话文本数据中找出每条消息文本数据中的发送人和接收人;将发送人和接收人作为一个集合,按照集合对对话文本数据中的消息文本数据进行分组,将集合相同的消息文本数据分成一组,如此就分成了多组的数据,这意味分成一组的发送人和接收人是同一个对话中的两个人,不同对话分成了不同的组;将每组中的消息文本数据按照按照时间先后顺序进行排序,并将排序后的消息文本数据按照预定格式显示,如预定格式可以为:发送消息的时间[空格]发送人[冒号]具体的消息内容。如2017-01-0112:01:02张三:李老师,在吗?可以理解为,会话级别的会话文本数据是将消息级别的对话文本数据中的消息文本数据按照时间的先后顺序和发送人接收人信息整理后的以对话为单位的多个对话数据。其中,消息级别的对话文本数据和会话级别的会话文本数据是以数据表的形式保存在数据库中,如Oracle数据库等。消息级别的对话文本数据和会话级别的会话文本数据根据数据量的多少,分别可以保存为多个数据表,也可以保存为一个数据表。
S102,将对话文本数据和会话文本数据进行预处理。预处理的方法包括替换,过滤等。替换包括将对话文本数据和会话文本数据中对应消息文本数据中的英文替换为中文等;过滤包括将对话文本数据和会话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉。将对话文本数据和会话文本数据中的消息文本数据进行预处理,以保留消息文本数据中的具体的消息内容中的纯文本消息,方便后续的处理。
S103,根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记。其中,质检点可以理解为不合规或者违规的地方,也就是存在错误的地方。每个质检点有质检点标识,如A47,表示A类中第47个质检点,质检点对应的规则包括关键词和逻辑运算。质检点和质检点对应的规则,举例如:A47,基金and分红。其中,关键词包括:基金、分红,逻辑运算包括and。A47质检点表示,若一条消息中同时出现了基金和分红,那么认为该条消息违规了。可以理解为,基金这个产品不涉及分红,也可以理解为,当说到基金这个产品时不会想到会说分红,若一条消息中同时出现基金和分红,那么这条消息违规,也就是出现错误。全文搜索引擎,指的是ElasticSearch(简写为ES)搜索引擎。ES使用关键词,并利用ES的API接口must,should,must not组合分装实现质检点对应的规则,从对话文本数据和会话文本数据中进行查询搜索,找出匹配的质检点并标记,其中标记用质检点标识来标记。分别从对话文本数据和会话文本数据中进行查询搜索,可以理解为,有一些质检点可以通过消息级别的文本表现出来,那么从对话文本数据中进行查询搜索;有一些质检点单从消息级别的文本中得不到,而需要从前后多个消息级别的文本中才可以得到,那么需要从会话文本数据中进行查询搜索。
在一实施例中,如图2所示,所述步骤S103包括以下步骤S201-S203。
S201,将预处理后的对话文本数据和会话文本数据进行分词。通过全文搜索引擎中的分词将预处理后的对话文本数据和会话文本数据中每个消息文本数据中的具体消息内容分成多个单词,如消息“我来到北京清华大学”,分词的结果为“我来到北京清华大学”。
S202,对分词后的数据建立倒排索引。具体地,统计分成的词在对对话文本数据和会话文本数据中出现的次数和位置;根据出现的次数和位置对分成的词进行倒排索引。如统计词“分红”在对话文本数据和会话文本数据中出现的次数和位置,其中,在对话文本数据中的位置包括在哪个对话文本数据表、哪个消息文本数据(可以用消息编号来表示),在会话文本数据中的位置包括在哪个会话文本数据表、哪段会话(可以用对话编号表示)等。其中,倒排索引是实现“单词-文档矩阵”的一种存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的“文档列表”。如在会话文本数据中,通过该倒排索引可以根据分成的词快速获取包含这个词的对话列表,如哪些对话中出现了该词。
S203,根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从对话文本表和会话文本表中查询出匹配的质检点并进行标记。根据质检点对应的规则查询搜索到匹配的质检点后,进行质检点标记。如对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记,在会话文本数据中标记可以理解为在会话文本数据中每一个对话内容对应的多个消息文本数据后进行相应的质检点标记。建立倒排索引后,可以加快查询匹配的速度。在数据量很大的情况下,仍能快速的完成质检点的查询匹配和标记。
S104,从训练过的神经网络模型中选取其中一个作为预设神经网络模型。
其中,从训练过的神经网络模型中选取其中一个作为预设神经网络模型包括:从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。其中,多个神经网络模型可以为长短时神经网络模型(LSTM,Long Short-TermMemory)(简称为模型1)、长短时神经网络模型结合注意力机制(Attention Mechanism)(简称为模型2)、双向长短时记忆神经网络(Bidirectional Long Short-term Memory,BLSTM)(简称为模型3)、双向长短期记忆神经网络结合注意力机制(简称为模型4)等,也可以是其他的适用的神经网络模型。
获取训练过的模型1、模型2、模型3、模型4后,获取测试样本集,如可以预先获取一定数量的含有质检点的对话文本数据和会话文本数据作为测试样本集,其中,含有质检点的对话文本数据和会话文本数据,可以通过利用全文搜索引擎对对话文本数据和会话文本数据进行标记并保存得到,也可以结合人工质检的结果;利用测试样本集,对模型1、模型2、模型3、模型4进行质检点分类并标记出分类的质检点;计算每个模型的分类准确率,其中,准确率计算公式为:(Ai∩B)/C,C表示人工复核样本数量,A表示人工复核样本数量中模型质检点个数,B表示人工复核样本数量中人工质检点个数,i∈(1,2,3,4),分别表示对应模型;选择分类准确率较高的模型作为预设神经网络模型。可以理解地,从多个不同的神经网络模型中选择出分类准确率较高的模型作为预设神经网络模型,来对对话文本数据和会话文本数据进行分类并标记出分类的质检点,以提高模型分类质检点的准确率。
在其他实施例中,从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型之前,还包括对多个不同神经网络模型进行训练,如可以预先获取一定数量的含有质检点的对话文本数据和会话文本数据作为训练样本集,需要注意的是,训练样本集与测试样本集不含有相同的数据,一般来说,训练样本集的数据大于测试样本集的数据;利用训练样本集,同时训练模型1、模型2、模型3和模型4,得到训练过的模型1、模型2、模型3、模型4。
需要指出的是,在另一些实施例中,从训练过的神经网络模型中选取其中一个作为预设神经网络模型包括:将训练过的一个神经网络模型作为预设神经网络模型。可以理解地,只选择一个神经网络模型进行训练,将训练好的神经网络模型作为预设神经网络模型。如此,就无需从多个神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。然而,无论是一个神经网络模型,还是从多个神经网络模型中选择一个分类准确率最高的神经网络模型,都需要对神经网络模型进行训练的过程。
在一实施例中,如图3所示,训练神经网络模型的过程包括以下步骤S301-S304。
S301,获取含有质检点的对话文本数据和会话文本数据。其中,若含有质检点的对话文本数据和会话文本数据没有经过预处理,那么还需要进行预处理,预处理的方法包括替换,过滤等。替换包括将对话文本数据和会话文本数据中对应消息文本数据中的英文替换为中文等;过滤包括将对话文本数据和会话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉等。获取含有质检点的对话文本数据和会话文本数据作为训练样本集。
S302,利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词。其中,分词工具可以为结巴分词,利用结巴分词对对话文本数据和会话文本数据中每个消息文本数据分成多个单词。结巴分词支持三种模式:一,精确模式,试图将句子最精确地切开,适合文本分析;二,全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;三,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。在本实施例中,选用精确模式对含有质检点的对话文本数据和会话文本数据进行分词。通过分词将对话文本数据每个消息文本数据分成多个单词,如消息“我来到北京清华大学”,分词的结果为“我来到北京清华大学”。
S303,利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。其中,词向量(word embedding)模型指的是gensim的word2vec词向量模型。其中,gensim是一个通过衡量词组(或更高级结构,如整句或文档)模式来挖掘文档语义结构的工具。gensim以文本文档的集合作为输入,并生成一个“向量”来表征该文集的文本内容,从而实现语义挖掘,该向量表示可被用于训练一个“模型”。word2vec是gensim的一个“模型”,可以计算词向量。word2vec实际上是个浅层的神经网络,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练,训练得到的训练结果为词向量,可以很好地度量词与词之间的相似性。
预设词向量模型通过预先训练得到,训练词向量模型的过程如下:获取对含有质检点的对话文本数据和会话文本数据,其中,若含有质检点的对话文本数据和会话文本数据没有经过预处理,那么还需要进行预处理,预处理的方法包括替换,过滤等;对含有质检点的对话文本数据和会话文本数据进行分词,其中,可以使用结巴分词工具的精确模式对含有质检点的对话文本数据和会话文本数据进行分词;设置训练word2vec词向量模型的参数,如最小次数min_count=5,该最小次数表示小于5次的单词会被丢弃,神经网络隐藏层的单元数size=128,迭代的次数iterator=5等;将分词后的数据作为训练数据集,训练word2vec词向量模型得到预设词向量模型。
其中,需要指出的是,用来训练词向量模型的数据量通常非常大,要远大于训练神经网络模型所需要的数据量。在实际使用中,可以先对大量的含有质检点的对话文本数据和会话文本数据进行分词,使用分词后的数据来训练词向量模型得到预设词向量模型,然后从分词后的数据中拿出一部分数据,来训练神经网络模型,以得到预设神经网络模型。可以理解地,训练词向量模型和训练神经网络模型的数据可以是同一批的数据,在其他实施例中也可以是不同批的数据,即训练词向量模型的数据和训练神经网络模型的数据不一样。
S304,根据词向量和对应的质检点,训练神经网络模型。具体地:将词向量和对应的质检点输入,训练神经网络,如若神经网络模型是长短时神经网络模型,那么训练长短时神经网络,若神经网络模型是双向长短时记忆神经网络模型,那么训练双向长短时神经网络;将神经网络各个节点输出的数据输入到平均池化层,以融合神经网络各个节点的结果;再将经过平均池化层后的数据输入到softmax函数,以得到分类结果,最终使得到的分类结果和标记的质检点结果尽可能多的相同。
需要指出的是,每隔一段时间,如一个星期,半个月等,需要对预设神经网络模型或者对预设词向量模型进行更新,具体地,以新的含有质检点的对话文本数据和会话文本数据作为输入来进行更新,以使预设神经网络模型或者词向量模型总能适应新的数据的变化。
S105,利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点。
在一实施例中,如图4所示,所述步骤S105包括以下步骤S401-S404。
S401,获取预处理后的对话文本数据和会话文本数据。
S402,利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词。其中,分词工具可以为结巴分词,利用结巴分词对对话文本数据和会话文本数据中每个消息文本数据分成多个单词。具体地,选用结巴分词中的精确模式对含有质检点的对话文本数据和会话文本数据进行分词。通过分词将对话文本数据每个消息文本数据分成多个单词。
S403,利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。
S404,根据对应的词向量,利用预设神经网络模型进行分类,得到分类出的质检点并标记出质检点。对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记,在会话文本数据中标记可以理解为在会话文本数据中每一个对话内容对应的多个消息文本数据后进行相应的质检点标记。
S106,根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合,并将整合后的质检点结果作为最终的质检点结果。
在一实施例中,如图5所示,所述步骤S106包括如下步骤S501-S504。
S501,将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到全文搜索引擎标记出的质检点结果。具体地,将利用全文搜索引擎标记出的含有质检点的对话文本数据进行加工处理得到加工后的会话文本数据,并将加工后的会话文本数据和利用全文搜索引擎标记出的含有质检点的会话文本数据进行合并,得到全文搜索引擎标记出的质检点结果,其中,加工后的会话文本数据中是以消息文本数据为单位标记的质检点。全文搜索引擎标记出的质检点结果中有以消息文本数据为单位标记的质检点,也有以对话为单位标记的质检点。全文搜索引擎标记出的质检点结果最终是在会话文本数据中显示的,可以理解为,在会话文本数据中显示可以方便用户进一步的查阅相关内容。其中,加工处理的过程主要包括:从利用全文搜索引擎标记出的含有质检点的对话文本数据中找出每条消息文本数据中的发送人和接收人;将发送人和接收人作为一个集合,按照集合对对话文本数据中的消息文本数据进行分组;将每组中的消息文本数据按照时间先后顺序进行排序,并将排序后的消息文本数据按照预定格式显示,如预定格式可以为:发送消息的时间[空格]发送人[冒号]具体的消息内容。可以理解为,加工后的会话文本数据是将对话文本数据中的消息文本数据按照时间的先后顺序整理后的以对话为单位的多个对话数据。
S502,将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到预设神经网络模型标记出的质检点结果。具体地,将利用预设神经网络模型标记出的含有质检点的对话文本数据进行加工处理得到加工后的会话文本数据,并将加工后的会话文本数据和利用预设神经网络模型标记出的含有质检点的会话文本数据进行合并,得到预设神经网络模型标记出的质检点结果,其中,加工后的会话文本数据中有以消息文本数据为单位标记的质检点。预设神经网络模型标记出的质检点结果中有以消息文本数据为单位标记的质检点,也有以对话为单位标记的质检点。预设神经网络模型标记出的质检点结果最终是在会话文本数据中显示的,可以理解为,在会话文本数据中显示可以方便用户进一步的查阅相关内容。其中,加工处理的过程如前述所述,在此不再赘述。
S503,根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合。其中,预设规则可以为合并,可以理解为进行逻辑与运算,即将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行逻辑与运算。如对于对话文本数据中的某一条消息文本数据,利用全文搜索引擎标记出的质检点结果为A47,而利用预设神经网络模型标记出的质检点结果为B16,进行逻辑与运算后,该条消息文本数据的质检点结果为A47,B16;如对于对话文本数据中的某一条消息文本数据,利用全文搜索引擎标记出的质检点结果为A47,而利用预设神经网络模型标记出的质检点结果为空,那么进行逻辑与运算后,该条消息文本数据的质检点结果为A47。预设规则也可以是选择两者中准确率较高的质检点结果作为整合后的质检点结果。如若利用全文搜索引擎标记出的质检点结果准确率低于利用预设神经网络模型标记出的质检点结果的准确率,那么选择预设神经网络模型标记出的质检点结果作为整合后的质检点结果;若利用全文搜索引擎标记出的质检点结果准确率不低于利用预设神经网络模型标记出的质检点结果的准确率,那么选择全文搜索引擎标记出的质检点结果作为整合后的质检点结果。
S504,将整合后的质检点结果作为最终的质检点结果。
在其他实施例中,也可以根据预设规则将利用全文搜索引擎在预处理后的对话文本数据中标记出的质检点和利用预设神经网络模型在预处理后的对话文本数据标记出的质检点进行处理,再根据预设规则将利用全文搜索引擎在预处理后的会话文本数据中标记出的质检点和利用预设神经网络模型在预处理后的会话文本数据标记出的质检点进行处理,将两次处理后的结果进行合并,以得到最终的质检点结果。
以上实施例,通过利用全文搜索引擎和预设神经网络模型从预处理后的对话文本和会话文本中标记出质检点,避免了机器随机抽取、人工抽检的方法而造成的只对一部分数据进行处理,而遗漏其他可能的质检点。该方案可对全部数据进行处理,高效质检全部数据,提高质检效率。同时利用全文搜索引擎和预设神经网络模型,这两个不同模型从预处理后的对话文本和会话文本中标记出质检点,并将两个不同模型的质检点进行整合,找出所有可能的质检点,提高质检的准确率。
图6是本发明实施例提供的一种文本数据质检装置的示意性框图。如图6所示,该装置60包括获取单元601、预处理单元602、第一标记单元603、选择单元604、第二标记单元605、整合单元606、训练单元607。
获取单元601,用于,获取消息级别的对话文本数据和会话级别的会话文本数据。其中,消息级别的对话文本数据从坐席销售的平台中得到,该对话文本数据中保存的是坐席与客户之间的对话文本。该对话文本数据属于消息级别,可以理解为对话文本数据是以坐席与客户之间发送的消息为单位保存的数据,该对话文本数据由众多的消息文本数据组成,每一条消息文本数据包括消息编号、发送人、接收人、具体的消息内容、发送消息的时间等。会话级别的会话文本数据理解为以坐席与客户之间的一个对话(会话)为单位保存的数据,即会话文本数据中保存的是坐席与客户之间的多个对话数据,如每个对话数据中包括对话编号、对话内容。每个对话内容中对应有多条消息文本数据。会话级别的会话文本数据可以根据消息级别的对话文本数据加工处理后得到,具体请参看方法实施例中对应的加工处理部分,在此不再赘述。
预处理单元602,用于将对话文本数据和会话文本数据进行预处理。预处理的方法包括替换,过滤等。替换包括将对话文本数据和会话文本数据中对应消息文本数据中的英文替换为中文等;过滤包括将对话文本数据和会话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉。将对话文本数据和会话文本数据中的消息文本数据进行预处理,以保留消息文本数据中的具体消息内容中的纯文本消息,方便后续的处理。
第一标记单元603,用于根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记。其中,质检点可以理解为不合规或者违规的地方,也就是存在错误的地方。每个质检点有质检点标识,如A47,表示A类中第47个质检点,质检点对应的规则包括关键词和逻辑运算。质检点和质检点对应的规则,举例如:A47,基金and分红。其中,关键词包括:基金、分红,逻辑运算包括and。A47质检点表示,若一条消息中同时出现了基金和分红,那么认为该条消息违规了。可以理解为,基金这个产品不涉及分红,也可以理解为,当说到基金这个产品时不会想到会说分红,若一条消息中同时出现基金和分红,那么这条消息违规,也就是出现错误。全文搜索引擎,指的是ElasticSearch(简写为ES)搜索引擎。ES使用关键词,并利用ES的API接口must,should,must not组合分装实现质检点对应的规则,从对话文本数据和会话文本数据中进行查询搜索,找出匹配的质检点并标记,其中标记用质检点标识来标记。分别从对话文本数据和会话文本数据中进行查询搜索,可以理解为,有一些质检点可以通过消息级别的文本表现出来,那么从对话文本数据中进行查询搜索;有一些质检点单从消息级别的文本中得不到,而需要从前后多个消息级别的文本中才可以得到,那么需要从会话文本数据中进行查询搜索。
在一实施例中,如图7所示,第一标记单元603包括数据分词单元701、索引单元702、查询标记单元703。
数据分词单元701,用于将预处理后的对话文本数据和会话文本数据进行分词。通过全文搜索引擎中的分词将预处理后的对话文本数据和会话文本数据中每个消息文本数据分成多个单词,如消息“我来到北京清华大学”,分词的结果为“我来到北京清华大学”。
索引单元702,用于对分词后的数据建立倒排索引。具体地,统计分成的词在对对话文本数据和会话文本数据中出现的次数和位置;根据出现的次数和位置对分成的词进行倒排索引。如统计词“分红”在对话文本数据和会话文本数据中出现的次数和位置,其中,在对话文本数据中的位置包括在哪个对话文本数据表、哪个消息文本数据(可以用消息编号来表示),在会话文本数据中的位置包括在哪个会话文本数据表、哪段会话(可以用对话编号表示)等。其中,倒排索引是实现“单词-文档矩阵”的一种存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的“文档列表”。如在会话文本数据中,通过该倒排索引可以根据分成的词快速获取包含这个词的对话列表,即哪些对话中出现了该词。
查询标记单元703,用于根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从对话文本表和会话文本表中查询出匹配的质检点并进行标记。根据质检点对应的规则查询搜索到匹配的质检点后,进行质检点标记。如对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记,在会话文本数据中标记可以理解为在会话文本数据中每一个对话内容对应的多个消息文本数据后进行相应的质检点标记。建立倒排索引后,可以加快查询匹配的速度。在数据量很大的情况下,仍能快速的完成质检点的查询匹配和标记。
选择单元604,用于从训练过的神经网络模型中选取其中一个作为预设神经网络模型。
其中,从训练过的神经网络模型中选取其中一个作为预设神经网络模型包括:从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。其中,多个神经网络模型可以为长短时神经网络模型(LSTM,Long Short-TermMemory)(简称为模型1)、长短时神经网络模型结合注意力机制(Attention Mechanism)(简称为模型2)、双向长短时记忆神经网络(Bidirectional Long Short-term Memory,BLSTM)(简称为模型3)、双向长短期记忆神经网络结合注意力机制(简称为模型4)等,也可以是其他的适用的神经网络模型。
获取训练过的模型1、模型2、模型3、模型4后,获取测试样本集,如可以预先获取一定数量的含有质检点的对话文本数据和会话文本数据作为测试样本集,其中,含有质检点的对话文本数据和会话文本数据,可以通过利用全文搜索引擎对对话文本数据和会话文本数据进行标记并保存得到,也可以结合人工质检的结果;利用测试样本集,对模型1、模型2、模型3、模型4进行质检点分类并标记出分类的质检点;计算每个模型的分类准确率,其中,准确率计算公式为:(Ai∩B)/C,C表示人工复核样本数量,A表示人工复核样本数量中模型质检点个数,B表示人工复核样本数量中人工质检点个数,i∈(1,2,3,4),分别表示对应模型;选择分类准确率较高的模型作为预设神经网络模型,可以理解地,从多个不同的神经网络模型中选择出分类准确率较高的模型作为预设神经网络模型,来对对话文本数据和会话文本数据进行分类并标记出分类的质检点,以提高模型分类质检点的准确率。
在其他实施例中,从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型之前,还包括对多个不同神经网络模型的训练,如可以预先获取一定数量的含有质检点的对话文本数据和会话文本数据作为训练样本集,需要注意的是,训练样本集与测试样本集不含有相同的数据,一般来说,训练样本集的数据大于测试样本集的数据;利用训练样本集,同时训练模型1、模型2、模型3和模型4,得到训练过的模型1、模型2、模型3、模型4。
需要指出的是,在另一些实施例中,从训练过的神经网络模型中选取其中一个作为预设神经网络模型包括:将训练过的一个神经网络模型作为预设神经网络模型。可以理解地,可以只选择一个神经网络模型进行训练,将训练好的神经网络模型作为预设神经网络模型,如此,就无需从多个神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。然而,无论是选择一个神经网络模型,还是从多个神经网络模型中选择一个分类准确率最高的神经网络模型,都需要对神经网络模型进行训练。即在其他实施例中,装置60还包括训练单元607。
如图8所示,训练单元607包括第一获取单元801、第一分词单元802、第一词向量单元803、模型训练单元804。
第一获取单元801,用于获取含有质检点的对话文本数据和会话文本数据。其中,若含有质检点的对话文本数据和会话文本数据没有经过预处理,那么还需要进行预处理,预处理的方法包括替换,过滤等。替换包括将对话文本数据和会话文本数据中对应消息文本数据中的英文替换为中文等;过滤包括将对话文本数据和会话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉等。
第一分词单元802,用于利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词。其中,分词工具可以为结巴分词。在本实施例中,选用精确模式对含有质检点的对话文本数据和会话文本数据进行分词。通过分词将对话文本数据每个消息文本数据分成多个单词,如消息“我来到北京清华大学”,分词的结果为“我来到北京清华大学”。
第一词向量单元803,用于利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。其中,词向量(word embedding)模型指的是gensim的word2vec词向量模型。word2vec是gensim的一个“模型”,可以计算词向量。word2vec实际上是个浅层的神经网络,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练,训练得到的训练结果为词向量,可以很好地度量词与词之间的相似性。
预设词向量模型通过预先训练得到,即在其他实施例中,训练单元还包括预设词向量获取单元,预设词向量获取单元用于训练词向量模型以得到预设词向量模型。具体地,预设词向量获取单元包括质检数据获取单元、质检数据分词单元、设置单元、词向量训练单元。其中,质检数据获取单元,用于获取对含有质检点的对话文本数据和会话文本数据,其中,若含有质检点的对话文本数据和会话文本数据没有经过预处理,那么还需要进行预处理,预处理的方法包括替换,过滤等。质检数据分词单元,用于对含有质检点的对话文本数据和会话文本数据进行分词,其中,可以使用结巴分词工具的精确模式对含有质检点的对话文本数据和会话文本数据进行分词。设置单元,用于设置训练word2vec词向量模型的参数,如最小次数min_count=5,该最小次数表示小于5次的单词会被丢弃,神经网络隐藏层的单元数size=128,迭代的次数iterator=5等。词向量训练单元,用于将分词后的数据作为训练数据集,训练word2vec词向量模型得到预设词向量模型。
其中,需要指出的是,用来训练词向量模型的数据量通常非常大,要远大于训练神经网络模型所需要的数据量。在实际使用中,可以先对大量的含有质检点的对话文本数据和会话文本数据进行分词,使用分词后的数据来训练词向量模型得到预设词向量模型,然后从分词后的数据中拿出一部分数据,来训练神经网络模型,以得到预设神经网络模型。可以理解地,训练词向量模型和训练神经网络模型的数据可以是同一批的数据,在其他实施例中也可以是不同批的数据,即训练词向量模型的数据和训练神经网络模型的数据不一样。
模型训练单元804,用于根据词向量和对应的质检点,训练神经网络模型。具体地:将词向量和对应的质检点输入,训练神经网络,若神经网络模型是长短时神经网络模型,那么训练长短时神经网络,若神经网络模型是双向长短时记忆神经网络模型,那么训练双向长短时神经网络;将神经网络各个节点输出的数据输入到平均池化层,以融合神经网络各个节点的结果;再将经过平均池化层后的数据输入到softmax函数,以得到分类结果,最终使得到的分类结果和标记的质检点结果尽可能多的相同。若只有一个神经网络模型,将训练好的神经网络模型作为预设神经网络模型。若有多个神经网络模型,还需要进行进一步的处理,即用多个训练过的神经网络模型中选择一个分类准确率最高的神经网络模型作为预设神经网络模型。
需要指出的是,每隔一段时间,如一个星期,半个月等,需要对预设神经网络模型或者对预设词向量模型进行更新,具体地,以新的含有质检点的对话文本数据和会话文本数据作为输入来进行更新,以使预设神经网络模型或者词向量模型总能适应新的数据的变化。
第二标记单元605,用于利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点。
在一实施例中,如图9所示,第二标记单元605包括第二获取单元901、第二分词单元902、第二词向量单元903、分类单元904。
第二获取单元901,用于获取预处理后的对话文本数据和会话文本数据。
第二分词单元902,用于利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词。其中,分词工具可以为结巴分词,利用结巴分词对对话文本数据和会话文本数据中每个消息文本数据分成多个单词。具体地,选用结巴分词中的精确模式对含有质检点的对话文本数据和会话文本数据进行分词。通过分词将对话文本数据每个消息文本数据分成多个单词。
第二词向量单元903,用于利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。
在其他实施例中,第二标记单元还包括预设词向量获取单元,预设词向量获取单元用于训练词向量模型以得到预设词向量模型。具体地,预设词向量获取单元包括质检数据获取单元、质检数据分词单元、设置单元、词向量训练单元。具体地,请参看训练单元中预设词向量获取单元部分的描述。
分类单元904,用于根据对应的词向量,利用预设神经网络模型进行分类,得到分类出的质检点并标记出质检点。对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记,在会话文本数据中标记可以理解为在会话文本数据中每一个对话内容对应的多个消息文本数据后进行相应的质检点标记。
整合单元606,用于根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合,并将整合后的质检点结果作为最终的质检点结果。
在一实施例中,如图10所示,整合单元606包括第一合并单元101、第二合并单元102、结果整合单元103、质检点结果确定单元104。
第一合并单元101,用于将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到全文搜索引擎标记出的质检点结果。具体地,将利用全文搜索引擎标记出的含有质检点的对话文本数据进行加工处理得到加工后的会话文本数据,并将加工后的会话文本数据和利用全文搜索引擎标记出的含有质检点的会话文本数据进行合并,得到全文搜索引擎标记出的质检点结果,其中,加工后的会话文本数据中有以消息文本数据为单位标记的质检点。全文搜索引擎标记出的质检点结果中有以消息文本数据为单位标记的质检点,也有以对话为单位标记的质检点。全文搜索引擎标记出的质检点结果最终是在会话文本数据中显示的,可以理解为,在会话文本数据中显示可以方便用户进一步的查阅相关内容。其中,加工处理的过程主要包括:从利用全文搜索引擎标记出的含有质检点的对话文本数据中找出每条消息文本数据中的发送人和接收人;将发送人和接收人作为一个集合,按照集合对对话文本数据中的消息文本数据进行分组;将每组中的消息文本数据按照时间先后顺序进行排序,并将排序后的消息文本数据按照预定格式显示,如预定格式可以为:发送消息的时间[空格]发送人[冒号]具体的消息内容。可以理解为,加工后的会话文本数据是将对话文本数据中的消息文本数据按照时间的先后顺序整理后的以对话为单位的多个对话数据。
第二合并单元102,用于将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到预设神经网络模型标记出的质检点结果。具体地,将利用预设神经网络模型标记出的含有质检点的对话文本数据进行加工处理得到加工后的会话文本数据,并将加工后的会话文本数据和利用预设神经网络模型标记出的含有质检点的会话文本数据进行合并,得到预设神经网络模型标记出的质检点结果,其中,加工后的会话文本数据中有以消息文本数据为单位标记的质检点。预设神经网络模型标记出的质检点结果中有以消息文本数据为单位标记的质检点,也有以对话为单位标记的质检点。预设神经网络模型标记出的质检点结果最终是在会话文本数据中显示的,可以理解为,在会话文本数据中显示可以方便用户进一步的查阅相关内容。其中,加工处理的过程如前述所述,在此不再赘述。
结果整合单元103,用于根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合。其中,预设规则可以为合并,可以理解为进行逻辑与运算,即将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行逻辑与运算。如对于对话文本数据中的某一条消息文本数据,利用全文搜索引擎标记出的质检点结果为A47,而利用预设神经网络模型标记出的质检点结果为B16,进行逻辑与运算后,该条消息文本数据的质检点结果为A47,B16;如对于对话文本数据中的某一条消息文本数据,利用全文搜索引擎标记出的质检点结果为A47,而利用预设神经网络模型标记出的质检点结果为空,那么进行逻辑与运算后,该条消息文本数据的质检点结果为A47。预设规则也可以是选择两者中准确率较高的质检点结果作为整合后的质检点结果。如若利用全文搜索引擎标记出的质检点结果准确率低于利用预设神经网络模型标记出的质检点结果的准确率,那么选择预设神经网络模型标记出的质检点结果作为整合后的质检点结果;若利用全文搜索引擎标记出的质检点结果准确率不低于利用预设神经网络模型标记出的质检点结果的准确率,那么选择全文搜索引擎标记出的质检点结果作为整合后的质检点结果。
质检点结果确定单元104,用于将整合后的质检点结果作为最终的质检点结果。
在其他实施例中,也可以根据预设规则将利用全文搜索引擎在预处理后的对话文本数据中标记出的质检点和利用预设神经网络模型在预处理后的对话文本数据标记出的质检点进行处理,再根据预设规则将利用全文搜索引擎在预处理后的会话文本数据中标记出的质检点和利用预设神经网络模型在预处理后的会话文本数据标记出的质检点进行处理,将两次处理后的结果进行合并,以得到最终的质检点结果。
以上实施例,通过利用全文搜索引擎和预设神经网络模型从预处理后的对话文本和会话文本中标记出质检点,避免了机器随机抽取、人工抽检的方法而造成的只对一部分数据进行处理,而遗漏其他可能的质检点。该方案可对全部数据进行处理,高效质检全部数据,提高质检效率。同时利用全文搜索引擎和预设神经网络模型,这两个不同模型从预处理后的对话文本和会话文本中标记出质检点,并将两个不同模型的质检点进行整合,找出所有可能的质检点,提高质检的准确率。
上述装置可以实现为一种计算机程序的形式,计算机程序可以在如图11所示的计算机设备上运行。
图11为本发明实施例提供的一种计算机设备的示意性框图。该计算机设备110可以是手机、pad等便携式设备,也可以是台式机等非便携式设备。该设备110包括通过系统总线111连接的处理器112、存储器和网络接口113,其中,存储器可以包括非易失性存储介质114和内存储器115。
该非易失性存储介质114可存储操作系统1141和计算机程序1142。该计算机程序1142被执行时,可使得处理器112执行一种文本数据质检方法。该处理器112用于提供计算和控制能力,支撑整个设备110的运行。该内存储器115为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器112执行时,可使得处理器112执行一种文本数据质检方法。该网络接口113用于进行网络通信,如获取数据等。本领域技术人员可以理解,图110中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的设备110的限定,具体的设备110可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器112用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取消息级别的对话文本数据和会话级别的会话文本数据;将所述对话文本数据和会话文本数据进行预处理;根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记;利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点;根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合,并将整合后的质检点结果作为最终的质检点结果。
在一实施例中,处理器112在执行所述利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点之前,所述处理器112还执行训练神经网络模型并从训练过的神经网络模型中选取其中一个作为预设神经网络模型,其中,所述处理112在执行训练神经网络模型时,具体执行:
获取含有质检点的对话文本数据和会话文本数据;利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词;利用预设词向量模型对分词后的数据进行处理,得到对应的词向量;根据词向量和对应的质检点,训练神经网络模型。
在一实施例中,处理器112在执行从训练过的神经网络模型中选取其中一个作为预设神经网络模型时,具体执行:
从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。
在一实施例中,处理器112在执行所述利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点时,具体执行:
获取预处理后的对话文本数据和会话文本数据;利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词;利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。根据对应的词向量,利用预设神经网络模型进行分类,得到分类出的质检点并标记出质检点。
在一实施例中,处理器112在执行获取预设词向量模型时,具体执行:
获取对含有质检点的对话文本数据和会话文本数据进行分词后的数据;设置训练词向量模型的参数;将分词后的数据作为训练数据集,训练词向量模型后得到预设词向量模型。
在一实施例中,处理器112在执行根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记时,具体执行:
将预处理后对话文本数据和会话文本数据进行分词;对分词后的数据建立倒排索引;根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从对话文本表和会话文本表中查询出匹配的质检点并进行标记。
在一实施例中,处理器112在执行根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合,并将整合后的质检点结果作为最终的质检点结果时,具体执行:
将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到全文搜索引擎标记出的质检点结果;将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到预设神经网络模型标记出的质检点结果;根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合;将整合后的质检点结果作为最终的质检点结果。
应当理解,在本发明实施例中,所称处理器112可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时实现以下步骤:
获取消息级别的对话文本数据和会话级别的会话文本数据;将所述对话文本数据和会话文本数据进行预处理;根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记;利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点;根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合,并将整合后的质检点结果作为最终的质检点结果。
在一实施例中,所述处理器在执行利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点之前,所述处理器还执行训练神经网络模型并从训练过的神经网络模型中选取其中一个作为预设神经网络模型,其中,所述处理在执行训练神经网络模型时,具体实现:
获取含有质检点的对话文本数据和会话文本数据;利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词;利用预设词向量模型对分词后的数据进行处理,得到对应的词向量;根据词向量和对应的质检点,训练神经网络模型。
在一实施例中,所述处理器在执行从训练过的神经网络模型中选取其中一个作为预设神经网络模型时,具体实现:
从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。
在一实施例中,所述处理器在执行所述利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点时,具体实现:
获取预处理后的对话文本数据和会话文本数据;利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词;利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。根据对应的词向量,利用预设神经网络模型进行分类,得到分类出的质检点并标记出质检点。
在一实施例中,所述处理器在执行获取预设词向量模型时,具体实现:
获取对含有质检点的对话文本数据和会话文本数据进行分词后的数据;设置训练词向量模型的参数;将分词后的数据作为训练数据集,训练词向量模型后得到预设词向量模型。
在一实施例中,所述处理器在执行根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记时,具体实现:
将预处理后对话文本数据和会话文本数据进行分词;对分词后的数据建立倒排索引;根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从对话文本表和会话文本表中查询出匹配的质检点并进行标记。
在一实施例中,所述处理器在执行根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合,并将整合后的质检点结果作为最终的质检点结果时,具体实现:
将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到全文搜索引擎标记出的质检点结果;将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到预设神经网络模型标记出的质检点结果;根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合;将整合后的质检点结果作为最终的质检点结果。
所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(SecureDigital,SD)卡等。进一步地,所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文本数据质检方法,其特征在于,所述方法包括:
获取消息级别的对话文本数据和会话级别的会话文本数据;
将所述对话文本数据和会话文本数据进行预处理;
根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记;
利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点;
根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果进行整合,并将整合后的质检点结果作为最终的质检点结果。
2.根据权利要求1所述的方法,其特征在于,在所述利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点之前,所述方法还包括训练神经网络模型并从训练过的神经网络模型中选取其中一个作为预设神经网络模型,其中,训练神经网络模型,包括:
获取含有质检点的对话文本数据和会话文本数据;
利用分词工具对含有质检点的对话文本数据和会话文本数据中的文本信息进行分词;
利用预设词向量模型对分词后的数据进行处理,得到对应的词向量;
根据词向量和对应的质检点,训练神经网络模型。
3.根据权利要求2所述的方法,其特征在于,从训练过的神经网络模型中选取其中一个作为预设神经网络模型,包括:
从多个不同的训练过的神经网络模型中选择出分类准确率最高的神经网络模型作为预设神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述利用预设神经网络模型,将预处理后的对话文本数据和会话文本数据中的数据进行分类并标记出分类的质检点,包括:
获取预处理后的对话文本数据和会话文本数据;
利用分词工具对预处理后的对话文本数据和会话文本数据中的文本信息进行分词;
利用预设词向量模型对分词后的数据进行处理,得到对应的词向量。
根据对应的词向量,利用预设神经网络模型进行分类,得到分类出的质检点并标记出质检点。
5.根据权利要求2或者4所述的方法,其特征在于,获取预设词向量模型包括:
获取对含有质检点的对话文本数据和会话文本数据进行分词后的数据;
设置训练词向量模型的参数;
将分词后的数据作为训练数据集,训练词向量模型后得到预设词向量模型。
6.根据权利要求1所述的方法,其特征在于,所述根据预先设定的质检点和质检点对应的规则,利用全文搜索引擎,从预处理后的对话文本数据和会话文本数据中查询出匹配的质检点并进行标记,包括:
将预处理后对话文本数据和会话文本数据进行分词;
对分词后的数据建立倒排索引;
根据预先设定的质检点和质检点对应的规则,利用建立的倒排索引和全文搜索引擎,从对话文本表和会话文本表中查询出匹配的质检点并进行标记。
7.根据权利要求1所述的方法,其特征在于,所述根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合,并将整合后的质检点结果作为最终的质检点结果,包括:
将利用全文搜索引擎在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到全文搜索引擎标记出的质检点结果;
将利用预设神经网络模型在预处理后的对话文本数据和会话文本数据中标记出的质检点进行合并,得到预设神经网络模型标记出的质检点结果;
根据预设规则将全文搜索引擎标记出的质检点结果与预设神经网络模型标记出的质检点结果整合;
将整合后的质检点结果作为最终的质检点结果。
8.一种文本数据质检装置,其特征在于,所述文本数据质检装置包括用于执行如权利要求1-7任一项所述方法的单元。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器,以及与所述存储器相连的处理器;
所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现如权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810240050.5A CN108446388A (zh) | 2018-03-22 | 2018-03-22 | 文本数据质检方法、装置、设备及计算机可读存储介质 |
PCT/CN2018/102069 WO2019179022A1 (zh) | 2018-03-22 | 2018-08-24 | 文本数据质检方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810240050.5A CN108446388A (zh) | 2018-03-22 | 2018-03-22 | 文本数据质检方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446388A true CN108446388A (zh) | 2018-08-24 |
Family
ID=63196144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810240050.5A Pending CN108446388A (zh) | 2018-03-22 | 2018-03-22 | 文本数据质检方法、装置、设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108446388A (zh) |
WO (1) | WO2019179022A1 (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376844A (zh) * | 2018-10-30 | 2019-02-22 | 银河水滴科技(北京)有限公司 | 基于云平台和模型推荐的神经网络自动训练方法和装置 |
CN109635918A (zh) * | 2018-10-30 | 2019-04-16 | 银河水滴科技(北京)有限公司 | 基于云平台和预设模型的神经网络自动训练方法和装置 |
CN109726764A (zh) * | 2018-12-29 | 2019-05-07 | 北京航天数据股份有限公司 | 一种模型选择方法、装置、设备和介质 |
CN109740759A (zh) * | 2018-12-13 | 2019-05-10 | 平安科技(深圳)有限公司 | 学习模型优化与选择方法、电子装置及计算机设备 |
CN109739989A (zh) * | 2018-12-29 | 2019-05-10 | 北京奇安信科技有限公司 | 文本分类方法和计算机设备 |
CN109740760A (zh) * | 2018-12-25 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
CN109815487A (zh) * | 2018-12-25 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN110019817A (zh) * | 2018-12-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种视频中文字信息的检测方法、装置及电子设备 |
CN110610004A (zh) * | 2019-09-03 | 2019-12-24 | 深圳追一科技有限公司 | 标注质量的检测方法、装置、计算机设备和存储介质 |
CN110909162A (zh) * | 2019-11-15 | 2020-03-24 | 龙马智芯(珠海横琴)科技有限公司 | 文本质检的方法、存储介质及电子设备 |
CN110929011A (zh) * | 2019-11-28 | 2020-03-27 | 北京思特奇信息技术股份有限公司 | 一种对话分析方法、装置和设备 |
CN111177380A (zh) * | 2019-12-21 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种意图数据质检方法及系统 |
WO2020258904A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳追一科技有限公司 | 确定质检效果的方法、装置、设备及存储介质 |
CN112468658A (zh) * | 2020-11-20 | 2021-03-09 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
CN113657773A (zh) * | 2021-08-19 | 2021-11-16 | 中国平安人寿保险股份有限公司 | 话术质检方法、装置、电子设备及存储介质 |
WO2023274167A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 图像分类、模型训练方法、设备、存储介质及计算机程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2810421A1 (en) * | 2010-09-10 | 2012-03-15 | Rudolf Hauke | Method for finding and digitally evaluating illegal image material |
CN105141787A (zh) * | 2015-08-14 | 2015-12-09 | 上海银天下科技有限公司 | 服务录音的合规检查方法及装置 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106202330A (zh) * | 2016-07-01 | 2016-12-07 | 北京小米移动软件有限公司 | 垃圾信息的判断方法及装置 |
CN106373558A (zh) * | 2015-07-24 | 2017-02-01 | 科大讯飞股份有限公司 | 语音识别文本处理方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107093431B (zh) * | 2016-02-18 | 2020-07-07 | 中国移动通信集团辽宁有限公司 | 一种对服务质量进行质检的方法及装置 |
CN105701088B (zh) * | 2016-02-26 | 2018-12-28 | 北京京东尚科信息技术有限公司 | 从机器对话切换到人工对话的方法和装置 |
CN106934000B (zh) * | 2017-03-03 | 2020-10-09 | 深圳市彬讯科技有限公司 | 一种呼叫系统的语音自动质检方法及系统 |
CN107333014A (zh) * | 2017-06-29 | 2017-11-07 | 上海澄美信息服务有限公司 | 一种智能录音质检系统 |
CN107705807B (zh) * | 2017-08-24 | 2019-08-27 | 平安科技(深圳)有限公司 | 基于情绪识别的语音质检方法、装置、设备及存储介质 |
-
2018
- 2018-03-22 CN CN201810240050.5A patent/CN108446388A/zh active Pending
- 2018-08-24 WO PCT/CN2018/102069 patent/WO2019179022A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2810421A1 (en) * | 2010-09-10 | 2012-03-15 | Rudolf Hauke | Method for finding and digitally evaluating illegal image material |
CN106373558A (zh) * | 2015-07-24 | 2017-02-01 | 科大讯飞股份有限公司 | 语音识别文本处理方法及系统 |
CN105141787A (zh) * | 2015-08-14 | 2015-12-09 | 上海银天下科技有限公司 | 服务录音的合规检查方法及装置 |
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN106202330A (zh) * | 2016-07-01 | 2016-12-07 | 北京小米移动软件有限公司 | 垃圾信息的判断方法及装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635918A (zh) * | 2018-10-30 | 2019-04-16 | 银河水滴科技(北京)有限公司 | 基于云平台和预设模型的神经网络自动训练方法和装置 |
CN109376844A (zh) * | 2018-10-30 | 2019-02-22 | 银河水滴科技(北京)有限公司 | 基于云平台和模型推荐的神经网络自动训练方法和装置 |
CN110019817A (zh) * | 2018-12-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种视频中文字信息的检测方法、装置及电子设备 |
CN109740759B (zh) * | 2018-12-13 | 2024-05-03 | 平安科技(深圳)有限公司 | 学习模型优化与选择方法、电子装置及计算机设备 |
CN109740759A (zh) * | 2018-12-13 | 2019-05-10 | 平安科技(深圳)有限公司 | 学习模型优化与选择方法、电子装置及计算机设备 |
WO2020133960A1 (zh) * | 2018-12-25 | 2020-07-02 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN109740760B (zh) * | 2018-12-25 | 2024-04-05 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
CN109740760A (zh) * | 2018-12-25 | 2019-05-10 | 平安科技(深圳)有限公司 | 文本质检自动化训练方法、电子装置及计算机设备 |
CN109815487A (zh) * | 2018-12-25 | 2019-05-28 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN109815487B (zh) * | 2018-12-25 | 2023-04-18 | 平安科技(深圳)有限公司 | 文本质检方法、电子装置、计算机设备及存储介质 |
CN109739989B (zh) * | 2018-12-29 | 2021-05-18 | 奇安信科技集团股份有限公司 | 文本分类方法和计算机设备 |
CN109739989A (zh) * | 2018-12-29 | 2019-05-10 | 北京奇安信科技有限公司 | 文本分类方法和计算机设备 |
CN109726764A (zh) * | 2018-12-29 | 2019-05-07 | 北京航天数据股份有限公司 | 一种模型选择方法、装置、设备和介质 |
WO2020258904A1 (zh) * | 2019-06-28 | 2020-12-30 | 深圳追一科技有限公司 | 确定质检效果的方法、装置、设备及存储介质 |
CN110610004A (zh) * | 2019-09-03 | 2019-12-24 | 深圳追一科技有限公司 | 标注质量的检测方法、装置、计算机设备和存储介质 |
CN110909162A (zh) * | 2019-11-15 | 2020-03-24 | 龙马智芯(珠海横琴)科技有限公司 | 文本质检的方法、存储介质及电子设备 |
CN110929011A (zh) * | 2019-11-28 | 2020-03-27 | 北京思特奇信息技术股份有限公司 | 一种对话分析方法、装置和设备 |
CN111177380A (zh) * | 2019-12-21 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种意图数据质检方法及系统 |
CN112468658A (zh) * | 2020-11-20 | 2021-03-09 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
CN112468658B (zh) * | 2020-11-20 | 2022-10-25 | 平安普惠企业管理有限公司 | 语音质量检测方法、装置、计算机设备及存储介质 |
WO2023274167A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 图像分类、模型训练方法、设备、存储介质及计算机程序 |
CN113657773A (zh) * | 2021-08-19 | 2021-11-16 | 中国平安人寿保险股份有限公司 | 话术质检方法、装置、电子设备及存储介质 |
CN113657773B (zh) * | 2021-08-19 | 2023-08-29 | 中国平安人寿保险股份有限公司 | 话术质检方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019179022A1 (zh) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446388A (zh) | 文本数据质检方法、装置、设备及计算机可读存储介质 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN103076892B (zh) | 一种用于提供输入字符串所对应的输入候选项的方法与设备 | |
CN104899267B (zh) | 一种社交网站账号相似度的综合数据挖掘方法 | |
AU2010210014B2 (en) | Systems, Methods and Apparatus for Relative Frequency Based Phrase Mining | |
US20180260385A1 (en) | Symbol management | |
US20130297581A1 (en) | Systems and methods for customized filtering and analysis of social media content collected over social networks | |
US20130304818A1 (en) | Systems and methods for discovery of related terms for social media content collection over social networks | |
CN107609960A (zh) | 推荐理由生成方法及装置 | |
CN108628971A (zh) | 不均衡数据集的文本分类方法、文本分类器及存储介质 | |
US10298531B2 (en) | Analyzing email threads | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN103136262B (zh) | 信息检索方法及装置 | |
CN106708940A (zh) | 用于处理图片的方法和装置 | |
CN104317784A (zh) | 一种跨平台用户识别方法和系统 | |
CN103425727B (zh) | 上下文语音查询扩大方法和系统 | |
CN106502989A (zh) | 情感分析方法及装置 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN102982157A (zh) | 用于挖掘微博热点话题的装置及方法 | |
CN107958014B (zh) | 搜索引擎 | |
CN106897424A (zh) | 信息标注系统及方法 | |
US10216837B1 (en) | Selecting pattern matching segments for electronic communication clustering | |
CN105893615B (zh) | 基于手机取证数据的机主特征属性挖掘方法及其系统 | |
CN108319376A (zh) | 一种优化商业词推广的输入联想推荐方法及装置 | |
CN109739989A (zh) | 文本分类方法和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180824 |