CN107229627B - 一种文本处理方法、装置及计算设备 - Google Patents
一种文本处理方法、装置及计算设备 Download PDFInfo
- Publication number
- CN107229627B CN107229627B CN201610171019.1A CN201610171019A CN107229627B CN 107229627 B CN107229627 B CN 107229627B CN 201610171019 A CN201610171019 A CN 201610171019A CN 107229627 B CN107229627 B CN 107229627B
- Authority
- CN
- China
- Prior art keywords
- keyword
- corrected
- text
- word
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本处理方法、装置及计算设备。该方法运行于文本处理系统,包括:对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词;根据至少一个关键词以及每个关键词对应的关联词,训练第一模型;对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词;将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词;根据修正后关键词和待修正关键词,训练第二模型;对待修正文本进行分词,将待修正文本的分词结果输入第二模型,修正待修正文本。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法、装置及计算设备。
背景技术
全文搜索技术已经发展了数十年,目前已经是一种较为成熟的技术。而传统的搜索系统一般都会默认导入系统内部的文件是正确无误的。因此,只要对导入系统内的文件做一些预处理后,就可以按照自己的方法对导入系统建立索引,提供给应用程序做搜索业务。然而,随着技术的进步,需要搜索的内容和来源变得更加多元化,很多内容本身在导入搜索引擎建立索引之前,都是经过多次转换的。所以,可能会存在一些转换的错误导致原有的关键信息丢失而搜索不到结果。
发明内容
针对上述技术问题,本发明提供了一种文本处理方法、装置及计算设备。在文本导入搜索引擎之前,发现并修正文本中存在的错误来提高关键词搜索结果的方法和装置。
第一方面,本发明提供了一种文本处理方法,所述方法运行于文本处理系统,所述文本处理系统包括至少一个计算设备,所述方法包括:
获取源文本,其中,源文本包括样本文本和测试文本;源文本可以为文本处理系统收集到的历史文本中的一部分,文本处理系统根据源文本来训练文本修正模型,以使文本更为精确。对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词。根据至少一个关键词以及每个关键词对应的关联词,训练第一模型;该模型也即用于修正待修正关键词的模型。对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词。将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词。根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型。对待修正文本进行分词,将待修正文本的分词结果输入第二模型,修正待修正文本。
在文本导入到搜索引擎之前,利用第一模型检测出文本中可能存在待修正的错误关键词;利用待修正关键词和与之对应的修正后关键词,训练第二模型,利用第二模型,将其他待修正文本中存在错误的关键词进行修正,提升了文本内关键词的精度,也有助于提高后续根据关键词进行搜索的精确度。
结合第一方面,在第一方面的第一种可能的实现方式中,对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词包括:对样本文本进行分词,获取样本文本的分词结果,样本文本的分词结果中包括至少一个样本文本词;从至少一个样本文本词中获取至少一个关键词,至少一个关键词在样本文本中的词频大于第一阈值;获取每个关键词的待选关联词,从每个关键词的待选关联词中获取每个关键词对应的关联词,每个关键词对应的关联词与每个关键词的联合概率大于第二阈值。
通过对词频高于第一阈值的关键词的提取,获取了文本中价值较高,后续使用频率较高的关键词,并通过与关键词的联合概率来筛选出各个关键词的关联词,以供后续训练。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据至少一个关键词以及每个关键词对应的关联词,训练第一模型包括:根据至少一个关键词、每个关键词对应的关联词以及每个关键词对应的关联词与每个关键词的联合概率,训练第一模型。
结合第一方面至第一方面的第二种可能的实现方式中的任一种,在第一方面的第三种可能的实现方式中,将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词,具体包括:利用第一模型将待修正关键词修正为至少一个待选修正关键词;将至少一个待选修正关键词构成待选修正关键词组;在待选修正关键词组中选取与待修正关键词对应的修正后关键词,其中,修正后关键词所对应的第一修正概率值,为待选修正关键词组中与待选修正关键词对应的修正概率值中的最大值,修正概率值为至少一个待选修正关键词中的每一个待选修正关键词和待选修正关键词对应的关联词之间的联合概率。
由于第一模型在判断每个待修正关键词的修正后关键词的过程中,不是简单的进行匹配,而是有一定概率的影响,因此每个待修正关键词可能对应有多个待选修正关键词,通过获取修正概率值最高的待选修正关键词作为最终的修正后关键词。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型,包括:根据待修正关键词对应的修正后关键词,待修正关键词以及修正后关键词对应的第一修正概率值,训练第二模型。
结合第一方面至第一方面的第二种可能的实现方式,以及第一方面的第四种可能的实现方式中的任一种,在第一方面的第五种可能的实现方式中,该方法还包括:获取查询日志中的日志关键词,日志关键词为查询日志中词频大于第三阈值的词;将日志关键词作为样本文本的关键词。
从用户的日志中,获取用户感兴趣的关键词,并将其作为样本文本中提取关键词的手段之一,提升了从样本文本中提取最有价值的关键词的精度,与第一方面的前几种实现方式相比,关键词的提取不仅仅依赖于样本文本中各个词的词频。
第二方面,本发明实施例提供了一种文本处理装置,该装置包括:
分词模块,用于获取源文本,源文本包括样本文本和测试文本;对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词;处理模块,用于根据至少一个关键词以及每个关键词对应的关联词,训练第一模型;分词模块还用于,对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词;处理模块还用于,将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词;根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型;分词模块还用于,对待修正文本进行分词;处理模块还用于,将待修正文本的分词结果输入第二模型,修正待修正文本。
结合第二方面,在第二方面的第一种可能的实现方式中,分词模块具体用于,对样本文本进行分词,获取样本文本的分词结果,样本文本的分词结果中包括至少一个样本文本词;从至少一个样本文本词中获取至少一个关键词,至少一个关键词在样本文本中的词频大于第一阈值;获取每个关键词的待选关联词,从每个关键词的待选关联词中获取每个关键词对应的关联词,每个关键词对应的关联词与每个关键词的联合概率大于第二阈值。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,处理模块具体用于:根据所述至少一个关键词、所述每个关键词对应的关联词以及所述每个关键词对应的关联词与所述每个关键词的联合概率,训练所述第一模型。
结合第二方面至第二方面的第二种可能的实现方式中的任一种实现方式,在第二方面的第三种可能的实现方式中,处理模块具体用于,利用第一模型将待修正关键词修正为至少一个待选修正关键词;将至少一个待选修正关键词构成待选修正关键词组;在待选修正关键词组中选取与待修正关键词对应的修正后关键词,其中,修正后关键词所对应的第一修正概率值,为待选修正关键词组中与待选修正关键词对应的修正概率值中的最大值,修正概率值为至少一个待选修正关键词中的每一个待选修正关键词和待选修正关键词对应的关联词之间的联合概率。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,处理模块具体用于,根据待修正关键词对应的修正后关键词,待修正关键词以及修正后关键词对应的第一修正概率值,训练第二模型。
结合第二方面至第二方面的第二种可能的实现方式,以及第二方面的第四种可能的实现方式中的任一种实现方式,在第二方面的第五种可能的实现方式中,处理模块还用于:获取查询日志中的日志关键词,日志关键词为查询日志中词频大于第三阈值的词;将日志关键词作为样本文本的关键词。
第三方面,本发明实施例提供了一种计算设备,该计算设备包括:处理器,存储器,总线及通信接口,处理器、存储器和通信接口通过总线实现通信连接,存储器用于存储处理器需要执行的指令,指令被处理器执行以用于实现在第一方面中所介绍的文本处理方法中的任一项所述的方法。
附图说明
图1为本发明实施例提供的一种修文本处理系统的架构图;
图2为本发明实施例提供的一种文本处理方法流程图;
图3为本发明实施例提供的一种文本处理装置的结构示意图。
具体实施方式
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的应用环境可以是利用语音识别软件处理语音文件获得的文本,也可以是以其他形式获取的文本。在下面的具体实施例中,以通过语音文件转换得来的文本进行修正为例说明。
本发明实施例提供了一种文本处理系统的系统架构图,如图1所示,该系统包括:录音器110,和计算设备120,计算设备120中包括处理器1201,存储器1202,总线1203以及通信接口1204。
录音器110可以是麦克风或者其他可以录音的设备,录音器110接收用户发来的声音信号,并对其进行记录生成语音文件。
计算设备中的处理器1201、存储器1202和通信接口1204可以通过总线1203建立通信连接,也可以通过无线传输等其他手段实现通信。
处理器1201可以为中央处理器(英文:central processing unit,缩写:CPU)。
存储器1202可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器,硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid state drive,缩写:SSD);存储器1202还可以包括上述种类的存储器的组合。
在通过软件来实现本申请提供的技术方案时,用于实现本申请图2提供的文本处理方法的程序代码保存在存储器1202中,并由处理器1201来执行。计算设备120通过通信接口1204与录音器110通信。
图2为本发明实施例一提供的一种文本处理方法流程图200,包括:
步骤210,获取源文本,源文本包括样本文本和测试文本。
具体的,录音器110将语音文件发送到计算设备120中,计算设备120将语音文件转换成多个文本,并将多个文本分为样本文本和测试文本。
计算设备120中可以利用自动语音识别(Automatic Speech Recognition,简称ASR)技术,将语音文件转换成文本。
步骤220,对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词。
具体的,计算设备120可以采用自然语言处理(Natural Language Processing,简称NLP)技术对样本文本进行分词处理,获取样本文本的分词结果。
样本文本的分词结果中包括至少一个样本文本词。从至少一个样本文本次中获取至少一个关键词,其中,每一个关键词在样本文本中的词频大于第一阈值。
例如,一篇文本是与信用卡有关的文本。在文本中出现了“新用户如果想要办理一张信用卡,必须携带个人的身份证”的语句。在采用NLP技术进行分词时,计算设备120会将这句话分词为“新/用户/如果/想/要/办理/一张/信用卡/,/必须/携带/个人/的/身份证/”。而每出现一个词,计算设备120还会统计该词在样本文本中所出现的次数。当一个词在样本文本中出现的次数,也即是词频大于第一阈值(例如第一阈值为20,即一个词出现次数大于20次)时,可以将该词定义为样本文本中的关键词。
可选的,在利用NLP技术对文本分词时,可以将该文本置于一个子场景中。这里的子场景就是一个专业词库。例如关于信用卡的文本,将该文本置于一个包括信用卡的专业词库中时,系统可以更容易将“信用卡”作为一个词,而不是单单的将“信用”作为一个词,“卡”单独作为一个词。也就是说,在子场景中,利用NLP技术分词时,可以更加的符合文本的情景,分词的准确率能够更高一些。
可选的,还可以获取每个关键词的待选关联词,从每个关键词的待选关联词中获取每个关键词对应的关联词,其中每个关键词对应的关联词与关键词的联合概率值大于第二阈值。
具体的,可以利用词向量的方法,计算关键词与该关键词的关联词之间的联合概率值。
例如,沿用上文中所举的例子,样本文本中的一个关键词是“信用卡”,而待选关联词可以为“要”、“办理”、“一张”、必须”和“携带”等等,可以通过贝叶斯公式计算待选关联词和关键词之间的联合概率值。例如,将关键词事件用A表示,关联词事件用B表示。P(A)是关键词单独出现的概率,P(B)是关联词单独出现的概率,而P(AB)则是关键词和关联词同时出现的概率。P(A|B)代表关联词出现的条件下关键词出现的概率,也即是关键词和关联词之间的联合概率,具体计算公式如下:
可选的,当关键词与所有该关键词的关联词之间的联合概率值均小于第二阈值时(例如,第二阈值为1%),则应该剔除掉该关键词。
因为,虽然利用NLP技术分词后,已经确定了一些关键词,但是关键词也仅仅是通过统计学的算法计算而得到的,不一定完全的准确。而联系上下文,如果获取的某一关键词与其相关联的关联词之间的联合概率值均小于第二阈值,那么则说明该关键词是伪关键词,所以应该剔除掉。
步骤230,根据至少一个关键词以及每个关键词对应的关联词,训练第一模型。
具体的,将至少一个关键词和关键词对应的关联词,作为输入参数对第一模型进行训练,以便于后续利用第一模型,获取待修正文本中的待修正关键词对应的修正后关键词。
可选的,也可以根据至少一个关键词,每个关键词对应的关联词以及每个关键词对应的关联词与关键词之间的联合概率,训练第一模型。第一模型可以采用机器学习模型,例如采用朴素贝叶斯或者支持向量机(Support Vector Machine,简称SVM)等。例如,关键词是“自动取款机”等,关联词是“故障”和“修理”等,关键词与两个关联词之间的联合概率分别是0.8546702,0.4326960等,具体参见表1。
表1
步骤240,对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词。
具体的分词步骤,以及获取测试文本中的待修正关键词以及待修正关键词对应的关联词等分别与步骤210和步骤220中对样本文本进行分词,和获取关键词以及关键词对应的关联词的步骤类似,这里不再赘述。
步骤250,将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词。
可选的,步骤250包括:利用所述第一模型将所述待修正关键词修正为至少一个待选修正关键词;从所述至少一个待选修正关键词中选取与所述待修正关键词对应的所述修正后关键词,其中,所述修正后关键词所对应的修正概率值,为所述至少一个待选修正关键词对应的修正概率值中的最大值,每个待选修正关键词对应的修正概率值为该待选修正关键词和所述待修正关键词对应的关联词之间的联合概率。
具体的,首先确定测试文本中出现的待修正关键词,同时,还可以根据待修正关键词在测试文本中的上下文,确定与待修正关键词对应的关联词,其中,与待修正关键词对应的关联词的个数同样可以一个或者多个。第一模型针对每一个待修正关键词,可能会将该待修正关键词修正为一个或者多个待选修正关键词,这一个或者多个待选修正关键词组成了待选修正关键词组。然后从待选修正关键词组中获取修正后关键词。
在一个具体的例子中,例如该第一模型是一个表格,如表1所示。那么,通过第一模型将待修正关键词与表格1中的每一个关键词进行匹配,同时,将待修正关键词的关联词与表格1中的关键词所对应的关联词相匹配,当二者皆匹配成功时,则会将匹配成功的一个或者多个关键词作为该待修正关键词对应的待选修正关键词,构成一个待选修正关键词组。而从待选修正关键词组中,确定待选修正关键词和待选修正关键词对应的关联词之间的联合概率值最大的一个,作为修正后关键词。
例如在语音文档转换成文本时,将“自动取款机故障”转换成了“自动**机故障”(**可以是拼错的后的任意词,或者,也可以使用**或其他字符代替,例如“自动期刊机”,“自动#&机”等),并且,该待修正关键词“自动**机故障”在该文本中出现了多次。而与待修正关键词对应的关联词还可以是修理(假设,原文中所记载的内容是:检测到自动**机发生故障,所以需要立即对自动**机进行修理,所取得关联词是待修正关键词右边的第二个词,所以,在第一次自动**机出现时,所取的第二关联词是发生和故障这两个词;而在第二次出现自动**机时,所取的第二关联词是进行,和修理这两个词)。处理器将会将该错误的关键词“自动**机”与第一模型中的一个或者多个关键词进行匹配,同时将该待修正关键词的关联词“故障”与第一模型中的与每一个关键词分别对应的关联词相匹配。获取修正关键词组。由表1中可以知道,在第一模型中,关联词是“故障”的,并且关键词包括自动**机的包括了两个关键词,第一个是自动取款机,第二个是自动存款机。并且,“自动取款机”与“故障”之间的联合概率值是0.8546702,即“自动取款机”对应的修正概率值为0.8546702,而“自动存款机”与“故障”之间的联合概率值是0.6543890,即“自动存款机”对应的修正概率值为0.6543890。而待修正关键词“自动**机”的关联词还包括一个“修理”,在与第一模型相匹配时,发现同样存在关联词“修理”,与该关联词对应的关键词同样是“自动取款机”,联合概率值是0.4326960。处理器则会将这两个关键词作为待修正关键词对应的待选修正关键词,将这两个待选修正关键词构成一个待选修正关键词组。而从待选修正关键词组中,选出修正概率值最高的待选修正关键词作为修正后关键词。
在另一个具体的例子中,第一模型也可以是一个分类器模型,或者类似分类器模型的其他模型。将待修正关键词输入到第一模型中,第一模型输出与待修正模型对应的一个或者多个待选修正关键词。构成待选修正关键词组。而从待选修正关键词组中,确定待选修正关键词和待选修正关键词对应的关联词之间的联合概率值最大的一个,作为修正后关键词。
利用第一模型对测试文本中的待修正关键词进行多次的迭代处理。例如,在测试文本中,“自动**机”出现的总次数为100次,在第一次处理后,将“自动**机”修正为“自动取款机”的次数为60次,将“自动**机”修正为“自动存款机”的次数为40次。将经过第一次处理后的,测试文本中的待修正关键词再次输入第一模型进行第二次处理后,测试文本中的待修正关键词“自动**机”被修正为“自动取款机”的次数为79次,“自动**机”被修正为“自动存款机”的次数为31次,进行多次前述迭代处理,直至第n-2次,将“自动**机”修正为“自动取款机”的次数为78次,将“自动**机”修正为“自动存款机”的次数为32次;第n-1次,将“自动**机”修正为“自动取款机”的次数为80次,将“自动**机”修正为“自动存款机”的次数为20次,第n次,将“自动**机”修正为“自动取款机”的次数为80次,将“自动**机”修正为“自动存款机”的次数为20次,第n+1次时,处理后的结果仍然没有变化或变化幅度小于预期,也即第n+1词迭代处理与第n次迭代处理中待修正关键词的修正结果无变化或变化幅度小于预期,将“自动**机”修正为“自动取款机”的次数为80次,将“自动**机”修正为“自动存款机”的次数为20次。
每个待选修正关键词对应的修正概率值还可以为该待选修正关键词修正待修正关键词的比例。承接上例,经过多次迭代处理后,迭代结果为将“自动**机”修正为“自动取款机”的次数为80次,即修正概率值为80%;将“自动**机”修正为“自动存款机”的次数为20次,则说明修正概率值为20%。在确定修正后关键词时,可以根据修正关键词组中各个待选修正关键词的修正概率值确定,选取修正概率值最大的待选修正关键词,作为修正后关键词。由此,将待选修正关键词“自动取款机”的修正概率值最大,为80%。因此,选取的修正后关键词为“自动取款机”。需要说明的是,在本实施例中,仅仅是列举了两个待选修正关键词与待修正关键词进行匹配,而在一种情况中,若与待修正关键词可以匹配的待选修正关键词为多个时,在构建待选修正关键词组时,可以按照每一个待选修正关键词与待选修正关键词对应的关联词之间的联合概率值来作为一个衡量标准。例如,一个待修正关键词和待修正关键词对应的关联词分别是自动**机/欠费,而在第一模型中与关联词“欠费”对应的待选关键词包括多个,即关联词同样是欠费,而在待选关键词中同样包括自动……机的包括多个词。此时,就取决于待选关键词与关联词“欠费”之间的联合概率值,可以取概率值较大的前几个词作为推荐的待选修正关键词,加入到待选修正关键词组中,再将待选修正关键词组中的待选关键词进行迭代处理。最后确定每一个待选修正关键词对应的修正概率值,确定修正概率值最大的待选关键词作为待修正关键词对应的修正后关键词。
步骤260,根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型。
具体的,可以利用待修正关键词和与之对应的修正后关键词作为输入参数训练第二模型,第二模型可以机械学习模型,例如SVM,神经网络等。
可选的,还可以将第一修正概率值,与待修正关键词和修正后关键词一起,作为输入参数对第二模型进行训练。
可选的,在训练过程中,输入参数还可以包括待修正关键词的关联词或与修正后关键词对应的修正概率值。例如,ATM**/机/ATM存款/90%。
其中,ATM**为待修正关键词,机是待修正关键词对应的关联词,ATM存款是修正后关键词,90%是修正概率值。
应当理解,一个存在错误的关键词,在修正的过程中,可能填充或者修正的字节为一个或者多个,如上文中,很有可能关键词是“ATM存款取款”,即填充的字节是4个,而不是两个。
再或者,例如一个关键词是“信用卡”,但是在语音文件转换为文本时,将信用卡转化成了“信用啊”,所以在语句中出现了“信用啊/欠费”,因为,需要修正的词时一个字,而在第一模型中,已经查询到信用卡和欠费这两个词的联合概率值是90%;那么,当这个关键词作为推荐的修正关键词时,可以规定该关键词与关联词之间的联合概率值不发生改变,就是90%。
而当语音文件转换成文本时,将“信用卡”转换成了“信用阿拉”,即语句中出现了“信用阿拉/欠费”,那么,即使信用卡和欠费这两个词之间的联合概率值是90%,此时若想将“信用卡”作为待修正关键词“信用阿拉”的推荐关键词时,则规定该关键词语关联词之间的联合概率值不再是90%,而是要再乘以一个修正系数。
这样做的目的是,可以提高修正的精确率。因为总会有一些词,可能缺少的本身就是两个词,而不是一个词。例如ATM存款机,在转换时转换成了ATM**机,而在关键词匹配时,可以是ATM存款机,或者也可以是ATM存款取款机。而正确的其实是ATM存款取款机,而不是ATM存款机。当然,这样的概率一般不会很大,所以才会在算关键词与关联词之间的联合概率值时,乘以一个修正系数。
步骤270,对待修正文本进行分词,将待修正文本的分词结果输入第二模型,修正待修正文本。
具体的,对待修正文本进行分词过程与对样本文本、对测试文本进行分词过程类似,这里不再赘述。
应理解,这里的待修正文本一般为测试文本和样本文本之外的文本。在获取文本时,首先利用第一模型检测文本中是否存在待修正关键词,在存在待修正关键词时,则利用第二修正模型,对该文本中的待修正关键词进行修正。
进一步可选的,因为在任何一个技术领域中,关键词都不是固定的,而根据样本文本所获取的关键词也不能完全覆盖整个技术领域的关键词。因此,该方法还可以包括步骤280,获取查询日志中的日志关键词,其中,日志关键词为查询日志中词频大于第三阈值的词;将日志关键词作为样本文本的关键词。步骤280可以执行于步骤270之后,即在本次对待修正文本的修正结束后,将从日志中提取的日志关键词作为新的样本文本的关键词的选择依据,例如,可以结合新的样本文本中词的词频与各个词是否为日志关键词结合判断新的样本文本中的关键词。步骤280还可以执行于步骤210之前,也即在本次从样本文本中提取关键词之前就提取日志关键词,并用于步骤210中对样本文本的关键词的提取中。
具体的,在用户查询信息时,可以获取日志中的日志关键词,例如在当前第一模型中不存在的关键词和关键词所在的技术领域内的热门词。这些日志关键词均是在查询日志中词频大于第三阈值的词。
可以将这些日志关键词,更新第一模型,进而可以获得更好的第二模型,提高文本中词的精确度。
在一个具体的实施例中,例如某银行的呼叫中心,业务员在跟客户沟通的过程中,已经将沟通的语音通过录音设备录制成了语音文件,然后计算设备又将语音文件转换成了文本。处理器利用第一模型查找出该文本中出现的待修正关键词,以及与之对应的关联词。例如,在文本中具体语句为“信用啦啊”,其中“信用啦啊”中的“啦啊”出现是因为ASR系统识别出该处有音节存在,但是因为噪音干扰或者抖动,未能正确的识别具体内容,使用语气词进行填充,其正确的内容应该是“信用卡”。
真实的业务场景是客户在咨询信用卡的相关事宜,“信用卡”在搜索索引中是一个完整的词语,而该词可能成为搜索的关键词,因为识别的错误,将会导致搜索失败。此时,则可以利用第二修正模型,将该关键词“信用啦啊”修正为“信用卡”。然后,将修正后的文本存储在存储器中。而在本发明实施例中,存储器中包含数据仓库组件。将修正后的文本则存储在数据仓库组件中,然后建立索引任务。当用户需要进行搜索应用时,可以利用搜索软件,例如百度等搜索,而应用软件则会通过API接口调用程序,与全文搜索引擎进行交互,搜索引擎则可以根据索引在数据仓库组件中找到与用户输入的关键词对应的文本,发送到搜索软件中,并通过显示屏显示给用户。
本发明实施例提供的文本处理方法,根据样本文本中的至少一个关键词以及与至少一个关键词对应的的关联词训练第一模型,并且通过第一模型获取待修正关键词对应的修正后关键词;根据待修正关键词,以及对应的修正后关键词,训练第二模型,利用第二模型修正待修正文本,提升了文本精度。
还应理解,在本发明的实施例中,可以利用业务已有的分类得到各个子场景的修正模型,利用每个子场景的修正模型来纠正错误数据文本中的关键词内容,充分利用了上下文信息。而每个子领域中的关键词词量较小,在训练修正模型时,相对容易。在特定的子场景中,避免了数据源的错误引入,同样可以有效的提高业务搜索的精确度,非常实用。
与上述文本处理方法相对应的,本发明实施例还提供了一种文本处理装置300,该文本处理装置300可以通过图1所示的计算设备120实现,还可以通过专用集成电路(英文:application-specific integrated circuit,缩写:ASIC)实现,或可编程逻辑器件(英文:programmable logic device,缩写:PLD)实现。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),即现场可编程门阵列(英文:fieldprogrammable gate array,缩写FPGA),通用阵列逻辑(英文:generic array logic,缩写:GAL)或其任意组合。该文本处理装置300用于实现图2所示的文本处理方法。通过软件实现图2所示的文本处理方法时,文本处理装置300及其各个模块也可以为软件模块。
具体的文本处理装置如图3所示,所述装置包括:分词模块301,处理模块302。
分词模块301,用于获取源文本,其中,源文本包括样本文本和测试文本;并对样本文本进行分词,获取样本文本中的至少一个关键词以及每个关键词对应的关联词。
具体的,分词模块301对样本文本进行分词,获取样本文本的分词结果,样本文本的分词结果中包括至少一个样本文本词;从至少一个样本文本词中获取至少一个关键词,至少一个关键词在样本文本中的词频大于第一阈值。
获取每个关键词的待选关联词,从每个关键词的待选关联词中获取每个关键词对应的关联词,每个关键词对应的关联词与每个关键词的联合概率大于第二阈值。
处理模块302,用于根据至少一个关键词以及每个关键词对应的关联词,训练第一模型。
具体的,处理模块302根据至少一个关键词、每个关键词对应的关联词以及每个关键词对应的关联词与每个关键词的联合概率,训练第一模型。
分词模块301还用于,对测试文本进行分词,获取测试文本中的待修正关键词以及待修正关键词对应的关联词。
处理模块302还用于,将待修正关键词以及待修正关键词对应的关联词输入第一模型,获取待修正关键词对应的修正后关键词。
根据待修正关键词对应的修正后关键词和待修正关键词,训练第二模型;
具体的,利用所述第一模型将所述待修正关键词修正为至少一个待选修正关键词;从所述至少一个待选修正关键词中选取与所述待修正关键词对应的所述修正后关键词,其中,所述修正后关键词所对应的修正概率值,为所述至少一个待选修正关键词对应的修正概率值中的最大值,每个待选修正关键词对应的修正概率值为该待选修正关键词和所述待修正关键词对应的关联词之间的联合概率。
可选的,处理模块302可以根据待修正关键词对应的修正后关键词,待修正关键词以及修正后关键词对应的第一修正概率值,训练第二模型。
分词模块301还用于,对待修正文本进行分词。
处理模块302还用于,将待修正文本的分词结果输入第二模型,修正待修正文本。
修正文本之后,还包括获取查询日志中的日志关键词,其中,日志关键词为查询日志中词频大于第三阈值的词;将日志关键词作为样本文本的关键词。
本申请实施例二提供的装置运行时执行本申请实施例一提供的方法,其工作细节参考本申请实施例一提供的方法。
本发明实施例提供的一种文本处理装置,根据样本文本中的关键词以及与关键词相关联的关联词训练第一模型,并且通过第一模型获取待修正关键词对应的修正后关键词;根据待修正关键词,以及对应的修正后关键词,训练第二模型,利用第二模型修正待修正文本,提升了文本的精度。
还应理解,在本发明的实施例中,可以利用业务已有的分类得到各个子场景对应的修正模型,利用每个子场景对应的修正模型来纠正错误数据文本中的关键词内容,充分利用了上下文信息。而每个子领域对应的词库中的关键词词量较小,在训练修正模型时,相对容易。在特定的子场景中,避免了数据源的错误引入,同样可以有效的提高业务搜索的精确度,非常实用。
与上述修正关键词的方法相对应的,本发明实施例还提供了一种计算设备,该计算设备包括:处理器和存储器总线及通信接口,其中,处理器、存储器和通信接口通过总线实现彼此之间的通信连接。处理器和存储器的组成部件以及所执行的方法步骤已经分别在上文中所介绍的文本处理系统和文本处理方法流程中做了详细的介绍,这里不再赘述。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、获取机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种文本处理方法,其特征在于,所述方法运行于文本处理系统,所述文本处理系统包括至少一个计算设备,所述方法包括:
获取源文本,所述源文本包括样本文本和测试文本;
对所述样本文本进行分词,获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词;
根据所述至少一个关键词以及所述每个关键词对应的关联词,训练第一模型;
对所述测试文本进行分词,获取所述测试文本中的待修正关键词以及所述待修正关键词对应的关联词;
将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型,获取所述待修正关键词对应的修正后关键词;
根据所述待修正关键词对应的修正后关键词和所述待修正关键词,训练第二模型;
对待修正文本进行分词,将所述待修正文本的分词结果输入所述第二模型,修正所述待修正文本。
2.如权利要求1所述的方法,其特征在于,所述对所述样本文本进行分词,获取所述样本文本中的至少一个关键词以及每个关键词对应的关联词包括:
对所述样本文本进行分词,获取所述样本文本的分词结果,所述样本文本的分词结果中包括至少一个样本文本词;
从所述至少一个样本文本词中获取所述至少一个关键词,所述至少一个关键词在所述样本文本中的词频大于第一阈值;
获取所述每个所述关键词的待选关联词,从所述每个关键词的待选关联词中获取所述每个关键词对应的关联词,所述每个关键词对应的关联词与所述每个关键词的联合概率大于第二阈值。
3.如权利要求2所述的方法,其特征在于,所述根据所述至少一个关键词以及所述每个关键词对应的关联词,训练第一模型包括:
根据所述至少一个关键词、所述每个关键词对应的关联词以及所述每个关键词对应的关联词与所述每个关键词的联合概率,训练所述第一模型。
4.如权利要求1至3任一所述方法,其特征在于,所述将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型,获取所述待修正关键词对应的修正后关键词,包括:
利用所述第一模型将所述待修正关键词修正为至少一个待选修正关键词;
从所述至少一个待选修正关键词中选取与所述待修正关键词对应的所述修正后关键词,其中,所述修正后关键词所对应的修正概率值,为所述至少一个待选修正关键词对应的修正概率值中的最大值,每个待选修正关键词对应的修正概率值为该待选修正关键词和所述待修正关键词对应的关联词之间的联合概率。
5.如权利要求4所述方法,其特征在于,根据所述待修正关键词对应的修正后关键词和所述待修正关键词,训练第二模型,包括:
根据所述待修正关键词对应的修正后关键词,所述待修正关键词以及所述修正后关键词对应的修正概率值,训练所述第二模型。
6.如权利要求1-3或5任一项所述的方法,其特征在于,所述方法还包括:
获取查询日志中的日志关键词,所述日志关键词为所述查询日志中词频大于第三阈值的词;
将所述日志关键词作为所述样本文本的关键词。
7.一种文本处理装置,其特征在于,所述装置包括:
分词模块,用于获取源文本,所述源文本包括样本文本和测试文本;
对所述样本文本进行分词,获取所述样本文本中的至少一个关键词以及 每个关键词对应的关联词;
处理模块,用于根据所述至少一个关键词以及所述每个关键词对应的关联词,训练第一模型;
所述分词模块还用于,对所述测试文本进行分词,获取所述测试文本中的待修正关键词以及所述待修正关键词对应的关联词;
所述处理模块还用于,将所述待修正关键词以及所述待修正关键词对应的关联词输入所述第一模型,获取所述待修正关键词对应的修正后关键词;
根据所述待修正关键词对应的修正后关键词和所述待修正关键词,训练第二模型;
所述分词模块还用于,对待修正文本进行分词;
所述处理模块还用于,将所述待修正文本的分词结果输入所述第二模型,修正所述待修正文本。
8.如权利要求7所述的装置,其特征在于,所述分词模块具体用于,对所述样本文本进行分词,获取所述样本文本的分词结果,所述样本文本的分词结果中包括至少一个样本文本词;
从所述至少一个样本文本词中获取所述至少一个关键词,所述至少一个关键词在所述样本文本中的词频大于第一阈值;
获取所述每个所述关键词的待选关联词,从所述每个关键词的待选关联词中获取所述每个关键词对应的关联词,所述每个关键词对应的关联词与所述每个关键词的联合概率大于第二阈值。
9.如权利要求8所述的装置,其特征在于,所述处理模块具体用于,根据所述至少一个关键词、所述每个关键词对应的关联词以及所述每个关键词对应的关联词与所述每个关键词的联合概率,训练所述第一模型。
10.如权利要求7至9任一项所述的装置,其特征在于,所述处理模块具体用于,利用所述第一模型将所述待修正关键词修正为至少一个待选修正关键词;
从所述至少一个待选修正关键词中选取与所述待修正关键词对应的所述修正后关键词,其中,所述修正后关键词所对应的修正概率值,为所述至少一个待选修正关键词对应的修正概率值中的最大值,每个待选修正关键词对应的修正概率值为该待选修正关键词和所述待修正关键词对应的关联词之间的联合概率。
11.如权利要求10所述的装置,其特征在于,所述处理模块具体用于,根据所述待修正关键词对应的修正后关键词,所述待修正关键词以及所述修正后关键词对应的修正概率值,训练所述第二模型。
12.如权利要求7-9或11任一项所述的装置,其特征在于,所述处理模块还用于:获取查询日志中的日志关键词,所述日志关键词为所述查询日志中词频大于第三阈值的词;
将所述日志关键词作为所述样本文本的关键词。
13.一种计算设备,其特征在于,所述计算设备包括:处理器、存储器,总线及通信接口,所述处理器、所述存储器和所述通信接口通过所述总线建立通信连接,所述存储器用于存储指令,所述处理器运行时执行所述指令以实现权利要求1-6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610171019.1A CN107229627B (zh) | 2016-03-24 | 2016-03-24 | 一种文本处理方法、装置及计算设备 |
PCT/CN2016/105951 WO2017161899A1 (zh) | 2016-03-24 | 2016-11-15 | 一种文本处理方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610171019.1A CN107229627B (zh) | 2016-03-24 | 2016-03-24 | 一种文本处理方法、装置及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107229627A CN107229627A (zh) | 2017-10-03 |
CN107229627B true CN107229627B (zh) | 2020-12-22 |
Family
ID=59899332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610171019.1A Active CN107229627B (zh) | 2016-03-24 | 2016-03-24 | 一种文本处理方法、装置及计算设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107229627B (zh) |
WO (1) | WO2017161899A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304868A (zh) * | 2018-01-25 | 2018-07-20 | 阿里巴巴集团控股有限公司 | 模型训练方法、数据类型识别方法和计算机设备 |
CN111291561B (zh) * | 2018-12-07 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置和系统 |
CN111667813B (zh) * | 2019-03-06 | 2024-04-19 | 北京精鸿软件科技有限公司 | 处理文件的方法和装置 |
CN111696545B (zh) * | 2019-03-15 | 2023-11-03 | 北京汇钧科技有限公司 | 语音识别纠错方法、装置以及存储介质 |
CN110689891A (zh) * | 2019-11-20 | 2020-01-14 | 广东奥园奥买家电子商务有限公司 | 一种基于公众显示装置的语音交互方法以及设备 |
CN111783424B (zh) * | 2020-06-17 | 2024-02-13 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN111737979B (zh) * | 2020-06-18 | 2021-01-12 | 龙马智芯(珠海横琴)科技有限公司 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
CN113190675A (zh) * | 2021-05-12 | 2021-07-30 | 平安国际智慧城市科技股份有限公司 | 文本摘要生成方法、装置、计算机设备和存储介质 |
CN113806542B (zh) * | 2021-09-18 | 2024-05-17 | 上海幻电信息科技有限公司 | 文本分析方法及系统 |
CN116842169B (zh) * | 2023-09-01 | 2024-01-12 | 国网山东省电力公司聊城供电公司 | 电力网格会话管理方法、系统、终端及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655837B (zh) * | 2009-09-08 | 2010-10-13 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN103366741B (zh) * | 2012-03-31 | 2019-05-17 | 上海果壳电子有限公司 | 语音输入纠错方法及系统 |
CN102929925A (zh) * | 2012-09-20 | 2013-02-13 | 百度在线网络技术(北京)有限公司 | 一种基于浏览内容的搜索方法及装置 |
US8713433B1 (en) * | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
CN103914444B (zh) * | 2012-12-29 | 2018-07-24 | 高德软件有限公司 | 一种纠错方法及其装置 |
CN103336765B (zh) * | 2013-06-20 | 2016-04-27 | 上海大学 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
CN104462085B (zh) * | 2013-09-12 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 检索关键词纠错方法及装置 |
KR101573854B1 (ko) * | 2014-07-15 | 2015-12-02 | 부산대학교 산학협력단 | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 |
CN104882139B (zh) * | 2015-05-28 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 语音合成的方法和装置 |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
-
2016
- 2016-03-24 CN CN201610171019.1A patent/CN107229627B/zh active Active
- 2016-11-15 WO PCT/CN2016/105951 patent/WO2017161899A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN107229627A (zh) | 2017-10-03 |
WO2017161899A1 (zh) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
US8165877B2 (en) | Confidence measure generation for speech related searching | |
US11164564B2 (en) | Augmented intent and entity extraction using pattern recognition interstitial regular expressions | |
EP1484745A1 (en) | Discriminative training of language models for text and speech classification | |
US8577155B2 (en) | System and method for duplicate text recognition | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN108027814B (zh) | 停用词识别方法与装置 | |
EP2657884A2 (en) | Identifying multimedia objects based on multimedia fingerprint | |
CN110377744B (zh) | 一种舆情分类的方法、装置、存储介质及电子设备 | |
WO2022095353A1 (zh) | 语音识别结果的测评方法、装置、设备及存储介质 | |
CN111274785B (zh) | 一种文本纠错方法、装置、设备及介质 | |
CN108229481B (zh) | 屏幕内容分析方法、装置、计算设备及存储介质 | |
US20230128497A1 (en) | Machine learning-implemented chat bot database query system for multi-format database queries | |
CN110210041B (zh) | 互译句对齐方法、装置及设备 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN115455142A (zh) | 文本检索方法、计算机设备和存储介质 | |
CN112307235B (zh) | 前端页面元素的命名方法、装置及电子设备 | |
US20110172991A1 (en) | Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN108882033B (zh) | 一种基于视频语音的人物识别方法、装置、设备和介质 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN111540363B (zh) | 关键词模型及解码网络构建方法、检测方法及相关设备 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN110427613B (zh) | 一种近义词发现方法及其系统、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220216 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Patentee after: Huawei Cloud Computing Technology Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |