CN109408795A - 一种文本识别方法、设备、计算机可读存储介质及装置 - Google Patents
一种文本识别方法、设备、计算机可读存储介质及装置 Download PDFInfo
- Publication number
- CN109408795A CN109408795A CN201710708318.9A CN201710708318A CN109408795A CN 109408795 A CN109408795 A CN 109408795A CN 201710708318 A CN201710708318 A CN 201710708318A CN 109408795 A CN109408795 A CN 109408795A
- Authority
- CN
- China
- Prior art keywords
- text
- fingerprint
- fingerprints
- classification
- referenced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/12—Messaging; Mailboxes; Announcements
- H04W4/14—Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明实施例公开了一种文本识别方法,所述方法包括:获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;识别所述第一文本指纹所属的类别得到识别结果;若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。本发明实施例同时还公开了一种文本识别设备、计算机可读存储介质和装置。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种文本识别方法、设备、计算机可读存储介质及装置。
背景技术
随着通讯技术的飞速发展,短文本成为用户进行信息交流的一种快捷方式。但是,各种恶意的短文本例如垃圾短信等给用户带来了巨大的困扰。现有技术中,防治垃圾短信的方法主要有:黑白名单法、基于发送用户行为规则的方法、基于短信内容关键词方法、基于复杂的机器学习方法及基于指纹库的识别方法等。
在基于指纹库的识别方法中,主要是通过对接收到的短信文本进行压缩编码,并在文本指纹库中进行比对确定该短文本的类型,然后根据该短文本的类型确定是否发送该短文本至接收者,其中,文本指纹库中的文本指纹是将短信文本进行二进制编码获得的。但是在现有技术中,不能对文本指纹库进行主动维护例如删除错误或无效的指纹,导致文本指纹库不断膨胀造成比对效率降低,而且短文本类型的错误识别率较高。
发明内容
为解决现有技术中存在的问题,本发明实施例提供一种文本识别方法、设备、计算机可读存储介质及装置,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种文本识别方法,所述方法包括:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
可选的,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,包括:
若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;
若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;
基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。
可选的,所述若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数,包括:
若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;
基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;
对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。
可选的,所述若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数,包括:
统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;
基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。
可选的,所述基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数,包括:
对所述待识别文本进行分词处理得到分词;
根据转换规则将每一所述分词进行转换,得到所述每一分词对应的转换参数;
根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。
可选的,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,包括:
若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;
采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;
若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。
可选的,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,还包括:
若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;
若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。
可选的,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,还包括:
若所述参考文本的类别与所述识别结果不同,获取所述参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库;
采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第三参考文本指纹;其中,所述第三预设文本指纹库为除所述第二预设文本指纹库之外的预设文本指纹库;
若所述第三预设文本指纹库中存在所述第三参考文本指纹,删除所述第三预设文本指纹库中的所述第三参考文本指纹;
采用所述第三算法,判断所述第二预设文本指纹库中是否存在满足所述第一预设条件的与所述第一文本指纹对应的第四参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作将所述第一文本指纹更新至所述第二预设文本指纹库。
可选的,所述方法还包括:
若所述识别结果为不可识别类别,获取所述待识别文本的类别得到第一类别;
采用第三算法,判断与所述第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第五参考文本指纹;
若所述第四预设文本指纹库中不存在所述第五参考文本指纹,基于所述第一文本指纹和所述第一类别更新所述第四预设文本指纹库;
若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库;
判断所述第五预设文本指纹库中是否存在所述第五参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作更新所述第五参考文本指纹至所述第五预设文本指纹库;
删除所述第四预设文本指纹库中的所述第五参考文本指纹。
可选的,所述若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库,包括:
若所述第四预设文本指纹库中存在所述第五参考文本指纹,获取所述第五参考文本指纹对应的类别;
对所述第一类别和所述第五参考文本指纹对应的类别进行分析,得到所述第五参考文本指纹的类别分析结果;
若所述类别分析结果满足第四预设条件,根据所述第四预设条件得到所述第五参考文本指纹对应的预设文本指纹库为所述第五预设文本指纹库。
可选的,所述判断结果对应的预设更新操作包括:
若第六预设文本指纹库中不存在第六参考文本指纹,获取所述第六预设文本指纹库当前存储的文本指纹的数量得到第一数值;其中,所述第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,所述第六参考文本指纹为所述第六预设文本指纹库中与所述第二文本指纹对应的参考文本指纹;
获取所述第六预设文本指纹库的第二数值;其中,所述第二数值为采用所述第六预设文本指纹库确定所述待识别文本的类别的准确率满足预设数值时,所述第六预设文本指纹库允许存储的文本指纹的数量;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系满足第五预设条件,根据所述第六预设文本指纹库中的文本指纹的时间戳,删除所述第六预设文本指纹库中符合删除条件的文本指纹;
存储所述第二文本指纹并标记第二文本指纹的时间戳为当前时间;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系不满足所述第五预设条件,存储所述第二文本指纹至所述第六预设文本指纹库,并标记所述第二文本指纹的时间戳为当前时间。
可选的,所述方法还包括:
若所述第六预设文本指纹库中存在所述第六参考文本指纹,更新所述第六参考文本指纹的时间戳为当前时间。
一种文本识别设备,所述设备包括:处理器、存储器及通信总线;其中:
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的文本识别程序,以实现以下步骤:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;
若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;
基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;
基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;
对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;
基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
对所述待识别文本进行分词处理得到分词;
根据转换规则将每一所述分词进行转换,得到所述每一分词对应的转换参数;
根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;
采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;
若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;
若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述参考文本的类别与所述识别结果不同,获取所述参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库;
采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第三参考文本指纹;其中,所述第三预设文本指纹库为除所述第二预设文本指纹库之外的预设文本指纹库;
若所述第三预设文本指纹库中存在所述第三参考文本指纹,删除所述第三预设文本指纹库中的所述第三参考文本指纹;
采用所述第三算法,判断所述第二预设文本指纹库中是否存在满足所述第一预设条件的与所述第一文本指纹对应的第四参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作将所述第一文本指纹更新至所述第二预设文本指纹库。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为不可识别类别,获取所述待识别文本的类别得到第一类别;
采用第三算法,判断与第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第五参考文本指纹;
若所述第四预设文本指纹库中不存在所述第五参考文本指纹,基于所述第一文本指纹和所述第一类别更新所述第四预设文本指纹库;
若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库;
判断所述第五预设文本指纹库中是否存在所述第五参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作更新所述第五参考文本指纹至所述第五预设文本指纹库;
删除所述第四预设文本指纹库中的所述第五参考文本指纹。
可选的,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述第四预设文本指纹库中存在所述第五参考文本指纹,获取所述第五参考文本指纹对应的类别;
对所述第一类别和所述第五参考文本指纹对应的类别进行分析,得到所述第五参考文本指纹的类别分析结果;
若所述类别分析结果满足第四预设条件,根据所述第四预设条件得到所述第五参考文本指纹对应的预设文本指纹库为所述第五预设文本指纹库。
可选的,所述处理器还用于:
若第六预设文本指纹库中不存在第六参考文本指纹,获取所述第六预设文本指纹库当前存储的文本指纹的数量得到第一数值;其中,所述第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,所述第六参考文本指纹为所述第六预设文本指纹库中与所述第二文本指纹对应的参考文本指纹;
获取所述第六预设文本指纹库的第二数值;其中,所述第二数值为采用所述第六预设文本指纹库确定所述待识别文本的类别的准确率满足预设数值时,所述第六预设文本指纹库允许存储的文本指纹的数量;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系满足第五预设条件,根据所述第六预设文本指纹库中的文本指纹的时间戳,删除所述第六预设文本指纹库中符合删除条件的文本指纹;
存储所述第二文本指纹并标记第二文本指纹的时间戳为当前时间;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系不满足所述第五预设条件,存储所述第二文本指纹至所述第六预设文本指纹库,并标记所述第二文本指纹的时间戳为当前时间。
可选的,所述处理器还用于:
若所述第六预设文本指纹库中存在所述第六参考文本指纹,更新所述第六参考文本指纹的时间戳为当前时间。
一种计算机可读存储介质,所述计算机可读存储介质上存在文本识别程序,处理器执行所述文本识别程序,以实现以下步骤:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
一种文本识别装置,所述装置包括:第一处理单元、识别单元、第二处理单元和第一更新单元;其中:
所述第一处理单元,用于获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
所述识别单元,用于识别所述第一文本指纹所属的类别得到识别结果;
所述第二处理单元,用于若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
所述第一更新单元,用于根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
本发明的实施例提供的文本识别方法、设备、计算机可读存储介质及装置,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
附图说明
图1为本发明实施例提供的一种文本识别方法的流程示意图;
图2为本发明实施例提供的另一种文本识别方法的流程示意图;
图3为本发明实施例提供的又一种文本识别方法的流程示意图;
图4为本发明实施例提供的一种文本识别设备的结构示意图;
图5为本发明实施例提供的一种文本识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供一种文本识别方法,参照图1所示,该方法包括以下步骤:
步骤101、获取待识别文本,并对待识别文本进行编码处理,得到第一文本指纹。
具体的,步骤101获取待识别文本,并对待识别文本进行编码处理,得到第一文本指纹可以由文本识别设备来实现。文本识别设备例如可以是计算机或者是短信业务服务器等。获取到的待识别文本可以是已经过例如大小写转换和繁简字体转换等常规文本去噪处理后得到的、并需要文本识别设备对其内容进行识别判断的文本,例如可以是短信等文本。编码处理可以是将待识别文本内容转换成一种易识别且被文本识别设备识别的语言的处理方式,例如可以使将待识别文本转换成例如64位或者128位等二进制编码内容。
步骤102、识别第一文本指纹所属的类别得到识别结果。
具体的,步骤102识别第一文本指纹所属的类别得到识别结果可以由文本识别设备来实现。可以通过在预先设置的预设文本指纹库中判断是否存在与第一文本指纹对应的参考文本指纹得到识别结果。由于是为了确定待识别文本的类别,以确定是否转发待识别文本至接收端,所以识别结果可以包括三种情况:预设文本指纹库中存在一个与第一文本指纹对应的参考文本指纹,即第一文本指纹属于一个类别;预设文本指纹库中存在至少两个与第一文本指纹对应的参考文本指纹,即第一文本指纹同时属于至少两个类别;预设文本指纹库中不存在与第一文本指纹对应的参考文本指纹,即第一文本指纹的类别不能确定。其中,预设文本指纹库中的每一参考文本指纹是对应各自所属的类别进行存储的。
步骤103、若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别。
具体的,步骤103若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别可以由文本识别设备来实现。可以预先根据可能出现的识别结果的情况对识别结果进行划分设置,设置结果包括一些情况的识别结果属于可识别类别,一些情况属于不可识别类别等。当待识别文本的识别结果为可识别类别时,对待识别文本进行进一步的类别确定,在满足一定条件下可以得到待识别文本的反馈类别。
步骤104、根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库。
具体的,步骤104根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库可以由文本识别设备来实现。基于识别结果和反馈类别之间的关系,确定是否根据第一文本指纹及第一文本指纹对应的相关指纹与第一文本指纹相关的预设文本指纹库之间的关系对该预设文本指纹库进行更新。
本发明实施例所提供的文本识别方法,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
本发明实施例提供一种文本识别方法,参照图2所示,该方法包括以下步骤:
步骤201、文本识别设备获取待识别文本,并对待识别文本进行编码处理,得到第一文本指纹。
具体的,以文本识别设备是短信业务服务器、待识别文本是短信,对应的第一文本指纹是A为例进行说明,当短信业务服务器接收到短信发送端发送的短信时,首先将接收到的短信文本按照约定的常规文本去噪方式进行处理,例如将短信文本中的大写字母转换为对应的小写字母,将繁体字转换为对应的简体字,得到待识别文本,然后采用编码算法对待识别文本进行编码处理,例如可以采用散列(CityHash)算法将短信文本映射成为64位或者128位等的二进制结果,得到第一文本指纹。
步骤202、文本识别设备识别第一文本指纹所属的类别得到识别结果。
具体的,短信业务服务器可以采用预设算法确定每一预设类别对应的预设文本指纹数据库中是否存在符合预设条件且与第一文本指纹对应的参考文本指纹,得到的识别结果可以包括:在一个预设文本指纹数据库中存在与第一文本指纹对应的参考文本指纹时,确定第一文本指纹所属的类别为该预设文本指纹数据库对应的预设类别;在至少两个预设文本指纹数据库中存在与第一文本指纹对应的参考文本指纹时,确定第一文本指纹所属的类别为至少两个预设文本指纹数据库对应的预设类别;在所有预设文本指纹数据库中均不存在与第一文本指纹对应的参考文本指纹时,该第一文本指纹的类别不确定。
其中,执行步骤202文本识别设备识别第一文本指纹所属的类别得到识别结果之后可以选择执行步骤203-215或步骤216-222,若识别结果为可识别类别,如图2所示可以选择执行步骤203-215,若识别结果为不可识别类别,如图3所示可以选择执行步骤216-222;需说明的是,步骤203-208与步骤209-215之间的之间执行顺序没有先后之分,步骤203-211与步骤212-215可以选择同时执行,步骤212-215也可以选择在步骤203-211之前执行,具体的执行顺序可以根据实际应用场景确定。
步骤203、若识别结果为可识别类别,文本识别设备判断识别结果是否为目标类别。
具体的,可以根据具体的识别结果将第一文本指纹设置为两大类:可识别类别和不可识别类别,其中在一个预设类别对应的预设文本指纹数据库中存在与第一文本指纹对应的参考文本指纹时,则识别结果第一文本指纹的类别为该预设文本指纹数据库的类别,设置为属于可识别类别。目标类别是允许短信业务服务器将属于该类别的待识别文本转发至接收端的特定类别。而在至少两个预设类别对应的预设文本指纹数据库中存在与第一文本指纹对应的参考文本指纹、或者一个预设类别对应的预设文本指纹数据库中均没有存在于第一文本指纹对应的参考文本指纹时,设置识别结果第一文本指纹的类别为不可识别类别。
示例性,若短信业务服务器中设置有三个类别的预设文本指纹数据库,包括正常文本指纹数据库、广告文本指纹数据库和垃圾文本指纹数据库,在任意一个上述三个预设文本指纹数据库中存在与第一文本指纹对应的参考文本指纹时,得到的识别结果过程为该第一文本指纹的类别与该预设文本指纹库的类别相同,得到识别结果为该第一文本指纹的类别是可识别类别。假设目标类别为正常类别,则短信业务服务器判断识别结果是否是正常类别。其中,待识别文本的识别结果可以用向量参数(T0,T1,T2)表示,其中,T0表示正常类别,T1表示广告类别,T2表示垃圾类别,T0、T1和T2默认为0,当第一文本指纹的识别结果为上述三个类别中的一个或多个时,对应的类别的向量设置为1,如当第一文本指纹的识别结果为正常类别时,可以表示为(1,0,0),若第一文本指纹的识别结果为正常类别和广告类别时,可以表示为(1,1,0)。
步骤204、若识别结果为目标类别,文本识别设备根据预设处理规则对待识别文本进行处理得到待识别文本的概率参数。
其中,预设处理规则包括至少两种处理规则。
具体的,若识别结果不为目标类别,则不进行后续处理。当识别结果为正常类别时,此时短信业务服务器采用预先设置的至少两种不同的处理规则对待识别文本进行处理并计算概率得到至少两种不同的概率结果,再对至少两种不同的概率结果进行处理,得到待识别文本的最终的概率参数。其中,对应的概率参数也可以用上述向量参数的形式进行表示。示例性的,得到的待识别文本的概率参数可以表示为(A0,A1,A2),其中,A0表示待识别文本中的词属于正常类别的概率,A1表示待识别文本中的词属于广告类别的概率,A2表示待识别文本中的词属于垃圾类别的概率。
步骤205、文本识别设备基于概率参数和概率参数对应的类别,确定待识别文本的类别为反馈类别。
具体的,反馈类别可以是除目标类别以外的其他预设类别。短信业务服务器可以判断每一预设类别对应的概率的大小,确定概率最大的预设类别为待识别文本的反馈类别。假设得到的概率参数(A0,A1,A2)中,待识别文本中的广告类别的词的概率A1最大,则确定待识别文本的类别为广告类别,与目标类别正常类别不同,所以可以确定待识别文本的反馈类别为广告类别。
步骤206、若反馈类别不是目标类别,文本识别设备获取目标类别对应的预设文本指纹库,得到第一预设文本指纹库。
具体的,因为识别结果对应的是唯一的预设文本指纹库,所以短信业务服务器可以根据识别结果目标类别确定对应的预设文本指纹库,得到第一预设文本指纹库。示例性的,短信业务服务器获取识别结果正常类别对应的正常文本指纹库,确定为第一预设文本指纹库。
步骤207、文本识别设备采用第三算法,判断第一预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第一参考文本指纹。
具体的,第三算法可以是用于计算相似性的算法,例如可以是海明距离计算算法。第一预设条件可以是预先设置的第一文本指纹与第一参考文本指纹之间计算获得的海明距离是否满足一定的预设阈值的条件。
步骤208、若第一预设文本指纹库中存在第一参考文本指纹,文本识别设备删除第一预设文本指纹库中的第一参考文本指纹。
具体的,若第一预设文本指纹库中不存在第一参考文本指纹,不进行任何处理。当第一文本指纹与第一参考文本指纹之间的海明距离小于或者等于预设阈值时,可以确定第一预设文本指纹库中存在第一参考文本值文,短信业务服务器删除第一预设文本值文库中的第一参考文本指纹时,也删除第一参考文本指纹的时间戳。若正常文本指纹库中存在第一参考文本指纹B,则删除正常文本指纹库中的第一参考文本指纹B及第一参考文本指纹B的时间戳。
步骤209、若识别结果为可识别类别,文本识别设备采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与待识别文本对应的参考文本。
具体的,第二算法可以是对文本进行相似性判断的算法,则第二预设条件可以是根据第二算法计算得到的相似性结果满足一定阈值的条件,第二算法也可以是比较预设历史库中是否存在与待识别文本相同的参考文本,则第二预设条件可以是预设历史库中存在与待识别文本相同的参考文本。预设历史文本库中存储的是历史可信的不同预设类别对应的短信文本。需说明的是,步骤209中的识别结果为可识别类别时,识别结果为任意一个预设类别。
步骤210、若预设历史文本库中存在参考文本,文本识别设备获取参考文本的类别,并确定参考文本的类别为反馈类别。
具体的,若参考文本的类别与识别结果相同,无需进行后续处理。参考文本的类别也可以是任意一个预设类别。
步骤211、若参考文本的类别与识别结果不同,文本识别设备获取参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库。
步骤212、文本识别设备采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第三参考文本指纹。
其中,第三预设文本指纹库为除第二预设文本指纹库之外的预设文本指纹库。
步骤213、若第三预设文本指纹库中存在第三参考文本指纹,文本识别设备删除第三预设文本指纹库中的第三参考文本指纹。
步骤214、文本识别设备采用第三算法,判断第二预设文本指纹库中是否存在满足第一预设条件的与第一文本指纹对应的第四参考文本指纹,得到判断结果。
步骤215、文本识别设备根据判断结果对应的预设更新操作将第一文本指纹更新至第二预设文本指纹库。
步骤216、若识别结果为不可识别类别,文本识别设备获取待识别文本的类别得到第一类别。
具体的,不可识别类别包括两种识别结果,一种是第一文本指纹所属的类别为至少两个预设文本指纹数据库对应的预设类别,另一种是所有预设文本指纹数据库中均不存在与第一文本指纹对应的参考文本指纹。当识别结果为不可识别类别时,短信业务服务器可以将待识别文本推送至运营商或用户,并生成提示信息,提示运营商或用户判断该待识别文本的类别并反馈判断结果,这样,短信业务服务器即可获取得到待识别文本的类别得到第一类别。需说明的是,待识别文本的类别与待识别文本对应的第一文本指纹的类别是相同的,所以确定待识别文本的类别也就确定了第一文本指纹的类别。
步骤217、文本识别设备采用第三算法,判断与第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹。
需说明的是,步骤217文本识别设备采用第三算法,判断与第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹之后,可以选择执行步骤218或步骤219-222,若第四预设文本指纹库中不存在第五参考文本指纹选择执行步骤218,若第四预设文本指纹库中存在第五参考文本指纹选择执行步骤219-222;
步骤218、若第四预设文本指纹库中不存在第五参考文本指纹,文本识别设备基于第一文本指纹和第一类别更新第四预设文本指纹库。
具体的,若第四预设文本指纹库中存在第五参考文本指纹,则短信业务服务器将第一文本指纹及对应的第一类别存储在第四预设文本指纹库中,并标记第一文本指纹的时间戳为当前存储时间。
步骤219、若第四预设文本指纹库中存在第五参考文本指纹,文本识别设备基于第一类别和第五参考文本指纹对应的类别,确定第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库。
具体的,若第四预设文本指纹库中存在第五参考文本指纹,短信业务服务器采用第一类别对第五参考文本指纹对应的类别进行处理,得到处理结果,然后根据处理结果根据一定的预设条件确定可以存储第五参考文本指纹的预设指纹数据库。示例性的,若第一类别为(1,0,0),第五参考文本指纹对应的类别为(1,0,0)时,将第一类别的向量参数与第五参考文本指纹对应的类别的向量参数进行相加,得到(T0,T1,T2)为(2,0,0),此时,预设条件可以包括:当T0>0且T1=0且T2=0时,可以确定第五参考文本指纹可以存储的预设文本指纹库为正常文本指纹库;当T0=0且T1>10且T2=0时,可以确定第五参考文本指纹可以存储的预设文本指纹库为广告文本指纹库;当T0=0且T1=0且T2>0时,可以确定第五参考文本指纹可以存储的预设文本指纹库为垃圾文本指纹库。
步骤220、文本识别设备判断第五预设文本指纹库中是否存在第五参考文本指纹,得到判断结果。
步骤221、文本识别设备根据判断结果对应的预设更新操作更新第五参考文本指纹至第五预设文本指纹库。
具体的,若第五预设文本指纹库中存在第五参考文本指纹,文本识别设备更新第五参考文本指纹时间戳为当前时间。
步骤222、文本识别设备删除第四预设文本指纹库中的第五参考文本指纹。
本发明实施例所提供的文本识别方法,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
本发明实施例提供一种文本识别方法,该方法包括以下步骤:
步骤301、文本识别设备获取待识别文本,并对待识别文本进行编码处理,得到文本指纹。
步骤302、文本识别设备识别第一文本指纹所属的类别得到识别结果。
其中,执行步骤302文本识别设备识别第一文本指纹所属的类别得到识别结果后,可以选择执行步骤303-324或者步骤325-337,若识别结果为可识别类别,选择执行步骤303-324,若识别结果为不可识别类别,选择执行步骤325-337。其中,需说明的是步骤303-311与步骤312-324之间的执行顺序没有先后之分,步骤312-324可以在步骤303-311之前执行,也可以与步骤303-311同时执行,具体执行顺序可以根据实际应用场景确定。
步骤303、若识别结果为可识别类别,文本识别设备判断识别结果是否为目标类别。
步骤304、若识别结果为目标类别,文本识别设备基于第一处理规则对待识别文本进行处理,得到第一子概率参数。
其中,预设处理规则至少包括第一处理规则和第二处理规则。
具体的,第一处理规则可以是用于对待识别文本中的关键词进行类别统计并计算概率的一种预设处理规则。
其中,步骤304若识别结果为目标类别,文本识别设备基于第一处理规则对待识别文本进行处理,得到第一子概率参数可以通过以下步骤来实现:
步骤304a、文本识别设备统计每一预设类别的关键词在待识别文本中存在的个数的总和,得到统计数值。
具体的,例如短信业务服务器可以根据预先设置的关键词对待识别文本中的所有关键词进行类别统计,最终得到统计数值。例如,短信业务服务器对待识别文本进行关键词的类别进行统计后,可以确定正常类别的关键词有5个,广告类的关键词有3个,垃圾类的关键词有2个,则可以表示为向量形式(5,3,2)。
步骤304b、文本识别设备基于每一预设类别对应的统计数值,得到待识别文本的第一子概率参数。
具体的,短信业务服务器可以对得到统计数值(5,3,2)进行归一化处理,得到待识别文本的第一子概率参数为(5/10,3/10,2/10)。
步骤305、文本识别设备基于第二处理规则对待识别文本进行处理,得到第二子概率参数。
具体的,第二处理规则是预设的另一种对待识别文本中的词或词组进行处理的一种预先设置的处理规则。
其中,步骤305文本识别设备基于第二处理规则对待识别文本进行处理,得到第二子概率参数可以通过以下步骤来实现:
步骤305a、文本识别设备对待识别文本进行分词处理得到分词。
具体的,短信业务服务器按照一定的拆分规则将待识别文本进行分词,得到组成待识别文本的每一分词。
步骤305b、文本识别设备根据转换规则将每一分词进行转换,得到每一分词对应的转换参数。
具体的,转换规则可以是将文本转换为特征向量的规则。短信业务服务器可以采用预先存储的词典将每一分词转换为分词特征向量。
步骤305c、文本识别设备根据第一算法对每一分词对应的转换参数进行分类计算,得到待识别文本的第二子概率参数。
具体的,第一算法可以是机器学习分类算法逻辑回归算法。利用逻辑回归算法对得到的待识别文本对应的所有分词特征向量进行分类计算,得到待识别文本的第二子概率参数,假设得到的第二子概率参数为(1/10,3/10,6/10)。
步骤306、文本识别设备对第一子概率参数和第二子概率参数进行计算,得到待识别文本的概率参数。
具体的,将第一子概率参数和第二子概率参数相加,并对相加后的结果进行归一化处理,得到待识别文本的概率参数。示例性的,(5/10,3/10,2/10)+(1/10,3/10,6/10)=(6/10,6/10,8/10),并进行归一化处理得到待识别文本的概率参数(6/20,6/20,8/20)。
步骤307、文本识别设备基于概率参数和概率参数对应的类别,确定待识别文本的类别为反馈类别。
具体的,短信业务服务器可以判断待识别文本对应的预设类别的概率参数的大小,确定概率值最大的预设类别为待识别文本的类别。例如,短信业务服务器判断待识别文本的概率参数(6/20,6/20,8/20)中,8/20最大,对应为预设类别为垃圾类别的概率,所以可以确定待识别文本的类别为垃圾类别。
步骤308、若反馈类别不是目标类别,文本识别设备获取目标类别对应的预设文本指纹库,得到第一预设文本指纹库。
具体的,由于待识别文本的类别为垃圾类别,所以短信业务服务器可以确定垃圾类别为反馈类别。由于反馈类别为垃圾类别与目标类别正常类别不同,所以短信业务服务器可以获取与正常类别对应的预设文本指纹库,得到正常文本指纹数据库为第一预设文本指纹库。
步骤309、文本识别设备采用第三算法,判断第一预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第一参考文本指纹。
步骤310、若第一预设文本指纹库中存在第一参考文本指纹,文本识别设备删除第一预设文本指纹库中的第一参考文本指纹。
步骤311、若识别结果为可识别类别,文本识别设备采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与待识别文本对应的参考文本。
步骤312、若预设历史文本库中存在参考文本,文本识别设备获取参考文本的类别并确定参考文本的类别为反馈类别。
步骤313、若参考文本的类别与识别结果不同,文本识别设备获取参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库。
步骤314、文本识别设备采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第三参考文本指纹。
其中,第三预设文本指纹库为除第二预设文本指纹库之外的预设文本指纹库。
步骤315、若第三预设文本指纹库中存在第三参考文本指纹,文本识别设备删除第三预设文本指纹库中的第三参考文本指纹。
步骤316、文本识别设备采用第三算法,判断第二预设文本指纹库中是否存在满足第一预设条件的与第一文本指纹对应的第四参考文本指纹。
步骤317、若第二预设文本指纹库中不存在第四参考文本指纹,文本识别设备获取第二预设文本指纹库当前存储的文本指纹的数量得到第一数值。
步骤318、文本识别设备获取第二预设文本指纹库的第二数值。
其中,第二数值为采用第二预设文本指纹库确定待识别文本的类别的准确率满足预设数值时,第二预设文本指纹库允许存储的文本指纹的数量。
步骤319、若第一数值、第二数值和第一文本指纹的数量之间的关系满足第五预设条件,文本识别设备根据第二预设文本指纹库中的文本指纹的时间戳,删除第二预设文本指纹库中符合删除条件的文本指纹。
具体的,假设第一数值为N,第二数值为M,第一文本指纹的数量为n,第一数值、第二数值和第一文本指纹的数量之间的关系满足第五预设条件例如可以是N+n≥(1+α)×M,其中α为大于或者等于0且小于或者等于1的可调的阈值。
步骤320、文本识别设备存储第一文本指纹并标记第一文本指纹的时间戳为当前时间。
步骤321、若第一数值、第二数值和第一文本指纹的数量之间的关系不满足第五预设条件,文本识别设备存储第一文本指纹至第二预设文本指纹库,并标记第一文本指纹的时间戳为当前时间。
步骤322、若第二预设文本指纹库中存在第四参考文本指纹,更新第四参考文本指纹的时间戳为当前时间。
步骤323、若识别结果为不可识别类别,文本识别设备获取待识别文本的类别得到第一类别。
步骤324、文本识别设备采用第三算法,判断第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹。
其中,执行步骤324文本识别设备采用第三算法,判断第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹之后,可以选择执行步骤325或者步骤326-337,若第四预设文本指纹库中不存在第五参考文本指纹可以选择执行步骤325,若第四预设文本指纹库中存在第五参考文本指纹选择执行步骤326-337;
步骤325、若第四预设文本指纹库中不存在第五参考文本指纹,文本识别设备基于第一文本指纹和第一类别更新第四预设文本指纹库。
步骤326、若第四预设文本指纹库中存在第五参考文本指纹,文本识别设备获取第五参考文本指纹对应的类别。
步骤327、文本识别设备对第一类别和第五参考文本指纹对应的类别进行分析,得到第五参考文本指纹的类别分析结果。
步骤328、若类别分析结果满足第四预设条件,文本识别设备根据第四预设条件得到第五参考文本指纹对应的预设文本指纹库为第五预设文本指纹库。
具体的,若类别分析结果不满足第四预设条件,不进行后续操作。
步骤329、文本识别设备判断第五预设文本指纹库中是否存在第五参考文本指纹。
其中,执行步骤329文本识别设备判断第五预设文本指纹库中是否存在第五参考文本指纹之后,可以选择执行步骤330-335或者步骤336-337,若第五预设文本指纹库中不存在第五参考文本指纹选择执行步骤330-335,若第五预设文本指纹库中存在第五参考文本指纹选择执行步骤336-337;
步骤330、若第五预设文本指纹库中不存在第五参考文本指纹,文本识别设备获取第五预设文本指纹库当前存储的文本指纹的数量得到第一数值。
步骤331、文本识别设备获取第五预设文本指纹库的第二数值。
其中,第二数值为采用第六预设文本指纹库确定待识别文本的类别的准确率满足预设数值时,第六预设文本指纹库允许存储的文本指纹的数量。
需说明的是,步骤331文本识别设备获取第五预设文本指纹库的第二数值之后,可以选择执行步骤332-333或者步骤334-335,若第一数值、第二数值和第五参考文本指纹的数量之间的关系满足第五预设条件可以选择执行步骤332-333,若第一数值、第二数值和第五参考文本指纹的数量之间的关系不满足第五预设条件可以选择执行步骤334-335;
步骤332、若第一数值、第二数值和第五参考文本指纹的数量之间的关系满足第五预设条件,根据第五预设文本指纹库中的文本指纹的时间戳,删除第六预设文本指纹库中符合删除条件的文本指纹。
步骤333、文本识别设备存储第五参考文本指纹并标记第五参考文本指纹的时间戳为当前时间。
步骤334、若第一数值、第二数值和第五参考文本指纹的数量之间的关系不满足第五预设条件,文本识别设备存储第五参考文本指纹至第五预设文本指纹库,并标记第五参考文本指纹的时间戳为当前时间。
步骤335、文本识别设备删除第五预设文本指纹库中的第五参考文本指纹。
具体的,短信业务服务删除第五预设文本指纹库中的第五参考文本指纹的同时还删除第五参考文本指纹的时间戳。
步骤336、若第五预设文本指纹库中存在第五参考文本指纹,文本识别设备更新第五参考文本指纹的时间戳为当前时间。
步骤337、文本识别设备删除第五预设文本指纹库中的第五参考文本指纹。
具体的,短信业务服务删除第五预设文本指纹库中的第五参考文本指纹的同时还删除第五参考文本指纹的时间戳。
本发明实施例所提供的文本识别方法,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率;进一步的,扩展了文本指纹库的维护方法。
本发明实施例提供的文本识别设备4,可应用于图1~3及上述对应的实施例提供的一种文本识别方法中,参照图4所示,该设备包括:处理器41、存储器42及通信总线43,其中:
通信总线43用于实现处理器41和存储器42之间的连接通信。
处理器41用于执行存储器42中存储的文本识别程序,以实现以下步骤:
获取待识别文本,并对待识别文本进行编码处理,得到第一文本指纹。
识别第一文本指纹所属的类别得到识别结果。
若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别。
根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库。
本发明的实施例所提供的文本识别设备,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若识别结果为可识别类别,判断识别结果是否为目标类别。
若识别结果为目标类别,根据预设处理规则对待识别文本进行处理得到待识别文本的概率参数。
其中,预设处理规则包括至少两种处理规则。
基于概率参数和概率参数对应的类别,确定待识别文本的类别为反馈类别。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若识别结果为目标类别,基于第一处理规则对待识别文本进行处理,得到第一子概率参数。
基于第二处理规则对待识别文本进行处理,得到第二子概率参数。
对第一子概率参数和第二子概率参数进行计算,得到待识别文本的概率参数。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
统计每一预设类别的关键词在待识别文本中存在的个数的总和,得到统计数值。
基于每一预设类别对应的统计数值,得到待识别文本的第一子概率参数。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
对待识别文本进行分词处理得到分词。
根据转换规则将每一分词进行转换,得到每一分词对应的转换参数。
根据第一算法对每一分词对应的转换参数进行分类计算,得到待识别文本的第二子概率参数。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若反馈类别不是目标类别,获取目标类别对应的预设文本指纹库,得到第一预设文本指纹库。
采用第三算法,判断第一预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第一参考文本指纹。
若第一预设文本指纹库中存在第一参考文本指纹,删除第一预设文本指纹库中的第一参考文本指纹。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与待识别文本对应的参考文本。
若预设历史文本库中存在参考文本,获取参考文本的类别,并确定参考文本的类别为反馈类别。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若参考文本的类别与识别结果不同,获取参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库。
采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第三参考文本指纹。
其中,第三预设文本指纹库为除第二预设文本指纹库之外的预设文本指纹库。
若第三预设文本指纹库中存在第三参考文本指纹,删除第三预设文本指纹库中的第三参考文本指纹。
采用第三算法,判断第二预设文本指纹库中是否存在满足第一预设条件的与第一文本指纹对应的第四参考文本指纹,得到判断结果。
根据判断结果对应的预设更新操作将第一文本指纹更新至第二预设文本指纹库。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若识别结果为不可识别类别,获取待识别文本的类别得到第一类别。
采用第三算法,判断与第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹。
若第四预设文本指纹库中不存在第五参考文本指纹,基于第一文本指纹和第一类别更新第四预设文本指纹库。
若第四预设文本指纹库中存在第五参考文本指纹,基于第一类别和第五参考文本指纹对应的类别,确定第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库。
判断第五预设文本指纹库中是否存在第五参考文本指纹,得到判断结果。
根据判断结果对应的预设更新操作更新第五参考文本指纹至第五预设文本指纹库。
删除第四预设文本指纹库中的第五参考文本指纹。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序,以实现以下步骤:
若第四预设文本指纹库中存在第五参考文本指纹,获取第五参考文本指纹对应的类别。
对第一类别和第五参考文本指纹对应的类别进行分析,得到第五参考文本指纹的类别分析结果。
若类别分析结果满足第四预设条件,根据第四预设条件得到第五参考文本指纹对应的预设文本指纹库为第五预设文本指纹库。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序的预设更新操,以实现以下步骤:
若第六预设文本指纹库中不存在第六参考文本指纹,获取第六预设文本指纹库当前存储的文本指纹的数量得到第一数值。
其中,第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,第六参考文本指纹为第六预设文本指纹库中与第二文本指纹对应的参考文本指纹。
获取第六预设文本指纹库的第二数值。
其中,第二数值为采用第六预设文本指纹库确定待识别文本的类别的准确率满足预设数值时,第六预设文本指纹库允许存储的文本指纹的数量。
若第一数值、第二数值和第二文本指纹的数量之间的关系满足第五预设条件,根据第六预设文本指纹库中的文本指纹的时间戳,删除第六预设文本指纹库中符合删除条件的文本指纹。
存储第二文本指纹并标记第二文本指纹的时间戳为当前时间。
若第一数值、第二数值和第二文本指纹的数量之间的关系不满足第五预设条件,存储第二文本指纹至第六预设文本指纹库,并标记第二文本指纹的时间戳为当前时间。
具体的,在本发明其他实施例中,处理器41还用于执行文本识别程序的预设更新操,以实现以下步骤:
若第六预设文本指纹库中存在第六参考文本指纹,更新第六参考文本指纹的时间戳为当前时间。
需要说明的是,本实施例中处理器所实现的步骤之间的交互过程,可以参照图1~3及上述对应的实施例提供的一种文本识别方法中的交互过程,此处不再赘述。
本发明的实施例所提供的文本识别设备,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
本发明实施例提供的计算机可读存储介质,可应用于图1~3及上述对应的实施例提供的一种文本识别方法中,计算机可读存储介质上存在文本识别程序,处理器执行文本识别程序,以实现以下步骤:
获取待识别文本,并对待识别文本进行编码处理,得到第一文本指纹。
识别第一文本指纹所属的类别得到识别结果。
若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别。
根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
若识别结果为可识别类别,判断识别结果是否为目标类别。
若识别结果为目标类别,根据预设处理规则对待识别文本进行处理得到待识别文本的概率参数。
其中,预设处理规则包括至少两种处理规则。
基于概率参数和概率参数对应的类别,确定待识别文本的类别为反馈类别。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
若识别结果为目标类别,基于第一处理规则对待识别文本进行处理,得到第一子概率参数。
基于第二处理规则对待识别文本进行处理,得到第二子概率参数。
对第一子概率参数和第二子概率参数进行计算,得到待识别文本的概率参数。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
统计每一预设类别的关键词在待识别文本中存在的个数的总和,得到统计数值。
基于每一预设类别对应的统计数值,得到待识别文本的第一子概率参数。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
对待识别文本进行分词处理得到分词。
根据转换规则将每一分词进行转换,得到每一分词对应的转换参数。
根据第一算法对每一分词对应的转换参数进行分类计算,得到待识别文本的第二子概率参数。
具体的,在本发明其他实施例中,处理器31还用于执行文本识别程序,以实现以下步骤:
若反馈类别不是目标类别,获取目标类别对应的预设文本指纹库,得到第一预设文本指纹库。
采用第三算法,判断第一预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第一参考文本指纹。
若第一预设文本指纹库中存在第一参考文本指纹,删除第一预设文本指纹库中的第一参考文本指纹。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
若识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与待识别文本对应的参考文本。
若预设历史文本库中存在参考文本,获取参考文本的类别并确定参考文本的类别为反馈类别。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
若参考文本的类别与识别结果不同,获取参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库。
采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第三参考文本指纹。
其中,第三预设文本指纹库为除第二预设文本指纹库之外的预设文本指纹库。
若第三预设文本指纹库中存在第三参考文本指纹,删除第三预设文本指纹库中的第三参考文本指纹。
采用第三算法,判断第二预设文本指纹库中是否存在满足第一预设条件的与第一文本指纹对应的第四参考文本指纹,得到判断结果。
根据判断结果对应的预设更新操作将第一文本指纹更新至第二预设文本指纹库。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
若识别结果为不可识别类别,获取待识别文本的类别得到第一类别。
采用第三算法,判断与第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹。
若第四预设文本指纹库中不存在第五参考文本指纹,基于第一文本指纹和第一类别更新第四预设文本指纹库。
若第四预设文本指纹库中存在第五参考文本指纹,基于第一类别和第五参考文本指纹对应的类别,确定第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库。
判断第五预设文本指纹库中是否存在第五参考文本指纹,得到判断结果。
根据判断结果对应的预设更新操作更新第五参考文本指纹至第五预设文本指纹库。
删除第四预设文本指纹库中的第五参考文本指纹。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序,以实现以下步骤:
若第四预设文本指纹库中存在第五参考文本指纹,获取第五参考文本指纹对应的类别。
对第一类别和第五参考文本指纹对应的类别进行分析,得到第五参考文本指纹的类别分析结果。
若类别分析结果满足第四预设条件,根据第四预设条件得到第五参考文本指纹对应的预设文本指纹库为第五预设文本指纹库。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序的预设更新操,以实现以下步骤:
若第六预设文本指纹库中不存在第六参考文本指纹,获取第六预设文本指纹库当前存储的文本指纹的数量得到第一数值。
其中,第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,第六参考文本指纹为第六预设文本指纹库中与第二文本指纹对应的参考文本指纹。
获取第六预设文本指纹库的第二数值。
其中,第二数值为采用第六预设文本指纹库确定待识别文本的类别的准确率满足预设数值时,第六预设文本指纹库允许存储的文本指纹的数量。
若第一数值、第二数值和第二文本指纹的数量之间的关系满足第五预设条件,根据第六预设文本指纹库中的文本指纹的时间戳,删除第六预设文本指纹库中符合删除条件的文本指纹。
存储第二文本指纹并标记第二文本指纹的时间戳为当前时间。
若第一数值、第二数值和第二文本指纹的数量之间的关系不满足第五预设条件,存储第二文本指纹至第六预设文本指纹库,并标记第二文本指纹的时间戳为当前时间。
具体的,在本发明其他实施例中,处理器还用于执行文本识别程序的预设更新操,以实现以下步骤:
若第六预设文本指纹库中存在第六参考文本指纹,更新第六参考文本指纹的时间戳为当前时间。
需要说明的是,本实施例中处理器所实现的步骤之间的交互过程,可以参照图1~3及上述对应的实施例提供的一种文本识别方法中的交互过程,此处不再赘述。
本发明的实施例所提供的计算机可读存储介质,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
本发明实施例提供的文本识别装置5,可应用于图1~3及上述对应的实施例提供的一种文本识别方法中,参照图5所示,该文本识别装置包括:第一处理单元51、识别单元52、第二处理单元53和第一更新单元54,其中:
第一处理单元51,用于获取待识别文本,并对待识别文本进行编码处理,得到第一文本指纹。
识别单元52,用于识别第一文本指纹所属的类别得到识别结果。
第二处理单元53,用于若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别。
第一更新单元54,用于根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库。
具体的,第二处理单元53包括:第一判断模块、第一处理模块和确定模块,其中:
第一判断模块,用于若识别结果为可识别类别,判断识别结果是否为目标类别。
第一处理模块,用于若识别结果为目标类别,根据预设处理规则对待识别文本进行处理得到待识别文本的概率参数。
其中,预设处理规则包括至少两种处理规则。
确定模块,用于基于概率参数和概率参数对应的类别,确定待识别文本的类别为反馈类别。
具体的,第一处理模块具体用于执行以下操作:
若识别结果为目标类别,基于第一处理规则对待识别文本进行处理,得到第一子概率参数。
基于第二处理规则对待识别文本进行处理,得到第二子概率参数。
对第一子概率参数和第二子概率参数进行计算,得到待识别文本的概率参数。
具体的,第一处理模块具体还用于执行以下操作:
统计每一预设类别的关键词在待识别文本中存在的个数的总和,得到统计数值。
基于每一预设类别对应的统计数值,得到待识别文本的第一子概率参数。
具体的,第一处理模块具体还用于执行以下操作:
对待识别文本进行分词处理得到分词。
根据转换规则将每一分词进行转换,得到每一分词对应的转换参数。
根据第一算法对每一分词对应的转换参数进行分类计算,得到待识别文本的第二子概率参数。
具体的,第一更新单元54包括:第二获取模块、第三处理模块、第一删除模块和第一更新模块,其中:
第二获取模块,用于若反馈类别不是目标类别,获取目标类别对应的预设文本指纹库,得到第一预设文本指纹库。
第三处理模块,用于采用第三算法,判断第一预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第一参考文本指纹。
第一删除模块,用于若第一预设文本指纹库中存在第一参考文本指纹,删除第一预设文本指纹库中的第一参考文本指纹。
具体的,第二处理单元53还包括:第二处理模块和第一获取模块,其中:
第二处理模块,用于若识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与待识别文本对应的参考文本。
第一获取模块,用于若预设历史文本库中存在参考文本,获取参考文本的类别,并确定参考文本的类别为反馈类别。
具体的,第一更新单元54还包括:第三获取模块、第四处理模块、第二删除模块和第二更新模块,其中:
第三获取模块,用于若参考文本的类别与识别结果不同,获取参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库。
第四处理模块,用于采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第三参考文本指纹。
其中,第三预设文本指纹库为除第二预设文本指纹库之外的预设文本指纹库。
第二删除模块,用于若第三预设文本指纹库中存在第三参考文本指纹,删除第三预设文本指纹库中的第三参考文本指纹。
第四处理模块,还用于采用第三算法,判断第二预设文本指纹库中是否存在满足第一预设条件的与第一文本指纹对应的第四参考文本指纹,得到判断结果。
第二更新模块,用于根据判断结果对应的预设更新操作将第一文本指纹更新至第二预设文本指纹库。
具体的,该装置还包括:获取单元、第三处理单元、第二更新单元、确定单元和判断单元,其中:
获取单元,用于若识别结果为不可识别类别,获取待识别文本的类别得到第一类别。
第三处理单元,用于采用第三算法,判断第四预设文本指纹库中是否存在满足第一预设条件且与第一文本指纹对应的第五参考文本指纹。
第二更新单元,用于若第四预设文本指纹库中不存在第五参考文本指纹,基于第一文本指纹和第一类别更新第四预设文本指纹库。
确定单元,用于若第四预设文本指纹库中存在第五参考文本指纹,基于第一类别和第五参考文本指纹对应的类别,确定第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库。
判断单元,用于判断第五预设文本指纹库中是否存在第五参考文本指纹,得到判断结果。
第二更新单元,还用于根据判断结果对应的预设更新操作更新第五参考文本指纹至第五预设文本指纹库。
具体的,确定单元包括:第三获取模块、分析模块和得到模块,其中:
第三获取模块,用于若第四预设文本指纹库中存在第五参考文本指纹,获取第五参考文本指纹对应的类别。
分析模块,用于对第一类别和第五参考文本指纹对应的类别进行分析,得到第五参考文本指纹的类别分析结果。
得到模块,用于若类别分析结果满足第四预设条件,根据第四预设条件得到第五参考文本指纹对应的预设文本指纹库为第五预设文本指纹库。
具体的,判断结果对应的预设更新操作包括:
若第六预设文本指纹库中不存在第六参考文本指纹,获取第六预设文本指纹库当前存储的文本指纹的数量得到第一数值。
其中,第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,第六参考文本指纹为第六预设文本指纹库中第二文本指纹对应的参考文本指纹。
获取第六预设文本指纹库的第二数值。
其中,第二数值为采用第六预设文本指纹库确定待识别文本的类别的准确率满足预设数值时,第六预设文本指纹库允许存储的文本指纹的数量。
若第一数值、第二数值和第二文本指纹的数量之间的关系满足第五预设条件,根据第六预设文本指纹库中的文本指纹的时间戳,删除第六预设文本指纹库中符合删除条件的文本指纹。
存储第二文本指纹并标记第二文本指纹的时间戳为当前时间。
若第一数值、第二数值和第二文本指纹的数量之间的关系不满足第五预设条件,存储第二文本指纹至第六预设文本指纹库,并标记第二文本指纹的时间戳为当前时间。
具体的,判断结果对应的预设操作还包括:
若第六预设文本指纹库中存在第六参考文本指纹,更新第六参考文本指纹的时间戳为当前时间。
需要说明的是,本实施例中各个单元和模块之间的交互过程,可以参照图1~3及上述对应的实施例提供的一种文本识别方法中的交互过程,此处不再赘述。
本发明的实施例所提供的文本识别装置,通过获取待识别文本并对待识别文本进行编码处理,得到文本指纹,然后识别文本指纹所属的类别得到识别结果,若识别结果为可识别类别,对待识别文本进行类别分析得到待识别文本的反馈类别,最后根据识别结果与反馈类别,更新第一文本指纹对应的预设文本指纹库;这样,对待识别文本的文本指纹进行识别,并根据得到的识别结果对待识别文本进行类别分析得到反馈类别,然后基于文本指纹的识别结果及反馈类别之间的关系,对第一文本指纹对应的预设文本指纹库进行更新,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。
在实际应用中,第一处理单元51、识别单元52、第二处理单元53和第一更新单元54均可由位于无线数据发送设备中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (26)
1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
2.根据权利要求1中所述的方法,其特征在于,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,包括:
若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;
若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;
基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。
3.根据权利要求2中所述的方法,其特征在于,所述若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数,包括:
若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;
基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;
对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。
4.根据权利要求3所述的方法,其特征在于,所述若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数,包括:
统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;
基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。
5.根据权利要求3所述的方法,其特征在于,所述基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数,包括:
对所述待识别文本进行分词处理得到分词;
根据转换规则将每一所述分词进行转换,得到所述每一分词对应的转换参数;
根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。
6.根据权利要求2所述的方法,其特征在于,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,包括:
若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;
采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;
若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。
7.根据权利要求1所述的方法,其特征在于,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,还包括:
若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;
若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。
8.根据权利要求7所述的方法,其特征在于,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,还包括:
若所述参考文本的类别与所述识别结果不同,获取所述参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库;
采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第三参考文本指纹;其中,所述第三预设文本指纹库为除所述第二预设文本指纹库之外的预设文本指纹库;
若所述第三预设文本指纹库中存在所述第三参考文本指纹,删除所述第三预设文本指纹库中的所述第三参考文本指纹;
采用所述第三算法,判断所述第二预设文本指纹库中是否存在满足所述第一预设条件的与所述第一文本指纹对应的第四参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作将所述第一文本指纹更新至所述第二预设文本指纹库。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述识别结果为不可识别类别,获取所述待识别文本的类别得到第一类别;
采用第三算法,判断与所述第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第五参考文本指纹;
若所述第四预设文本指纹库中不存在所述第五参考文本指纹,基于所述第一文本指纹和所述第一类别更新所述第四预设文本指纹库;
若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库;
判断所述第五预设文本指纹库中是否存在所述第五参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作更新所述第五参考文本指纹至所述第五预设文本指纹库;
删除所述第四预设文本指纹库中的所述第五参考文本指纹。
10.根据权利要求9所述的方法,其特征在于,所述若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库,包括:
若所述第四预设文本指纹库中存在所述第五参考文本指纹,获取所述第五参考文本指纹对应的类别;
对所述第一类别和所述第五参考文本指纹对应的类别进行分析,得到所述第五参考文本指纹的类别分析结果;
若所述类别分析结果满足第四预设条件,根据所述第四预设条件得到所述第五参考文本指纹对应的预设文本指纹库为所述第五预设文本指纹库。
11.根据权利要求8-9任一所述方法,其特征在于,所述判断结果对应的预设更新操作包括:
若第六预设文本指纹库中不存在第六参考文本指纹,获取所述第六预设文本指纹库当前存储的文本指纹的数量得到第一数值;其中,所述第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,所述第六参考文本指纹为所述第六预设文本指纹库中与所述第二文本指纹对应的参考文本指纹;
获取所述第六预设文本指纹库的第二数值;其中,所述第二数值为采用所述第六预设文本指纹库确定所述待识别文本的类别的准确率满足预设数值时,所述第六预设文本指纹库允许存储的文本指纹的数量;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系满足第五预设条件,根据所述第六预设文本指纹库中的文本指纹的时间戳,删除所述第六预设文本指纹库中符合删除条件的文本指纹;
存储所述第二文本指纹并标记第二文本指纹的时间戳为当前时间;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系不满足所述第五预设条件,存储所述第二文本指纹至所述第六预设文本指纹库,并标记所述第二文本指纹的时间戳为当前时间。
12.根据权利要求11所述方法,其特征在于,所述方法还包括:
若所述第六预设文本指纹库中存在所述第六参考文本指纹,更新所述第六参考文本指纹的时间戳为当前时间。
13.一种文本识别设备,其特征在于,所述设备包括:处理器、存储器及通信总线;其中:
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行存储器中存储的文本识别程序,以实现以下步骤:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
14.根据权利要求13所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;
若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;
基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。
15.根据权利要求14所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;
基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;
对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。
16.根据权利要求15所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;
基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。
17.根据权利要求15所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
对所述待识别文本进行分词处理得到分词;
根据转换规则将每一所述分词进行转换,得到所述每一分词对应的转换参数;
根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。
18.根据权利要求14所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;
采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;
若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。
19.根据权利要求13所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;
若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。
20.根据权利要求19所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述参考文本的类别与所述识别结果不同,获取所述参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库;
采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第三参考文本指纹;其中,所述第三预设文本指纹库为除所述第二预设文本指纹库之外的预设文本指纹库;
若所述第三预设文本指纹库中存在所述第三参考文本指纹,删除所述第三预设文本指纹库中的所述第三参考文本指纹;
采用所述第三算法,判断所述第二预设文本指纹库中是否存在满足所述第一预设条件的与所述第一文本指纹对应的第四参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作将所述第一文本指纹更新至所述第二预设文本指纹库。
21.根据权利要求13所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述识别结果为不可识别类别,获取所述待识别文本的类别得到第一类别;
采用第三算法,判断与第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第五参考文本指纹;
若所述第四预设文本指纹库中不存在所述第五参考文本指纹,基于所述第一文本指纹和所述第一类别更新所述第四预设文本指纹库;
若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库;
判断所述第五预设文本指纹库中是否存在所述第五参考文本指纹,得到判断结果;
根据所述判断结果对应的预设更新操作更新所述第五参考文本指纹至所述第五预设文本指纹库;
删除所述第四预设文本指纹库中的所述第五参考文本指纹。
22.根据权利要求21所述的设备,其特征在于,所述处理器还用于执行所述文本识别程序,以实现以下步骤:
若所述第四预设文本指纹库中存在所述第五参考文本指纹,获取所述第五参考文本指纹对应的类别;
对所述第一类别和所述第五参考文本指纹对应的类别进行分析,得到所述第五参考文本指纹的类别分析结果;
若所述类别分析结果满足第四预设条件,根据所述第四预设条件得到所述第五参考文本指纹对应的预设文本指纹库为所述第五预设文本指纹库。
23.根据权利要求20-21任一所述的设备,其特征在于,所述处理器还用于:
若第六预设文本指纹库中不存在第六参考文本指纹,获取所述第六预设文本指纹库当前存储的文本指纹的数量得到第一数值;其中,所述第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,所述第六参考文本指纹为所述第六预设文本指纹库中与所述第二文本指纹对应的参考文本指纹;
获取所述第六预设文本指纹库的第二数值;其中,所述第二数值为采用所述第六预设文本指纹库确定所述待识别文本的类别的准确率满足预设数值时,所述第六预设文本指纹库允许存储的文本指纹的数量;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系满足第五预设条件,根据所述第六预设文本指纹库中的文本指纹的时间戳,删除所述第六预设文本指纹库中符合删除条件的文本指纹;
存储所述第二文本指纹并标记第二文本指纹的时间戳为当前时间;
若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系不满足所述第五预设条件,存储所述第二文本指纹至所述第六预设文本指纹库,并标记所述第二文本指纹的时间戳为当前时间。
24.根据权利要求23所述的设备,其特征在于,所述处理器还用于:
若所述第六预设文本指纹库中存在所述第六参考文本指纹,更新所述第六参考文本指纹的时间戳为当前时间。
25.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存在文本识别程序,处理器执行所述文本识别程序,以实现以下步骤:
获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
识别所述第一文本指纹所属的类别得到识别结果;
若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
26.一种文本识别装置,其特征在于,所述装置包括:第一处理单元、识别单元、第二处理单元和第一更新单元;其中:
所述第一处理单元,用于获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;
所述识别单元,用于识别所述第一文本指纹所属的类别得到识别结果;
所述第二处理单元,用于若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;
所述第一更新单元,用于根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710708318.9A CN109408795B (zh) | 2017-08-17 | 2017-08-17 | 一种文本识别方法、设备、计算机可读存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710708318.9A CN109408795B (zh) | 2017-08-17 | 2017-08-17 | 一种文本识别方法、设备、计算机可读存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109408795A true CN109408795A (zh) | 2019-03-01 |
CN109408795B CN109408795B (zh) | 2022-04-15 |
Family
ID=65455070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710708318.9A Active CN109408795B (zh) | 2017-08-17 | 2017-08-17 | 一种文本识别方法、设备、计算机可读存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408795B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309851A (zh) * | 2013-05-10 | 2013-09-18 | 微梦创科网络科技(中国)有限公司 | 短文本的垃圾识别方法及系统 |
CN103441924A (zh) * | 2013-09-03 | 2013-12-11 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
CN104268159A (zh) * | 2014-09-03 | 2015-01-07 | 河海大学 | 一种基于动态镜像的实时数据仓库数据预存取方法 |
CN105138611A (zh) * | 2015-08-07 | 2015-12-09 | 北京奇虎科技有限公司 | 短信类别识别方法及装置 |
US20160132830A1 (en) * | 2014-11-12 | 2016-05-12 | Adp, Llc | Multi-level score based title engine |
CN105786792A (zh) * | 2014-12-26 | 2016-07-20 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN106095735A (zh) * | 2016-06-06 | 2016-11-09 | 北京中加国道科技有限责任公司 | 一种基于深度神经网络检测学术文献抄袭的方法 |
CN106376002A (zh) * | 2015-07-20 | 2017-02-01 | 中兴通讯股份有限公司 | 一种管理方法及装置、垃圾短信监控系统 |
CN106991323A (zh) * | 2017-03-10 | 2017-07-28 | 中时瑞安(北京)网络科技有限责任公司 | 一种检测Android应用程序广告插件的模型和方法 |
-
2017
- 2017-08-17 CN CN201710708318.9A patent/CN109408795B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309851A (zh) * | 2013-05-10 | 2013-09-18 | 微梦创科网络科技(中国)有限公司 | 短文本的垃圾识别方法及系统 |
CN103441924A (zh) * | 2013-09-03 | 2013-12-11 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
CN104268159A (zh) * | 2014-09-03 | 2015-01-07 | 河海大学 | 一种基于动态镜像的实时数据仓库数据预存取方法 |
US20160132830A1 (en) * | 2014-11-12 | 2016-05-12 | Adp, Llc | Multi-level score based title engine |
CN105786792A (zh) * | 2014-12-26 | 2016-07-20 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
CN106376002A (zh) * | 2015-07-20 | 2017-02-01 | 中兴通讯股份有限公司 | 一种管理方法及装置、垃圾短信监控系统 |
CN105138611A (zh) * | 2015-08-07 | 2015-12-09 | 北京奇虎科技有限公司 | 短信类别识别方法及装置 |
CN106095735A (zh) * | 2016-06-06 | 2016-11-09 | 北京中加国道科技有限责任公司 | 一种基于深度神经网络检测学术文献抄袭的方法 |
CN106991323A (zh) * | 2017-03-10 | 2017-07-28 | 中时瑞安(北京)网络科技有限责任公司 | 一种检测Android应用程序广告插件的模型和方法 |
Non-Patent Citations (1)
Title |
---|
陈爽: "基于指纹分析的垃圾邮件过滤技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109408795B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301759B2 (en) | Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge | |
EP3968243A1 (en) | Method and apparatus for realizing model training, and computer storage medium | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN110807314A (zh) | 文本情感分析模型训练方法、装置、设备及可读存储介质 | |
CN108363701B (zh) | 命名实体识别方法及系统 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN110837874B (zh) | 基于时间序列分类的业务数据异常检测方法 | |
CN114706966A (zh) | 基于人工智能的语音交互方法、装置、设备及存储介质 | |
CN112966088B (zh) | 未知意图的识别方法、装置、设备及存储介质 | |
CN112036169B (zh) | 事件识别模型优化方法、装置、设备及可读存储介质 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN113315851A (zh) | 域名检测方法、装置及存储介质 | |
KR102005952B1 (ko) | 기계학습 모델링에서 잡음 데이터 제거를 위한 데이터 정제 장치 및 방법 | |
CN109408795A (zh) | 一种文本识别方法、设备、计算机可读存储介质及装置 | |
CN113298185B (zh) | 模型训练方法、异常文件检测方法、装置、设备及介质 | |
CN113535458B (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN112015897B (zh) | 语料的意图标注方法、装置、设备及存储介质 | |
CN114281939A (zh) | 文本分类模型的训练方法、文本分类方法、装置和设备 | |
CN113095073A (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN113691525A (zh) | 一种流量数据处理方法、装置、设备及存储介质 | |
CN112035668A (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
de Lima et al. | Evisclass: a new evaluation method for image data stream classifiers | |
CN114629809B (zh) | 一种实时网络流量数据解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |