CN113761191A - 文本识别方法、装置、设备及存储介质 - Google Patents
文本识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113761191A CN113761191A CN202110529346.0A CN202110529346A CN113761191A CN 113761191 A CN113761191 A CN 113761191A CN 202110529346 A CN202110529346 A CN 202110529346A CN 113761191 A CN113761191 A CN 113761191A
- Authority
- CN
- China
- Prior art keywords
- text
- text content
- word
- content
- seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供一种文本识别方法、装置、设备及存储介质,可应用于任意网络数据平台。该方法包括:通过接收待审核的文本内容,判断文本内容中是否存在预设的种子词以及白词词组,其中白词词组是基于种子词配置的合规词组。根据文本内容是否存在预设的种子词以及白词词组,确定文本内容是否合规。上述方案增加了对文本是否包含种子词的白词词组的判断,可大大降低对文本的误判率,提高文本识别的准确率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本识别方法、装置、设备及存储介质。
背景技术
随着互联网、智能设备及各种新生业务的飞速发展,互联网上的数据呈现爆炸式增长,图片、视频、发文、聊天等互动内容已经成为人们表达感情、记录生活、传播信息不可或缺的部分。这些日益增长的内容中也充斥着各种不可控的风险因素。因此,建立一个全面、高效、准确率高的内容安全检测产品十分必要。
目前,网络平台对文本内容的风险识别方案主要通过判断文本内容是否包含相关违禁内容来进行识别,该方案需要预先离线收集违禁词汇、短语。除此之外,还可通过人工辅助方式来进行文本甄别,降低风险内容的漏放。
然而,实际需要识别的文本内容可能包含变种词汇,例如首字母缩略语、同音字等,仅靠预设违禁词的匹配,无法有效甄别风险内容。另外,仅根据是否包含违禁词进行文本内容的判断,极容易对没有问题的文本内容造成误拦截。
发明内容
本申请实施例提供一种文本识别方法、装置、设备及存储介质,提高文本识别的准确率。
本申请实施例的第一方面提供一种文本识别方法,包括:
接收待审核的文本内容;
根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。
在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
确定所述文本内容是否存在所述种子词;
若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;
若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。
在本申请的一个实施例中,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;
所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
确定所述文本内容是否存在黑词词组;
若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者
若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。
在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。
在本申请的一个实施例中,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规,包括:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;
若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。
在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规。
在本申请的一个实施例中,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规,包括:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的中文全拼;
若所述文本内容不存在所述种子词的中文全拼,确定所述文本内容为合规内容。
在本申请的一个实施例中,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
所述根据所述文本内容中是否存在所述预设文本、所述预设文本的首字母组合以及中文全拼,确定所述文本内容是否合规。
本申请实施例的第二方面提供一种文本识别装置,包括:
接收模块,用于接收待审核的文本内容;
处理模块,用于根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。
在本申请的一个实施例中,处理模块,具体用于:
确定所述文本内容是否存在所述种子词;
若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;
若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。
在本申请的一个实施例中,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;
处理模块,具体用于:
确定所述文本内容是否存在黑词词组;
若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者
若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。
在本申请的一个实施例中,处理模块,具体用于:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。
在本申请的一个实施例中,所述预设文本包括所述种子词,处理模块,具体用于:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;
若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。
在本申请的一个实施例中,处理模块,具体用于:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规。
在本申请的一个实施例中,所述预设文本包括所述种子词,处理模块,具体用于:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的中文全拼;
若所述文本内容不存在所述种子词的中文全拼,确定所述文本内容为合规内容。
在本申请的一个实施例中,处理模块,具体用于:
所述根据所述文本内容中是否存在所述预设文本、所述预设文本的首字母组合以及中文全拼,确定所述文本内容是否合规。
本申请实施例的第三方面提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。
本申请实施例的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。
本申请实施例的第五方面提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。
本申请实施例提供一种文本识别方法、装置、设备及存储介质,可应用于任意网络数据平台。该方法包括:通过接收待审核的文本内容,判断文本内容中是否存在预设的种子词以及白词词组,其中白词词组是基于种子词配置的合规词组。根据文本内容是否存在预设的种子词以及白词词组,确定文本内容是否合规。上述方案增加了对文本是否包含种子词的白词词组的判断,可大大降低对文本的误判率,提高文本识别的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本识别方法的场景示意图一;
图2为本申请实施例提供的文本识别方法的场景示意图二;
图3为本申请实施例提供的文本识别方法的流程示意图一;
图4为本申请实施例提供的文本识别方法的流程示意图二;
图5为本申请实施例提供的文本识别方法的流程示意图三;
图6为本申请实施例提供的文本识别方法的流程示意图四;
图7为本申请实施例提供的文本识别方法的流程示意图五;
图8为本申请实施例提供的文本识别方法的流程示意图六;
图9为本申请实施例提供的文本识别装置的结构示意图;
图10为本申请实施例提供的电子设备的硬件结构图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本文中使用的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
基于背景技术部分可知,现有的文本识别方案对于一些首字母缩略语、中英结合、同音字等变种词汇的识别率低。另外,对于一些敏感词汇,如果该敏感词汇前面或者后面增加一个字或词,可能是一个不敏感词汇,现有的文本识别方案可能误识别为违禁词,造成文本内容的误拦截。因此,有必要对现有的文本识别方案作进一步优化,以提高文本内容识别的准确率。
对此,本申请实施例提出一种文本识别方案,基于现有的文本识别方案,对规则进行动态配置,实现配置一次,即可对一类风险内容进行有效识别。可以考虑增加对违禁词汇(或敏感词汇)的精细配置,配置基于违禁词汇的黑词词组和白词词组,以及相对应的判断逻辑。例如,违禁词汇A,对该违禁词汇进行细化配置,配置A+B为违禁词组,A+C为合规词组,通过该配置,可降低对文本内容的误拦截。另外,还可以考虑增加首字母、拼音维度的文本检测,增强对文本变种内容的识别能力,提高文本识别的准确率。
在介绍本申请提供的文本识别方案之前,首先对文本识别方案的应用场景进行简要介绍。
示例性的,图1为本申请实施例提供的文本识别方法的场景示意图一,如图1所示,该场景包括终端设备11以及服务器12,终端设备11与服务器12通信连接。其中,服务器12具有文本识别功能,终端设备11通过互联网连接服务器12,向服务器12发送文本内容,服务器12接收到的文本内容首先进行文本识别,当确定终端设备11上传的文本内容中没有违禁词时,可将文本内容发布于服务器12所在的网络平台。
终端设备11可以是各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机等。服务器12可以是提供各种网络信息的服务器,例如电商平台的服务器,社交平台的服务器等。
示例性的,图2为本申请实施例提供的文本识别方法的场景示意图二,如图2所示,该场景包括终端设备11,服务器12以及文本识别装置13。该场景是将文本识别功能设置于文本识别装置13,文本识别装置12独立于服务器12。在实际应用中,终端设备11访问服务器12,首先需要经过文本识别装置13进行文本识别,在文本识别装置13执行完文本识别任务后,将终端设备11发送的数据转发给服务器12,或者,将终端设备11发送的数据拦截。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图3为本申请实施例提供的文本识别方法的流程示意图一。本实施例提供的文本识别方法可应用于图1所示的服务器12,或者图2所示的文本识别装置13。
如图3所示,本实施例的文本识别方法包括如下步骤:
步骤101、接收待审核的文本内容。
本实施例中,待审核的文本内容来自用户的终端设备,用户通过终端设备向数据平台(服务器)上传文本内容,平台需要对文本内容进行审核,在确定文本内容没有敏感词汇或违禁词汇时,成功上传文本内容至平台。
步骤102、根据文本内容是否存在预设文本,确定文本内容是否合规。
其中,预设文本包括种子词以及白词词组,白词词组是基于种子词配置的合规词组。
示例性的,以金融领域为例,种子词包括“白条”,白词词组包括“白条提额”、“白条还款”等。可见,文本内容虽然命中“白条”,但是对于出现“白条还款”、“白条提额”的内容,审核可通过,该策略被称为豁免策略。
示例性的,以电商领域为例,种子词包括“涨价”,白词词组包括“涨价幅度”、“涨价范围”。可见,文本内容虽然命中“涨价”,但是对出现“涨价幅度”、“涨价范围”的内容,审核可通过。
上述仅作为一种示例,应理解,不同领域对应不同的种子词以及白词词组,对此本申请实施例不作任何限制。
具体的,上述步骤102,包括:
首先确定文本内容是否存在种子词,若文本内容不存在种子词,确定文本内容为合规内容;若文本内容存在种子词,则进一步确定种子词是否均属于白词词组。若种子词均属于白词词组,确定文本内容为合规内容,若只有部分种子词属于白词词组,确定文本内容为不合规内容。
在本实施例中,考虑到种子词与不同词汇的组合可能是违禁词组,也可能不是违禁词组,为了降低误判,在现有方案的基础上,配置白词词组,白词词组是包含种子词的合规词组。若检测到文本内容中包括种子词,按照现有方案,该文本内容将被判为不合规内容,然而,按照本实施例的配置规则,在确定文本内容包括种子词后,还需要结合种子词前后词汇,做进一步的判断,若确定种子词与前后词汇的组合属于预配置的白词词组,则该种子词为合规词汇。若文本内容中的所有种子词结合前后词汇均被判为合规词汇,则整个文本内容为合规内容。
需要说明的是,在确定文本内容是否存在预设文本之前,需要对接收到的待审核的文本内容进行分词处理,分词方法可参见现有方案,此处不过多赘述。
本实施例提供的文本识别方法,通过接收待审核的文本内容,判断文本内容中是否存在预设的种子词以及白词词组,其中白词词组是基于种子词配置的合规词组。根据文本内容是否存在预设的种子词以及白词词组,确定文本内容是否合规。上述方案增加了对文本中是否包含种子词的白词词组的判断,可大大降低对文本的误判率,提高文本识别的准确率。
图4为本申请实施例提供的文本识别方法的流程示意图二。本实施例提供的文本识别方法可应用于图1所示的服务器12,或者图2所示的文本识别装置13。
如图4所示,本实施例的文本识别方法包括如下步骤:
步骤201、接收待审核的文本内容。
步骤202、确定文本内容中是否存在黑词词组。
若文本内容中存在黑词词组,执行步骤203;若文本内容中不存在黑词词组,执行步骤204。
其中,黑词词组是基于种子词配置的违禁词组。
示例性的,以金融领域为例,种子词包括白条,黑词词组包括白条套现等。可见,文本内容出现“白条”、“百条”、BT等敏感词汇时,如果该敏感词汇的前面或后面有预设词汇,例如上述示例中的“套现”及其变种词汇“TX”、“taoxian”、“陶现”等,可以确定文本内容中存在黑词词组,审核不通过。
示例性的,以电商领域为例,种子词包括“涨价”,黑词词组包括“随时涨价”等。可见,文本内容出现“涨价”等敏感词汇时,如果该敏感词汇的前后出现预设词汇,例如“随时”及其变种词汇“随实”等,可以确定文本内容中存在黑词词组,审核不通过。
上述仅作为一种示例,应理解,不同领域对应不同的种子词以及黑词词组,对此本申请实施例不作任何限制。
步骤203、确定文本内容为不合规内容。
步骤204、确定文本内容中是否存在种子词。
若文本内容中存在种子词,执行步骤205;若文本内容中不存在种子词,执行步骤206。
步骤205、确定种子词是否均属于白词词组。
若种子词均属于白词词组,执行步骤206;若只有部分种子词属于白词词组,执行步骤203。
步骤206、确定文本内容为合规内容。
在本实施例中,同样考虑到种子词与不同词汇的组合可能是违禁词组,也可能不是违禁词组,为了降低误判,在现有方案的基础上,同时配置白词词组以及黑词词组,白词词组是包含种子词的合规词组,黑词词组是包含种子词的违禁词组。本实施例的种子词可以看作是敏感词,是否为违禁词需要结合种子词在文本中的语义(即结合种子词前后的词汇)判定。
为了加快对文本的检测速率,本实施例首先确定文本内容是否存在黑词词组,如果有一个黑词词组,则文本内容将直接被判为不合规内容。如果没有一个黑词词组,可执行与图3所示实施例相同的步骤,进一步确定文本内容是否有种子词和白词词组,判断逻辑同图3实施例。
本实施例提供的文本识别方法,通过接收待审核的文本内容,首先判断文本内容中是否存在黑词词组,如果不存在黑词词组,再判断文本内容中是否存在种子词,如果存在种子词,则需要进一步判断种子词是否均属于白词词组,如果种子词均属于白词词组,确定文本内容为合规内容。其中,黑词词组是包含种子词的违禁词组,白词词组是包含种子词的合规词组。上述方案增加了对文本中是否包含种子词的黑词词组以及白词词组的判断,不仅可以加快对文本的检测速率,而且大大降低对文本的误判率,提高文本识别的准确率。
图5为本申请实施例提供的文本识别方法的流程示意图三。本实施例提供的文本识别方法可应用于图1所示的服务器12,或者图2所示的文本识别装置13。
如图5所示,本实施例的文本识别方法包括如下步骤:
步骤301、接收待审核的文本内容。
步骤302、根据文本内容中是否存在预设文本以及预设文本的首字母组合,确定文本内容是否合规。
在第一种实现方式中,首先确定文本内容中是否存在预设文本,若文本内容中不存在预设文本,则进一步确定文本内容中是否存在预设文本的首字母组合,从而确定文本内容是否合规。
在第二种实现方式中,首先确定文本内容中是否存在预设文本的首字母组合,若文本内容中不存在预设文本的首字母组合,则进一步确定文本内容中是否存在预设文本,从而确定文本内容是否合规。
在第三种实现方式中,还可以同时对文本内容中是否存在预设文本以及预设文本的首字母组合进行判断,确定文本内容是否合规。
上述几种实现方式中的预设文本至少包括种子词。
下面以预设文本包括种子词为例,对上述第一种实现方式进行详细说明。
首先确定文本内容中是否存在种子词,若文本内容中不存在种子词,则进一步确定文本内容中是否存在种子词的首字母组合,若文本内容中也不存在种子词的首字母组合,则确定文本内容为合规内容,若文本内容中存在种子词的首字母组合,则确定文本内容为不合规内容。
可选的,在一些实施例中,预设文本还包括:白词词组。
下面以预设文本包括种子词和白词词组为例,对上述第一种实现方式进行详细说明。
首先确定文本内容中是否存在种子词,若文本内容中不存在种子词,则进一步确定文本内容中是否存在种子词的首字母组合。若文本内容中不存在种子词的首字母组合,则确定文本内容为合规内容;若文本内容中存在种子词的首字母组合,需要进一步确定种子词的首字母组合是否均属于白词词组的首字母组合。若种子词的首字母组合均属于白词词组的首字母组合,则确定文本内容为合规内容;若只有部分种子词的首字母组合属于白词词组的首字母组合,则确定文本内容为不合规内容。
可选的,在一些实施例中,预设文本还包括:黑词词组。
下面以预设文本包括黑词词组、种子词和白词词组为例,对上述第一种实现方式进行详细说明。
首先确定文本内容是否存在黑词词组,若文本内容中不存在黑词词组,则进一步确定文本内容中是否存在黑词词组的首字母组合。若文本内容中存在黑词词组的首字母组合,则确定文本内容为不合规内容。若文本内容中不存在黑词词组的首字母组合,则进一步确定文本内容中是否存在种子词,后续判断同上述实施例,具体可参见上述实施例,此处不再赘述。
本实施例提供的文本识别方法,通过接收待审核的文本内容,确定文本内容中是否存在预设文本以及预设文本的首字母组合,确定文本内容是否合规。其中,预设文本至少包括种子词。上述方案可以有效识别基于预设文本的首字母字符串,增强对违禁词的变种识别能力。
图6为本申请实施例提供的文本识别方法的流程示意图四。本实施例提供的文本识别方法可应用于图1所示的服务器12,或者图2所示的文本识别装置13。
如图6所示,本实施例的文本识别方法包括如下步骤:
步骤401、接收待审核的文本内容。
步骤402、根据文本内容中是否存在预设文本以及预设文本的中文全拼,确定文本内容是否合规。
在第一种实现方式中,首先确定文本内容中是否存在预设文本,若文本内容中不存在预设文本,则进一步确定文本内容中是否存在预设文本的中文全拼,从而确定文本内容是否合规。
在第二种实现方式中,首先确定文本内容中是否存在预设文本的中文全拼,若文本内容中不存在预设文本的中文全拼,则进一步确定文本内容中是否存在预设文本,从而确定文本内容是否合规。
在第三种实现方式中,还可以同时对文本内容中是否存在预设文本以及预设文本的中文全拼进行判断,确定文本内容是否合规。
上述几种实现方式中的预设文本至少包括种子词。
下面以预设文本包括种子词为例,对上述第一种实现方式进行详细说明。
首先确定文本内容中是否存在种子词,若文本内容中不存在种子词,则进一步确定文本内容中是否存在种子词的中文全拼,若文本内容中也不存在种子词的中文全拼,则确定文本内容为合规内容,若文本内容中存在为种子词的中文全拼,则确定文本内容为不合规内容。
可选的,在一些实施例中,预设文本还包括:白词词组。
下面以预设文本包括种子词和白词词组为例,对上述第一种实现方式进行详细说明。
首先确定文本内容中是否存在种子词,若文本内容中不存在种子词,则进一步确定文本内容中是否存在种子词的中文全拼。若文本内容中不存在种子词的中文全拼,则确定文本内容为合规内容;若文本内容中存在种子词的中文全拼,需要进一步确定种子词的中文全拼是否均属于白词词组的中文全拼。若种子词的中文全拼均属于白词词组的中文全拼,则确定文本内容为合规内容;若只有部分种子词的中文全拼属于白词词组的中文全拼,则确定文本内容为不合规内容。
可选的,在一些实施例中,预设文本还包括:黑词词组。
下面以预设文本包括黑词词组、种子词和白词词组为例,对上述第一种实现方式进行详细说明。
首先确定文本内容是否存在黑词词组,若文本内容中不存在黑词词组,则进一步确定文本内容中是否存在黑词词组的中文全拼。若文本内容中存在黑词词组的中文全拼,则确定文本内容为不合规内容。若文本内容中不存在黑词词组的中文全拼,则进一步确定文本内容是否存在种子词,后续判断同上述实施例,具体可参见上述实施例,此处不再赘述。
本实施例提供的文本识别方法,通过接收待审核的文本内容,确定文本内容中是否存在预设文本以及预设文本的中文全拼,确定文本内容是否合规。其中,预设文本至少包括种子词。上述方案可以有效识别基于预设文本的中文全拼字符串,增强对违禁词的变种识别能力。
图7为本申请实施例提供的文本识别方法的流程示意图五。本实施例提供的文本识别方法可应用于图1所示的服务器12,或者图2所示的文本识别装置13。
如图7所示,本实施例的文本识别方法包括如下步骤:
步骤501、接收待审核的文本内容。
步骤502、根据文本内容中是否存在预设文本、预设文本的首字母以及中文全拼,确定文本内容是否合规。
下面以预设文本包括种子词、黑词词组以及白词词组为例,对步骤502 的具体执行过程进行详细说明。示例性的,附图8示出了一种具体的文本识别方法,如图8所示,该方法包括:
步骤5021、确定文本内容是否存在黑词词组。
若文本内容存在黑词词组,执行步骤5022;若文本内容不存在黑词词组,执行步骤5023。
可选的,在一些实施例中,除了确定文本内容是否存在黑词词组,还包括确定文本内容是否存在黑词词组的首字母组合和/或中文全拼,若文本内容存在黑词词组的首字母组合和/或中文全拼,执行步骤5022。
步骤5022、确定文本内容为不合规内容。
步骤5023、确定文本内容是否存在种子词。
若文本内容存在种子词,执行步骤5024。若文本内容不存在种子词,执行步骤5025。
步骤5024、确定种子词是否均属于白词词组。
若种子词均属于白词词组,执行步骤5025;
若只有部分种子词属于白词词组,执行步骤5022。
可选的,在一些实施例中,若种子词均属于白词词组,执行步骤5029。
步骤5025、确定文本内容是否存在种子词的首字母组合。
若文本内容存在种子词的首字母组合,执行步骤5026;若文本内容不存在种子词的首字母组合,执行步骤5027。
步骤5026、确定种子词的首字母组合是否均属于白词词组的首字母组合。
若种子词的首字母组合均属于白词词组的首字母组合,执行步骤5027;若只有部分种子词的首字母组合属于白词词组的首字母组合,执行步骤5022。
可选的,在一些实施例中,若种子词的首字母组合均属于白词词组的首字母组合,执行步骤5029。
步骤5027、确定文本内容是否存在种子词的中文全拼。
若文本内容存在种子词的中文全拼,执行步骤5028;若文本内容不存在种子词的中文全拼,执行步骤5029。
步骤5028、确定种子词的中文全拼是否均属于白词词组的中文全拼。
若种子词的中文全拼均属于白词词组的中文全拼,执行步骤5029;若只有部分种子词的中文全拼属于白词词组的中文全拼,执行步骤5022。
步骤5029、确定文本内容为合规内容。
可选的,在一些实施例中,也可以向执行步骤5027再执行步骤5025。
需要指出的是,上述步骤5024、步骤5026以及步骤5028均涉及白词词组,逻辑判断规则相同,可统称为白词规则。
本实施例提供的文本识别方法,通过接收待审核的文本内容,根据文本内容中是否存在预设文本、预设文本的首字母以及预设文本的中文全拼,确定文本内容是否合规。其中,预设文本包括种子词、包含种子词的黑词词组以及白词词组。上述方案通过对文本的种子词、黑词词组以及白词词组的识别,可降低对文本的误判率。另外,上述方案还可以有效识别基于种子词、黑词词组以及白词词组的变种文本(包括中文全拼、首字母组合等),增强对违禁词的变种识别能力,提升文本识别的准确率。
本申请实施例可以根据上述方法实施例对文本识别装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现,也可以使用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。
图9为本申请实施例提供的文本识别装置的结构示意图。如图9所示,本实施例提供的文本识别装置600,包括:接收模块601以及处理模块602。
接收模块601,用于接收待审核的文本内容;
处理模块602,用于根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。
在本申请的一个实施例中,处理模块602,具体用于:
确定所述文本内容是否存在所述种子词;
若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;
若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。
在本申请的一个实施例中,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;
处理模块602,具体用于:
确定所述文本内容是否存在黑词词组;
若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者
若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。
在本申请的一个实施例中,处理模块602,具体用于:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。
在本申请的一个实施例中,所述预设文本至少包括所述种子词,处理模块602,具体用于:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;
若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。
在本申请的一个实施例中,处理模块602,具体用于:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规。
在本申请的一个实施例中,所述预设文本至少包括所述种子词,处理模块602,具体用于:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的中文全拼;
若所述文本内容不存在所述种子词的中文全拼,确定所述文本内容为合规内容。
在本申请的一个实施例中,处理模块602,具体用于:
所述根据所述文本内容中是否存在所述预设文本、所述预设文本的首字母组合以及中文全拼,确定所述文本内容是否合规。
本实施例提供的文本识别装置,可以执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10为本申请实施例提供的电子设备的硬件结构图,如图10所示,本实施例提供的电子设备700,包括:
存储器701;
处理器702;以及
计算机程序;
其中,计算机程序存储在存储器701中,并被配置为由处理器702执行以实现上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,存储器701既可以是独立的,也可以跟处理器702集成在一起。当存储器701是独立于处理器702之外的器件时,电子设备700还包括:总线703,用于连接存储器701和处理器702。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器702执行以实现如前述任一方法实施例中的技术方案。
本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述任一方法实施例中的技术方案。
本申请实施例还提供了一种芯片,包括:处理模块与通信接口,该处理模块能执行前述任一方法实施例中的技术方案。
进一步地,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例中的技术方案。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA) 总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备中。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。
Claims (12)
1.一种文本识别方法,其特征在于,包括:
接收待审核的文本内容;
根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的合规词组。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
确定所述文本内容是否存在所述种子词;
若所述文本内容中存在所述种子词,确定所述种子词是否均属于白词词组;
若所述种子词均属于所述白词词组,确定所述文本内容为合规内容。
3.根据权利要求1所述的方法,其特征在于,所述预设文本还包括黑词词组,所述黑词词组是基于所述种子词配置的违禁词组;
所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
确定所述文本内容是否存在黑词词组;
若所述文本内容存在黑词词组,确定所述文本内容为不合规内容;或者
若所述文本内容不存在黑词词组,根据所述种子词以及白词词组确定所述文本内容是否合规。
4.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规。
5.根据权利要求4所述的方法,其特征在于,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的首字母组合,确定所述文本内容是否合规,包括:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的首字母组合;
若所述文本内容不存在所述种子词的首字母组合,确定所述文本内容为合规内容。
6.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规。
7.根据权利要求6所述的方法,其特征在于,所述预设文本至少包括所述种子词,所述根据所述文本内容中是否存在所述预设文本以及所述预设文本的中文全拼,确定所述文本内容是否合规,包括:
确定所述文本内容中是否存在所述种子词;
若所述文本内容不存在所述种子词,确定所述文本内容是否存在所述种子词的中文全拼;
若所述文本内容不存在所述种子词的中文全拼,确定所述文本内容为合规内容。
8.根据权利要求1所述的方法,其特征在于,所述根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规,包括:
所述根据所述文本内容中是否存在所述预设文本、所述预设文本的首字母组合以及中文全拼,确定所述文本内容是否合规。
9.一种文本识别装置,其特征在于,包括:
接收模块,用于接收待审核的文本内容;
处理模块,用于根据所述文本内容中是否存在预设文本,确定所述文本内容是否合规;
所述预设文本包括种子词以及白词词组,所述白词词组是基于所述种子词配置的非违禁词组。
10.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至8中任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529346.0A CN113761191A (zh) | 2021-05-14 | 2021-05-14 | 文本识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529346.0A CN113761191A (zh) | 2021-05-14 | 2021-05-14 | 文本识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761191A true CN113761191A (zh) | 2021-12-07 |
Family
ID=78787165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110529346.0A Pending CN113761191A (zh) | 2021-05-14 | 2021-05-14 | 文本识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761191A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN111061874A (zh) * | 2019-12-10 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 敏感信息检测方法和装置 |
CN111159354A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种敏感资讯检测方法、装置、设备及系统 |
CN111460814A (zh) * | 2020-03-10 | 2020-07-28 | 中国平安人寿保险股份有限公司 | 敏感信息检测方法、装置、终端及介质 |
CN111859093A (zh) * | 2020-07-30 | 2020-10-30 | 中国联合网络通信集团有限公司 | 敏感词处理方法、装置及可读存储介质 |
CN112559672A (zh) * | 2021-02-22 | 2021-03-26 | 深圳市优讯通信息技术有限公司 | 信息检测方法、电子设备及计算机存储介质 |
CN112686036A (zh) * | 2020-08-18 | 2021-04-20 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-05-14 CN CN202110529346.0A patent/CN113761191A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182246A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN111061874A (zh) * | 2019-12-10 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 敏感信息检测方法和装置 |
CN111159354A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种敏感资讯检测方法、装置、设备及系统 |
CN111460814A (zh) * | 2020-03-10 | 2020-07-28 | 中国平安人寿保险股份有限公司 | 敏感信息检测方法、装置、终端及介质 |
CN111859093A (zh) * | 2020-07-30 | 2020-10-30 | 中国联合网络通信集团有限公司 | 敏感词处理方法、装置及可读存储介质 |
CN112686036A (zh) * | 2020-08-18 | 2021-04-20 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN112559672A (zh) * | 2021-02-22 | 2021-03-26 | 深圳市优讯通信息技术有限公司 | 信息检测方法、电子设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427731B (zh) | 页面代码的处理方法、装置、终端设备及介质 | |
CN111061874B (zh) | 敏感信息检测方法和装置 | |
CN111274782A (zh) | 一种文本审核方法、装置、计算机设备及可读存储介质 | |
CN109815147B (zh) | 测试案例生成方法、装置、服务器和介质 | |
CN108073429B (zh) | 一种支付方式配置方法、装置、设备及存储介质 | |
WO2017173093A1 (en) | Method and device for identifying spam mail | |
CN111814481B (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
CN111179066A (zh) | 业务数据的批量处理方法、装置、服务器和存储介质 | |
CN114048740B (zh) | 敏感词检测方法、装置及计算机可读存储介质 | |
US10896287B2 (en) | Identifying and modifying specific user input | |
CN111159354A (zh) | 一种敏感资讯检测方法、装置、设备及系统 | |
CN111598122A (zh) | 数据校验方法、装置、电子设备和存储介质 | |
CN109033224B (zh) | 一种风险文本识别方法和装置 | |
CN110489674A (zh) | 页面处理方法、装置及设备 | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN117216279A (zh) | Pdf文件的文本提取方法、装置、设备及存储介质 | |
CN110888975A (zh) | 文本可视化 | |
CN113626576A (zh) | 远程监督中关系特征抽取方法、装置、终端及存储介质 | |
CN109829043B (zh) | 词性确认方法、装置、电子设备及存储介质 | |
CN109960752B (zh) | 应用程序内的查询方法、装置、计算机设备和存储介质 | |
CN113761191A (zh) | 文本识别方法、装置、设备及存储介质 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
US11444901B2 (en) | Device, method, and computer readable medium for identifying fraudulent email using function terms | |
US11482027B2 (en) | Automated extraction of performance segments and metadata values associated with the performance segments from contract documents | |
CN115546811A (zh) | 一种识别印章的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176 Applicant before: Jingdong Digital Technology Holding Co.,Ltd. |