CN114611501A - 生僻字检测方法、装置、设备及存储介质 - Google Patents
生僻字检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114611501A CN114611501A CN202210263354.XA CN202210263354A CN114611501A CN 114611501 A CN114611501 A CN 114611501A CN 202210263354 A CN202210263354 A CN 202210263354A CN 114611501 A CN114611501 A CN 114611501A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- list
- uncommon
- single character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种生僻字检测方法、装置、设备及存储介质,用于提高生僻字检测的效率和准确率。生僻字检测方法包括:获取目标文本,调用预置的分词工具将目标文本进行拆分,得到单字列表和词列表;将词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;将单字列表根据第二检测标准和目标词列表单字集合进行检测,得到第二生僻字库;根据第一生僻字库和第二生僻字库计算生僻字总数。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种生僻字检测方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,电子设备逐渐能够为用户提供智能化的服务,协助用户快速和准确地完成事项,给用户的工作和生活带来极大便利。
在我们使用电子设备输入文本时,由于输入法模型的引导或者用户的疏忽导致文本出现少见的生僻字,在实际应用场景中,出现生僻字大概率是文本存在错误,错误的文本会给用户带来负面体验。
在现有的技术中,通常采用逐一将文本字符与字库对比的方式进行生僻字的检测,检测效率低,而且对比字库更新不灵活,检测精准度低。
发明内容
本发明提供一种生僻字检测方法,预先将目标文本拆分为单字和词语,根据生僻字难以组成词语的特性,将单字和词语分别采用不同的测试标准进行检测,提高检测效率,同时单字的检测标准采用固定标准与动态标准相结合的方式,提高生僻字识别的准确率。
本发明第一方面提供了一种生僻字检测方法,包括:获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
可选的,在本发明第一方面的第一种实现方式中,所述将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库包括:将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准;将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。
可选的,在本发明第一方面的第二种实现方式中,所述根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准包括:根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。
可选的,在本发明第一方面的第三种实现方式中,所述将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库包括:根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值;生成第二生僻字库,所述第二生僻字库用于指示已确定为生僻字的单字字符。
可选的,在本发明第一方面的第四种实现方式中,所述根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值包括:根据所述第一编码标准确定所述单字列表中每个单字字符的第一编码,所述第一编码标准用于表示全部中文字符;将每个单字字符的第一编码与预设范围进行比对,当目标单字字符的第一编码在所述预设范围内时,判断所述目标单字字符是否在豁免列表中;当所述目标单字字符不在所述豁免列表中时,判断所述目标单字字符是否在所述目标词列表单字集合中;当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率;当所述目标单字字符的逆频率大于所述逆频率阈值时,确定所述目标单字字符为所述单字列表中的生僻字。
可选的,在本发明第一方面的第五种实现方式中,所述当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率包括:当所述目标单字字符不在所述目标词列表单字集合中时,基于预先选择的文本数据库计算所述文本数据库中单个字符的总数M,所述文本数据库保持动态更新,M为正整数;计算所述目标单字字符在所述文本数据库中出现的次数N,N为非负整数;根据所述总数M和所述次数N确定所述目标单字字符的逆频率F,其中,F=log(M/N)。
可选的,在本发明第一方面的第六种实现方式中,在所述根据所述第一生僻字库和所述第二生僻字库计算生僻字总数之后,还包括:当所述生僻字总数大于0时,将所述目标文本中的每个生僻字进行标记。
本发明第二方面提供了一种生僻字检测装置,包括:拆分模块,用于获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;第一检测模块,用于将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;第二检测模块,用于将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;计算模块,用于根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
可选的,在本发明第二方面的第一种实现方式中,所述第一检测模块包括:拆分子模块,用于将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;第一检测子模块,用于根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准;移除生成子模块,用于将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。
可选的,在本发明第二方面的第二种实现方式中,所述第一检测子模块具体用于:根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。
可选的,在本发明第二方面的第三种实现方式中,所述第二检测模块包括:第二检测子模块,用于根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值;生成子模块,用于生成第二生僻字库,所述第二生僻字库用于指示已确定为生僻字的单字字符。
可选的,在本发明第二方面的第四种实现方式中,所述第二检测子模块包括:第一确定单元,用于根据所述第一编码标准确定所述单字列表中每个单字字符的第一编码,所述第一编码标准用于表示全部中文字符;第一判断单元,用于将每个单字字符的第一编码与预设范围进行比对,当目标单字字符的第一编码在所述预设范围内时,判断所述目标单字字符是否在豁免列表中;第二判断单元,用于当所述目标单字字符不在所述豁免列表中时,判断所述目标单字字符是否在所述目标词列表单字集合中;获取单元,用于当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率;第二确定单元,用于当所述目标单字字符的逆频率大于所述逆频率阈值时,确定所述目标单字字符为所述单字列表中的生僻字。
可选的,在本发明第二方面的第五种实现方式中,所述获取单元具体用于:当所述目标单字字符不在所述目标词列表单字集合中时,基于预先选择的文本数据库计算所述文本数据库中单个字符的总数M,所述文本数据库保持动态更新,M为正整数;计算所述目标单字字符在所述文本数据库中出现的次数N,N为非负整数;根据所述总数M和所述次数N确定所述目标单字字符的逆频率F,其中,F=log(M/N)。
可选的,在本发明第二方面的第六种实现方式中,生僻字检测装置还包括:标记模块,用于当所述生僻字总数大于0时,将所述目标文本中的每个生僻字进行标记。
本发明第三方面提供了一种生僻字检测设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述生僻字检测设备执行上述生僻字检测方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的生僻字检测方法。
本发明提供的技术方案中,获取目标文本,调用预置的分词工具将目标文本进行拆分,得到单字列表和词列表;将词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;将单字列表根据第二检测标准和目标词列表单字集合进行检测,得到第二生僻字库;根据第一生僻字库和第二生僻字库计算生僻字总数。本发明利用拆分工具将目标文本拆分为单字和词语,根据生僻字难以组成词语的特性将单字和词语分别采用不同的测试标准进行检测,提高检测效率。
附图说明
图1为本发明实施例中生僻字检测方法的第一实施例示意图;
图2为本发明实施例中生僻字检测方法的第二实施例示意图;
图3为本发明实施例中生僻字检测方法的第三实施例示意图;
图4为本发明实施例中生僻字检测装置的一个实施例示意图;
图5为本发明实施例中生僻字检测装置的另一个实施例示意图;
图6为本发明实施例中生僻字检测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种生僻字检测方法、装置、设备及存储介质,用于文本生僻字的检测,将文本分为单字列表和词列表,根据生僻字较难组成词语的特点,将单字列表和词列表采用不同测试标准进行检测,提高检测效率,同时单字的检测标准采用固定标准与动态标准相结合的方式,提高生僻字识别的准确率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,可以理解的是,本发明的执行主体可以为生僻字检测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
请参阅图1,本发明实施例中生僻字检测方法的第一实施例包括:
101、获取目标文本,调用预置的分词工具将目标文本进行拆分,得到单字列表和词列表;
其中,分词工具利用生僻字难以组成词语的特性,在词语级别的基础上对文本进行数据处理,将文本分为单字和词语两大类,得到单字列表和词列表。
102、将词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;
其中,第一检测标准包含覆盖所有中文字符的第一编码标准和只含有常用中文字符的第二编码标准。例如,第一编码标准以Unicode编码标准为例,Unicode编码覆盖所有中文字符,在Unicode编码中,中文字符的编码区间为u4e00-u9fff与u3400-u4DB5的并集;第二编码标准以GB2312编码标准为例,GB2312编码一共收入常用汉字6763个和非汉字图形字符682个。
例如,目标文本经过拆分后得到词列表和单字列表,词列表中的单字字符出现生僻字的概率大大降低,词列表中所有单字字符的合集构成初始词列表单字集合,判断初始词列表单字集合中的每个单字字符的Unicode编码是否在区间u4e00-u9fff和区间u3400-u4DB5合并形成的区间集中,当单字字符的Unicode编码在区间集内时,代表该单字字符是一个中文字符,再将该单字字符基于GB2312编码标准进行转码,若该单字字符可以转码为GB2312编码字符,说明该单字字符是常用字,否则确定该单字字符为生僻字。
将确定为生僻字的单字字符从初始词列表单字集合中移除,生成目标词列表单字集合,同时生成第一生僻字库,第一生僻字库用于指示初始词列表单字集合中确定为生僻字的单字字符。
103、将单字列表根据第二检测标准和目标词列表单字集合进行检测,得到第二生僻字库;
其中,第二检测标准包括第一编码标准、豁免列表和逆频率阈值。第一编码标准覆盖所有中文字符,例如,第一编码标准可以是Unicode编码,或其他覆盖所有中文字符的编码,本申请中以第一编码标准是Unicode编码标准为例进行说明,在Unicode编码中,中文字符的编码区间为u4e00-u9fff与u3400-u4DB5的并集;豁免列表收录通常以单独形式出现、出现频率低但又不是生僻字的单个中文字符,可由用户配置和更新;逆频率阈值是基于预先选择的文本数据库设置的生僻字判断门槛,当单字字符逆频率大于逆频率阈值时,判定该单字字符为生僻字,单字字符的逆频率计算方式为:计算文本数据库中单个字符的总数M和该单字字符在文本数据库中出现的次数N,M、N为整数,则该单字字符的逆频率F=log(M/N)。
判断单字列表中的每个单字字符的Unicode编码是否在区间u4e00-u9fff和区间u3400-u4DB5合并形成的区间集中,当单字字符出现在区间集中时代表该单字字符是一个中文字符,然后判断该单字字符是否在豁免列表中;当该单字字符不在豁免列表中时,判断该单字字符是否在目标词列表单字集合中;当该单字字符不在目标词列表单字集合中时,获取该单字字符的逆频率,若该单字字符的逆频率大于逆频率阈值,则确定该单字字符为单字列表中的生僻字;根据判断结果生成第二生僻字库,用于指示单字列表中确定为生僻字的单字字符。
104、根据第一生僻字库和第二生僻字库计算生僻字总数。
根据第一生僻字库和第二生僻字库包含的生僻字查找目标文本中的生僻字,计算目标文本中生僻字的总数,当生僻字总数大于0时,显示检测结果,检测结果包括生僻字总数、生僻字位置以及生僻字标记信息。
本发明实施例中,将文本分为单字和词语,根据生僻字较难组成词语的特点,将单字和词语采用不同测试标准进行检测,提高检测效率。
请参阅图2,本发明实施例中生僻字检测方法的第二实施例包括:
201、获取目标文本,调用预置的分词工具将目标文本进行拆分,得到单字列表和词列表;
其中,分词工具利用生僻字难以组成词语的特性,在词语级别的基础上对文本进行数据处理,将文本分为单字和词语两大类,得到单字列表和词列表。
202、将词列表中的单词拆分为至少两个词列表单字,将至少两个词列表单字合并为初始词列表单字集合;
举例说明,当词列表中的单词为“天空”、“白云”、“花朵”时,拆分后生成“天”、“空”、“白”、“云”、“花”、“朵”六个词列表单字,这六个词列表单字合并构成了初始词列表单字集合;
再举例说明,当词列表中的单词为“天空”、“天气”、“花朵”时,拆分后生成“天”、“空”、“天”、“气”、“花”、“朵”六个词列表单字,其中,有两个相同的单字字符,此时只保留一个该相同的单字字符,因此,“天”、“空”、“气”、“花”、“朵”这五个词列表单字合并构成了初始词列表单字集合。
203、根据第一编码标准确定初始词列表单字集合中每个词列表单字的第一编码,第一编码标准用于表示全部汉字;
其中,第一编码标准覆盖所有中文字符,第一编码标准以Unicode编码标准为例来说明,Unicode编码覆盖所有中文字符,根据Unicode编码标准得到初始词列表单字集合中所有词列表单字的Unicode编码。
204、将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在预设范围内时,将目标词列表单字基于第二编码标准进行转码,第二编码标准用于表示常用汉字;
在Unicode编码中,中文字符的编码区间为区间u4e00-u9fff与区间u3400-u4DB5合并形成的区间集,当目标词列表单字的Unicode编码在区间集内时,说明该目标词列表单字是汉字,此时,再将该目标词列表单字基于第二编码标准进行转码,第二编码标准以GB2312编码标准为例,GB2312编码一共收入常用汉字6763个和非汉字图形字符682个。
205、若目标词列表单字基于第二编码标准转码失败,则确定目标词列表单字为词列表单字集合中的生僻字;
其中,若目标词列表单字基于GB2312编码标准转码成功,则说明该目标词列表单字是常用字;若目标词列表单字基于GB2312编码标准转码失败,则说明该目标词列表单字是生僻字。
206、将已确定为生僻字的目标词列表单字从初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,第一生僻字库用于指示已确定为生僻字的目标词列表单字;
其中,将确定为生僻字的目标词列表单字从初始词列表单字集合中移除,生成目标词列表单字集合,同时生成第一生僻字库用来指示初始词列表单字集合中确定为生僻字的目标词列表单字。
207、将单字列表根据第二检测标准和目标词列表单字集合进行检测,得到第二生僻字库;
其中,第二检测标准包括第一编码标准、豁免列表和逆频率阈值。第一编码标准覆盖所有中文字符,例如,第一编码标准可以是Unicode编码,或其他覆盖所有中文字符的编码,本申请中以第一编码标准是Unicode编码标准为例进行说明,在Unicode编码中,中文字符的编码区间为u4e00-u9fff与u3400-u4DB5的并集;豁免列表收录通常以单独形式出现、出现频率低但又不是生僻字的单个中文字符,可由用户配置和更新;逆频率阈值是基于预先选择的文本数据库设置的生僻字判断门槛,当单字字符逆频率大于逆频率阈值时,判定该单字字符为生僻字,单字字符的逆频率计算方式为:计算文本数据库中单个字符的总数M和该单字字符在文本数据库中出现的次数N,M、N为整数,则该单字字符的逆频率F=log(M/N)。
判断单字列表中的每个单字字符的Unicode编码是否在区间u4e00-u9fff和区间u3400-u4DB5合并形成的区间集中,当单字字符出现在区间集中时代表该单字字符是一个中文字符,然后判断该单字字符是否在豁免列表中;当该单字字符不在豁免列表中时,判断该单字字符是否在目标词列表单字集合中;当该单字字符不在目标词列表单字集合中时,获取该单字字符的逆频率,若该单字字符的逆频率大于逆频率阈值,则确定该单字字符为单字列表中的生僻字;根据判断结果生成第二生僻字库,用于指示单字列表中确定为生僻字的单字字符。
208、根据第一生僻字库和第二生僻字库计算生僻字总数。
根据第一生僻字库和第二生僻字库指示的生僻字查找目标文本中的生僻字,计算目标文本中生僻字的总数,当生僻字总数大于0时,显示检测结果,检测结果包括生僻字总数、生僻字位置以及生僻字标记信息。
本发明实施例中,将文本拆分为单字和词语,得到单字列表和词列表,词列表中的词语再拆分为单字字符,生成初始词列表单字集合,由于生僻字难以组成词语,因此初始词列表单字集合中的单字字符是生僻字的概率较低,此时依次采用覆盖所有中文字符的第一编码标准和只含有常用中文字符的第二编码标准来进行快速筛选判定;单字列表中出现生僻字的概率高,采用第一编码标准这种固态标准以及豁免列表和逆频率阈值这些动态标准来进行检测,能够提高生僻字识别的准确率。
请参阅图3,本发明实施例中生僻字检测方法的第三实施例包括:
301、获取目标文本,调用预置的分词工具将目标文本进行拆分,得到单字列表和词列表;
其中,分词工具利用生僻字难以组成词语的特性,在词语级别的基础上对文本进行数据处理,将文本分为单字和词语两大类,得到单字列表和词列表。
302、将词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;
其中,第一检测标准包含覆盖所有中文字符的第一编码标准和只含有常用中文字符的第二编码标准。以第一编码标准是Unicode编码标准为例进行说明,Unicode编码覆盖所有中文字符,在Unicode编码中,中文字符的编码区间为u4e00-u9fff与u3400-u4DB5的并集;第二编码标准以GB2312编码标准为例,GB2312编码一共收入常用汉字6763个和非汉字图形字符682个。
目标文本经过拆分后得到词列表和单字列表,词列表中的单字字符出现生僻字的概率大大降低,词列表中所有单字字符的合集构成初始词列表单字集合,判断初始词列表单字集合中的每个单字字符的Unicode编码是否在区间u4e00-u9fff和区间u3400-u4DB5合并形成的区间集中,当单字字符的Unicode编码在区间集内时,代表该单字字符是一个中文字符,再将该单字字符基于GB2312编码标准进行转码,若该单字字符可以转码为GB2312编码字符,说明该单字字符是常用字,否则确定该单字字符为生僻字。
将确定为生僻字的单字字符从初始词列表单字集合中移除,生成目标词列表单字集合,同时生成第一生僻字库,第一生僻字库用于指示初始词列表单字集合中确定为生僻字的单字字符。
303、根据所述第一编码标准确定单字列表中每个单字字符的第一编码,所述第一编码标准用于表示全部汉字;
其中,第一编码标准覆盖所有中文字符,第一编码标准以Unicode编码标准为例来说明,Unicode编码覆盖所有中文字符,根据Unicode编码标准得到单字列表中所有单字字符的Unicode编码。
304、将每个单字字符的第一编码与预设范围进行比对,当目标单字字符的第一编码在预设范围内时,判断目标单字字符是否在豁免列表中;
在Unicode编码中,中文字符的编码区间为u4e00-u9fff与u3400-u4DB5的并集,此时,预设范围为区间u4e00-u9fff和区间u3400-u4DB5合并形成的区间集,当目标单字字符出现在区间集中时代表该目标单字字符是一个中文字符,此时判断该目标单字字符是否在豁免列表中。
豁免列表收录经常以单独形式出现、出现频率低但又不是生僻字的单个中文字符,例如“吗”“呢”“吧”“谁”“啊”“么”等单个中文字符,豁免列表可由用户配置和更新。
305、当目标单字字符不在豁免列表中时,判断目标单字字符是否在目标词列表单字集合中;
其中,当目标单字字符在豁免列表中时,说明该目标单字字符不是生僻字;当目标单字字符不在豁免列表中时,进一步判断该目标单字字符是否在目标词列表单字集合中,目标词列表单字集合由步骤302得到。
306、当目标单字字符不在目标词列表单字集合中时,基于预先选择的文本数据库计算文本数据库中单个字符的总数M和目标单字字符在文本数据库中出现的次数N,文本数据库保持动态更新,M为正整数,N为非负整数;
其中,文本数据库来自保持一定更新频率的大众媒体,比如官方新闻、报纸或杂志,当目标单字字符不在目标词列表单字集合中时,计算文本数据库中单个字符的总数M,M为正整数,还计算在文本数据库目标单字字符出现的次数N,N为非负整数。
307、根据总数M和次数N确定目标单字字符的逆频率F,其中,F=log(M/N);
其中,根据M和N的值计算得到目标单字字符逆频率,目标单字字符逆频率的值越大,说明该目标单字字符出现的次数越少,是生僻字的概率越高;目标单字字符逆频率的值越小,说明该目标单字字符出现的次数越多,是生僻字的概率越低。
308、当目标单字字符的逆频率大于逆频率阈值时,确定目标单字字符为单字列表中的生僻字,生成第二生僻字库,第二生僻字库用于指示已确定为生僻字的单字字符;
其中,逆频率阈值由用户设定,例如,当用户设定逆频率阈值为2.35时,若目标单字字符的逆频率大于2.35,则确定该目标单字字符为生僻字,生成第二生僻字库,第二生僻字库用于指示已确定为生僻字的单字字符。
309、根据第一生僻字库和第二生僻字库计算生僻字总数。
根据第一生僻字库和第二生僻字库指示的生僻字查找目标文本中的生僻字,计算目标文本中生僻字的总数,当生僻字总数大于0时,显示检测结果,检测结果包括生僻字总数、生僻字位置以及生僻字标记信息。
本发明实施例中,将文本拆分为单字和词语,得到单字列表和词列表,词列表中的词语再拆分为单字字符,生成初始词列表单字集合,由于生僻字难以组成词语,因此初始词列表单字集合中的单字字符是生僻字的概率较低,此时采用固态检测标准来进行快速筛选判定;单字列表中出现生僻字的概率高,采用第一编码标准这种固态标准以及豁免列表、逆频率阈值和目标词列表单字集合这些动态标准来进行检测,能够提高生僻字识别的准确率。
上面对本发明实施例中生僻字检测方法进行了描述,下面对本发明实施例中生僻字检测装置进行描述,请参阅图4,本发明实施例中生僻字检测装置一个实施例包括:
拆分模块401,用于获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;
第一检测模块402,用于将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;
第二检测模块403,用于将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;
计算模块404,用于根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
本发明实施例中,利用拆分模块将目标文本进行拆分,得到单字列表和词列表,根据生僻字较难组成词语的特点,将词列表通过第一检测模块进行检测,将单字列表通过第二检测模块进行检测,提高检测效率,同时单字列表的检测标准采用固定标准与动态标准相结合的方式,提高生僻字识别的准确率。
请参阅图5,本发明实施例中生僻字检测装置的另一个实施例包括:
拆分模块401,用于获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;
第一检测模块402,用于将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;
第二检测模块403,用于将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;
计算模块404,用于根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
可选的,第一检测模块402包括:
拆分子模块4021,用于将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;
第一检测子模块4022,用于根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准;
移除生成子模块4023,用于将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。
可选的,第一检测子模块4022还可以具体用于:根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;
将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;
若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。
可选的,第二检测模块403包括:
第二检测子模块4031,用于根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值;
生成子模块4032,用于生成第二生僻字库,所述第二生僻字库用于指示已确定为生僻字的单字字符。
可选的,第二检测子模块4031还可以具体用于:
根据所述第一编码标准确定所述单字列表中每个单字字符的第一编码,所述第一编码标准用于表示全部中文字符;
将每个单字字符的第一编码与预设范围进行比对,当目标单字字符的第一编码在所述预设范围内时,判断所述目标单字字符是否在豁免列表中;
当所述目标单字字符不在所述豁免列表中时,判断所述目标单字字符是否在所述目标词列表单字集合中;
当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率;
当所述目标单字字符的逆频率大于所述逆频率阈值时,确定所述目标单字字符为所述单字列表中的生僻字。
本发明实施例中,将文本拆分为单字和词语,得到单字列表和词列表,词列表中的词语再拆分为单字字符,生成初始词列表单字集合,由于生僻字难以组成词语,因此初始词列表单字集合中的单字字符是生僻字的概率较低,此时采用固态检测标准来进行快速筛选判定;单字列表中出现生僻字的概率高,采用第一编码标准这种固态标准以及豁免列表、逆频率阈值和目标词列表单字集合这些动态标准来进行检测,能够提高生僻字识别的准确率。
上面图4和图5从模块化功能实体的角度对本发明实施例中的生僻字检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中生僻字检测设备进行详细描述。
图6是本发明实施例提供的一种生僻字检测设备的结构示意图,该生僻字检测设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对生僻字检测设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在生僻字检测设备600上执行存储介质630中的一系列指令操作。
生僻字检测设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的生僻字检测设备结构并不构成对生僻字检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种生僻字检测设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述生僻字检测方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述生僻字检测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种生僻字检测方法,其特征在于,包括:
获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;
将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;
将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;
根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
2.根据权利要求1所述的生僻字检测方法,其特征在于,所述将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库,包括:
将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;
根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准;
将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。
3.根据权利要求2所述的生僻字检测方法,其特征在于,所述根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准,包括:
根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;
将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;
若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。
4.根据权利要求1所述的生僻字检测方法,其特征在于,所述将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库,包括:
根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值;
生成第二生僻字库,所述第二生僻字库用于指示已确定为生僻字的单字字符。
5.根据权利要求4所述的生僻字检测方法,其特征在于,所述根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值,包括:
根据所述第一编码标准确定所述单字列表中每个单字字符的第一编码,所述第一编码标准用于表示全部中文字符;
将每个单字字符的第一编码与预设范围进行比对,当目标单字字符的第一编码在所述预设范围内时,判断所述目标单字字符是否在豁免列表中;
当所述目标单字字符不在所述豁免列表中时,判断所述目标单字字符是否在所述目标词列表单字集合中;
当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率;
当所述目标单字字符的逆频率大于所述逆频率阈值时,确定所述目标单字字符为所述单字列表中的生僻字。
6.根据权利要求5所述的生僻字检测方法,其特征在于,所述当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率,包括:
当所述目标单字字符不在所述目标词列表单字集合中时,基于预先选择的文本数据库计算所述文本数据库中单个字符的总数M,所述文本数据库保持动态更新,M为正整数;
计算所述目标单字字符在所述文本数据库中出现的次数N,N为非负整数;
根据所述总数M和所述次数N确定所述目标单字字符的逆频率F,其中,F=log(M/N)。
7.根据权利要求1-6中任一项所述的生僻字检测方法,其特征在于,在所述根据所述第一生僻字库和所述第二生僻字库计算生僻字总数之后,还包括:
当所述生僻字总数大于0时,将所述目标文本中的每个生僻字进行标记。
8.一种生僻字检测装置,其特征在于,包括:
拆分模块,用于获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;
第一检测模块,用于将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;
第二检测模块,用于将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;
计算模块,用于根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
9.一种生僻字检测设备,其特征在于,所述生僻字检测设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述生僻字检测设备执行如权利要求1-7中任意一项所述的生僻字检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述生僻字检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263354.XA CN114611501A (zh) | 2022-03-17 | 2022-03-17 | 生僻字检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263354.XA CN114611501A (zh) | 2022-03-17 | 2022-03-17 | 生僻字检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114611501A true CN114611501A (zh) | 2022-06-10 |
Family
ID=81864263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210263354.XA Pending CN114611501A (zh) | 2022-03-17 | 2022-03-17 | 生僻字检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611501A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339898A (zh) * | 2023-05-26 | 2023-06-27 | 福昕鲲鹏(北京)信息科技有限公司 | 页面内容显示方法及装置 |
-
2022
- 2022-03-17 CN CN202210263354.XA patent/CN114611501A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339898A (zh) * | 2023-05-26 | 2023-06-27 | 福昕鲲鹏(北京)信息科技有限公司 | 页面内容显示方法及装置 |
CN116339898B (zh) * | 2023-05-26 | 2023-08-22 | 福昕鲲鹏(北京)信息科技有限公司 | 页面内容显示方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428723B (zh) | 字符识别方法及装置、电子设备、存储介质 | |
CN113688837B (zh) | 图像脱敏方法、装置、电子设备及计算机可读存储介质 | |
CN115063875B (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN112364014B (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
CN110895533B (zh) | 一种表单映射方法、装置、计算机设备和存储介质 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN111831920A (zh) | 用户需求分析方法、装置、计算机设备及存储介质 | |
CN114611501A (zh) | 生僻字检测方法、装置、设备及存储介质 | |
CN111666928A (zh) | 基于图像分析的计算机文件相似度识别系统及方法 | |
CN118313347A (zh) | 文档处理方法、装置及其相关产品 | |
EP4191434A1 (en) | Identification method, generation method, dimensional compression method, display method, and information processing device | |
CN110580337A (zh) | 一种基于实体相似度计算的专业实体消歧实现方法 | |
CN111723182B (zh) | 一种用于漏洞文本的关键信息抽取方法及装置 | |
CN110826488B (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
JP2009122758A (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
CN110807322B (zh) | 基于信息熵识别新词的方法、装置、服务器及存储介质 | |
CN113497899A (zh) | 文字与图片的匹配方法、装置、设备及存储介质 | |
CN113837129A (zh) | 手写签名错别字识别方法、装置、设备及存储介质 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN110414496B (zh) | 相似字识别方法、装置、计算机设备及存储介质 | |
CN114860894A (zh) | 知识库的查询方法、装置、计算机设备和存储介质 | |
CN113627124A (zh) | 一种针对字体迁移模型的处理方法、装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |