CN111737981A - 词汇纠错方法、装置、计算机设备及存储介质 - Google Patents

词汇纠错方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111737981A
CN111737981A CN202010587455.3A CN202010587455A CN111737981A CN 111737981 A CN111737981 A CN 111737981A CN 202010587455 A CN202010587455 A CN 202010587455A CN 111737981 A CN111737981 A CN 111737981A
Authority
CN
China
Prior art keywords
candidate
character
word set
vocabulary
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010587455.3A
Other languages
English (en)
Inventor
陈乐清
刘东煜
曾增烽
李炫�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010587455.3A priority Critical patent/CN111737981A/zh
Publication of CN111737981A publication Critical patent/CN111737981A/zh
Priority to PCT/CN2021/091066 priority patent/WO2021258853A1/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种词汇纠错方法、装置、计算机设备及存储介质,获取待处理词汇,待处理词汇包括N个候选字符;采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,组成候选词集集合,其中,分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;采用编辑距离算法从待处理词汇中确定待替换字符,基于待替换字符,从候选词集集合中确定待处理词集,待处理词集包括目标字符和每一目标字符对应的候选词集;对每一目标字符对应的候选词集进行交集处理,得到目标词汇,其中,目标词汇为对待处理词汇进行纠错后得到的词汇;从而解决了进行词汇纠错时的效率不高问题。

Description

词汇纠错方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种词汇纠错方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术应用的越来越广泛,用户越来越频繁的需要通过计算机输入信息而完成人机交互。但是用户在很多情况下有可能会输入了错误信息,因此经常需要对输入的信息进行纠错。在对信息进行纠错过程中往往会涉及到对数据的处理和查询过程。目前,在对数据进行纠错的候选词查询过程时,往往需要对待纠错数据进行编辑距离扩充再与扩充词典进行对比。因此,经常会造成扩充词典在加载为常驻内存时会损耗过大的内存空间;以及在与庞大数量级的扩充词典进比对时会消耗较长的索引时间。
发明内容
本发明实施例提供一种词汇纠错方法、装置、计算机设备及存储介质,以解决进行词汇纠错时的效率不高问题。
一种词汇纠错方法,包括:
获取待处理词汇,所述待处理词汇包括N个候选字符;
采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,组成候选词集集合,其中,所述分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
采用编辑距离算法从所述待处理词汇中确定待替换字符,基于所述待替换字符,从所述候选词集集合中确定待处理词集,所述待处理词集包括目标字符和每一所述目标字符对应的候选词集;
对每一所述目标字符对应的候选词集进行交集处理,得到目标词汇,其中,所述目标词汇为对所述待处理词汇进行纠错后得到的词汇。
一种词汇纠错装置,包括:
第一获取模块,用于获取待处理词汇,所述待处理词汇包括N个候选字符;
第二获取模块,用于采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,组成候选词集集合,其中,所述分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
第一确定模块,用于采用编辑距离算法从所述待处理词汇中确定待替换字符,基于所述待替换字符,从所述候选词集集合中确定待处理词集,所述待处理词集包括目标字符和每一所述目标字符对应的候选词集;
第一交集处理模块,用于对每一所述目标字符对应的候选词集进行交集处理,得到目标词汇,其中,所述目标词汇为对所述待处理词汇进行纠错后得到的词汇。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述词汇纠错方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述词汇纠错方法。
上述词汇纠错方法、装置、计算机设备及存储介质,获取待处理词汇,待处理词汇包括N个候选字符;采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,组成候选词集集合,其中,分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;采用编辑距离算法从待处理词汇中确定待替换字符,基于待替换字符,从候选词集集合中确定待处理词集,待处理词集包括目标字符和每一目标字符对应的候选词集;对每一目标字符对应的候选词集进行交集处理,得到目标词汇,其中,目标词汇为对待处理词汇进行纠错后得到的词汇;本实施例提出了高效的分层倒排索引的存储结构,不但提高了空间利用率,还可以灵活地召回任意编辑距离的候选集;当分层倒排索引字典中存储有所有字符的候选词集时,通过倒排索引的方式可以快速获取待处理词汇中每一候选字符所对应的候选词集,从而解决了进行词汇纠错时的效率不高问题。另外地,本方案通过结合编辑距离召回算法可以更大程度地降低了索引时间和提高了数据处理的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中词汇纠错方法的一应用环境示意图;
图2是本发明一实施例中词汇纠错方法的一示例图;
图3是本发明一实施例中词汇纠错方法的另一示例图;
图4是本发明一实施例中词汇纠错方法的另一示例图;
图5是本发明一实施例中词汇纠错方法的另一示例图;
图6是本发明一实施例中词汇纠错方法的另一示例图;
图7是本发明一实施例中词汇纠错装置的一原理框图;
图8是本发明一实施例中词汇纠错装置的另一原理框图;
图9是本发明一实施例中词汇纠错装置的另一原理框图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的词汇纠错方法可应用如图1所示的应用环境中。具体地,该词汇纠错方法应用在词汇纠错系统中,该词汇纠错系统包括如图1所示的客户端和服务端,客户端与服务端通过网络进行通信,用于解决进行词汇纠错时的效率不高问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种词汇纠错方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取待处理词汇,待处理词汇包括N个候选字符。
其中,待处理词汇是指待进行处理的数据。在本实施例中,待处理词汇为待进行纠错的词汇。例如:待处理词汇可以为糖浆、白喉病或胰蛋白酶等。具体地,待处理词汇包括N个候选字符,N为正整数。候选字符为组成待处理词汇的字符。例如,待处理词汇“糖浆”包括“糖”和“浆”两个候选字符;待处理词汇“白喉病”包括“白”、“喉”和“病”三个候选字符;待处理词汇“胰蛋白酶”包括“胰”、“蛋”、“白”和“酶”四个候选字符。具体地,获取待处理词汇可以实时获取用户输入的待纠错信息作为待处理词汇,或者预先采集需要进行纠错的词语作为待处理词汇;还可以直接从字典库中获取任意一词语作为待处理词汇,该字典库中预先存储有大量的词汇信息。
S20:采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,组成候选词集集合,其中,分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的。
其中,倒排索引方法是一种需要根据属性的值来查找记录的索引方法。倒排索引方法被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引方法,可以根据每一候选字符快速获取包含对应的这个候选字符的候选词集。
具体地,采用倒排索引方法,将每一候选字符在预设的分层倒排索引字典中进行查询,从而获取每一候选字符所对应的候选词集。可以理解地,每一候选字符所对应的候选词集中的每一候选词语都包含有对应的这个候选字符。其中,分层倒排索引字典中每一字符所对应的候选词集是以字符的数量进行分类和分层方式存储的。具体地,分层倒排索引字典中包含若干字符和每一字符所对应的候选词集。每一字符对应的候选词集所包含的候选词语是按照字符数量进行分类和分层存储的。例如:若字符“白”所对应的候选词集包括有[白云,白屏,白化病,白喉病,白塞病,白纹伊蚊,毛状白斑,结构蛋白,分泌蛋白,脑白质病...],则在分层倒排索引字典中[白云,白屏]为第一类,存储在分层倒排索引字典中的第一层,[白化病,白喉病,白塞病]为一类为第二类,存储在分层倒排索引字典中的第二层,[白纹伊蚊,毛状白斑,结构蛋白,分泌蛋白,脑白质病]为第三类,存储在分层倒排索引字典中的第三层。在本实施例中,分层倒排索引字典中通过分类分层的存储方式对每一字符所对应的候选词集进行存储,可以降低每层词集的空间从而降低索引时间,同时可以灵活地搜索任意编辑距离的候选词集。
S30:采用编辑距离算法从待处理词汇中确定待替换字符,基于待替换字符,从候选词集集合中确定待处理词集,待处理词集包括目标字符和每一目标字符对应的候选词集。
其中,待替换字符是指需要进行替换的字符。编辑距离召回算法是指计算两个字符串之间的相似度的算法。编辑距离(Edit Distance):又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。字符串编辑距离越小,两个字符串的相似度越大。具体地,采用编辑距离算法,计算待处理词汇与预先设定的正确的标准词汇之间的相似度,从而确定出待替换字符。其中,标准标准是指预先设定的满足要求的正确词汇。可选地,待替换字符可以为一个或者多个。具体地,在确定了待替换字符之后,基于待替换字符,从候选词集集合中剔除掉待替换字符所对应的候选词集,从而得到待处理词集。待处理词集包括每一目标字符所对应的候选词集。其中,目标字符为待处理词汇中的非待替换字符。示例性地,若候选词集集合中包括有候选字符a所对应的候选词集A4、候选字符b所对应的候选词集B4、候选字符c所对应的候选词集C4,以及候选字符d所对应的候选词集D4;若采用编辑距离算法从待处理词汇中确定的待替换字符为a,则从候选词集集合中确定的待处理词集包括候选词集B4、候选词集C4和候选词集D4。其中,候选词集B4为为目标字符b所对应的词集,候选词集C4为目标字符c所对应的词集,候选词集D4为目标字符d所对应的词集。
S40:对每一目标字符对应的候选词集进行交集处理,得到目标词汇,其中,目标词汇为对待处理词汇进行纠错后得到的词汇。
具体地,在确定了待处理词集之后,对待处理词集中每一目标字符的候选词集进行交集处理,即将每一目标字符对应的候选词集中的词语进行相互匹配,从而筛选出同时出现在每个目标字符的候选词集中的词语,作为目标词汇。可以理解地,目标词汇为同时包含有所有目标字符的词语。示例性地,若待处理词汇为“白喉病”,待替换字符为“喉”;目标字符“白”所对应的候选词集为[白线疝,尿蛋白,白细胞,白胡椒,漂白粉,白花油,舌白斑,白茅根,蛋白尿,酪蛋白,蛋白粉,蛋白质,白虎汤,球蛋白,白蛉热,白化病,白塞病...];目标字符“病”所对应的候选词集为[重链病,瘙痒病,呆小病,结核病,腰痛病,曲霉病,空调病,硬皮病,狂犬病,白化病,白喉病,白塞病,口疮病,红皮病...];则对每一目标字符的候选词集进行交集处理后,得到的目标词汇为“白化病”和“白塞病”。其中,白化病”和“白塞病”均出现在目标字符“白”和“病”所对应的候选词集中。可以理解地,该目标词汇为对待处理词汇进行纠错后得到的正确的词汇。
在本实施例中,获取待处理词汇,待处理词汇包括N个候选字符;采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,组成候选词集集合,其中,分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;采用编辑距离算法从待处理词汇中确定待替换字符,基于待替换字符,从候选词集集合中确定待处理词集,待处理词集包括目标字符和每一目标字符对应的候选词集;对每一目标字符对应的候选词集进行交集处理,得到目标词汇,其中,目标词汇为对待处理词汇进行纠错后得到的词汇;本实施例提出了高效的分层倒排索引的存储结构,不但提高了空间利用率,还可以灵活地召回任意编辑距离的候选集;当分层倒排索引字典中存储有所有字符的候选词集时,通过倒排索引的方式可以快速获取待处理词汇中每一候选字符所对应的候选词集,从而解决了进行词汇纠错时的效率不高问题。另外地,本方案通过结合编辑距离召回算法可以更大程度地降低了索引时间和提高了数据处理的效率。
在一实施例中,如图3所示,在获取待处理词汇之前,该词汇纠错方法还具体包括如下步骤:
S11:获取待存储数据,待存储数据包括N个样本字符和每一样本字符对应的待存储词集。
其中,待存储数据是指待进行存储的数据。待存储数据包括N个样本字符和每一样本字符所对应的待存储词集。其中,样本字符可以为包含一个字节的任意字符。例如:样本字符可以为“白”、“候”、“病”、“脑”等。每一样本字符所对应的待存储词集为对对应的样本字符进行编辑距离扩充后所得到的扩充词的集合。可以理解地,每一样本字符所对应的待存储词集中的每一扩充词都包含有对应的样本字符。例如:样本字符“白”所对应的待存储词集可以为[白云,白屏,白化病,白喉病,白塞病,白纹伊蚊,毛状白斑,结构蛋白,分泌蛋白,脑白质病...]。具体地,获取待存储数据可以预先采集若干样本字符,然后将每一样本字符按照预设编辑距离阈值进行扩充,从而得到每一样本字符对应的待存储词集,再将每一样本字符和对应的待存储词集作为待存储数据;也可以直接从倒排索引字典中直接获取若干候选字符和每一候选字符对应的候选词集作为待存储数据。
S12:将每一样本字符对应的待存储词集按照字符数量进行分类,得到每一样本字符的分层候选词集。
具体地,由于根据步骤S11获取的每一待存储字符所对应的待存储词集中存在字符数量不相同的扩充词。即待存储词集中的扩充词可能为两个字符的词语,也可能为三个字符的词语,还可能为四个字符的词语等。因此,在本步骤中,对将每一待存储字符的待存储词集按照字符数量进行分类,即将待存储词集中的扩充词根据所包含的字符数量进行分类,将每一待存储词集中字符数量相同的扩充词归在相同一类,将字符数量不同的扩充词归在不同类;从而得到每一待存储字符的分层候选词集。可以理解地,每一样本字符的分层候选词集都包括多类候选词集,且同一类候选词集中的所有扩充词的字符数量相同。例如:若样本字符“白”所对应的待存储词集为[白云,分泌蛋白,白屏,白纹伊蚊,白化病,白喉病,结构蛋白,白塞病,毛状白斑,脑白质病...],则将待存储词集按照字符数量进行分类后,得到的样本字符“白”的分层候选词集包括第一候选词集[白云,白屏...]、第二候选词集[白化病,白喉病,白塞病...]和第三候选词集[白纹伊蚊,毛状白斑,结构蛋白,分泌蛋白,脑白质病...]。
S13:将每一样本字符和对应的分层候选词集进行分层存储,生成分层倒排索引字典。
其中,分层倒排索引字典是指用于存储每一样本字符和对应的分层候选词集的字典。在分层倒排索引字典中,每个样本字符对应的分层候选词集都是按照候选词的字符数量进行分层存储的。具体地,在确定了每一样本字符的分层候选词集之后,将每一样本字符和对应的分层候选词集进行关联,然后将每一样本字符对应的分层候选词集中的每一类候选词集按照分层的方法进行存储,比如将分层候选词集中的第一候选词集存储在第一层,将分层候选词集中的第二候选词集存储在第二层,将分层候选词集中的第三候选词集存储在第三层,从而生成分层倒排索引字典。在本实施例中,通过分层存储的方式将每一样本字符的分层候选词集进行存储可以降低每层词集的空间从而降低索引时间,同时可以灵活地搜索任意编辑距离的候选词集。
在本实施例中,获取待存储数据,待存储数据包括N个样本字符和每一样本字符对应的待存储词集;将每一样本字符对应的待存储词集按照字符数量进行分类,得到每一样本字符的分层候选词集;将每一样本字符和对应的分层候选词集进行分层存储,生成分层倒排索引字典;通过分类分层的存储方式将每一样本字符的分层候选词集进行存储可以降低每层词集的空间从而降低索引时间,同时可以灵活地搜索任意编辑距离的候选词集。
在一实施例中,如图4所示,在从预设的分层倒排索引字典中获取每一候选字符对应的候选词集之后,该词汇纠错方法,还具体包括如下步骤:
S21:根据预设策略对待处理词汇中的每一候选字符进行组合,得到候选字符组合集,候选字符组合集包括至少一个候选字符组合。
具体地,当待处理词汇所包含的候选字符的数量较多时,后续在生成目标词汇时往往需要对每一候选字符所对应的候选词集做多次重复的交集计算。因此,在本实施例中,为了减少后续在确定目标词汇时做重复交集的计算量,预先对待处理词汇中的每一候选字符所对应的候选词集进行预处理。在本步骤中,先根据预设策略对待处理词汇中的每一候选字符进行组合,得到候选字符组合集,候选字符组合集包括至少一个候选字符组合。具体地,预设策略为根据待处理词汇所包含的候选字符的数量,对待处理词汇中相邻的两个候选字符进行两两组合。待处理词汇所包含的候选字符的数量不同,进行候选字符组合的方式可能不同。可选地,预设策略可以为若待处理词汇包括四个候选字符,则将第一个候选字符和第二候选字符进行组合,以及将第三个候选字符和第四候选字符进行组合。例如:若待处理词汇为“abcd”,则将候选字符a和候选字符b进行组合,得到候选字符组合ab,以及将候选字符c和候选字符d进行组合,得到候选字符组合cd。因此,若待处理词汇为“abcd”,则预设策略对候选字符进行组合后,得到的候选字符组合集包括候选字符组合ab、和候选字符组合cd。若待处理词汇包括三个候选字符,则将第一个候选字符和第二候选字符进行组合,或者将第二个候选字符和第三候选字符进行组合。例如:若待处理词汇为“abc”,则将候选字符a和候选字符b进行组合,得到候选字符组合ab;或者将候选字符b和候选字符c进行组合,得到候选字符组合bc。在一具体实施例中,用户可结合常规词汇关系对候选字符进行两两组合,从而得到候选字符组合。
S22:获取候选字符组合集中每一候选字符组合中的每一候选字符对应的候选词集,对每一候选字符组合中的候选词集进行交集处理,得到待处理词汇的候选词集集合。
具体地,由步骤S21可知候选字符组合集中包括至少一个候选字符组合、且每一候选字符组合是由两个候选字符组成的,每一候选字符对应一个候选词集,因此,获取每一候选字符组合中每一候选字符所对应的两个候选词集,并将每一候选字符组合中的两个候选词集进行交集处理,从而得到每一候选字符组合所对应的候选词集,最后,将每一候选字符组合所对应的候选词集进行组合,从而得到待处理词汇的待选词集集合。例如:若获取的候选字符组合集包括候选字符组合ab和候选字符组合cd,候选字符组合ab中候选字符a的候选词集为A,候选字符b的候选词集为B;候选字符组合cd中候选字符c的候选词集为C,候选字符d的候选词集为D;则将候选词集A和候选词集B做交集处理(令Inter(AB)=A∩B),以及将候选词集C和候选词集D做交集处理(令Inter(CD)=C∩D)得到Inter(CD),得到候选字符组合ab的候选词集为Inter(AB),候选字符组合cd的候选词集为Inter(CD);最后将候选词集Inter(AB)和候选词集Inter(CD)作为待处理词汇“abcd”的候选词集集合。
在本实施例中,根据预设策略对待处理词汇中的每一候选字符进行组合,得到候选字符组合集,候选字符组合集包括至少一个候选字符组合;获取候选字符组合集中每一候选字符组合中的每一候选字符对应的候选词集,对每一候选字符组合中的候选词集进行交集处理,得到待处理词汇的候选词集集合;预先对待处理词汇中的每一候选字符所对应的候选词集做交集计算,从而减少了后续在确定目标词汇时做重复交集的计算量。
在一实施例中,如图5所示,采用倒排索引技术,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,具体包括如下步骤:
S201:确定待处理词汇的字符数量。
具体地,由于分层倒排索引字典中每一字符所对应的分层词集是以字符的数量进行分类和分层方式存储的,即分层倒排索引字典中每一字符所对应的分层词集中都包括有若干层字符数量不同的词集。因此,在本步骤中,为了提高后续的数据处理效率,基于待处理词汇的字符数量来获取每一候选字符所对应的分层词集。可以理解地,待处理词汇的字符数量即为待纠结数据所包括的候选字符的数量N。
S202:采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的分层词集。
具体地,先采用倒排索引方法将每一候选字符在预设的分层倒排索引字典中进行查询,从而获取每一候选字符所对应的分层词集。可以理解地,每一候选字符所对应的分层词集是由多层不同的词集组成。不同层词集中的词语的字符数量不同,相同层词集中的词语的字符数量相同。例如:获取的候选字符a的分层词集包括:第一层词集A1、第二层词集A2和第三层词集A3
S203:从每一候选字符对应的分层词集中提取出与待处理词汇的字符数量相同的词集作为对应的候选字符的候选词集。
具体地,基于待处理词汇的字符数量,对每一候选字符所对应的分层词集进行筛选,从每一分层词集中筛选出字符数量与待处理词汇所包含的字符数量相同的词集作为对应的候选字符的候选词集。每一候选字符的候选词集中的每一词语的字符数量都与待处理词汇的字符数量相同。可以理解地,若待处理词汇为abcd,则获取的候选字符a、候选字符b、候选字符c和候选字符d所对应的候选词集中的每一词语的字符数量都为4。例如:若待处理词汇为abcd,待处理词汇中候选字符a为“白”,“白”所对应的候选词集中包括有2个字符所对应的第一词集A2=[白色、白墙、百威、白云、白屏...];3个字符所对应的第二词集A3=[白线疝、尿蛋白、白化病、白喉病、白塞病...],以及4个字符所对应的第三词集A4=[毛状白斑、结构蛋白、白膜侵睛、分泌蛋白、脑白质病...]等等;由于待处理词汇abcd包括4个候选字符,因此,筛选出的候选字符“白”所对应的候选词集为A4=[毛状白斑、结构蛋白、白膜侵睛、分泌蛋白、脑白质病...],即得到的候选字符“白”所对应的候选词集中的每一词语的字符数量都为4。
在本实施例中,确定待处理词汇的字符数量;采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的分层词集;从每一候选字符对应的分层词集中提取出与待处理词汇的字符数量相同的词集作为对应的候选字符的候选词集;通过采用倒排索引方法获取每一候选字符的候选词集,从而提高了候选词集的生成效率和准确性。
在一实施例中,如图6所示,所述采用编辑距离算法从所述待处理词汇中确定待替换字符,具体包括如下步骤:
S301:获取待处理词汇中的每一候选字符,作为目标字符串。
其中,目标字符串是由待处理词汇所包含的候选字符组成的字符串。具体地,待处理词汇包括若干候选字符,将待处理词汇所包括的每一候选字符组成目标字符串。
S302:采用编辑距离算法计算目标字符串与预设字符串的编辑距离,其中,预设字符串为预先设定的标准数据所对应的字符串。
其中,编辑距离算法是指计算两个字符串之间的相似度的算法。在本实施例中,通过采用编辑距离算法计算目标字符串与预设字符串的相似度,从而得到目标字符串与预设字符串的编辑距离。其中,预设字符串为预先设定的正确的标准数据所对应的字符串。具体地,采用编辑距离算法计算得到目标字符串与预设字符串的编辑距离。其中,编辑距离是指:是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数。许可的编辑操作包括:将一个字符替换成另一个字符、插入一个字符和删除一个字符。其中,编辑距离越小,则表明两个字符串的相似度越大。在实施例中,编辑距离越小,则表明和目标字符串和预设字符串越接近,即待处理词汇和标准数据越接近。
S303:基于编辑距离确定待替换字符。
具体地,在确定了编辑距离之后,基于该编辑距离从目标字符串中确定出与预设字符串中的字符不相同的字符作为待替换字符,通过编辑距离确定待替换字符从而提高了确定的待替换字符的准确性。
在本实施例中,获取待处理词汇所对应的字符串,作为目标字符串;采用编辑距离算法计算目标字符串与预设字符串的编辑距离;其中,预设字符串为预先设定的标准数据所对应的字符串;基于编辑距离确定待替换字符;从而提高了确定的待替换字符的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种词汇纠错装置,该词汇纠错装置与上述实施例中词汇纠错方法一一对应。如图7所示,该词汇纠错装置包括第一获取模块10、第二获取模块20、第一确定模块30和第一交集处理模块40。各功能模块详细说明如下:
第一获取模块10,用于获取待处理词汇,待处理词汇包括N个候选字符;
第二获取模块20,用于采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的候选词集,组成候选词集集合,其中,分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
第一确定模块30,用于采用编辑距离算法从待处理词汇中确定待替换字符,基于待替换字符,从候选词集集合中确定待处理词集,待处理词集包括目标字符和每一目标字符对应的候选词集;
第一交集处理模块40,用于对每一目标字符对应的候选词集进行交集处理,得到目标词汇,其中,目标词汇为对待处理词汇进行纠错后得到的词汇。
优选地,如图8所示,该词汇纠错装置还包括:
第三获取模块11,用于获取待存储数据,待存储数据包括N个样本字符和每一样本字符对应的待存储词集;
分类模块12,用于将每一样本字符对应的待存储词集按照字符数量进行分类,得到每一样本字符的分层候选词集;
存储模块13,用于将每一样本字符和对应的分层候选词集进行分层存储,生成分层倒排索引字典。
优选地,如图9所示,该词汇纠错装置还包括:
组合模块21,用于根据预设策略对待处理词汇中的每一候选字符进行组合,得到候选字符组合集,候选字符组合集包括至少一个候选字符组合;
第二交集处理模块22,用于获取候选字符组合集中每一候选字符组合中的每一候选字符对应的候选词集,对每一候选字符组合中的候选词集进行交集处理,得到待处理词汇的候选词集集合。
优选地,第二获取模块20包括:
字符数量确定单元,用于确定待处理词汇的字符数量;
第一获取单元,用于采用倒排索引方法,从预设的分层倒排索引字典中获取每一候选字符对应的分层词集;
提取单元,用于从每一候选字符对应的分层词集中提取出与待处理词汇的字符数量相同的词集作为对应的候选字符的候选词集。
优选地,第一确定模块30包括:
第二获取单元,用于获取待处理词汇中的每一候选字符,作为目标字符串;
计算单元,用于采用编辑距离算法计算目标字符串与预设字符串的编辑距离,其中,预设字符串为预先设定的标准数据所对应的字符串;
确定单元,用于基于编辑距离确定待替换字符。
关于词汇纠错装置的具体限定可以参见上文中对于词汇纠错方法的限定,在此不再赘述。上述词汇纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中词汇纠错方法使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种词汇纠错方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的词汇纠错方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的词汇纠错方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种词汇纠错方法,其特征在于,包括:
获取待处理词汇,所述待处理词汇包括N个候选字符;
采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,组成候选词集集合,其中,所述分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
采用编辑距离算法从所述待处理词汇中确定待替换字符,基于所述待替换字符,从所述候选词集集合中确定待处理词集,所述待处理词集包括目标字符和每一所述目标字符对应的候选词集;
对每一所述目标字符对应的候选词集进行交集处理,得到目标词汇,其中,所述目标词汇为对所述待处理词汇进行纠错后得到的词汇。
2.如权利要求1所述的词汇纠错方法,其特征在于,所述在获取待处理词汇之前,所述词汇纠错方法还包括:
获取待存储数据,所述待存储数据包括N个样本字符和每一所述样本字符对应的待存储词集;
将每一所述样本字符对应的所述待存储词集按照字符数量进行分类,得到每一所述样本字符的分层候选词集;
将每一所述样本字符和对应的所述分层候选词集进行分层存储,生成分层倒排索引字典。
3.如权利要求1所述的词汇纠错方法,其特征在于,所述在从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集之后,所述词汇纠错方法还包括:
根据预设策略对所述待处理词汇中的每一所述候选字符进行组合,得到候选字符组合集,所述候选字符组合集包括至少一个候选字符组合;
获取所述候选字符组合集中每一所述候选字符组合中的每一所述候选字符对应的所述候选词集,对每一所述候选字符组合中的所述候选词集进行交集处理,得到所述待处理词汇的候选词集集合。
4.如权利要求1所述的词汇纠错方法,其特征在于,所述采用倒排索引技术,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,包括:
确定所述待处理词汇的字符数量;
采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的分层词集;
从每一所述候选字符对应的分层词集中提取出与所述待处理词汇的字符数量相同的词集作为对应的所述候选字符的候选词集。
5.如权利要求1所述的词汇纠错方法,其特征在于,所述采用编辑距离算法从所述待处理词汇中确定待替换字符,包括:
获取待处理词汇中的每一候选字符,作为目标字符串;
采用编辑距离算法计算所述目标字符串与预设字符串的编辑距离,其中,所述预设字符串为预先设定的标准数据所对应的字符串;
基于所述编辑距离确定待替换字符。
6.一种词汇纠错装置,其特征在于,包括:
第一获取模块,用于获取待处理词汇,所述待处理词汇包括N个候选字符;
第二获取模块,用于采用倒排索引方法,从预设的分层倒排索引字典中获取每一所述候选字符对应的候选词集,组成候选词集集合,其中,所述分层倒排索引字典中每一字符对应的候选词集是以字符的数量进行分类和分层的方式存储的;
第一确定模块,用于采用编辑距离算法从所述待处理词汇中确定待替换字符,基于所述待替换字符,从所述候选词集集合中确定待处理词集,所述待处理词集包括目标字符和每一所述目标字符对应的候选词集;
第一交集处理模块,用于对每一所述目标字符对应的候选词集进行交集处理,得到目标词汇,其中,所述目标词汇为对所述待处理词汇进行纠错后得到的词汇。
7.如权利要求6所述的词汇纠错装置,其特征在于,所述词汇纠错装置还包括:
第三获取模块,用于获取待存储数据,所述待存储数据包括N个样本字符和每一所述样本字符对应的待存储词集;
分类模块,用于将每一所述样本字符对应的所述待存储词集按照字符数量进行分类,得到每一所述样本字符的分层候选词集;
存储模块,用于将每一所述样本字符和对应的所述分层候选词集进行分层存储,生成分层倒排索引字典。
8.如权利要求6所述的词汇纠错装置,其特征在于,所述词汇纠错装置还包括:
组合模块,用于根据预设策略对所述待处理词汇中的每一所述候选字符进行组合,得到候选字符组合集,所述候选字符组合集包括至少一个候选字符组合;
第二交集处理模块,用于获取所述候选字符组合集中每一所述候选字符组合中的每一所述候选字符对应的所述候选词集,对每一所述候选字符组合中的所述候选词集进行交集处理,得到所述待处理词汇的候选词集集合。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述词汇纠错方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述词汇纠错方法。
CN202010587455.3A 2020-06-24 2020-06-24 词汇纠错方法、装置、计算机设备及存储介质 Withdrawn CN111737981A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010587455.3A CN111737981A (zh) 2020-06-24 2020-06-24 词汇纠错方法、装置、计算机设备及存储介质
PCT/CN2021/091066 WO2021258853A1 (zh) 2020-06-24 2021-04-29 词汇纠错方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010587455.3A CN111737981A (zh) 2020-06-24 2020-06-24 词汇纠错方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111737981A true CN111737981A (zh) 2020-10-02

Family

ID=72652039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010587455.3A Withdrawn CN111737981A (zh) 2020-06-24 2020-06-24 词汇纠错方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111737981A (zh)
WO (1) WO2021258853A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021258853A1 (zh) * 2020-06-24 2021-12-30 平安科技(深圳)有限公司 词汇纠错方法、装置、计算机设备及存储介质
CN114021560A (zh) * 2021-11-10 2022-02-08 竹间智能科技(上海)有限公司 文本纠错方法及装置、电子设备、存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719424B (zh) * 2023-08-09 2024-03-22 腾讯科技(深圳)有限公司 一种类型识别模型的确定方法及相关装置
CN116720812B (zh) * 2023-08-11 2023-10-20 合肥恒艺德机械有限公司 一种基于数据编码的大数据智慧仓储管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN110019647A (zh) * 2017-10-25 2019-07-16 华为技术有限公司 一种关键词搜索方法、装置和搜索引擎

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10402490B1 (en) * 2015-08-14 2019-09-03 Shutterstock, Inc. Edit distance based spellcheck
CN105468719B (zh) * 2015-11-20 2018-11-23 北京齐尔布莱特科技有限公司 一种查询纠错方法、装置和计算设备
CN108664467B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN111079412B (zh) * 2018-10-18 2024-01-23 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN110348020A (zh) * 2019-07-17 2019-10-18 杭州嘉云数据科技有限公司 一种英文单词拼写纠错方法、装置、设备及可读存储介质
CN111737981A (zh) * 2020-06-24 2020-10-02 平安科技(深圳)有限公司 词汇纠错方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN110019647A (zh) * 2017-10-25 2019-07-16 华为技术有限公司 一种关键词搜索方法、装置和搜索引擎

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021258853A1 (zh) * 2020-06-24 2021-12-30 平安科技(深圳)有限公司 词汇纠错方法、装置、计算机设备及存储介质
CN114021560A (zh) * 2021-11-10 2022-02-08 竹间智能科技(上海)有限公司 文本纠错方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
WO2021258853A1 (zh) 2021-12-30

Similar Documents

Publication Publication Date Title
CN111737981A (zh) 词汇纠错方法、装置、计算机设备及存储介质
WO2021258848A1 (zh) 数据字典生成方法、数据查询方法、装置、设备及介质
CN111666370B (zh) 面向多源异构航天数据的语义索引方法和装置
CN108536745B (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN111797134A (zh) 分布式数据库的数据查询方法、装置和存储介质
CN111914020A (zh) 数据同步方法及装置、数据查询方法及装置
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
CN105718561A (zh) 一种特定分布式数据存储文件结构去冗余构造方法及系统
CN112559529A (zh) 数据存储方法、装置、计算机设备及存储介质
CN111984659A (zh) 数据更新方法、装置、计算机设备和存储介质
CN109213775B (zh) 搜索方法、装置、计算机设备和存储介质
CN108595437B (zh) 文本查询纠错方法、装置、计算机设备和存储介质
CN112307169B (zh) 地址数据的匹配方法、装置、计算机设备及存储介质
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN114003685B (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置
CN113608724B (zh) 一种基于模型缓存实现的离线仓库实时交互方法与系统
CN109800247A (zh) 数据查找方法、装置、计算机设备以及存储介质
CN114490510A (zh) 文本流归档方法、装置、计算机设备及存储介质
CN112416966A (zh) 即席查询方法、装置、计算机设备和存储介质
CN110580333A (zh) 一种数据表处理方法、搜索方法、装置、设备和存储介质
CN113867975B (zh) 一种命令行的快速响应方法、装置和计算机设备
CN116955415B (zh) 基于设计层级的数据搜索系统
CN114168533B (zh) 快照查询方法、装置、计算机设备和存储介质
CN114925123B (zh) 一种分布式的图数据库与图计算系统间的数据传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201002