CN111783433A - 一种文本检索纠错方法和装置 - Google Patents
一种文本检索纠错方法和装置 Download PDFInfo
- Publication number
- CN111783433A CN111783433A CN201911365262.7A CN201911365262A CN111783433A CN 111783433 A CN111783433 A CN 111783433A CN 201911365262 A CN201911365262 A CN 201911365262A CN 111783433 A CN111783433 A CN 111783433A
- Authority
- CN
- China
- Prior art keywords
- entries
- entry
- characteristic
- feature
- error correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 120
- 238000012545 processing Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010845 search algorithm Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 241001474374 Blennius Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本检索纠错方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。该实施方式提高了文本检索纠错效率和纠错效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本检索纠错方法和装置。
背景技术
信息检索(Information Retrieval,IR),就是将信息按一定的方式组织起来,并根据用户的需要找出相关信息的过程和技术。但是用户输入的文本信息或者经过ASR(Automatic Speech Recognition,自动语音识别)转化后的文本信息可能存在错误的情况,这就需要后端具备文本纠错的能力,在进行信息检索之前完成文本信息的纠错。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有方法主要是针对单个字进行检索,纠错速度慢,且纠错效果较差。
发明内容
有鉴于此,本发明实施例提供一种文本检索纠错方法和装置,能够基于词条进行检索,提高了文本检索纠错效率和纠错效果。
为实现上述目的,根据本发明实施例的第一方面,提供了一种文本检索纠错方法,包括:
提取目标文本的特征词条;
对特征词条进行转换处理得到特征词条对应的特征向量;
根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;
根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。
进一步地,在提取目标文本的特征词条的步骤之前,文本检索纠错方法还包括:去除目标文本中的标点符号。
进一步地,在对特征词条进行转换处理得到特征词条对应的特征向量的步骤之前,文本检索纠错方法还包括:判断特征词条的类型,在特征词条的类型为汉字词条的情况下,文本检索纠错方法还包括:将特征词条的类型转换为拼音词条。
进一步地,在特征词条的类型为拼音词条或英文词条的情况下,对特征词条进行转换处理得到特征词条对应的特征向量的步骤包括:利用词袋模型对特征词条进行转换处理,得到特征词条对应的特征向量。
进一步地,根据特征词条对应的特征向量从资源索引库中搜索备选词条的步骤包括:根据特征词条的属性确定资源索引库对应的簇类,根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条。
进一步地,在根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条的步骤之前,文本检索纠错方法还包括:对特征词条对应的特征向量和资源索引库中全部词条的特征向量进行扩展压缩处理,使得特征词条对应的特征向量和资源索引库中全部词条的特征向量的维度与检索算法指示的维度一致。
进一步地,编辑距离包括汉字编辑距离、拼音编辑距离和英文编辑距离。
根据本发明实施例的第二方面,提供了一种文本检索纠错装置,包括:
特征词条提取模块,用于提取目标文本的特征词条;
转换处理模块,用于对特征词条进行转换处理得到特征词条对应的特征向量;
检索模块,用于根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;
纠错模块,用于根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。
根据本发明实施例的第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一种文本检索纠错方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一种文本检索纠错方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错的技术手段,所以克服了现有方法中由于主要是针对单个字进行检索,纠错速度慢,且纠错效果较差的技术问题,进而达到基于词条进行检索,提高了文本检索纠错效率和纠错效果的技术效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例提供的文本检索纠错方法的主要流程的示意图;
图2是根据本发明第二实施例提供的文本检索纠错方法的主要流程的示意图;
图3是根据本发明实施例提供的文本检索纠错装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明第一实施例提供的文本检索纠错方法的主要流程的示意图;如图1所示,本发明实施例提供的文本检索纠错方法主要包括:
步骤S101,提取目标文本的特征词条。
具体地,可以通过特征词条提取模型对输入的目标文本进行特征词条的提取,以便后续根据该特征词条检索出目标词条,完成文本的纠错。
根据本发明实施例,在提取目标文本的特征词条的步骤之前,文本检索纠错方法还包括:去除目标文本中的标点符号。
在实际情况中,用户输入或者通过语音识别的文本是一段完整话术,为提高特征词条提取的效率,可以在特征词条提取之间取出文本中的标点符号。根据本发明实施例的一具体实施方式,还可以将目标文本中的结束词一并去除。
步骤S102,对特征词条进行转换处理得到特征词条对应的特征向量。
根据特征词条进行检索确定目标词条,需要通过检索算法根据词条对应的特征向量进行相似度比对,进而确定相似度较高的备选词条。
根据本发明实施例,在对特征词条进行转换处理得到特征词条对应的特征向量的步骤之前,文本检索纠错方法还包括:判断特征词条的类型,在特征词条的类型为汉字词条的情况下,文本检索纠错方法还包括:将特征词条的类型转换为拼音词条。
特征词条的类型主要包括汉字词条、拼音词条、英文词条三种,不同类型的特征词条确定特征向量存在差异,由于实际应用中,尤其是通过语音识别获得的文本信息中,常出现错误词条的原因是由于读音相近导致的,因此,为了提高检索纠错的效率,根据本发明实施例的一具体实施方式,将汉字类型的特征词条转换为拼音,然后通过转化处理得到相应特征词条的特征向量。
进一步地,根据本发明实施例,在特征词条的类型为拼音词条或英文词条的情况下,对特征词条进行转换处理得到特征词条对应的特征向量的步骤包括:利用词袋模型对特征词条进行转换处理,得到特征词条对应的特征向量。
通过上述设置,利用词袋模型能够将特征词条转换成一个27维度的特征向量(27维度包括26个字母和一个拼音中特有的字母‘ü’),使得特征词条转换成固定长度的特征向量,有利于提高检索纠错效率。
步骤S103,根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量。
根据本发明实施例,根据特征词条对应的特征向量从资源索引库中搜索备选词条的步骤包括:根据特征词条的属性确定资源索引库对应的簇类,根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条。
进一步地,根据本发明实施例,在根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条的步骤之前,文本检索纠错方法还包括:对特征词条对应的特征向量和资源索引库中全部词条的特征向量进行扩展压缩处理,使得特征词条对应的特征向量和资源索引库中全部词条的特征向量的维度与检索算法指示的维度一致。
根据采用的检索算法的不同,其对应的特征向量的维度也存在一定差异。如Faiss(是Facebook AI团队开源的针对聚类和相似性检索库,为稠密向量提供高效相似度检索和聚类,支持十亿级别向量的检索,是目前最为成熟的近似近邻检索库)检索算法提供了一种基于乘积量化的压缩算法编码向量大小到指定的字节数。根据本发明实施例的一具体实施方式,在上述情况下,可将特征词条对应的特征向量和资源索引库中的全部词条对应的特征向量的维度从原来的27维,通过补充0扩展至32维度,再通过压缩处理四倍,得到8维度的特征向量。需要说明的是,上述数值仅为实例,具体数值可根据实际情况进行相应的调整。
步骤S104,根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。
由于上述确定的备选词条为至少一个,为了更精确地确定目标词条,提高文本纠错准确率,可根据特征词条与备选词条的编辑距离确定目标词条。根据发明实施例的一具体实施方式,确定编辑距离最小的备选词条为目标词条。
具体地,根据本发明实施例,上述编辑距离包括汉字编辑距离、拼音编辑距离和英文编辑距离。
根据本发明实施例,上述目标文本可以为用户输入的文本,也可以为通过语音识别技术转换的文本。
根据本发明实施例的技术方案,因为采用提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错的技术手段,所以克服了现有方法中由于主要是针对单个字进行检索,纠错速度慢,且纠错效果较差的技术问题,进而达到基于词条进行检索,提高了文本检索纠错效率和纠错效果的技术效果。
图2是根据本发明第二实施例提供的文本检索纠错方法的主要流程的示意图;如图2所示,本发明实施例提供的文本检索纠错方法主要包括:
步骤S201,去除目标文本中的标点符号。
在实际情况中,用户输入或者通过语音识别的文本是一段完整话术,为提高特征词条提取的效率,可以在特征词条提取之间取出文本中的标点符号。根据本发明实施例的一具体实施方式,还可以将目标文本中的结束词一并去除。
步骤S202,提取目标文本的特征词条。
实际应用时,输入的文本一般为一句完整话术,如,输入的目标文本为“我想看海藻舞”,可以通过特征词条提取模型对输入的目标文本进行特征词条的提取,返回“海藻舞”(即特征词条),以便后续根据该特征词条检索出目标词条,完成文本的纠错。
步骤S203,判断特征词条的类型是否为拼音词条或英文词条。若是,即特征词条的类型是拼音词条或英文词条,执行步骤S205;若否,即特征词条的类型是汉字词条,不是拼音词条或英文词条,则转到步骤S204。
特征词条的类型主要包括汉字词条、拼音词条、英文词条三种,不同类型的特征词条确定特征向量存在差异。本发明实施例提供的技术方案尤其适用于由智能语音输入设备经过语音识别后的纠错处理。语音输入时,由于读音相近或者用户对词条的准确读音不确定,经常会造成语音识别错误。
步骤S204,将特征词条的类型转换为拼音词条。
由于实际应用中,尤其是通过语音识别获得的文本信息中,常出现错误词条的原因是由于读音相近导致的,因此,为了提高检索纠错的效率,将类型为汉字的特征词条的类型转换为拼音。对于英文单词,其本身就是字母组成,因此无需将对其进行转换。
步骤S205,利用词袋模型对特征词条进行转换处理,得到特征词条对应的特征向量。
通过上述设置,利用词袋模型能够将特征词条转换成一个27维度的特征向量(27维度包括26个字母和一个拼音中特有的字母‘ü’),使得特征词条转换成固定长度的特征向量,有利于提高检索纠错效率。
步骤S206,对特征词条对应的特征向量和资源索引库中全部词条的特征向量进行扩展压缩处理,使得特征词条对应的特征向量和资源索引库中全部词条的特征向量的维度与检索算法指示的维度一致。
根据采用的检索算法的不同,其对应的特征向量的维度也存在一定差异。如Faiss(是Facebook AI团队开源的针对聚类和相似性检索库,为稠密向量提供高效相似度检索和聚类,支持十亿级别向量的检索,是目前最为成熟的近似近邻检索库)检索算法提供了一种基于乘积量化的压缩算法编码向量大小到指定的字节数。根据本发明实施例的一具体实施方式,在上述情况下,可将特征词条对应的特征向量和资源索引库中的全部词条对应的特征向量的维度从原来的27维,通过补充0扩展至32维度,再通过压缩处理四倍,得到8维度的特征向量。需要说明的是,上述数值仅为实例,具体数值可根据实际情况进行相应的调整。
资源索引库内的词条为已存储的词条,类似百科词汇表。根据本发明实施例,对于特征的纠错方案,可在资源索引库中存储不同的词条,如对于智能音箱,输入的目标文本一般为歌曲或者广播,相应的,可在资源索引库中存储包括歌名、歌手、广播电台等相关词条。
根据本发明实施例,对于资源索引库中的全部词条,也需要通果词袋模型将词条转换为一个27维度的特征向量。以便于后续通过检索算法确定目标文本对应的特征向量与资源索引库中词条的特征向量之间的相似度,根据相似度确定备选词条。
步骤S207,根据特征词条的属性确定资源索引库对应的簇类,根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条。
具体地,若特征词条的属性为歌曲,则对应资源索引库内的歌曲簇类,通过上述设置,能够有效提高检索效率。
步骤S208,根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。
由于上述确定的备选词条为至少一个,为了更精确地确定目标词条,提高文本纠错准确率,可根据特征词条与备选词条的编辑距离确定目标词条。根据发明实施例的一具体实施方式,确定编辑距离最小的备选词条为目标词条。
具体地,根据本发明实施例,上述编辑距离包括汉字编辑距离、拼音编辑距离和英文编辑距离。
编辑距离表示两个词条<w1,w2>之间,由其中一个词条w1转换为另一个词条w2所需要的最少单字符编辑操作次数。
根据本发明实施例,上述目标文本可以为用户输入的文本,也可以为通过语音识别技术转换的文本。
根据本发明实施例的技术方案,因为采用提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错的技术手段,所以克服了现有方法中由于主要是针对单个字进行检索,纠错速度慢,且纠错效果较差的技术问题,进而达到基于词条进行检索,提高了文本检索纠错效率和纠错效果的技术效果。
图3是根据本发明实施例提供的文本检索纠错装置的主要模块的示意图;如图3所示,本发明实施例提供的文本检索纠错装置300主要包括:
特征词条提取模块301,用于提取目标文本的特征词条。
具体地,可以通过特征词条提取模型对输入的目标文本进行特征词条的提取,以便后续根据该特征词条检索出目标词条,完成文本的纠错。
根据本发明实施例,上述文本检索纠错装置300还包括去除模块,在提取目标文本的特征词条的步骤之前,去除模块用于去除目标文本中的标点符号。
在实际情况中,用户输入或者通过语音识别的文本是一段完整话术,为提高特征词条提取的效率,可以在特征词条提取之间取出文本中的标点符号。根据本发明实施例的一具体实施方式,去除模块还用于将目标文本中的结束词一并去除。
转换处理模块302,用于对特征词条进行转换处理得到特征词条对应的特征向量。
根据特征词条进行检索确定目标词条,需要通过检索算法根据词条对应的特征向量进行相似度比对,进而确定相似度较高的备选词条。
根据本发明实施例,上述文本检索纠错装置300还包括类型判断模块,在对特征词条进行转换处理得到特征词条对应的特征向量的步骤之前,类型判断模块用于:判断所述特征词条的类型,在所述特征词条的类型为汉字词条的情况下,所述文本检索纠错方法还包括:将所述特征词条的类型转换为拼音词条。
特征词条的类型主要包括汉字词条、拼音词条、英文词条三种,不同类型的特征词条确定特征向量存在差异,由于实际应用中,尤其是通过语音识别获得的文本信息中,常出现错误词条的原因是由于读音相近导致的,因此,为了提高检索纠错的效率,根据本发明实施例的一具体实施方式,将汉字类型的特征词条转换为拼音词条,然后通过转化处理得到相应特征词条的特征向量。
进一步地,根据本发明实施例,在特征词条的类型为拼音或英文的情况下,转换处理模块302还用于:利用词袋模型对特征词条进行转换处理,得到特征词条对应的特征向量。
通过上述设置,利用词袋模型能够将特征词条转换成一个27维度的特征向量(27维度包括26个字母和一个拼音中特有的字母‘ü’),使得特征词条转换成固定长度的特征向量,有利于提高检索纠错效率。
检索模块303,用于根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量。
根据本发明实施例,检索模块303还用于:根据特征词条的属性确定资源索引库对应的簇类,根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条。
进一步地,根据本发明实施例,上述文本检索纠错装置300还包括扩展压缩处理模块,在根据检索算法和特征词条对应的特征向量从资源索引库对应的簇类中检索备选词条的步骤之前,扩展压缩处理模块用于:对特征词条对应的特征向量和资源索引库中全部词条的特征向量进行扩展压缩处理,使得特征词条对应的特征向量和资源索引库中全部词条的特征向量的维度与检索算法指示的维度一致。
根据采用的检索算法的不同,其对应的特征向量的维度也存在一定差异。如Faiss(是Facebook AI团队开源的针对聚类和相似性检索库,为稠密向量提供高效相似度检索和聚类,支持十亿级别向量的检索,是目前最为成熟的近似近邻检索库)检索算法提供了一种基于乘积量化的压缩算法编码向量大小到指定的字节数。根据本发明实施例的一具体实施方式,在上述情况下,可将特征词条对应的特征向量和资源索引库中的全部词条对应的特征向量的维度从原来的27维,通过补充0扩展至32维度,再通过压缩处理四倍,得到8维度的特征向量。需要说明的是,上述数值仅为实例,具体数值可根据实际情况进行相应的调整。
纠错模块304,用于根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。
由于上述确定的备选词条为至少一个,为了更精确地确定目标词条,提高文本纠错准确率,可根据特征词条与备选词条的编辑距离确定目标词条。根据发明实施例的一具体实施方式,确定编辑距离最小的备选词条为目标词条。
具体地,根据本发明实施例,上述编辑距离包括汉字编辑距离、拼音编辑距离和英文编辑距离。
根据本发明实施例,上述目标文本可以为用户输入的文本,也可以为通过语音识别技术转换的文本。
根据本发明实施例的技术方案,因为采用提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错的技术手段,所以克服了现有方法中由于主要是针对单个字进行检索,纠错速度慢,且纠错效果较差的技术问题,进而达到基于词条进行检索,提高了文本检索纠错效率和纠错效果的技术效果。
图4示出了可以应用本发明实施例的文本检索纠错方法或文本检索纠错装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的目标文本等数据进行分析等处理,并将处理结果(例如特征词条、备选词条、目标词条--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的文本检索纠错方法一般由服务器405执行,相应地,文本检索纠错装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括特征词条提取模块、转换处理模块、检索模块和纠错模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,特征词条提取模块还可以被描述为“用于提取目标文本的特征词条的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错。
根据本发明实施例的技术方案,因为采用提取目标文本的特征词条;对特征词条进行转换处理得到特征词条对应的特征向量;根据特征词条对应的特征向量从资源索引库中检索备选词条,其中,资源索引库中包括全部词条的特征向量;根据特征词条与备选词条的编辑距离确定目标词条,以实现文本的纠错的技术手段,所以克服了现有方法中由于主要是针对单个字进行检索,纠错速度慢,且纠错效果较差的技术问题,进而达到基于词条进行检索,提高了文本检索纠错效率和纠错效果的技术效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种文本检索纠错方法,其特征在于,包括:
提取目标文本的特征词条;
对所述特征词条进行转换处理得到所述特征词条对应的特征向量;
根据所述特征词条对应的特征向量从资源索引库中检索备选词条,其中,所述资源索引库中包括全部词条的特征向量;
根据所述特征词条与所述备选词条的编辑距离确定目标词条,以实现文本的纠错。
2.根据权利要求1所述的文本检索纠错方法,其特征在于,在所述提取目标文本的特征词条的步骤之前,所述文本检索纠错方法还包括:去除所述目标文本中的标点符号。
3.根据权利要求1所述的文本检索纠错方法,其特征在于,在所述对所述特征词条进行转换处理得到所述特征词条对应的特征向量的步骤之前,所述文本检索纠错方法还包括:判断所述特征词条的类型,在所述特征词条的类型为汉字词条的情况下,所述文本检索纠错方法还包括:将所述特征词条的类型转换为拼音词条。
4.根据权利要求3所述的文本检索纠错方法,其特征在于,在所述特征词条的类型为拼音词条或英文词条的情况下,所述对所述特征词条进行转换处理得到所述特征词条对应的特征向量的步骤包括:利用词袋模型对所述特征词条进行转换处理,得到所述特征词条对应的特征向量。
5.根据权利要求1所述的文本检索纠错方法,其特征在于,所述根据所述特征词条对应的特征向量从资源索引库中搜索备选词条的步骤包括:根据所述特征词条的属性确定所述资源索引库对应的簇类,根据检索算法和所述特征词条对应的特征向量从所述资源索引库对应的簇类中检索备选词条。
6.根据权利要求1所述的文本检索纠错方法,其特征在于,在所述根据检索算法和所述特征词条对应的特征向量从所述资源索引库对应的簇类中检索备选词条的步骤之前,所述文本检索纠错方法还包括:对所述特征词条对应的特征向量和所述资源索引库中全部词条的特征向量进行扩展压缩处理,使得所述特征词条对应的特征向量和所述资源索引库中全部词条的特征向量的维度与所述检索算法指示的维度一致。
7.根据权利要求1所述的文本检索纠错方法,其特征在于,所述编辑距离包括汉字编辑距离、拼音编辑距离和英文编辑距离。
8.一种文本检索纠错装置,其特征在于,包括:
特征词条提取模块,用于提取目标文本的特征词条;
转换处理模块,用于对所述特征词条进行转换处理得到所述特征词条对应的特征向量;
检索模块,用于根据所述特征词条对应的特征向量从资源索引库中检索备选词条,其中,所述资源索引库中包括全部词条的特征向量;
纠错模块,用于根据所述特征词条与所述备选词条的编辑距离确定目标词条,以实现文本的纠错。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911365262.7A CN111783433A (zh) | 2019-12-26 | 2019-12-26 | 一种文本检索纠错方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911365262.7A CN111783433A (zh) | 2019-12-26 | 2019-12-26 | 一种文本检索纠错方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783433A true CN111783433A (zh) | 2020-10-16 |
Family
ID=72755502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911365262.7A Pending CN111783433A (zh) | 2019-12-26 | 2019-12-26 | 一种文本检索纠错方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783433A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232062A (zh) * | 2020-12-11 | 2021-01-15 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和存储介质 |
WO2023193332A1 (zh) * | 2022-04-07 | 2023-10-12 | 青岛海尔科技有限公司 | 文本匹配方法和装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468719A (zh) * | 2015-11-20 | 2016-04-06 | 北京齐尔布莱特科技有限公司 | 一种查询纠错方法、装置和计算设备 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
-
2019
- 2019-12-26 CN CN201911365262.7A patent/CN111783433A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468719A (zh) * | 2015-11-20 | 2016-04-06 | 北京齐尔布莱特科技有限公司 | 一种查询纠错方法、装置和计算设备 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232062A (zh) * | 2020-12-11 | 2021-01-15 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和存储介质 |
US11423222B2 (en) | 2020-12-11 | 2022-08-23 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for text error correction, electronic device and storage medium |
WO2023193332A1 (zh) * | 2022-04-07 | 2023-10-12 | 青岛海尔科技有限公司 | 文本匹配方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN113159010B (zh) | 视频分类方法、装置、设备和存储介质 | |
WO2022083094A1 (zh) | 文本语义识别方法、装置、电子设备及存储介质 | |
CN107766492B (zh) | 一种图像搜索的方法和装置 | |
CN110209812B (zh) | 文本分类方法和装置 | |
CN107203504B (zh) | 字符串替换方法和装置 | |
CN109992766B (zh) | 提取目标词的方法和装置 | |
WO2023024975A1 (zh) | 文本处理方法、装置和电子设备 | |
CN112988753B (zh) | 一种数据搜索方法和装置 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN110874532A (zh) | 提取反馈信息的关键词的方法和装置 | |
US20150222848A1 (en) | Caption searching method, electronic device, and storage medium | |
CN111428011B (zh) | 词语的推荐方法、装置、设备及存储介质 | |
CN111783433A (zh) | 一种文本检索纠错方法和装置 | |
CN113076756A (zh) | 一种文本生成方法和装置 | |
CN114298007A (zh) | 一种文本相似度确定方法、装置、设备及介质 | |
CN111538817A (zh) | 人机交互方法和装置 | |
CN117992569A (zh) | 基于生成式大模型生成文档的方法、装置、设备及介质 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN111368693A (zh) | 一种身份证信息的识别方法和装置 | |
CN112784596A (zh) | 一种识别敏感词的方法和装置 | |
CN117171296A (zh) | 信息获取方法、装置和电子设备 | |
CN114880520A (zh) | 视频标题生成方法、装置、电子设备和介质 | |
CN113486148A (zh) | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |