CN115238677A - 短文本修正方法、装置、电子设备、介质和程序产品 - Google Patents

短文本修正方法、装置、电子设备、介质和程序产品 Download PDF

Info

Publication number
CN115238677A
CN115238677A CN202210716286.8A CN202210716286A CN115238677A CN 115238677 A CN115238677 A CN 115238677A CN 202210716286 A CN202210716286 A CN 202210716286A CN 115238677 A CN115238677 A CN 115238677A
Authority
CN
China
Prior art keywords
target
short text
text
candidate
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210716286.8A
Other languages
English (en)
Inventor
谭泽辛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pudu Technology Co Ltd
Original Assignee
Shenzhen Pudu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pudu Technology Co Ltd filed Critical Shenzhen Pudu Technology Co Ltd
Priority to CN202210716286.8A priority Critical patent/CN115238677A/zh
Publication of CN115238677A publication Critical patent/CN115238677A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一短文本修正方法、装置、电子设备、介质和程序产品,属于计算机技术领域。该方法包括:获取待修正的目标短文本以及目标短文本对应的目标拼音;根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。采用本方法可以对短文本进行修正。

Description

短文本修正方法、装置、电子设备、介质和程序产品
技术领域
本申请涉及计算机技术领域,特别是涉及一种短文本修正方法、装置、电子设备、介质和程序产品。
背景技术
随着人工智能的发展,语音转文本技术正在成为目前研究的热点。因采集到的语音存在口音或者噪音等问题,使得转化后的文本存在错误,尤其以同音错字为主,如“国际”和“过季”,错误的文本不仅起不到传递信息的作用,还会对原意产生误导,不利于信息的正确传播。因此,需要对转化后的文本进行修正,以得到正确的文本。
现有技术中,主要是通过文本的上下文的语义来对文本进行修正的。
但是,短文本只有短短几个字,无法通过上下文语义来对短文本进行修正。
发明内容
基于此,有必要针对上述技术问题,提供一种短文本修正方法、装置、电子设备、介质和程序产品。
第一方面,本申请提供了一种短文本修正方法,应用于电子设备,该方法包括:获取待修正的目标短文本以及目标短文本对应的目标拼音;根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,得到查询结果,其中,文本数据库包括多组短文本以及拼音的对应关系;根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
在其中一个实施例中,根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,得到查询结果,包括:根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本;从文本数据库中,获取各候选短文本对应的候选拼音;从各候选拼音中确定与目标拼音相似的目标候选拼音;将各目标候选拼音对应的目标候选短文本作为查询结果。
在其中一个实施例中,根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本,包括:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
在其中一个实施例中,HNSW索引模型基于所述文本数据库并利用分层可通航小世界图算法所建立。
在其中一个实施例中,从各候选拼音中确定与目标拼音相似的目标候选拼音,包括:利用BM25算法计算各候选拼音与目标拼音的相似度;根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
在其中一个实施例中,根据查询结果确定修正短文本,包括:确定各目标候选短文本与目标短文本的编辑距离;将编辑距离最小的目标候选短文本作为修正短文本。
第二方面,本申请还提供了一种短文本修正装置,该装置包括:第一获取模块,用于获取待修正的目标短文本以及目标短文本对应的目标拼音;查询模块,用于根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;修正模块,用于根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
在其中一个实施例中,查询模块,具体用于:根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本;从文本数据库中,获取各候选短文本对应的候选拼音;从各候选拼音中确定与目标拼音相似的目标候选拼音;将各目标候选拼音对应的目标候选短文本作为查询结果。
在其中一个实施例中,查询模块,具体用于:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
在其中一个实施例中,该装置还包括:第二获取模块,用于获取文本数据库;创建模块,用于基于文本数据库,利用分层可通航小世界图算法建立HNSW索引模型。
在其中一个实施例中,查询模块,具体用于:利用BM25算法计算各候选拼音与目标拼音的相似度;根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
在其中一个实施例中,修正模块,具体用于:确定各目标候选短文本与目标短文本的编辑距离;将编辑距离最小的目标候选短文本作为修正短文本。
第三方面,本申请还提供了一种电子设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现上述第一方面任一项的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项所述的方法的步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,因待修正的目标短文本可能存在错误,因此需要对待修正的目标短文本进行修正,修正的过程主要包括:首先,获取目标短文本以及目标短文本对应的目标拼音;其次,根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;最后,根据查询结果确定修正短文本,其中,该修正短文本为与所述目标短文本最相似的短文本,并利用修正短文本对目标短文本进行替换处理,相对于现有技术来说,本申请实施例中的短文本修正方法,通过查询到与待修正文本最相似的文本,以对待修正文本进行修正,因此,本申请实施例可以实现对短文本的修正。
附图说明
图1为本申请实施例提供的一种实施环境的示意图;
图2为本申请实施例提供的第一种短文本修正方法的流程图;
图3为本申请实施例提供的一种从文本数据库中获取查询结果的技术过程的流程图;
图4为本申请实施例提供的第二种短文本修正方法的流程图;
图5本申请实施例提供的第一种短文本修正装置的框图;
图6本申请实施例提供的第二种短文本修正装置的框图;
图7为本申请实施例提供的一种计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着人工智能的发展,语音转文本技术正在成为目前研究的热点。因采集到的语音存在口音或者噪音等问题,使得转化后的文本存在错误,尤其以同音错字为主,如“国际”和“过季”,错误的文本不仅起不到传递信息的作用,还会对原意产生误导,不利于信息的正确传播。因此,需要对转化后的文本进行修正,以得到正确的文本。现有技术中,主要是通过文本的上下文的语义来对文本进行修正的。但是,短文本只有短短几个字,无法通过上下文语义来对短文本进行修正。
有鉴于此,本申请实施例提供了一种短文本修正方法、装置、电子设备、介质和程序产品,利用该短文本修正方法可以对短文本进行修正。
请参见图1,其示出了本申请实施例提供的短文本修正方法所涉及的实施环境的示意图。如图1所示,本申请实施例提供的短文本修正方法应用于电子设备,其执行主体可以是一台计算机设备,也可以为由多台计算机设备组成的计算机设备集群,其中,计算机设备可以为防护设备。不同的计算机设备之间可以通过有线或无线方式的进行通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。可选的,本申请实施例提供的短文本修正方法的执行主体可以是一台智能机器人,智能机器人上配置有实现语音交互功能的麦克风,麦克风接收外部环境中的语音信息,智能机器人将语音信息转换为文本,并根据该文本和该文本对应的拼音对该文本进行修正,可选的,本申请实施例提供的短文本修正方法的执行主体也可以是多台智能机器人,不同的智能机器人之间可以通过有线或无线方式的进行通信。
请参见图2,其示出了本申请实施例提供的第一种短文本修正方法,该短文本修正方法可以应用于图1中的计算机设备中。如图2所示,该短文本修正方法可以包括以下步骤:
步骤201、计算机设备获取待修正的目标短文本以及目标短文本对应的目标拼音。
其中,目标短文本可以为中文,目标短文本对应的目标拼音不含声调,声调是指语言的音调的变化,普通话中的声调包括阴平、阳平、上声和去声。例如,“语言”的拼音仅为“yu yan”。
可选的,目标短文本可以为用户输入的短文本,也可以为计算机设备对语音进行转换后得到的短文本,本申请实施例对目标短文本的来源不作限定。可选的,短文本可以包括成语、词语等,还可以包括字数少于预设个数的文本,比如,若预设个数为5,则短文本可以包括字数少于5的文本。
可选的,目标短文本可以为除中文外的其他语种,例如,目标短文本可以为英文,目标短文本对应的目标拼音可以为音标。
步骤202、计算机设备根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询。
其中,文本数据库包括多组短文本以及拼音的对应关系。为了尽可能的得到正确的修正短文本,文本数据库可以包括尽可能多的短文本以及拼音的对应关系。
步骤203、计算机设备根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
根据目标短文本以及目标拼音对文本数据库进行查询,得到查询结果,其中,查询结果可以为与目标短文本相似的多个短文本,在得到与目标短文本相似的多个短文本之后,从该多个短文本中确定与目标短文本最相似的短文本,并将该最相似的短文本作为修正短文本,接着,利用修正短文本对目标短文本进行替换处理,以实现对目标短文本的修正。
可选的,可以建立与文本数据库相关的检索模型,并利用该检索模型对文本数据库进行查询,已得到查询结果,可选的,还可以根据计算目标短文本以及目标拼音与文本数据库中的多组短文本以及拼音的相似度,得到查询结果,本申请实施例对文本数据库进行查询的方式不作限定,只要基于该查询的方式可以得到查询结果即可。
在本申请实施例中,因待修正的目标短文本可能存在错误,因此需要对待修正的目标短文本进行修正,修正的过程主要包括:首先,获取目标短文本以及目标短文本对应的目标拼音;其次,根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;最后,根据查询结果确定修正短文本,其中,该修正短文本为与目标短文本最相似的短文本,并利用修正短文本对目标短文本进行替换处理,相对于现有技术来说,本申请实施例中的短文本修正方法,通过查询到与待修正文本最相似的文本,以对待修正文本进行修正,因此,本申请实施例可以实现对短文本的修正。
请参见图3,其示出了本申请实施例提供的一种从文本数据库中获取查询结果的技术过程。如图3所示,该技术过程可以包括以下步骤:
步骤301、计算机设备根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本。
可选的,根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本可以包括:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
可选的,建立HNSW索引模型的过程可以包括:获取文本数据库,并基于文本数据库,利用分层可通航小世界图(Hierarchical Navigable Small World,简称:HNSW)算法建立HNSW索引模型。
步骤302、计算机设备从文本数据库中,获取各候选短文本对应的候选拼音。
步骤303、计算机设备从各候选拼音中确定与目标拼音相似的目标候选拼音。
可选的,从各候选拼音中确定与目标拼音相似的目标候选拼音可以包括以下步骤:首先,利用BM25算法计算各候选拼音与目标拼音的相似度;其次,根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
其中,BM25算法是信息索引领域用来计算检索目标集与被搜索文档之间相似度的经典算法,BM25算法的公式如下所示:
Figure BDA0003709595190000071
其中,Q为检索目标集;qi为检索目标集中的其中一个检索目标;d为被搜索文档;R是检索目标和被搜索文档的相关度;Wi为qi的权重,一般情况下为逆文本频IDF值。
基于上述公式,可以计算各候选拼音与目标拼音的相似度。
步骤304、计算机设备将各目标候选拼音对应的目标候选短文本作为查询结果。
可选的,可以基于文本数据库,获取各目标候选拼音对应的目标候选短文本,并将目标候选短文本作为查询结果。可选的,在得到查询结果之后,可以从目标候选短文本中确定修正短文本,并利用所述修正短文本对所述目标短文本进行替换处理。
在本申请实施例中,利用BM25算法从各候选拼音中得到与目标拼音最相似的K个目标候选拼音,进而得到K个目标候选拼音对应的目标候选短文本。如此,在上述从文本数据库中获取到多个候选短文本的基础上,进一步地,从多个候选短文本中获取到目标候选短文本,缩小了与目标短文本相似的短文本的范围。
请参见图4,其示出了本申请实施例提供的第二种短文本修正方法,该短文本修正方法可以应用于上文中的计算机设备中。如图4所示,该短文本修正方法可以包括以下步骤:
步骤401、计算机设备获取待修正的目标短文本以及目标短文本对应的目标拼音。
步骤402、计算机设备将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
步骤403、计算机设备从文本数据库中,获取各候选短文本对应的候选拼音。
步骤404、计算机设备利用BM25算法计算各候选拼音与目标拼音的相似度。
步骤405、计算机设备根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
步骤406、计算机设备将各目标候选拼音对应的目标候选短文本作为查询结果。
步骤407、计算机设备确定各目标候选短文本与目标短文本的编辑距离。
其中,编辑距离是针对两个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串,通俗解释理解是,编辑距离将一个字符串编辑为另一个字符串的操作次数,比如,将kitty编辑为sitktk的操作次数为3,则kitty与sitktk之间的编辑距离为3。
步骤408、计算机设备将编辑距离最小的目标候选短文本作为修正短文本。
步骤409、计算机设备利用修正短文本对目标短文本进行替换处理。
在本申请实施例中,经历了两次召回,其中,召回是指获取与目标短文本相似的多个短文本的过程,其中,第一次召回为:将目标短文本输入至HNSW索引模型中,得到HNSW索引模型输出的与目标短文本相似的多个候选短文本;第二次召回为:利用BM25算法计算各候选短文本对应的候选拼音与目标拼音的相似度,得到相似度最高的K个候选拼音作为目标候选拼音;在经历两次召回后可以得到与目标短文本相似的K个目标候选拼音对应的目标候选短文本,接着,计算目标候选短文本与目标文本之间的编辑距离,得到编辑距离最小的目标候选短文本,并将该目标候选短文本作为修正短文本,最后,利用修正短文本对目标短文本进行替换处理,如此,实现了对短文本的修正。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
请参见图5,其示出了本申请实施例提供的第一种短文本修正装置500的框图,该短文本修正装置500可以配置于上述的计算机设备中。如图5所示,该短文本修正装置500包括第一获取模块501、查询模块502和修正模块503。
第一获取模块501,用于获取待修正的目标短文本以及目标短文本对应的目标拼音;查询模块502,用于根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;修正模块503,用于根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
在其中一个实施例中,查询模块502,具体用于:根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本;从文本数据库中,获取各候选短文本对应的候选拼音;从各候选拼音中确定与目标拼音相似的目标候选拼音;将各目标候选拼音对应的目标候选短文本作为查询结果。
在其中一个实施例中,查询模块502,具体用于:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
在其中一个实施例中,查询模块502,具体用于:利用BM25算法计算各候选拼音与目标拼音的相似度;根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
在其中一个实施例中,修正模块503,具体用于:确定各目标候选短文本与目标短文本的编辑距离;将编辑距离最小的目标候选短文本作为修正短文本。
请参见图6,其示出了本申请实施例提供的第二种短文本修正装置600的框图,该短文本修正装置600除了包括短文本修正装置500的各模块外,还包括第二获取模块504和创建模块505。
其中,第二获取模块504,用于获取文本数据库;创建模块505,用于基于文本数据库,利用分层可通航小世界图算法建立HNSW索引模型。
本申请实施例提供短文本修正装置,可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
上述短文本修正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种短文本修正方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待修正的目标短文本以及目标短文本对应的目标拼音;根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
在本申请的一个实施例中,该处理器执行计算机程序时还实现以下步骤:根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本;从文本数据库中,获取各候选短文本对应的候选拼音;从各候选拼音中确定与目标拼音相似的目标候选拼音;将各目标候选拼音对应的目标候选短文本作为查询结果。
在本申请的一个实施例中,该处理器执行计算机程序时还实现以下步骤:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
在本申请的一个实施例中,该处理器执行计算机程序时还实现以下步骤:获取文本数据库;基于文本数据库,利用分层可通航小世界图算法建立HNSW索引模型。
在本申请的一个实施例中,该处理器执行计算机程序时还实现以下步骤:利用BM25算法计算各候选拼音与目标拼音的相似度;根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
在本申请的一个实施例中,该处理器执行计算机程序时还实现以下步骤:确定各目标候选短文本与目标短文本的编辑距离;将编辑距离最小的目标候选短文本作为修正短文本。
本申请实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待修正的目标短文本以及目标短文本对应的目标拼音;根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本;从文本数据库中,获取各候选短文本对应的候选拼音;从各候选拼音中确定与目标拼音相似的目标候选拼音;将各目标候选拼音对应的目标候选短文本作为查询结果。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:获取文本数据库;基于文本数据库,利用分层可通航小世界图算法建立HNSW索引模型。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:利用BM25算法计算各候选拼音与目标拼音的相似度;根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:确定各目标候选短文本与目标短文本的编辑距离;将编辑距离最小的目标候选短文本作为修正短文本。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在本申请的一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取待修正的目标短文本以及目标短文本对应的目标拼音;根据目标短文本以及目标拼音在预先设置的文本数据库中进行查询,其中,文本数据库包括多组短文本以及拼音的对应关系;根据查询结果确定修正短文本,并利用修正短文本对目标短文本进行替换处理。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:根据目标短文本在文本数据库中进行查询,得到与目标短文本相似的候选短文本;从文本数据库中,获取各候选短文本对应的候选拼音;从各候选拼音中确定与目标拼音相似的目标候选拼音;将各目标候选拼音对应的目标候选短文本作为查询结果。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:将目标短文本输入至基于文本数据库预先建立的HNSW索引模型中进行查询,得到HNSW索引模型输出的与目标短文本相似的候选短文本。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:获取文本数据库;基于文本数据库,利用分层可通航小世界图算法建立HNSW索引模型。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:利用BM25算法计算各候选拼音与目标拼音的相似度;根据相似度由大至小的顺序对各候选拼音进行排序,并取前K个候选拼音作为目标候选拼音。
在本申请的一个实施例中,计算机程序被处理器执行时实现以下步骤:确定各目标候选短文本与目标短文本的编辑距离;将编辑距离最小的目标候选短文本作为修正短文本。
本实施例提供的计算机程序产品,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种短文本修正方法,应用于电子设备,其特征在于,所述方法包括:
获取待修正的目标短文本以及所述目标短文本对应的目标拼音;
根据所述目标短文本以及所述目标拼音在预先设置的文本数据库中进行查询,得到查询结果,其中,所述文本数据库包括多组短文本以及拼音的对应关系;
根据所述查询结果确定修正短文本,并利用所述修正短文本对所述目标短文本进行替换处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标短文本以及所述目标拼音在预先设置的文本数据库中进行查询,得到查询结果,包括:
根据所述目标短文本在所述文本数据库中进行查询,得到与所述目标短文本相似的候选短文本;
从所述文本数据库中,获取各所述候选短文本对应的候选拼音;
从各所述候选拼音中确定与所述目标拼音相似的目标候选拼音;
将各所述目标候选拼音对应的目标候选短文本作为所述查询结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标短文本在所述文本数据库中进行查询,得到与所述目标短文本相似的候选短文本,包括:
将所述目标短文本输入至基于所述文本数据库预先建立的HNSW索引模型中进行查询,得到所述HNSW索引模型输出的与所述目标短文本相似的所述候选短文本。
4.根据权利要求3所述的方法,其特征在于,所述HNSW索引模型基于所述文本数据库并利用分层可通航小世界图算法所建立。
5.根据权利要求2所述的方法,其特征在于,所述从各所述候选拼音中确定与所述目标拼音相似的目标候选拼音,包括:
利用BM25算法计算各所述候选拼音与所述目标拼音的相似度;
根据相似度由大至小的顺序对各所述候选拼音进行排序,并取前K个所述候选拼音作为所述目标候选拼音。
6.根据权利要求2所述的方法,其特征在于,所述根据所述查询结果,根据所述查询结果确定修正短文本,包括:
确定各所述目标候选短文本与所述目标短文本的编辑距离;
将编辑距离最小的目标候选短文本作为所述修正短文本。
7.一种短文本修正装置,其特征在于,所述装置包括:
第一获取模块,用于获取待修正的目标短文本以及所述目标短文本对应的目标拼音;
查询模块,用于根据所述目标短文本以及所述目标拼音在预先设置的文本数据库中进行查询,其中,所述文本数据库包括多组短文本以及拼音的对应关系;
修正模块,用于根据所述查询结果确定修正短文本,并利用所述修正短文本对所述目标短文本进行替换处理。
8.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202210716286.8A 2022-06-23 2022-06-23 短文本修正方法、装置、电子设备、介质和程序产品 Pending CN115238677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210716286.8A CN115238677A (zh) 2022-06-23 2022-06-23 短文本修正方法、装置、电子设备、介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716286.8A CN115238677A (zh) 2022-06-23 2022-06-23 短文本修正方法、装置、电子设备、介质和程序产品

Publications (1)

Publication Number Publication Date
CN115238677A true CN115238677A (zh) 2022-10-25

Family

ID=83669390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716286.8A Pending CN115238677A (zh) 2022-06-23 2022-06-23 短文本修正方法、装置、电子设备、介质和程序产品

Country Status (1)

Country Link
CN (1) CN115238677A (zh)

Similar Documents

Publication Publication Date Title
US11416268B2 (en) Aggregate features for machine learning
CN111274811B (zh) 地址文本相似度确定方法以及地址搜索方法
CN110019647B (zh) 一种关键词搜索方法、装置和搜索引擎
WO2016209975A2 (en) Preliminary ranker for scoring matching documents
KR20210106398A (ko) 세션 추천 방법, 장치 및 기기
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
CN112115232A (zh) 一种数据纠错方法、装置及服务器
US11748324B2 (en) Reducing matching documents for a search query
WO2016209962A2 (en) Storage and retrieval of data from a bit vector search index
EP3314465B1 (en) Match fix-up to remove matching documents
CN106991149B (zh) 一种融合编码和多版本数据的海量空间对象存储方法
CN105447190A (zh) 基于卷积神经网络的图片检索方法、装置和服务器
CN111737981A (zh) 词汇纠错方法、装置、计算机设备及存储介质
CN104281275A (zh) 一种英文的输入方法和装置
CN113505190B (zh) 地址信息修正方法、装置、计算机设备和存储介质
CN116522003B (zh) 基于嵌入表压缩的信息推荐方法、装置、设备和介质
CN115238677A (zh) 短文本修正方法、装置、电子设备、介质和程序产品
CN114880485A (zh) 阅读理解答案生成的方法、装置、计算机设备和存储介质
KR101839121B1 (ko) 사용자 질의 교정 시스템 및 방법
CN103116601A (zh) 一种提高输入法智能联想准确度的方法及系统
CN113609313A (zh) 数据处理方法、装置、电子设备和存储介质
CN111949765A (zh) 基于语义的相似文本搜索方法、系统、设备和存储介质
KR101754580B1 (ko) 임베디드 환경에서 풀텍스트 검색을 지원하기 위한 방법, 장치 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램
CN117235236B (zh) 对话方法、装置、计算机设备和存储介质
CN109918486A (zh) 智能客服的语料构建方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination