CN111554295B - 文本纠错方法、相关设备及可读存储介质 - Google Patents

文本纠错方法、相关设备及可读存储介质 Download PDF

Info

Publication number
CN111554295B
CN111554295B CN202010331436.4A CN202010331436A CN111554295B CN 111554295 B CN111554295 B CN 111554295B CN 202010331436 A CN202010331436 A CN 202010331436A CN 111554295 B CN111554295 B CN 111554295B
Authority
CN
China
Prior art keywords
entity name
corrected
entity
pinyin
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010331436.4A
Other languages
English (en)
Other versions
CN111554295A (zh
Inventor
张兆银
朱南阳
李直旭
法羚玲
郑新
邓宸博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202010331436.4A priority Critical patent/CN111554295B/zh
Publication of CN111554295A publication Critical patent/CN111554295A/zh
Application granted granted Critical
Publication of CN111554295B publication Critical patent/CN111554295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本纠错方法、相关设备及可读存储介质,基于上述方案,在获取待纠错的文本之后,先确定文本中的待纠错实体名,对每一待纠错实体名,判断预置的实体名库中是否存在与该待纠错实体名对应的实体名;如果存在,则根据实体名库中与该待纠错实体名对应的实体名,确定该待纠错实体名对应的纠错后的实体名,最终基于各个纠错后的实体名,即可得到纠错后的文本。上述方案能够实现语音识别场景下,通过语音转换后得到的文本的纠错。并且,一般情况下,文本中的实体对整个文本的含义表示起着关键性作用,而上述方案针对文本中的实体进行纠错,能够在一定程度上提升纠错的准确率及效率。

Description

文本纠错方法、相关设备及可读存储介质
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本纠错方法、相关设备及可读存储介质。
背景技术
在一些语音识别场景下,往往需要将语音转换为文本,比如,在基于语音的自动问答场景下,自动问答系统需要将用户的提问转换为文本,以根据转换的文本,确定出与用户的提问对应的答案反馈给用户;在演讲场景下,需要将用户演讲的语音转换为文本,以帮助听讲者理解演讲内容,等等。
但是,将语音转换为文本时,转换得到文本常常会出现错误。比如,语音录入时,由于受到噪声、衰落信道等多种因素的影响,导致语音受损,进而导致转换的文本出现错误,再比如,语音中往往会出现一些符号,如数字、字母和一些特殊字符,这些符号转换为汉字,也可能导致转换的文本出现错误,示例如,语音为“T2级小米加步枪”,将其转换为文本之后可能为“替而级小米加步枪”。
因此,需要提供一种文本纠错方式。
发明内容
鉴于上述问题,本申请提出了一种文本纠错方法、相关设备及可读存储介质。具体方案如下:
一种文本纠错方法,包括:
获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定所述文本中的待纠错实体名;
对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;
基于各个纠错后的实体名,得到纠错后的文本。
可选地,所述判断所述实体名库中是否存在与所述待纠错实体名对应的实体名,包括:
获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;
针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度;
基于各个实体名与所述待纠错实体名之间的相似度,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名。
可选地,所述获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的过程,包括:
将所述待纠错实体名以及所述实体名库,输入语义相似度模型,所述语义相似度模型输出所述实体名库中每个实体名与所述待纠错实体名之间的相似度;
所述语义相似度模型用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度。
可选地,如果所述实体名库中不存在与所述待纠错实体名对应的实体名,所述方法还包括:
确定所述待纠错实体名的拼音;
基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名。
可选地,所述基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名,包括:
获取预置的实体名拼音库,所述实体名拼音库中包括多个实体名的拼音,其中,每个包括预设符号的实体名有至少一个拼音;
从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音;
根据所述目标拼音,确定所述待纠错实体名对应的纠错后的实体名。
可选地,所述从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音,包括:
计算所述实体名拼音库中每个拼音与所述待纠错实体名的拼音的相似度;
确定相似度最高的拼音,为与所述待纠错实体名对应的目标拼音。
可选地,所述从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音,包括:
确定所述实体名拼音库中每个拼音与所述待纠错实体名的拼音相对应的概率;
确定概率最高的拼音,为与所述待纠错实体名的拼音对应的目标拼音。
可选地,所述从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音,包括:
将所述待纠错实体名的拼音,输入拼音纠错模型,所述拼音纠错模型,输出与所述待纠错实体名的拼音对应的目标拼音,所述拼音纠错模型是以实体名的错误拼音为训练样本,以所述实体名拼音库中与所述错误拼音对应的正确拼音为样本标签,对预训练模型进行训练得到的。
可选地,所述确定所述文本中的待纠错实体名,包括:
将所述文本输入实体确定模型,所述实体确定模型输出所述文本中的实体;所述实体确定模型是以训练文本为训练样本,以训练文本标注的实体为样本标签训练得到的;
根据所述文本中的实体,确定所述文本中的待纠错实体名。
一种文本纠错装置,包括:
获取单元,用于获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定单元,用于确定所述文本中的待纠错实体名;
实体名纠错单元,用于对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;
文本纠错单元,用于基于各个纠错后的实体名,得到纠错后的文本。
可选地,所述实体名纠错单元,包括:
语义信息获取单元,用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;
相似度计算单元,用于针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度;
判断单元,用于基于各个实体名与所述待纠错实体名之间的相似度,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名。
可选地,所述语义信息获取单元获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;所述相似度计算单元针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的过程,包括:
将所述待纠错实体名以及所述实体名库,输入语义相似度模型,所述语义相似度模型输出所述实体名库中每个实体名与所述待纠错实体名之间的相似度;
所述语义相似度模型用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度。
可选地,所述装置还包括:
拼音确定单元,用于如果所述实体名库中不存在与所述待纠错实体名对应的实体名,确定所述待纠错实体名的拼音;
拼音纠错单元,用于基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名。
可选地,所述拼音纠错单元,包括:
拼音库获取单元,用于获取预置的实体名拼音库,所述实体名拼音库中包括多个实体名的拼音,其中,每个包括预设符号的实体名有至少一个拼音;
目标拼音确定单元,用于从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音;
实体名确定单元,用于根据所述目标拼音,确定所述待纠错实体名对应的纠错后的实体名。
可选地,所述目标拼音确定单元具体用于:
计算所述实体名拼音库中每个拼音与所述待纠错实体名的拼音的相似度;
确定相似度最高的拼音,为与所述待纠错实体名对应的目标拼音。
可选地,所述目标拼音确定单元具体用于:
确定所述实体名拼音库中每个拼音与所述待纠错实体名的拼音相对应的概率;
确定概率最高的拼音,为与所述待纠错实体名的拼音对应的目标拼音。
可选地,所述目标拼音确定单元具体用于:
将所述待纠错实体名的拼音,输入拼音纠错模型,所述拼音纠错模型,输出与所述待纠错实体名的拼音对应的目标拼音,所述拼音纠错模型是以实体名的错误拼音为训练样本,以所述实体名拼音库中与所述错误拼音对应的正确拼音为样本标签,对预训练模型进行训练得到的。
可选地,所述确定单元具体用于:
将所述文本输入实体确定模型,所述实体确定模型输出所述文本中的实体;所述实体确定模型是以训练文本为训练样本,以训练文本标注的实体为样本标签训练得到的;
根据所述文本中的实体,确定所述文本中的待纠错实体名。
一种文本纠错设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的文本纠错方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文本纠错方法的各个步骤。
借由上述技术方案,本申请公开了一种文本纠错方法、相关设备及可读存储介质,基于上述方案,在获取待纠错的文本之后,先确定文本中的待纠错实体名,对每一待纠错实体名,判断预置的实体名库中是否存在与该待纠错实体名对应的实体名;如果存在,则根据实体名库中与该待纠错实体名对应的实体名,确定该待纠错实体名对应的纠错后的实体名,最终基于各个纠错后的实体名,即可得到纠错后的文本。上述方案能够实现语音识别场景下,通过语音转换后得到的文本的纠错。并且,一般情况下,文本中的实体对整个文本的含义表示起着关键性作用,而上述方案针对文本中的实体进行纠错,能够在一定程度上提升纠错的准确率及效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的文本纠错方法的流程示意图;
图2为本申请实施例公开的一种语义相似度模型的结构示意图;
图3为本申请实施例公开的一种预训练模型的结构示意图;
图4为本申请实施例公开的一种文本纠错装置结构示意图;
图5为本申请实施例公开的一种文本纠错设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的文本纠错方法进行介绍。
参照图1,图1为本申请实施例公开的文本纠错方法的流程示意图,该方法可以包括:
步骤S101:获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个。
在本申请中,待纠错的文本可以是通过语音软件将一段语音进行转换得到的文本,比如,在基于语音的自动问答场景下,自动问答系统将用户的提问进行转换得到的文本,在演讲场景下,将用户演讲的语音进行转换得到的文本等。待纠错的文本也可以是采用书面语言表现的一个句子、一个段落或者一个篇章,比如,新闻稿件等。
对于某些实体,会有不同的实体名,比如,“征服者重型坦克”、“征服者坦克”、“征服者重坦克”、“FV214”均表示同一个实体。在本申请中,可以预先基于知识图谱中已有的实体名,通过在百度百科、维基百科等网站上搜索,查找与已有实体名对应的其他实体名,组成实体名库。
需要说明的是,针对不同的领域,或者不同的文本纠错场景,可以预置不同的实体名库,不同的实体名库中可以包括不同实体的至少一个实体名。
步骤S102:确定所述文本中的待纠错实体名。
传统的文本纠错方式,是基于文本中的各个字,计算该文本与数据库中各文本之间的相似度,根据该文本与数据库中各文本之间的相似度,确定数据库中与该文本相似的另一文本,作为该文本的纠错后的文本。这种文本纠错方式能够对文本中出现错别字的错误进行纠正。
但是,对一个文本来说,并不是每个字对其含义都起着关键性作用,传统方案中,对文本中的每个字都进行纠错,会导致纠错效率低下。因此,在本申请中,可以确定文本中的待纠错实体名,再对各个待纠错实体名进行纠错,从而提升纠错效率。
作为一种确定所述文本中的待纠错实体名的可实施方式,可以先将所述文本输入实体确定模型,所述实体确定模型输出所述文本中的实体;再根据所述文本中的实体,确定所述文本中的待纠错实体名。其中,所述实体确定模型是以训练文本为训练样本,以训练文本标注的实体为样本标签训练得到的。需要说明的是,在本申请中,待纠错实体名可以为文本中的全部或部分实体,对此,本申请不进行任何限定。
步骤S103:对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名。
在本申请中,可以确定所述实体名库中各个实体名与待纠错实体名的相似度或置信度,并根据确定的相似度或置信度判断所述实体名库中是否存在与所述待纠错实体名对应的实体名,具体将通过后续实施例详细说明。
在本申请中,如果实体名库中与所述待纠错实体名对应的实体名只有一个,则确定该实体名为所述待纠错实体名对应的纠错后的实体名,如果实体名库中与所述待纠错实体名对应的实体名有多个,则确定相似度或置信度满足预设条件(比如相似度最高,置信度最高等)的实体名为所述待纠错实体名对应的纠错后的实体名。
在本申请中,待纠错实体名对应的的纠错后的实体名可以与待纠错实体名相同,也可以与待纠错实体名不同。
步骤S104:基于各个纠错后的实体名,得到纠错后的文本。
在本申请中,可以通过使用纠错后的实体名替换文本中对应的待纠错实体名,得到纠错后的文本。具体的,可以使用与待纠错实体名不同的纠错后的实体名替换文本中对应的待纠错实体名,其他实体保持不变,得到纠错后的文本。
本实施例公开了一种文本纠错方法,在获取待纠错的文本之后,先确定文本中的待纠错实体名,对每一待纠错实体名,判断预置的实体名库中是否存在与该待纠错实体名对应的实体名;如果存在,则根据实体名库中与该待纠错实体名对应的实体名,确定该待纠错实体名对应的纠错后的实体名,最终基于各个纠错后的实体名,即可得到纠错后的文本。上述方案能够实现语音识别场景下,通过语音转换后得到的文本的纠错。并且,一般情况下,文本中的实体对整个文本的含义表示起着关键性作用,而上述方案针对文本中的实体进行纠错,能够在一定程度上提升纠错的准确率及效率。
需要说明的是,上述步骤S103中,如果所述实体名库中不存在与所述待纠错实体名对应的实体名,可以结束纠错,也可以执行其他纠错方式,作为一种可实施方式,在本申请中,可以执行步骤S201,和步骤S202。
步骤S201:确定所述待纠错实体名的拼音。
在本申请中,可以基于现有的汉字转拼音的方法,确定待纠错实体名的拼音,具体不再详述。
步骤S202:基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名。
在某些专业领域,如经济、军事等领域,这些领域中的实体名中往往含有一些符号,如字母、数字、特殊字符(比如横杆、下划线、斜杠)等,该类实体名对应的文本中,这些符号往往是以中文的形式存在的,比如“T2级小米加步枪”经过语音后,可能被识别为“替而级小米加步枪”,这种情况下,传统的文本纠错方式将无法适用。本申请中,可以基于此类实体名的拼音进行纠错,具体实现将通过后续实施例详细说明。
在本申请的另一个实施例中,对上述步骤S103判断所述实体名库中是否存在与所述待纠错实体名对应的实体名的方式进行介绍,该方式可以包括如下步骤:
步骤S301:获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息。
步骤S302:针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度。
需要说明的是,在本申请中,可以基于传统的文本语义信息确定方式,获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息。也可以基于传统的相似度计算方式,计算实体名库中的每个实体名与所述待纠错实体名之间的相似度。
但是,传统的方式可能导致确定的语义信息、计算的相似度准确率低下,因此,在本申请中,上述步骤S301、S302可以基于神经网络结构实现,具体的,所述获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的过程,可以包括:将所述待纠错实体名以及所述实体名库,输入语义相似度模型,所述语义相似度模型输出所述实体名库中每个实体名与所述待纠错实体名之间的相似度;
所述语义相似度模型具备获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的能力。
参照图2,图2为本申请实施例公开的一种语义相似度模型的结构示意图,该语义相似度模型具体可以包括:语义信息确定模块,相似度计算模块。其中,相似度计算模块包括融合层、全连接层、输出层。
基于图2所示的语义相似度模型的结构,将所述待纠错实体名以及所述实体名库,输入语义相似度模型的语义信息确定模块之后,所述语义相似度模型的语义信息确定模块输出所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息,并将所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息输入相似度计算模块,相似度计算模块对所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息进行融合、全连接处理后,由输出层输出所述实体名与所述待纠错实体名之间的相似度。
步骤S303:基于各个实体名与所述待纠错实体名之间的相似度,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名。
在本申请中,如果实体名库中的实体名与所述待纠错实体名之间的相似度大于预设阈值,则确定所述实体名与所述待纠错实体名对应。
在本申请的另一个实施例中,对上述步骤S202基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名的具体实现方式进行介绍,该方式可以包括如下步骤:
步骤S401:获取预置的实体名拼音库,所述实体名拼音库中包括多个实体名的拼音,其中,每个包括预设符号的实体名有至少一个拼音。
在某些专业领域,如经济、军事等领域,这些领域中的实体中往往含有一些符号,如字母、数字、特殊字符等,该类实体中的符号会有不同的发音,不同发音下的语音对应的文本可能对应不同的拼音,例如,对于“波音737”这个实体,有可能的拼音表示为“bo yinqi san qi”、“bo yin guai san guai”等。在本申请中,可以预先建立一个拼音映射表,将预设符号(如字母、数字、特殊字符等)的所有拼音形式罗列出来。
为便于理解,本申请中给出如下拼音映射表的示例,该拼音映射表中包括多个预设符号的拼音,每个预设符号的拼音有至少一个。
“0”:“ling”,”dong” “D”/“d”:“di” “Q”/“q”:“ku”
“1”:“yi”,”yao” “E”/“e”:“yi” “R”/“r”:“a”
“2”:“er”,”liang” “F”/“f”:“fu” “S”/“s”:“si”
“3”:“san” “G”/“g”:“ji” “T”/“t”:“ti”
“4”:“si” “H”/“h”:“aqu” “U”/“u”:“you”
“5”:“wu” “I”/“i”:“a”、”ai” “V”/“v”:“wei”
“6”:“liu” “J”/“j”:“ji” “W”/“w”:“dabuliu”
“7”:“qi”,“guai” “K”/“k”:“kai” “X”/“x”:“aiksi”
“8”:“ba” “L”/“l”:“aiou” “Y”/“y”:“wa”
“9”:“jiu”,”gou” “M”/“m”:“amiu” “Z”/“z”:“zi”
“A”/“a”:“ai” “N”/“n”:“aining” “-”:“heng gang”
“B”/“b”:“bi” “O”/“o”:“ou” “/”:“xie gang”
“C”/“c”:“sei”“sui” “P”/“p”:“pi” “.”:“dian”
在确定拼音映射表之后,可根据拼音映射表将实体名表中的实体名转换为拼音,生成实体名拼音库,实体名拼音库中包括多个实体名的拼音,每个实体名的拼音有至少一个。需要说明的是,如果实体名中包含拼音映射表中的字符,则该实体名的拼音可基于拼音映射表中该字符的拼音确定。
为便于理解,假设实体名为“T1级小米加步枪A”,则其在实体名拼音库中对应的拼音可以为“ti yi ji xiao mi jia bu qiang ai”、“ti yao ji xiao mi jia bu qiangai”、“ti yao ji xiao mi jia bu qiang a”、“ti yi ji xiao mi jia bu qiang a”。
步骤S402:从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音。
作为一种可实施方式,可以计算所述实体名拼音库中每个拼音与所述待纠错实体名的拼音的相似度;确定相似度最高的拼音,为与所述待纠错实体名对应的目标拼音。计算所述实体名拼音库中每个拼音与所述待纠错实体名的拼音的相似度的算法可以有多种,比如Levenshtein自动机算法。
作为另一种可实施方式,可以确定所述实体名拼音库中每个拼音与所述待纠错实体名的拼音相对应的概率;确定概率最高的拼音,为与所述待纠错实体名的拼音对应的目标拼音。确定所述实体名拼音库中每个拼音与所述待纠错实体名的拼音相对应的概率的算法可以有多种,比如贝叶斯算法。
作为又一种可实施方式,也可以将所述待纠错实体名的拼音,输入拼音纠错模型,所述拼音纠错模型,输出与所述待纠错实体名的拼音对应的目标拼音,所述拼音纠错模型是以实体名的错误拼音为训练样本,以所述实体名拼音库中与所述错误拼音对应的正确拼音为样本标签,对预训练模型进行训练得到的。
在本申请中,预训练模型的网络结构可以采用多种形式,比如,可以对现有模型(如seq2seq模型)进行优化得到。
作为一种可实施方式,本申请公开了一种预训练模型的结构,参阅图3,图3为本申请公开的一种预训练模型的结构示意图,该预训练模型包括编码模块、注意力模块、解码模块,其中,编码模块的网络结构包括Network模块+CNN(卷积神经网络)模块,Network模块的网络结构包括BiLSTM(双向长短时记忆网络)模块和Multi-head attention(多头注意力机制)模块,注意力模块采用的Multi-head attention,解码模块的网络结构为BiLSTM。
在本申请中,可以采用大量英文拼写语料数据库中的训练数据作为训练样本,对预训练模型进行训练,再以该预训练模型的参数作为初始参数值,以实体名的错误拼音为训练样本,以所述实体名拼音库中与所述错误拼音对应的正确拼音为样本标签,对预训练模型进行训练,对预训练模型的参数进行微调,得到拼音纠错模型。
步骤S403:根据所述目标拼音,确定所述待纠错实体名对应的纠错后的实体名。
在本申请中,可以确定目标拼音对应的实体名为所述待纠错实体名对应的纠错后的实体名。或者,若目标拼音对应的实体名有多个,可以通过模型计算各个实体名与文本的匹配度,选择匹配度最高的最为纠错后的实体名;或者,还可以先确定文本的关键词,通过模型计算各个实体名与关键词、文本的匹配度,选择匹配度最高的最为纠错后的实体名。
下面对本申请实施例公开的文本纠错装置进行描述,下文描述的文本纠错装置与上文描述的文本纠错方法可相互对应参照。
参照图4,图4为本申请实施例公开的一种文本纠错装置结构示意图。如图4所示,该文本纠错装置可以包括:
获取单元11,用于获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定单元12,用于确定所述文本中的待纠错实体名;
实体名纠错单元13,用于对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;
文本纠错单元14,用于基于各个纠错后的实体名,得到纠错后的文本。
可选地,所述实体名纠错单元,包括:
语义信息获取单元,用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;
相似度计算单元,用于针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度;
判断单元,用于基于各个实体名与所述待纠错实体名之间的相似度,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名。
可选地,所述语义信息获取单元获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;所述相似度计算单元针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的过程,包括:
将所述待纠错实体名以及所述实体名库,输入语义相似度模型,所述语义相似度模型输出所述实体名库中每个实体名与所述待纠错实体名之间的相似度;
所述语义相似度模型用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度。
可选地,所述装置还包括:
拼音确定单元,用于如果所述实体名库中不存在与所述待纠错实体名对应的实体名,确定所述待纠错实体名的拼音;
拼音纠错单元,用于基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名。
可选地,所述拼音纠错单元,包括:
拼音库获取单元,用于获取预置的实体名拼音库,所述实体名拼音库中包括多个实体名的拼音,其中,每个包括预设符号的实体名有至少一个拼音;
目标拼音确定单元,用于从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音;
实体名确定单元,用于根据所述目标拼音,确定所述待纠错实体名对应的纠错后的实体名。
可选地,所述目标拼音确定单元具体用于:
计算所述实体名拼音库中每个拼音与所述待纠错实体名的拼音的相似度;
确定相似度最高的拼音,为与所述待纠错实体名对应的目标拼音。
可选地,所述目标拼音确定单元具体用于:
确定所述实体名拼音库中每个拼音与所述待纠错实体名的拼音相对应的概率;
确定概率最高的拼音,为与所述待纠错实体名的拼音对应的目标拼音。
可选地,所述目标拼音确定单元具体用于:
将所述待纠错实体名的拼音,输入拼音纠错模型,所述拼音纠错模型,输出与所述待纠错实体名的拼音对应的目标拼音,所述拼音纠错模型是以实体名的错误拼音为训练样本,以所述实体名拼音库中与所述错误拼音对应的正确拼音为样本标签,对预训练模型进行训练得到的。
可选地,所述确定单元具体用于:
将所述文本输入实体确定模型,所述实体确定模型输出所述文本中的实体;所述实体确定模型是以训练文本为训练样本,以训练文本标注的实体为样本标签训练得到的;
根据所述文本中的实体,确定所述文本中的待纠错实体名。
参照图5,图5为本申请实施例提供的文本纠错设备的硬件结构框图,参照图5,文本纠错设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定所述文本中的待纠错实体名;
对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;
基于各个纠错后的实体名,得到纠错后的文本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定所述文本中的待纠错实体名;
对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则根据所述实体名库中与所述待纠错实体名对应的实体名,确定所述待纠错实体名对应的纠错后的实体名;
基于各个纠错后的实体名,得到纠错后的文本。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间发生任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还发生另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种文本纠错方法,其特征在于,包括:
获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定所述文本中的待纠错实体名;
对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则将与所述待纠错实体名对应的实体名中的、与所述待纠错实体名的相似度和/或置信度最高的实体名,确定为所述待纠错实体名对应的纠错后的实体名;
如果不存在,则基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名;其中,所述纠错后的实体名,是从预置的实体名拼音库中选出的与所述待纠错实体名的拼音相似度最高的拼音所对应的、与所述待纠错的文本的匹配度最高的实体名;
基于各个纠错后的实体名,得到纠错后的文本。
2.根据权利要求1所述的方法,其特征在于,所述判断所述实体名库中是否存在与所述待纠错实体名对应的实体名,包括:
获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;
针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度;
基于各个实体名与所述待纠错实体名之间的相似度,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度的过程,包括:
将所述待纠错实体名以及所述实体名库,输入语义相似度模型,所述语义相似度模型输出所述实体名库中每个实体名与所述待纠错实体名之间的相似度;
所述语义相似度模型用于获取所述待纠错实体名的语义信息,以及所述实体名库中每个实体名的语义信息;针对所述实体名库中的每个实体名,根据所述实体名的语义信息,以及所述待纠错实体名的语义信息,计算所述实体名与所述待纠错实体名之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名,包括:
获取预置的实体名拼音库,所述实体名拼音库中包括多个实体名的拼音,其中,每个包括预设符号的实体名有至少一个拼音;
从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音;
根据所述目标拼音,确定所述待纠错实体名对应的纠错后的实体名。
5.根据权利要求4所述的方法,其特征在于,所述从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音,包括:
计算所述实体名拼音库中每个拼音与所述待纠错实体名的拼音的相似度;
确定相似度最高的拼音,为与所述待纠错实体名对应的目标拼音。
6.根据权利要求4所述的方法,其特征在于,所述从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音,包括:
确定所述实体名拼音库中每个拼音与所述待纠错实体名的拼音相对应的概率;
确定概率最高的拼音,为与所述待纠错实体名的拼音对应的目标拼音。
7.根据权利要求4所述的方法,其特征在于,所述从所述实体名拼音库中确定出与所述待纠错实体名的拼音对应的目标拼音,包括:
将所述待纠错实体名的拼音,输入拼音纠错模型,所述拼音纠错模型,输出与所述待纠错实体名的拼音对应的目标拼音,所述拼音纠错模型是以实体名的错误拼音为训练样本,以所述实体名拼音库中与所述错误拼音对应的正确拼音为样本标签,对预训练模型进行训练得到的。
8.根据权利要求1所述的方法,其特征在于,所述确定所述文本中的待纠错实体名,包括:
将所述文本输入实体确定模型,所述实体确定模型输出所述文本中的实体;所述实体确定模型是以训练文本为训练样本,以训练文本标注的实体为样本标签训练得到的;
根据所述文本中的实体,确定所述文本中的待纠错实体名。
9.一种文本纠错装置,其特征在于,包括:
获取单元,用于获取待纠错的文本和预置的实体名库,所述实体名库中包括多个实体的实体名,每个实体的实体名有至少一个;
确定单元,用于确定所述文本中的待纠错实体名;
实体名纠错单元,用于对每一待纠错实体名,判断所述实体名库中是否存在与所述待纠错实体名对应的实体名;如果存在,则将与所述待纠错实体名对应的实体名中的、与所述待纠错实体名的相似度和/或置信度最高的实体名,确定为所述待纠错实体名对应的纠错后的实体名;
如果不存在,则基于所述待纠错实体名的拼音,对所述待纠错实体名进行纠错,得到所述待纠错实体名对应的纠错后的实体名;其中,所述纠错后的实体名,是从预置的实体名拼音库中选出的与所述待纠错实体名的拼音相似度最高的拼音所对应的、与所述待纠错的文本的匹配度最高的实体名;
文本纠错单元,用于基于各个纠错后的实体名,得到纠错后的文本。
10.一种文本纠错设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的文本纠错方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的文本纠错方法的各个步骤。
CN202010331436.4A 2020-04-24 2020-04-24 文本纠错方法、相关设备及可读存储介质 Active CN111554295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010331436.4A CN111554295B (zh) 2020-04-24 2020-04-24 文本纠错方法、相关设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010331436.4A CN111554295B (zh) 2020-04-24 2020-04-24 文本纠错方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111554295A CN111554295A (zh) 2020-08-18
CN111554295B true CN111554295B (zh) 2021-06-22

Family

ID=72003969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010331436.4A Active CN111554295B (zh) 2020-04-24 2020-04-24 文本纠错方法、相关设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111554295B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232059B (zh) * 2020-12-14 2021-03-26 北京声智科技有限公司 文本纠错方法、装置、计算机设备及存储介质
CN113836874A (zh) * 2021-09-16 2021-12-24 北京小米移动软件有限公司 文本纠错方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN105895090A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 语音信号处理方法及装置
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN109903770A (zh) * 2017-12-07 2019-06-18 现代自动车株式会社 用于校正用户的话语错误的装置及其方法
CN110399607A (zh) * 2019-06-04 2019-11-01 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110782881A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 一种语音识别及实体识别后的影视实体纠错方法
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
CN107305768B (zh) * 2016-04-20 2020-06-12 上海交通大学 语音交互中的易错字校准方法
CN106570180B (zh) * 2016-11-10 2020-05-22 北京百度网讯科技有限公司 基于人工智能的语音搜索方法及装置
JP2018174442A (ja) * 2017-03-31 2018-11-08 本田技研工業株式会社 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
CN107766327A (zh) * 2017-10-23 2018-03-06 武汉楚鼎信息技术有限公司 一种命名实体识别过程中纠错的方法及系统
US10956670B2 (en) * 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US11170183B2 (en) * 2018-09-17 2021-11-09 International Business Machines Corporation Language entity identification

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN105895090A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 语音信号处理方法及装置
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN107977356A (zh) * 2017-11-21 2018-05-01 新疆科大讯飞信息科技有限责任公司 识别文本纠错方法及装置
CN109903770A (zh) * 2017-12-07 2019-06-18 现代自动车株式会社 用于校正用户的话语错误的装置及其方法
CN110399607A (zh) * 2019-06-04 2019-11-01 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110688857A (zh) * 2019-10-08 2020-01-14 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110782881A (zh) * 2019-10-25 2020-02-11 四川长虹电器股份有限公司 一种语音识别及实体识别后的影视实体纠错方法
CN110909535A (zh) * 2019-12-06 2020-03-24 北京百分点信息科技有限公司 命名实体校对方法、装置、可读存储介质及电子设备

Also Published As

Publication number Publication date
CN111554295A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
TWI664540B (zh) Search word error correction method and device, and weighted edit distance calculation method and device
US20190087403A1 (en) Online spelling correction/phrase completion system
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
WO2020215554A1 (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN113495900B (zh) 基于自然语言的结构化查询语言语句获取方法及装置
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
CN112100354B (zh) 人机对话方法、装置、设备及存储介质
CN105279149A (zh) 一种中文文本自动校正方法
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
CN110232923B (zh) 一种语音控制指令生成方法、装置及电子设备
CN111554295B (zh) 文本纠错方法、相关设备及可读存储介质
CN109344387B (zh) 形近字字典的生成方法、装置和形近字纠错方法、装置
CN111611349A (zh) 语音查询方法、装置、计算机设备及存储介质
CN111737979B (zh) 语音文本的关键词修正方法、装置、修正设备及存储介质
CN114067786A (zh) 语音识别方法、装置、电子设备及存储介质
CN111326144A (zh) 语音数据处理方法、装置、介质和计算设备
KR20150092879A (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
CN114860870A (zh) 一种文本的纠错方法及装置
CN113177405B (zh) 基于bert的数据纠错方法、装置、设备及存储介质
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN112183072A (zh) 一种文本纠错方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant