CN109522550B - 文本信息纠错方法、装置、计算机设备和存储介质 - Google Patents

文本信息纠错方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109522550B
CN109522550B CN201811325678.1A CN201811325678A CN109522550B CN 109522550 B CN109522550 B CN 109522550B CN 201811325678 A CN201811325678 A CN 201811325678A CN 109522550 B CN109522550 B CN 109522550B
Authority
CN
China
Prior art keywords
pinyin
list
word
text information
initial letters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811325678.1A
Other languages
English (en)
Other versions
CN109522550A (zh
Inventor
肖文龙
刘建
黄华伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Workway Shenzhen Information Technology Co ltd
Original Assignee
Workway Shenzhen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Workway Shenzhen Information Technology Co ltd filed Critical Workway Shenzhen Information Technology Co ltd
Priority to CN201811325678.1A priority Critical patent/CN109522550B/zh
Publication of CN109522550A publication Critical patent/CN109522550A/zh
Application granted granted Critical
Publication of CN109522550B publication Critical patent/CN109522550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本信息纠错方法,所述方法包括:获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。采用本方法能够提高文本信息的准确性,从而提高语音识别的准确性。

Description

文本信息纠错方法、装置、计算机设备和存储介质
技术领域
本申请涉及语音技术领域,特别是涉及一种文本信息纠错方法、装置、计算机设备和存储介质。
背景技术
语音识别是一门交叉学科,该技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等多个领域。语音识别的主要过程是获取拾音系统中的音频信息,从该音频信息中提取声学特征,然后根据语音识别模型将音频信息转化为文本信息。在语音识别的过程中,文本信息的准确性极易受到各种因素的影响。例如,语音识别模型不能识别音频信息中的谐音词语、音频信息中英混杂,以及音频信息中用户发音不准等。因此,如何提高文本信息的准确性,从而提高语音识别的准确性成为目前需要解决的一个技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在提高文本信息的准确性,从而提高语音识别的准确性的文本信息纠错方法、装置、计算机设备和存储介质。
一种文本信息纠错方法,所述方法包括:
获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;
当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
在其中一个实施例中,所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表,包括:
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;
当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
在其中一个实施例中,所述在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,包括:
当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;
当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
在其中一个实施例中,所述方法还包括:当所述比对结果中未得到比对成功的词语时,将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对,得到拼音比对结果;选取所述拼音比对结果中匹配度最高的词语,将所述匹配度最高的词语对相应的字符串进行纠错。
在其中一个实施例中,所述方法还包括:
对所述字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;
在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。
一种文本信息纠错装置,所述装置包括:
信息转化模块,用于获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
列表查找模块,用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;
字符串查找模块,用于当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
字符串纠错模块,用于在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
在其中一个实施例中,所述列表查找模块还用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
在其中一个实施例中,所述字符串纠错模块还用于当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述文本信息纠错方法、装置、计算机设备和存储介质,根据拼音列表中的多个拼音首字母以及字典树查找规则在文本信息中查找多个拼音首字母对应的字符串,将在字典树中查找到的词语对相应的字符串进行纠错。能够在音频信息中出现谐音词语、中英混杂、用户发音不准等情况下提高文本信息的准确性,从而提高语音识别的准确性。
附图说明
图1为一个实施例中文本信息纠错方法的应用环境图;
图2为一个实施例中文本信息纠错方法的流程示意图;
图3为一个实施例中字典树的结构示意图;
图4为一个实施例中查找第二词语列表步骤的流程示意图;
图5为一个实施例中文本信息纠错装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本信息纠错方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。终端102接收音频信息,将该音频信息转化为文本信息,终端102将文本信息上传至服务器104。终端102还可以将接收到的音频信息直接上传至服务器104,服务器104将音频信息转化为文本信息。服务器104将文本信息转化为第一拼音列表。服务器104根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。当查找到多个拼音首字母对应的第二词语列表时,服务器104在文本信息中查找多个拼音首字母对应的字符串。服务器104在第二词语列表中选择字符串对应的词语,将词语对相应的字符串进行纠错,得到纠错后的文本信息。通过对文本信息进行纠错,能够在录制演讲、抄录笔记、语言评测等学习过程中提高语音识别的准确性。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本信息纠错方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取音频信息对应的文本信息,将文本信息转化为第一拼音列表。
在语音识别过程中,服务器可以直接获取终端上传的音频信息对应的文本信息,也可以接收终端上传的音频信息,将该音频信息转化为文本信息。服务器可以将文本信息转化为第一拼音列表,服务器可以通过第一拼音列表将文本信息中的字符串与字典树中的词语进行拼音层次上的对比。其中,字符串是指可以根据词语中每个字的拼音首字母进行查找的词语或文本。
服务器可以根据第一拼音列表中的所有拼音首字母生成第一拼音首字母列表,也可以将文本信息直接转化为第一拼音首字母列表,通过第一拼音首字母列表将文本信息中的字符串与字典树中的词语进行拼音首字母层次上的对比。服务器还可以将文本信息转化第一词语列表,通过第一词语列表将文本信息中的字符串与字典树中查找到的词语进行词语层次上的对比。上述列表可以是以字为单位的列表。
步骤204,根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。
服务器在获取音频信息对应的文本信息,将文本信息转化为第一拼音列表后,可根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表。其中,字典树如图3所示,字典树的根节点存储有所有的拼音字母,一级节点为每一个词语列表中词语的第一个字的拼音首字母,二级节点为该词语的第二个字的拼音首字母,按照词语中每个字的拼音首字母的顺序来作为字典树的级别节点。字典树中的词语可以是通过对语音识别效果进行分析,得到的语音识别不准确的词语,通过利用该字典树进行纠错,可以弥补语音识别的缺陷,形成与语音识别互补的纠错字典树。
如果服务器查找到当前的多个拼音首字母在字典树对应的第二词语列表,则在文本信息中查找多个拼音首字母对应的字符串。如果服务器未查找到当前的多个拼音首字母在字典树对应的第二词语列表,则继续根据第一拼音列表中的其他拼音首字母在字典树中进行查找是否存在对应的词语列表,如果查找到对应的词语列表,则在文本信息中查找该拼音首字母对应的字符串。如果未查找到对应的词语列表,则循环上述查找过程。服务器可以构建ac自动机(Aho-Corasick automaton)跳转表来进行词语查找。
步骤206,当存在多个拼音首字母对应的第二词语列表时,在文本信息中查找多个拼音首字母对应的字符串。
服务器在根据第一拼音列表中的多个拼音首字母在字典树中查找多个拼音首字母是否对应存在第二词语列表后,可在多个拼音首字母对应存在第二词语列表时,在文本信息中查找多个拼音首字母对应的字符串。当根据多个拼音首字母在字典树中能够查找到对应的词语列表,表明该多个拼音首字母对应的文本信息中的部分是存在错误的,查找文本信息中多个拼音首字母对应的字符串,其中,字符串可以是多个中英混杂的词语,也可以是一段文本。将词语列表中的词语对相应的字符串进行纠错。
步骤208,在第二词语列表中选择字符串对应的词语,将词语对相应的字符串进行纠错,得到纠错后的文本信息。
服务器在查找到多个拼音首字母对应的字符串后,可在第二词语列表中选择字符串对应的词语,将词语对相应的字符串进行纠错,得到纠错后的文本信息。具体地,当第二词语列表中只存在一个词语时,将该词语对相应的字符串进行纠错,当第二词语列表中存在多个词语时,通过将第二词语列表中的词语与字符串进行比对,选择字符串对应的词语,将词语对相应的字符串进行纠错。
在本实施例中,服务器根据拼音列表中的多个拼音首字母以及字典树查找规则在文本信息中查找多个拼音首字母对应的字符串,将在字典树中查找到的词语对相应的字符串进行纠错。能够在音频信息中出现谐音词语、中英混杂、用户发音不准等情况下提高文本信息的准确性,从而提高语音识别的准确性。
在一个实施例中,如图4所示,根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二词语列表的步骤具体包括:
步骤402,根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二拼音列表。
步骤404,当查找到多个拼音首字母对应的第二拼音列表时,获取第二拼音列表对应的第二词语列表。
服务器如果查找到当前的多个拼音首字母在字典树中对应存在的第二拼音列表,获取第二拼音列表对应的第二词语列表。如果服务器根据当前的多个拼音首字母在字典树中未得到对应的第二拼音列表,继续根据第一拼音列表中的其他拼音首字母来进行查找,如果查找到对应的拼音列表,获取拼音列表对应的词语列表,如果未查找到对应的拼音列表,则循环上述查找过程。
在本实施例中,服务器根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在对应的第二拼音列表,当存在对应的第二拼音列表时,获取第二拼音列表对应的第二词语列表,通过查找多个拼音首字母对应的拼音列表,进而获取词语列表,进一步提高了词语列表的查找效率。
在一个实施例中,在第二词语列表中选择字符串对应的词语,将词语对相应的字符串进行纠错,包括:当第二词语列表的长度大于预设值时,将第二词语列表中的词语与字符串进行比对,得到比对结果;当比对结果中存在比对成功的词语时,将词语对相应的字符串进行纠错。
服务器根据预设值来判断第二词语列表的长度,进而判断是否需要将第二词语表中的词语与字符串进行词语对比。其中,预设值可以是一。当第二词语列表的长度等于预设值时,表示第二词语列表中只存在一个词语,将该词语对相应的字符串进行纠错。当第二词语列表的长度大于预设值时,表示第二词语列表中存在多个词语,将第二词语列表中的词语与字符串进行比对,将比对成功的词语对相应的字符串进行纠错。
在本实施例中,当第二词语列表的长度等于预设值时,可以直接将该第二词语列表中的词语对相应的字符串进行纠错,提高了文本信息的纠错效率。当第二词语列表的长度大于预设值时,就需要进行词语对比,提高了文本信息纠错的准确性。
在一个实施例中,上述方法还包括:当比对结果中未得到比对成功的词语时,将第二词语列表中的词语在第二拼音列表中的拼音与字符串在第一拼音列表中的拼音进行比对,得到拼音比对结果;选取拼音比对结果中匹配度最高的词语,将匹配度最高的词语对相应的字符串进行纠错。
如果比对结果中未得到比对成功的词语,服务器将第二词语列表中的词语与字符串进行拼音层次上的对比。当字符串对应多个拼音相同的词语时,服务器可以根据场景的容错率,来调整多个拼音相同的词语的对比次序。对于准确性要求较高的场景,服务器可以通过联系上下文选取出现概率最高的词语,利用该概率最高的词语对相应的字符串进行纠错。例如,录制演讲、抄录笔记、语言评测等学习过程。对于准确性要求一般的场景,服务器可以从多个拼音相同的词语中随机获取一个词语对相应的字符串进行纠错。例如,家用娱乐机器人。
在本实施例中,服务器将第二词语列表中的词语与字符串进行拼音层次上的对比,能够在词语对比失败的情况下,根据拼音对比选取匹配度最高的词语对相应的字符串进行纠错,进一步提高了文本信息的准确性。
在一个实施例中,上述方法还包括:对字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。
服务器可以根据发音近似特点,例如翘舌音和平舌音,前鼻音和后鼻音等,将部分发音近似的音节进行字母过滤处理。例如,将(zh,ch,sh,ing,eng)处理为(z,c,s,in,en)。
在本实施例中,服务器基于发音特点对发音近似的音节进行字母过滤处理,避免了发音近似的音节导致查找到的词语不准确的问题,提高了词语查找的命中率,从而有效提高了文本信息的准确性。
应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种文本信息纠错装置,包括:信息转化模块502、列表查找模块504、字符串查找模块506和字符串纠错模块508,其中:
信息转化模块502,用于获取音频信息对应的文本信息,将文本信息转化为第一拼音列表。
列表查找模块504,用于根据第一拼音列表中的多个拼音首字母在字典树中查找多个拼音首字母是否对应存在第二词语列表。
字符串查找模块506,用于当多个拼音首字母对应存在第二词语列表时,在文本信息中查找多个拼音首字母对应的字符串。
字符串纠错模块508,用于在第二词语列表中选择字符串对应的词语,将词语对相应的字符串进行纠错,得到纠错后的文本信息。
在一个实施例中,列表查找模块504还用于根据第一拼音列表中的多个拼音首字母在字典树中查找是否存在多个拼音首字母对应的第二拼音列表;当存在多个拼音首字母对应的第二拼音列表时,获取第二拼音列表对应的第二词语列表。
在一个实施例中,列表查找模块504还用于对字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;在过滤处理后的字典树中查找第一拼音列表中的多个拼音首字母对应的第二词语列表。
在一个实施例中,字符串纠错模块508还用于当第二词语列表的长度大于预设值时,将第二词语列表中的词语与字符串进行比对,得到比对结果;当比对结果中存在比对成功的词语时,将词语对相应的字符串进行纠错。
在一个实施例中,字符串纠错模块508还用于当比对结果中未得到比对成功的词语时,将第二词语列表中的词语在第二拼音列表中的拼音与字符串在第一拼音列表中的拼音进行比对,得到拼音比对结果;选取拼音比对结果中匹配度最高的词语,将匹配度最高的词语对相应的字符串进行纠错。
关于文本信息纠错装置的具体限定可以参见上文中对于文本信息纠错方法的限定,在此不再赘述。上述文本信息纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息纠错方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本信息纠错方法,所述方法包括:
获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;所述字典树的每个节点存储有一个文字的拼音首字母,以及每个所述节点的词语列表;
当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表,包括:
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;
当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
3.根据权利要求2所述的方法,其特征在于,所述在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,包括:
当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;
当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当所述比对结果中未得到比对成功的词语时,将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对,得到拼音比对结果;
选取所述拼音比对结果中匹配度最高的词语,将所述匹配度最高的词语对相应的字符串进行纠错。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;
在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。
6.一种文本信息纠错装置,其特征在于,所述装置包括:
信息转化模块,用于获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
列表查找模块,用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;所述字典树的每个节点存储有一个文字的拼音首字母,以及每个所述节点的词语列表;
字符串查找模块,用于当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
字符串纠错模块,用于在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
7.根据权利要求6所述的装置,其特征在于,所述列表查找模块还用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
8.根据权利要求7所述的装置,其特征在于,所述字符串纠错模块还用于当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
CN201811325678.1A 2018-11-08 2018-11-08 文本信息纠错方法、装置、计算机设备和存储介质 Active CN109522550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811325678.1A CN109522550B (zh) 2018-11-08 2018-11-08 文本信息纠错方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811325678.1A CN109522550B (zh) 2018-11-08 2018-11-08 文本信息纠错方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109522550A CN109522550A (zh) 2019-03-26
CN109522550B true CN109522550B (zh) 2023-04-07

Family

ID=65774154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811325678.1A Active CN109522550B (zh) 2018-11-08 2018-11-08 文本信息纠错方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109522550B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859089B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN110298020B (zh) * 2019-05-30 2023-05-16 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110399608B (zh) * 2019-06-04 2023-04-25 深思考人工智能机器人科技(北京)有限公司 一种基于拼音的对话系统文本纠错系统及方法
CN110705267B (zh) * 2019-09-29 2023-03-21 阿波罗智联(北京)科技有限公司 语义解析方法、装置及存储介质
CN111651990B (zh) * 2020-04-14 2024-03-15 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737105A (zh) * 2012-03-31 2012-10-17 北京小米科技有限责任公司 一种字典树生成方法及搜索方法
CN103092860A (zh) * 2011-11-02 2013-05-08 中国移动通信集团四川有限公司 搜索提示信息生成方法及装置
CN104268157A (zh) * 2014-09-03 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
WO2018010579A1 (zh) * 2016-07-13 2018-01-18 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN108446316A (zh) * 2018-02-07 2018-08-24 北京三快在线科技有限公司 联想词的推荐方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
CN100472536C (zh) * 2007-03-26 2009-03-25 腾讯科技(深圳)有限公司 一种中文输入法简拼实现方法和系统
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN106710592B (zh) * 2016-12-29 2021-05-18 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN107423317A (zh) * 2017-03-26 2017-12-01 北京联合大学 一种基于首字母序列的中文文本校对方法
CN107608963B (zh) * 2017-09-12 2021-04-16 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN107729321A (zh) * 2017-10-23 2018-02-23 上海百芝龙网络科技有限公司 一种语音识别结果纠错方法
CN108021554A (zh) * 2017-11-14 2018-05-11 无锡小天鹅股份有限公司 语音识别方法、装置以及洗衣机

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092860A (zh) * 2011-11-02 2013-05-08 中国移动通信集团四川有限公司 搜索提示信息生成方法及装置
CN102737105A (zh) * 2012-03-31 2012-10-17 北京小米科技有限责任公司 一种字典树生成方法及搜索方法
CN104268157A (zh) * 2014-09-03 2015-01-07 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
WO2018010579A1 (zh) * 2016-07-13 2018-01-18 阿里巴巴集团控股有限公司 字符串的分词方法、装置及设备
CN108446316A (zh) * 2018-02-07 2018-08-24 北京三快在线科技有限公司 联想词的推荐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109522550A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522550B (zh) 文本信息纠错方法、装置、计算机设备和存储介质
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110442870B (zh) 文本纠错方法、装置、计算机设备和存储介质
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111753531B (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
KR20220035222A (ko) 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
JP2019057280A (ja) トレーニングデータにおける言語的トレーニングバイアスを補正するための技法
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
CN110930993B (zh) 特定领域语言模型生成方法及语音数据标注系统
CN110689881B (zh) 语音识别方法、装置、计算机设备和存储介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN109473093B (zh) 语音识别方法、装置、计算机设备及存储介质
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
EP3979098A1 (en) Data processing method and apparatus, storage medium, and electronic apparatus
CN110704547B (zh) 基于神经网络的关系抽取数据生成方法、模型及训练方法
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN111310440A (zh) 文本的纠错方法、装置和系统
US20230076658A1 (en) Method, apparatus, computer device and storage medium for decoding speech data
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111583911B (zh) 基于标签平滑的语音识别方法、装置、终端及介质
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
CN111382570B (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant