CN103714048B - 用于校正文本的方法和系统 - Google Patents

用于校正文本的方法和系统 Download PDF

Info

Publication number
CN103714048B
CN103714048B CN201210375808.9A CN201210375808A CN103714048B CN 103714048 B CN103714048 B CN 103714048B CN 201210375808 A CN201210375808 A CN 201210375808A CN 103714048 B CN103714048 B CN 103714048B
Authority
CN
China
Prior art keywords
text
text unit
unit
referenced
word
Prior art date
Application number
CN201210375808.9A
Other languages
English (en)
Other versions
CN103714048A (zh
Inventor
张世磊
刘�文
包胜华
陈健
施琴
苏中
秦勇
Original Assignee
国际商业机器公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国际商业机器公司 filed Critical 国际商业机器公司
Priority to CN201210375808.9A priority Critical patent/CN103714048B/zh
Publication of CN103714048A publication Critical patent/CN103714048A/zh
Application granted granted Critical
Publication of CN103714048B publication Critical patent/CN103714048B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • G10L15/265Speech recognisers specially adapted for particular applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

本发明涉及语音处理,提供了一种用于校正文本的方法和系统。该方法包括:确定一个文本中要校正的目标文本单元;接收用户针对所述目标文本单元输入的参考语音片段;根据所述参考语音片段,确定与所述目标文本单元中的字发音相似的参考文本单元;用所述参考文本单元校正所述文本中的所述目标文本单元中的字。通过本发明,可以使得用户能够容易地通过语音方式校正文本中的错误。

Description

用于校正文本的方法和系统

技术领域

[0001] 本发明涉及语音处理,更具体地,涉及一种用于利用语音处理来校正文本的方法 和系统。

背景技术

[0002] 目前,随着信息技术的快速发展,语音应用正越来越受到工业以及学术界的关注。 语音应用使得用户能够采用语音搜索因特网,或在便携式设备上用语音进行记录。

[0003] 虽然目前的语音识别技术的准确率已经大大提高,但受各种因素的影响,所返回 结果的准确性仍然远远不够。用户不得不手动地修改识别结果,例如,如果需要改正一个 字,用户必须双击这个字,采用文本输入法输入正确的字,这个繁复的过程会降低用户对于 使用语音软件的兴趣。一般来说,错误往往发生在词汇表之外的字上或者一些专用字词上。 因此,希望提供一种方便用户校正语音识别文本错误的方案。

发明内容

[0004] 考虑到语音识别过程中,出现的大量错误是同音异义字,或者发音相近的字,本发 明提出了一种基于语音处理的校正文本的方法和系统。

[0005] 根据本发明的一个方面,提供了一种用于校正文本的方法,包括,确定一个文本中 要校正的目标文本单元;接收用户针对所述目标文本单元输入的参考语音片段;根据所述 参考语音片段,确定与所述目标文本单元中的字发音相似的参考文本单元;用所述参考文 本单元校正所述文本中的所述目标文本单元中的字。

[0006]根据本发明的另一个方面,还提供了一种用于校正文本的系统,包括:被配置为确 定一个文本中要校正的目标文本单元的装置;被配置为接收用户针对所述目标文本单元输 入的参考语音片段的装置;被配置为根据所述参考语音片段,确定与所述目标文本单元中 的字发音相似的参考文本单元的装置;被配置为用所述参考文本单元校正所述文本中的所 述目标文本单元中的字的装置。

[0007] 通过本发明,可以使得用户能够容易地校正文本中的错误。

附图说明

[0008] 通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其 它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号 通常代表相同部件。

[0009]图1示^ 了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。 _。]图2显3了麵本发明的一个实酬的用于校正文本的方法的流程图。 _1] _显^了麵本发明的另一个实酬的用于校正文本的前去的流程图。 _2]图4巧了根据枝鴨另—个实酬關于校正文本的方法的流程图。 _3]图5显示了根据本发明的—个实酬的用于校正文本的系统的方框图。

具体实施方式

[0014]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开 的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方 式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的 范围完整地传达给本领域的技术人员。

[0015]所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。 因此,本公开可以具体实现为以下形式,g卩:可以是完全的硬件、也可以是完全的软件(包括 固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模 ±夬”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质 中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。

[0016]可以米用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算 机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限 于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算 机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便 携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储 器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、 或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程 序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

[0017]计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号, 其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一一但 不限于--电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是 计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者 传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

[0018] 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一一但不限 于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。

[0019] 可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机 程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如JaVa、Smalltalk、C++, 还包括常规的过程式程序设计语言一诸如” C”语言或类似的程序设计语言。程序代码可以 完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部 分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在 涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或 广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提 供商来通过因特网连接)。

[0020]下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或 框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框 的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用 计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令 通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规 定的功能/操作的装置。

[0021] 也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置 以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一 个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品(manufacture)。

[0022] 也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备 上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计 算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图 和/或框图中的方框中规定的功能/操作的过程。

[0023]图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。 图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围 带来任何限制。

[0024]如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务 器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接 不同系统组件(包括系统存储器28和处理单元16)的总线18。

[0025] 总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器, 外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举 例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC) 总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。 [0026] 计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任 何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和 不可移动的介质。

[0027] 系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取 存储器(RAM) 30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移 动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于 读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示 出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动 非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下, 每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一 个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行 本发明各实施例的功能。

[0028] 具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28 中,这样的程序模块42包括一一但不限于一一操作系统、一个或者多个应用程序、其它程序 模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模 块42通常执行本发明所描述的实施例中的功能和/或方法。

[0029] 计算机系统/服务器12也可以与一个或多个外部设备14 (例如键盘、指向设备、显 示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通 信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设 备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口 22进行。并 且,计算机系统/服务器12还可以通过网络适配器2〇与一个或者多个网络(例如局域网 (LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图1所示,网络适配器2〇通过总线 1S与计算机系统/服务器I2的其它模块通信。应当明白,尽管图1中未示出,可以结合计^机 系统/服务器I2使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处 理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。 ' ’、

[0030] 现在参看图2,图2显不了根据本发明的一个实施例的用于校正文本的方法。

[0031]在步骤S210,确定一个文本中要校正的目标文本单元。该文本可以是任何形式的 文本,例如,可以是直接来自用户的文本输入,也可以是对用户输入的语音数据的识别文 本。根据本发明的一个实施例,在文本是语音数据的识别文本的情况下,该语音数据的识别 文本可以是用任何现有技术识别生成的文本。目标文本单元可以包括一个或多个字,应该 理解,本发明可以用于各种语言,而不局限于中文,因此本发明中的术语“字,,不局限于汉语 中的汉字,而是意指任何语言的一个子单元,例如英语中的单词。例如,根据本发明的一个 实施例,在中文的情况下,目标文本单元可以是一个要校正的词或句子,其包括一个或多个 汉字。或者,在英文的情况下,目标文本单兀可以是包含一个或多个单词的词组或者句子。 [0032]根据本发明的一个实施例,该确定目标文本单元的步骤可以是通过接收用户的手 动选择来实现的,例如,用户可以通过使用鼠标或者在触摸屏上直接选择来确定要校正的 目标文本单元。在文本是语音数据的识别文本的情况下,识别文本往往是由所识别出的一 组文本单元所组成,其中,文本单元通过单元边界划分。在这种情况下,根据本发明的一个 实施例,可以获得所识别出的各个文本单兀的置信度,并根据置信度的值来确定要校正的 目标文本单元。例如,置信度的值越低,则表明该文本单元出现识别错误的可能性越大,因 此,可以首先选择置信度最低的文本单元进行校正。在有些情况下,该文本不包含文本单元 的单元边界,此时,确定目标文本单元的步骤还可以进一步包括识别文本的文本单元的单 元边界的步骤。

[0033]在步骤S220,接收用户针对该目标文本单元输入的参考语音片段。在确定了要校 正的目标文本单元之后,用户可以针对要校正的目标文本单元,说出一段语音片段,该语音 片段可以是句子,也可以是短语,其中该参考语音片段包含针对目标文本单元的用户认为 是正确的文本内容。一般来说,用户可以选择在语音识别中准确率高的、不易出错的短语, 例如一些常用的短语,或者具有特定的上下文的短语或句子等。

[0034]在步骤S230,根据参考语音片段,确定与该目标文本单元中的字发音相似的参考 文本单元。

[0035]根据本发明的一个实施例,对于用户输入的参考语音片段,首先进行语音识别,以 获得参考文本片段,然后,利用该参考文本片段,确定其中与目标文本单元中的字发音相似 的参考文本单元。并且,根据本发明的一个实施例,字的发音相似性可以基于字对应的音素 相似度来计算。可以理解,在本说明书中,发音相似也包括发音相同的情况。

[0036] 根据本发明的一个实施例,在确定参考文本片段中与所述目标文本单元中的字发 音相似的参考文本单元时,可以首先基于发音相似性,确定该参考文本片段中的至少一个 字与所述目标文本单元中的至少一个字的对应关系,然后,根据该对应关系,确定对应于所 述目标文本单元的至少一个字的参考文本单元。

[0037]根据本发明的一个实施例,该确定参考文本单元的步骤还可以通过直接将参考语 音片段与目标文本单元的发音进行比较来确定二者间的对应关系。例如,基于发音相似性, 可以确定所述参考语音片段中与所述目标文本单元中的字发音相似的语音子片段。同时, 通过对所述参考语音片段进行语音识别,可以获得参考文本片段。此时,在参考文本片段中 则包含了对应于该语音子片段的参考文本单元。因此,可以从所述参考文本片段中获得对 应于所述语音子片段的参考文本单兀。

[0038] 在步骤S240,用参考文本单元校正该文本中的目标文本单元中的至少一个字。

[0039] 由于用户可以选择在语音识别中准确率高的、不易出错的短语或完整语义单元作 为参考语音片段,因此经过语音识别后的参考文本片段,其文本的准确率相对来说是比较 高的。在这种情况下,用准确率比较高的参考文本单元来校正目标文本单元,则可以有效提 高文本校正的准确率及效率。

[0040] 根据本发明的一个实施例,在存在多个可选的参考文本单元的情况下,还可以根 据参考文本单元的置信度,自动选择具有较高置信度的字,或者向用户进行推荐,也可以由 用户进行进一步的选择。

[0041] 根据本发明的一个实施例,在参考文本片段中,可以包括多个与目标文本单元中 的字发音相似的参考文本单元。也就是说,为了进一步提高语音识别的准确率,用户对于目 标文本单元中的同一个字,可以给出多个不同的提示。例如,对于目标识别单元中的“音”字 来说,用户可以同时说出“音乐”、“语音”、“声音”等多个词。在这种情况下,通过语音识别, 可能识别出“音”和“英”两个备选参考。此时,可以选择所述多个参考文本单元中的一个,来 校正所述目标文本单元中的至少一个字。该选择可以由用户手动选择,也可以由系统自动 进行选择。例如,对于该多个参考文本单元,可以根据语音识别的情况给出相应的置信度, 将置信度最高的一个参考文本单元作为最终的参考文本单元来校正目标文本单元中的至 少一个字。

[0042] 根据本发明的一个实施例,在用户输入的参考语音片段中,可以包括对应于要校 正的目标文本单元中所包含的每一个字的内容,也可以只包括对应于其中的部分字的内 容,并且,这些内容在参考语音片段中的顺序及先后关系,也可以不同于其所对应的字在目 标文本单元中的顺序及先后关系。

[0043] 下面将以一个中文文本为例来说明根据本发明的一个实施例的方法。

[0044] 首先,用户希望通过语音方式输入如下语句:“星期五语音组去香木香羊聚餐,大 家于上午九点在西二旗城铁集合”,在接收到用户的语音输入之后,对该输入进行语音识 另I」。然而,受到语音识别准确性的限制,语音识别后的结果为:“星期五I育英组I去I项目象 聚餐,大家I于I上午九点I在I西二盥I城铁I集合”。在该语音识别结果中,出现了几个错 误:“育英组”(应为“语音组“项目象牙”(应为“香木香羊“西二期”(应为“西二旗”)。

[0045] 此时,在存在多个错误的情况下,用户可以通过手动选择的方式,来选择要校正的 词。例如,用户可以通过在触摸屏上以画圈的方式,将“育英组”圈定出来,确定为要校正的 词。也可以直接利用语音识别后所提供的词边界,对要校正的词进行选择。

[0046] 然后,用户以语音方式说出句子“语言和音乐相组合”,在该句子中,包含了与“育 英组”的语音“yuyinzu”具有相似语音的音节“yu”、“yin”、“zu”。由于“语言”、“音乐”、“组 合”等都是字库中的常用词,此时,可以准确地将用户输入的语音识别为文本“语言和音乐 相组合”,从而根据发音相似性相应地确定“yu”、“yin”、“zu”分别对应于文本“语”、“音”、 “组”,从而将“育英组”校正为“语音组”。

[0047]同样,对于“项目象牙”,其正确的文本应为“香木香羊,’。在用户选定了 “项目象牙” 之后,用户说出短语“香味木头和带香味的羊”,从而根据发音相似性确定“xiang”、“mu”、 “xiang”、“yang”分别对应于文本“香”、“木”、“香”、“羊”,从而将“项目象牙”校正为“香木香 羊”。

[0048]同样,对于“西二期”,其正确的文本应为“西二旗”。在用户选定了“西二期”之后, 用户说出短语红旗飘飘”,根据发首相似性确定发音“qi”对应于文本“旗”,从而将“西二 期”校正为“西二旗”。

[0049]根据本发明的一个实施例,用户输入的参考语音片段可以是针对目标文本单元中 的所有字,也可以只针对其中的部分字。例如,在这个例子中,虽然所确定的目标文本单元 是“西二期”,包括三个字,用户输入的参考语音片段“红旗飘飘”也可以只针对其中的“期” 字。

[0050]根据本发明的一个实施例,可以采用本领域任何适当的技术来实现用户输入的参 考语音与目标文本单元的发音相似性的比较。例如,可以基于音素相似度,找到参考语音所 对应的参考文本中与目标文本单元的发音相似的单元。

[0051]下面将以要校正的目标文本单元“育英组”以及对应的参考语音片段“语言和音乐 相组合”为例,参考图3详细描述图2中步骤S23〇的一个实施方式。图3示意性地示出了根据 参考语音片段确定与要校正的目标文本单元的字发音相似的参考文本单元的过程。

[0052]在步骤S:310,对参考语音片段进行语音识别,以获得参考文本片段。例如,对于用 户输入的参考语音片段,获得相应的参考文本片段“语言和音乐相组合”。

[0053]在步骤S320,解析该参考文本片段对应的音素以及该目标文本单元对应的音素。 在该解析过程中,可以将每个汉字分别拆分为声母部分、即第一音素,和韵母部分、即第二 音素。对于含双韵母的汉字,可以利用己知的相应技巧将其拆分成两个部分。以汉字“音”和 “英”为例,汉字“音”的拼音为是“YIN”,可以分解为两个音素,“Y”和“IN”。汉字“英,,的拼音 是“YING”,可以分解为两个音素,“Y”和“ING”。

[00M] 例如,对于目标文本单元“育英组”以及参考文本片段“语言和音乐相组合”,其音 素序列如下:

[0055] 目标文本单元:Y U Y ING Z U

[0056] 参考文本片段:Y U Y AN H E Y IN Y UE X IANG Z U H E。

[0057] 在步骤S330中,基于音素相似度,确定参考文本片段中与目标文本单元中的字发 音相似的参考文本单元。

[0058] 应该理解,音素是某一种语言的语音体系中的最小单元。不同的语言或方言具有 不同的音素体系。例如,汉语和英语具有不同的音素体系,东北话和上海话也具有不同的音 素体系。各语言的音素体系中音素的多寡相差甚多,有十几个的,也有多到一百多的,但都 是有限的数目。在各自的语言中,音素与音素之间的相似程度是不一样的。

[0059] 例如,在汉语拼音中,音素“ING”和音素“IN”相似,但是和音素“A0”不相似。在本发 明的方法中,可以基于音素相似度,找出参考语音与目标文本单元中具有相似音素的文本 单元。

[0060] 以汉字“音”和“英”为例,汉字“音”的拼音为是“YIN”,可以分解为两个音素,“Y”和 IN。汉字“英”的拼音是“YING”,可以分解为两个音素,“Y”和“ING”。然后,比较这两个汉字 的音素的相似度。如果这两个汉字的两个音素都分别相同或相似,则认为这两个汉字的音 素相似,否则,则认为这两个汉字的音素不相似。在该例子中,它们的第一个音素“Y”是相同 的。它们的第二个音素“IN”和“ING”不相同,但是相似。因此,可以认为这两个汉字“英,,和 “印”的音素相似。从而,基于音素相似度,识别出参考语音片段与目标文本单元中发音相似 的部分。

[0061]应该理解,基于音素相似度的匹配可以采用各种已知的算法,例如动态时间规整 DTW算法、最小单元匹配法、动态规划算法等。

[0062]其中,不同音素之间的音素相似度可以预先确定。例如,可以用欧式距离或者巴特 查里亚距离来度量音素相似性。容易理解,在以距离度量音素相似度的情况下,音素模型距 离值越大表示相似程度越小。音素相似度还可以简单地以相似和不相似的二值判定来度 量。

[0063] 应该理解,所述音素相似度的度量可以预先确定。在本发明的方法中,可以简单地 通过查找预先确定的音素相似性表或者数据库来找到音素相似度。

[0064] 基于音素相似度,对任意两个给定汉字,根据下面的方法来计算字的发音相似度: 将两个汉字的第一音素的相似度(距离)加上第二音素的相似度(距离),其和即为这两个汉 字的发音相似度(距离)。当然,也可以将约化后的平均单音素相似度来表示字的相似度。也 即,将两个汉字的音素相似度的和除以音素数目2作为这两个汉字的发音相似度。为了简单 起见,在本实施方式中,以各音素的相似度之和为两个汉字的发音相似度。

[0065] 为了简单起见,在本例子中未考虑声调对音素相似性带来的影响。在所示实施方 式的启发下,本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况,以应对 _精度需求。

[0066] DTW算法的原理是现有技术中已知的,在所示出的实施方式的教导下,本领域技术 人员容易想到还可以使用DTW算法的其他实现方式来找到目标文本与参考文本之间的最佳 匹配路径。

[0067] 在这里,目标文本单元中的字“育”的音素“Y U”与参考文本片段中的字“语”的音 素“Y U”相同,从而确定目标文本单元中的字“英”与参考文本片段中的字“音”对应,目标文 本单元中的字“英”的音素“Y ING”与参考文本片段中的字“音”的音素“Y IN”相似,从而确 定目标文本单元中的字“英”与参考文本片段中的字“音”对应,目标文本单元中的字“组”的 音素“Z U”与参考文本片段中的字“组”的音素“Y U”相同,从而确定目标文本单元中的字 “组”与参考文本片段中的字“组”对应。根据所确定的对应关系,从而确定对应于目标文本 单元的至少一个字的参考文本单元。在这里,所确定的参考文本单元即为“语音组”。

[0068]上文示出了本发明应用于中文的一个具体实施方式。但是应该理解,本发明的方 法可以应用于任何语言。基本方法都是以字或单词为基本单元,然后依据基本单元之间的 发音相似度,确定参考文本与目标文本之间的对应关系。其区别仅在于基本单元的发音相 似度计算稍有不同。例如,中文以汉字为基本单元。每个汉字在声韵母音标体系下都包含两 个音素(可看成声母部分和韵母部分)。因此汉字间的相似度可以用声母相似度与韵母相似 度之和来表示。但是,更一般地,在其他语言中,基本单位包含的音素数目可能不一样。例 如,英语中以单词为基本单位。不同的单词含有的音素数目往往不同。在这种情况下,可以 先通过DTW算法找出两个单词之间的最佳音素匹配方式,而后计算单词的发音相似度。对于 不同的语言,本发明的方法的其余步骤相同。

[0069]下面参考图4详细描述图2中步骤S230的另一个实施方式。与步骤S31〇—样,在步 骤S410,对参考语音片段进行语音识别,以获得参考文本片段。

[0070] 在步骤S42〇,基于发音相似性,确定参考语音片段中与目标文本单元中的字发音 相似的语音子片段。通过将用户输入的参考语音片段与目标文本单元中的字的发音进行比 较,可以确定目标文本单元中的字与参考语音片段中的至少一个语音子片段的对应关系。 [0071] 在步骤S43〇,从参考文本片段中获得对应于语音子片段的参考文本单元。由于语 音识别后的参考文本片段中包括了对应于语音子片段的参考文本单元。因此,在这种情况 下,根据目标文本单元中的字与该语音子片段的对应关系以及参考文本单元与该语音子片 段的对应关系,可以获得用来校正目标文本单元中的字的参考文本单元。

[0072] 可以理解,对于同一个要校正的目标文本单元,为了进一步提高校正的准确率,用 户也可以多次输入不同的参考语音片段。对于每个参考语音片段,分别将其与目标文本单 元进行比较,获得相应的参考文本单元,并根据所获得的多个参考文本单元,确定最终的用 于校正目标文本单元的参考文本单元。

[0073] 本发明并不限于对语音数据的识别文本的校正,只要文本中的错误是由于具有相 近或相同发音的字所导致的,都可以适用于本发明。例如,在汉字的拼音输入法中,常常会 由于拼音相同或相近导致错误的文本输入,在这种情况下,也可以使用本发明的方法来校 正文本。另外,本发明的校正方法也可以与其他文本校正方法结合使用,以便进一步提高准 确率以及效率。

[0074]图5示意性地示出了根据本发明一个实施方式的用于校正文本的系统500的框图。 系统500用于执行前文所述的本发明的用于校正文本的方法。系统500包括:目标文本单元 确定装置510、参考语音片段接收装置520、参考文本单元确定装置530、目标文本单元校正 装置540。

[0075] 根据本发明的一个实施例,目标文本单元确定装置510被配置为确定一个文本中 要校正的目标文本单元,参考语音片段接收装置520被配置为接收用户针对所述目标文本 单元输入的参考语音片段,参考文本单元确定装置530被配置为根据所述参考语音片段,确 定与所述目标文本单元中的字发音相似的参考文本单元,目标文本单元校正装置540被配 置为用所述参考文本单元校正所述文本中的所述目标文本单元中的字。

[0076] 根据本发明的一个实施例,所述文本是语音数据的识别文本。

[0077] 根据本发明的一个实施例,参考文本单元确定装置530包括语音识别装置550,其 被配置为对参考语音片段进行语音识别,以获得参考文本片段,以及参考文本单元确定装 置530进一步被配置为确定所述参考文本片段中与所述目标文本单元中的字发音相似的参 考文本单元。

[0078] 根据本发明的一个实施例,参考文本单元确定装置530进一步包括音素解析装置 560,其被配置为解析所述参考文本片段对应的音素以及所述目标文本单元对应的音素,其 中,参考文本单元确定装置530进一步被配置为基于音素相似度,确定所述参考文本片段中 与所述目标文本单元中的字发音相似的参考文本单元。

[0079] 根据本发明的一个实施例,参考文本单元确定装置530进一步包括语音识别装置 550,其被配置为对所述参考语音片段进行语音识别,以获得参考文本片段,其中,参考文本 单元确定装置530进一步被配置为基于发音相似性,确定所述参考语音片段中与所述目标 文本单元中的字发音相似的语音子片段,以及,从所述参考文本片段中获得对应于所述语 音子片段的参考文本单元。

[0080] 根据本发明的一个实施例,其中,所确定的参考文本单元为多个参考文本单元,其 中,参考文本单元确定装置53〇进一步被配置为接收用户对于所述多个参考文本单元中的 一个的选择,用于校正所述目标文本单元中的至少一个字。

[0081] 根据本发明的一个实施例,所确定的参考文本单元为多个参考文本单元,其中,目 标文本单元校正装置540进一步被配置为根据所述多个参考文本单元的置信度,选择用于 校正所述目标文本单元中的字的参考文本单元。

[0082] 根据本发明的一个实施例,该系统500进一步包括边界识别装置570,其被配置为 识别所述文本的文本单元的单元边界。

[0083] 根据本发明的一个实施例,目标文本单元确定装置520进一步被配置为:接收用户 对于所述文本中的文本单元的选择,以确定要校正的目标文本单元。

[0084] 根据本发明的一个实施例,目标文本单元确定装置520进一步被配置为获得所述 语音数据的识别文本中的文本单元的置信度;以及根据所述置信度确定要校正的目标文本 单元。

[0085] 附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程 序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代 表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用 于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标 注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基 本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的 是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规 定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组 合来实现。

[0086] 以上己经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也 不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技 术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨 在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领 域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

1. 一种用于校正文本的方法,包括: 确定一个文本中要校正的目标文本单元; 接收用户针对所述目标文本单元输入的参考语音片段,其中所述参考语音片段包括句 子或者短语; 对所述参考语音片段进行语音识别,以获得参考文本片段; 基于音素相似度,确定所述参考文本片段中与所述目标文本单元中的字发音相似的参 考文本单元,其中,通过计算参考文本片段中的字的第一音素与目标文本单元中的字的第 一音素的相似度与参考文本片段中的字的第二首素与目标文本单元中的字的第二音素的 相似度之和,来计算音素相似度; 用所述参考文本单元校正所述文本中的所述目标文本单元中的字。
2. 如权利要求1所述的方法,其中,所述文本是语音数据的识别文本。
3. 如权利要求1或2所述的方法,其中,所确定的参考文本单元为多个参考文本单元,其 中,用所述参考文本单元校正所述文本中的所述目标文本单元中的字进一步包括: 接收用户对于所述多个参考文本单元中的一个的选择,用于校正所述目标文本单元中 的至少一个字。
4.如权利要求1或2所述的方法,其中,所确定的参考文本单元为多个参考文本单元,其 中,用所述参考文本单元校正所述文本中的所述目标文本单元中的字进一步包括: 根据所述多个参考文本单元的置信度,选择用于校正所述目标文本单元中的字的参考 文本单元。
5.如权利要求1所述的方法,进一步包括:识别所述文本的文本单元的单元边界。
6.如权利要求1所述的方法,其中,确定所述文本中要校正的目标文本单元包括:接收 用户对于所述文本中的文本单元的选择,以确定要校正的目标文本单元。
7. 如权利要求2所述的方法,其中,确定所述文本中要校正的目标文本单元包括: 获得所述语音数据的识别文本中的文本单元的置信度;以及 根据所述置信度确定要校正的目标文本单元。
8. —种用于校正文本的系统,包括: 目标文本单元确定装置,被配置为确定一个文本中要校正的目标文本单元; 参考语音片段接收装置,被配置为接收用户针对所述目标文本单元输入的参考语音片 段,其中所述参考语音片段包括句子或者短语; 参考文本单元确定装置,被配置为对所述参考语音片段进行语音识别,以获得参考文 本片段,并基于音素相似度,确定所述参考文本片段中与所述目标文本单元中的字发音相 似的参考文本单元,其中,通过计算参考文本片段中的字的第一音素与目标文本单元中的 字的第一音素的相似度与参考文本片段中的字的第二音素与目标文本单元中的字的第二 音素的相似度之和,来计算音素相似度; 目标文本单元校正装置,被配置为用所述参考文本单元校正所述文本中的所述目标文 本单元中的字。
9. 如权利要求8所述的系统,其中,所述文本是语音数据的识别文本。
10. 如权利要求8或9所述的系统,其中,所确定的参考文本单元为多个参考文本单元, 其中,参考文本单元确定装置进一步被配置为接收用户对于所述多个参考文本单元中的一 个的选择,用于校正所述目标文本单元中的至少一个字。
11.如权利要求8或9所述的系统,其中,所确定的参考文本单元为多个参考文本单元, 其中,目标文本单元校正装置进一步被配置为: ’ 根据所述多个参考文本单元的置信度,选择用于校正所述目标文本单元中的字的参考 文本单元。
12.如权利要求8所述的系统,进一步包括:边界识别装置,被配置为识别所述文本的文 本单元的单元边界。
13. 如权利要求8所述的系统,其中,目标文本单元确定装置进一步被配置为:接收用户 对于所述文本中的文本单元的选择,以确定要校正的目标文本单元。
14. 如权利要求9所述的系统,其中,目标文本单元确定装置进一步被配置为获得所述 语音数据的识别文本中的文本单元的置信度;以及根据所述置信度确定要校正的目标文本 单元。
CN201210375808.9A 2012-09-29 2012-09-29 用于校正文本的方法和系统 CN103714048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210375808.9A CN103714048B (zh) 2012-09-29 2012-09-29 用于校正文本的方法和系统

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201210375808.9A CN103714048B (zh) 2012-09-29 2012-09-29 用于校正文本的方法和系统
JP2015533420A JP6362603B2 (ja) 2012-09-29 2013-08-06 テキストを修正するための方法、システム、およびコンピュータ・プログラム
PCT/CN2013/080858 WO2014048172A1 (en) 2012-09-29 2013-08-06 Method and system for correcting text
US14/027,664 US9484031B2 (en) 2012-09-29 2013-09-16 Correcting text with voice processing
US14/156,976 US9502036B2 (en) 2012-09-29 2014-01-16 Correcting text with voice processing

Publications (2)

Publication Number Publication Date
CN103714048A CN103714048A (zh) 2014-04-09
CN103714048B true CN103714048B (zh) 2017-07-21

Family

ID=50386010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210375808.9A CN103714048B (zh) 2012-09-29 2012-09-29 用于校正文本的方法和系统

Country Status (4)

Country Link
US (2) US9484031B2 (zh)
JP (1) JP6362603B2 (zh)
CN (1) CN103714048B (zh)
WO (1) WO2014048172A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR20160036995A (ko) 2014-09-26 2016-04-05 삼성전자주식회사 음성 신호 전처리 방법 및 장치
CN105810207A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
CN105810206A (zh) * 2014-12-30 2016-07-27 富泰华工业(深圳)有限公司 会议记录装置及其自动生成会议记录的方法
CN105550308B (zh) * 2015-12-14 2019-07-26 联想(北京)有限公司 一种信息处理方法,检索方法及电子设备
CN106406807A (zh) * 2016-09-19 2017-02-15 北京云知声信息技术有限公司 一种语音修改文字的方法及装置
CN106601253B (zh) * 2016-11-29 2017-12-12 肖娟 智能机器人文字播音朗读审核校对方法和系统
CN109388699A (zh) * 2018-10-24 2019-02-26 北京小米移动软件有限公司 输入方法、装置、设备及存储介质
CN109308895B (zh) * 2018-12-04 2019-12-27 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1555553A (zh) * 2001-09-17 2004-12-15 皇家飞利浦电子股份有限公司 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
CN1708784A (zh) * 2002-10-29 2005-12-14 诺基亚有限公司 用于在手持电子设备中编辑文本的方法和系统
CN101326533A (zh) * 2005-12-08 2008-12-17 皇家飞利浦电子股份有限公司 基于语音的文档的历史跟踪方法和系统
CN101605171A (zh) * 2008-06-09 2009-12-16 Lg电子株式会社 移动终端及其中的文本校正方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07248792A (ja) * 1994-03-11 1995-09-26 Ricoh Co Ltd 音声認識装置
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
JP2000056795A (ja) * 1998-08-03 2000-02-25 Fuji Xerox Co Ltd 音声認識装置
AT297046T (de) * 1999-07-08 2005-06-15 Koninkl Philips Electronics Nv Anpassung eines spracherkenners an korrigierte texte
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6912498B2 (en) 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US20040249637A1 (en) * 2003-06-04 2004-12-09 Aurilab, Llc Detecting repeated phrases and inference of dialogue models
AU2003246279A1 (en) * 2003-06-17 2005-01-04 Sunhee Kim Exceptional pronunciation dictionary generation method for the automatic pronunciation generation in korean
US20050049868A1 (en) 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
EP1797506A1 (en) * 2004-09-30 2007-06-20 Philips Electronics N.V. Automatic text correction
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
JP4604178B2 (ja) 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
JP4574390B2 (ja) * 2005-02-22 2010-11-04 キヤノン株式会社 音声認識方法
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
TWI305345B (en) * 2006-04-13 2009-01-11 Delta Electronics Inc System and method of the user interface for text-to-phone conversion
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
GB2446427A (en) * 2007-02-07 2008-08-13 Sharp Kk Computer-implemented learning method and apparatus
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
US20090125299A1 (en) * 2007-11-09 2009-05-14 Jui-Chang Wang Speech recognition system
US7669122B2 (en) * 2007-11-19 2010-02-23 O'dell Robert Barry Using input of rhyming characters for computer text entry of Chinese characters
TWI391832B (zh) * 2008-09-09 2013-04-01 Inst Information Industry 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體
US8589157B2 (en) 2008-12-05 2013-11-19 Microsoft Corporation Replying to text messages via automated voice search techniques
CN101996631B (zh) * 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
US8903793B2 (en) 2009-12-15 2014-12-02 At&T Intellectual Property I, L.P. System and method for speech-based incremental search
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8725497B2 (en) * 2011-10-05 2014-05-13 Daniel M. Wang System and method for detecting and correcting mismatched Chinese character
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1555553A (zh) * 2001-09-17 2004-12-15 皇家飞利浦电子股份有限公司 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
CN1708784A (zh) * 2002-10-29 2005-12-14 诺基亚有限公司 用于在手持电子设备中编辑文本的方法和系统
CN101326533A (zh) * 2005-12-08 2008-12-17 皇家飞利浦电子股份有限公司 基于语音的文档的历史跟踪方法和系统
CN101605171A (zh) * 2008-06-09 2009-12-16 Lg电子株式会社 移动终端及其中的文本校正方法

Also Published As

Publication number Publication date
US9484031B2 (en) 2016-11-01
US20140136198A1 (en) 2014-05-15
JP6362603B2 (ja) 2018-07-25
US20140095160A1 (en) 2014-04-03
US9502036B2 (en) 2016-11-22
CN103714048A (zh) 2014-04-09
WO2014048172A1 (en) 2014-04-03
JP2015532447A (ja) 2015-11-09

Similar Documents

Publication Publication Date Title
US10152971B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
EP3014608B1 (en) Computer-implemented method, computer-readable medium and system for pronunciation learning
US9711138B2 (en) Method for building language model, speech recognition method and electronic apparatus
EP2880652B1 (en) Alignment of corresponding media content portions
US10037758B2 (en) Device and method for understanding user intent
US10127901B2 (en) Hyper-structure recurrent neural networks for text-to-speech
Schuster et al. Japanese and korean voice search
Raymond et al. Generative and discriminative algorithms for spoken language understanding
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP4559946B2 (ja) 入力装置、入力方法および入力プログラム
US7881928B2 (en) Enhanced linguistic transformation
US7603278B2 (en) Segment set creating method and apparatus
US20140316764A1 (en) Clarifying natural language input using targeted questions
KR100998566B1 (ko) 음성인식을 이용한 언어 번역 방법 및 장치
US8073693B2 (en) System and method for pronunciation modeling
Bigi SPPAS-multi-lingual approaches to the automatic annotation of speech
EP1368808B1 (en) Transcription and display of input speech
US7624013B2 (en) Word competition models in voice recognition
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
EP2595143A1 (en) Text to speech synthesis for texts with foreign language inclusions
TWI539441B (zh) 語音辨識方法及電子裝置

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant