CN106297797B - 语音识别结果纠错方法和装置 - Google Patents
语音识别结果纠错方法和装置 Download PDFInfo
- Publication number
- CN106297797B CN106297797B CN201610597308.8A CN201610597308A CN106297797B CN 106297797 B CN106297797 B CN 106297797B CN 201610597308 A CN201610597308 A CN 201610597308A CN 106297797 B CN106297797 B CN 106297797B
- Authority
- CN
- China
- Prior art keywords
- candidate text
- speech recognition
- recognition result
- best candidate
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012937 correction Methods 0.000 claims abstract description 40
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种语音识别结果纠错方法和装置,该语音识别结果纠错方法包括:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;判断所述最优候选文本是否满足预设条件;如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。该方法能够提高纠正结果的准确度。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别结果纠错方法和装置。
背景技术
语音识别用于将语音识别为文本,语音识别结果纠错是语音理解过程中的一项重要工作。受限于语音识别的准确性,语音识别结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果纠错可以对一些识别错误的结果进行纠正,从而提高语音理解的准确性。
目前并没有主流的语音识别结果纠错的方案,一般是基于词的识别结果概率信息的统计方法,纠正结果的准确度有待提高。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种语音识别结果纠错方法,该方法可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
本申请的另一个目的在于提出一种语音识别结果纠错装置。
为达到上述目的,本申请第一方面实施例提出的语音识别结果纠错方法,包括:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;判断所述最优候选文本是否满足预设条件;如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
本申请第一方面实施例提出的语音识别结果纠错方法,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
为达到上述目的,本申请第二方面实施例提出的语音识别结果纠错装置,包括:注音模块,用于对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;获取模块,用于根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;判断模块,用于判断所述最优候选文本是否满足预设条件;确定模块,用于在所述最优候选文本满足预设条件时,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
本申请第二方面实施例提出的语音识别结果纠错装置,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的语音识别结果纠错方法的流程示意图;
图2是本申请另一个实施例提出的语音识别结果纠错方法的流程示意图;
图3是本申请实施例中用于获取候选文本的解码网络的示意图;
图4是本申请一个实施例提出的语音识别结果纠错装置的结构示意图;
图5是本申请另一个实施例提出的语音识别结果纠错装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的语音识别结果纠错方法的流程示意图。
参见图1,本实施例的方法包括:
S11:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音。
其中,在语音识别得到语音识别结果后,可以根据已有或将来出现的技术,检测出语音识别结果中可能存在错误的结果,将这些可能存在错误的结果作为待纠正的语音识别结果。
由于待纠正的语音识别结果是文本,因此可以采用对文本的注音方式完成对待纠正的语音识别结果的注音,得到待纠正的语音识别结果对应的拼音。
具体的,待纠正的语音识别结果可以是汉字组成的句子,对应的拼音是指无音调的汉语拼音串。
例如,待纠正的语音识别结果是“窝要去外滩”,对应的拼音是:
wo yao qu wai tan
S12:根据所述拼音获取候选文本,并在候选文本中确定最优候选文本。
其中,可以将拼音作为输入,根据发音词典构建解码网络,再根据语言模型计算解码网络中每条路径的得分,之后选择得分最高的N(可设置)条路径,将选择得到的每条路径对应的文本作为一个候选文本,从而得到N个候选文本。
最优候选文本是指得分最高的一条路径对应的文本。
S13:判断所述最优候选文本是否满足预设条件。
预设条件可以根据需要设置,例如,可以比较最优候选文本与次优候选文本,比较最优候选文本与待纠正的语音识别结果,以及N-gram回退次数等。
具体内容可以参见后续描述。
S14:如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
另一方面,如果最优候选文本不满足预设条件,则保持待纠正的语音识别结果不变,即不进行纠正。
本实施例中,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。
图2是本申请另一个实施例提出的语音识别结果纠错方法的流程示意图。
参见图2,本实施例的流程包括:
S201:对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音。
S202:获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
其中,通用语言模型是通常采用的语言模型,该语言模型是根据不区分领域的语料训练生成的。
本实施例中,不仅会用到通用语言模型,还用到特定语言模型。特定语言模型的训练方式可以与通用语言模型的训练方式一致,两者区别在于采用的训练语料不同。特定语言模型是根据特定范围的语料训练生成的,特定范围可以是某一特定领域,比如,在地图领域,将收集的地名作为训练语料,从而得到地图领域对应的特定语言模型,类似的,还可以得到新闻领域对应的特定语言模型等。进一步的,特定范围还可以是某一特定领域进一步细分后的范围,同样以地图领域为例,可以对应每个城市生成一个语言模型,此时,特定语言模型例如包括:北京对应的特定语言模型,上海对应的特定语言模型等。
以特定语言模型是城市对应的特定语言模型为例,可以根据用户输入的城市信息或者根据GPS定位得到的城市信息,获取城市对应的特定语言模型。
在注音得到拼音后,可以根据拼音及发音词典组成解码网络。
例如,一种解码网络如图3所示(图中只示出了一条路径,其余路径类似)。该解码网络输入的拼音为:
wo yao qu wai tan
在构建出解码网络后,可以根据语言模型计算每条路径的得分。每条路径包括多个节点,每个节点对应一个词,从而每条路径对应一个候选文本。例如,“我”、“要”、“去”、“外滩”可以组成一条路径,“窝”、“要”、“去”、“外滩”也可以组成一条路径,“我”、“要”、“去”、“外”“谭”也可以组成一条路径。而每条路径的得分是根据语言模型得到的。
在计算每条路径的得分时,可以根据该条路径上包含的n-gram词序列的得分相乘后得到。
本实施例中,每个n-gram词序列的得分是根据通用语言模型确定的概率值与根据特定语言模型确定的概率值进行加权求和后得到的。
以2-gram为例,对应“去”和“外滩”组成的2-gram词序列,该词序列得分score(去,外滩)的计算公式为:
score(去,外滩)=α*pbose(去,外滩)+(1-α)*pcity21(去,外滩)
其中,pbose(去,外滩)是根据通用语言模型得到的概率值,Pcity21(去,外滩)是根据特定语言模型得到的概率值,α是可设置的大于0小于1的加权值。
在计算出每条路径的得分后,可以根据得分从高到低的顺序选择预设个数(可设置)的路径,将选择的路径对应的文本作为候选文本。
S203:在候选文本中确定最优候选文本和次优候选文本。
最优候选文本是指得分最高的路径对应的文本,次优候选文本是指得分次高的路径对应的文本。
例如,假设“我”、“要”、“去”、“外滩”组成的路径的得分最高,则“我要去外滩”就是最优候选文本,假设“我”、“要”、“去”、“外”“谭”组成的路径的得分次高,则“我要去外谭”就是次优候选文本。
S204:计算最优候选文本与次优候选文本的语言模型得分差值,并判断语言模型得分差值是否大于第一预设值,若是,执行S205,否则执行S211。
上述的语言模型得分是指在上一步骤中根据解码网络得到的,根据通用语言模型和特定语言模型进行加权求和后得到的得分。
上述的第一预设值可以选为150。
S205:获取字语言模型,并根据字语言模型分别对最优候选文本和待纠正语音识别结果进行打分,并判断最优候选文本的得分是否大于待纠正语音识别结果的得分,若是,执行S206,否则执行S211。
其中,字语言模型是将字作为训练语料进行训练后生成的,可以预先收集大量的字,再根据语言模型的训练算法训练生成字语言模型。
在得到字语言模型后,可以根据其分别对上述的两个文本(最优候选文本和待纠正的语音识别结果)进行打分,得到上述两个文本分别对应的得分。
S206:用词语言模型对最优候选文本进行打分,并统计每种n-gram回退的次数。
可以理解的是,本申请中如未特殊说明,语言模型是指词语言模型。
进一步的,本步骤中的词语言模型可以是上述的通用语言模型或特定语言模型。
其中,语言模型通常是根据n-gram构建的,在构建时,为了解决数据稀疏性问题,在一些场景下需要使用回退算法,用低阶词的出现概率替换高阶词的出现概率。
例如,计算语言模型分数时,如前一个条件概率是p(w3|w2w1w0)这是一个4-gram,后一个词w4出现时,而语言模型中w1w2w3w4这个4-gram没有出现需要回退。如果用p(w4|w3w2)替代这是一个1元回退。如果w2w3w4也没有。用p(w4|w3)替代那么是一个2元回退。因此,这里的n-gram回退是指相比前一个退了几元。
S207:判断1-gram回退次数与2-gram回退次数的总和是否小于第二预设值。
S208:判断所有回退次数的总和是否小于第三预设值,若是,执行S209,否则执行S211。
其中,回退时不仅可以包括上述的1-gram回退和2-gram回退,还可能存在其他元的回退,因此,这里统计的是所有元的回退总次数。
第二预设值和第三预设值可以相同或不同,例如都可以选为2。
S209:判断最优候选文本中连续单字的个数是否大于第四预设值,若否,执行S210,若是,执行S211。
例如,第四预设值选为3。
S210:将最优候选文本作为纠正结果。
S211:保持待纠正的语音识别结果不变。
本实施例中,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。通过判断最优候选文本是否满足预设条件,可以获取更准确的纠正结果。
图4是本申请一个实施例提出的语音识别结果纠错装置的结构示意图。
参见图4,本实施例的装置40包括:注音模块41、获取模块42、判断模块43和确定模块44。
注音模块41,用于对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;
获取模块42,用于根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;
判断模块43,用于判断所述最优候选文本是否满足预设条件;
确定模块44,用于在所述最优候选文本满足预设条件时,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
一些实施例中,所述获取模块具体用于:
获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
一些实施例中,所述获取模块还用于:
确定候选文本中的次优候选文本。
一些实施例中,所述判断模块具体用于:
计算所述最优候选文本与所述次优候选文本的语言模型得分差值;
如果所述差值大于第一预设值,获取字语言模型,并根据字语言模型对最优候选文本与待纠正语音识别结果进行打分;
如果最优候选文本对应的得分大于所述待纠正语音识别结果对应的得分,采用词语言模型对最优候选文本进行打分,并统计打分过程中的回退次数;
如果回退次数满足次数要求,则判断最优候选文本中连续单字的个数是否小于或等于第四预设值;
如果是,则确定最优候选文本满足预设条件。
一些实施例中,参见图5,该装置还可以包括:
保持模块45,用于如果最优候选文本不满足预设条件,保持所述待纠正的语音识别结果不变。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过对待纠正的语音识别结果进行注音,并根据拼音获取候选文本,以及在最优候选文本满足预设条件时将最优候选文本作为纠正结果,可以实现基于拼音输入法的语音识别结果纠错,提高纠正结果的准确度。通过判断最优候选文本是否满足预设条件,可以获取更准确的纠正结果。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种语音识别结果纠错方法,其特征在于,包括:
对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;
根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;
判断所述最优候选文本是否满足预设条件;
如果满足预设条件,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述拼音获取候选文本,包括:
获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
3.根据权利要求1所述的方法,其特征在于,在根据所述拼音获取候选文本之后,所述方法还包括:
确定候选文本中的次优候选文本。
4.根据权利要求3所述的方法,其特征在于,所述判断所述最优候选文本是否满足预设条件,包括:
计算所述最优候选文本与所述次优候选文本的语言模型得分差值;
如果所述差值大于第一预设值,获取字语言模型,并根据字语言模型对最优候选文本与待纠正语音识别结果进行打分;
如果最优候选文本对应的得分大于所述待纠正语音识别结果对应的得分,采用词语言模型对最优候选文本进行打分,并统计打分过程中的回退次数;
如果回退次数满足次数要求,则判断最优候选文本中连续单字的个数是否小于或等于第四预设值;
如果是,则确定最优候选文本满足预设条件。
5.根据权利要求4所述的方法,其特征在于,还包括:
如果一元回退次数和二元回退次数的之和小于第二预设值,且总的回退次数之和小于第四预设值,则确定回退次数满足次数要求。
6.根据权利要求1所述的方法,其特征在于,还包括:
如果最优候选文本不满足预设条件,保持所述待纠正的语音识别结果不变。
7.一种语音识别结果纠正装置,其特征在于,包括:
注音模块,用于对待纠正的语音识别结果进行注音,得到所述语音识别结果对应的拼音;
获取模块,用于根据所述拼音获取候选文本,并在候选文本中确定最优候选文本;
判断模块,用于判断所述最优候选文本是否满足预设条件;
确定模块,用于在所述最优候选文本满足预设条件时,将所述最优候选文本确定为所述待纠正的语音识别结果的纠正结果。
8.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
获取通用语言模型,以及获取所述待纠正的语音识别结果对应的特定语言模型,并根据所述通用语言模型、所述特定语言模型和所述拼音获取候选文本。
9.根据权利要求7所述的装置,其特征在于,所述获取模块还用于:
确定候选文本中的次优候选文本;
所述判断模块具体用于:
计算所述最优候选文本与所述次优候选文本的语言模型得分差值;
如果所述差值大于预设值,获取字语言模型,并根据字语言模型对最优候选文本与待纠正语音识别结果进行打分;
如果最优候选文本对应的得分大于所述待纠正语音识别结果对应的得分,采用通用语言模型对最优候选文本进行打分,并统计打分过程中的回退次数;
如果回退次数满足次数要求,则判断最优候选文本中连续单字的个数是否小于或等于预设值;
如果是,则确定最优候选文本满足预设条件。
10.根据权利要求7所述的装置,其特征在于,还包括:
保持模块,用于如果最优候选文本不满足预设条件,保持所述待纠正的语音识别结果不变。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610597308.8A CN106297797B (zh) | 2016-07-26 | 2016-07-26 | 语音识别结果纠错方法和装置 |
JP2019524496A JP6827110B2 (ja) | 2016-07-26 | 2017-01-25 | 音声認識結果の修正方法及び装置 |
PCT/CN2017/072642 WO2018018867A1 (zh) | 2016-07-26 | 2017-01-25 | 语音识别结果纠错方法和装置 |
US16/321,398 US11024287B2 (en) | 2016-07-26 | 2017-01-25 | Method, device, and storage medium for correcting error in speech recognition result |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610597308.8A CN106297797B (zh) | 2016-07-26 | 2016-07-26 | 语音识别结果纠错方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297797A CN106297797A (zh) | 2017-01-04 |
CN106297797B true CN106297797B (zh) | 2019-05-31 |
Family
ID=57652440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610597308.8A Active CN106297797B (zh) | 2016-07-26 | 2016-07-26 | 语音识别结果纠错方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11024287B2 (zh) |
JP (1) | JP6827110B2 (zh) |
CN (1) | CN106297797B (zh) |
WO (1) | WO2018018867A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297797B (zh) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN108573706B (zh) * | 2017-03-10 | 2021-06-08 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN106992001B (zh) * | 2017-03-29 | 2020-05-22 | 百度在线网络技术(北京)有限公司 | 语音指令的处理方法、装置和系统 |
CN107221328B (zh) * | 2017-05-25 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 修改源的定位方法及装置、计算机设备及可读介质 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN109243461B (zh) * | 2018-09-21 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109522550B (zh) * | 2018-11-08 | 2023-04-07 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
KR20200059703A (ko) | 2018-11-21 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN109684643B (zh) * | 2018-12-26 | 2021-03-12 | 湖北亿咖通科技有限公司 | 基于句向量的文本识别方法、电子设备及计算机可读介质 |
CN110705217B (zh) * | 2019-09-09 | 2023-07-21 | 上海斑马来拉物流科技有限公司 | 一种错别字检测方法、装置及计算机存储介质、电子设备 |
CN111192586B (zh) * | 2020-01-08 | 2023-07-04 | 北京小米松果电子有限公司 | 语音识别方法及装置、电子设备、存储介质 |
CN112489655B (zh) * | 2020-11-18 | 2024-04-19 | 上海元梦智能科技有限公司 | 一种特定领域的语音识别文本纠错方法、系统和存储介质 |
CN112232062A (zh) * | 2020-12-11 | 2021-01-15 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、电子设备和存储介质 |
CN112528980B (zh) * | 2020-12-16 | 2022-02-15 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
CN112735396A (zh) * | 2021-02-05 | 2021-04-30 | 北京小米松果电子有限公司 | 语音识别纠错方法、装置及存储介质 |
CN113129894A (zh) * | 2021-04-12 | 2021-07-16 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN113378553B (zh) * | 2021-04-21 | 2024-07-09 | 广州博冠信息科技有限公司 | 文本处理方法、装置、电子设备和存储介质 |
CN113257227B (zh) * | 2021-04-25 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音识别模型性能检测方法、装置、设备及存储介质 |
CN113642316B (zh) * | 2021-07-28 | 2023-11-28 | 平安国际智慧城市科技股份有限公司 | 中文文本纠错方法、装置、电子设备及存储介质 |
CN114239559B (zh) * | 2021-11-15 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本纠错和文本纠错模型的生成方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140503A (ja) * | 2007-12-10 | 2009-06-25 | Toshiba Corp | 音声翻訳方法及び装置 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
JP4475380B2 (ja) * | 2002-05-15 | 2010-06-09 | パイオニア株式会社 | 音声認識装置及び音声認識プログラム |
AU2003253116A1 (en) * | 2002-07-31 | 2004-02-23 | Koninklijke Philips Electronics N.V. | Determining the reading of a kanji word |
US8095364B2 (en) * | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
JP5040909B2 (ja) * | 2006-02-23 | 2012-10-03 | 日本電気株式会社 | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
CN101996631B (zh) * | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
JP5231484B2 (ja) * | 2010-05-19 | 2013-07-10 | ヤフー株式会社 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
CN103021412B (zh) * | 2012-12-28 | 2014-12-10 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
KR101590724B1 (ko) * | 2014-10-06 | 2016-02-02 | 포항공과대학교 산학협력단 | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 |
CN105632499B (zh) * | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
JP2016095399A (ja) * | 2014-11-14 | 2016-05-26 | 日本電信電話株式会社 | 音声認識結果整形装置、方法及びプログラム |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN105244029B (zh) * | 2015-08-28 | 2019-02-26 | 安徽科大讯飞医疗信息技术有限公司 | 语音识别后处理方法及系统 |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
CN106297797B (zh) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
-
2016
- 2016-07-26 CN CN201610597308.8A patent/CN106297797B/zh active Active
-
2017
- 2017-01-25 WO PCT/CN2017/072642 patent/WO2018018867A1/zh active Application Filing
- 2017-01-25 JP JP2019524496A patent/JP6827110B2/ja active Active
- 2017-01-25 US US16/321,398 patent/US11024287B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140503A (ja) * | 2007-12-10 | 2009-06-25 | Toshiba Corp | 音声翻訳方法及び装置 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN103645876A (zh) * | 2013-12-06 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 语音输入方法和装置 |
CN105206267A (zh) * | 2015-09-09 | 2015-12-30 | 中国科学院计算技术研究所 | 一种融合非确定性反馈的语音识别错误修正方法及系统 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018018867A1 (zh) | 2018-02-01 |
JP6827110B2 (ja) | 2021-02-10 |
JP2019526080A (ja) | 2019-09-12 |
US20200184953A1 (en) | 2020-06-11 |
US11024287B2 (en) | 2021-06-01 |
CN106297797A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297797B (zh) | 语音识别结果纠错方法和装置 | |
CN107195295B (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN108510976B (zh) | 一种多语言混合语音识别方法 | |
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
US5715469A (en) | Method and apparatus for detecting error strings in a text | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN106653007B (zh) | 一种语音识别系统 | |
US8041559B2 (en) | System and method for disambiguating non diacritized arabic words in a text | |
JP2013519131A5 (zh) | ||
JP2001517815A (ja) | 言語認識上の類似発声識別方法及び装置 | |
JP2003527676A (ja) | モードレス入力で一方のテキスト形式を他方のテキスト形式に変換する言語入力アーキテクチャ | |
JP4885160B2 (ja) | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
CN109710087A (zh) | 输入法模型生成方法及装置 | |
Rogova et al. | Automatic syllabification using segmental conditional random fields | |
KR100509917B1 (ko) | 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법 | |
JP2011008784A (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
CN109002454B (zh) | 一种确定目标单词的拼读分区的方法和电子设备 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
Damper et al. | Information fusion approaches to the automatic pronunciation of print by analogy | |
WO2023113784A1 (en) | Lattice speech corrections | |
Allauzen et al. | Voice Query Refinement. | |
CN112149429A (zh) | 一种基于词槽序模型的高准确度语义理解识别方法 | |
KR20120029505A (ko) | 한글에 대한 유사도 계산 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |