CN1159662C - 连续语音识别中的标点符号自动生成装置及方法 - Google Patents

连续语音识别中的标点符号自动生成装置及方法 Download PDF

Info

Publication number
CN1159662C
CN1159662C CNB981083676A CN98108367A CN1159662C CN 1159662 C CN1159662 C CN 1159662C CN B981083676 A CNB981083676 A CN B981083676A CN 98108367 A CN98108367 A CN 98108367A CN 1159662 C CN1159662 C CN 1159662C
Authority
CN
China
Prior art keywords
point symbol
mark point
fiducial mark
quasi
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB981083676A
Other languages
English (en)
Other versions
CN1235312A (zh
Inventor
ƶ��׿�
唐道南
朱晓瑾
沈丽琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB981083676A priority Critical patent/CN1159662C/zh
Priority to KR1019990013422A priority patent/KR100305455B1/ko
Priority to US09/311,503 priority patent/US6718303B2/en
Priority to JP13211799A priority patent/JP3282075B2/ja
Publication of CN1235312A publication Critical patent/CN1235312A/zh
Application granted granted Critical
Publication of CN1159662C publication Critical patent/CN1159662C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

连续语音识别中的标点符号自动生成装置,包括用于识别用户语音并将所述用户语音转换为文字的装置(1,2,3,5),该用于识别用户语音的装置(1,2,3,5)还识别用户语音中的准噪声;还包括:用于标记装置(1,2,3,5)的输出结果中的准噪声的装置(9);用于根据含有准标点符号的语言模型,计算在装置(9)所标记的每个准噪声处最可能的准标点符号,产生与最可能的准标点符号相应的标点符号的装置(10,14,13)。

Description

连续语音识别中的 标点符号自动生成装置及方法
本发明涉及连续语音识别技术,尤其涉及在连续语音识别中用于自动生成标点符号的装置及方法。
一般的语音识别系统可以如图1所示。该系统中,一般包括一个语音模型7和一个语言模型8。语音模型7包括所识别语言中的常用文字的发音。这种发音是利用统计方法从多数人对某个文字的阅读发音中总结出来的,代表了该文字的一般发音特征。语言模型8包括所识别语言中的常用文字的使用方法。
图1所示的连续语音识别系统的工作过程为,语音检测装置1采集用户的语音,例如将语言表示为语音采样,将该语音采样送到发音概率计算装置2。发音概率计算装置2对语音模型7中的每个发音给出其与语音采样是否相同的概率估值。文字概率计算装置5,  根据从大量语料中总结出的语言规律,给出对语言模型8中的文字是否是当前上下文情况下应出现的文字的概率估值。文字匹配装置3,将发音概率计算装置2计算的概率估值与文字概率计算装置5计算的概率估值结合起来,计算一个联合概率(该联合概率值表示将语音采样识别为该文字的可能性),取联合概率值最大的文字,作为语音识别的结果。上下文产生装置4利用上述识别结果修改当前的上下文,以便识别下一个语音采样所用。文字输出装置6输出所识别的文字。
上述的连续语音识别过程可以以字、词或短语为单位进行。因此,后文中的文字指单字、单词或短语。
当前的连续语音识别系统中,为了对识别结果加注标点符号,需要在口授期间讲出这些标点符号,然后由语音识别系统识别。例如,为了完全识别“喂!你好。”,讲话人必须说出“喂惊叹号你好句号”。也就是说,在现有的语音识别系统中,要求讲话人将标点符号转化为语音(即讲出标点符号),再由语音识别系统识别为相应的标点符号。此时要求语言模型中包括标点符号,即语言模型8能够给出每个标点符号是否是当前上下文情况下应出现的标点符号的概率估值。
但是,  在利用上述语音识别系统对自然讲话活动(例如,会议,无线电广播电视节目等)作文字记录时,不能期望人们讲出标点符号。另外,在口授期间讲出标点符号是极不自然的事情。即使被要求这样做,人们在讲话或读文章时,常常忘记讲出标点符号。再者,在即兴演讲口授时,每句话直接来自于思维,多数人很难正确地判断应使用的标点符号,很难讲出正确的标点符号并同时保证讲话的流利性。这也许是因为在日常所用的中文口语中很少用到或根本不用标点符号。
因此,在连续语音识别中,急需一种自动生成标点符号的装置及方法,它应该是便于使用的,不要求在讲话时讲出标点符号,因而不影响用户的正常讲话。
本发明的第一个目的在于提供一种连续语音识别中的标点符号自动生成装置。
本发明的第二个目的在于提供一种连续语音识别中的标点符号自动生成方法。
为实现第一个目的,本发明提供一种连续语音识别中的标点符号自动生成装置,包括语音识别装置,用于将用户语音识别为文字,所述语音识别装置还识别所述用户语音中的准噪声;并且还包括:准噪声标记装置,用于标记语音识别装置的输出结果中的准噪声;标点符号产生装置,用于根据含有准标点符号的语言模型,找到在准噪声标记装置所标记的每个准噪声处最可能的准标点符号,产生与该最可能的准标点符号相应的标点符号。
本发明还提供一种连续语音识别中的标点符号自动生成装置,包括语音识别装置,用于将用户语音识别为文字;标点符号位置指示装置,用于在用户口授期间对用户的操作作出响应,产生一个位置指示信号,该位置指示信号指示语音识别装置的输出结果中的一个位置;准标点概率计算装置(10),用于对含有准标点符号的语言模型中的每个准标点符号,给出其是语音识别装置的输出结果中应出现的一个准标点符号的概率估值;标点符号匹配装置,根据准标点概率计算装置计算的概率估值,找到在位置指示信号所指示的位置处的准标点符号,生成与该准标点符号相应的标点符号。
为实现第二个目的,本发明提供一种连续语音识别中的标点符号自动生成方法,包括语音识别步骤,将用户语音识别为文字,该语音识别步骤还识别用户语音中的准噪声;并且还包括以下步骤:准噪声标记步骤,标记语音识别步骤的输出结果中的准噪声;标点符号产生步骤,根据含有准标点符号的语言模型,找到在准噪声标记步骤中所标记的每个准噪声处最可能的准标点符号,产生与最可能的准标点符号相应的标点符号。
本发明还提供一种连续语音识别中的标点符号自动生成方法,包括语音识别步骤,用于将用户语音识别为文字;标点符号位置指示步骤,用于在用户口授期间对用户的操作作出响应,产生一个位置指示信号,该位置指示信号指示语音识别步骤的输出结果中的一个位置;准标点概率计算步骤,用于对含有准标点符号的语言模型中的每个准标点符号,给出其是语音识别步骤的输出结果中应出现的一个准标点符号的概率估值;标点符号匹配步骤,根据准标点概率计算步骤计算的概率估值,找到在位置指示信号所指示的位置处的准标点符号,生成与准标点符号相应的标点符号。
根据本发明的装置和方法,用户不必再讲出标点符号,系统能够自动生成标点符号。因此,利用本发明的装置和方法,不影响用户讲话的流利性,提高语音识别系统中标点符号生成的正确性和快速性。
通过结合附图对本发明最佳实施方式进行更详细地描述之后,本发明的其他目的和特征将会更加明显。
图1是现有技术的连续语音识别系统的构成示意图;
图2是根据本发明的连续语音识别中的标点符号自动生成装置第一实施方式的一般结构示意图;
图3是根据本发明的连续语音识别中的标点符号自动生成方法第一实施方式的一般流程图;
图4是根据本发明的连续语音识别中的标点符号自动生成方法第二实施方式的一般流程图。
首先介绍本发明中用到的几个概念。
人们在日常讲话中,除了发出与语言文字相应的连续语音之外,往往还发出一些噪声,比如吸气声、咂嘴声等等。这些噪声不能被识别为语言文字。另外,在连续语音之间也可能有沉默。在一般的语音识别系统中,未对这些噪声和沉默进行利用,而是简单地过滤掉。发明人通过实验发现,这些噪声和沉默与应该加注的标点符号之间有一定的联系。比如,在读文章时,如果遇到句号“。”,人们习惯地沉默较长时间;如果遇到逗号“,”,往往沉默较短的时间,并短促地吸气;而在遇到顿号“、”时,只沉默较短时间,并不吸气。因此,在本发明的方法中,对这些噪声和沉默加以利用。
另外,当流利地讲出两个文字,而中间没有语音或沉默时,它们之间可能存在标点符号。为了便于实现本发明的方法,在连续两个文字之间,人为地加入一个“无声音”符号。在本文中,将噪声、沉默和“无声音”定义为准噪声。因此,在任何两个文字的语音之间,总是有一个准噪声。
所有的准噪声构成了准噪声集合D。于是,
D={“无声音”,沉默,吸气声,咂嘴声,...}
在一种语言中,标点符号的加注是有一定规则的。为便于计算机实现标点符号的自动加注,需要从大量的含有标点符号的语料中利用统计方法总结出标点符号加注规则。为了便于实现本发明的方法,在文本中不应出现标点符号的地方,人为地加入一个称为“无标点”的符号。在本文中,将标点符号和“无标点”符号定义为准标点符号。因此,在任何两个文字之间,总是有一个准标点符号。
所有的准标点符号构成了准标点符号集合M。
M={“无标点”,“句号”,“逗号”,“惊叹号”,“顿号”,...}
标点符号的自动生成,包括两个必要步骤。第一,确定在哪里加注标点符号,即标点符号位置的确定。第二,确定应加注什么标点符号,即标点符号种类的确定。后文中先描述较复杂的第一实施方式,它能自动完成标点符号位置的确定和标点符号种类的确定。然后,描述需要用户在口授时指示标点符号位置的第二实施方式。
图2示出根据本发明的连续语音识别中的标点符号自动生成装置第一实施方式的一般结构示意图。在图2中,标号1代表语音检测装置,2’代表发音及准噪声概率计算装置,3代表文字匹配装置,4代表上下文产生装置4,5代表文字概率计算装置,6’代表识别结果输出装置,7’代表含有准噪声的语音模型,8代表语言模型。以上各部件与图1中所示相应部件功能相同或类似。另外,标号9代表准噪声标记装置,10代表准标点概率计算装置,11代表含有准标点的语言模型,12代表含有标点符号的上下文产生装置,13代表标点符号匹配装置,14代表准标点符号条件下准噪声的概率计算装置,15代表准标点符号与准噪声对照表。
在图2中,将准噪声集合D中每个成员的相应语音增加到含有准噪声的语音模型7’(与图1的语音模型7作用类似)中。因此,含有准噪声的语音模型7’中的一个成员或者对应一个文字的发音,或者对应一个准噪声。发音及准噪声概率计算装置2’对含有准噪声的语音模型7’中的每个发音或噪声给出其与语音采样是否相近的概率估值。含有准噪声的语音模型称为第一语音模型AM1,它不但包括每个文字的发音,而且还包括与每个准噪声相应的语音。
将准标点符号集合M中的每个成员增加到含有准标点的语言模型11。当然,也可以将所有准标点符号增加到语言模型8中,作为同一个模型。不同的实现方式不构成对本发明的限制。文字概率计算装置5与图1中的文字概率计算装置5相同,将其所使用的语言模型称为第一语言模型LM1。第一语言模型LM1包括所识别的语言中常用的每个文字。
因此,与图1中所示装置类似地,利用语音检测装置1、发音及准噪声概率计算装置(AM1)2’、文字匹配装置3、上下文产生装置4、文字概率计算装置(LM1)5、含有准噪声的语音模型7’以及语言模型8,能够将所检测的语音译码为相应的文字或准噪声。将这一译码结果称为第一序列。利用准噪声标记装置9,标记第一序列中的其他准噪声,例如“无声音”。
准标点概率计算装置10,在当前上下文(含有准标点符号)的情况下,根据从大量含有标点符号的语料中总结出的语言规则,对含有准标点的语言模型11中的准标点符号是否是下一个准标点符号的概率估值。将该装置所使用的语言模型11称为第二语言模型LM2。构造第二语言模型时,保留了语料中的所有标点符号。因此,第二语言模型LM2包括每个准标点符号。例如,设c为当前上下文,m为准标点符号,则LM2的作用是计算P(m|c)。
准标点符号条件下准噪声的概率计算装置14,利用第二语音模型AM2给出在某个准标点符号处出现特定准噪声的概率估值。第二语音模型AM2是利用统计方法在大量语料的基础上构造的。在第二语音模型AM2的构造过程中,找到准标点符号与准噪声的相应对,将这些相应的对存储在准标点符号与准噪声对照表15中。准标点符号条件下准噪声的概率计算装置14,根据准标点符号与准噪声对照表15,计算条件概率P(d|m),其中m为准标点符号,d为准噪声。第二语音模型AM2的具体构造过程将在后文详述。
当然,这样的条件概率P(d|m)可以预先利用大量语料通过统计方法计算得到,并存储在相应的表中。在实际生成标点符号的过程中,通过查表求得相应的条件概率值。也就是说,准标点符号条件下准噪声的概率计算装置可以采用不同的方式实现,这些不同的实现方式不构成对本发明的限制。
标点符号匹配装置13,将准标点概率计算装置10计算的概率估值P(m|c)与准标点符号条件下准噪声的概率计算装置14计算的概率估值P(d|m)结合起来,对于含有准标点的语言模型11中的每一个准标点符号计算一个相关概率P(d|m)*P(m|c)(该相关概率值表示将准噪声识别为一个准标点符号的可能性),取相关概率值最大的准标点符号,作为自动生成的准标点符号。这一过程可以表示为:
MML=argmax m:AM2(d,m)*LM2(m,c)
其中,m为准标点符号,d为准噪声,c为上下文,并且
AM2(d,m)=P(d|m),
LM2(m,c)=P(m|c)。
当m=“无标点”时,表示在上下文的条件下应出现的是文字而不是标点符号,所以
Figure C9810836700101
含标点的上下文产生装置12利用上述生成的准标点符号修改当前的上下文,以便处理下一个准噪声。识别结果输出装置6’输出所识别出的文字和自动生成的准标点符号(或者转换为普通标点符号)。
作为根据本发明的标点符号自动生成装置的第二实施方式,另外一种连续语音识别中的标点符号自动生成装置,经上述第一实施方式变化而成。主要区别在于,它包括一个标点符号位置指示装置,用于在用户口授期间对用户的操作作出响应,产生一个位置指示信号,该位置指示信号指示语音识别装置的输出结果中的一个位置。该位置指示装置例如可以是一个鼠标器,或者是另外的专用硬件。还包括准标点概率计算装置(10),用于对含有准标点符号的语言模型中的每个准标点符号,给出其是语音识别装置的输出结果中应出现的一个准标点符号的概率估值;标点符号匹配装置,根据准标点概率计算装置计算的概率估值,找到在位置指示信号所指示的位置处的准标点符号,生成与该准标点符号相应的标点符号。
采用上述标点符号自动生成装置,不必利用准噪声,省略了第一语音模型AM1中的准噪声部分和第二语音模型AM2,并且更容易实现,同时也提供了更高的精确性。但是对于用户而言,却不如第一实施方式那样便于使用。
图3是根据本发明的在语音识别中的标点符号自动生成方法第一实施方式的流程图。
在步骤S31,开始语音识别过程。该步骤中,清空所有内部变量,比如上下文c。
在步骤S32,检测用户读一个词的语音。在步骤S33,利用第一语音模型AM1和第一语言模型LM1,将用户语音解码为文字或准噪声。比如,当用户读以下中文句子:
“这苹果是红的,不是绿的。”时,只读其中的文字。于是,通过循环执行以下各步,可将用户语音解码为以下第一序列:
“这苹果是红的(吸气声)不是绿的(沉默)”。
在步骤S34,标记上述第一序列中的准噪声。这里的准噪声,是指其他未能由步骤S33解码出来的准噪声。在该实施方式中,在连续两个文字之间,加入一个“无声音”符号,以便于实现。于是,形成以下第二序列:
“这(无声音)苹果(无声音)是(无声音)红的(吸气声)不是(无声音)绿的(沉默)”。
在步骤S35,对于所有准标点符号m,计算在当前上下文c情况下的条件概率P(m|c)。
在步骤S36,对于所有准噪声d,计算在各个准标点符号m情况下的条件概率P(d|m)。另一种方案是,预先将对于所有准噪声d和准标点符号m的概率值P(d|m)利用大量语料根据统计方法计算出来,存储在一个表中,通过查表来实现步骤S36。
在步骤S37,找到使P(d|m)*P(m|c)最大的准标点符号MML,即计算
MML=argmax m:P(d|m)*P(m|c),
步骤S35、S36和S37也可以认为是这样一种过程:
对于所述第二序列中的每个准噪声d及其上下文c,利用第二语音模型(AM2)和第二语言模型(LM2),找到最佳准标点符号MML,使得
MML=argmax m:AM2(d,m)*LM2(m,c)
其中m是一准标点符号,并且
AM2(d,m)=P(d|m)
LM2(m,c)=P(m|c)当m=“无标点”时,
Figure C9810836700112
即,所有非标点文字w的P(w|c)之和。
在步骤S38,将MML作为自动生成的准标点符号,并且更新当前的上下文c。于是,形成以下第三序列:
“这(无标点)苹果(无标点)是(无标点)红的(逗号)不是(无标点)绿的(句号)”。
在步骤S39,判断连续语音识别是否结束。如果没有结束,则转到步骤S2。否则进行到步骤S310。
在步骤S310,输出所识别的文字和自动生成的标点符号。该步骤中,可以用实际的标点符号替换准标点符号。例如,输出如下结果:
“这苹果是红的,不是绿的。”。
在步骤S311,过程结束。
在此需要说明的是,上述第一序列、第二序列和第三序列是随着用户读每一个词时通过循环执行步骤S32至S38而逐渐生成的。也就是说,上述过程是实时进行的。即不必在对整个句子完成解码之后才进行标点符号的自动生成,而是可以实时地生成标点符号。一旦对构成上下文的文字完成解码,则可以根据上下文产生标点符号。当然,完全可以以句子为单位进行语音识别。这些不构成对本发明的限制。
如前文所述,第二语音模型AM2是在大量语料的基础上构造的。例如,可以通过下述方法构造。
(1)以一段训练文本,例如“w1w2,w3。w4”为例,在训练文本中标记准标点符号。于是得到:
w1“无标点”w2逗号w3句号w4
(2)让训练人员读该段文本“w1w2,w3。w4”,但是不读标点;
(3)利用第一语音模型AM1和第一语言模型LM1对训练人员的语音串进行解码。由于上述文本中存在标点符号,所以训练人员在读时有一定的阅读习惯。w1和w2之间没有任何标点符号,可能连续地读出它们。读出w2之后,遇到一个逗号,可能稍停片刻并吸气。然后,读w3,并沉默(由于有句号)。最后,读出w4。例如,解码输出可以是:
w1w2吸气w3沉默w4
(4)在解码输出中标记准噪声。对于上例,得到:
w1“无声音”w2吸气w3沉默w4
(5)对准标点符号m与相应的准噪声d进行配对,得到:
(“无标点”,“无声音”)
(逗号,吸气)
(句号,沉默)
对于一种准标点符号m和一种准噪声d,存在着一种对应关系,称为(m,d)对。(m,d)对的数目表示为c(m,d)。训练文本,即语料和训练人员应该是足够多的,能够概括各种准标点符号,和一般人的阅读习惯。所以c(m,d)一般是大于1的。
(6)将P(d|m)粗略估计为c(m,d)/c(m),其中c(m)是对于所有准噪声d’相应的c(m,d’)之和。
以上是构造第二语音模型AM2的一种方法。当然,也可以利用其他方法构造具有同样功能的语音模型AM2。
以上参照图2和图3所述的标点符号自动生成装置和方法中,不需要用户在口授时讲出标点符号,也不需要用户指示标点符号的位置。但是,因为不同用户有不同的阅读习惯,所以将准噪声作为判断标点符号位置的条件之一,必然存在着一定的误差。
在以下所述的第二实施方式中,在用户的口授中需要标点符号时,要求用户在口授的同时给予确定的指示。这种确定的指示例如通过按击鼠标按键或专用硬件来实现。因此,不必利用准噪声,省略了第一语音模型AM1中的准噪声部分和第二语音模型AM2,并且更容易实现,同时也提供了更高的精确性。但是对于用户而言,却不如第一实施方式那样便于使用。
根据本发明的标点符号自动生成方法的第二实施方式如图4所示包括以下步骤:
在步骤S41,开始语音识别过程。该步骤中,清空所有内部变量,比如上下文c。
在步骤S42,检测用户语音。在步骤S4,利用普通的语音模型AM和语言模型LM,将用户语音解码为文字。
在步骤S45,确定用户在口授期间所指示标点符号位置。
在步骤S47,利用第二语言模型LM2,找到最佳准标点符号MML,使得:
MML=argmax m:LM2(m,c)
其中m是一个标点符号,并且
LM2(m,c)=P(m|c)。
在步骤S48,将MML作为自动生成的准标点符号,并且更新当前的上下文c。
在步骤S49,判断连续语音识别是否结束。如果没有结束,则转到步骤S42。否则进行到步骤S410。
在步骤S410,输出所识别的文字和自动生成的标点符号。该步骤中,可以用实际的标点符号替换准标点符号。
在步骤S411,过程结束。
现在描述第三实施方式。它介于第一实施方式与第二实施方式之间。该第三实施方式与第二实施方式的不同在于,虽然要求用户在口授期间需要标点符号时进行确定的指示,但是不要求用户采取任何机械动作,而是采用特定的声音动作,例如“咂嘴”以产生任何可检测的噪声,或者有意地沉默,来指示标点符号。这样,更有利于用户流利地讲话。第三实施方式与第一实施方式的不同在于,用户在口授期间在标点符号处所产生的是特定的声音动作,增加了自然噪声与用于指示标点的声音之间的区别。在构造第二语音模型AM2时,对训练人也有同样的要求。通过实践证明,在自动生成标点符号时,第三实施方式比第一实施方式具有更高的精确性。
本发明的方法不必限于后期处理,即不必在对整个句子完成解码之后才进行标点符号的自动生成,而是可以实时地进行。也就是说,一旦对构成上下文的文字完成解码,即可以根据上下文自动生成标点符号。
虽然如上所述描述了本发明的最佳实施方式,但是应该认识到,对于本领域内熟练的技术人员而言,在不背离本发明的实质和范围的情况下,可以对上述实施方式进行各形式的修改和变更。因此,本发明的保护范围内权利要求书限定。

Claims (4)

1.连续语音识别中的标点符号自动生成装置,包括用于识别用户语音并将所述用户语音转换为文字的装置(1,2,3,5),其特征在于:
所述用于识别用户语音的装置(1,2,3,5)还识别所述用户语音中的准噪声;并且
其特征在于还包括:
用于标记所述用于识别用户语音的装置(1,2,3,5)的输出结果中的准噪声的装置(9);
用于对含有准标点符号的语言模型中的每个准标点符号,计算其是所述用于识别用户语音的装置的输出结果中应出现的一个准标点符号的概率估值的装置(10);
用于计算特定准标点符号处出现特定准噪声的概率估值的装置(14);以及
用于根据所计算的所述概率估值,找到在所述用于标记准噪声的装置(9)所标记的每个准噪声处最可能的准标点符号,生成与所述最可能的准标点符号相应的标点符号的装置(13)。
2.连续语音识别中的标点符号自动生成装置,包括用于识别用户语音并将用户语音转换为文字的装置(1,2,3,5),其特征在于还包括:
用于在用户口授期间对用户的操作作出响应,产生一个位置指示信号的装置,所述位置指示信号指示所述用于识别用户语音的装置(1,2,3,5)的输出结果中的一个位置;
用于对含有准标点符号的语言模型中的每个准标点符号,计算其是所述用于识别用户语音的装置的输出结果中应出现的一个准标点符号的概率估值的装置(10);
用于根据所计算的所述概率估值,找到在所述位置指示信号所指示的位置处的准标点符号,生成与所述准标点符号相应的标点符号的装置(13)。
3.连续语音识别中的标点符号自动生成方法,包括识别用户语音并将用户语音转换为文字的步骤,其特征在于:
在所述识别用户语音的步骤中还识别所述用户语音中的准噪声;并且
其特征在于还包括以下步骤:
标记所述识别用户语音的步骤的输出结果中的准噪声;
对含有准标点符号的语言模型中的每个准标点符号,计算其是所述识别用户语音的步骤的输出结果中应出现的一个准标点符号的概率估值;
计算特定准标点符号处出现特定准噪声的概率估值;
根据所计算的所述概率估值,找到在所述标记准噪声的步骤中所标记的每个准噪声处最可能的准标点符号,生成与所述最可能的准标点符号相应的标点符号。
4.连续语音识别中的标点符号自动生成方法,包括识别用户语音并将用户语音转换为文字的步骤,其特征在于还包括以下步骤:
在用户口授期间对用户的操作作出响应,产生一个位置指示信号,所述位置指示信号指示所述识别用户语音的步骤的输出结果中的一个位置;
用于对含有准标点符号的语言模型中的每个准标点符号,计算其是所述识别用户语音的步骤的输出结果中应出现的一个准标点符号的概率估值;
根据所计算的所述概率估值,找到在所述位置指示信号所指示的位置处的准标点符号,生成与所述准标点符号相应的标点符号。
CNB981083676A 1998-05-13 1998-05-13 连续语音识别中的标点符号自动生成装置及方法 Expired - Fee Related CN1159662C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB981083676A CN1159662C (zh) 1998-05-13 1998-05-13 连续语音识别中的标点符号自动生成装置及方法
KR1019990013422A KR100305455B1 (ko) 1998-05-13 1999-04-15 연속 음성 인식시에 구두점들을 자동으로 발생시키기 위한 장치및 방법
US09/311,503 US6718303B2 (en) 1998-05-13 1999-05-13 Apparatus and method for automatically generating punctuation marks in continuous speech recognition
JP13211799A JP3282075B2 (ja) 1998-05-13 1999-05-13 連続音声認識において句読点を自動的に生成する装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB981083676A CN1159662C (zh) 1998-05-13 1998-05-13 连续语音识别中的标点符号自动生成装置及方法

Publications (2)

Publication Number Publication Date
CN1235312A CN1235312A (zh) 1999-11-17
CN1159662C true CN1159662C (zh) 2004-07-28

Family

ID=5219607

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB981083676A Expired - Fee Related CN1159662C (zh) 1998-05-13 1998-05-13 连续语音识别中的标点符号自动生成装置及方法

Country Status (4)

Country Link
US (1) US6718303B2 (zh)
JP (1) JP3282075B2 (zh)
KR (1) KR100305455B1 (zh)
CN (1) CN1159662C (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3232289B2 (ja) * 1999-08-30 2001-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 記号挿入装置およびその方法
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
WO2002027535A1 (en) * 2000-09-28 2002-04-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US20040117188A1 (en) * 2002-07-03 2004-06-17 Daniel Kiecza Speech based personal information manager
US7292977B2 (en) * 2002-10-17 2007-11-06 Bbnt Solutions Llc Systems and methods for providing online fast speaker adaptation in speech recognition
EP1422692A3 (en) * 2002-11-22 2004-07-14 ScanSoft, Inc. Automatic insertion of non-verbalized punctuation in speech recognition
JP2005202884A (ja) * 2004-01-19 2005-07-28 Toshiba Corp 送信装置、受信装置、中継装置、および送受信システム
US7921374B2 (en) * 2004-07-08 2011-04-05 Research In Motion Limited Adding interrogative punctuation to an electronic message
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
FI20060666A0 (fi) * 2006-07-07 2006-07-07 Nokia Corp Menetelmä ja järjestelmä epäjatkuvan lähetyksen toiminnallisuuden parantamiseksi
US8577679B2 (en) 2008-02-13 2013-11-05 Nec Corporation Symbol insertion apparatus and symbol insertion method
WO2009122779A1 (ja) * 2008-04-03 2009-10-08 日本電気株式会社 テキストデータ処理装置、方法、プログラムが格納された記録媒体
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8719004B2 (en) * 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions
CN101876887A (zh) * 2010-07-26 2010-11-03 刘彤 语音输入方法及装置
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
CN102231278B (zh) * 2011-06-10 2013-08-21 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
US8990224B1 (en) * 2011-11-14 2015-03-24 Google Inc. Detecting document text that is hard to read
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
CN103971684B (zh) * 2013-01-29 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
US9460067B2 (en) * 2013-10-30 2016-10-04 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
JP6686553B2 (ja) * 2016-03-08 2020-04-22 富士通株式会社 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置
CN107564526B (zh) * 2017-07-28 2020-10-27 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN107632980B (zh) * 2017-08-03 2020-10-27 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置
CN108538292B (zh) * 2018-04-26 2020-12-22 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
US11315570B2 (en) * 2018-05-02 2022-04-26 Facebook Technologies, Llc Machine learning-based speech-to-text transcription cloud intermediary
US10242669B1 (en) * 2018-08-07 2019-03-26 Repnow Inc. Enhanced transcription of audio data with punctuation markings based on silence durations
JP6605105B1 (ja) * 2018-10-15 2019-11-13 株式会社野村総合研究所 文章記号挿入装置及びその方法
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
JP7229144B2 (ja) * 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法
CN110908583B (zh) * 2019-11-29 2022-10-14 维沃移动通信有限公司 符号显示方法及电子设备
CN112445453A (zh) * 2020-11-10 2021-03-05 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN112906348B (zh) * 2021-02-04 2022-04-26 云从科技集团股份有限公司 对文本自动添加标点符号的方法、系统、设备及介质
CN113095062A (zh) * 2021-04-12 2021-07-09 阿里巴巴新加坡控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN117113941B (zh) * 2023-10-23 2024-02-06 新声科技(深圳)有限公司 标点符号恢复方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56114041A (en) 1980-02-12 1981-09-08 Toshiba Corp Producing device of voice input document
JPH0693221B2 (ja) * 1985-06-12 1994-11-16 株式会社日立製作所 音声入力装置
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
JP2000047688A (ja) 1998-07-28 2000-02-18 Nikon Corp 音声入力方法、および、記録媒体

Also Published As

Publication number Publication date
KR100305455B1 (ko) 2001-09-26
JP3282075B2 (ja) 2002-05-13
US20020069055A1 (en) 2002-06-06
US6718303B2 (en) 2004-04-06
CN1235312A (zh) 1999-11-17
KR19990087935A (ko) 1999-12-27
JP2000029496A (ja) 2000-01-28

Similar Documents

Publication Publication Date Title
CN1159662C (zh) 连续语音识别中的标点符号自动生成装置及方法
CN1207664C (zh) 对语音识别结果中的错误进行校正的方法和语音识别系统
US11848001B2 (en) Systems and methods for providing non-lexical cues in synthesized speech
CN1667699B (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
CN111341305B (zh) 一种音频数据标注方法、装置及系统
CN1667700A (zh) 使用发音图表来改进新字的发音学习
US8069042B2 (en) Using child directed speech to bootstrap a model based speech segmentation and recognition system
CN1912803A (zh) 信息处理方法和信息处理设备
CN1197525A (zh) 交互式语言训练设备
CN1101446A (zh) 语音教学计算机化系统
CN1609846A (zh) 用于识别,锚定和回流数字墨水注释的数字墨水注释方法和系统
CN1232226A (zh) 句子处理装置及其方法
CN1169199A (zh) 产生和利用上下文相关子音节模型来识别有调语言的系统和方法
CN1387650A (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
CN1841496A (zh) 测量语速的方法和装置以及录音设备
CN110991175A (zh) 多模态下的文本生成方法、系统、设备及存储介质
CN113225612A (zh) 字幕生成方法、装置、计算机可读存储介质及电子设备
CN1458645A (zh) 语音识别设备和语音识别程序
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
JP6366179B2 (ja) 発話評価装置、発話評価方法、及びプログラム
CN1144173C (zh) 概率导向的容错式自然语言理解方法
CN110858268A (zh) 一种检测语音翻译系统中不流畅现象的方法及系统
CN115188365B (zh) 一种停顿预测方法、装置、电子设备及存储介质
CN115270769A (zh) 文本纠错方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090911

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090911

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040728

Termination date: 20170513

CF01 Termination of patent right due to non-payment of annual fee