JP2000029496A

JP2000029496A - 連続音声認識において句読点を自動的に生成する装置および方法

Info

Publication number: JP2000029496A
Application number: JP11132117A
Authority: JP
Inventors: T Tan Donald; ドナルド・ティー・タン; Chin Chu Shao; シャオ・チン・チュー; Chin Shen Lee; リー・チン・シェン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-05-13
Filing date: 1999-05-13
Publication date: 2000-01-28
Anticipated expiration: 2019-05-13
Also published as: US20020069055A1; CN1159662C; CN1235312A; US6718303B2; JP3282075B2; KR19990087935A; KR100305455B1

Abstract

(57)【要約】【課題】連続音声認識で句読点を自動的に生成する装
置および方法を提供すること。【解決手段】ユーザ音声を認識し、ユーザ音声を語に
変換する手段（１、２、３、５）を含む、連続音声認識
システムで句読点を自動的に生成する装置であって、ユ
ーザ音声を認識する手段（１、２、３、５）はユーザ音
声中の擬似雑音を認識するためにも使用され、さらにユ
ーザ音声を認識する手段（１、２、３、５）の出力結果
において擬似雑音をマークする手段（９）と、擬似句読
点を含む言語モデルに基づいて擬似雑音をマークする手
段（９）によってマークされた擬似雑音の位置において
最も可能性の高い擬似句読点を見つけ出すことによっ
て、句読点を生成する手段（１０、１４、１３）とを含
むことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、連続音声認識技術
に関し、さらに詳しくは、連続音声認識において句読点
を自動的に生成する装置および方法に関する。

【０００２】

【従来の技術】一般的な音声認識システムは、図１のよ
うに示すことができる。システムは一般的に音響モデル
７および言語モデル８を含む。音響モデル７は、認識さ
れる言語で一般的に使用される語の発音を含む。そのよ
うな語の発音は、大抵の人々がこの語を読むときの発音
から、統計的な方法を用いることによって要約され、そ
の語に特徴的な一般的発音を表す。言語モデル８は、認
識される言語で一般的に使用される語が利用される方法
を含む。

【０００３】図１に示す連続音声認識システムの動作手
順は次の通りである。音声検出手段１が例えばユーザの
音声を収集し、言語を音声サンプルで表現し、音声サン
プルを発音確率計算手段２に送る。音響モデル７内の全
ての発音について、発音確率計算手段２は、それが音声
サンプルと同じであるかどうかの確率推定値を与える。
語確率計算手段５は、大量の言語材料から要約された言
語規則に従って、言語モデル８内の語について、それが
現在の文脈に現れるかどうかの確率推定値を与える。語
照合手段３は、発音確率計算手段２によって計算された
確率値を、語確率計算手段５によって計算された確率値
と組み合わせることによって結合確率（音声サンプルを
この語と認識する可能性を表す）を計算し、最大の結合
確率値を持つ語を音声認識の結果として選ぶ。文脈生成
手段４は、上述の認識結果を使用することによって現在
の文脈を、次の音声サンプルの認識で使用するように変
更する。語出力手段６は、認識された語を出力する。

【０００４】上述の連続認識手順は、文字、単語、また
は語句単位で実行することができる。したがって、以下
では文字、単語、または語句を語と呼ぶ。

【０００５】認識された結果に句読点を付けるために、
現在の連続音声認識システムは、口述中に句読点を声に
出して言う必要があり、そうするとそれを認識する。例
えば、「Ｈｅｌｌｏｗ！Ｗｏｒｌｄ．」を完全に認識
するためには、話者は、「Ｈｅｌｌｏｗ感嘆符ｗｏｒｌ
ｄ終止符」と言わなければならない。つまり、現在の音
声認識システムでは、話者が句読点を音声に変換しなけ
ればならず（つまり、句読点を声に出して言わなければ
ならず）、そうすると句読点は対応する句読点として音
声認識システムに認識される。したがって、言語モデル
は句読点を含む必要があり、つまり言語モデル８は、全
ての句読点についてそれが現在の文脈に現れる句読点で
あるかどうかの推定確率値を与えることができる。

【０００６】しかし、上述の音声認識システムを使用す
ることによって自然なスピーチ活動（例えば会議、ラジ
オ放送、およびＴＶ番組など）を文字化するとき、人々
が句読点を声に出して言うことを期待することはできな
い。さらに、口述中に句読点を声に出して言うことは、
極めて不自然である。そうするように要求された場合で
さえも、人々は、話し中または記事を読み上げるとき
に、句読点を声に出して言うことをしばしば忘れる。さ
らに、全ての文章が心から直接生じる自然発生的なスピ
ーチの口述では、大抵の人々にとって、使用すべき句読
点を正確に決定し、流暢さを損ねることなく全ての句読
点を正確に声に出して言うことは、非常に困難である。
これは、日常的な音声言語で句読点が使用されること
は、皆無ではないとしても、まれであるという事実の結
果である。

【０００７】

【発明が解決しようとする課題】したがって、連続音声
認識において容易に使用され、スピーチ中に句読点を声
に出して言うことを必要とせず、したがってユーザの通
常のスピーチに影響を及ぼさない、句読点を自動的に生
成する装置および方法が緊急に必要である。

【０００８】本発明の第一の目的は、連続音声認識で句
読点を自動的に生成する装置を提供することである。

【０００９】本発明の第二の目的は、連続音声認識で句
読点を自動的に生成する方法を提供することである。

【００１０】

【課題を解決する手段】第一の目的を達成するために、
本発明は、ユーザの音声を語として認識する音声認識手
段を含む、連続音声認識で句読点を自動的に生成するた
めの装置を提供する。この音声認識手段はユーザの音声
中の疑似雑音をも認識し、さらに、音声認識手段の出力
結果における擬似雑音をマークする擬似雑音マーキング
手段と、擬似句読点を含む言語モデルに基づいて、擬似
雑音マーキング手段によってマークされた擬似雑音の全
ての位置において最も可能性の高い擬似句読点を見つけ
出すことによって、最も可能性の高い擬似句読点に対応
する句読点を生成する句読点生成手段とを含む。

【００１１】本発明はさらに、ユーザの音声を語として
認識するための音声認識手段と、口述中のユーザの操作
に応答して、音声認識手段の出力結果における位置を指
示する位置指示信号を生成するための句読点位置指示手
段と、言語モデルに含まれる全ての擬似句読点につい
て、それが音声認識手段の出力結果に現れる確率推定値
を与える擬似句読点確率計算手段と、前記擬似句読点確
率計算手段によって計算された確率推定値に基づき、位
置指示信号によって指示された位置の擬似句読点を見つ
け出すことによって、擬似句読点に対応する句読点を生
成する句読点照合手段とを含む、連続音声認識において
句読点を自動的に生成するための装置を提供する。

【００１２】第二の目的を達成するために、本発明は、
ユーザの音声を語として認識し、ユーザ音声中の擬似雑
音をも認識する音声認識段階と、音声認識段階の結果出
力において擬似雑音をマークする擬似雑音マーキング段
階と、擬似句読点を含む言語モデルに基づいて、擬似雑
音マーキング段階でマークされた擬似雑音の全ての位置
において最も可能性の高い擬似句読点を見つけ出すこと
によって、最も可能性の高い擬似句読点に対応する句読
点を生成する句読点生成段階とを含む、連続音声認識に
おいて句読点を自動的に生成する方法を提供する。

【００１３】本発明はさらに、ユーザの音声を語として
認識する音声認識段階と、口述中のユーザの操作に応答
して、音声認識段階の出力結果における位置を指示する
位置指示信号を生成する句読点位置指示段階と、言語モ
デルに含まれる全ての擬似句読点について、それが前記
音声認識段階の出力結果に現れる確率推定値を与える擬
似句読点確率計算段階と、前記擬似句読点確率計算段階
によって計算された確率推定値に基づき、位置指示信号
によって指示される位置に擬似句読点を見つけ出すこと
によって、擬似句読点に対応する句読点を生成する句読
点照合段階とを含む、連続音声認識において句読点を自
動的に生成する方法を提供する。

【００１４】本発明の装置および方法では、システムが
自動的に句読点を生成することができるので、ユーザが
句読点を声に出して言う必要がない。したがって、本発
明の装置および方法により、ユーザのスピーチの流暢さ
が悪影響を受けず、音声認識システムの正確さおよび高
速性を向上することができる。

【００１５】

【発明の実施の形態】最初に、本発明の幾つかの概念を
紹介する。

【００１６】日常のスピーチにおいて、言語の語に対応
する連続音声を出す他に、人々はしばしば、吸息や唇を
打つ音など、多少の雑音を出している。これらの雑音は
言語の語として認識することはできない。さらに、連続
音声と連続音声の間に沈黙が入ることがある。一般的な
音声認識システムは、これらの雑音や沈黙を使用せず、
これらを除去するだけである。経験から本発明者らは、
雑音および沈黙と表記すべき句読点との間に特定の関係
があることを発見した。例えば、記事を読み上げている
ときに、終止符「．」が現れると、人々は習慣的に長時
間沈黙し続ける。またコンマ「，」が現れると、彼らは
しばしば短時間沈黙し続け、急いで吸息する。「、」が
現れるときは、さらに短い時間吸息せずに沈黙し続ける
だけである。したがって、本発明の方法では、これらの
雑音および沈黙を利用する。

【００１７】さらに、２つの語が間に音や小休止を入れ
ずに滑らかに話されるときに、それらの間に句読点が入
ることがある。本発明の方法を実現するために、２つの
連続する語の間に「無音」記号を人工的に追加する。本
明細書では、雑音、沈黙、および「無音」を擬似雑音と
呼ぶ。したがって、２つの語の音の間には必ず擬似雑音
がある。

【００１８】全ての擬似雑音は、擬似雑音集合Ｄを構成
する。したがって、Ｄ＝｛「無音」，沈黙，吸息，唇を打つ音，．．．｝となる。

【００１９】言語には句読点をマークする特定の規則が
ある。コンピュータによる句読点の自動マーキングの実
現を促進するために、句読点を含む莫大な量の音声材料
から統計的な方法によって句読点をマークする規則を要
約する必要がある。本発明の方法の実現を促進するため
に、テキストの句読点が表れない場所に、意図的に「無
句読点」を追加する。本明細書では、句読点および「無
句読点」を擬似句読点と定義する。

【００２０】したがって、２つの語の間には必ず擬似句
読点がある。

【００２１】全ての擬似句読点は、擬似句読点集合Ｍを
構成する。

【００２２】Ｍ＝｛「無句読点」，「終止符」，「コン
マ」，「感嘆符」，「小休止」，．．．｝となる。

【００２３】句読点の自動生成は、２つの必要な段階を
含む。第一段階で、句読点をどこにマークすべきかを決
定する。つまり句読点の位置を決定する。第二段階で、
どの句読点をマークすべきかを決定する。つまり句読点
の種類を決定する。以下で、句読点の位置および種類の
決定を自動的に完了できる、より複雑な第一実施形態に
ついて説明する。次に、ユーザが句読点の位置を指示し
なければならない第二実施形態について説明する。

【００２４】図２は、本発明に係る連続音声認識におい
て句読点を自動的に生成するための装置の第一実施形態
の一般的構造の略図を示す。図２で、符号１は音声検出
手段を表し、符号２'は発音および擬似雑音確率計算手
段を、符号３は語照合手段を、符号４は文脈生成手段
を、符号５は語確率計算手段を、符号６'は認識結果出
力手段を、符号７'は擬似雑音を含む音響モデルを、符
号８は言語モデルを表す。上記構成要素は、図１に示す
対応する構成要素と同一または同様の機能を持つ。さら
に、符号９は擬似雑音マーキング手段を、符号１０は擬
似句読点確率計算手段を、符号１１は擬似句読点を含む
言語モデルを、符号１２は句読点を含む文脈生成手段
を、符号１３は句読点照合手段を、符号１４は擬似句読
点を条件とする擬似雑音確率計算手段を、符号１５は擬
似句読点と擬似雑音の間の対応表を表す。

【００２５】図２では、擬似雑音集合Ｄの各要素に対応
する音響が、擬似雑音を含む音響モデル７'に追加され
ている（その機能は図１の音響モデル７と同様であ
る）。したがって、擬似雑音を含む音響モデル７'は、
語の発音または擬似雑音のいずれかに対応する。擬似雑
音を含む音響モデル７'の各発音または雑音について、
発音および擬似雑音確率計算手段２'は、それが音声サ
ンプルに近いかどうかの確率推定値を与える。擬似雑音
を含む音響モデルを第一音響モデルＡＭ１と呼び、これ
は各語の発音だけでなく、各擬似雑音に対応する音響を
も含む。

【００２６】擬似句読点集合Ｍの各要素は、擬似句読点
を含む言語モデル１１に追加される。いうまでもなく、
全ての擬似句読点を、同一モデルとして言語モデル８に
追加することができる。様々な実装方式は本発明を限定
するものではない。語確率計算手段５は、図１の語確率
計算手段５と同じであり、そこで使用される言語モデル
を第一言語モデルＬＭ１と呼ぶ。第一言語モデルＬＭ１
は、認識される言語で頻繁に使用される全ての語を含
む。

【００２７】したがって、図１に示す装置と同様に、検
出された音響は、音響検出手段１、発音および擬似雑音
確率計算手段（ＡＭ１）２'、語照合手段３、文脈生成
手段４、語確率計算手段（ＬＭ１）５、擬似雑音を含む
音響モデル７'、および言語モデル８を使用することに
よって、対応する語または擬似雑音に復号することがで
きる。この復号結果を第一シーケンスと呼ぶ。第一シー
ケンスにおける「無音」など、他の擬似雑音は、擬似雑
音マーキング手段９によってマークされる。

【００２８】（擬似句読点を含む）現在の文脈の場合、
擬似句読点確率計算手段１０は、句読点を含む大量の言
語材料から要約された言語規則に基づいて、擬似句読点
を含む言語モデル１１の擬似句読点が次の句読点である
かどうかの確率推定値を計算する。この装置で使用する
言語モデル１１を第二言語モデルＬＭ２と呼ぶ。第二言
語モデルを構築する際に、音声材料における全ての句読
点を確保した。したがって、第二言語モデルＬＭ２は全
ての擬似句読点を含む。例えば、ｃを現在の文脈、ｍを
擬似句読点と仮定すると、ＬＭ２の作用は、Ｐ（ｍ｜
ｃ）を計算することである。

【００２９】第二音響モデルＡＭ２を使用する、擬似句
読点を条件とする擬似雑音確率計算手段１４は、特定の
擬似雑音が特定の擬似句読点位置で現れる確率推定値を
出す。第二音響モデルＡＭ２は、統計的方法を使用する
ことによって、大量の言語材料に基づいて構築される。
第二音響モデルＡＭ２の構築中に、擬似句読点と擬似雑
音の対応する対を見つけ出し、擬似句読点と擬似雑音と
の間の対応表１５に格納する。擬似句読点を条件とする
擬似雑音確率計算手段１４は、擬似句読点と擬似雑音の
間の対応表１５に基づいて、条件付き確率Ｐ（ｄ｜ｍ）
を計算する。ここでｍは擬似句読点であり、ｄは擬似雑
音である。第二音響モデルＡＭ２の特定の構築について
は、後で詳述する。

【００３０】当然、そのような条件付き確率Ｐ（ｄ｜
ｍ）は、大量の言語材料を使用する統計的方法によって
予め獲得し、対応する表に格納することができる。句読
点を生成する実際の手順では、表を検索することによっ
て、対応する確率値が見つけ出される。つまり、擬似句
読点を条件とする擬似雑音確率計算手段は、様々な方法
で実装することができるが、それは本発明にいかなる制
限も加えない。

【００３１】句読点照合手段１３は、擬似句読点確率計
算手段１０によって計算された確率推定値Ｐ（ｍ｜ｃ）
と、擬似句読点を条件とする擬似雑音確率計算手段１４
によって計算された確率推定値Ｐ（ｄ｜ｍ）とを組み合
わせ、擬似句読点を含む言語モデル１１の全ての擬似句
読点に関する相関確率Ｐ（ｄ｜ｍ）＊Ｐ（ｍ｜ｃ）（擬
似雑音を別の擬似句読点と認識する確率を表す）を計算
し、最大相関確率値を持つ擬似句読点を自動生成擬似句
読点として選択する。この手順は次のように表すことが
できる。Ｍ^ML＝ａｒｇｍａｘｍ：ＡＭ２（ｄ、ｍ）＊ＬＭ２
（ｍ，ｃ）ここでｍは擬似句読点、ｄは雑音、ｃは文脈であり、か
つＡＭ２（ｄ，ｍ）＝Ｐ（ｄ｜ｍ）、ＬＭ２（ｍ，ｃ）＝Ｐ（ｍ｜ｃ）である。

【００３２】ｍ＝「無句読点」の場合、文脈状態におい
て、句読点の代わりに、語が来ることを表し、したがっ
て、Ｐ（「無句読点」｜ｃ）＝ΣＰ（ｗ｜ｃ）となる。ｗ＝語である。

【００３３】句読点を含む文脈生成手段１２は、上述の
生成された句読点を使用して現在の文脈を変更させ、次
の擬似雑音を処理する。認識結果出力手段６'は、認識
された語および自動的に生成された句読点（または変換
された通常の句読点）を出力する。

【００３４】本発明に従って句読点を自動的に生成する
装置の第二実施形態として、連続音声認識において句読
点を自動的に生成するための別の種類の装置が、上述の
第一実施形態から誘導される。著しい相違点は、それ
が、口述中のユーザの操作に応答して、音声認識手段の
出力結果における位置を示す位置指示信号を生成する句
読点位置指示手段を含むことにある。位置指示手段は、
例えばマウスまたはその他の特殊ハードウェアとするこ
とができる。それはまた、言語モデルに含まれる各擬似
句読点について、それが音響認識手段の出力結果に現れ
る確率推定値を与えるための擬似句読点確率計算手段
（１０）と、擬似句読点確率計算手段によって計算され
た確率推定値に従って、位置指示信号によって指示され
た位置の擬似句読点を見つけ出し、擬似句読点に対応す
る句読点を生成するための句読点照合手段をも含む。

【００３５】句読点を自動的に生成するための上述の装
置では、擬似雑音は利用されない。したがって、第一音
響モデルＡＭ１および第二音響モデルＡＭ２における擬
似雑音部は除去され、実装は容易になる。一方、より高
い精度を得ることができる。しかし、ユーザにとって
は、第一実施形態ほど便利ではない。

【００３６】図３は、本発明に係る連続音声認識で句読
点を自動的に生成する方法の第一実施形態の流れ図であ
る。

【００３７】ステップＳ３１で、音声認識手順が開始す
る。このステップでは、文脈ｃなどの内部変数は全て空
にされる。

【００３８】ステップＳ３２で、ユーザが語を読む音声
が検出される。ステップＳ３３で、ユーザの音声は、第
一音響モデルＡＭ１および第一言語モデルＬＭ１を使用
することによって、語または擬似雑音に復号される。例
えば、次のような文章「このリンゴは赤く，緑ではない．」を読み上げるときに、人々はその中の語だけを読み上げ
る。したがって、以下のステップのそれぞれを繰返し実
行することによって、ユーザの音声は次のような第一シ
ーケンスに復号することができる。「このリンゴは赤く（吸息）緑ではない（沈黙）」。

【００３９】ステップＳ３４で、上記の第一シーケンス
における擬似雑音がマークされる。ここで擬似雑音と
は、ステップＳ３３で復号されなかった他の擬似雑音を
指す。この実施形態では、実装を容易にするために、
「無音」マークが２つの連続する語の間に追加される。
したがって、次のような第二シーケンスが形成される。「この（無音）リンゴ（無音）は（無音）赤く（吸息）
緑（無音）ではない（沈黙）」。

【００４０】ステップＳ３５で、全ての擬似句読点ｍに
ついて、現在の文脈の場合における条件付き確率Ｐ（ｍ
｜ｃ）が計算される。

【００４１】ステップＳ３６で、全ての擬似雑音ｄにつ
いて、それぞれの擬似句読点ｍの場合の条件付き確率Ｐ
（ｄ｜ｍ）が計算される。代替方法として、各擬似雑音
ｄおよび各擬似句読点ｍについて、統計的方法を用いる
ことによって大量の言語材料に基づいて、事前に条件付
き確率Ｐ（ｄ｜ｍ）を計算し、表に格納しておき、次に
表を検索することによってステップＳ３６を実現するこ
ともできる。

【００４２】ステップＳ３７で、Ｐ（ｄ｜ｍ）＊Ｐ（ｍ
｜ｃ）を最大にする擬似句読点Ｍ^MLを見つける。つま
り、Ｍ^ML＝ａｒｇｍａｘｍ：Ｐ（ｄ｜ｍ）＊Ｐ（ｍ｜ｃ）を計算する。

【００４３】ステップＳ３５、Ｓ３６、およびＳ３７
は、以下の手順として認識することもできる。

【００４４】前記第二シーケンスの全ての擬似雑音ｄお
よびその文脈ｃについて、第二音響モデル（ＡＭ２）お
よび第二言語モデル（ＬＭ２）を使用することによっ
て、Ｍ^ML＝ａｒｇｍａｘｍ：ＡＭ２（ｄ，ｍ）＊ＬＭ２
（ｍ，ｃ）となるように最適擬似句読点Ｍ^MLを見つける。ここで、
ｍは句読点であり、ＡＭ２（ｄ，ｍ）＝Ｐ（ｄ｜ｍ）ＬＭ２（ｍ，ｃ）＝Ｐ（ｍ｜ｃ）である。

【００４５】ｍ＝「無句読点」の場合、ＬＭ２（「無句読点」，ｃ）＝Ｐ（「無句読点」｜ｃ）＝Σｃｏｕｎｔ（ｃ，ｗ）ｗ≠句読点である。これは、句読点でない語ｗの全ての
Ｐ（ｗ｜ｃ）の合計を示す。

【００４６】ステップＳ３８で、Ｍ^MLは自動的に生成さ
れた擬似句読点として選ばれ、現在の文脈ｃが更新され
る。したがって、次の第三シーケンスが形成される。「この（無句読点）リンゴ（無句読点）は（無句読点）
赤く（コンマ）緑（無句読点）ではない（終止符）」。

【００４７】ステップＳ３９で、連続音声認識を終了す
るかどうかが判断される。終了しない場合には、ステッ
プＳ３２にジャンプする。そうでなければ、手順はステ
ップＳ３１０に進む。

【００４８】ステップＳ３１０で、認識された語および
自動的に生成された句読点が出力される。このステップ
で、擬似句読点を実句読点に置換することができる。例
えば、次のような結果が出力される。「このリンゴは赤く，緑ではない．」

【００４９】ステップＳ３１１で手順は終了する。

【００５０】上述の第一、第二、および第三シーケンス
は、ユーザが各語を読み上げると同時に、ステップＳ３
２からＳ３８までを繰返し実行することによって、徐々
に形成されることに留意されたい。つまり、上記手順は
実時間で実行される。句読点は、文全体の復号が完了し
た後だけでなく、実時間で自動的に生成することができ
る。文脈を形成する語の復号が終了すると、文脈に基づ
いて句読点を生成することができる。いうまでもなく、
音声認識は文単位で実行することができる。ただし、そ
れは、本発明にいかなる制限も加えない。

【００５１】上述の通り、第二音響モデルＡＭ２は、大
量の言語材料に基づいて構成される。例えば、それは以
下の方法で構成することができる。（１）例えば「ｗ１ｗ２，ｗ３。ｗ４」などの訓練テキ
ストを例に取る。訓練テキストの擬似句読点を識別し
て、ｗ１「無句読点」ｗ２コンマｗ３終止符ｗ４を得る。（２）訓練者は、句読点を読み上げずにテキスト「ｗ１
ｗ２，ｗ３。ｗ４」を読み上げる。（３）第一音響モデルＡＭ１および第一言語モデルＬＭ
１を使用して、訓練者の音声訓練を復号する。上記テキ
ストには句読点があるので、訓練者は読み上げるとき
に、特定の読み上げ様式を表現する。ｗ１とｗ２の間に
は句読点が無く、これらは連続的に読み上げられる。ｗ
２を読み上げた後、訓練者はコンマに遭遇し、短時間休
止し、吸息するかもしれない。次に訓練者はｗ３を読み
上げ、沈黙する（終止符のため）。最後にｗ４を読み上
げる。例えば、復号された出力は次のようになる。ｗ１ｗ２吸息ｗ３沈黙ｗ４（４）復号された出力に雑音をマークする。上記の例で
は、次のようになる。ｗ１「無音」ｗ２吸息ｗ３沈黙ｗ４（５）擬似句読点ｍと対応する擬似雑音ｄを照合する。（「無句読点」，「無音」）（コンマ，吸息）（終止符，沈黙）

【００５２】擬似句読点ｍの種類および擬似雑音の種類
について、対（ｍ，ｄ）と呼ばれる対応する関係があ
る。対（ｍ，ｄ）の数はｃ（ｍ，ｄ）と表される。訓練
テキスト、つまり言語材料は、訓練者と同様に、様々な
擬似句読点および普通の人々の話し方を充分に網羅する
必要がある。したがって、ｃ（ｍ、ｄ）は一般に１より
多い。（６）Ｐ（ｄ｜ｍ）は大まかにｃ（ｍ，ｄ）／ｃ（ｍ）
で推定される。ここでｃ（ｍ）は、全ての擬似雑音ｄ'
の対応するｃ（ｍ，ｄ'）の合計である。

【００５３】上記は、第二音響モデルＡＭ２を構成する
方法である。いうまでもなく、他の方法を使用して、同
じ機能を持つ音響モデルＡＭ２を構成することができ
る。

【００５４】図２および図３に関連して以上で説明した
句読点を自動的に生成するための装置および方法では、
ユーザが句読点を声に出して言う必要も、ユーザが句読
点の位置を指示する必要も無い。しかし、様々なユーザ
が様々な話し方をするので、擬似雑音を句読点の位置を
指示するための条件の１つとして使用する場合、何らか
のエラーが生じるはずである。

【００５５】以下で述べる第二実施形態では、口述中に
句読点が必要なときに、口述と同時にユーザが明瞭な指
示を与えることが必要である。そうした明瞭な指示は、
例えば、マウスボタンまたは特定のハードウェアをクリ
ックすることによって実現される。したがって、擬似雑
音を使用しないので、第一音響モデルＡＭ１の擬似雑音
部および第二音響モデルＡＭ２は除去される。実現が容
易になり、より高い精度を得られる。しかし、ユーザに
とっては、第一実施形態の場合ほど操作が簡便ではな
い。

【００５６】図４に示すように、本発明に従って句読点
を自動的に生成する方法の第二実施形態は、以下の段階
を含む。

【００５７】ステップＳ４１で、音声認識手順が開始す
る。このステップでは、文脈ｃなどの内部変数は全て空
にされる。

【００５８】ステップＳ４２で、ユーザの音声が検出さ
れる。ステップＳ４３で、通常の音響モデルＡＭおよび
言語モデルＬＭを使用することによって、ユーザの音声
が語に復号される。

【００５９】ステップＳ４５で、口述中にユーザによっ
て指示される句読点の位置が識別される。

【００６０】ステップＳ４７で、次のように第二言語モ
デルＬＭ２を使用することによって、最適擬似句読点Ｍ
^MLが見つけ出される。Ｍ^ML＝ａｒｇｍａｘｍ：ＬＭ２（ｍ，ｃ）ここで、ｍは句読点であり、ＬＭ２（ｍ，ｃ）＝Ｐ（ｍ｜ｃ）である。

【００６１】ステップＳ４８で、Ｍ^MLは自動的に生成さ
れた句読点として選ばれ、現在の文脈ｃが更新される。

【００６２】ステップＳ４９で、連続音声認識を終了す
るかどうかが判断される。終了しない場合には、手順は
Ｓ４２にジャンプする。そうでなければ、ステップＳ４
１０に進む。

【００６３】ステップＳ４１０で、認識された語および
自動的に生成された句読点が出力される。このステップ
で、擬似句読点を実句読点に置換することができる。

【００６４】ステップＳ４１１で、手順は終了する。

【００６５】次に第三実施形態について説明する。これ
は、機能的に第一実施形態と第二実施形態の中間的な形
態である。第三実施形態は、ユーザが口述中に句読点が
必要なときに明確な指示を与えなければならないが、ユ
ーザは、任意の検出可能な雑音を発生するために例えば
「唇を打つ音」など特殊な音を発するか、または句読点
を指示するために、物理的な移動を行うことなく、意図
的に沈黙するだけでよいという点が、第二実施形態とは
異なる。この方法により、ユーザはより便利に流暢に話
すことができる。第三実施形態は、口述中に句読点の位
置で特殊な音を発生するので、自然な雑音と句読点を指
示する音との間の相違がいっそう明瞭になるという点
で、第一実施形態とは異なる。第二音響モデルＡＭ２を
構成するときの訓練者の要件は同じである。第三実施形
態は、第一実施形態より高い精度が得られることが、実
践的に証明されている。

【００６６】本発明の方法は、必ずしも後処理に限定さ
れるものではない。つまり、文全体の復号が完了した後
で句読点を自動的に生成する必要はなく、実時間で生成
することができる。つまり、文脈を形成する語が復号さ
れるや否や、文脈に従って句読点を自動的に生成するこ
とができる。

【図面の簡単な説明】

【図１】従来技術の連続音声認識システムの構成の略図
である。

【図２】本発明に係る連続音声認識システムで句読点を
自動的に生成するための装置の第一実施形態の一般的構
造の略図である。

【図３】本発明に係る連続音声認識で句読点を自動的に
生成するための方法の第一実施形態の一般流れ図であ
る。

【図４】本発明に係る連続音声認識で句読点を自動的に
生成するための方法の第二実施形態の一般流れ図であ
る。

【符号の説明】

１音声検出手段２' 発音および擬似雑音確率計算手段３語照合手段４文脈生成手段５語確率計算手段６' 認識結果出力手段７' 擬似雑音を含む音響モデル８言語モデル９擬似雑音マーキング手段１０擬似句読点確率計算手段１１擬似句読点を含む言語モデル１２句読点を含む文脈生成手段１３句読点照合手段１４擬似雑音確率計算手段１５対応表

フロントページの続き (72)発明者ドナルド・ティー・タン中華人民共和国北京市朝陽区アジア大会村フイユアン・インターナショナルアル・アパートメンツディー棟アパートメント1708 (72)発明者シャオ・チン・チュー中華人民共和国北京市海淀区アンニンリー 15−４−402 (72)発明者リー・チン・シェン中華人民共和国北京市海淀区シャンティートンリーセクション２３−３− 102

Claims

【特許請求の範囲】

【請求項１】連続音声認識システムで句読点を自動的に
生成する装置であって、ユーザ音声を認識して語に変換し、さらに前記ユーザ音
声中の擬似雑音も認識する手段（１、２、３、５）と、前記認識する手段（１、２、３、５）の出力結果におけ
る擬似音声をマークする手段（９）と、擬似句読点を含む言語モデルに基づいて、前記マークす
る手段（９）によってマークされた擬似雑音の位置にお
いて最も可能性の高い擬似句読点を見つけ出すことによ
って句読点を生成する手段（１０、１４、１３）とを含
む装置。
【請求項２】句読点を生成する前記手段が、擬似句読点を含む言語モデル内の各擬似句読点につい
て、前記出力結果に前記擬似句読点が現れる確率を計算
する手段（１０）と、特定の擬似雑音が特定の擬似句読点の位置に現れる確率
を計算する手段（１４）と、計算された前記確率に基づいて、前記マークされた擬似
雑音の位置において最も可能性の高い擬似句読点を見つ
け出し、前記最も可能性の高い擬似句読点に対応する句
読点を生成する手段（１３）とを含む請求項１記載の装
置。
【請求項３】ユーザ音声を認識し、前記ユーザ音声を語
に変換する手段（１、２、３、５）を含む、連続音声認
識システムで句読点を自動的に生成する装置であって、口述中のユーザの操作に応答して、前記手段（１、２、
３、５）の出力結果中の位置を指示する位置指示信号を
生成する手段と、擬似句読点を含む言語モデル内の各擬似句読点につい
て、前記擬似句読点が前記出力結果に現れる確率を計算
する手段（１０）と、計算された前記確率に基づいて、前記位置指示信号によ
って指示された位置において最も可能性の高い擬似句読
点を見つけ出し、前記最も可能性の高い擬似句読点に対
応する句読点を生成する手段（１３）とを含む装置。
【請求項４】連続音声認識システムで句読点を自動的に
生成する方法であって、ユーザ音声を認識して語に変換し、さらに前記ユーザ音
声中の擬似雑音も認識するステップと、前記ステップの出力結果において擬似雑音をマークする
ステップと、擬似句読点を含む言語モデルに基づいて、擬似雑音をマ
ークする前記ステップでマークされた前記擬似雑音の位
置において最も可能性の高い擬似句読点を見つけ出すこ
とによって句読点を生成するステップと、を含む方法。
【請求項５】句読点を生成する前記ステップが、擬似句読点を含む言語モデル内の各擬似句読点につい
て、前記出力結果に前記擬似句読点が現れる確率を計算
するステップと、特定の擬似雑音が特定の擬似句読点の位置に現れる確率
を計算するステップと、計算された前記確率に基づいて、前記マークされた擬似
雑音の位置において最も可能性の高い擬似句読点を見つ
け出し、前記最も可能性の高い擬似句読点に対応する句
読点を生成するステップとを含む請求項４記載の方法。
【請求項６】ユーザ音声を認識し、前記ユーザ音声を語
に変換するステップを含む、連続音声認識システムで句
読点を自動的に生成する方法であって、口述中のユーザの操作に応答して、前記ステップの出力
結果中の位置を指示する位置指示信号を生成するステッ
プと、擬似句読点を含む言語モデル内の各擬似句読点につい
て、前記擬似句読点が前記出力結果に現れる確率を計算
するステップと、計算された前記確率に基づいて、前記位置指示信号によ
って指示された位置において最も可能性の高い擬似句読
点を見つけ出し、前記最も可能性の高い擬似句読点に対
応する句読点を生成するステップとをさらに含むことを
特徴とする方法。