JP2000029496A - 連続音声認識において句読点を自動的に生成する装置および方法 - Google Patents

連続音声認識において句読点を自動的に生成する装置および方法

Info

Publication number
JP2000029496A
JP2000029496A JP11132117A JP13211799A JP2000029496A JP 2000029496 A JP2000029496 A JP 2000029496A JP 11132117 A JP11132117 A JP 11132117A JP 13211799 A JP13211799 A JP 13211799A JP 2000029496 A JP2000029496 A JP 2000029496A
Authority
JP
Japan
Prior art keywords
punctuation
pseudo
noise
user
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11132117A
Other languages
English (en)
Other versions
JP3282075B2 (ja
Inventor
T Tan Donald
ドナルド・ティー・タン
Chin Chu Shao
シャオ・チン・チュー
Chin Shen Lee
リー・チン・シェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2000029496A publication Critical patent/JP2000029496A/ja
Application granted granted Critical
Publication of JP3282075B2 publication Critical patent/JP3282075B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 連続音声認識で句読点を自動的に生成する装
置および方法を提供すること。 【解決手段】 ユーザ音声を認識し、ユーザ音声を語に
変換する手段(1、2、3、5)を含む、連続音声認識
システムで句読点を自動的に生成する装置であって、ユ
ーザ音声を認識する手段(1、2、3、5)はユーザ音
声中の擬似雑音を認識するためにも使用され、さらにユ
ーザ音声を認識する手段(1、2、3、5)の出力結果
において擬似雑音をマークする手段(9)と、擬似句読
点を含む言語モデルに基づいて擬似雑音をマークする手
段(9)によってマークされた擬似雑音の位置において
最も可能性の高い擬似句読点を見つけ出すことによっ
て、句読点を生成する手段(10、14、13)とを含
むことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、連続音声認識技術
に関し、さらに詳しくは、連続音声認識において句読点
を自動的に生成する装置および方法に関する。
【0002】
【従来の技術】一般的な音声認識システムは、図1のよ
うに示すことができる。システムは一般的に音響モデル
7および言語モデル8を含む。音響モデル7は、認識さ
れる言語で一般的に使用される語の発音を含む。そのよ
うな語の発音は、大抵の人々がこの語を読むときの発音
から、統計的な方法を用いることによって要約され、そ
の語に特徴的な一般的発音を表す。言語モデル8は、認
識される言語で一般的に使用される語が利用される方法
を含む。
【0003】図1に示す連続音声認識システムの動作手
順は次の通りである。音声検出手段1が例えばユーザの
音声を収集し、言語を音声サンプルで表現し、音声サン
プルを発音確率計算手段2に送る。音響モデル7内の全
ての発音について、発音確率計算手段2は、それが音声
サンプルと同じであるかどうかの確率推定値を与える。
語確率計算手段5は、大量の言語材料から要約された言
語規則に従って、言語モデル8内の語について、それが
現在の文脈に現れるかどうかの確率推定値を与える。語
照合手段3は、発音確率計算手段2によって計算された
確率値を、語確率計算手段5によって計算された確率値
と組み合わせることによって結合確率(音声サンプルを
この語と認識する可能性を表す)を計算し、最大の結合
確率値を持つ語を音声認識の結果として選ぶ。文脈生成
手段4は、上述の認識結果を使用することによって現在
の文脈を、次の音声サンプルの認識で使用するように変
更する。語出力手段6は、認識された語を出力する。
【0004】上述の連続認識手順は、文字、単語、また
は語句単位で実行することができる。したがって、以下
では文字、単語、または語句を語と呼ぶ。
【0005】認識された結果に句読点を付けるために、
現在の連続音声認識システムは、口述中に句読点を声に
出して言う必要があり、そうするとそれを認識する。例
えば、「Hellow! World.」を完全に認識
するためには、話者は、「Hellow感嘆符worl
d終止符」と言わなければならない。つまり、現在の音
声認識システムでは、話者が句読点を音声に変換しなけ
ればならず(つまり、句読点を声に出して言わなければ
ならず)、そうすると句読点は対応する句読点として音
声認識システムに認識される。したがって、言語モデル
は句読点を含む必要があり、つまり言語モデル8は、全
ての句読点についてそれが現在の文脈に現れる句読点で
あるかどうかの推定確率値を与えることができる。
【0006】しかし、上述の音声認識システムを使用す
ることによって自然なスピーチ活動(例えば会議、ラジ
オ放送、およびTV番組など)を文字化するとき、人々
が句読点を声に出して言うことを期待することはできな
い。さらに、口述中に句読点を声に出して言うことは、
極めて不自然である。そうするように要求された場合で
さえも、人々は、話し中または記事を読み上げるとき
に、句読点を声に出して言うことをしばしば忘れる。さ
らに、全ての文章が心から直接生じる自然発生的なスピ
ーチの口述では、大抵の人々にとって、使用すべき句読
点を正確に決定し、流暢さを損ねることなく全ての句読
点を正確に声に出して言うことは、非常に困難である。
これは、日常的な音声言語で句読点が使用されること
は、皆無ではないとしても、まれであるという事実の結
果である。
【0007】
【発明が解決しようとする課題】したがって、連続音声
認識において容易に使用され、スピーチ中に句読点を声
に出して言うことを必要とせず、したがってユーザの通
常のスピーチに影響を及ぼさない、句読点を自動的に生
成する装置および方法が緊急に必要である。
【0008】本発明の第一の目的は、連続音声認識で句
読点を自動的に生成する装置を提供することである。
【0009】本発明の第二の目的は、連続音声認識で句
読点を自動的に生成する方法を提供することである。
【0010】
【課題を解決する手段】第一の目的を達成するために、
本発明は、ユーザの音声を語として認識する音声認識手
段を含む、連続音声認識で句読点を自動的に生成するた
めの装置を提供する。この音声認識手段はユーザの音声
中の疑似雑音をも認識し、さらに、音声認識手段の出力
結果における擬似雑音をマークする擬似雑音マーキング
手段と、擬似句読点を含む言語モデルに基づいて、擬似
雑音マーキング手段によってマークされた擬似雑音の全
ての位置において最も可能性の高い擬似句読点を見つけ
出すことによって、最も可能性の高い擬似句読点に対応
する句読点を生成する句読点生成手段とを含む。
【0011】本発明はさらに、ユーザの音声を語として
認識するための音声認識手段と、口述中のユーザの操作
に応答して、音声認識手段の出力結果における位置を指
示する位置指示信号を生成するための句読点位置指示手
段と、言語モデルに含まれる全ての擬似句読点につい
て、それが音声認識手段の出力結果に現れる確率推定値
を与える擬似句読点確率計算手段と、前記擬似句読点確
率計算手段によって計算された確率推定値に基づき、位
置指示信号によって指示された位置の擬似句読点を見つ
け出すことによって、擬似句読点に対応する句読点を生
成する句読点照合手段とを含む、連続音声認識において
句読点を自動的に生成するための装置を提供する。
【0012】第二の目的を達成するために、本発明は、
ユーザの音声を語として認識し、ユーザ音声中の擬似雑
音をも認識する音声認識段階と、音声認識段階の結果出
力において擬似雑音をマークする擬似雑音マーキング段
階と、擬似句読点を含む言語モデルに基づいて、擬似雑
音マーキング段階でマークされた擬似雑音の全ての位置
において最も可能性の高い擬似句読点を見つけ出すこと
によって、最も可能性の高い擬似句読点に対応する句読
点を生成する句読点生成段階とを含む、連続音声認識に
おいて句読点を自動的に生成する方法を提供する。
【0013】本発明はさらに、ユーザの音声を語として
認識する音声認識段階と、口述中のユーザの操作に応答
して、音声認識段階の出力結果における位置を指示する
位置指示信号を生成する句読点位置指示段階と、言語モ
デルに含まれる全ての擬似句読点について、それが前記
音声認識段階の出力結果に現れる確率推定値を与える擬
似句読点確率計算段階と、前記擬似句読点確率計算段階
によって計算された確率推定値に基づき、位置指示信号
によって指示される位置に擬似句読点を見つけ出すこと
によって、擬似句読点に対応する句読点を生成する句読
点照合段階とを含む、連続音声認識において句読点を自
動的に生成する方法を提供する。
【0014】本発明の装置および方法では、システムが
自動的に句読点を生成することができるので、ユーザが
句読点を声に出して言う必要がない。したがって、本発
明の装置および方法により、ユーザのスピーチの流暢さ
が悪影響を受けず、音声認識システムの正確さおよび高
速性を向上することができる。
【0015】
【発明の実施の形態】最初に、本発明の幾つかの概念を
紹介する。
【0016】日常のスピーチにおいて、言語の語に対応
する連続音声を出す他に、人々はしばしば、吸息や唇を
打つ音など、多少の雑音を出している。これらの雑音は
言語の語として認識することはできない。さらに、連続
音声と連続音声の間に沈黙が入ることがある。一般的な
音声認識システムは、これらの雑音や沈黙を使用せず、
これらを除去するだけである。経験から本発明者らは、
雑音および沈黙と表記すべき句読点との間に特定の関係
があることを発見した。例えば、記事を読み上げている
ときに、終止符「.」が現れると、人々は習慣的に長時
間沈黙し続ける。またコンマ「,」が現れると、彼らは
しばしば短時間沈黙し続け、急いで吸息する。「、」が
現れるときは、さらに短い時間吸息せずに沈黙し続ける
だけである。したがって、本発明の方法では、これらの
雑音および沈黙を利用する。
【0017】さらに、2つの語が間に音や小休止を入れ
ずに滑らかに話されるときに、それらの間に句読点が入
ることがある。本発明の方法を実現するために、2つの
連続する語の間に「無音」記号を人工的に追加する。本
明細書では、雑音、沈黙、および「無音」を擬似雑音と
呼ぶ。したがって、2つの語の音の間には必ず擬似雑音
がある。
【0018】全ての擬似雑音は、擬似雑音集合Dを構成
する。したがって、 D={「無音」,沈黙,吸息,唇を打つ音,...} となる。
【0019】言語には句読点をマークする特定の規則が
ある。コンピュータによる句読点の自動マーキングの実
現を促進するために、句読点を含む莫大な量の音声材料
から統計的な方法によって句読点をマークする規則を要
約する必要がある。本発明の方法の実現を促進するため
に、テキストの句読点が表れない場所に、意図的に「無
句読点」を追加する。本明細書では、句読点および「無
句読点」を擬似句読点と定義する。
【0020】したがって、2つの語の間には必ず擬似句
読点がある。
【0021】全ての擬似句読点は、擬似句読点集合Mを
構成する。
【0022】M={「無句読点」,「終止符」,「コン
マ」,「感嘆符」,「小休止」,...} となる。
【0023】句読点の自動生成は、2つの必要な段階を
含む。第一段階で、句読点をどこにマークすべきかを決
定する。つまり句読点の位置を決定する。第二段階で、
どの句読点をマークすべきかを決定する。つまり句読点
の種類を決定する。以下で、句読点の位置および種類の
決定を自動的に完了できる、より複雑な第一実施形態に
ついて説明する。次に、ユーザが句読点の位置を指示し
なければならない第二実施形態について説明する。
【0024】図2は、本発明に係る連続音声認識におい
て句読点を自動的に生成するための装置の第一実施形態
の一般的構造の略図を示す。図2で、符号1は音声検出
手段を表し、符号2'は発音および擬似雑音確率計算手
段を、符号3は語照合手段を、符号4は文脈生成手段
を、符号5は語確率計算手段を、符号6'は認識結果出
力手段を、符号7'は擬似雑音を含む音響モデルを、符
号8は言語モデルを表す。上記構成要素は、図1に示す
対応する構成要素と同一または同様の機能を持つ。さら
に、符号9は擬似雑音マーキング手段を、符号10は擬
似句読点確率計算手段を、符号11は擬似句読点を含む
言語モデルを、符号12は句読点を含む文脈生成手段
を、符号13は句読点照合手段を、符号14は擬似句読
点を条件とする擬似雑音確率計算手段を、符号15は擬
似句読点と擬似雑音の間の対応表を表す。
【0025】図2では、擬似雑音集合Dの各要素に対応
する音響が、擬似雑音を含む音響モデル7'に追加され
ている(その機能は図1の音響モデル7と同様であ
る)。したがって、擬似雑音を含む音響モデル7'は、
語の発音または擬似雑音のいずれかに対応する。擬似雑
音を含む音響モデル7'の各発音または雑音について、
発音および擬似雑音確率計算手段2'は、それが音声サ
ンプルに近いかどうかの確率推定値を与える。擬似雑音
を含む音響モデルを第一音響モデルAM1と呼び、これ
は各語の発音だけでなく、各擬似雑音に対応する音響を
も含む。
【0026】擬似句読点集合Mの各要素は、擬似句読点
を含む言語モデル11に追加される。いうまでもなく、
全ての擬似句読点を、同一モデルとして言語モデル8に
追加することができる。様々な実装方式は本発明を限定
するものではない。語確率計算手段5は、図1の語確率
計算手段5と同じであり、そこで使用される言語モデル
を第一言語モデルLM1と呼ぶ。第一言語モデルLM1
は、認識される言語で頻繁に使用される全ての語を含
む。
【0027】したがって、図1に示す装置と同様に、検
出された音響は、音響検出手段1、発音および擬似雑音
確率計算手段(AM1)2'、語照合手段3、文脈生成
手段4、語確率計算手段(LM1)5、擬似雑音を含む
音響モデル7'、および言語モデル8を使用することに
よって、対応する語または擬似雑音に復号することがで
きる。この復号結果を第一シーケンスと呼ぶ。第一シー
ケンスにおける「無音」など、他の擬似雑音は、擬似雑
音マーキング手段9によってマークされる。
【0028】(擬似句読点を含む)現在の文脈の場合、
擬似句読点確率計算手段10は、句読点を含む大量の言
語材料から要約された言語規則に基づいて、擬似句読点
を含む言語モデル11の擬似句読点が次の句読点である
かどうかの確率推定値を計算する。この装置で使用する
言語モデル11を第二言語モデルLM2と呼ぶ。第二言
語モデルを構築する際に、音声材料における全ての句読
点を確保した。したがって、第二言語モデルLM2は全
ての擬似句読点を含む。例えば、cを現在の文脈、mを
擬似句読点と仮定すると、LM2の作用は、P(m|
c)を計算することである。
【0029】第二音響モデルAM2を使用する、擬似句
読点を条件とする擬似雑音確率計算手段14は、特定の
擬似雑音が特定の擬似句読点位置で現れる確率推定値を
出す。第二音響モデルAM2は、統計的方法を使用する
ことによって、大量の言語材料に基づいて構築される。
第二音響モデルAM2の構築中に、擬似句読点と擬似雑
音の対応する対を見つけ出し、擬似句読点と擬似雑音と
の間の対応表15に格納する。擬似句読点を条件とする
擬似雑音確率計算手段14は、擬似句読点と擬似雑音の
間の対応表15に基づいて、条件付き確率P(d|m)
を計算する。ここでmは擬似句読点であり、dは擬似雑
音である。第二音響モデルAM2の特定の構築について
は、後で詳述する。
【0030】当然、そのような条件付き確率P(d|
m)は、大量の言語材料を使用する統計的方法によって
予め獲得し、対応する表に格納することができる。句読
点を生成する実際の手順では、表を検索することによっ
て、対応する確率値が見つけ出される。つまり、擬似句
読点を条件とする擬似雑音確率計算手段は、様々な方法
で実装することができるが、それは本発明にいかなる制
限も加えない。
【0031】句読点照合手段13は、擬似句読点確率計
算手段10によって計算された確率推定値P(m|c)
と、擬似句読点を条件とする擬似雑音確率計算手段14
によって計算された確率推定値P(d|m)とを組み合
わせ、擬似句読点を含む言語モデル11の全ての擬似句
読点に関する相関確率P(d|m)*P(m|c)(擬
似雑音を別の擬似句読点と認識する確率を表す)を計算
し、最大相関確率値を持つ擬似句読点を自動生成擬似句
読点として選択する。この手順は次のように表すことが
できる。 MML=argmax m:AM2(d、m)*LM2
(m,c) ここでmは擬似句読点、dは雑音、cは文脈であり、か
つ AM2(d,m)=P(d|m)、 LM2(m,c)=P(m|c) である。
【0032】m=「無句読点」の場合、文脈状態におい
て、句読点の代わりに、語が来ることを表し、したがっ
て、 P(「無句読点」|c)=ΣP(w|c) となる。w=語である。
【0033】句読点を含む文脈生成手段12は、上述の
生成された句読点を使用して現在の文脈を変更させ、次
の擬似雑音を処理する。認識結果出力手段6'は、認識
された語および自動的に生成された句読点(または変換
された通常の句読点)を出力する。
【0034】本発明に従って句読点を自動的に生成する
装置の第二実施形態として、連続音声認識において句読
点を自動的に生成するための別の種類の装置が、上述の
第一実施形態から誘導される。著しい相違点は、それ
が、口述中のユーザの操作に応答して、音声認識手段の
出力結果における位置を示す位置指示信号を生成する句
読点位置指示手段を含むことにある。位置指示手段は、
例えばマウスまたはその他の特殊ハードウェアとするこ
とができる。それはまた、言語モデルに含まれる各擬似
句読点について、それが音響認識手段の出力結果に現れ
る確率推定値を与えるための擬似句読点確率計算手段
(10)と、擬似句読点確率計算手段によって計算され
た確率推定値に従って、位置指示信号によって指示され
た位置の擬似句読点を見つけ出し、擬似句読点に対応す
る句読点を生成するための句読点照合手段をも含む。
【0035】句読点を自動的に生成するための上述の装
置では、擬似雑音は利用されない。したがって、第一音
響モデルAM1および第二音響モデルAM2における擬
似雑音部は除去され、実装は容易になる。一方、より高
い精度を得ることができる。しかし、ユーザにとって
は、第一実施形態ほど便利ではない。
【0036】図3は、本発明に係る連続音声認識で句読
点を自動的に生成する方法の第一実施形態の流れ図であ
る。
【0037】ステップS31で、音声認識手順が開始す
る。このステップでは、文脈cなどの内部変数は全て空
にされる。
【0038】ステップS32で、ユーザが語を読む音声
が検出される。ステップS33で、ユーザの音声は、第
一音響モデルAM1および第一言語モデルLM1を使用
することによって、語または擬似雑音に復号される。例
えば、次のような文章 「このリンゴは赤く,緑ではない.」 を読み上げるときに、人々はその中の語だけを読み上げ
る。したがって、以下のステップのそれぞれを繰返し実
行することによって、ユーザの音声は次のような第一シ
ーケンスに復号することができる。 「このリンゴは赤く(吸息)緑ではない(沈黙)」。
【0039】ステップS34で、上記の第一シーケンス
における擬似雑音がマークされる。ここで擬似雑音と
は、ステップS33で復号されなかった他の擬似雑音を
指す。この実施形態では、実装を容易にするために、
「無音」マークが2つの連続する語の間に追加される。
したがって、次のような第二シーケンスが形成される。 「この(無音)リンゴ(無音)は(無音)赤く(吸息)
緑(無音)ではない(沈黙)」。
【0040】ステップS35で、全ての擬似句読点mに
ついて、現在の文脈の場合における条件付き確率P(m
|c)が計算される。
【0041】ステップS36で、全ての擬似雑音dにつ
いて、それぞれの擬似句読点mの場合の条件付き確率P
(d|m)が計算される。代替方法として、各擬似雑音
dおよび各擬似句読点mについて、統計的方法を用いる
ことによって大量の言語材料に基づいて、事前に条件付
き確率P(d|m)を計算し、表に格納しておき、次に
表を検索することによってステップS36を実現するこ
ともできる。
【0042】ステップS37で、P(d|m)*P(m
|c)を最大にする擬似句読点MMLを見つける。つま
り、 MML=argmax m:P(d|m)*P(m|c) を計算する。
【0043】ステップS35、S36、およびS37
は、以下の手順として認識することもできる。
【0044】前記第二シーケンスの全ての擬似雑音dお
よびその文脈cについて、第二音響モデル(AM2)お
よび第二言語モデル(LM2)を使用することによっ
て、 MML=argmax m:AM2(d,m)*LM2
(m,c) となるように最適擬似句読点MMLを見つける。ここで、
mは句読点であり、 AM2(d,m)=P(d|m) LM2(m,c)=P(m|c) である。
【0045】 m=「無句読点」の場合、 LM2(「無句読点」,c)=P(「無句読点」|c) =Σcount(c,w) w≠句読点である。これは、句読点でない語wの全ての
P(w|c)の合計を示す。
【0046】ステップS38で、MMLは自動的に生成さ
れた擬似句読点として選ばれ、現在の文脈cが更新され
る。したがって、次の第三シーケンスが形成される。 「この(無句読点)リンゴ(無句読点)は(無句読点)
赤く(コンマ)緑(無句読点)ではない(終止符)」。
【0047】ステップS39で、連続音声認識を終了す
るかどうかが判断される。終了しない場合には、ステッ
プS32にジャンプする。そうでなければ、手順はステ
ップS310に進む。
【0048】ステップS310で、認識された語および
自動的に生成された句読点が出力される。このステップ
で、擬似句読点を実句読点に置換することができる。例
えば、次のような結果が出力される。 「このリンゴは赤く,緑ではない.」
【0049】ステップS311で手順は終了する。
【0050】上述の第一、第二、および第三シーケンス
は、ユーザが各語を読み上げると同時に、ステップS3
2からS38までを繰返し実行することによって、徐々
に形成されることに留意されたい。つまり、上記手順は
実時間で実行される。句読点は、文全体の復号が完了し
た後だけでなく、実時間で自動的に生成することができ
る。文脈を形成する語の復号が終了すると、文脈に基づ
いて句読点を生成することができる。いうまでもなく、
音声認識は文単位で実行することができる。ただし、そ
れは、本発明にいかなる制限も加えない。
【0051】上述の通り、第二音響モデルAM2は、大
量の言語材料に基づいて構成される。例えば、それは以
下の方法で構成することができる。 (1)例えば「w1w2,w3。w4」などの訓練テキ
ストを例に取る。訓練テキストの擬似句読点を識別し
て、 w1「無句読点」w2コンマw3終止符w4 を得る。 (2)訓練者は、句読点を読み上げずにテキスト「w1
w2,w3。w4」を読み上げる。 (3)第一音響モデルAM1および第一言語モデルLM
1を使用して、訓練者の音声訓練を復号する。上記テキ
ストには句読点があるので、訓練者は読み上げるとき
に、特定の読み上げ様式を表現する。w1とw2の間に
は句読点が無く、これらは連続的に読み上げられる。w
2を読み上げた後、訓練者はコンマに遭遇し、短時間休
止し、吸息するかもしれない。次に訓練者はw3を読み
上げ、沈黙する(終止符のため)。最後にw4を読み上
げる。例えば、復号された出力は次のようになる。 w1w2吸息w3沈黙w4 (4)復号された出力に雑音をマークする。上記の例で
は、次のようになる。 w1「無音」w2吸息w3沈黙w4 (5)擬似句読点mと対応する擬似雑音dを照合する。 (「無句読点」,「無音」) (コンマ,吸息) (終止符,沈黙)
【0052】擬似句読点mの種類および擬似雑音の種類
について、対(m,d)と呼ばれる対応する関係があ
る。対(m,d)の数はc(m,d)と表される。訓練
テキスト、つまり言語材料は、訓練者と同様に、様々な
擬似句読点および普通の人々の話し方を充分に網羅する
必要がある。したがって、c(m、d)は一般に1より
多い。 (6)P(d|m)は大まかにc(m,d)/c(m)
で推定される。ここでc(m)は、全ての擬似雑音d'
の対応するc(m,d')の合計である。
【0053】上記は、第二音響モデルAM2を構成する
方法である。いうまでもなく、他の方法を使用して、同
じ機能を持つ音響モデルAM2を構成することができ
る。
【0054】図2および図3に関連して以上で説明した
句読点を自動的に生成するための装置および方法では、
ユーザが句読点を声に出して言う必要も、ユーザが句読
点の位置を指示する必要も無い。しかし、様々なユーザ
が様々な話し方をするので、擬似雑音を句読点の位置を
指示するための条件の1つとして使用する場合、何らか
のエラーが生じるはずである。
【0055】以下で述べる第二実施形態では、口述中に
句読点が必要なときに、口述と同時にユーザが明瞭な指
示を与えることが必要である。そうした明瞭な指示は、
例えば、マウスボタンまたは特定のハードウェアをクリ
ックすることによって実現される。したがって、擬似雑
音を使用しないので、第一音響モデルAM1の擬似雑音
部および第二音響モデルAM2は除去される。実現が容
易になり、より高い精度を得られる。しかし、ユーザに
とっては、第一実施形態の場合ほど操作が簡便ではな
い。
【0056】図4に示すように、本発明に従って句読点
を自動的に生成する方法の第二実施形態は、以下の段階
を含む。
【0057】ステップS41で、音声認識手順が開始す
る。このステップでは、文脈cなどの内部変数は全て空
にされる。
【0058】ステップS42で、ユーザの音声が検出さ
れる。ステップS43で、通常の音響モデルAMおよび
言語モデルLMを使用することによって、ユーザの音声
が語に復号される。
【0059】ステップS45で、口述中にユーザによっ
て指示される句読点の位置が識別される。
【0060】ステップS47で、次のように第二言語モ
デルLM2を使用することによって、最適擬似句読点M
MLが見つけ出される。 MML=argmax m:LM2(m,c) ここで、mは句読点であり、 LM2(m,c)=P(m|c)である。
【0061】ステップS48で、MMLは自動的に生成さ
れた句読点として選ばれ、現在の文脈cが更新される。
【0062】ステップS49で、連続音声認識を終了す
るかどうかが判断される。終了しない場合には、手順は
S42にジャンプする。そうでなければ、ステップS4
10に進む。
【0063】ステップS410で、認識された語および
自動的に生成された句読点が出力される。このステップ
で、擬似句読点を実句読点に置換することができる。
【0064】ステップS411で、手順は終了する。
【0065】次に第三実施形態について説明する。これ
は、機能的に第一実施形態と第二実施形態の中間的な形
態である。第三実施形態は、ユーザが口述中に句読点が
必要なときに明確な指示を与えなければならないが、ユ
ーザは、任意の検出可能な雑音を発生するために例えば
「唇を打つ音」など特殊な音を発するか、または句読点
を指示するために、物理的な移動を行うことなく、意図
的に沈黙するだけでよいという点が、第二実施形態とは
異なる。この方法により、ユーザはより便利に流暢に話
すことができる。第三実施形態は、口述中に句読点の位
置で特殊な音を発生するので、自然な雑音と句読点を指
示する音との間の相違がいっそう明瞭になるという点
で、第一実施形態とは異なる。第二音響モデルAM2を
構成するときの訓練者の要件は同じである。第三実施形
態は、第一実施形態より高い精度が得られることが、実
践的に証明されている。
【0066】本発明の方法は、必ずしも後処理に限定さ
れるものではない。つまり、文全体の復号が完了した後
で句読点を自動的に生成する必要はなく、実時間で生成
することができる。つまり、文脈を形成する語が復号さ
れるや否や、文脈に従って句読点を自動的に生成するこ
とができる。
【図面の簡単な説明】
【図1】従来技術の連続音声認識システムの構成の略図
である。
【図2】本発明に係る連続音声認識システムで句読点を
自動的に生成するための装置の第一実施形態の一般的構
造の略図である。
【図3】本発明に係る連続音声認識で句読点を自動的に
生成するための方法の第一実施形態の一般流れ図であ
る。
【図4】本発明に係る連続音声認識で句読点を自動的に
生成するための方法の第二実施形態の一般流れ図であ
る。
【符号の説明】
1 音声検出手段 2' 発音および擬似雑音確率計算手段 3 語照合手段 4 文脈生成手段 5 語確率計算手段 6' 認識結果出力手段 7' 擬似雑音を含む音響モデル 8 言語モデル 9 擬似雑音マーキング手段 10 擬似句読点確率計算手段 11 擬似句読点を含む言語モデル 12 句読点を含む文脈生成手段 13 句読点照合手段 14 擬似雑音確率計算手段 15 対応表
フロントページの続き (72)発明者 ドナルド・ティー・タン 中華人民共和国 北京市朝陽区 アジア大 会村 フイユアン・インターナショナルア ル・アパートメンツ ディー棟 アパート メント1708 (72)発明者 シャオ・チン・チュー 中華人民共和国 北京市海淀区 アンニン リー 15−4−402 (72)発明者 リー・チン・シェン 中華人民共和国 北京市海淀区 シャンテ ィートンリー セクション2 3−3− 102

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】連続音声認識システムで句読点を自動的に
    生成する装置であって、 ユーザ音声を認識して語に変換し、さらに前記ユーザ音
    声中の擬似雑音も認識する手段(1、2、3、5)と、 前記認識する手段(1、2、3、5)の出力結果におけ
    る擬似音声をマークする手段(9)と、 擬似句読点を含む言語モデルに基づいて、前記マークす
    る手段(9)によってマークされた擬似雑音の位置にお
    いて最も可能性の高い擬似句読点を見つけ出すことによ
    って句読点を生成する手段(10、14、13)とを含
    む装置。
  2. 【請求項2】句読点を生成する前記手段が、 擬似句読点を含む言語モデル内の各擬似句読点につい
    て、前記出力結果に前記擬似句読点が現れる確率を計算
    する手段(10)と、 特定の擬似雑音が特定の擬似句読点の位置に現れる確率
    を計算する手段(14)と、 計算された前記確率に基づいて、前記マークされた擬似
    雑音の位置において最も可能性の高い擬似句読点を見つ
    け出し、前記最も可能性の高い擬似句読点に対応する句
    読点を生成する手段(13)とを含む請求項1記載の装
    置。
  3. 【請求項3】ユーザ音声を認識し、前記ユーザ音声を語
    に変換する手段(1、2、3、5)を含む、連続音声認
    識システムで句読点を自動的に生成する装置であって、 口述中のユーザの操作に応答して、前記手段(1、2、
    3、5)の出力結果中の位置を指示する位置指示信号を
    生成する手段と、 擬似句読点を含む言語モデル内の各擬似句読点につい
    て、前記擬似句読点が前記出力結果に現れる確率を計算
    する手段(10)と、 計算された前記確率に基づいて、前記位置指示信号によ
    って指示された位置において最も可能性の高い擬似句読
    点を見つけ出し、前記最も可能性の高い擬似句読点に対
    応する句読点を生成する手段(13)とを含む装置。
  4. 【請求項4】連続音声認識システムで句読点を自動的に
    生成する方法であって、 ユーザ音声を認識して語に変換し、さらに前記ユーザ音
    声中の擬似雑音も認識するステップと、 前記ステップの出力結果において擬似雑音をマークする
    ステップと、 擬似句読点を含む言語モデルに基づいて、擬似雑音をマ
    ークする前記ステップでマークされた前記擬似雑音の位
    置において最も可能性の高い擬似句読点を見つけ出すこ
    とによって句読点を生成するステップと、を含む方法。
  5. 【請求項5】句読点を生成する前記ステップが、 擬似句読点を含む言語モデル内の各擬似句読点につい
    て、前記出力結果に前記擬似句読点が現れる確率を計算
    するステップと、 特定の擬似雑音が特定の擬似句読点の位置に現れる確率
    を計算するステップと、 計算された前記確率に基づいて、前記マークされた擬似
    雑音の位置において最も可能性の高い擬似句読点を見つ
    け出し、前記最も可能性の高い擬似句読点に対応する句
    読点を生成するステップとを含む請求項4記載の方法。
  6. 【請求項6】ユーザ音声を認識し、前記ユーザ音声を語
    に変換するステップを含む、連続音声認識システムで句
    読点を自動的に生成する方法であって、 口述中のユーザの操作に応答して、前記ステップの出力
    結果中の位置を指示する位置指示信号を生成するステッ
    プと、 擬似句読点を含む言語モデル内の各擬似句読点につい
    て、前記擬似句読点が前記出力結果に現れる確率を計算
    するステップと、 計算された前記確率に基づいて、前記位置指示信号によ
    って指示された位置において最も可能性の高い擬似句読
    点を見つけ出し、前記最も可能性の高い擬似句読点に対
    応する句読点を生成するステップとをさらに含むことを
    特徴とする方法。
JP13211799A 1998-05-13 1999-05-13 連続音声認識において句読点を自動的に生成する装置および方法 Expired - Fee Related JP3282075B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN98108367.6 1998-05-13
CNB981083676A CN1159662C (zh) 1998-05-13 1998-05-13 连续语音识别中的标点符号自动生成装置及方法

Publications (2)

Publication Number Publication Date
JP2000029496A true JP2000029496A (ja) 2000-01-28
JP3282075B2 JP3282075B2 (ja) 2002-05-13

Family

ID=5219607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13211799A Expired - Fee Related JP3282075B2 (ja) 1998-05-13 1999-05-13 連続音声認識において句読点を自動的に生成する装置および方法

Country Status (4)

Country Link
US (1) US6718303B2 (ja)
JP (1) JP3282075B2 (ja)
KR (1) KR100305455B1 (ja)
CN (1) CN1159662C (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069160A1 (ja) * 2004-01-19 2005-07-28 Kabushiki Kaisha Toshiba 翻訳装置
WO2009101837A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
JP2017162100A (ja) * 2016-03-08 2017-09-14 富士通株式会社 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2020064370A (ja) * 2018-10-15 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3232289B2 (ja) * 1999-08-30 2001-11-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 記号挿入装置およびその方法
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
WO2002027535A1 (en) * 2000-09-28 2002-04-04 Intel Corporation Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US20040024582A1 (en) * 2002-07-03 2004-02-05 Scott Shepard Systems and methods for aiding human translation
US20040204939A1 (en) * 2002-10-17 2004-10-14 Daben Liu Systems and methods for speaker change detection
US7580838B2 (en) * 2002-11-22 2009-08-25 Scansoft, Inc. Automatic insertion of non-verbalized punctuation
US7921374B2 (en) * 2004-07-08 2011-04-05 Research In Motion Limited Adding interrogative punctuation to an electronic message
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
FI20060666A0 (fi) * 2006-07-07 2006-07-07 Nokia Corp Menetelmä ja järjestelmä epäjatkuvan lähetyksen toiminnallisuuden parantamiseksi
WO2009122779A1 (ja) * 2008-04-03 2009-10-08 日本電気株式会社 テキストデータ処理装置、方法、プログラムが格納された記録媒体
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8719004B2 (en) * 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions
CN101876887A (zh) * 2010-07-26 2010-11-03 刘彤 语音输入方法及装置
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
CN102231278B (zh) * 2011-06-10 2013-08-21 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
US8990224B1 (en) * 2011-11-14 2015-03-24 Google Inc. Detecting document text that is hard to read
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN103971684B (zh) * 2013-01-29 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
US9460067B2 (en) * 2013-10-30 2016-10-04 Lenovo (Singapore) Pte. Ltd. Automatic sentence punctuation
CN107564526B (zh) * 2017-07-28 2020-10-27 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
CN107632980B (zh) * 2017-08-03 2020-10-27 北京搜狗科技发展有限公司 语音翻译方法和装置、用于语音翻译的装置
CN108538292B (zh) * 2018-04-26 2020-12-22 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
US11315570B2 (en) * 2018-05-02 2022-04-26 Facebook Technologies, Llc Machine learning-based speech-to-text transcription cloud intermediary
US10242669B1 (en) * 2018-08-07 2019-03-26 Repnow Inc. Enhanced transcription of audio data with punctuation markings based on silence durations
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
CN110908583B (zh) * 2019-11-29 2022-10-14 维沃移动通信有限公司 符号显示方法及电子设备
CN112906348B (zh) * 2021-02-04 2022-04-26 云从科技集团股份有限公司 对文本自动添加标点符号的方法、系统、设备及介质
CN117113941B (zh) * 2023-10-23 2024-02-06 新声科技(深圳)有限公司 标点符号恢复方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56114041A (en) 1980-02-12 1981-09-08 Toshiba Corp Producing device of voice input document
JPH0693221B2 (ja) * 1985-06-12 1994-11-16 株式会社日立製作所 音声入力装置
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
JP2000047688A (ja) 1998-07-28 2000-02-18 Nikon Corp 音声入力方法、および、記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069160A1 (ja) * 2004-01-19 2005-07-28 Kabushiki Kaisha Toshiba 翻訳装置
WO2009101837A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 記号挿入装置および記号挿入方法
JP5141695B2 (ja) * 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
US8577679B2 (en) 2008-02-13 2013-11-05 Nec Corporation Symbol insertion apparatus and symbol insertion method
JP2017162100A (ja) * 2016-03-08 2017-09-14 富士通株式会社 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置
JP2020064370A (ja) * 2018-10-15 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP7229144B2 (ja) 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法

Also Published As

Publication number Publication date
US20020069055A1 (en) 2002-06-06
CN1159662C (zh) 2004-07-28
CN1235312A (zh) 1999-11-17
US6718303B2 (en) 2004-04-06
JP3282075B2 (ja) 2002-05-13
KR19990087935A (ko) 1999-12-27
KR100305455B1 (ko) 2001-09-26

Similar Documents

Publication Publication Date Title
JP3282075B2 (ja) 連続音声認識において句読点を自動的に生成する装置および方法
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
US9318103B2 (en) System and method for recognizing a user voice command in noisy environment
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
CN107909995B (zh) 语音交互方法和装置
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
Bell et al. Child and adult speaker adaptation during error resolution in a publicly available spoken dialogue system.
US11563708B1 (en) Message grouping
JP2019015950A (ja) 音声認識方法、プログラム、音声認識装置、及びロボット
CN112820281B (zh) 一种语音识别方法、装置及设备
US11043212B2 (en) Speech signal processing and evaluation
JP2012255867A (ja) 音声認識装置
JP4042435B2 (ja) 音声自動質問応答装置
Seneff The use of subword linguistic modeling for multiple tasks in speech recognition
JP2005241767A (ja) 音声認識装置
WO2023036283A1 (zh) 一种在线课堂交互的方法及在线课堂系统
Cuendet Model adaptation for sentence unit segmentation from speech
JP2000242295A (ja) 音声認識装置および音声対話装置
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
Furui Toward robust speech recognition and understanding

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees