JP2004510209A - 発声された番号シーケンスの分析方法及び装置 - Google Patents
発声された番号シーケンスの分析方法及び装置 Download PDFInfo
- Publication number
- JP2004510209A JP2004510209A JP2002531409A JP2002531409A JP2004510209A JP 2004510209 A JP2004510209 A JP 2004510209A JP 2002531409 A JP2002531409 A JP 2002531409A JP 2002531409 A JP2002531409 A JP 2002531409A JP 2004510209 A JP2004510209 A JP 2004510209A
- Authority
- JP
- Japan
- Prior art keywords
- pause length
- consecutive numbers
- numbers
- determined
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Image Analysis (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Machine Translation (AREA)
- Traffic Control Systems (AREA)
Abstract
発声された番号シーケンスの分析のための方法であって、番号が自動音声認識により認識され、二つの連続的な番号の間のポーズ長が確定され、確定されたポーズ長に基づいて、二つの連続的な数値が単一数値に属するのか否かが決定される。発声された番号シーケンスの分析するための装置は、自動音声認識器と、二つの連続的な番号間のポーズ長を確定するための韻律部と、確定れたポーズ長に基づいて二つの連続的な番号が単一数値に属するか否かを決定するための処理部を備える。
Description
【0001】
【発明の背景】
【発明の属する技術分野】
本発明は、発声された番号シーケンスの分析のための方法及び装置に関する。
【従来の技術の分析】
数多くの技術的アプリケーションでは、発声された番号シーケンスの認識(recognition of a spoken sequence of numbers)が必要とされる。多くの移動体電話は、電話番号を発声による音声ダイヤル機能を備える。さらに、電子商取引のアプリケーションでは、発声注文番号及び発声されたクレジットカード番号の認識が必要とされる。
【0002】
WO−A−89 04035は、複数の数字により構成される電話番号のような番号の認識方法を開示する。数字は、単一に又はシーケンスにて発声される。1以上の数字を備える2つの発声は、ユーザーが定義するポーズの配置(user−defined placement of pauses)によって分離されても良い。2つの発声の間のポーズ時間が監視され、所定のポーズ時間区間が発声に続いて検知されると、認識された数字が音声シンセサイザーを介してリプライされる。1以上の数字を備える更なる発声が開始され、次の発声はそれに続くポーズの後にリプライされる。
【0003】
発声された数字及び数字のシーケンスの認識は、不利な雑音環境下においても信頼性が高いが、”トゥエンティトゥ(twenty two)”や”ファイブ ハンドレッド サーティ(five hundred thirty)”のように自然に発声された数字の自動認識はより困難である。これは、”トゥエンティトゥ(twenty two)”や”ファイブ ハンドレッド サーティ(five hundred thirty)”のような発声された番号シーケンスは、1つ以上の数値(more than one numerical value)を表すことができるためである。つまり、”トゥエンティトゥ(twenty two)”のような発声された番号シーケンスは例えば、単一の数値”22”若しくは、2つの数値”20”及び”2”を表し得る。別の例では、”ファイブ ハンドレッド サーティ(five hundred thirty)”は、”530”と、2つの数値”500”及び”30”との両方を表すことができる。
【0004】
発声された番号シーケンスの自動認識において、大きな値を有する番号、若しくは、大きなシーケンスを有する番号を分析しなければならない場合には、認識処理の困難性が高くなる。即ち、八つの可能性がある。それらは、”1456”、”1000”及び”4”及び”100”及び”50”及び”6”、”1000”及び”456”、”1000”及び”400”及び”56”、”1000”及び”400”及び”50及び”6”、”1400”及び”56”、”1400”及び”50”及び”6”、”1450”及び”6”である。
【0005】
これらの曖昧さは、英語においてのみ生ずるわけではない。例えば、ドイツ語の”einhundert zehn”は、単一の数値”110”と、二つの数値”100”及び”10”の両方を表すことができる。しかしながら、発声された番号シーケンスの1以上の数値に関連する曖昧さは、言語が異なれば異なっていてもよい。例えば、フランス語において”quarante sept”は、単一の数値”47”若しくは、二つの数値”40”及び”7”の両方を表すことができるが、この曖昧さはドイツ語では生じない。ドイツ語において数値”47”は、”siebenundvierzig”と発声されるが、二つの数値のシーケンス”40”及び”7”は、”vierzig sieben”と発声されるからである。
【0006】
従って、そこに含まれる1以上の数値に関する異なる意味的解釈のロバストな識別性を可能とする、発声された番号シーケンスの分析のための方法及び装置が必要とされる。
【0007】
【発明の概要】
本発明は、発声された番号シーケンスの分析のための方法を提供することによりこの必要性を満足させるものである。当該方法では、番号は、自動音声認識により認識され、二つの連続的な番号の間のポーズ長(a pause length between two consecutive numbers)を確定し、確定されたポーズ長に基づいて、二つの連続的な数値が単一数値に属するのか否かを決定する。発声された番号シーケンスの分析するための装置は、自動音声認識器と、二つの連続的な番号間のポーズ長を確定するための韻律部(prosodic unit)と、確定されたポーズ長に基づいて二つの連続的な番号が単一数値に属するか否かを決定するための処理部を備える。
【0008】
本発明によれば、二つの連続的な発声番号の間の発声ポーズ長は、単一韻律判定基準、又は、複数の韻律基準のうちの一つとして、二つの連続的な発声された番号が、単一の数値又は二つの異なる数値に属するかどうかを判定するために利用される。発声ポーズ長は、発声された番号シーケンスを分析するためのロバストな韻律基準である。二つの連続する発声番号が、単一数値に属するかどうかの決定をするための発声ポーズ長とは別の更なる韻律パラメータは、ここにおいて引用により記載に代えるE.Noth等の”Prosodische Infomation:Begriffsbestimmung und Nutzen fur das Sprachverstehen”, in Paulus, Wahl(ed.), Mustererkennung 1997, Informatik aktuell, Springer−Verlag, Heidelberg, 1997, pages 37−52, で知られている。
【0009】
二つの連続的発声番号が、単一の数値に属するかどうかの決定は、”ハード(hard)”決定又は”ソフト(soft)”決定のいずれかになり得る。”ハード”決定は、韻律パラメータの所定の閾値を越えたか否かに基づくものである。”ソフト”決定は、所謂分類器、例えば、ニューロンネットワーク(neuronal network)のような手段によって、複数の韻律パラメータを考慮して、達成され、可能性のある決定がなされる。
【0010】
本発明の好適な実施形態によれば、もし、所定のポーズ長閾値を越えた場合には、二つの連続的な数値が単一数値に属しないことが自動的に決定される。そのようなメカニズムは、人間のリスナー(human listener)の音響的な知覚(acoustical perception)に対応するものである。二つの発声された番号”20”及び”2”は、もし、”20”と”2”の番号の発声の間に、発声ポーズが十分な期間設けられれば、例えば人間のリスナーによって二つの分離された数値として(即ち、”20”及び”2”)明確に知覚される。一方、発声された番号”20”と”2”は、もし発声ポーズが全く又はほとんど設けられない場合には、単一の数値(即ち、”22”)として知覚されるであろう。
【0011】
発声ポーズ長閾値は、二つの連続的な数値が単一数値に属するか否かを決定するための基礎を形成し、最初に所定値に設定される。この値は、経験的な値(empirical value)であり、代表的な音声データベース(representative speech database)に基づいて推定される。ポーズ長閾値はまた、調整可能(adjustable)である。これにより、例えば、装置のシステム設定における閾値を変更することにより、ユーザーは音声ポーズ長閾値を自己の発話法(his own manner−of−speaking)に対応させることが可能となる。
【0012】
ポーズ長閾値のロバスト設定は、個々の話者に依存する発声テンポと強い相関があることが分かっている。実際に、話者が異なる場合の発声テンポは幅広く変化しえる。本発明の好適な実施形態によれば、ポーズ長閾値はゆえに自動的に現在のユーザーの発声癖に適応される。このことは、例えば、ユーザーは既にそれが正確であることを認識している1以上の従前に発声された数値について、従前に確定された発声ポーズ長を分析することにより実行される。新しいポーズ長閾値は、従前に確定された発声ポーズ長について計算される平均値(mean)又は中央値(median)か、或いは、古い閾値と、従前に確定された発声ポーズ長の平均値又は中央値との間のいずれかの値にセットすることができる。言い換えれば、ポーズ長閾値は、シフトされる。
【0013】
もし、当該決定が発声ポーズ長のみならず、従前に言及した更なる韻律パラメータ(prosodic parameters)にも基づいてなされる場合には、連続的な発声番号が単一の数値に属するか否かの決定をよりロバストになすことができる。これらの更なる韻律パラメータは、フレーズ最後の長音化(phrase−final lengthening)、境界前の長音化(pre−boundary lengthening)、エネルギー等高線( energy contour )の形状、若しくは、フレーズ最後のフォールにおける特定のピッチの変動(specific pitch movement)といった音素期間(phoneme duration)に関連しえる。より好ましくは、各閾値はこれらの更なる韻律パラメータについても提供される。二つの連続的な番号が単一の意味を有するのか否かの決定は、従ってさらなる韻律パラメータの各閾値を超えたかどうかにという基準に基づくことができる。
【0014】
ポーズ長閾値のように、更なる韻律パラメータの各閾値は、ユーザーが調整可能であるか、又はユーザーの発声癖に応じて自動的に調整されるか、又は、適当なトレーニングデータに対応して調整されることができる。さらに、ユーザーが既に正確であるとを認識している既に発声された数値についての従前に確定された更なる韻律パラメータは、韻律パラメータの各閾値をシフトさせるために利用することができる。
【0015】
多くの言語において、発声された番号シーケンスの二つの連続する番号の間に位置する接続語(connecting words)は、当該二つの連続する番号が一つの数値に属することを示している。英語においてそのような接続語は、例えば”and”である。よって、”ワンハンドレッド アンド テン(one hundred and ten)”のような発声された番号シーケンスは、例え、”ハンドレッド(hundred)”と”テン(ten)”の間の全体のポーズ長、”ハンドレッド(hundred)”と”アンド(and)”の間のポーズ長、若しくは、”アンド(and)”と”テン(ten)”の間のポーズ長が、従前に設定されたポーズ長閾値を越える場合であっても、通常数値”110”を表すものである。
【0016】
1以上の接続語を二つの連続する番号の間に有する発声された番号シーケンスを正確に分析するために、本発明の好適な実施形態では、そのような接続語を認識する特徴を備える。本発明の第1の変形例においては、二つの連続する番号間に接続語が配置される場合は常に、当該二つの連続する番号が単一の数値に属すると決定される。
【0017】
第2の変形例においては、二つの数字の間の接続語の認定に基づいて、二つの連続する番号が単一の数値に属するか否かを決定するためのポーズ長閾値が変更される。言い換えれば、接続語の認定に基づいて、二つの連続する番号が単一の数値に属するか否かの決定は、そのような接続語が認定されない場合と異なるポーズ長閾値に基づいて行われる。その結果、二つの異なるポーズ長閾値が利用されることとなる。これにより発声された番号シーケンスの分析はよりロバストとなる。というのも、所定の場合では、接続語がそれらの間に配置されていても連続する番号が異なる数値に属することがあり、特に、二つの連続する番号の間のポーズ長が、極端に長い場合(例えば、ユーザーが接続語と、当該接続語の前又は後に続く番号との間に長いポーズをおいた場合)にそのようになるからである。
【0018】
発声された番号シーケンスにおける二つの連続する番号の間の発声ポーズ長を確定するには、いくつかの可能性がある。ポーズ長は、例えば二つの連続する発声番号の間の無言区間(silent interval)を計測することにより直接的に確定される。これは、いわゆる音声動作検出器(voice activity detector)によって実行される。発声ポーズ長はまた、自動音声認識の処理の副産物として取得される情報(the information obtained as a by−product from the process of automatic speech recognition)を利用して間接的に確定される。自動音声認識では、言葉(words)自体だけでなく、それらの時間軸上の各開始点及び終了点(their respective start and end points on a time axis)が計算される。このように、二つの連続する番号の最初の番号の終了点と、二つの連続する番号の二番目の番号の開始点とに基づいてポーズ長を確定することができる。特に、騒がしい環境(noisy environments)では、この技術は通常、二つの連続する番号間の無言区間を計測するよりも、よりロバストな結果を導くものである。
【0019】
本発明の更なる側面及び利点は、後述する本発明の好適な実施形態の詳細な記述及び図面を参照することにより、明らかなものとなるであろう。
【0020】
【好適な実施形態の説明】
図1において、本発明に対応する発声された番号シーケンスの分析のための装置100の概略図が示される。図1の分析装置100は、自動音声認識器120、二つの連続する番号の間のポーズ長を確定(determining a pause length between two consecutive numbers)するための韻律部140、二つの連続する番号が単一の数値に属するかどうかを決定するための処理部160及び入力部180を備える。
【0021】
”ファイブハンドレッド サーティ(five hundred thirty)”のような発声された番号シーケンスに応じて、自動音声認識器120は発声された番号のそれぞれは勿論のこと、発声された番号シーケンス内の接続語も認識する。認識処理においては、認識された番号及び接続語の時間軸上の開始点及び終了点が計算される。これらの開始点及び終了点は、韻律部140へ出力され、二つの連続する番号の間、若しくは、接続語及びそれに先行又は継続する番号の間のポーズ長が確定される。
【0022】
処理部160は、自動音声認識器120と韻律部140からの入力を共に受付ける。自動音声認識器120により認識された番号と、二つの番号の間に存在する接続語の存在と、二つの番号の間又は、接続語及びそれに先行又は継続する番号の間のポーズ長とに基づいて、処理部160は1以上の数値がそこに含まれているかどうかの観点から発声された番号シーケンスを分析する。
【0023】
処理部160は、連続する番号が単一の数値に属するかどうかを、ポーズ長閾値に基づいて決定する。このポーズ長閾値は最初、100ms(ミリ秒)と1s(秒)との間の値に設定される。より好ましくは、200ms(ミリ秒)である。
【0024】
入力部180により、ユーザーはこの初期閾値を自己の発声法(his own manner−of−speaking)に適応させることができる。入力部180はグラフィカルな又は物理的なスライドバーを備え、所定の範囲内において当該閾値の調整を可能としている。入力部180ではまた、装置100の1以上のユーザーの発声癖に対応した閾値の自動調整を選択することもできる。
【0025】
装置100の機能は、図2を参照してより詳細に以下に記載される。
【0026】
まず第1に、ポーズ長閾値Θは、自動的に、又はユーザーにより、或いは、適当なトレーニングデータに基づいて所定の値に設定される。その後、ユーザーは、”ファイブ(five)”、”ハンドレッド(hundred)”、”サーティ(thirty)”の三つの番号によって構成されるシーケンス”ファイブハンドレッド サーティ(five hundred thirty)”を発声する。これらの発声された番号は、自動音声認識器120における自動音声認識の対象となる。自動音声認識器120は、三つの番号”ファイブ(five)”、”ハンドレッド(hundred)”及び”サーティ(thirty)”につき、それらの各開始点及び終了点を認識する。各開始点及び終了点の検出は、第1のポーズが第1の番号”ファイブ(five)”と第2の番号”ハンドレッド(hundred)”との間に存在し、第2のポーズが、第2の番号”ハンドレッド(hundred)”と第3の番号”サーティ(thirty)”との間に存在することを示す。
【0027】
三つの番号の開始点及び終了点は、韻律部140へ入力され、第1のポーズのポーズ長P1と、第2のポーズのポーズ長P2とを確定(determine)する。自動音声認識器120によって認識された三つの番号と、韻律部140によって確定された二つのポーズ長P1及びP2とは、処理部160へ入力され、二つの連続する番号が単一の数値に属するか否かが、測定されたポーズ長P1及びP2に基づいて決定される。
【0028】
ポーズ長P1及びポーズ長P2との両方が、ポーズ長閾値Θを越える場合は、処理部160は発声された番号シーケンスは、三つの数値、つまり”5”と”100”と”30”とを含むと決定する。もし、二つのポーズ長P1及びP2のどちらもポーズ長閾値Θを越えない場合には、処理部160は発声された番号シーケンスは、単一の数値、つまり”530”を含むと決定する。
【0029】
もし、処理部160が第1のポーズ長P1のみがポーズ長閾値Θを越えると判定した場合には、発声された番号シーケンスは、二つの数値、つまり”5”と”130”とを含むと決定される。一方、もし第2のポーズ長P2のみがポーズ長閾値Θを越えると判定された場合には、処理部160は、発声された番号シーケンスは二つの数値、”500”と”30”とを含むものであると決定する。
【0030】
図2に示される方法によれば、ポーズ長P1はポーズ長P2よりも先に確定される。これにより、発声された番号シーケンスを、番号の発声された順番に従って分析することができる。もちろん、ポーズ長P1とP2は、異なる順序において確定され、分析されても良い。この場合は、番号シーケンスの全ての番号が分析ステップよりも先に発声されていることが要求される。
【0031】
図2に示される方法は、単に確定されたポーズ長に基づく決定に関連するものであるが、図1に示される韻律部140はまた、ポーズ長の他に更に韻律的パラメータを確定しても良いし、これらの更なる韻律的パラメータに基づいて決定がなされても良い。
【0032】
その他に、自動音声認識器120は、発声された番号シーケンス内における接続語を認識しても良い。処理部160は、接続語の認定に基づいて、決定の基礎となる1以上の韻律パラメータについて異なる閾値を適用しても良い。また、決定は、単に、ポーズ長とは別の1以上の韻律パラメータのみに基づいて行っても良い。
【0033】
本発明に対応する装置100及び方法は、例えば、静的な電子商取引システムや移動体電話のような移動体アプリケーションのような、多くのアプリケーションにおいて利用されても良い。
【図面の簡単な説明】
【図1】
本発明に対応する発声された番号シーケンスの分析のための装置の概略図である。
【図2】
本発明に対応する発声された番号シーケンスの分析のための方法の概略図である。
【発明の背景】
【発明の属する技術分野】
本発明は、発声された番号シーケンスの分析のための方法及び装置に関する。
【従来の技術の分析】
数多くの技術的アプリケーションでは、発声された番号シーケンスの認識(recognition of a spoken sequence of numbers)が必要とされる。多くの移動体電話は、電話番号を発声による音声ダイヤル機能を備える。さらに、電子商取引のアプリケーションでは、発声注文番号及び発声されたクレジットカード番号の認識が必要とされる。
【0002】
WO−A−89 04035は、複数の数字により構成される電話番号のような番号の認識方法を開示する。数字は、単一に又はシーケンスにて発声される。1以上の数字を備える2つの発声は、ユーザーが定義するポーズの配置(user−defined placement of pauses)によって分離されても良い。2つの発声の間のポーズ時間が監視され、所定のポーズ時間区間が発声に続いて検知されると、認識された数字が音声シンセサイザーを介してリプライされる。1以上の数字を備える更なる発声が開始され、次の発声はそれに続くポーズの後にリプライされる。
【0003】
発声された数字及び数字のシーケンスの認識は、不利な雑音環境下においても信頼性が高いが、”トゥエンティトゥ(twenty two)”や”ファイブ ハンドレッド サーティ(five hundred thirty)”のように自然に発声された数字の自動認識はより困難である。これは、”トゥエンティトゥ(twenty two)”や”ファイブ ハンドレッド サーティ(five hundred thirty)”のような発声された番号シーケンスは、1つ以上の数値(more than one numerical value)を表すことができるためである。つまり、”トゥエンティトゥ(twenty two)”のような発声された番号シーケンスは例えば、単一の数値”22”若しくは、2つの数値”20”及び”2”を表し得る。別の例では、”ファイブ ハンドレッド サーティ(five hundred thirty)”は、”530”と、2つの数値”500”及び”30”との両方を表すことができる。
【0004】
発声された番号シーケンスの自動認識において、大きな値を有する番号、若しくは、大きなシーケンスを有する番号を分析しなければならない場合には、認識処理の困難性が高くなる。即ち、八つの可能性がある。それらは、”1456”、”1000”及び”4”及び”100”及び”50”及び”6”、”1000”及び”456”、”1000”及び”400”及び”56”、”1000”及び”400”及び”50及び”6”、”1400”及び”56”、”1400”及び”50”及び”6”、”1450”及び”6”である。
【0005】
これらの曖昧さは、英語においてのみ生ずるわけではない。例えば、ドイツ語の”einhundert zehn”は、単一の数値”110”と、二つの数値”100”及び”10”の両方を表すことができる。しかしながら、発声された番号シーケンスの1以上の数値に関連する曖昧さは、言語が異なれば異なっていてもよい。例えば、フランス語において”quarante sept”は、単一の数値”47”若しくは、二つの数値”40”及び”7”の両方を表すことができるが、この曖昧さはドイツ語では生じない。ドイツ語において数値”47”は、”siebenundvierzig”と発声されるが、二つの数値のシーケンス”40”及び”7”は、”vierzig sieben”と発声されるからである。
【0006】
従って、そこに含まれる1以上の数値に関する異なる意味的解釈のロバストな識別性を可能とする、発声された番号シーケンスの分析のための方法及び装置が必要とされる。
【0007】
【発明の概要】
本発明は、発声された番号シーケンスの分析のための方法を提供することによりこの必要性を満足させるものである。当該方法では、番号は、自動音声認識により認識され、二つの連続的な番号の間のポーズ長(a pause length between two consecutive numbers)を確定し、確定されたポーズ長に基づいて、二つの連続的な数値が単一数値に属するのか否かを決定する。発声された番号シーケンスの分析するための装置は、自動音声認識器と、二つの連続的な番号間のポーズ長を確定するための韻律部(prosodic unit)と、確定されたポーズ長に基づいて二つの連続的な番号が単一数値に属するか否かを決定するための処理部を備える。
【0008】
本発明によれば、二つの連続的な発声番号の間の発声ポーズ長は、単一韻律判定基準、又は、複数の韻律基準のうちの一つとして、二つの連続的な発声された番号が、単一の数値又は二つの異なる数値に属するかどうかを判定するために利用される。発声ポーズ長は、発声された番号シーケンスを分析するためのロバストな韻律基準である。二つの連続する発声番号が、単一数値に属するかどうかの決定をするための発声ポーズ長とは別の更なる韻律パラメータは、ここにおいて引用により記載に代えるE.Noth等の”Prosodische Infomation:Begriffsbestimmung und Nutzen fur das Sprachverstehen”, in Paulus, Wahl(ed.), Mustererkennung 1997, Informatik aktuell, Springer−Verlag, Heidelberg, 1997, pages 37−52, で知られている。
【0009】
二つの連続的発声番号が、単一の数値に属するかどうかの決定は、”ハード(hard)”決定又は”ソフト(soft)”決定のいずれかになり得る。”ハード”決定は、韻律パラメータの所定の閾値を越えたか否かに基づくものである。”ソフト”決定は、所謂分類器、例えば、ニューロンネットワーク(neuronal network)のような手段によって、複数の韻律パラメータを考慮して、達成され、可能性のある決定がなされる。
【0010】
本発明の好適な実施形態によれば、もし、所定のポーズ長閾値を越えた場合には、二つの連続的な数値が単一数値に属しないことが自動的に決定される。そのようなメカニズムは、人間のリスナー(human listener)の音響的な知覚(acoustical perception)に対応するものである。二つの発声された番号”20”及び”2”は、もし、”20”と”2”の番号の発声の間に、発声ポーズが十分な期間設けられれば、例えば人間のリスナーによって二つの分離された数値として(即ち、”20”及び”2”)明確に知覚される。一方、発声された番号”20”と”2”は、もし発声ポーズが全く又はほとんど設けられない場合には、単一の数値(即ち、”22”)として知覚されるであろう。
【0011】
発声ポーズ長閾値は、二つの連続的な数値が単一数値に属するか否かを決定するための基礎を形成し、最初に所定値に設定される。この値は、経験的な値(empirical value)であり、代表的な音声データベース(representative speech database)に基づいて推定される。ポーズ長閾値はまた、調整可能(adjustable)である。これにより、例えば、装置のシステム設定における閾値を変更することにより、ユーザーは音声ポーズ長閾値を自己の発話法(his own manner−of−speaking)に対応させることが可能となる。
【0012】
ポーズ長閾値のロバスト設定は、個々の話者に依存する発声テンポと強い相関があることが分かっている。実際に、話者が異なる場合の発声テンポは幅広く変化しえる。本発明の好適な実施形態によれば、ポーズ長閾値はゆえに自動的に現在のユーザーの発声癖に適応される。このことは、例えば、ユーザーは既にそれが正確であることを認識している1以上の従前に発声された数値について、従前に確定された発声ポーズ長を分析することにより実行される。新しいポーズ長閾値は、従前に確定された発声ポーズ長について計算される平均値(mean)又は中央値(median)か、或いは、古い閾値と、従前に確定された発声ポーズ長の平均値又は中央値との間のいずれかの値にセットすることができる。言い換えれば、ポーズ長閾値は、シフトされる。
【0013】
もし、当該決定が発声ポーズ長のみならず、従前に言及した更なる韻律パラメータ(prosodic parameters)にも基づいてなされる場合には、連続的な発声番号が単一の数値に属するか否かの決定をよりロバストになすことができる。これらの更なる韻律パラメータは、フレーズ最後の長音化(phrase−final lengthening)、境界前の長音化(pre−boundary lengthening)、エネルギー等高線( energy contour )の形状、若しくは、フレーズ最後のフォールにおける特定のピッチの変動(specific pitch movement)といった音素期間(phoneme duration)に関連しえる。より好ましくは、各閾値はこれらの更なる韻律パラメータについても提供される。二つの連続的な番号が単一の意味を有するのか否かの決定は、従ってさらなる韻律パラメータの各閾値を超えたかどうかにという基準に基づくことができる。
【0014】
ポーズ長閾値のように、更なる韻律パラメータの各閾値は、ユーザーが調整可能であるか、又はユーザーの発声癖に応じて自動的に調整されるか、又は、適当なトレーニングデータに対応して調整されることができる。さらに、ユーザーが既に正確であるとを認識している既に発声された数値についての従前に確定された更なる韻律パラメータは、韻律パラメータの各閾値をシフトさせるために利用することができる。
【0015】
多くの言語において、発声された番号シーケンスの二つの連続する番号の間に位置する接続語(connecting words)は、当該二つの連続する番号が一つの数値に属することを示している。英語においてそのような接続語は、例えば”and”である。よって、”ワンハンドレッド アンド テン(one hundred and ten)”のような発声された番号シーケンスは、例え、”ハンドレッド(hundred)”と”テン(ten)”の間の全体のポーズ長、”ハンドレッド(hundred)”と”アンド(and)”の間のポーズ長、若しくは、”アンド(and)”と”テン(ten)”の間のポーズ長が、従前に設定されたポーズ長閾値を越える場合であっても、通常数値”110”を表すものである。
【0016】
1以上の接続語を二つの連続する番号の間に有する発声された番号シーケンスを正確に分析するために、本発明の好適な実施形態では、そのような接続語を認識する特徴を備える。本発明の第1の変形例においては、二つの連続する番号間に接続語が配置される場合は常に、当該二つの連続する番号が単一の数値に属すると決定される。
【0017】
第2の変形例においては、二つの数字の間の接続語の認定に基づいて、二つの連続する番号が単一の数値に属するか否かを決定するためのポーズ長閾値が変更される。言い換えれば、接続語の認定に基づいて、二つの連続する番号が単一の数値に属するか否かの決定は、そのような接続語が認定されない場合と異なるポーズ長閾値に基づいて行われる。その結果、二つの異なるポーズ長閾値が利用されることとなる。これにより発声された番号シーケンスの分析はよりロバストとなる。というのも、所定の場合では、接続語がそれらの間に配置されていても連続する番号が異なる数値に属することがあり、特に、二つの連続する番号の間のポーズ長が、極端に長い場合(例えば、ユーザーが接続語と、当該接続語の前又は後に続く番号との間に長いポーズをおいた場合)にそのようになるからである。
【0018】
発声された番号シーケンスにおける二つの連続する番号の間の発声ポーズ長を確定するには、いくつかの可能性がある。ポーズ長は、例えば二つの連続する発声番号の間の無言区間(silent interval)を計測することにより直接的に確定される。これは、いわゆる音声動作検出器(voice activity detector)によって実行される。発声ポーズ長はまた、自動音声認識の処理の副産物として取得される情報(the information obtained as a by−product from the process of automatic speech recognition)を利用して間接的に確定される。自動音声認識では、言葉(words)自体だけでなく、それらの時間軸上の各開始点及び終了点(their respective start and end points on a time axis)が計算される。このように、二つの連続する番号の最初の番号の終了点と、二つの連続する番号の二番目の番号の開始点とに基づいてポーズ長を確定することができる。特に、騒がしい環境(noisy environments)では、この技術は通常、二つの連続する番号間の無言区間を計測するよりも、よりロバストな結果を導くものである。
【0019】
本発明の更なる側面及び利点は、後述する本発明の好適な実施形態の詳細な記述及び図面を参照することにより、明らかなものとなるであろう。
【0020】
【好適な実施形態の説明】
図1において、本発明に対応する発声された番号シーケンスの分析のための装置100の概略図が示される。図1の分析装置100は、自動音声認識器120、二つの連続する番号の間のポーズ長を確定(determining a pause length between two consecutive numbers)するための韻律部140、二つの連続する番号が単一の数値に属するかどうかを決定するための処理部160及び入力部180を備える。
【0021】
”ファイブハンドレッド サーティ(five hundred thirty)”のような発声された番号シーケンスに応じて、自動音声認識器120は発声された番号のそれぞれは勿論のこと、発声された番号シーケンス内の接続語も認識する。認識処理においては、認識された番号及び接続語の時間軸上の開始点及び終了点が計算される。これらの開始点及び終了点は、韻律部140へ出力され、二つの連続する番号の間、若しくは、接続語及びそれに先行又は継続する番号の間のポーズ長が確定される。
【0022】
処理部160は、自動音声認識器120と韻律部140からの入力を共に受付ける。自動音声認識器120により認識された番号と、二つの番号の間に存在する接続語の存在と、二つの番号の間又は、接続語及びそれに先行又は継続する番号の間のポーズ長とに基づいて、処理部160は1以上の数値がそこに含まれているかどうかの観点から発声された番号シーケンスを分析する。
【0023】
処理部160は、連続する番号が単一の数値に属するかどうかを、ポーズ長閾値に基づいて決定する。このポーズ長閾値は最初、100ms(ミリ秒)と1s(秒)との間の値に設定される。より好ましくは、200ms(ミリ秒)である。
【0024】
入力部180により、ユーザーはこの初期閾値を自己の発声法(his own manner−of−speaking)に適応させることができる。入力部180はグラフィカルな又は物理的なスライドバーを備え、所定の範囲内において当該閾値の調整を可能としている。入力部180ではまた、装置100の1以上のユーザーの発声癖に対応した閾値の自動調整を選択することもできる。
【0025】
装置100の機能は、図2を参照してより詳細に以下に記載される。
【0026】
まず第1に、ポーズ長閾値Θは、自動的に、又はユーザーにより、或いは、適当なトレーニングデータに基づいて所定の値に設定される。その後、ユーザーは、”ファイブ(five)”、”ハンドレッド(hundred)”、”サーティ(thirty)”の三つの番号によって構成されるシーケンス”ファイブハンドレッド サーティ(five hundred thirty)”を発声する。これらの発声された番号は、自動音声認識器120における自動音声認識の対象となる。自動音声認識器120は、三つの番号”ファイブ(five)”、”ハンドレッド(hundred)”及び”サーティ(thirty)”につき、それらの各開始点及び終了点を認識する。各開始点及び終了点の検出は、第1のポーズが第1の番号”ファイブ(five)”と第2の番号”ハンドレッド(hundred)”との間に存在し、第2のポーズが、第2の番号”ハンドレッド(hundred)”と第3の番号”サーティ(thirty)”との間に存在することを示す。
【0027】
三つの番号の開始点及び終了点は、韻律部140へ入力され、第1のポーズのポーズ長P1と、第2のポーズのポーズ長P2とを確定(determine)する。自動音声認識器120によって認識された三つの番号と、韻律部140によって確定された二つのポーズ長P1及びP2とは、処理部160へ入力され、二つの連続する番号が単一の数値に属するか否かが、測定されたポーズ長P1及びP2に基づいて決定される。
【0028】
ポーズ長P1及びポーズ長P2との両方が、ポーズ長閾値Θを越える場合は、処理部160は発声された番号シーケンスは、三つの数値、つまり”5”と”100”と”30”とを含むと決定する。もし、二つのポーズ長P1及びP2のどちらもポーズ長閾値Θを越えない場合には、処理部160は発声された番号シーケンスは、単一の数値、つまり”530”を含むと決定する。
【0029】
もし、処理部160が第1のポーズ長P1のみがポーズ長閾値Θを越えると判定した場合には、発声された番号シーケンスは、二つの数値、つまり”5”と”130”とを含むと決定される。一方、もし第2のポーズ長P2のみがポーズ長閾値Θを越えると判定された場合には、処理部160は、発声された番号シーケンスは二つの数値、”500”と”30”とを含むものであると決定する。
【0030】
図2に示される方法によれば、ポーズ長P1はポーズ長P2よりも先に確定される。これにより、発声された番号シーケンスを、番号の発声された順番に従って分析することができる。もちろん、ポーズ長P1とP2は、異なる順序において確定され、分析されても良い。この場合は、番号シーケンスの全ての番号が分析ステップよりも先に発声されていることが要求される。
【0031】
図2に示される方法は、単に確定されたポーズ長に基づく決定に関連するものであるが、図1に示される韻律部140はまた、ポーズ長の他に更に韻律的パラメータを確定しても良いし、これらの更なる韻律的パラメータに基づいて決定がなされても良い。
【0032】
その他に、自動音声認識器120は、発声された番号シーケンス内における接続語を認識しても良い。処理部160は、接続語の認定に基づいて、決定の基礎となる1以上の韻律パラメータについて異なる閾値を適用しても良い。また、決定は、単に、ポーズ長とは別の1以上の韻律パラメータのみに基づいて行っても良い。
【0033】
本発明に対応する装置100及び方法は、例えば、静的な電子商取引システムや移動体電話のような移動体アプリケーションのような、多くのアプリケーションにおいて利用されても良い。
【図面の簡単な説明】
【図1】
本発明に対応する発声された番号シーケンスの分析のための装置の概略図である。
【図2】
本発明に対応する発声された番号シーケンスの分析のための方法の概略図である。
Claims (14)
- 自動音声認識により認識された発声された番号シーケンスを分析するための方法であって、
二つの連続する番号の間の発声ポーズ長を確定する工程と、
前記二つの連続する番号が単一の数値に属するかどうかを前記確定されたポーズ長に基づいて決定する工程とを備えることを特徴とする方法。 - 1以上の更なる韻律パラメータを前記ポーズ長の他に確定する工程と、
前記二つの連続する番号が単一の数値に属するかどうかを前記1以上の更なる韻律パラメータにも基づいて決定する工程と
を更に備えることを特徴とする請求項1に記載の方法。 - 前記決定は、少なくとも前記ポーズ長と前記1以上の更なる韻律パラメータとのいずれかの閾値に基づくことを特徴とする請求項1又は請求項2に記載の方法。
- 前記閾値は、最初に経験値に設定されることを特徴とする請求項3に記載の方法。
- 前記閾値は、ユーザーが調整可能であることを特徴とする請求項3又は請求項4に記載の方法。
- 前記閾値は、ユーザーの発声癖又は適当なトレーニングデータに応じて、自動的に調整されることを特徴とする請求項3又は請求項4に記載の方法。
- 少なくとも前記ポーズ長と前記更なる韻律パラメータとのいずれかの前記閾値が、1以上の正確に確定された数値に関連する1以上の少なくとも既に確定されたポーズ長と既に確定された更なる韻律パラメータとのいずれかに基づいてシフトされることを特徴とする請求項2乃至請求項6のいずれかに記載の方法。
- 前記ポーズ長が二つの連続する番号の間の無言区間を測定することにより確定されることを特徴とする請求項1乃至請求項7のいずれかに記載の方法。
- 前記二つの連続する番号のうちの第1の番号の終了点と、前記二つの連続する番号のうちの第2の番号の開始点とを自動音声認識の間に取得する工程と、
前記ポーズ長を前記終了点と開始点とに基づいて確定する工程と
を更に備えることを特徴とする請求項1乃至請求項7のいずれかに記載の方法。 - 前記発声された番号シーケンスにおける接続語を認識する工程を更に備えることを特徴とする請求項1乃至請求項9のいずれかに記載の方法。
- 前記接続語の認識に応じて、前記決定は前記二つの連続する番号が単一の数値に属するか否かの決定が、異なるポーズ長閾値に基づいてなされることを特徴とする請求項10に記載の方法。
- 発声された番号シーケンスを分析するための装置(100)であって、
自動音声認識器(120)と、
二つの連続する番号の間の発声ポーズ長を確定するための韻律部(140)と、
前記二つの連続する番号が単一の数値に属するか否かを前記確定されたポーズ長に基づいて決定するための処理部(160)と
を備えることを特徴とする装置。 - 前記韻律部(140)は、1以上の更なる韻律パラメータを前記発声ポーズ長の他に確定し、前記処理部(160)は前記二つの連続する番号が単一の数値に属するか否かを前記1以上の更なる韻律パラメータに基づいて決定することを特徴とする請求項12に記載の装置。
- 前記自動音声認識器(120)は、前記発声された番号シーケンスの間の接続語を認識することを特徴とする請求項12又は請求項13に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00121468A EP1193686B1 (en) | 2000-09-29 | 2000-09-29 | Method and device for analyzing a spoken sequence of numbers |
PCT/EP2001/010824 WO2002027711A1 (en) | 2000-09-29 | 2001-09-19 | Method and device for analyzing a spoken sequence of numbers |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004510209A true JP2004510209A (ja) | 2004-04-02 |
Family
ID=8169986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002531409A Pending JP2004510209A (ja) | 2000-09-29 | 2001-09-19 | 発声された番号シーケンスの分析方法及び装置 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1193686B1 (ja) |
JP (1) | JP2004510209A (ja) |
AT (1) | ATE241195T1 (ja) |
AU (1) | AU2002214981A1 (ja) |
DE (1) | DE60002868T2 (ja) |
WO (1) | WO2002027711A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
JP2020522733A (ja) * | 2017-05-24 | 2020-07-30 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
US11507618B2 (en) | 2016-10-31 | 2022-11-22 | Rovi Guides, Inc. | Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11488033B2 (en) | 2017-03-23 | 2022-11-01 | ROVl GUIDES, INC. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56154800A (en) * | 1980-04-08 | 1981-11-30 | Threshold Tech | Speech language recognizing method and device |
JPH05100693A (ja) * | 1991-04-11 | 1993-04-23 | Internatl Business Mach Corp <Ibm> | 音声認識用コンピユータ・システム |
JPH0944181A (ja) * | 1995-08-03 | 1997-02-14 | Dia Instr:Kk | 音声認識方法及び装置 |
EP0770986A2 (en) * | 1995-10-26 | 1997-05-02 | Dragon Systems Inc. | Modified discrete word recognition |
JPH10254475A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JPH10274993A (ja) * | 1997-03-28 | 1998-10-13 | Ricoh Co Ltd | 音声認識装置および音声認識方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
-
2000
- 2000-09-29 EP EP00121468A patent/EP1193686B1/en not_active Expired - Lifetime
- 2000-09-29 AT AT00121468T patent/ATE241195T1/de not_active IP Right Cessation
- 2000-09-29 DE DE60002868T patent/DE60002868T2/de not_active Expired - Fee Related
-
2001
- 2001-09-19 AU AU2002214981A patent/AU2002214981A1/en not_active Abandoned
- 2001-09-19 WO PCT/EP2001/010824 patent/WO2002027711A1/en active Application Filing
- 2001-09-19 JP JP2002531409A patent/JP2004510209A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56154800A (en) * | 1980-04-08 | 1981-11-30 | Threshold Tech | Speech language recognizing method and device |
JPH05100693A (ja) * | 1991-04-11 | 1993-04-23 | Internatl Business Mach Corp <Ibm> | 音声認識用コンピユータ・システム |
JPH0944181A (ja) * | 1995-08-03 | 1997-02-14 | Dia Instr:Kk | 音声認識方法及び装置 |
EP0770986A2 (en) * | 1995-10-26 | 1997-05-02 | Dragon Systems Inc. | Modified discrete word recognition |
JPH10254475A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JPH10274993A (ja) * | 1997-03-28 | 1998-10-13 | Ricoh Co Ltd | 音声認識装置および音声認識方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
US11507618B2 (en) | 2016-10-31 | 2022-11-22 | Rovi Guides, Inc. | Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset |
JP2020522733A (ja) * | 2017-05-24 | 2020-07-30 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
JP2021144250A (ja) * | 2017-05-24 | 2021-09-24 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
JP7119008B2 (ja) | 2017-05-24 | 2022-08-16 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
JP7159400B2 (ja) | 2017-05-24 | 2022-10-24 | ロヴィ ガイズ, インコーポレイテッド | 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム |
US11521608B2 (en) | 2017-05-24 | 2022-12-06 | Rovi Guides, Inc. | Methods and systems for correcting, based on speech, input generated using automatic speech recognition |
Also Published As
Publication number | Publication date |
---|---|
WO2002027711A1 (en) | 2002-04-04 |
AU2002214981A1 (en) | 2002-04-08 |
ATE241195T1 (de) | 2003-06-15 |
EP1193686B1 (en) | 2003-05-21 |
EP1193686A1 (en) | 2002-04-03 |
DE60002868D1 (de) | 2003-06-26 |
DE60002868T2 (de) | 2004-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
CN1248192C (zh) | 半监控说话者自适应 | |
US6594630B1 (en) | Voice-activated control for electrical device | |
EP1355295B1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JPH09106296A (ja) | 音声認識装置及び方法 | |
US20020042709A1 (en) | Method and device for analyzing a spoken sequence of numbers | |
JP2000172295A (ja) | 低複雑性スピ―チ認識器の区分ベ―スの類似性方法 | |
JPH0792988A (ja) | 音声検出装置と映像切り替え装置 | |
WO2002091358A1 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
EP1193686B1 (en) | Method and device for analyzing a spoken sequence of numbers | |
Taboada et al. | Explicit estimation of speech boundaries | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2006010739A (ja) | 音声認識装置 | |
JPH07230293A (ja) | 音声認識装置 | |
JP4449380B2 (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
JP3919314B2 (ja) | 話者認識装置及びその方法 | |
JPH0997095A (ja) | 音声認識装置 | |
JPH0683384A (ja) | 音声中の複数話者の発話区間自動検出同定装置 | |
Fakotakis et al. | A continuous HMM text-independent speaker recognition system based on vowel spotting. | |
JPH05249987A (ja) | 音声検出方法および音声検出装置 | |
JPH0772899A (ja) | 音声認識装置 | |
KR100395222B1 (ko) | 음성사서함서비스(브이엠에스)를 위한 음성인식시스템 | |
JPH11338492A (ja) | 話者認識装置 | |
EP0770986A2 (en) | Modified discrete word recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080901 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110704 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111202 |