JP2004510209A

JP2004510209A - 発声された番号シーケンスの分析方法及び装置

Info

Publication number: JP2004510209A
Application number: JP2002531409A
Authority: JP
Inventors: クリッシュ，　ライナー; シュライフェル，　ラルフ; キエスリング，　アンドレアス; スプリンガー，　フォルカー
Original assignee: テレフオンアクチーボラゲット　エル　エム　エリクソン（パブル）
Priority date: 2000-09-29
Filing date: 2001-09-19
Publication date: 2004-04-02
Also published as: WO2002027711A1; AU2002214981A1; ATE241195T1; EP1193686B1; EP1193686A1; DE60002868D1; DE60002868T2

Abstract

発声された番号シーケンスの分析のための方法であって、番号が自動音声認識により認識され、二つの連続的な番号の間のポーズ長が確定され、確定されたポーズ長に基づいて、二つの連続的な数値が単一数値に属するのか否かが決定される。発声された番号シーケンスの分析するための装置は、自動音声認識器と、二つの連続的な番号間のポーズ長を確定するための韻律部と、確定れたポーズ長に基づいて二つの連続的な番号が単一数値に属するか否かを決定するための処理部を備える。

Description

【０００１】
【発明の背景】
【発明の属する技術分野】
本発明は、発声された番号シーケンスの分析のための方法及び装置に関する。
【従来の技術の分析】
数多くの技術的アプリケーションでは、発声された番号シーケンスの認識（ｒｅｃｏｇｎｉｔｉｏｎｏｆａｓｐｏｋｅｎｓｅｑｕｅｎｃｅｏｆｎｕｍｂｅｒｓ）が必要とされる。多くの移動体電話は、電話番号を発声による音声ダイヤル機能を備える。さらに、電子商取引のアプリケーションでは、発声注文番号及び発声されたクレジットカード番号の認識が必要とされる。
【０００２】
ＷＯ−Ａ−８９０４０３５は、複数の数字により構成される電話番号のような番号の認識方法を開示する。数字は、単一に又はシーケンスにて発声される。１以上の数字を備える２つの発声は、ユーザーが定義するポーズの配置（ｕｓｅｒ−ｄｅｆｉｎｅｄｐｌａｃｅｍｅｎｔｏｆｐａｕｓｅｓ）によって分離されても良い。２つの発声の間のポーズ時間が監視され、所定のポーズ時間区間が発声に続いて検知されると、認識された数字が音声シンセサイザーを介してリプライされる。１以上の数字を備える更なる発声が開始され、次の発声はそれに続くポーズの後にリプライされる。
【０００３】
発声された数字及び数字のシーケンスの認識は、不利な雑音環境下においても信頼性が高いが、”トゥエンティトゥ（ｔｗｅｎｔｙｔｗｏ）”や”ファイブハンドレッドサーティ（ｆｉｖｅｈｕｎｄｒｅｄｔｈｉｒｔｙ）”のように自然に発声された数字の自動認識はより困難である。これは、”トゥエンティトゥ（ｔｗｅｎｔｙｔｗｏ）”や”ファイブハンドレッドサーティ（ｆｉｖｅｈｕｎｄｒｅｄｔｈｉｒｔｙ）”のような発声された番号シーケンスは、１つ以上の数値（ｍｏｒｅｔｈａｎｏｎｅｎｕｍｅｒｉｃａｌｖａｌｕｅ）を表すことができるためである。つまり、”トゥエンティトゥ（ｔｗｅｎｔｙｔｗｏ）”のような発声された番号シーケンスは例えば、単一の数値”２２”若しくは、２つの数値”２０”及び”２”を表し得る。別の例では、”ファイブハンドレッドサーティ（ｆｉｖｅｈｕｎｄｒｅｄｔｈｉｒｔｙ）”は、”５３０”と、２つの数値”５００”及び”３０”との両方を表すことができる。
【０００４】
発声された番号シーケンスの自動認識において、大きな値を有する番号、若しくは、大きなシーケンスを有する番号を分析しなければならない場合には、認識処理の困難性が高くなる。即ち、八つの可能性がある。それらは、”１４５６”、”１０００”及び”４”及び”１００”及び”５０”及び”６”、”１０００”及び”４５６”、”１０００”及び”４００”及び”５６”、”１０００”及び”４００”及び”５０及び”６”、”１４００”及び”５６”、”１４００”及び”５０”及び”６”、”１４５０”及び”６”である。
【０００５】
これらの曖昧さは、英語においてのみ生ずるわけではない。例えば、ドイツ語の”ｅｉｎｈｕｎｄｅｒｔｚｅｈｎ”は、単一の数値”１１０”と、二つの数値”１００”及び”１０”の両方を表すことができる。しかしながら、発声された番号シーケンスの１以上の数値に関連する曖昧さは、言語が異なれば異なっていてもよい。例えば、フランス語において”ｑｕａｒａｎｔｅｓｅｐｔ”は、単一の数値”４７”若しくは、二つの数値”４０”及び”７”の両方を表すことができるが、この曖昧さはドイツ語では生じない。ドイツ語において数値”４７”は、”ｓｉｅｂｅｎｕｎｄｖｉｅｒｚｉｇ”と発声されるが、二つの数値のシーケンス”４０”及び”７”は、”ｖｉｅｒｚｉｇｓｉｅｂｅｎ”と発声されるからである。
【０００６】
従って、そこに含まれる１以上の数値に関する異なる意味的解釈のロバストな識別性を可能とする、発声された番号シーケンスの分析のための方法及び装置が必要とされる。
【０００７】
【発明の概要】
本発明は、発声された番号シーケンスの分析のための方法を提供することによりこの必要性を満足させるものである。当該方法では、番号は、自動音声認識により認識され、二つの連続的な番号の間のポーズ長（ａｐａｕｓｅｌｅｎｇｔｈｂｅｔｗｅｅｎｔｗｏｃｏｎｓｅｃｕｔｉｖｅｎｕｍｂｅｒｓ）を確定し、確定されたポーズ長に基づいて、二つの連続的な数値が単一数値に属するのか否かを決定する。発声された番号シーケンスの分析するための装置は、自動音声認識器と、二つの連続的な番号間のポーズ長を確定するための韻律部（ｐｒｏｓｏｄｉｃｕｎｉｔ）と、確定されたポーズ長に基づいて二つの連続的な番号が単一数値に属するか否かを決定するための処理部を備える。
【０００８】
本発明によれば、二つの連続的な発声番号の間の発声ポーズ長は、単一韻律判定基準、又は、複数の韻律基準のうちの一つとして、二つの連続的な発声された番号が、単一の数値又は二つの異なる数値に属するかどうかを判定するために利用される。発声ポーズ長は、発声された番号シーケンスを分析するためのロバストな韻律基準である。二つの連続する発声番号が、単一数値に属するかどうかの決定をするための発声ポーズ長とは別の更なる韻律パラメータは、ここにおいて引用により記載に代えるＥ．Ｎｏｔｈ等の”ＰｒｏｓｏｄｉｓｃｈｅＩｎｆｏｍａｔｉｏｎ：ＢｅｇｒｉｆｆｓｂｅｓｔｉｍｍｕｎｇｕｎｄＮｕｔｚｅｎｆｕｒｄａｓＳｐｒａｃｈｖｅｒｓｔｅｈｅｎ”，ｉｎＰａｕｌｕｓ，Ｗａｈｌ（ｅｄ．），Ｍｕｓｔｅｒｅｒｋｅｎｎｕｎｇ１９９７，Ｉｎｆｏｒｍａｔｉｋａｋｔｕｅｌｌ，Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ，Ｈｅｉｄｅｌｂｅｒｇ，１９９７，ｐａｇｅｓ３７−５２，　で知られている。
【０００９】
二つの連続的発声番号が、単一の数値に属するかどうかの決定は、”ハード（ｈａｒｄ）”決定又は”ソフト（ｓｏｆｔ）”決定のいずれかになり得る。”ハード”決定は、韻律パラメータの所定の閾値を越えたか否かに基づくものである。”ソフト”決定は、所謂分類器、例えば、ニューロンネットワーク（ｎｅｕｒｏｎａｌｎｅｔｗｏｒｋ）のような手段によって、複数の韻律パラメータを考慮して、達成され、可能性のある決定がなされる。
【００１０】
本発明の好適な実施形態によれば、もし、所定のポーズ長閾値を越えた場合には、二つの連続的な数値が単一数値に属しないことが自動的に決定される。そのようなメカニズムは、人間のリスナー（ｈｕｍａｎｌｉｓｔｅｎｅｒ）の音響的な知覚（ａｃｏｕｓｔｉｃａｌｐｅｒｃｅｐｔｉｏｎ）に対応するものである。二つの発声された番号”２０”及び”２”は、もし、”２０”と”２”の番号の発声の間に、発声ポーズが十分な期間設けられれば、例えば人間のリスナーによって二つの分離された数値として（即ち、”２０”及び”２”）明確に知覚される。一方、発声された番号”２０”と”２”は、もし発声ポーズが全く又はほとんど設けられない場合には、単一の数値（即ち、”２２”）として知覚されるであろう。
【００１１】
発声ポーズ長閾値は、二つの連続的な数値が単一数値に属するか否かを決定するための基礎を形成し、最初に所定値に設定される。この値は、経験的な値（ｅｍｐｉｒｉｃａｌｖａｌｕｅ）であり、代表的な音声データベース（ｒｅｐｒｅｓｅｎｔａｔｉｖｅｓｐｅｅｃｈｄａｔａｂａｓｅ）に基づいて推定される。ポーズ長閾値はまた、調整可能（ａｄｊｕｓｔａｂｌｅ）である。これにより、例えば、装置のシステム設定における閾値を変更することにより、ユーザーは音声ポーズ長閾値を自己の発話法（ｈｉｓｏｗｎｍａｎｎｅｒ−ｏｆ−ｓｐｅａｋｉｎｇ）に対応させることが可能となる。
【００１２】
ポーズ長閾値のロバスト設定は、個々の話者に依存する発声テンポと強い相関があることが分かっている。実際に、話者が異なる場合の発声テンポは幅広く変化しえる。本発明の好適な実施形態によれば、ポーズ長閾値はゆえに自動的に現在のユーザーの発声癖に適応される。このことは、例えば、ユーザーは既にそれが正確であることを認識している１以上の従前に発声された数値について、従前に確定された発声ポーズ長を分析することにより実行される。新しいポーズ長閾値は、従前に確定された発声ポーズ長について計算される平均値（ｍｅａｎ）又は中央値（ｍｅｄｉａｎ）か、或いは、古い閾値と、従前に確定された発声ポーズ長の平均値又は中央値との間のいずれかの値にセットすることができる。言い換えれば、ポーズ長閾値は、シフトされる。
【００１３】
もし、当該決定が発声ポーズ長のみならず、従前に言及した更なる韻律パラメータ（ｐｒｏｓｏｄｉｃｐａｒａｍｅｔｅｒｓ）にも基づいてなされる場合には、連続的な発声番号が単一の数値に属するか否かの決定をよりロバストになすことができる。これらの更なる韻律パラメータは、フレーズ最後の長音化（ｐｈｒａｓｅ−ｆｉｎａｌｌｅｎｇｔｈｅｎｉｎｇ）、境界前の長音化（ｐｒｅ−ｂｏｕｎｄａｒｙｌｅｎｇｔｈｅｎｉｎｇ）、エネルギー等高線（ｅｎｅｒｇｙｃｏｎｔｏｕｒ）の形状、若しくは、フレーズ最後のフォールにおける特定のピッチの変動（ｓｐｅｃｉｆｉｃｐｉｔｃｈｍｏｖｅｍｅｎｔ）といった音素期間（ｐｈｏｎｅｍｅｄｕｒａｔｉｏｎ）に関連しえる。より好ましくは、各閾値はこれらの更なる韻律パラメータについても提供される。二つの連続的な番号が単一の意味を有するのか否かの決定は、従ってさらなる韻律パラメータの各閾値を超えたかどうかにという基準に基づくことができる。
【００１４】
ポーズ長閾値のように、更なる韻律パラメータの各閾値は、ユーザーが調整可能であるか、又はユーザーの発声癖に応じて自動的に調整されるか、又は、適当なトレーニングデータに対応して調整されることができる。さらに、ユーザーが既に正確であるとを認識している既に発声された数値についての従前に確定された更なる韻律パラメータは、韻律パラメータの各閾値をシフトさせるために利用することができる。
【００１５】
多くの言語において、発声された番号シーケンスの二つの連続する番号の間に位置する接続語（ｃｏｎｎｅｃｔｉｎｇｗｏｒｄｓ）は、当該二つの連続する番号が一つの数値に属することを示している。英語においてそのような接続語は、例えば”ａｎｄ”である。よって、”ワンハンドレッドアンドテン（ｏｎｅｈｕｎｄｒｅｄａｎｄｔｅｎ）”のような発声された番号シーケンスは、例え、”ハンドレッド（ｈｕｎｄｒｅｄ）”と”テン（ｔｅｎ）”の間の全体のポーズ長、”ハンドレッド（ｈｕｎｄｒｅｄ）”と”アンド（ａｎｄ）”の間のポーズ長、若しくは、”アンド（ａｎｄ）”と”テン（ｔｅｎ）”の間のポーズ長が、従前に設定されたポーズ長閾値を越える場合であっても、通常数値”１１０”を表すものである。
【００１６】
１以上の接続語を二つの連続する番号の間に有する発声された番号シーケンスを正確に分析するために、本発明の好適な実施形態では、そのような接続語を認識する特徴を備える。本発明の第１の変形例においては、二つの連続する番号間に接続語が配置される場合は常に、当該二つの連続する番号が単一の数値に属すると決定される。
【００１７】
第２の変形例においては、二つの数字の間の接続語の認定に基づいて、二つの連続する番号が単一の数値に属するか否かを決定するためのポーズ長閾値が変更される。言い換えれば、接続語の認定に基づいて、二つの連続する番号が単一の数値に属するか否かの決定は、そのような接続語が認定されない場合と異なるポーズ長閾値に基づいて行われる。その結果、二つの異なるポーズ長閾値が利用されることとなる。これにより発声された番号シーケンスの分析はよりロバストとなる。というのも、所定の場合では、接続語がそれらの間に配置されていても連続する番号が異なる数値に属することがあり、特に、二つの連続する番号の間のポーズ長が、極端に長い場合（例えば、ユーザーが接続語と、当該接続語の前又は後に続く番号との間に長いポーズをおいた場合）にそのようになるからである。
【００１８】
発声された番号シーケンスにおける二つの連続する番号の間の発声ポーズ長を確定するには、いくつかの可能性がある。ポーズ長は、例えば二つの連続する発声番号の間の無言区間（ｓｉｌｅｎｔｉｎｔｅｒｖａｌ）を計測することにより直接的に確定される。これは、いわゆる音声動作検出器（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒ）によって実行される。発声ポーズ長はまた、自動音声認識の処理の副産物として取得される情報（ｔｈｅｉｎｆｏｒｍａｔｉｏｎｏｂｔａｉｎｅｄａｓａｂｙ−ｐｒｏｄｕｃｔｆｒｏｍｔｈｅｐｒｏｃｅｓｓｏｆａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）を利用して間接的に確定される。自動音声認識では、言葉（ｗｏｒｄｓ）自体だけでなく、それらの時間軸上の各開始点及び終了点（ｔｈｅｉｒｒｅｓｐｅｃｔｉｖｅｓｔａｒｔａｎｄｅｎｄｐｏｉｎｔｓｏｎａｔｉｍｅａｘｉｓ）が計算される。このように、二つの連続する番号の最初の番号の終了点と、二つの連続する番号の二番目の番号の開始点とに基づいてポーズ長を確定することができる。特に、騒がしい環境（ｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｓ）では、この技術は通常、二つの連続する番号間の無言区間を計測するよりも、よりロバストな結果を導くものである。
【００１９】
本発明の更なる側面及び利点は、後述する本発明の好適な実施形態の詳細な記述及び図面を参照することにより、明らかなものとなるであろう。
【００２０】
【好適な実施形態の説明】
図１において、本発明に対応する発声された番号シーケンスの分析のための装置１００の概略図が示される。図１の分析装置１００は、自動音声認識器１２０、二つの連続する番号の間のポーズ長を確定（ｄｅｔｅｒｍｉｎｉｎｇａｐａｕｓｅｌｅｎｇｔｈｂｅｔｗｅｅｎｔｗｏｃｏｎｓｅｃｕｔｉｖｅｎｕｍｂｅｒｓ）するための韻律部１４０、二つの連続する番号が単一の数値に属するかどうかを決定するための処理部１６０及び入力部１８０を備える。
【００２１】
”ファイブハンドレッドサーティ（ｆｉｖｅｈｕｎｄｒｅｄｔｈｉｒｔｙ）”のような発声された番号シーケンスに応じて、自動音声認識器１２０は発声された番号のそれぞれは勿論のこと、発声された番号シーケンス内の接続語も認識する。認識処理においては、認識された番号及び接続語の時間軸上の開始点及び終了点が計算される。これらの開始点及び終了点は、韻律部１４０へ出力され、二つの連続する番号の間、若しくは、接続語及びそれに先行又は継続する番号の間のポーズ長が確定される。
【００２２】
処理部１６０は、自動音声認識器１２０と韻律部１４０からの入力を共に受付ける。自動音声認識器１２０により認識された番号と、二つの番号の間に存在する接続語の存在と、二つの番号の間又は、接続語及びそれに先行又は継続する番号の間のポーズ長とに基づいて、処理部１６０は１以上の数値がそこに含まれているかどうかの観点から発声された番号シーケンスを分析する。
【００２３】
処理部１６０は、連続する番号が単一の数値に属するかどうかを、ポーズ長閾値に基づいて決定する。このポーズ長閾値は最初、１００ｍｓ（ミリ秒）と１ｓ（秒）との間の値に設定される。より好ましくは、２００ｍｓ（ミリ秒）である。
【００２４】
入力部１８０により、ユーザーはこの初期閾値を自己の発声法（ｈｉｓｏｗｎｍａｎｎｅｒ−ｏｆ−ｓｐｅａｋｉｎｇ）に適応させることができる。入力部１８０はグラフィカルな又は物理的なスライドバーを備え、所定の範囲内において当該閾値の調整を可能としている。入力部１８０ではまた、装置１００の１以上のユーザーの発声癖に対応した閾値の自動調整を選択することもできる。
【００２５】
装置１００の機能は、図２を参照してより詳細に以下に記載される。
【００２６】
まず第１に、ポーズ長閾値Θは、自動的に、又はユーザーにより、或いは、適当なトレーニングデータに基づいて所定の値に設定される。その後、ユーザーは、”ファイブ（ｆｉｖｅ）”、”ハンドレッド（ｈｕｎｄｒｅｄ）”、”サーティ（ｔｈｉｒｔｙ）”の三つの番号によって構成されるシーケンス”ファイブハンドレッドサーティ（ｆｉｖｅｈｕｎｄｒｅｄｔｈｉｒｔｙ）”を発声する。これらの発声された番号は、自動音声認識器１２０における自動音声認識の対象となる。自動音声認識器１２０は、三つの番号”ファイブ（ｆｉｖｅ）”、”ハンドレッド（ｈｕｎｄｒｅｄ）”及び”サーティ（ｔｈｉｒｔｙ）”につき、それらの各開始点及び終了点を認識する。各開始点及び終了点の検出は、第１のポーズが第１の番号”ファイブ（ｆｉｖｅ）”と第２の番号”ハンドレッド（ｈｕｎｄｒｅｄ）”との間に存在し、第２のポーズが、第２の番号”ハンドレッド（ｈｕｎｄｒｅｄ）”と第３の番号”サーティ（ｔｈｉｒｔｙ）”との間に存在することを示す。
【００２７】
三つの番号の開始点及び終了点は、韻律部１４０へ入力され、第１のポーズのポーズ長Ｐ１と、第２のポーズのポーズ長Ｐ２とを確定（ｄｅｔｅｒｍｉｎｅ）する。自動音声認識器１２０によって認識された三つの番号と、韻律部１４０によって確定された二つのポーズ長Ｐ１及びＰ２とは、処理部１６０へ入力され、二つの連続する番号が単一の数値に属するか否かが、測定されたポーズ長Ｐ１及びＰ２に基づいて決定される。
【００２８】
ポーズ長Ｐ１及びポーズ長Ｐ２との両方が、ポーズ長閾値Θを越える場合は、処理部１６０は発声された番号シーケンスは、三つの数値、つまり”５”と”１００”と”３０”とを含むと決定する。もし、二つのポーズ長Ｐ１及びＰ２のどちらもポーズ長閾値Θを越えない場合には、処理部１６０は発声された番号シーケンスは、単一の数値、つまり”５３０”を含むと決定する。
【００２９】
もし、処理部１６０が第１のポーズ長Ｐ１のみがポーズ長閾値Θを越えると判定した場合には、発声された番号シーケンスは、二つの数値、つまり”５”と”１３０”とを含むと決定される。一方、もし第２のポーズ長Ｐ２のみがポーズ長閾値Θを越えると判定された場合には、処理部１６０は、発声された番号シーケンスは二つの数値、”５００”と”３０”とを含むものであると決定する。
【００３０】
図２に示される方法によれば、ポーズ長Ｐ１はポーズ長Ｐ２よりも先に確定される。これにより、発声された番号シーケンスを、番号の発声された順番に従って分析することができる。もちろん、ポーズ長Ｐ１とＰ２は、異なる順序において確定され、分析されても良い。この場合は、番号シーケンスの全ての番号が分析ステップよりも先に発声されていることが要求される。
【００３１】
図２に示される方法は、単に確定されたポーズ長に基づく決定に関連するものであるが、図１に示される韻律部１４０はまた、ポーズ長の他に更に韻律的パラメータを確定しても良いし、これらの更なる韻律的パラメータに基づいて決定がなされても良い。
【００３２】
その他に、自動音声認識器１２０は、発声された番号シーケンス内における接続語を認識しても良い。処理部１６０は、接続語の認定に基づいて、決定の基礎となる１以上の韻律パラメータについて異なる閾値を適用しても良い。また、決定は、単に、ポーズ長とは別の１以上の韻律パラメータのみに基づいて行っても良い。
【００３３】
本発明に対応する装置１００及び方法は、例えば、静的な電子商取引システムや移動体電話のような移動体アプリケーションのような、多くのアプリケーションにおいて利用されても良い。
【図面の簡単な説明】
【図１】
本発明に対応する発声された番号シーケンスの分析のための装置の概略図である。
【図２】
本発明に対応する発声された番号シーケンスの分析のための方法の概略図である。

Claims

自動音声認識により認識された発声された番号シーケンスを分析するための方法であって、
二つの連続する番号の間の発声ポーズ長を確定する工程と、
前記二つの連続する番号が単一の数値に属するかどうかを前記確定されたポーズ長に基づいて決定する工程とを備えることを特徴とする方法。
１以上の更なる韻律パラメータを前記ポーズ長の他に確定する工程と、
前記二つの連続する番号が単一の数値に属するかどうかを前記１以上の更なる韻律パラメータにも基づいて決定する工程と
を更に備えることを特徴とする請求項１に記載の方法。
前記決定は、少なくとも前記ポーズ長と前記１以上の更なる韻律パラメータとのいずれかの閾値に基づくことを特徴とする請求項１又は請求項２に記載の方法。
前記閾値は、最初に経験値に設定されることを特徴とする請求項３に記載の方法。
前記閾値は、ユーザーが調整可能であることを特徴とする請求項３又は請求項４に記載の方法。
前記閾値は、ユーザーの発声癖又は適当なトレーニングデータに応じて、自動的に調整されることを特徴とする請求項３又は請求項４に記載の方法。
少なくとも前記ポーズ長と前記更なる韻律パラメータとのいずれかの前記閾値が、１以上の正確に確定された数値に関連する１以上の少なくとも既に確定されたポーズ長と既に確定された更なる韻律パラメータとのいずれかに基づいてシフトされることを特徴とする請求項２乃至請求項６のいずれかに記載の方法。
前記ポーズ長が二つの連続する番号の間の無言区間を測定することにより確定されることを特徴とする請求項１乃至請求項７のいずれかに記載の方法。
前記二つの連続する番号のうちの第１の番号の終了点と、前記二つの連続する番号のうちの第２の番号の開始点とを自動音声認識の間に取得する工程と、
前記ポーズ長を前記終了点と開始点とに基づいて確定する工程と
を更に備えることを特徴とする請求項１乃至請求項７のいずれかに記載の方法。
前記発声された番号シーケンスにおける接続語を認識する工程を更に備えることを特徴とする請求項１乃至請求項９のいずれかに記載の方法。
前記接続語の認識に応じて、前記決定は前記二つの連続する番号が単一の数値に属するか否かの決定が、異なるポーズ長閾値に基づいてなされることを特徴とする請求項１０に記載の方法。
発声された番号シーケンスを分析するための装置（１００）であって、
自動音声認識器（１２０）と、
二つの連続する番号の間の発声ポーズ長を確定するための韻律部（１４０）と、
前記二つの連続する番号が単一の数値に属するか否かを前記確定されたポーズ長に基づいて決定するための処理部（１６０）と
を備えることを特徴とする装置。
前記韻律部（１４０）は、１以上の更なる韻律パラメータを前記発声ポーズ長の他に確定し、前記処理部（１６０）は前記二つの連続する番号が単一の数値に属するか否かを前記１以上の更なる韻律パラメータに基づいて決定することを特徴とする請求項１２に記載の装置。
前記自動音声認識器（１２０）は、前記発声された番号シーケンスの間の接続語を認識することを特徴とする請求項１２又は請求項１３に記載の装置。