JP7040449B2

JP7040449B2 - 音声処理装置、情報処理装置、音声処理方法および情報処理方法

Info

Publication number: JP7040449B2
Application number: JP2018538027A
Authority: JP
Inventors: 衣未留角尾; 俊之熊倉
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2016-09-09
Filing date: 2017-05-31
Publication date: 2022-03-23
Anticipated expiration: 2037-05-31
Also published as: US20190189124A1; US10957322B2; EP3511931A1; JPWO2018047421A1; WO2018047421A1; EP3511931A4

Description

本開示は、音声処理装置、情報処理装置、音声処理方法および情報処理方法に関する。

近日、ユーザが発した音声を機械的に認識するための技術が盛んに研究されている。ユーザの音声の認識は、ローカルな端末内で行われることも、ネットワーク上のサーバにより行われることもある。例えば、ローカルな端末は、辞書データを記憶しており、入力音声に相当する単語列を辞書データから推定し、推定された単語列が入力音声に相当する確信度を算出する。特許文献１には、辞書データを用いた入力音声の単語認識および確信度（スコア）の算出が開示されている。

特開２００４－１７７５５１号公報

しかし、上述した確信度を算出する方法において、辞書データに含まれる単語列を構成する一部の単語を含む入力音声については、当該単語列を構成する他の単語と入力音声の他の部分が相違しても、入力音声が当該単語列に相当する確信度として判定閾値を上回る値が算出され得る。結果、入力音声が辞書データに含まれない単語列に相当する場合でも、入力音声が辞書データに含まれる単語列に相当すると誤判定されることが生じ得る。

そこで、本開示では、推定された単語列についてより緻密な確信度を得ることが可能な、新規かつ改良された音声処理装置、情報処理装置、音声処理方法および情報処理方法を提案する。

本開示によれば、辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、前記単語列推定部により推定された単語列を、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割する分割部と、前記２以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、を備える、音声処理装置が提供される。

また、本開示によれば、入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割された単語列を、前記単語列を構成する前記２以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、を備える、情報処理装置が提供される。

また、本開示によれば、辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、推定された単語列を、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割することと、前記２以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出する算出することと、を含む、音声処理方法が提供される。

また、本開示によれば、入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割された単語列を、前記単語列を構成する前記２以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定することと、を含む、情報処理方法が提供される。

以上説明したように本開示によれば、推定された単語列についてより緻密な確信度を得ることができる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態による音声処理システムを示す説明図である。音声認識の方法を模式的に示す説明図である。語彙内音声の確信度と語彙外音声の確信度の分布例を示す説明図である。本開示の実施形態による音声処理装置およびサーバの機能ブロック図である。音声処理部の詳細な機能を示す説明図である。最尤単語列の分割例を示す説明図である。語彙内音声と語彙外音声の発話確信度および部分最小確信度の分布の一例を示す説明図である。確信度の判定閾値の変形例を示す説明図である。最尤単語列の分割例を示す説明図である。エラーレートと最小音素数／要素部分の関係を示す説明図である。本開示の実施形態による音声処理装置の動作を示すフローチャートである。応用例による音声処理装置の構成を示す説明図である。音声処理装置のハードウェア構成を示した説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

また、以下に示す項目順序に従って本開示を説明する。
１．音声処理システムの概要
２．音声処理装置およびサーバの構成
３．音声処理部の詳細
４．動作
５．応用例
６．ハードウェア構成
７．むすび

＜１．音声処理システムの概要＞
本開示の実施形態は、ユーザが発した音声を機械的に認識する音声処理システムに関する。音声処理システムは、ユーザが発した音声の認識結果に基づき、多様な処理を行い得る。以下、図１を参照し、本開示の実施形態による音声処理システムの概要を説明する。

図１は、本開示の実施形態による音声処理システムを示す説明図である。図１に示したように、本開示の実施形態による音声処理システムは、音声処理装置２０と、サーバ３０と、を有する。音声処理装置２０とサーバ３０は、通信網１２を介して接続される。

通信網１２は、通信網１２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網１２は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網１２は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

音声処理装置２０は、ユーザが発した音声を電気的な信号である音声データに変換し、音声データを認識し、音声データの認識結果に対応する処理を実行する。例えば、音声処理装置２０は、コンテンツの再生機能を有する場合、「音楽を再生」という音声データが認識されたことに基づき、音楽の再生を開始してもよい。このように、ユーザは音声で音声処理装置２０を操作できるので、直感的な操作およびハンズフリー操作が実現される。例えば、ユーザは、ジョギングまたはスポーツをしながらの操作や、車を運転しながらの操作を行い得る。

また、本実施形態による音声処理装置２０は、サーバ３０と音声認識について連携することが可能である。例えば、音声処理装置２０は、通信網１２を介して音声データをサーバ３０に送信し、サーバ３０から音声データの認識結果を受信できる。以下では、音声処理装置２０およびサーバ３０の双方において音声認識が行われる動作モードをハイブリッドモードと称し、音声処理装置２０において音声認識が行われてサーバ３０により音声認識が行われない動作モードをローカルモードと称する。

なお、音声処理装置２０は、多様な形態で実現され得る。例えば、音声処理装置２０は、携帯電話、スマートフォン、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ゲーム機、映像再生装置またはウェアラブル装置であってもよい。ウェアラブル装置としては、腕時計型装置、イヤホン型装置、ヘッドホン型装置、ヘッドマウントディスプレイおよびネックレス型装置などが挙げられる。

サーバ３０は、音声処理装置２０から受信した音声データを認識し、認識結果を音声処理装置２０に送信する。サーバ３０から送信される音声データの認識結果は、音声の内容を示すテキスト、または音声処理装置２０に対するコマンドなどの、音声認識に基づく情報であってもよい。例えば、サーバ３０により「アーティストＡの音楽を再生」という音声データが認識された場合、音声データの認識結果は、「アーティストＡの音楽を再生」というテキストであってもよいし、音声処理装置２０にアーティストＡの音楽の再生を指示するコマンドであってもよい。

なお、携帯電話やポータブル機器などの音声処理装置２０で音声認識を行う場合、音声処理装置２０での処理量には限りがあるため、サーバ３０が有する辞書データよりも小さい辞書データを用いて音声認識を行う。例えば、音声処理装置２０が有する辞書データには、数十から数百のオーダーの語彙が含まれる。一方、サーバ３０はより多くの語彙を含む辞書データを有するので、多様な発話に対応することが可能である。ただし、サーバ３０の音声認識を利用する場合には、音声処理装置２０とサーバ３０との間での通信遅延が生じる。

（音声認識の概要）
ここで、音声処理装置２０が行う音声認識の概要を説明する。音声処理装置２０は、音声データの信号波形から、発話内容の単語列を推定する。この単語列の推定については、下記数式１のように、音響モデルおよび言語モデルを用いて定式化される。なお、数式１においてＸは音響特徴量の系列であり、ｌは単語列であり、単語列ｌは音声認識が利用する辞書データ内の語彙によって構成される。辞書データ内の語彙が多いほど、より多くの音声を正式に認識することが可能となるが、探索のための処理量が増加する。

上記数式１は、辞書データの語彙外（ＯＯＶ：ＯｕｔＯｆＶｏｃａｂｕｌａｒｙ）の発話が行われた場合であっても、辞書データ内の語彙の組合わせで何かしらの認識結果が出力されることを示す。発話された音声が語彙外であったか否かを検出する方法として、音声認識のためのモデルＰ（ｌ）と並行してガーベージモデルＰ（ｌｏｏｖ）を用意する方法がある（例えば、「Hazen and I. Bazzi, “A Comparison and Combination of Methods for OOV Word Detection and Word Confidence Scoring,” Proc. of ICASSP, pp.397-400, 2001.」参照。）。

ガーベージモデルとしては、例えば音素の遷移をｎ－ｇｒａｍ確率で表現するモデルが利用される。当該モデルは、下記数式２のように表現される。数式２においては、音素列がｌｏｏｖ｛p₁,p₂,・・・p_Ｎ｝と表現されている。

音声処理装置２０は、数式２に示される確率（尤度）を最大化する音素列を下記数式３により求め、数式４で示される対数尤度差を、数式１により求められた認識結果の確信度として利用し得る。なお、当該処理は、図２のように表現される。すなわち、ガーベージモデルＰ（ｌｏｏｖ）６０および音声認識のためのモデルＰ（ｌ）７０が並列的に用いられ、確信度が得られる。

語彙外の音声について得られる確信度は、語彙内の音声について得られる確信度より低くなる傾向がある。例えば図３に示すように、語彙外の音声について得られる確信度は主に０～０．２の範囲内に分布し、語彙外の音声は主に－０．３～０の範囲内に分布する傾向がある。このため、確信度が閾値を上回るか否かに基づき、発話された音声が語彙内の音声であったか否かを判断する方法が考えられる。

（背景）
しかし、辞書データに含まれる単語列を構成する一部の単語を含む入力音声については、当該単語列を構成する他の単語と入力音声の他の部分が相違しても、入力音声が当該単語列に相当する確信度として閾値を上回る値が算出され得る。例えば、辞書データに現在時刻を確認するための「ｃｈｅｃｋｔｈｅｔｉｍｅ」が含まれている場合、ジョギングの周回時間を確認するため「ｃｈｅｃｋｌａｐｔｉｍｅ」という発話について、「ｃｈｅｃｋｔｈｅｔｉｍｅ」との一部重複により閾値を上回る確信度が算出され得る。結果、ユーザは周回時間を確認したいのに、現在時刻がユーザにフィードバックされてしまう。

そこで、本件発明者は、上記事情を一着眼点にして本開示の実施形態による音声処理装置２０を創作するに至った。本開示の実施形態による音声処理装置２０は、単語列についてより緻密な確信度を得ることにより、発話が語彙内の音声であったか否かの判定をより高精度に行うことが可能である。以下、このような音声処理装置２０、および音声処理装置２０と協働するサーバ３０の構成を説明する。

＜２．音声処理装置およびサーバの構成＞
図４は、本開示の実施形態による音声処理装置２０およびサーバ３０の機能ブロック図である。

（サーバ）
図４に示したように、サーバ３０は、通信部３２４および音声認識部３４０を備える。通信部３２４は、音声処理装置２０とのインタフェースであり、音声処理装置２０から音声データを受信し、音声認識部３４０による音声データの認識結果を音声処理装置２０に送信する。

音声認識部３４０は、通信部３２４により音声処理装置２０から受信された音声データを、例えば「音声認識の概要」において説明した方法により、辞書データを用いて認識する。音声認識部３４０が利用する辞書データは、後述する音声処理装置２０が利用する辞書データよりも、多くの語彙のデータを含む。このため、音声認識部３４０による音声認識は認識精度の面で優れる。以下では、サーバ３０の音声認識部３４０により得られた認識結果をサーバ認識結果と称する。

（音声処理装置）
音声処理装置２０は、図４に示したように、収音部２２０と、動作モード制御部２３６と、通信部２４０と、音声処理部２５０と、を備える。

収音部２２０は、空気的な振動で表現される入力音声を、電気的な信号に変換する。当該収音部２２０の機能は、例えばマイクロフォンにより実現される。本明細書では、収音部２２０により得られた電気的な信号（ＰＣＭ：ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）、または当該信号の音響特徴量の系列を、音声データと称する。

動作モード制御部２３６は、音声処理装置２０の音声認識に関する動作モードを、ローカルモードとハイブリッドモードとの間で制御する。例えば、動作モード制御部２３６は、通信部２４０がサーバ３０と接続されている場合には動作モードをハイブリッドモードにして、通信部２４０がサーバ３０と接続されていない場合には動作モードをローカルモードにしてもよい。また、動作モード制御部２３６は、音声処理装置２０のバッテリ残量が所定値を上回っている場合には動作モードをハイブリッドモードにして、バッテリ残量が所定値以下である場合には動作モードをローカルモードにしてもよい。また、動作モード制御部２３６は、ユーザからの操作に従って動作モードを制御してもよい。

通信部２４０は、サーバ３０とのインタフェースである。通信部２４０は、ハイブリッドモードにおいて、収音部２２０から入力される音声データをサーバ３０に送信し、サーバ認識結果をサーバ３０から受信する。

音声処理部２５０は、収音部２２０により収音された入力音声に相当する単語列を推定し、当該推定にかかる確信度を算出する。音声処理部２５０は、算出した確信度に基づき、推定された単語列を音声認識結果として利用するか否かを決定する。音声処理装置２０の動作モードがハイブリッドモードである場合、音声処理部２５０は、サーバ認識結果の利用を決定することも可能である。

＜３．音声処理部の詳細＞
以上、図４を参照して、音声処理装置２０およびサーバ３０の全体構成を説明した。続いて、図５～図１０を参照し、音声処理装置２０に含まれる音声処理部２５０の機能をより詳細に説明する。

図５は、音声処理部２５０の詳細な機能を示す説明図である。図５に示したように、音声処理部２５０は、音声分析部２５２、辞書データ記憶部２５４、単語列推定部２５６、確率モデル記憶部２５８、音素列推定部２６０、発話確信度算出部２６２、分割部２６４、部分確信度算出部２６６、および決定部２６８を有する。

（音声分析部）
音声分析部２５２は、収音部２２０から供給される音声データを処理および分析することにより、入力音声に対応する音響特徴量の系列Ｘを得る。

（辞書データ記憶部、単語列推定部）
辞書データ記憶部２５４は、複数の単語列の各々について音響データを記憶する。単語列推定部２５６は、例えば数式１を参照して説明したように、辞書データ記憶部２５４を参照し、音声分析部２５２から供給される音響特徴量の系列Ｘに相当する尤度が最も高い単語列を推定する。以下、単語列推定部２５６により推定された単語列を最尤単語列とも称する。

（確率モデル記憶部、音素列推定部）
確率モデル記憶部２５８は、音素同士の結合の自然さを表現するｎ－ｇｒａｍ確率を音素の組み合わせごとに記憶する。音素列推定部２６０は、例えば数式２および数式３を参照して説明したように、確率モデル記憶部２５８を参照し、音声分析部２５２から供給される音響特徴量の系列Ｘに相当する尤度が最も高い音素列を推定する。以下、音素列推定部２６０により推定された音素列を最尤音素列とも称する。

（発話確信度算出部）
発話確信度算出部２６２は、数式４に示したように、最尤単語列と最尤音素列の対数尤度差を、発話内容が最尤単語列に相当する確信度（発話確信度）として算出する。

（分割部）
分割部２６４は、単語列推定部２５６により推定された最尤単語列を２以上の要素部分に分割する。そして、分割部２６４は、各要素部分の開始タイミングおよび終了タイミングを示す情報を部分確信度算出部２６６に供給する。ここで、図６を参照し、分割部２６４の処理の具体例を説明する。

図６は、最尤単語列の分割例を示す説明図である。より詳細には、図６は、ユーザが「ｃｈｅｃｋｗｅａｔｈｅｒｔｏｗａｒｄｔｈｅｅｎｄｏｆｔｈｅｗｅｅｋ」と発話し、単語列推定部２５６により最尤単語列として「ｃｈｅｃｋｗｅａｔｈｅｒ」が推定された例を示している。なお、各単語列には、単語部分に加え、先頭と末尾に無音部分が含まれる。

図６に示した例において、分割部２６４は、所定の分割ルールに従い、先頭の無音部分および「ｃｈｅｃｋ」からなる要素部分１、「ｗｅａｔｈｅｒ」からなる要素部分２、および末尾の無音部分からなる要素部分３に最尤単語列を分割する。なお、要素部分３に対応する区間に入力音声は存在するが、当該区間は最尤単語列の最終単語の後の区間であるので、最尤単語列の分割において当該区間は無音部分として扱われる。そして、各要素部分の入力音声における開始タイミングおよび終了タイミングであるｔ０、ｔ１、ｔ２およびｔ３を示す情報を部分確信度算出部２６６に供給する。これらタイミングを示す情報に基づき、最尤音素列も同様に、音素部分１、音素部分２、音素部分３に分割される。分割ルールの詳細については後述する。

（部分確信度算出部）
部分確信度算出部２６６は、最尤単語列を構成する要素部分ごとに、各要素部分の内容が入力音声における対応部分の内容に相当する確信度を算出する。例えば、部分確信度算出部２６６は、各要素部分の尤度と、各要素部分に対応する音素部分の尤度との関係に基づき、要素部分ごとの確信度を算出する。部分確信度算出部２６６は、このような要素部分ごとの確信度ｃｉの算出を以下の数式５に従って行うことができる。

数式５において、ｌｉはｉ番目の要素部分を示し、ｌｏｏｖｉはｉ番目の音素部分を示し、Ｘｉはｉ番目の音響特徴量部分を示し、分母は要素部分の長さ（フレーム長）での正規化を示す。さらに、部分確信度算出部２６６は、数式６に示すように、各要素部分の確信度ｃｉのうちで最も小さい部分最小確信度ｃｗｏｒｄを特定する。

図６に示した例では、要素部分１～要素部分３の確信度ｃｉのうちで、最尤単語列と最尤音素列で相違する要素部分３の確信度が部分最小確信度ｃｗｏｒｄとして特定されることが想定される。部分最小確信度ｃｗｏｒｄに着目することで、より細かな発話の検証を行うことが可能となる。

なお、最尤単語列の推定の過程で最尤単語列の部分ごと（例えば、１０ｍｓごと）の尤度が得られている場合、部分確信度算出部２６６は、当該部分ごとの尤度を用いて各要素部分の尤度を算出してもよい。同様に、最尤音素列の推定の過程で最尤音素列の部分ごと（例えば、１０ｍｓごと）の尤度が得られている場合、部分確信度算出部２６６は、当該部分ごとの尤度を用いて各音素部分の尤度を算出してもよい。

また、部分確信度算出部２６６は、要素部分ごとの確信度ｃｉを数式７に示すようにシグモイド関数に適用することにより０～１の範囲内で表現されるスコアｓを得てもよい。当該スコアｓは、確信度ｃｉよりも他のアプリケーションで利用しやすいという利点がある。

（決定部）
決定部２６８は、発話確信度算出部２６２により算出された発話確信度、および部分確信度算出部２６６により特定された部分最小確信度に基づき、最尤単語列の扱いを決定する。例えば、決定部２６８は、発話確信度が閾値ｔｈ１以上であり、部分最小確信度が閾値ｔｈ２以上であることに基づき、最尤単語列を音声認識結果として利用することを決定し、発話確信度が閾値ｔｈ１未満であること、または部分最小確信度が閾値ｔｈ２未満であることに基づき、最尤単語列を棄却することを決定してもよい。上記の閾値判定により最尤単語列が棄却された場合、決定部２６８は、ハイブリッドモードにおいてサーバ３０から受信されるサーバ認識結果の利用を決定してもよい。このように発話確信度に加えて部分最小確信度を利用する効果を説明する。

図７は、語彙内音声と語彙外音声の発話確信度および部分最小確信度の分布の一例を示す説明図である。発話確信度が閾値ｔｈ１以上となることのみが最尤単語列を利用する条件であった場合、図７に示した領域Ｂに含まれる語彙外音声が語彙内音声として扱われ、誤った音声認識結果が利用されてしまう。これに対し、部分最小確信度が閾値ｔｈ２以上であることが条件に加わることにより、領域Ｂに含まれる語彙外音声についての誤った音声認識結果を棄却することが可能となる。すなわち、本実施形態によれば、より緻密な確信度（部分最小確信度）を得ることにより、発話された入力音声が語彙内音声であったか否かの判定をより高精度に行うことが可能である。

なお、図７には閾値が線形である例を示したが、ＳＶＭ（Support Vector Machine）やＤＮＮ（Deep Neural Network）のような識別器の利用により、例えば図８に示すような非線形な閾値が実現されてもよい。

また、上記では、決定部２６８が発話確信度および部分最小確信度の双方を用いて最尤単語列を音声認識結果として利用するか否かを決定する例を説明したが、本開示の実施形態は当該例に限定されない。例えば、決定部２６８は、発話確信度を用いず、部分最小確信度を用いて、最尤単語列を音声認識結果として利用するか否かを決定してもよい。

（分割処理）
以上、音声処理部２５０が有する機能について説明した。続いて、分割部２６４による最尤単語列の分割処理の具体例を説明する。

分割部２６４は、最尤単語列を、単語間の境界において分割する。このとき、分割部２６４は、最尤単語列を単語単位に分割してもよい。しかし、単語「ａ」は「ａｘ」の１音素からなり、単語「ｔｈｅ」は「ｄｈａｈ」の２音素からなり、このような音素数が少なく情報量が十分でない単語が１つの要素部分を構成すると、安定した結果が得られないことが懸念される。

そこで、音素数が所定数以下である単語は隣接する次の単語と共に１つの要素部分を構成するように最尤単語列の分割が行われてもよい。例えば、分割部２６４は、図９に示すように、「ｗｈａｔ’ｓｔｈｅｔｉｍｅ」という最尤単語列を「ｗｈａｔ’ｓ」「ｔｈｅｔｉｍｅ」に分割し、「ｔａｋｅａｐｉｃｔｕｒｅ」という最尤単語列を「ｔａｋｅ」「ａｐｉｃｔｕｒｅ」に分割してもよい。

ここで、上記所定数をいずれの数に設定するかによって、最尤単語列の利用／棄却の決定についてのエラーレートが変化する。入力音声のある母集団について上記所定数を多様な数に設定すると、例えば、図１０に示すようなエラーレートの傾向が得られる。当該傾向によれば、最小音素数（所定数＋１）／要素部分の増加に伴いエラーレートが上昇した後、エラーレートが下がり、その後、エラーレートが再度上昇することを示す。このため、エラーレートが下がりエラーレートが相対的に低い値となるｐ１～ｐ２の範囲内で最小音素数（所定数＋１）が設定されることが望ましい。ｐ１～ｐ２の範囲としては、例えば、「４」～「６」の範囲が挙げられ、特に最小音素数は「５」（所定数が「４」）であってもよい。なお、音素数が所定数以下である単語と隣接する次の単語の合計でも音素数が所定数を上回らない場合、分割部２６４は、音素数が所定数を上回るまで後続の単語を１つの要素部分に組み込んでもよい。

また、分割部２６４は、上記の最尤単語列の分割において、無音部分も１単語として扱う。無音部分には音素数は無いが、分割部２６４は、無音部分の継続長さに応じた音素数を有する単語として当該無音部分を扱ってもよい。このため、所定数以下の音素を有する単語として扱われる無音部分は隣接する次の単語と共に１つの要素部分（例えば、図６に示した要素部分１）を構成し、所定数以上の音素を有する単語として扱われる無音部分は単独で１つの要素部分（例えば、図６に示した要素部分３）を構成する。

＜４．動作＞
以上、本開示の実施形態による音声処理装置２０およびサーバ３０の機能を説明した。続いて、図１１を参照し、本開示の実施形態による音声処理装置２０の動作を整理する。

図１１は、本開示の実施形態による音声処理装置２０の動作を示すフローチャートである。図１１に示したように、まず、収音部２２０により音声データが取得されると（Ｓ４０４）、単語列推定部２５６が、辞書データ記憶部２５４を参照し、音声分析部２５２から供給される音響特徴量の系列Ｘに相当する尤度が最も高い最尤単語列を推定する（Ｓ４０８）。また、音素列推定部２６０が、確率モデル記憶部２５８を参照し、音声分析部２５２から供給される音響特徴量の系列Ｘに相当する尤度が最も高い最尤音素列を推定する（Ｓ４１２）。

そして、分割部２６４が最尤単語列を複数の要素部分に分割し、部分確信度算出部２６６が最尤音素列を各要素部分に対応する複数の音素部分に分割する（Ｓ４１６）。続いて、部分確信度算出部２６６は、最尤単語列を構成する要素部分ごとに、各要素部分の内容が入力音声における対応部分の内容に相当する確信度を算出する（Ｓ４２０）。さらに、部分確信度算出部２６６は、各要素部分の確信度ｃｉのうちで最も小さい部分最小確信度を特定する（Ｓ４２４）。一方、発話確信度算出部２６２は、最尤単語列と最尤音素列の対数尤度差を、発話内容が最尤単語列に相当する確信度（発話確信度）として算出する（Ｓ４２８）。

決定部２６８は、発話確信度算出部２６２により算出された発話確信度、および部分確信度算出部２６６により算出された部分最小確信度に基づき、ユーザの発話の内容が語彙内発話である最尤単語列であったか否かを判定する（Ｓ４３２）。そして、決定部２６８は、ユーザの発話の内容が語彙内発話であると判定した場合（Ｓ４３２／ｙｅｓ）、最尤単語列の利用を決定する（Ｓ４３６）。一方、ユーザの発話の内容が語彙内発話でないと判定された場合（Ｓ４３２／ｎｏ）、ハイブリッドモードにおいては、通信部２４０が音声データをサーバ３０に送信し（Ｓ４４０）、サーバ３０からサーバ認識結果を受信する（Ｓ４４４）。そして、決定部２６８は、サーバ認識結果の利用を決定する（Ｓ４４８）。なお、通信部２４０は、Ｓ４０８～Ｓ４３２の処理と並行して音声データをサーバ３０に送信してもよい。

また、上記では、部分最小確信度を用いてＳ４３２の判定が行われる例を説明したが、各要素部分の確信度を用いてＳ４３２の判定が行われてもよい。また、要素部分ごとの最小音素数に異なる音素数が適用され、各音素数が適用された場合の要素部分ごとの確信度を部分確信度算出部２６６が算出し、決定部２６８は、各音素数が適用された場合の要素部分ごとの確信度を用いてＳ４３２の判定を行ってもよい。

＜５．応用例＞
以上、本開示の実施形態を説明した。続いて、本開示の実施形態の応用例を説明する。応用例は、上述した音声処理部２５０の機能を利用するアプリケーションの提案に関する。

図１２は、応用例による音声処理装置２０の構成を示す説明図である。図１２に示したように、応用例による音声処理装置２０は、通信部２４０、音声処理部２５０、アプリケーション部２８０および表示部２９０を備える情報処理装置である。

表示部２９０は、アプリケーション部２８０からの制御に従い多様な表示画面を表示する。

音声処理部２５０は、アプリケーション部２８０からの要求を受け、入力音声に対する最尤単語列および確信度に関する情報をアプリケーション部２８０に出力するインタフェース２７０を有する。

アプリケーション部２８０は、音声処理部２５０から最尤単語列および確信度に関する情報を取得し、取得した情報に基づいて処理を実行する。ここで、アプリケーション部２８０は、確信度の出力モードを指定することができる。出力モードとしては、発話全体モード、要素部分（粗い）モード、要素部分（細かい）モードなどが挙げられる。

発話全体モードにおいては、アプリケーション部２８０は、インタフェース２７０から発話全体での発話確信度を取得する。例えば、「ｃｈｅｃｋｌａｐｔｉｍｅ」という発話に対し、アプリケーション部２８０はＪＳＯＮ形式で以下の情報を取得する。なお、以下で示される確信度（TotalScore）は、数式７に示した演算により正規化されたスコアである。
…
SpeechResult: check the time
TotalScore: 0.6
…

要素部分（粗い）モードにおいては、アプリケーション部２８０は、音素が所定数以下である単語が次の単語と連結されて構成される要素部分ごとの確信度をインタフェース２７０から取得する。例えば、要素部分（粗い）モードが指定された場合、アプリケーション部２８０は例えば以下の情報を取得する。

…
SpeechResult: check the time
TotalScore: 0.6
EachWord: {
Word1: {
SpeechResult: Check
Score: 0.8
StartTime: 0.11
EndTime: 0.56
}
Word2: {
SpeechResult: the time
Score: 0.2
StartTime: 0.56
EndTime: 1.25
}
}
…

要素部分（細かい）モードにおいては、アプリケーション部２８０は、最尤単語列を構成する各単語に対応する要素部分ごとの確信度をインタフェース２７０から取得する。例えば、要素部分（細かい）モードが指定された場合、分割部２６４が最尤単語列を単語単位に分割し、アプリケーション部２８０は例えば以下の情報を取得する。

…
SpeechResult: check the time
TotalScore: 0.6
EachWord: {
Word1: {
SpeechResult: Check
Score: 0.8
StartTime: 0.11
EndTime: 0.56
}
Word2: {
SpeechResult: the
Score: 0.1
StartTime: 0.56
EndTime: 0.72
}
Word3: {
SpeechResult: time
Score: 0.7
StartTime: 0.72
EndTime: 1.25
}
}
…

アプリケーション部２８０は、例えば、部分最小確信度が閾値以上である場合には、最尤単語列の利用を決定する。一方、確信度が閾値未満である要素部分がある場合、アプリケーション部２８０は、正しい認識のために多様な処理を実行し得る。

例えば、アプリケーション部２８０は、入力音声を示す音声データをインタフェース２７０から取得している場合、当該音声データのうちで、確信度が閾値未満である要素部分に対応するデータ部分の認識を、サーバ３０に通信部２４０を介して依頼してもよい。上記の要素部分（粗い）モードの場合で取得される情報の例では、要素部分「the time」の確信度が低い。このため、アプリケーション部２８０は、音声データのうちで要素部分「the time」に対応するデータ部分の認識をサーバ３０に依頼してもよい。このように音声データの一部分の認識をサーバ３０に依頼することにより、通信トラフィック、通信遅延およびサーバ３０における処理負荷を低減することが可能である。

または、アプリケーション部２８０は、確信度が閾値未満である要素部分の再発話を誘導する再発話誘導部としての機能を有してもよい。例えば、アプリケーション部２８０は、確信度が閾値未満である要素部分の再発話を誘導する画面を表示部２９０に表示させてもよい。上記の要素部分（粗い）モードの場合で取得される情報の例では、要素部分「the time」の確信度が低い。このため、アプリケーション部２８０は、要素部分「the time」の再発話を誘導するために、「ｗｈａｔｄｏｙｏｕｗａｎｔｔｏｃｈｅｃｋ？」というメッセージを含む画面を表示部２９０に表示させてもよい。かかる構成によれば、確信度が低い要素部分の再発話により、発話全体での正しい認識結果が揃うことが期待される。

＜６．ハードウェア構成＞
以上、本開示の実施形態を説明した。上述した最尤単語列の推定および確信度の計算などの情報処理は、ソフトウェアと、以下に説明する音声処理装置２０のハードウェアとの協働により実現される。

図１３は、音声処理装置２０のハードウェア構成を示した説明図である。図１３に示したように、音声処理装置２０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、入力装置２０８と、出力装置２１０と、ストレージ装置２１１と、ドライブ２１２と、撮像装置２１３と、通信装置２１５とを備える。

ＣＰＵ２０１は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置２０内の動作全般を制御する。また、ＣＰＵ２０１は、マイクロプロセッサであってもよい。ＲＯＭ２０２は、ＣＰＵ２０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２０３は、ＣＰＵ２０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバスにより相互に接続されている。これらＣＰＵ２０１、ＲＯＭ２０２およびＲＡＭ２０３とソフトウェアとの協働により、音声処理部２５０の機能が実現され得る。

入力装置２０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ２０１に出力する入力制御回路などから構成されている。音声処理装置２０のユーザは、該入力装置２０８を操作することにより、音声処理装置２０に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置２１０は、例えば、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置およびランプなどの表示装置を含む。さらに、出力装置２１０は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。

ストレージ装置２１１は、本実施形態にかかる音声処理装置２０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２１１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置２１１は、ＣＰＵ２０１が実行するプログラムや各種データを格納する。

ドライブ２１２は、記憶媒体用リーダライタであり、音声処理装置２０に内蔵、あるいは外付けされる。ドライブ２１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体２４に記録されている情報を読み出して、ＲＡＭ２０３に出力する。また、ドライブ２１２は、リムーバブル記憶媒体２４に情報を書き込むこともできる。

撮像装置２１３は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）またはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。

通信装置２１５は、例えば、通信網１２に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置２１５は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応通信装置であっても、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

＜７．むすび＞
以上説明したように、本開示の実施形態によれば、最尤単語列全体での確信度よりも緻密な、最尤単語列を構成する要素部分ごとの確信度が算出される。従って、発話された入力音声が語彙内音声であったか否かの判定をより高精度に行うことが可能である。

なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、図５に示した辞書データ記憶部２５４に記憶される辞書データは、コンテキストによって変化してもよい。具体的には、音声処理装置２０に記録された音楽のアーティスト名が辞書データに自動的に追加されてもよいし、利用場所によって辞書データに含まれる地名が変化してもよい。

また、ユーザが「play music by ｘｘｘ」のように辞書データに無いアーティスト名を含む音声を発話した場合、アーティスト名を示す「ｘｘｘ」に対応する要素部分の確信度は小さくなるが、ユーザが何かの曲を再生したいことまでは認識できる。この場合、音声処理装置２０は、ユーザの嗜好や再生履歴に基づいて曲を抽出し、抽出した曲の再生を開始してもよい。また、旅行先でユーザが言いなれていない地名「ｚｚｚ」を含む「how to get to ｚｚｚ」という音声を発話した場合、「ｚｚｚ」に対応する要素部分の確信度は小さくなり得るが、決定部２６８は、旅行先であることに基づき部分最小確信度の閾値を下げることにより、最尤単語列の利用を決定してもよい。このように、要素部分ごとの確信度は、様々な応用に用いることが可能である。

また、上記では、分割部２６４および部分確信度算出部２６６の機能が音声処理装置２０に設けられる例を説明したが、分割部２６４および部分確信度算出部２６６などの音声処理部２５０の少なくとも一部の機能はサーバ３０に設けられてもよい。

また、本明細書の音声処理装置２０およびサーバ３０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置２０およびサーバ３０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、音声処理装置２０およびサーバ３０に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、上述した音声処理装置２０およびサーバ３０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、以下のような構成も本開示の技術的範囲に属する。
（１）
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、
前記単語列推定部により推定された単語列を構成する要素部分について、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、
を備える、音声処理装置。
（２）
前記音声処理装置は、前記単語列推定部により推定された単語列を２以上の要素部分に分割する分割部をさらに備え、
前記算出部は、前記２以上の要素部分について前記確信度を算出する、前記（１）に記載の音声処理装置。
（３）
前記分割部は、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、前記単語列を分割する、前記（２）に記載の音声処理装置。
（４）
前記分割部は、前記単語列において、非音声部分を前記非音声部分の継続長さに応じた数の音素を有する単語として扱う、前記（３）に記載の音声処理装置。
（５）
前記音声処理装置は、前記入力音声に相当する音素列を、音素遷移の確率モデルに基づいて推定する音素列推定部をさらに備え、
前記算出部は、前記単語列を構成する要素部分の尤度と、当該要素部分に対応する前記音素列における音素部分の尤度との関係に基づき、前記確信度を算出する、前記（１）～（４）のいずれか一項に記載の音声処理装置。
（６）
前記算出部による前記確信度の算出の結果に基づき、前記単語列推定部により推定された前記単語列の扱いを決定する決定部をさらに備える、前記（１）～（５）のいずれか一項に記載の音声処理装置。
（７）
前記決定部は、前記算出部により算出された１または２以上の確信度のうちで最も小さい確信度が閾値以上であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用し、前記最も小さい確信度が前記閾値未満であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、前記（６）に記載の音声処理装置。
（８）
前記決定部は、前記算出部により算出された１または２以上の確信度のうちで最も小さい確信度が閾値以上であり、かつ、前記単語列の全体での確信度が所定値以上であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用し、
前記最も小さい確信度が前記閾値未満であること、または前記単語列の全体での確信度が所定値未満であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、前記（６）または（７）に記載の音声処理装置。
（９）
前記音声処理装置は、前記入力音声を示す音声データを外部装置に送信し、前記外部装置から前記音声データについての音声認識に基づく情報を受信する通信部をさらに備え、
前記決定部は、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定した場合、前記外部装置から受信された前記音声認識に基づく情報の利用を決定する、前記（６）～（８）のいずれか一項に記載の音声処理装置。
（１０）
前記音声処理装置は、前記算出部により算出された確信度が閾値未満である要素部分がある場合、当該要素部分に対応する音声の再発話を誘導する再発話誘導部をさらに備える、前記（１）～（９）のいずれか一項に記載の音声処理装置。
（１１）
前記音声処理装置は、前記単語列推定部により推定された単語列を、前記単語列を構成する確信度と共に、前記入力音声に基づいて動作するアプリケーションに出力するインタフェースをさらに備える、前記（１）～（１０）のいずれか一項に記載の音声処理装置。
（１２）
入力音声の推定により得られた単語列を、前記単語列を構成する要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、
前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、
を備える、情報処理装置。
（１３）
前記取得部は、さらに前記入力音声を示す音声データを取得し、
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声データの認識を外部装置に依頼することを決定する、前記（１２）に記載の情報処理装置。
（１４）
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声の再発話を誘導することを決定する、前記（１２）に記載の情報処理装置。
（１５）
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、
推定された単語列を構成する要素部分について、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出することと、
を含む、音声処理方法。
（１６）
入力音声の推定により得られた単語列を、前記単語列を構成する要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、
取得された前記確信度を示す情報に基づき、前記単語列の扱いをプロセッサにより決定することと、
を含む、情報処理方法。

２０音声処理装置
３０サーバ
２２０収音部
２３６動作モード制御部
２４０通信部
２５０音声処理部
２５２音声分析部
２５４辞書データ記憶部
２５６単語列推定部
２５８確率モデル記憶部
２６０音素列推定部
２６２発話確信度算出部
２６４分割部
２６６部分確信度算出部
２６８決定部
２７０インタフェース
２８０アプリケーション部
２９０表示部
３２４通信部
３４０音声認識部

Claims

辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、
前記単語列推定部により推定された単語列を、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割する分割部と、
前記２以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、
を備える、音声処理装置。
前記分割部は、前記単語列において、非音声部分を前記非音声部分の継続長さに応じた数の音素を有する単語として扱う、請求項１に記載の音声処理装置。
前記音声処理装置は、前記入力音声に相当する音素列を、音素遷移の確率モデルに基づいて推定する音素列推定部をさらに備え、
前記算出部は、前記単語列を構成する要素部分の尤度と、当該要素部分に対応する前記音素列における音素部分の尤度との関係に基づき、前記確信度を算出する、請求項１または２に記載の音声処理装置。
前記算出部による前記確信度の算出の結果に基づき、前記単語列推定部により推定された前記単語列の扱いを決定する決定部をさらに備える、請求項１～３のいずれか一項に記載の音声処理装置。
前記決定部は、前記算出部により算出された１または２以上の確信度のうちで最も小さい確信度が閾値以上であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用し、前記最も小さい確信度が前記閾値未満であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、請求項４に記載の音声処理装置。
前記決定部は、前記算出部により算出された１または２以上の確信度のうちで最も小さい確信度が閾値以上であり、かつ、前記単語列の全体での確信度が所定値以上であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用し、
前記最も小さい確信度が前記閾値未満であること、または前記単語列の全体での確信度が所定値未満であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、請求項４または５に記載の音声処理装置。
前記音声処理装置は、前記入力音声を示す音声データを外部装置に送信し、前記外部装置から前記音声データについての音声認識に基づく情報を受信する通信部をさらに備え、
前記決定部は、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定した場合、前記外部装置から受信された前記音声認識に基づく情報の利用を決定する、請求項４～６のいずれか一項に記載の音声処理装置。
前記音声処理装置は、前記算出部により算出された確信度が閾値未満である要素部分がある場合、当該要素部分に対応する音声の再発話を誘導する再発話誘導部をさらに備える、請求項１～７のいずれか一項に記載の音声処理装置。
前記音声処理装置は、前記単語列推定部により推定された単語列を、前記単語列を構成する確信度と共に、前記入力音声に基づいて動作するアプリケーションに出力するインタフェースをさらに備える、請求項１～８のいずれか一項に記載の音声処理装置。
入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割された単語列を、前記単語列を構成する前記２以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、
前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、
を備える、情報処理装置。
前記取得部は、さらに前記入力音声を示す音声データを取得し、
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声データの認識を外部装置に依頼することを決定する、請求項１０に記載の情報処理装置。
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声の再発話を誘導することを決定する、請求項１０に記載の情報処理装置。
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、
推定された単語列を、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割することと、
前記２以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出する算出することと、
を含む、音声処理方法。
入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に１つの要素部分を構成し、音素数が前記所定数以上である単語は１つの要素部分を構成するように、２以上の要素部分に分割された単語列を、前記単語列を構成する前記２以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、
取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定することと、
を含む、情報処理方法。