JP2019207329A

JP2019207329A - 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Info

Publication number: JP2019207329A
Application number: JP2018102754A
Authority: JP
Inventors: 海光桑村; Kaiko Kuwamura
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2019-12-05
Anticipated expiration: 2038-05-29
Also published as: JP7096707B2

Abstract

【課題】音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制する。【解決手段】電子機器（１００）に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識部（１１）と、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識部（１２）と、少なくとも第１音声認識部（１１）が認識する上記第１音素列、および第２音声認識部（１２）が認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部（１３）と、を備え、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である。【選択図】図１

Description

本発明は、電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法に関する。

特許文献１には、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置が開示されている。この処理単位分割装置は、発話に応じたテキストの形態素列情報を受け付ける形態素列情報受付部を備える。

また、この装置は、教師テキストの教師形態素列情報および教師テキストの分割位置を示す教師分割情報を含む教師データを保持する教師データ記憶部、ポーズを検出するポーズ検出部を備える。

また、この装置は、分割位置の判断を行う判断形態素、判断形態素の直前の１以上の先行形態素、および判断形態素の直後の０以上の後続形態素を、判断形態素とポーズとの間の形態素数と、予め決められた後続形態素数との多くない方の数が後続形態素数となるように決定する決定部を備える。

さらに、この装置は、判断形態素、先行形態素、および後続形態素を用いて教師データの機械学習により判断形態素の位置が分割位置か判断して分割情報を構成する分割部、および分割情報を出力する出力部を備える。

特開２００９−５８６７１号公報（２００９年３月１９日公開）

しかしながら、上記従来技術は、ポーズ検出部が予め定められた時間の長さ以上の区間であるポーズを検出するようになっており、個々のユーザのポーズの時間が異なったり、１ユーザに対してその都度の発話で変わってきたりするポーズの時間に適切に対応できないという問題がある。また、上記従来技術では、ポーズの時間に適切に対応できないことにより、音声が不適切な位置で区切られたり、装置の反応時間が遅くなったりするという問題もある。

本発明の一態様は、上記問題点に鑑みて為されたものであり、その目的は、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができる電子機器などを実現することにある。

上記の課題を解決するために、本発明の一態様に係る制御装置は、電子機器を制御する制御装置であって、上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識部と、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識部と、少なくとも上記第１音声認識部が認識する上記第１音素列、および上記第２音声認識部が認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部と、を備え、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である構成である。

上記の課題を解決するために、本発明の一態様に係る電子機器は、少なくとも１つの制御装置を備えた電子機器であって、上記制御装置は、上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識処理と、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識処理と、少なくとも上記第１音声認識処理で認識する上記第１音素列、および上記第２音声認識処理で認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である構成である。

上記の課題を解決するために、本発明の一態様に係る制御方法は、少なくとも１つの制御装置を備えた電子機器の制御方法であって、上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識ステップと、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識ステップと、少なくとも上記第１音声認識ステップで認識する上記第１音素列、および上記第２音声認識ステップで認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である方法である。

本発明の一態様によれば、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができるという効果を奏する。

本発明の実施形態１〜３に係る電子機器の概要構成を示すブロック図である。上記電子機器の動作の一例を示すフローチャートである。上記電子機器の動作の別の例を示すフローチャートである。上記電子機器の動作のさらに別の例を示すフローチャートである。本発明の実施形態４に係る電子機器の概要構成を示すブロック図である。上記電子機器の動作の一例を示すフローチャートである。

〔実施形態１〕
図１に示すように、本発明の実施形態１に係る電子機器１００は、入力装置１、出力装置２、データベース３、および制御装置１０を備える。入力装置１は、入力された音声を音声信号に変換して制御装置１０に出力する。具体的には、入力装置１は、入力されたユーザの音声を音声信号に変換して、制御装置１０に出力する。入力装置１としては、一般的なマイクなどを適用することができる。

出力装置２は、音声認識されたテキストデータを表示したり、音声に変換したりして出力する。出力装置２としては、例えば、表示装置や音声出力装置（例えば、スピーカ）などを適用することができる。

データベース３は、後述する制御装置１０の第１音声認識部１１および第２音声認識部１２による音声認識処理において参照される、モデルデータおよびユーザ辞書を含んでいる。モデルデータは、音響モデルと、言語モデルとによって構成されている。

音響モデルは、認識対象となる音の単位（音素）がそれぞれどのような周波数特性を持っているかをモデル化したものである。音響モデルとしては、例えば、発話データの各部がどの音素に近いかを確率的に判定するための隠れマルコフモデルが用いられる。言語モデルは、単語の出現確率（単語出現率）がモデル化されたものであって、単語間や音素間の接続関係の規定や単語間の接続関係を規定する文法規則などを含む。

ユーザ辞書は、ユーザによって作成される単語辞書であって、言語モデルに含まれない単語を補足し、音声認識率を高めるために用いられる。ユーザ辞書は、会話キーワードに基づいて作成された辞書である。ユーザ辞書を構成する要素は、単語、読み、音素列などであり、音声認識に用いられる一般的なユーザ辞書と同様である。

制御装置１０は、電子機器１００による音声認識を統括的に制御するものであり、第１音声認識部１１、第２音声認識部１２、および認識結果判別部１３を備える。なお、本実施形態では、制御装置１０が２つの音声認識部を備えている形態について説明するが、後述する実施形態４のように、３つ以上の音声認識部を備えていても良い。

第１音声認識部１１は、電子機器１００の入力装置１に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間（ポーズ）が第１閾値を超えることにより特定する。また、第１音声認識部１１は、上記第１音素列の上記末尾までの音声の音声認識を行う。ここで、無音時間とは、ある音素列と次の音素列との間において音声認識される程度の音が入力装置１に入力されない時間のことである。

第２音声認識部１２は、電子機器１００の入力装置１に入力された音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定する。また、第２音声認識部１２は、上記第２音素列の上記末尾までの音声の音声認識を行う。なお、上記第１音素列と上記第２音素列とは先頭が同じで末尾が異なる音素列である。

認識結果判別部１３は、所定の判断基準またはデータベース３に格納されている各種情報を用いて、少なくとも第１音声認識部１１が認識する第１音素列、および第２音声認識部１２が認識する第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。ここで、所定の判断基準としては、例えば、認識された音素列が一文字、エラーまたはノイズであるか否かなどを例示することができる。

また、本発明の実施の一形態に係る電子機器１００の制御方法は、以下の各ステップを含む。
（１）電子機器１００に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識ステップ。
（２）電子機器１００に入力された音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識ステップ。なお、上記第２音素列は、上記第１音素列と先頭が同じで末尾が異なる音素列である。
（３）少なくとも上記第１音声認識ステップで認識する上記第１音素列、および上記第２音声認識ステップで認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップ。

上記構成または方法によれば、無音時間を判定する閾値の異なる少なくとも２つの第１音声認識部１１および第２音声認識部１２を用いて音声認識を行う。また、上記構成または方法によれば、少なくとも第１音声認識部１１が認識する第１音素列、および第２音声認識部１２が認識する第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。このため、音声を適切な位置で区切ることが可能になる。また、少なくとも２つの第１音声認識部１１および第２音声認識部１２を並行して動作させるため、装置の反応時間の遅れを抑制することができる。以上により、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができる。

次に、図２のフローチャートに基づき、電子機器１００の動作の流れについて説明する。同図に示すように、ステップＳ１０１（以下、「ステップ」は省略する）では、制御装置１０が、入力装置１に対する音声の入力を検出したか否かを確認する。この結果、入力装置１が音声の入力を検知しなかった場合（ＮＯ）、入力装置１は処理を終了する。一方、入力装置１が音声の入力を検知した場合は（ＹＥＳ）、Ｓ１０２に進む。

Ｓ１０２では、入力装置１が第１音声認識部１１および第２音声認識部１２のそれぞれに音声を入力し、それぞれの認識部を並行して動作させて、Ｓ１０３およびＳ１０５に進む。

Ｓ１０３では、第１音声認識部１１が、無音時間が所定の値Ａ（第１閾値；Ａ＜Ｂ）以下か否かを判定する。その結果、無音時間が値Ａ以下の場合（ＹＥＳ）、音声（第１音素列）の入力が継続しているものとして、Ｓ１０２に戻る。このとき、第２音声認識部１２（すなわち、Ｓ１０５以下の処理）もＳ１０２に戻り、Ｓ１０２において、同じ音声が第１音声認識部１１および第２音声認識部１２のそれぞれに音声が入力される。

一方、無音時間が値Ａを超える場合（ＮＯ）、音声の入力が途切れたものとして、入力された音声に係る第１音素列の末尾を特定し、Ｓ１０４に進む。

Ｓ１０４では、第１音声認識部１１が、上記第１音素列の上記末尾までの音声の音声認識を行い、認識結果を認識結果判別部１３に渡して、Ｓ１０７に進む。

Ｓ１０７では、認識結果判別部１３が、認識された第１音素列が一文字か、エラーか、またはノイズかを判定する。認識された第１音素列が一文字か、エラーかまたはノイズである場合（ＹＥＳ）、認識結果を棄却する（Ｓ１０９）。一方、認識された第１音素列が一文字でも、エラーでもまたはノイズでもない場合（ＮＯ）、認識結果判別部１３は、第１音素列の認識結果を採択し（Ｓ１０８）、出力装置２へ出力する。

一方、Ｓ１０５では、Ｓ１０３の処理と並行して、第２音声認識部１２が、無音時間が所定の値Ｂ（第２閾値）以下か否かを判定する。その結果、無音時間が値Ｂ以下の場合（ＹＥＳ）、音声（第２音素列）の入力が継続しているものとして、Ｓ１０２に戻る。このとき、第１音声認識部１１（すなわち、Ｓ１０３以下の処理）もＳ１０２に戻り、Ｓ１０２において、同じ音声が第１音声認識部１１および第２音声認識部１２のそれぞれに音声が入力される。

一方、無音時間が値Ｂを超える場合（ＮＯ）、音声の入力が途切れたものとして、入力された音声に係る第２音素列の末尾を特定し、Ｓ１０６に進む。

Ｓ１０６では、第２音声認識部１２が、上記第２音素列の上記末尾までの音声の音声認識を行い、認識結果を認識結果判別部１３に渡して、Ｓ１１０に進む。

Ｓ１１０では、Ｓ１０７において、認識結果判別部１３が、認識された第２音素列が一文字か、エラーかまたはノイズかを判定した結果に応じて、第２音声認識部１２による認識結果を採択するか、棄却するかを決定する。すなわち、第１音素列が一文字か、エラーかまたはノイズである場合（ＹＥＳ）、認識結果判別部１３は、第２音素列の認識結果を採択し（Ｓ１１１）、出力装置２へ出力する。一方、第１音素列が一文字でも、エラーでもまたはノイズでもない場合（ＮＯ）、第２音素列の認識結果を棄却する（Ｓ１０９）。

Ｓ１１２では、出力装置２が、認識結果判別部１３によって採択され、出力された、第１音素列の認識結果、または第２音素列の認識結果を出力する。そして、電子機器１００は動作を終了する。

〔実施例１−１；第１音声認識部１１の認識結果が棄却されるケース〕
Ａ＝０．３秒、Ｂ＝０．７秒と設定した場合に、「あ（０．５秒）そういえば今日の天気を教えて（１．０秒以上）」という入力があったときを想定する。

ユーザが発話を開始してＳ１０１に進む。Ｓ１０１では、制御装置１０が入力装置１に対する音声の入力を検出し、入力装置１からの音声入力を受けて、第１音声認識部１１および第２音声認識部１２が並行で処理を開始する。

「あ（０．３秒）」の後、Ｓ１０３にて、第１音声認識部１１が、ポーズ（無音時間）を検出し、第１音素列の末尾を特定してＳ１０４の音声認識を開始する。

Ｓ１０４の第１音声認識部１１による音声認識の結果、第１音声認識部１１が、「あ」を認識結果判別部１３に出力する（Ｓ１０７）。

Ｓ１０７にて、認識結果判別部１３が、１文字のみの認識結果は不適切（期待するフレーズではない）と判断し、Ｓ１０４での認識結果をＳ１０９で棄却する。

これと並行して、「あ（０．５秒）そういえば今日の天気を教えて（０．７秒）」の後、Ｓ１０５にて、第２音声認識部１２が、ポーズを検出し、Ｓ１０６にて音声認識を開始する。Ｓ１０６の音声認識の結果「あ、そういえば今日の天気教えて」という認識結果が認識結果判別部１３に出力される（Ｓ１１０）、Ｓ１１０にて、認識結果判別部１３が、２文字以上の認識結果は適切（期待するフレーズである）と判断し、Ｓ１０６での認識結果をＳ１１１にて採択する。

〔実施例１−２；第１音声認識部１１の認識結果が採択されるケース〕
Ａ＝０．３秒、Ｂ＝０．７秒と設定した場合に、「ありがとう（０．５秒以上）」という入力があったときを想定する。

ユーザが発話を開始してＳ１０１に進む。Ｓ１０１では、制御装置１０が入力装置１に対する音声入力を検出し、第１音声認識部１１および第２音声認識部１２が並行で処理を開始する。「ありがとう（０．３秒）」の後、Ｓ１０３にて、第１音声認識部１１が、ポーズ（無音時間）を検出し、第１音素列の末尾を特定してＳ１０４の音声認識を開始する。

Ｓ１０４の音声認識の結果、第１音声認識部１１が、「ありがとう」を認識結果判別部１３に出力する。Ｓ１０７にて、認識結果判別部１３が、２文字以上の認識結果は期待するフレーズだと判断し、Ｓ１０４の認識結果をＳ１０８で採択する。Ｓ１０６の結果を待たずに、Ｓ１１２にてＳ１０８で採択された「ありがとう」を、出力装置２を介して出力する。

上述した実施例１−２のようなケースではＡ秒後の結果をすぐに出力することができる。また、実施例１−１のようなケースではＡ秒後に結果は表示されないが、Ｂ秒後のよりふさわしい認識結果を採択、出力することが可能となる。

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図１に示すように、本発明の実施形態２に係る電子機器１００は、実施形態１で説明した電子機器１００と同様の構成を有する。ただし、本実施形態では、データベース３には、発話される音声として想定できる言葉があらかじめ格納されている。

次に、図３のフローチャートに基づき、電子機器１００の動作の流れについて説明する。図３に示すフローは、Ｓ２０７における処理が、図２に示すＳ１０７における処理と異なる点で、図２に示すフローと異なっている。しかしながら、図３に示すＳ２０１〜Ｓ２０６、Ｓ２０８〜Ｓ２１２における処理は、それぞれ、図２に示すＳ１０１〜Ｓ１０６、Ｓ１０８〜Ｓ１１２における処理と同様であるため、ここでは説明を省略する。

Ｓ２０７で、Ｓ２０４の音声認識の結果（第１音素列）が、データベースに登録されている登録音素列と一致するか否かを確認する。その結果、第１音素列が登録音素列と一致する場合（ＹＥＳ）、Ｓ２０８にて第１音素列を認識結果として採択する。一方、第１音素列が登録音素列と一致しない場合（ＮＯ）、Ｓ２０９にてＳ２０４の音声認識の結果を棄却する。

Ｓ２１０では、Ｓ２０７において、認識結果判別部１３が、第１音声認識部１１による音声認識の結果が、データベースに登録されている登録音素列と一致するか否かを判定した結果に応じて、第２音声認識部１２による認識結果を採択するか、棄却するかを決定する。すなわち、Ｓ２０７で、第１音素列が登録音素列と一致する場合（ＹＥＳ）、第２音素列の認識結果を棄却する（Ｓ２０９）。一方、第１音素列が登録音素列と一致しない場合（ＮＯ）、認識結果判別部１３は、第２音素列の認識結果を採択し（Ｓ２１１）、出力装置２へ出力する。

〔実施例２−１；第１音声認識部１１の出力が棄却されるケース〕
Ａ＝０．３秒、Ｂ＝０．７秒と設定し、「コーヒーを飲みますか？」に対しての返答を音声認識する場合に、「あ（０．５秒）はい（１．０秒以上）」という入力があったときを想定する。また、データベース３には、「はい、いいえ、お願いします、要らないです、欲しいです、やめときます、」などの語彙が格納されているものとする。

ユーザが発話を開始してＳ２０１に進む。Ｓ２０１で制御装置１０が入力装置１に対する音声入力を検出し、第１音声認識部１１および第２音声認識部１２が並行で処理を開始する。

「あ（０．３秒）」の後、Ｓ２０３にて、第１音声認識部１１が、ポーズ（無音時間）を検出し、第１音素列の末尾を特定して、Ｓ２０４の音声認識を開始する。Ｓ２０４の音声認識の結果、第１音声認識部１１が、「あ」を認識結果判別部１３に出力する。Ｓ２０７にて、認識結果判別部１３は、Ｓ２０４で得られた「あ」がデータベース３に含まれないため、Ｓ２０９にて棄却する。

これと並行して、「あ（０．５秒）はい（０．７秒）」の後、Ｓ２０５にて、第２音声認識部１２が、ポーズを検出し、Ｓ２０６の音声認識を開始する。Ｓ２０６の音声認識の結果「あ、はい」という言葉が認識結果判別部１３に出力される。Ｓ２１０にて、認識結果判別部１３が、「あ、はい」がデータベース３に含まれていると判断し、Ｓ２１１にてＳ２０６の音声認識の結果を採択する。Ｓ２１２にてＳ２１１で採択された「あ、はい」を、出力装置２を介して出力する。

〔実施例２−２；第１音声認識部１１の出力が採択されるケース〕
Ａ＝０．３秒、Ｂ＝０．７秒と設定し、「コーヒーを飲みますか？」に対しての返答を音声認識する場合に、「お願いします（１．０秒以上）」という入力があった時を想定する。また、データベース３には「はい、いいえ、お願いします、要らないです、欲しいです、やめときます、」などの語彙が格納されているものとする。

ユーザが発話を開始しＳ２０１に進む。Ｓ２０１で制御装置１０が入力装置１に対する音声入力を検出し、第１音声認識部１１および第２音声認識部１２が並行で処理を開始する。

「お願いします（０．３秒）」の後、Ｓ２０３にて、第１音声認識部１１が、ポーズ（無音時間）を検出し、第１音素列の末尾を特定して、Ｓ２０４の音声認識を開始する。

Ｓ２０４の音声認識の結果、第１音声認識部１１が、「お願いします」を認識結果判別部１３に出力する。Ｓ２０７にて、認識結果判別部１３が、Ｓ２０４で得られた「お願いします」がデータベース３に含まれるためＳ２０８で採択する。Ｓ２０６の結果を待たずに、Ｓ２１２にてＳ２０８で採択された「お願いします」を、出力装置２を介して出力する。

実施例２−２のようなケースではＡ秒後の結果をすぐに出力することができる。また、実施例２−１のようなケースではＡ秒後に結果は表示されないが、Ｂ秒後のよりふさわしい認識結果を採択、出力することが可能となる。さらに、実施例２−１、２−２の判別方法を、実施例１−１、１−２の判別方法と併用することも可能であり、より高度な判別が可能となる。

〔実施形態３〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図１に示すように、本発明の実施形態３に係る電子機器１００は、実施形態１で説明した電子機器１００と同様の構成を有する。ただし、本実施形態では、データベース３には、過去に行われた対話のデータが格納されている。

次に、図４のフローチャートに基づき、電子機器１００の動作の流れについて説明する。図４に示すフローは、Ｓ３０７における処理が、図２に示すＳ１０７における処理と異なる点で、図２に示すフローと異なっている。しかしながら、図４に示すＳ３０１〜Ｓ３０６、Ｓ３０８〜Ｓ３１２における処理は、それぞれ、図２に示すＳ１０１〜Ｓ１０６、Ｓ１０８〜Ｓ１１２における処理と同様であるため、ここでは説明を省略する。

Ｓ３０７で、Ｓ３０４の音声認識の結果（第１音素列）の単語出現率が所定の閾値Ｃよりも大きいか否かを確認する。認識結果判別部１３は、過去の対話に含まれる音素列を格納したデータベース３を参照することにより、上記第１音素列および上記第２音素列それぞれの、過去の対話を基に当該音素列の入力された音声に出現する確率を算出し、当該確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別する。

より具体的には、データベース３に登録されている単語の総数に対する対象の単語の出現回数から当該単語出現率（当該単語の出現する確率）を算出する。または、ＬＤＡ（Latent Dirichlet Allocation）などのトピックモデルを用いた統計手法により当該単語出現率を算出する。その結果、第１音素列の単語出現率が閾値Ｃを超える場合（ＹＥＳ）、Ｓ３０８にて第１音素列を認識結果として採択する。一方、第１音素列の単語出現率が閾値Ｃ以下の場合、Ｓ３０９にてＳ３０４の音声認識の結果を棄却する。なお、ＬＤＡ以外の統計手法として、ＬＳＩ（Latent Semantic Indexing）、およびＰＬＳＩ（Probabilistic Latent Semantic Indexing）などを用い単語出現率を算出することができる。

Ｓ３１０では、Ｓ３０７において、認識結果判別部１３が、第１音声認識部１１による音声認識の結果の単語出現率が所定の閾値Ｃよりも大きいか否かを判定した結果に応じて、第２音声認識部１２による認識結果を採択するか、棄却するかを決定する。すなわち、Ｓ３０７で第１音素列の出現率が閾値Ｃよりも大きい場合（ＹＥＳ）、第２音素列の認識結果を棄却する（Ｓ３０９）。一方、第１音素列の出現率が閾値Ｃ以下の場合（ＮＯ）、認識結果判別部１３は、第２音素列の認識結果を採択し（Ｓ３１１）、出力装置２へ出力する。

ここで、データベース３には、これまでに行われた対話のデータが格納されている。Ｓ３１２の出力装置２による出力結果は対話の一部であり、データベース３に格納され、以降の音声認識結果の当該音声としてふさわしいか（単語出現率）の算出に用いられてもよい。また、長期的な対話で、話題が変動するケースでは、データベース３は過去Ｘ分以内の対話などに限定することが好ましい。

〔実施例３−１；第１音声認識部１１の出力が棄却されるケース〕
Ａ＝０．３秒、Ｂ＝０．７秒、Ｃ＝０．５と設定し、これまでに最近の天気について話していた場合に、「あし（０．５秒）たもはれるかな？（１．０秒以上）」という入力があった時を想定する。また、データベース３には「昨日も寒かったね」「今日はいい天気だったね」「晴れていると気持ちがいいよね」などの過去の対話データが格納されているものとする。

ユーザが発話を開始し、Ｓ３０１に進む。Ｓ３０１で制御装置１０が入力装置１に対する音声入力を検出し、第１音声認識部１１および第２音声認識部１２が並行で処理を開始する。

「あし（０．３秒）」の後、Ｓ３０３にて、第１音声認識部１１が、ポーズ（無音時間）を検出し、第１音素列の末尾を特定して、３０４の音声認識を開始する。

Ｓ３０４の音声認識の結果、「足」が認識結果判別部１３に出力される。Ｓ３０７にて、認識結果判別部１３が、ＬＤＡによりデータベース３に基づいて「足」の単語出現率を算出する。この場合、「足」はデータベース３に格納されていないので、単語出現率が閾値の０．５以下の値となり（ＮＯ）、Ｓ３０９にてＳ３０４の認識結果を棄却する。

これと並行して、「あし（０．５秒）たもはれるかな？（０．７秒以上）」の直後、Ｓ３０５にて、第２音声認識部１２が、ポーズを検出し、Ｓ３０６の音声認識を開始する。Ｓ３０６の音声認識の結果、第２音声認識部１２が、「明日も晴れるかな？」という言葉を認識結果判別部１３に出力する。Ｓ３１０にて、認識結果判別部１３が、Ｓ３０７でＮＯであるため、Ｓ３１１にてＳ３０６の音声認識の結果「明日も晴れるかな？」を採択する。Ｓ３１２にてＳ３１１で採択された「明日も晴れるかな？」を、出力装置２を介して出力する。

このように、認識すべき対話の話題に一致する過去の対話のデータに基づいて単語出現率を算出することにより、適切な音声認識が可能となる。また、実施例３−１のようなケースではＡ秒後に結果は表示されないが、Ｂ秒後のよりふさわしい認識結果を採択、出力することが可能となる。さらに、実施例３−１の判別方法を、実施例１−１、１−２、および実施例２−１、２−２の判別方法と併用することも可能で、より高度な判別が可能となる。

〔実施形態４〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図５に示すように、本実施形態の電子機器２００は、制御装置２０の構造が図１に示す制御装置１０の構造と異なる点で、上述した実施形態と異なっている。

具体的には、制御装置２０は、第１音声認識部１１および第２音声認識部１２に加えて、さらに第３音声認識部１４および第４音声認識部１５と、合計４つの音声認識部を備えている点で、上述した実施形態と異なっている。

第３音声認識部１４は、電子機器２００の入力装置１に入力された音声に係る第３音素列の末尾を、その第３音素列に続く無音時間（ポーズ）が、第１閾値および第２閾値より長い第３閾値を超えることにより特定する。また、第３音声認識部１４は、上記第３音素列の上記末尾までの音声の音声認識を行う。

第４音声認識部１５は、電子機器２００の入力装置１に入力された音声に係る第４音素列の末尾を、その第４音素列に続く無音時間が第１閾値〜第３閾値より長い第４閾値を超えることにより特定する。また、第４音声認識部１５は、上記第４音素列の上記末尾までの音声の音声認識を行う。なお、上記第１音素列〜上記第４音素列は先頭が同じで末尾が異なる音素列である。

認識結果判別部１３は、第１音声認識部１１が認識する第１音素列、第２音声認識部１２が認識する第２音素列、第３音声認識部１４が認識する第３音素列、および第４音声認識部１５が認識する第４音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。

次に、図６に示すフローチャートに基づき、電子機器２００の動作の流れについて説明する。本実施形態では、Ｓ４０３、Ｓ４０５、Ｓ４０７、およびＳ４０９にて、第１音声認識部１１、第２音声認識部１２、第３音声認識部１４および第４音声認識部１５のそれぞれが、無音時間が所定の値Ａ〜Ｄ（第１閾値〜第４閾値；Ａ＜Ｂ＜Ｃ＜Ｄ）以下か否かを判定する点で上述した形態と異なっている。

また、本実施形態では、Ｓ４０４、Ｓ４０６、Ｓ４０８およびＳ４１０の順に出力される認識結果の中で、期待するフレーズが出力された時点で、その出力結果を採択し、以降の出力結果を棄却する（Ｓ４１１〜Ｓ４１４参照）。

〔実施例４−１；第１音声認識部１１の出力が棄却されるケース〕
Ａ＝０．２秒、Ｂ＝０．４秒、Ｃ＝０．６秒、Ｄ＝０．８秒と設定し、本実施形態の判別方法では、実施形態１と同様に一文字、エラーもしくはノイズの場合は棄却する判別方法を用いる。なお、この判別方法を、実施形態２または３の判別方法に置換しても良い。

また、「あ（０．５秒）そういえば今日の天気を教えて（１．０秒以上）」という入力があったときを想定する。

ユーザが発話を開始しＳ４０１に進む。Ｓ４０１で制御装置２０が入力装置１に対する音声入力を検出し、第１音声認識部１１、第２音声認識部１２、第３音声認識部１４および第４音声認識部１５が並行で処理を開始する。

「あ（０．２秒）」の後、Ｓ４０３にて第１音声認識部１１がポーズ（無音時間）を検出し、第１音素列の末尾を特定し、Ｓ４０４の音声認識を開始する。Ｓ４０４の音声認識の結果、第１音声認識部１１が「あ」を認識結果判別部１３に出力する。Ｓ４１１にて認識結果判別部１３が、一文字のみの発言は期待するフレーズではないと判断し、Ｓ４０４の出力を棄却する。

これと並行して、「あ（０．４秒）」の後、Ｓ４０５にて、第１音声認識部１１が、ポーズ（無音時間）を検出し、第２音素列の末尾を特定して、Ｓ４０６の音声認識を開始する。Ｓ４０６の音声認識の結果、第１音声認識部１１が、「あ」を認識結果判別部１３に出力する。Ｓ４１１にて、認識結果判別部１３が、一文字のみの発言は期待するフレーズではないと判断し、Ｓ４０６の出力を棄却する。

また、これと並行して、「あ（０．５秒）そういえば今日の天気を教えて（０．６秒）」の後、Ｓ４０７にて、第２音声認識部１２が、ポーズ（無音時間）を検出し、Ｓ４０８の音声認識を開始する。

Ｓ４０８の音声認識の結果、第２音声認識部１２が、「あ、そういえば今日の天気教えて」という言葉を認識結果判別部１３に出力する。Ｓ４１１にて、認識結果判別部１３が、「あ、そういえば今日の天気教えて」は２文字以上で期待するフレーズと判別し、Ｓ４１０の結果を待たずにＳ４１２にてＳ４０８の音声認識の結果を採択する。Ｓ４１４にて出力装置２を介してＳ４０８の音声認識の結果を出力する。このケースでは、並行して処理する負荷がかかるが、実施例１−１、１−２、２−１、２−２および３−１よりも早く同等の結果を出力することが可能となる。

〔ソフトウェアによる実現例〕
電子機器１００、２００における制御装置１０、２０の制御ブロック（特に第１音声認識部１１、第２音声認識部１２、認識結果判別部１３、第３音声認識部１４および第４音声認識部１５）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

後者の場合、制御装置１０、２０は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも１つのプロセッサ（制御装置）を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも１つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る制御装置は、電子機器を制御する制御装置（１０）であって、上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識部（１１）と、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識部（１２）と、少なくとも上記第１音声認識部が認識する上記第１音素列、および上記第２音声認識部が認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部（１３）と、を備え、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である構成である。

上記構成によれば、無音時間を判定する閾値の異なる少なくとも２つの第１音声認識部および第２音声認識部を用いて音声認識を行う。また、上記構成によれば、少なくとも第１音声認識部が認識する第１音素列、および第２音声認識部が認識する第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。このため、音声を適切な位置で区切ることが可能になる。また、少なくとも２つの第１音声認識部および第２音声認識部を並行して動作させるため、装置の反応時間の遅れを抑制することができる。以上により、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができる。

本発明の態様２に係る制御装置は、上記態様１において、上記認識結果判別部は、上記第１音素列および上記第２音素列の何れかが一文字、エラーまたはノイズである場合に、上記一文字、上記エラーまたは上記ノイズでない方の音素列を、上記最も確からしい音声認識の結果であると判別しても良い。上記構成によれば、音声を適切な位置で区切ることができ、適切な音声認識の結果が得られる。

本発明の態様３に係る制御装置は、上記態様１において、上記認識結果判別部は、上記第１音素列および上記第２音素列のうち、予めデータベース（３）に登録された登録音素列と一致する音素列を、上記最も確からしい音声認識の結果であると判別しても良い。上記構成によれば、音声を適切な位置で区切ることができ、適切な音声認識の結果が得られる。

本発明の態様４に係る制御装置は、上記態様１において、上記認識結果判別部は、過去の対話に含まれる音素列を格納したデータベース（３）を参照することにより、上記第１音素列および上記第２音素列のそれぞれの、過去の対話における当該音素列の出現する確率を算出し、上記確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別しても良い。上記構成によれば、音声を適切な位置で区切ることができ、適切な音声認識の結果が得られる。

本発明の態様５に係る制御装置は、上記態様１において、上記制御装置は、さらに上記電子機器に入力された音声に係る第３音素列の末尾を、その第３音素列に続く無音時間が上記第１閾値および上記第２閾値より長い第３閾値を超えることにより特定し、上記第３音素列の上記末尾までの音声の音声認識を行う第３音声認識部（１４）を少なくとも備え、上記第１音素列、上記第２音素列および上記第３音素列は先頭が同じで上記末尾が異なる音素列であり、上記認識結果判別部は、少なくとも上記第１音声認識部が認識する上記第１音素列、上記第２音声認識部が認識する上記第２音素列、および上記第３音声認識部が認識する上記第３音素列、の中から、上記最も確からしい音声認識の結果であると想定される音素列を判別しても良い。上記構成によれば、音声をより適切な位置で区切ることができ、より適切な音声認識の結果が得られる。

本発明の態様６に係る電子機器は、少なくとも１つの制御装置を備えた電子機器であって、上記制御装置は、上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識処理と、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識処理と、少なくとも上記第１音声認識処理で認識する上記第１音素列、および上記第２音声認識処理で認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である構成である。上記構成によれば、上記態様１と同様の効果を得ることができる。

本発明の態様７に係る制御方法は、少なくとも１つの制御装置を備えた電子機器の制御方法であって、上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識ステップと、上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識ステップと、少なくとも上記第１音声認識ステップで認識する上記第１音素列、および上記第２音声認識ステップで認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列である方法である。上記方法によれば、上記態様１と同様の効果が得られる。

本発明の各態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記制御装置が備える各部（ソフトウェア要素）として動作させることにより上記制御装置をコンピュータにて実現させる制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１入力装置
２出力装置
３データベース
１０，２０制御装置
１１第１音声認識部
１２第２音声認識部
１３認識結果判別部
１４第３音声認識部
１５第４音声認識部
１００，２００電子機器

Claims

電子機器を制御する制御装置であって、
上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識部と、
上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識部と、
少なくとも上記第１音声認識部が認識する上記第１音素列、および上記第２音声認識部が認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部と、を備え、
上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする制御装置。
上記認識結果判別部は、上記第１音素列および上記第２音素列の何れかが一文字、エラーまたはノイズである場合に、上記一文字、上記エラーまたは上記ノイズでない方の音素列を、上記最も確からしい音声認識の結果であると判別することを特徴とする請求項１に記載の制御装置。
上記認識結果判別部は、上記第１音素列および上記第２音素列のうち、予めデータベースに登録された登録音素列と一致する音素列を、上記最も確からしい音声認識の結果であると判別することを特徴とする請求項１に記載の制御装置。
上記認識結果判別部は、過去の対話に含まれる音素列を格納したデータベースを参照することにより、上記第１音素列および上記第２音素列のそれぞれの、過去の対話における当該音素列の出現する確率を算出し、上記確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別することを特徴とする請求項１に記載の制御装置。
上記制御装置は、さらに上記電子機器に入力された音声に係る第３音素列の末尾を、その第３音素列に続く無音時間が上記第１閾値および上記第２閾値より長い第３閾値を超えることにより特定し、上記第３音素列の上記末尾までの音声の音声認識を行う第３音声認識部を少なくとも備え、
上記第１音素列、上記第２音素列および上記第３音素列は先頭が同じで上記末尾が異なる音素列であり、
上記認識結果判別部は、少なくとも上記第１音声認識部が認識する上記第１音素列、上記第２音声認識部が認識する上記第２音素列、および上記第３音声認識部が認識する上記第３音素列、の中から、上記最も確からしい音声認識の結果であると想定される音素列を判別することを特徴とする請求項１に記載の制御装置。
少なくとも１つの制御装置を備えた電子機器であって、
上記制御装置は、
上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識処理と、
上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識処理と、
少なくとも上記第１音声認識処理で認識する上記第１音素列、および上記第２音声認識処理で認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、
上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする電子機器。
請求項１に記載の制御装置としてコンピュータを機能させるための制御プログラムであって、上記第１音声認識部、上記第２音声認識部および上記認識結果判別部としてコンピュータを機能させるための制御プログラム。
少なくとも１つの制御装置を備えた電子機器の制御方法であって、
上記電子機器に入力された音声に係る第１音素列の末尾を、その第１音素列に続く無音時間が第１閾値を超えることにより特定し、上記第１音素列の上記末尾までの音声の音声認識を行う第１音声認識ステップと、
上記音声に係る第２音素列の末尾を、その第２音素列に続く無音時間が上記第１閾値より長い第２閾値を超えることにより特定し、上記第２音素列の上記末尾までの音声の音声認識を行う第２音声認識ステップと、
少なくとも上記第１音声認識ステップで認識する上記第１音素列、および上記第２音声認識ステップで認識する上記第２音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、
上記第１音素列と上記第２音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする制御方法。