JP5519126B2

JP5519126B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP5519126B2
Application number: JP2008168657A
Authority: JP
Inventors: 修一松本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2008-06-27
Filing date: 2008-06-27
Publication date: 2014-06-11
Anticipated expiration: 2028-06-27
Also published as: JP2010008768A

Description

本発明は、入力される音声に対応する文字列を特定し、その文字列に応じた応答を音声で行う音声認識装置及び音声認識方法に関する。

従来より、種々の操作指示を入力するための入力装置として、音声認識装置が採用されている。例えば、音声認識装置を組み込んだ車載用ナビゲーション装置においては、経路探索における目的地の住所や施設名称の設定等の操作指示を音声によって入力可能になっている。

一般に、音声認識技術は、単語音声認識技術と連続語音声認識技術とに分類される。単語音声認識技術は、単語毎に区切って発声された音声を認識し、対応する単語の文字列を特定するものである。一方、連続語音声認識技術は、複数の単語等が連続して発声された音声を認識し、対応する複数の単語が連続してなるもの（以下、このようなものを「連続語」という）の文字列を特定するものである。

連続語音声認識技術においては、例えば「福島県いわき市平愛谷町１丁目」という住所を音声入力する場合に、住所を一回ですべて発話する方法と、住所を区切って複数回に分けて発話する方法があり、どちらの発話方法においても音声認識することが可能となっている。このような利便性により、近年では連続語音声認識技術を採用した音声認識装置が普及している。

連続語音声認識技術を採用した音声認識装置においては、ユーザの発話が終了して無発声状態となり、それから所定時間（以下、この時間のことを「無発声（ポーズ）時間」という）が経過するまでに次の発話がない場合に、当該発話に対する音声認識処理を行い、音声認識された結果に応じた応答音声を出力する。ここで、ユーザの発話に対し、ユーザの発声時間をＵｔ、無発声時間をＰｔ、音声認識装置において音声認識して応答音声を出力するまでの時間（以下、この時間のことを「装置応答時間」という）をＳｔであると仮定すると、ユーザが発話を終了してから時間Ｐｔ＋Ｓｔ後に、音声認識装置から応答音声が出力されることになる。

ところで、音声認識装置において、ユーザの発話によっては音声認識が正常に機能しない場合がある。例えば、前述した「福島県いわき市平愛谷町１丁目」という住所を音声入力するにあたり、まず「福島県いわき市平」と発話し、一息入れてから残りの「愛谷町１丁目」と発話したとする。この「一息」が無発声時間Ｐｔ以上である場合には、音声認識装置においては、「福島県いわき市平」という発話に対する音声認識処理及び応答音声出力処理を行うので、無発声時間Ｐｔ以降の「愛谷町１丁目」という発話は音声認識されず、所謂「取りこぼし」が生じてしまう。

このような取りこぼしを回避するための技術が特許文献１に記載されている。この特許文献１に記載の技術においては、第１の音声入力が行われ、ブランク（無音状態）が検出された後において、第１の音声入力に対する応答音声が出力される前に第２の音声入力が行われた場合に、第１の音声入力に対する応答音声出力処理を中断し、第２の音声入力に対する音声認識処理を再開させて、連続語として音声認識処理を行っている。
特開２００２−９１４８９号公報

しかしながら、上述した従来技術には以下に示すような問題がある。

一般に、音声認識装置においては、記憶装置に住所や施設名称に係る音声認識用データ（以下、このような音声認識用データのことを「音声認識用辞書」、あるいは単に「辞書」という）を格納し、音声認識処理を行うときには、入力された音声を解析し、解析した内容を音声認識用辞書の文字パターンに照合させることにより、入力音声に対応する単語や連続語の文字列を特定している。そして、特定した文字列に対する応答音声出力処理を行っている。

以下、従来の音声認識装置において行う音声認識処理及び応答音声出力処理（以下、これらの処理をまとめて「装置応答処理」という）の具体例について説明する。

図１は、住所を音声入力したときに従来の音声認識装置において行う装置応答処理の一例の概要を模式的に示す図である。この図１においては、ユーザが、「福島県いわき市平愛谷町１丁目」という住所を、まず「福島県いわき市平」と発話し、一息入れてから「愛谷町１丁目」と発話することにより音声入力した場合の処理例を示している。

この図１に示すように、ユーザがまず「福島県いわき市平」と発話したときには、音声認識装置においては、無発声時間Ｐｔが経過するまでに入力された音声（「福島県いわき市平」という音声）に対する音声認識処理を行う。この音声認識処理においては、前述したように、入力音声を解析し、解析した内容を音声認識用辞書の文字パターンに照合させる。具体的には、解析した入力音声の内容に対し、辞書の文字パターンのうち、まず１番目の項目である都道府県名の文字パターンに照合させて、「福島県」という文字列を特定する。続いて２番目の項目である市区町村名（「福島県」の市区町村名）の文字パターンに照合させて、「いわき市」という文字列を特定する。続いて３番目の項目である大字名（「福島県いわき市」の大字名）の文字パターンに照合させて、「平」という文字を特定する。音声解析した内容にはこれ以上照合させる項目が含まれていないので、照合処理はここで終了する。このような音声解析及び辞書照合（つまり、音声認識）の結果、「福島県いわき市平」という文字列を特定（取得）する。そして、特定した文字列に対する応答音声出力処理を開始する。

その後、特定した文字列（「福島県いわき市平」）に対する応答音声を出力する前に（装置応答時間Ｓｔ内に）、ユーザが続いて「愛谷町１丁目」と発話したときには、音声認識装置においては、この文字列に対する応答音声出力処理を中止すると共に、無発声時間Ｐｔが経過するまでに入力された音声（「愛谷町１丁目」という音声）に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、音声認識用辞書の文字パターンのうち、既に特定済みの項目（すなわち、都道府県名、市区町村名及び大字名）の続きの項目である字名（「福島県いわき市平」の字名）の文字パターンに照合させて、「愛谷町１丁目」という文字列を特定する。音声解析した内容にはこれ以上照合させる項目が含まれていないので、照合処理はここで終了する。このような音声認識の結果、「愛谷町１丁目」という文字列を特定（取得）する。

そして、音声認識装置においては、特定した文字列（「福島県いわき市平」及び「愛谷町１丁目」）に対する応答音声出力処理が終了すると（装置応答時間Ｓｔが経過すると）、「福島県いわき市平愛谷町１丁目」という応答音声を出力する。

図２は、住所を音声入力したときに従来の音声認識装置において行う装置応答処理の他の例の概要を模式的に示す図である。この図２においては、ユーザが、「福島県いわき市平愛谷町１丁目」という住所を、まず「福島県いわき市平愛谷町」と発話し、一息入れてから「１丁目」と発話することにより音声入力した場合の処理例を示している。

この図２に示すように、ユーザがまず「福島県いわき市平愛谷町」と発話したときには、音声認識装置においては、無発声時間Ｐｔが経過するまでに入力された音声（「福島県いわき市平愛谷町」という音声）に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、辞書の文字パターンのうち、１〜３番目の項目（都道府県名、市区町村名及び大字名）の文字パターンの照合処理については、図１に示す処理と同じ内容であり、照合させた結果「福島県いわき市平」を特定する。続いて４番目の項目である字名（「福島県いわき市平」の字名）の文字パターンの照合処理については、辞書の字名の文字パターンに「愛谷町」が含まれていないので、文字列を特定することができない。また、音声解析した内容にはこれ以上照合させる項目が含まれていないので、照合処理はここで終了する。このような音声認識の結果、「福島県いわき市平」という文字列を特定（取得）する。

その後、特定した文字列（「福島県いわき市平」）に対する応答音声を出力する前に、ユーザが続いて「１丁目」と発話したときには、音声認識装置においては、この文字列に対する応答音声出力処理を中止すると共に、無発声時間Ｐｔが経過するまでに入力された音声（「１丁目」という音声）に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、音声認識用辞書の文字パターンのうち、既に特定済みの項目（すなわち、都道府県名、市区町村名及び大字名）の続きの項目である字名（「福島県いわき市平」の字名）の文字パターンに照合させて、「１丁目」という文字列を特定する。解析した内容にはこれ以上照合させる項目が含まれていないので、辞書照合処理はここで終了する。このような音声認識の結果、「１丁目」という文字列を特定（取得）する。

そして、音声認識装置においては、特定した文字列（「福島県いわき市平」及び「１丁目」）に対する応答音声出力処理が終了すると、「福島県いわき市平１丁目」という応答音声を出力する。

このように、従来の音声認識装置においては、ユーザが住所の内容を複数に区切って発話した場合、ユーザが住所の内容のどこで発話を区切るかによって、ユーザの発話に沿った適切な応答音声が出力されたり、ユーザの発話に沿わない不適切な応答音声が出力されたりすることがある。

また、図３は、施設名を音声入力したときに従来の音声認識装置において行う装置応答処理の一例を模式的に示す図である。この図３においては、ユーザが、「小樽Ｏ堂アンティークミュージアム」という施設名を、まず「小樽Ｏ堂」と発話し、一息入れてから「アンティークミュージアム」と発話することにより音声入力した場合の処理例を示している。

この図３に示すように、この施設名の音声認識用辞書の文字パターンは、図１及び図２に示す住所の音声認識用辞書の文字パターンと異なり、複数の項目に分割されたものではなく、単一の項目からなっている。ここで、ユーザがまず「小樽Ｏ堂」と発話したときには、音声認識装置においては、無発声時間Ｐｔが経過するまでに入力された音声（「小樽Ｏ堂」という音声）に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、辞書の文字パターンに照合させるものの、辞書の文字パターンには「小樽Ｏ堂」は含まれていないので、「小樽Ｏ堂」に似たもの（例えば、「小樽Ｏ堂」の文字数に近い「小樽運河」）の文字列を特定（取得）する。そして、特定した文字列に対する応答音声出力処理を開始する。

その後、特定した文字列（「小樽運河」）に対する応答音声を出力する前に、ユーザが続いて「アンティークミュージアム」と発話しても、音声認識装置においては、他に音声入力すべき項目がないので、当該発話に対する音声認識処理を行なわず、また特定した文字列に対する応答音声出力処理を中止せずにそのまま続ける。その結果、「小樽運河」という応答音声を出力する。

このように、従来の音声認識装置においては、ユーザが施設名を複数に区切って発話した場合にも、ユーザの発話に沿った適切な応答音声が出力されないことがある。しかも、この場合においては、一息入れた後のユーザの発話内容（「アンティークミュージアム」）が取りこぼされている。

以上説明したように、従来の音声認識装置においては、ユーザが音声入力内容を複数に区切って発話するときに、音声認識用辞書の文字パターンの構成（文字パターンが単一の項目からなるものなのか、それとも複数の項目により構成されているものなのか：文字パターンが複数の項目により構成されているものの場合には各項目がどのように区切られているのか）に合うように区切らないと、ユーザの発話に沿った適切な応答音声を出力することができないことがある。

本発明は、かかる従来技術における課題に鑑み創作されたもので、ユーザが音声入力内容を複数に区切って発話した場合に、ユーザの発話内容を取りこぼすことがなく、且つ音声入力内容を区切る箇所に関係なくユーザの発話に沿った適切な応答音声を出力することができる音声認識装置及び音声認識方法を提供することを目的とする。

上記の従来技術の課題を解決するために、本発明の一形態に係る音声認識装置は、音声を集音する集音手段と、前記集音手段で集音された音声の音声データを記録する音声記録手段と、前記音声データに対する認識処理を行う音声認識処理手段と、前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段と、前記集音手段で集音された音声から第１の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行わせ、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させる制御手段とを有し、前記制御手段は、前記応答音声出力手段から前記第１の発話に対する応答音声を出力する前に前記集音手段で集音された音声から第２の発話を検出したときに、前記応答音声出力手段に対し当該応答音声の生成及び出力を中止させると共に、前記第１の発話に対する音声認識結果を破棄した上で、前記音声認識処理手段による音声認識処理の対象としての前記第１の発話に係る音声データの後端に前記第２の発話が終了するまでの音声データを結合させた結合音声データを生成して前記音声記録手段に記録し、前記音声認識処理手段に当該結合音声データの音声に対する音声認識処理を行わせて、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させることを特徴とする。

本発明に係る音声認識装置においては、集音手段で集音された音声から第１の発話が開始したことを検出したときに、当該音声のデータを音声記録手段に記録すると共に、集音手段で集音されている当該第１の発話に係る音声に対する音声認識処理を行う。その後、第１の発話が終了したことを検出したときに、第１の発話に係る音声データの記録を終了すると共に、音声認識された内容に基づいた応答音声を出力するようにする。

但し、本発明に係る音声認識装置においては、第１の発話に対する応答音声を出力する前に集音手段で集音された音声から第２の発話が開始したことを検出したときに、当該応答音声の生成及び出力を中止すると共に、当該音声のデータを音声記録手段に記録する。その後、第２の発話が終了したことを検出したときに、第２の発話に係る音声データの記録を終了して、音声記録手段において第１の発話に係る音声データの後端に第２の発話に係る音声データを結合させた結合音声データを生成して記録する。そして、結合音声データの音声に対する音声認識処理を行い、音声認識された内容に基づいた応答音声を出力する。

このように、本発明においては、第１の発話に対する応答音声を出力する前に第２の発話が開始したときには、第１の発話の内容と第２の発話の内容とは連続しているものとみなして、第１の発話に対する応答音声の生成及び出力を中止する。そして、第１の発話に係る音声データの後端に第２の発話に係る音声データを結合させた結合音声データを生成し、当該結合音声データの音声に対する音声認識処理及び応答音声出力処理を行っている。つまり、第１の発話の内容と第２の発話の内容からなる連続語の音声に対する音声認識処理及び応答音声出力処理を行っている。

このため、ユーザが音声入力内容を複数に区切って発話した場合でも、応答音声を出力する前であれば、ユーザの発話内容の取りこぼしがなく、音声入力内容の区切る箇所に関係なくユーザの発話に沿った適切な応答音声を出力することができる。

なお、本発明においては、音声記録手段において結合音声データを生成する際に、第１の発話に係る音声データのうち所定の時間の後端部を削除した音声データを生成し、当該後端部を削除した第１の発話に係る音声データの後端に前記第２の発話に係る音声データを結合させた結合音声データを生成することが好ましい。これにより、第１の発話の内容と第２の発話の内容からなる連続語の音声に対する音声認識処理の精度を向上させることができる。

また、本発明の他の形態によれば、音声を集音する集音手段と、前記集音手段で集音された音声の音声データを記録する音声記録手段と、前記音声データに対する認識処理を行う音声認識処理手段と、前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段とを備えた音声認識装置において、前記集音手段で集音された音声から第１の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行うステップと、前記応答音声出力手段から前記第１の発話に係る応答音声を出力する前に前記集音手段で集音された音声から第２の発話を検出したときに、前記応答音声出力手段における当該応答音声の生成及び出力を中止するステップと、前記第１の発話に対する音声認識結果を破棄した上で、前記音声認識処理手段による音声認識処理の対象としての前記第１の発話に係る音声データの後端に前記第２の発話が終了するまでの音声データを結合させた結合音声データを生成するステップと前記音声記録手段に記録するステップと、前記音声認識処理手段において当該結合音声データの音声に対する音声認識処理を行うステップと、前記応答音声出力手段において前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力するステップとを有することを特徴とする音声認識方法が提供される。

以下、本発明の実施の形態について、添付の図面を参照しながら説明する。

図４は、本発明の実施形態に係る音声認識装置の構成を模式的に示すブロック図である。

本実施形態に係る音声認識装置１００は、図示するようにマイクロホン１０、入力音声処理部２０、音声認識装置本体３０、トークスイッチ４０、出力音声処理部５０及びスピーカ６０により構成されている。また、音声認識装置１００はナビゲーション装置２００に接続されていて、ナビゲーション装置２００に操作指示するための入力装置として機能している。

音声認識装置１００においてマイクロホン１０は、ユーザが発声した音声を集音し、これを電気信号（音声信号）に変換して出力するものである。入力音声処理部２０は、マイクロホン１０から出力された音声信号に適宜処理を施して、デジタルの音声データに変換するためのものであり、アンプ、アナログフィルタ、Ａ／Ｄコンバータ及びＤＳＰ（Digital Signal Processer）等（いずれも図示せず）により構成されている。

音声認識装置本体３０は、入力音声処理部２０から出力された音声データに対して音声認識処理を施して、入力された音声に対応する文字列を特定し、さらに音声認識された内容に対して応答音声出力処理を施して、特定した文字列に応じた応答音声を出力するためのものである。この音声認識装置本体３０は、音声データ記録部３１、音声認識処理部３２、音声認識用データ記憶部３２ａ、応答音声生成部３３、応答音声用データ記憶部３３ａ及び制御部３４を備えている。

音声認識装置本体３０において音声データ記録部３１はストレージメディア等により構成され、制御部３４からの制御に基づき、入力音声処理部２０から出力された音声データを記録するためのものである。

音声認識処理部３２は、制御部３４からの制御に基づき、入力音声処理部２０から出力された音声データ又は音声データ記録部に記録した音声データを解析し、解析した内容を音声認識用データ（音声認識用辞書）の文字パターンに照合させることにより、音声データに対応する単語や連続語の文字列を特定するためのものである。音声認識用データ記憶部３２ａには、音声認識処理部３２が照合処理を行う際に使用する、図１及び図２に示す住所の音声認識用辞書及び図３に示す施設名の音声認識用辞書等が格納されている。

応答音声生成部３３は、制御部３４からの制御に基づき、音声認識処理部３２で音声認識された結果に応じた応答音声（デジタルの音声データ）を生成して出力するためのものである。応答音声用データ記憶部３３ａには、応答音声生成部３３が応答音声を生成する際に使用する各種音声データが格納されている。

制御部３４はマイクロコンピュータにより構成され、音声認識装置本体３０の全体の動作を制御するためのものである。例えば、制御部３４は、音声認識処理及び応答音声出力処理（装置応答処理）を制御する。また、制御部３４は、入力音声処理部２０から出力された音声データの内容（音声の振幅や周波数）に基づいてユーザが発話しているか否かを検出する。更に、制御部３４は、入力音声処理部２０から出力された音声データを音声データ記録部３１に記録したり、音声認識処理部３２に出力したりする。更にまた、制御部３４は、音声データ記録部３１に記録した音声データの一部又は全体を削除したり、当該音声データを結合したりする。制御部３４はメモリ（図示せず）を含んでいて、このメモリに音声認識処理部３２から取得した音声認識結果を格納する。

音声認識装置１００においてトークスイッチ４０は、ユーザが音声入力を行う際に使用するものであり、操作に応じた信号を音声認識装置本体３０に出力する。出力音声処理部５０は、音声認識装置本体３０から出力された応答音声の音声データに適宜処理を施してアナログの音声信号に変換し、スピーカ６０に出力するためのものであり、Ｄ／Ａコンバータ及びアンプ等（いずれも図示せず）により構成されている。

以上のように構成された音声認識装置１００において、マイクロホン１０は「集音手段」に、音声データ記録部３１は「音声記録手段」に、音声認識処理部３２は「音声認識手段」に、応答音声生成部３３は「応答音声出力手段」に、制御部３４は「制御手段」にそれぞれ対応する。

以下、本実施形態に係る音声認識装置１００の制御部３４において行う音声入力に対する装置応答処理について、その一例を示す図５を参照しながら説明する。併せて、図６に示す装置応答処理の概要、図７及び図８に示すサブルーチンに係る処理フロー、図９に示す音声データ結合処理の概要を参照しながら補足説明する。

ここでは、「福島県いわき市平愛谷町１丁目」という住所に対し、まず「福島県いわき市平愛谷町」と発話し、一息入れてから続いて「１丁目」と発話することにより音声入力する場合を例にとって説明する。

最初のステップＳ１１では、トークスイッチ４０から出力される信号に基づいてトークスイッチ４０がオンされた（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＹＥＳの場合には、次のステップＳ１２に進む。このステップＳ１２では、制御部３４において音声認識処理部３２をオンにする。

次のステップＳ１３では、入力音声処理部２０から出力された音声データの内容に基づいてユーザの発話が開始した（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＹＥＳの場合には、次のステップＳ１４に進む。

次のステップＳ１４では、入力音声処理部２０から出力された音声データを音声データ記録部３１に出力し、制御部３４からの制御に基づき音声データ記録部３１において、ユーザの発話に係る音声データを記録する。

次のステップＳ１５では、入力音声処理部２０から出力された音声データを音声認識処理部３２にも出力し、制御部３４からの制御に基づき音声認識処理部３２において、当該ユーザの発話に係る音声データに対する音声認識処理を行う。つまり、このステップＳ１５では、発話が終了するまでのマイクロホン１０で集音されている音声に対する音声認識処理を行っている。

このステップＳ１５においては、図７に示すサブルーチンが行われている。図７に示すように、ステップＳ４１では、制御部３４において、メモリ（図示せず）に音声認識処理部３２から取得した音声認識結果を格納している（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＮＯの場合にはステップＳ４２に進み、判定結果がＹＥＳの場合にはステップＳ４６に進む。

ステップＳ４１において判定結果がＮＯの場合には、ステップＳ４２では、制御部３４の制御に基づき音声認識処理部３２において、照合処理開始位置を音声認識用辞書の最初の項目にセットする。例えば、図６に示す住所の音声認識用辞書においては、照合処理開始位置を「都道府県名」にセットする。その後、次のステップＳ４３に進む。

一方、ステップＳ４１において判定結果がＹＥＳの場合、ステップＳ４６では、制御部３４の制御に基づき音声認識処理部３２において、照合処理開始位置を音声認識用辞書の取得済みの音声認識結果に対応する項目の続きとなる項目にセットする。例えば、「福島県いわき市平」という音声認識結果、すなわち図６に示す住所の音声認識用辞書においては「都道府県名」、「市区町村名」及び「大字名」の項目までの音声認識結果が取得済みである場合、照合開始位置を「大字名」の続きとなる「字名」にセットする。その後、次のステップＳ４３に進む。

次のステップＳ４３では、制御部３４の制御に基づき音声認識処理部３２において、入力音声処理部２０から出力された音声データを解析する。次のステップＳ４４では、制御部３４の制御に基づき音声認識処理部３２において、解析した内容を音声認識用辞書の文字パターンに照合させて、音声データに対応する単語や連続語の文字列を特定する。そして、このようにして音声認識された結果を制御部３４に出力する。この後、本サブルーチンの処理フローは「終了」となる。

図５に示すように、次のステップＳ１６では、入力音声処理部２０から出力された音声データの内容に基づいてユーザの発話が終了した（ＹＥＳ）か否（ＮＯ）かを判定する。このステップＳ１６では、制御部３４は、図６に示すように、ユーザの発声が終了し、所定の無発声時間が経過したときに、ユーザの発話が終了したと判定する。判定結果がＹＥＳの場合には、次のステップＳ１７に進む。

ステップＳ１７では、制御部３４からの制御に基づき音声データ記録部３１において、ユーザの発話に係る音声データの記録を終了する。これにより、音声データ記録部３１において音声データのファイル（例えば、図６に示す「Ｒｅｃ１」）が生成される。このとき、前述した音声入力例の場合においては「福島県いわき市平愛谷町」という発話に係る音声データのファイルが生成される。

次のステップＳ１８では、制御部３４において、ステップＳ１５において音声認識された結果を取得し、メモリ（図示せず）に格納する。このとき、前述した音声入力例の場合においては、音声認識用辞書のデータ構成に基づき「福島県いわき市平」という音声認識結果が取得される（図２及びその説明箇所を参照）。その後、ステップＳ１９に進む。

次のステップＳ１９では、制御部３４の制御に基づき応答音声生成部３３において、音声認識処理部３２で音声認識された結果に対する応答音声出力処理を行う。このとき、前述した音声入力例においては、「福島県いわき市平」という音声認識結果に対する応答音声出力処理を行う。

次のステップＳ２０では、応答音声生成部３３の処理状況を検出すると共に、入力音声処理部２０から出力された音声データの内容に基づいてユーザの次の発話の有無を監視することにより、応答音声出力前にユーザの次の発話が開始した（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＹＥＳの場合にはステップＳ３１に進み、判定結果がＮＯの場合にはステップＳ２１に進む。ここでは、判定結果がＹＥＳであり、ステップＳ３１に進んだものとする。

ステップＳ３１では、制御部３４の制御に基づき応答生成部３３において、応答音声出力処理を中止する。つまり、前述した音声入力例においては、「福島県いわき市平」という音声認識結果に対する応答音声出力処理を中止する。

次のステップＳ３２では、音声認識処理部３２から取得した音声認識結果をメモリ（図示せず）から削除する。つまり、前述した音声入力例の場合においては、「福島県いわき市平」という音声認識結果が削除される。

次のステップＳ３３では、入力音声処理部２０から出力された音声データを音声データ記録部３１に出力し、制御部３４からの制御に基づき音声データ記録部３１において、ユーザの次の発話に係る音声データを記録する。その後、ステップＳ３４に進む。

次のステップＳ３４では、入力音声処理部２０から出力された音声データの内容に基づいてユーザの発話が終了した（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＹＥＳの場合には、次のステップＳ３５に進む。

次のステップＳ３５では、制御部３４からの制御に基づき音声データ記録部３１において、ユーザの次の発話に係る音声データの記録を終了する。これにより、音声データ記録部３１において音声データのファイル（例えば、図６に示す「Ｒｅｃ２」）が生成される。このとき、前述した音声入力例の場合においては「１丁目」という発話に係る音声データのファイルが生成される。すなわち、「福島県いわき市平愛谷町」という発話を「第１の発話」とし、「１丁目」という発話を「第２の発話」とした場合、このときに、音声データ記録部３１においては第１及び第２の発話に係る音声データ（例えば、図６に示す「Ｒｅｃ１」及び「Ｒｅｃ２」）が記録されている。その後、ステップＳ３６に進む。

次のステップＳ３６では、制御部３４の制御に基づき音声データ記録部３１において、音声データ結合処理を行う。

このステップＳ３６においては、図８に示すサブルーチンが行われている。図８に示すように、ステップＳ５１では、制御部３４において、音声データ記録部３１に記録された音声データのファイルを確認し、結合音声データがある（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＮＯの場合にはステップＳ５２に進み、判定結果がＹＥＳの場合にはステップＳ５６に進む。この結合音声データについては以下に説明する。

ステップＳ５１において判定結果がＮＯの場合、ステップＳ５２では、制御部３４の制御に基づき音声データ記録部３１において、前回記録した音声データ（ステップＳ１４からステップＳ１７までの間に記録した音声データ）の後端部を削除した音声データを生成する。例えば、前回記録した音声データが図６に示す「Ｒｅｃ１」である場合、図６に示すように、前回記録した音声データは、ユーザが発声しているときのデータと、それに続く無発声のときのデータにより構成されている。無発声のデータの時間は無発声時間Ｐｔとほぼ同じである。このステップＳ５２では、制御部３４により、前回記録した音声データのうち無発声のデータに相当する後端部を削除した音声データを生成する。具体的には、制御部３４により、前回記録した音声データの後端からα（但し、０<α<Ｐｔ：例えば、α＝０．８×Ｐｔ）秒分を削除した音声データ（例えば、図６に示す「Ｒｅｃ１−α」）を生成する。

次のステップＳ５３では、制御部３４の制御に基づき音声データ記録部３１において、後端部を削除した前回記録した音声データの後端に、今回記録した音声データ（ステップＳ３３からステップＳ３５までの間に記録した音声データ）を結合させた結合音声データを生成する。例えば、今回記録した音声データが図６に示す「Ｒｅｃ２」である場合、このステップＳ５３では、制御部３４により、「Ｒｅｃ１−α」の後端に「Ｒｅｃ２」を結合させた結合音声データ（例えば、図６に示す「ＲｅｃＣｏｕｐｌｉｎｇ」）を生成する。

そして、次のステップＳ５４では、制御部３４の制御に基づき音声データ記録部３１において、今回生成した結合音声データ以外の音声データを削除する。図６に示す例では、ステップＳ５３が終了した時点で、音声データ記録部３１には、「Ｒｅｃ１」、「Ｒｅｃ２」、「Ｒｅｃ１−α」及び「ＲｅｃＣｏｕｐｌｉｎｇ」の音声データが記録されている。このステップＳ５４では、今回生成した結合音声データである「ＲｅｃＣｏｕｐｌｉｎｇ」以外の音声データ（「Ｒｅｃ１」、「Ｒｅｃ２」及び「Ｒｅｃ１−α」の音声データ）を削除する。この後、本サブルーチンの処理フローは「終了」となる。

一方、ステップＳ５１において判定結果がＹＥＳの場合には、ステップＳ５６からステップＳ５８までの処理を行う。これらの処理については、基本的にステップＳ５２からステップＳ５４までの処理と同じである。

すなわち、ステップＳ５６では、制御部３４の制御に基づき音声データ記録部３１において、前回生成した結合音声データ（例えば、図９に示す「ＲｅｃＣｏｕｐｌｉｎｇＯｌｄ」）の後端部を削除した音声データ（例えば、図９に示す「ＲｅｃＣｏｕｐｌｉｎｇＯｌｄ−α」）を生成する。

次のステップＳ５７では、制御部３４の制御に基づき音声データ記録部３１において、後端部を削除した前回生成した結合音声データの後端に、今回記録した音声データ（例えば、図９に示す「ＲｅｃＮｅｗ」）を結合させた結合音声データ（例えば、図９に示す「ＲｅｃＣｏｕｐｌｉｎｇＮｅｗ」）を生成する。

そして、次のステップＳ５８では、制御部３４の制御に基づき音声データ記録部３１において、今回生成した結合音声データ以外の音声データ（「ＲｅｃＣｏｕｐｌｉｎｇＯｌｄ」、「ＲｅｃＣｏｕｐｌｉｎｇＯｌｄ−α」及び「ＲｅｃＮｅｗ」）を削除する。この後、本サブルーチンの処理フローは「終了」となる。

次に図５のステップＳ３７では、制御部３４の制御に基づき音声データ記録部３１から結合音声データを出力し、制御部３４からの制御に基づき音声認識処理部３２において、結合音声データに対する音声認識処理を行う。例えば、ステップＳ３６において、図８に示すステップＳ５２からステップＳ５４までの処理を行った場合には、「ＲｅｃＣｏｕｐｌｉｎｇ」の結合音声データに対する音声認識処理を行う。この音声認識処理では、結合音声データの先頭から末端までを対象としている。

前述したように、「ＲｅｃＣｏｕｐｌｉｎｇ」は基本的に「Ｒｅｃ１」及び「Ｒｅｃ２」により構成されているものであり、また「Ｒｅｃ１」が「第１の発話（福島県いわき市平愛谷町）」に対応し、「Ｒｅｃ２」が「第２の発話（１丁目）」に対応するので、「ＲｅｃＣｏｕｐｌｉｎｇ」は「第１の発話」及び「第２の発話」を組み合わせた発話（「福島県いわき市平愛谷町１丁目」）に対応する。このため、このステップＳ３７においては、音声認識用辞書のデータ構成に基づくと、音声認識結果として「福島県いわき市平愛谷町１丁目」という文字列が特定される。その後、ステップＳ１８に進む。

ステップＳ３７の後のステップＳ１８及びステップＳ１９では、ステップＳ３７において音声認識された結果を取得し、メモリ（図示せず）に格納し、応答音声生成部３３において、音声認識処理部３２で音声認識された結果に対する応答音声出力処理を行う。この場合は、「福島県いわき市平愛谷町１丁目」という音声認識結果に対する応答音声出力処理を行う。

次のステップＳ２０では、応答音声出力前にユーザの次の発話が開始した（ＹＥＳ）か否（ＮＯ）かを判定する。判定結果がＹＥＳの場合にはステップＳ３１に進み、判定結果がＮＯの場合にはステップＳ２１に進む。ここでは、判定結果がＮＯであり、ステップＳ２１に進んだものとする。

次のステップＳ２１では、応答音声生成部３３で生成した応答音声の音声データを出力音声処理部５０に出力する。これにより、スピーカ６０から応答音声が出力される。

次のステップＳ２２では、制御部３４の制御に基づき音声データ記録部３１において、記録した音声データを全て削除する。

次のステップＳ２３では、他に音声入力すべき項目がある（ＹＥＳ）か否（ＮＯ）を判定する。判定結果がＹＥＳの場合にはステップＳ１３に進み、判定結果がＮＯの場合にはステップＳ２４に進む。例えば、音声認識の結果出力された応答音声が「福島県いわき市平」である場合には、音声認識用辞書のデータ構成によれば音声入力すべき項目として「字名」があるので、ステップＳ２３での判定結果はＹＥＳとなる。また、音声認識の結果出力された応答音声が「福島県いわき市平愛谷町１丁目」である場合には、音声入力すべき項目がないので、ステップＳ２３での判定結果はＮＯとなる。ここでは、判定結果がＮＯであり、ステップＳ２４に進んだものとする。

ステップＳ２４では、制御部３４において音声認識処理部３２をオフにして、本処理フローは「終了」となる。

以上説明したように、本実施形態に係る音声認識装置１００によれば、第１の発話に対する応答音声を出力する前に第２の発話が開始したときには、第１の発話の内容と第２の発話の内容とは連続しているものとみなして、第１の発話に対する応答音声の出力を中止する。そして、第１の発話に係る音声データの後端に第２の発話に係る音声データを結合させた結合音声データを生成し、当該結合音声データの音声に対する音声認識処理及び応答音声出力処理を行っている。つまり、第１の発話の内容と第２の発話の内容とを組み合わせた内容の音声に対する音声認識処理及び応答音声出力処理を行っている。

また、上述した実施形態においては、図３に示す施設名の音声入力をした場合に、「アンティークミュージアム」という発話を取りこぼすことなく、「小樽Ｏ堂アンティークミュージアム」に対する音声認識処理及び応答音声出力処理を行うので、ユーザの発話に沿った適切な応答音声を出力することができる。

なお、上述した実施形態においては、結合音声データを生成する際に、前回記録した音声データ（又は前回生成した結合音声データ）の後端部を削除した音声データを生成し、この後端部を削除した音声データの後端に今回記録した音声データを結合させているが、前回記録した音声データの後端部を削除した音声データを生成せずに、前回記録した音声データの後端に今回記録した音声データを結合させてもよい。

住所を音声入力したときに従来の音声認識装置において行う装置応答処理の一例の内容を模式的に示す図である。住所を音声入力したときに従来の音声認識装置において行う装置応答処理の他の例の内容を模式的に示す図である。施設名を音声入力したときに従来の音声認識装置において行う装置応答処理の一例の内容を模式的に示す図である。本発明の実施形態に係る音声認識装置の構成を模式的に示すブロック図である。本実施形態に係る音声認識装置の制御部において行う音声入力に対する装置応答処理の一例を示す処理フローである。住所を音声入力したときに本実施形態に係る音声認識装置において行う装置応答処理の一例の内容を模式的に示す図である。音声認識処理のサブルーチンの一例を示す処理フローである。音声データ結合処理のサブルーチンの一例を示す処理フローである。音声データ結合処理の一例の内容を模式的に示す図である。

符号の説明

１０…マイクロホン（集音手段）、
３１…音声データ記録部（音声データ記録手段）、
３２…音声認識処理部（音声認識手段）、
３３…応答音声生成部（応答音声出力手段）、
３４…制御部（制御手段）。

Claims

音声を集音する集音手段と、
前記集音手段で集音された音声の音声データを記録する音声記録手段と、
前記音声データに対する認識処理を行う音声認識処理手段と、
前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段と、
前記集音手段で集音された音声から第１の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行わせ、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させる制御手段とを有し、
前記制御手段は、前記応答音声出力手段から前記第１の発話に対する応答音声を出力する前に前記集音手段で集音された音声から第２の発話を検出したときに、前記応答音声出力手段に対し当該応答音声の生成及び出力を中止させると共に、前記第１の発話に対する音声認識結果を破棄した上で、前記音声認識処理手段による音声認識処理の対象としての前記第１の発話に係る音声データの後端に前記第２の発話が終了するまでの音声データを結合させた結合音声データを生成して前記音声記録手段に記録し、前記音声認識処理手段に当該結合音声データの音声に対する音声認識処理を行わせて、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させることを特徴とする音声認識装置。
前記制御手段は、前記第１の発話に係る音声データのうち所定の時間の後端部を削除した音声データを生成し、当該後端部を削除した前記第１の発話に係る音声データの後端に前記第２の発話に係る音声データを結合させた結合音声データを生成することを特徴とする請求項１に記載の音声認識装置。
前記制御手段は、前記結合音声データに対する応答音声を出力する前に前記集音手段で集音された音声から新たな発話を検出したときに、前記応答音声出力手段に対し当該応答音声の生成及び出力を中止させると共に、前記結合音声データの後端に前記新たな発話の開始から終了までの音声データを結合させた新たな結合音声データを生成することを特徴とする請求項１又は請求項２に記載の音声認識装置。
音声を集音する集音手段と、前記集音手段で集音された音声の音声データを記録する音声記録手段と、前記音声データに対する認識処理を行う音声認識処理手段と、前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段とを備えた音声認識装置において、
前記集音手段で集音された音声から第１の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行うステップと、
前記応答音声出力手段から前記第１の発話に係る応答音声を出力する前に前記集音手段で集音された音声から第２の発話を検出したときに、前記応答音声出力手段における当該応答音声の生成及び出力を中止するステップと、
前記第１の発話に対する音声認識結果を破棄した上で、前記音声認識処理手段による音声認識処理の対象としての前記第１の発話に係る音声データの後端に前記第２の発話が終了するまでの音声データを結合させた結合音声データを生成するステップと前記音声記録手段に記録するステップと、
前記音声認識処理手段において当該結合音声データの音声に対する音声認識処理を行うステップと、
前記応答音声出力手段において前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力するステップとを有することを特徴とする音声認識方法。
前記結合音声データを生成するステップは、前記第１の発話に係る音声データのうち所定の時間の後端部を削除した音声データを生成するステップと、当該後端部を削除した前記第１の発話に係る音声データの後端に前記第２の発話に係る音声データを結合させた結合音声データを生成するステップとを有することを特徴とする請求項４に記載の音声認識方法。