JP6794809B2

JP6794809B2 - 音声処理装置、音声処理プログラム及び音声処理方法

Info

Publication number: JP6794809B2
Application number: JP2016238023A
Authority: JP
Inventors: 境　克司; 克司境; 村瀬　有一; 有一村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2020-12-02
Anticipated expiration: 2036-12-07
Also published as: JP2018097010A

Description

本発明は、音声処理装置、音声処理プログラム及び音声処理方法に関する。

音声認識処理において、音声認識処理を開始するタイミングを特定する技術がある。例えば、入力音響信号を読み込み、入力音響信号の音声区間と非音声区間とを判別する技術が知られている。

特開２０１６−１９４６２８号公報

ところで、音声認識処理において、ユーザの発話を収集し、音声データを生成する端末と、音声データを用いて音声認識処理を行う装置とが、無線通信を用いて音声データを送受信する場合がある。この場合において、音声認識には再生レートが高い音声データを用いることが多いため、端末から情報を受信する受信レートよりも、音声データの再生レートの方が高くなることがある。

再生レートが受信レートを上回る場合、端末においてユーザの発話が終わり、全ての音声データの装置への送信が完了してから、装置において全ての音声データの受信が完了するまでタイムラグが生じることがある。これにより、装置において全ての音声データの受信が完了したタイミングを待って音声認識処理を開始すると、ユーザによる操作のリアルタイム性を阻害する。一方で、装置が全ての音声データの受信が完了する前に音声認識処理を開始した場合、一部の音声データが欠落することで、音声認識処理が正常に完了しない場合がある。

一つの側面では、端末から取得した音声データを用いて適切なタイミングで音声認識処理を行うことができる音声処理装置、音声処理プログラム及び音声処理方法を提供することを目的とする。

一つの態様において、ユーザの操作に応じて音を収集する端末と無線接続される音声処理装置は、第１受信部と、記憶部と、第２受信部と、特定部と、音声認識部とを有する。第１受信部は、端末により収集された音に関する情報を受信する。記憶部は、受信した音に関する情報を記憶する。第２受信部は、ユーザの操作の終了に応じて送信される操作情報を受信する。特定部は、受信した操作情報と無線通信される音に関する情報の情報量とに基づいて、音声認識を開始するタイミングを特定する。音声認識部は、特定されたタイミングに到達した場合に、記憶部に記憶された音に関する情報を用いた音声認識処理を行い、処理結果を記憶する。

一つの態様によれば、端末から取得した音声データを用いて適切なタイミングで音声認識処理を行うことができる。

図１は、実施例１における音声認識処理の一例を示す図である。図２は、背景技術における音声認識処理の一例を示す図である。図３は、背景技術における音声認識処理の別の一例を示す図である。図４は、実施例１における音声処理システムの一例を示す図である。図５は、実施例１における音声処理装置の機能ブロックの一例を示す図である。図６は、実施例１における音声ＤＢの一例を示す図である。図７は、実施例１における音声認識処理の一例を示すフローチャートである。図８は、実施例２における音声認識処理の一例を示す図である。図９は、実施例２における音声処理装置の機能ブロックの一例を示す図である。図１０は、実施例２の音声認識処理の一例を示すフローチャートである。図１１は、音声処理プログラムを実行するコンピュータの一例を示す図である。

以下に、本願の開示する音声処理装置、音声処理プログラム及び音声処理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜組み合わせても良い。

以下においては、図１及び図４乃至図７を用いて、本実施例において音声処理装置１００が実行する音声認識処理について説明する。図１は、実施例１における音声認識処理の一例を示す図である。図１に示すように、後述するユーザの操作に応じて音を収集する端末１０が、音の収集開始を指示するスイッチ操作９００１を受け付けると、スイッチＯＮ情報を音声処理装置１００に送信する。後述する音声処理装置１００のスイッチ情報取得部１３２は、スイッチＯＮ情報を受信する。次に、スイッチ情報取得部１３２は、スイッチＯＦＦ情報を受信したタイミングを、端末１０において音の収集が開始されたタイミングとして特定する。その後、端末１０は、音を収集して、音声データにエンコードし、矢印９０１１乃至９０１２に示すように音声処理装置１００に送信する。

後述する音声処理装置１００の音声データ取得部１３１は、端末１０から送信された音声データを逐次受信し、後述する音声バッファ１２１に記憶する。なお、以下において、音声データを音声バッファ１２１に記憶することを「バッファリングする」と表記する場合がある。

この場合に、端末１０から音声処理装置１００への送信レートが音声データのエンコードレートを下回ると、音声処理装置１００が全ての音声データの受信が完了するまでの時間が、端末１０が音の収集を開始してから終了するまでの時間を超過する場合がある。以下においては、送信レートがエンコードレートの「４０％」である場合、すなわち「２．０秒」間に収集された音がエンコードされた音声データの取得完了に「５．０秒」を要する場合について説明する。また、以下においては、端末１０から音声処理装置１００へのスイッチＯＮ情報及びスイッチＯＦＦ情報の送信の際には、タイムラグは発生しないものとする。

端末１０は、ユーザから音の収集終了を指示するスイッチ操作９００２を受け付けると、スイッチＯＦＦ情報を音声処理装置１００に送信する。音声処理装置１００のスイッチ情報取得部１３２は、スイッチＯＦＦ情報を受信したタイミングを、端末１０において音の収集が終了されたタイミングとして特定する。次に、後述するタイミング設定部１３３は、スイッチＯＦＦ情報を受信したタイミングにおいて、バッファリングされた音声データの再生時間の長さと、音声取得時間の長さとの比率を用いて、全ての音声データの受信が完了する予定時刻を算出する。

そして、タイミング設定部１３３は、全ての音声データの受信が完了する予定時刻から、音声取得時間を減算して、音声認識処理の開始時刻を設定する。音声処理装置１００の後述する音声認識部１３４は、音声認識処理の開始時刻に到達したタイミングで、音声認識処理を開始する。

かかる実施例において、音声処理装置１００は、音声データの取得開始から「３．０」秒後のタイミング９０３３に音声認識処理を開始し、音声データの取得開始から「５．０」秒後のタイミング９０３４に音声認識処理を完了する。

一方、背景技術における音声認識処理について、図２及び図３を用いて説明する。図２は、背景技術における音声認識処理の一例を示す図である。図２に示すように、背景技術における音声処理装置は、全ての音声データの受信が完了したタイミング９１１４において音声認識処理を開始し、タイミング９１０５において音声認識処理を完了する。この場合、音声処理装置は、音声データの取得開始から「５．０」秒後に音声認識処理を開始し、音声データの取得開始から「７．０」秒後に音声認識処理を完了する。すなわち、本実施例における音声処理装置１００は、より小さなタイムラグで、音声認識処理を完了することができる。

次に、背景技術において、音声認識処理のタイムラグを小さくする場合について説明する。図３は、背景技術における音声認識処理の別の一例を示す図である。図３に示すように、音声処理装置は、端末からスイッチＯＦＦ情報９２０２を受信した時点において、音声認識処理を開始する。

この場合においては、音声データの受信が、音声認識処理に追いつかなくなる。例えば、音声認識処理が完了するタイミングにおいては、約「１．６」秒分の音声データしか音声バッファにバッファリングされていない。すなわち、音声データの一部９２１１のみがバッファリングされ、音声データの残りの一部９２１２は、音声認識処理が完了するタイミングにおいては取得が完了していない。

例えば、端末から「車で１０分以内のイタリアンのお店」という音声データ９２２１が送信される場合において、受信された音声データの一部９２１１に対して音声認識処理が行われた結果９２２２は、「車で１０分以内のイタリ」という不完全なものである。この場合、音声認識装置は端末から送信された音声データ全てについて音声認識処理を完了することができない。

このように、本実施例における音声処理装置は、無線でマイクから音声を受信する際に、音声入力終了情報を取得した時点の受信済みデータの割合から、受信バッファが枯渇しない音声認識開始タイミングを求める。これにより、音声の途切れのない音声認識を早く開始できる。

［機能ブロック］
次に、本実施例における音声処理システムの一例について、図４を用いて説明する。図４は、実施例１における音声処理システムの一例を示す図である。図４に示すように、本実施例における音声処理システム１は、端末１０と、音声処理装置１００とを含む。なお、図４においては、端末１０と、音声処理装置１００とを１台ずつ含む構成を例示するが、これに限られず、音声処理システム１が複数の端末１０又は音声処理装置１００を含むような構成であってもよい。

端末１０は、例えば指輪型などのウェアラブル端末により実現できる。端末１０は、マイク１１と、通信部１２と、スイッチ１４とを有する。マイク１１は、端末１０を装着するユーザが発する音声を収集し、図示しない音声処理部に出力する。図示しない音声処理部は、マイク１１から入力される音声を音声データにエンコードし、通信部１２に出力する。通信部１２は、図示しない音声処理部から出力された音声データを、ＢｌｕｅＴｏｏｔｈ（登録商標）ＬＥ等の無線通信手段を用いて音声処理装置１００に送信する。

スイッチ１４は、マイク１１、図示しない音声処理部等の起動又は停止を制御する。スイッチ１４は、例えば端末１０のユーザによるスイッチＯＮの操作を受け付けて、マイク１１を起動し、音声の収集を開始させる。また、スイッチ１４は、例えば端末１０のユーザによるスイッチＯＦＦの操作を受け付けて、マイク１１を停止し、音声の収集を終了させる。また、スイッチ１４は、スイッチＯＮの操作があった場合、通信部１２を通じて、スイッチＯＮ情報を音声処理装置１００に送信し、スイッチＯＦＦの操作があった場合、通信部１２を通じて、スイッチＯＦＦ情報を音声処理装置１００に送信する。

なお、音声データは、例えば端末１０を一意に識別する識別子である端末ＩＤ（Identifier）と、音が収集されたタイミングを示すタイムスタンプと、音声データの再生時間の長さを示す情報とを含むヘッダを付加されたパケットの形で送信される。

次に、本実施例における音声処理装置１００の機能構成について説明する。図５は、実施例１における音声処理装置の機能ブロックの一例を示す図である。図５に示すように、本実施例における音声処理装置１００は、通信部１１１、記憶部１２０及び制御部１３０を有する。なお、音声処理装置１００は、コンピュータ等の機器により実現され、図５に示す機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイス等の機能部を有することとしてもかまわない。また、音声処理装置１００は、例えばスマートフォンやノート型コンピュータなどの携帯可能なコンピュータであるが、これに限られず、据置型のコンピュータでもよい。

通信部１１１は、ＢｌｕｅＴｏｏｔｈ（登録商標）ＬＥ等の無線通信手段を用いて端末１０との間の通信を制御する。また、通信部１１１は、端末１０から受信したスイッチＯＮ情報、スイッチＯＦＦ情報、音声データ等を制御部１３０に出力する。

記憶部１２０は、例えば制御部１３０が実行するプログラム、各種データなどを記憶する。また、記憶部１２０は、音声バッファ１２１及び音声ＤＢ１２２を有する。記憶部１２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

音声バッファ１２１は、通信部１１１を通じて端末１０から受信された音声データを記憶する。音声バッファ１２１は、例えば音声データのパケットを、タイムスタンプ順に記憶していく。なお、音声バッファ１２１に記憶される音声データは、例えば後述する音声データ取得部１３１により入力され、また後述する音声認識部１３４により読み出される際に削除される。すなわち、本実施例における音声バッファ１２１は、音声データ取得部１３１による音声データ取得が開始された時点において空である。なお、音声バッファ１２１は、記憶部の一例である。

音声ＤＢ１２２は、音声認識処理が完了した音声データに関する情報を記憶する。図６は、実施例１における音声ＤＢの一例を示す図である。図６に示すように、音声ＤＢ１２２は、「ファイル名」と、「端末ＩＤ」と、「音の収集開始時刻」と、「音声取得終了時刻」と、「音声取得時間」と、「認識結果」とを対応付けて記憶する。なお、音声ＤＢ１２２に記憶される情報は、例えば後述するスイッチ情報取得部１３２、タイミング設定部１３３及び音声出力部１３５により入力される。

図６において、「ファイル名」は、音声データのファイル名を記憶する。「端末ＩＤ」は、音声データを送信した端末１０を一意に識別する識別子である。「音声取得開始時刻」及び「音声取得終了時刻」は、それぞれ音声データ取得部１３１が端末１０から音声データの収集を開始し、終了した時刻を記憶する。「音声取得時間」は、端末１０において音声取得に要した時間を記憶する。「音声取得時間」は、例えば「音声取得終了時刻」から「音声取得開始時刻」を差し引くことにより算出される。「認識結果」は、後述する音声認識部１３４による音声認識処理によって抽出された文字列を記憶する。

図５に戻って、制御部１３０は、音声処理装置１００の全体的な処理を司る処理部であり、例えばプロセッサなどである。この制御部１３０は、音声データ取得部１３１、スイッチ情報取得部１３２、タイミング設定部１３３、音声認識部１３４及び音声出力部１３５を有する。なお、音声データ取得部１３１、スイッチ情報取得部１３２、タイミング設定部１３３、音声認識部１３４及び音声出力部１３５は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

音声データ取得部１３１は、通信部１１１を通じて、端末１０から音声データを取得し、音声バッファ１２１に記憶する。音声データ取得部１３１は、例えば、端末１０から取得した音声データのパケットを、逐次音声バッファ１２１に記憶する。なお、音声データ取得部１３１が、音声データのパケットに付加されたタイムスタンプを参照し、タイムスタンプの順に音声データのパケットを音声バッファ１２１に記憶するような構成であってもよい。なお、音声データ取得部１３１は、第１受信部の一例である。

スイッチ情報取得部１３２は、通信部１１１を通じて、端末１０からスイッチＯＮ情報及びスイッチＯＦＦ情報を取得する。例えば、スイッチ情報取得部１３２は、端末１０からスイッチＯＮ情報を取得した場合、音声データ取得部１３１及びタイミング設定部１３３に音声データ取得開始を示す情報を出力する。そして、スイッチ情報取得部１３２は、スイッチＯＮ情報を取得した時刻を特定して、記憶部１２０及び音声ＤＢ１２２に音声取得開始時刻として記憶する。なお、スイッチ情報取得部１３２は、第２受信部の一例である。

また、スイッチ情報取得部１３２は、端末１０からスイッチＯＦＦ情報を取得した場合、音声データ取得部１３１及びタイミング設定部１３３に音声データ取得終了を示す情報を出力する。そして、スイッチ情報取得部１３２は、スイッチＯＦＦ情報を取得した時刻を特定して、記憶部１２０及び音声ＤＢ１２２に音声取得終了時刻として記憶する。

タイミング設定部１３３は、音声認識部１３４が音声認識処理を開始するタイミングである音声認識開始時刻を設定する。具体的には、タイミング設定部１３３は、スイッチ情報取得部１３２から音声データ取得終了を示す情報の入力を受けると、音声データ取得終了を示す情報と音声データ取得開始を示す情報との差分から、音声取得時間を算出する。そして、タイミング設定部１３３は、算出された音声取得時間を、記憶部１２０及び音声ＤＢ１２２に記憶する。例えば、タイミング設定部１３３は、図６に示すように、音声取得開始時刻と音声取得終了時刻との差を用いて、音声取得時間が「２．０秒」であることを算出する。なお、タイミング設定部１３３は、特定部の一例である。

次に、タイミング設定部１３３は、音声バッファ１２１を参照し、記憶された音声データの再生時間の長さを特定する。例えば、タイミング設定部１３３は、音声バッファ１２１に、再生時間「０．２秒」のパケットが「４つ」記憶されている場合、記憶された音声データの再生時間の長さが「０．２秒×４＝０．８秒」であることを特定する。なお、以下において特定された再生時間の長さを「バッファ済再生時間長」と記載する場合がある。

次に、タイミング設定部１３３は、バッファ済再生時間長と、算出された音声取得時間とを用いて、音声データ取得部１３１が端末１０から音声データの取得を完了するタイミングを算出する。具体的には、タイミング設定部１３３は、音声データ取得終了を示す情報の入力を受けた時点で、音声取得時間「２．０秒」中、バッファ済再生時間長「０．８秒」が占める割合が「４０％」であることを特定する。

次に、タイミング設定部１３３は、音声取得時間を、バッファ済再生時間長が占める割合で除算することにより、端末から音声データの取得を開始してから完了するまでの時間の長さを特定する。例えば、タイミング設定部１３３は、音声データの取得を完了するタイミングが、音声データの取得を開始したタイミングから「２．０秒／４０％＝５．０秒」後であることを特定する。具体的には、タイミング設定部１３３は、音声データの取得を開始するタイミングに該当する時刻が「１５：００：００」であった場合、音声データの取得を完了するタイミングに該当する時刻は「５．０秒」後の「１５：００：０５」であることを特定する。

そして、タイミング設定部１３３は、特定された音声データの取得を完了するタイミングから、音声取得時間を減算することにより、音声認識開始時刻を算出する。例えば、タイミング設定部１３３は、音声データの取得を完了するタイミングに該当する時刻が「１５：００：０５」であった場合、そこから「２．０秒」を減算した「１５：００：０３」を音声認識開始時刻として算出する。そして、タイミング設定部１３３は、算出された音声認識開始時刻を、音声認識部１３４に出力する。

なお、タイミング設定部１３３が音声認識開始時刻を設定する構成はこれに限られない。例えば、タイミング設定部１３３が、バッファリング済みのデータ容量や、音声データの再生レート等を用いて、音声認識開始時刻を設定するような構成であってもよい。

音声認識部１３４は、音声バッファ１２１に記憶された音声データを用いて、音声認識処理を行う。音声認識部１３４は、例えば公知の音声認識技術等を用いて、音声データから文字列を抽出し、音声出力部１３５に出力する。音声認識部１３４は、タイミング設定部１３３から入力された音声認識開始時刻に到達したか否かを判定し、音声認識開始時刻に到達したタイミングで音声認識処理を開始する。

音声出力部１３５は、音声認識部１３４により認識された音声を出力する。音声出力部１３５は、音声認識部１３４から音声の入力を受けると、例えば音声処理装置１００が有するスピーカを通じて、認識された音声を出力する。また、音声出力部１３５は、認識された音声データを音声ＤＢ１２２に記憶する。なお、音声出力部１３５が、認識された文字列を図示しない表示部等に出力するような構成であってもよい。

［処理の流れ］
次に、本実施例における音声処理装置１００による音声認識処理について説明する。図７は、実施例１における音声認識処理の一例を示すフローチャートである。

図７に示すように、音声処理装置１００のスイッチ情報取得部１３２は、例えば、端末１０からスイッチＯＮ情報を取得するまで待機する（Ｓ１００：Ｎｏ）。スイッチ情報取得部１３２は、スイッチＯＮ情報を取得すると（Ｓ１００：Ｙｅｓ）、スイッチＯＮ情報を取得した時刻を記憶部１２０に記憶する（Ｓ１０１）。そして、音声データ取得部１３１は、端末１０から送信される音声データを取得し、音声バッファ１２１に記憶する（Ｓ１０２）。

次に、スイッチ情報取得部１３２は、端末１０からスイッチＯＦＦ情報を取得したか否か判定する（Ｓ１０３）。スイッチ情報取得部１３２は、端末１０からスイッチＯＦＦ情報を取得していないと判定した場合（Ｓ１０３：Ｎｏ）、Ｓ１０２に戻って処理を繰り返す。

一方、スイッチ情報取得部１３２は、端末１０からスイッチＯＦＦ情報を取得したと判定した場合（Ｓ１０３：Ｙｅｓ）、スイッチＯＦＦ情報を取得した時刻を記憶部１２０に記憶する（Ｓ１０４）。次に、タイミング設定部１３３は、スイッチＯＮ情報を取得した時刻とスイッチＯＦＦ情報を取得した時刻とを用いて、音声取得時間を算出する（Ｓ１０５）。

次に、タイミング設定部１３３は、音声バッファ１２１に記憶された、取得済みの音声データの情報量に基づき、音声データの再生時間を特定する（Ｓ１０６）。そして、タイミング設定部１３３は、音声データの再生時間の音声取得時間に占める割合を用いて、音声データ取得完了予定時刻を算出する（Ｓ１０７）。次に、タイミング設定部１３３は、音声データ取得完了予定時刻から、音声取得時間を差し引くことで、音声認識開始時刻を算出する（Ｓ１０８）。その後、音声データ取得部１３１は、引き続き端末１０から送信される音声データを取得し、音声バッファ１２１に記憶する（Ｓ１０９）。

タイミング設定部１３３は、音声認識開始時刻に到達したか否かを判定する（Ｓ１１０）。タイミング設定部１３３は、音声認識開始時刻に到達していないと判定した場合（Ｓ１１０：Ｎｏ）、Ｓ１０９に戻って処理を繰り返す。一方、音声認識部１３４は、音声認識開始時刻に到達したと判定した場合（Ｓ１１０：Ｙｅｓ）、音声認識処理を開始し、処理結果を音声ＤＢ１２２に記憶する（Ｓ１１１）。そして、音声出力部１３５は、音声ＤＢ１２２に記憶された音声認識結果を出力し（Ｓ１１２）、処理を終了する。

［効果］
以上説明したように、本実施例における音声処理装置は、端末により収集された音に関する情報を受信して記憶し、ユーザの操作の終了に応じて送信される操作情報を受信する。また、本実施例における音声処理装置は、受信した操作情報と無線通信される音に関する情報の情報量とに基づいて、音声認識を開始するタイミングを特定する。そして、本実施例における音声処理装置は、特定されたタイミングに到達した場合に、記憶部に記憶された音に関する情報を用いた音声認識処理を行い、処理結果を記憶する。これにより、端末から取得した音声データを用いて適切なタイミングで音声認識処理を行うことができる。

また、本実施例における音声処理装置１００は、操作情報として、端末において音の収集が終了したタイミングを示す情報を受信し、端末において音の収集が開始されたタイミングと、音の収集が終了したタイミングを示す情報とに基づいて収集された音の長さを特定する。そして、本実施例における音声処理装置１００は、記憶部に記憶された音に関する情報の情報量と音の長さとの比率に基づいて、第１受信部が音に関する情報の受信を完了するタイミングを特定する。さらに、本実施例における音声処理装置１００は、音に関する情報の受信を完了するタイミングから音の長さを差し引いたタイミング以後のタイミングに、音声認識を開始する。これにより、バッファの枯渇による音声の途切れのない音声認識を早く開始できる。

なお、本実施例における音声処理装置１００は、音に関する情報の受信を完了するタイミングからの長さを差し引いたタイミングで音声認識を開始してもよい。これにより、音声の途切れのない音声認識をより小さなタイムラグで開始できる。

実施例１における音声処理装置１００は、端末１０からスイッチＯＦＦ情報を取得してから、音声認識処理を開始するタイミングを特定していたが、実施の形態はこれに限られない。例えば、音声処理装置が、音声データを取得したタイミングで音声認識処理を開始し、全ての音声データを取得したタイミングにおける音声処理結果を採用するような構成であってもよい。この場合において、音声処理装置は、全ての音声データを取得するタイミングまでに取得された音声処理結果を記憶せずに破棄してもよい。

実施例２においては、図８乃至図１０を用いて、音声データの取得開始後、逐次音声認識処理を実行する音声処理装置２００について説明する。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。

図８は、実施例２における音声認識処理の一例を示す図である。なお、実施例２における音声処理装置２００は、実施例１における音声処理装置１００と同様に、ユーザの操作に応じて音を収集する端末１０から音声データを取得する。

以下において、端末１０において、例えば「あすはあめ」という「２．０」秒間の音声が収集される例について説明する。まず、端末１０は、実施例１と同様に、音の収集開始を指示するスイッチ操作９００１を受け付けると、スイッチＯＮ情報を音声処理装置２００に送信する。後述する音声処理装置２００のタイムスタンプ取得部２３２は、スイッチＯＮ情報を取得し、取得した時刻を後述する音声処理装置２００のタイムスタンプ格納部２２３に記憶する。

次に、端末１０は、音９５０１を収集してエンコードし、音の収集開始から何秒後に収集された音かを示すタイムスタンプ９５１１を付加した音声データを音声処理装置２００に送信する。図８に示すように、例えば「す」という音に対応する音声データには、音の収集開始から「０．８」秒後に収集された音であることを示すタイムスタンプが付加される。

また、端末１０は、ユーザから音の収集終了を指示するスイッチ操作９００２を受け付けると、タイムスタンプを付加したスイッチＯＦＦ情報を音声処理装置２００に送信する。図８に示す例においては、音の収集終了時点である、音の収集開始から「２．０」秒後であることを示すタイムスタンプ９５１３が、スイッチＯＦＦ情報に付加されて音声処理装置２００に送信される。音声処理装置２００のタイムスタンプ取得部２３２は、スイッチＯＦＦ情報を取得すると、スイッチＯＦＦ情報に付加されたタイムスタンプ９５１３を、タイムスタンプ格納部２２３に記憶する。

一方、後述する音声処理装置２００の音声データ取得部１３１は、端末１０から送信された音声データを逐次取得し、後述する音声バッファ１２１にバッファリングする。そして、後述する音声処理装置２００の音声認識部２３４は、音声バッファ１２１に音声データがバッファリングされると、音声データを用いて音声認識処理を開始し、認識結果を後述する音声処理装置２００の認識結果格納部２２４に記憶する。音声認識部２３４は、例えば、音声データ９５２２が音声バッファ１２１に格納されると、音声データ９５２２から文字列「あ」を認識して、認識結果格納部２２４に記憶する。

次に、後述する音声処理装置２００のタイムスタンプ判定部２３３は、音声データに付加されたタイムスタンプと、タイムスタンプ格納部２２３に格納されたタイムスタンプとが合致するか否かを判定する。タイムスタンプ判定部２３３は、例えば複数の音声データがバッファリングされている場合、最後に記憶された音声データのタイムスタンプを参照する。

タイムスタンプ判定部２３３は、タイムスタンプが合致しないと判定した場合、又はタイムスタンプがタイムスタンプ格納部２２３に記憶されていない場合、認識結果格納部２２４に記憶された認識結果を破棄する。

例えば、タイムスタンプ判定部２３３は、音声データ９５２２に付加されたタイムスタンプは「０．４」であり、タイムスタンプ格納部２２３にはタイムスタンプが記憶されていないので、音声データ９５２２の認識結果「あ」を破棄する。この場合において、音声認識部２３４は、認識結果が破棄された時点で、音声バッファ１２１に記憶された音声データ９５２３を用いて音声認識処理を行う。

また、タイムスタンプ判定部２３３は、タイムスタンプ格納部２２３にタイムスタンプ「２．０」が記憶された場合において、音声データ９５２４に付加されたタイムスタンプ「１．２」は記憶されたタイムスタンプと合致しないと判定する。この場合、タイムスタンプ判定部２３３は、音声データ９５２４の認識結果「あすは」を破棄する。この場合も、音声認識部２３４は、同様に繰り返し音声認識処理を行う。

そして、タイムスタンプ判定部２３３は、タイムスタンプが合致すると判定した場合、認識結果格納部２２４に記憶された認識結果を音声処理装置２００の後述する音声ＤＢ２２２に記憶し、処理を終了する。すなわち、符号９５４１に示す各タイムスタンプ９５３１乃至９５３３に対応する音声データ９５２１乃至９５２３の認識結果９５４１は破棄され、タイムスタンプ９５３４に対応する認識結果９５５１が採用される。なお。実施例１と同様に、実施例２における音声処理装置２００は、音声データの取得開始から「３．０」秒後のタイミング９０３３に開始され、「５．０」秒後のタイミング９０３４に完了した音声認識処理の結果を出力する。

［機能ブロック］
次に、本実施例における機能構成について説明する。図９は、実施例２における音声処理装置の機能ブロックの一例を示す図である。図９に示すように、本実施例における音声処理装置２００は、図５に示す音声処理装置１００と同様のコンピュータにより実装され、通信部１１１、記憶部２２０及び制御部２３０を有する。

記憶部２２０は、音声バッファ１２１、音声ＤＢ２２２、タイムスタンプ格納部２２３及び認識結果格納部２２４を有する。音声ＤＢ２２２は、音声認識処理が完了した音声データに関する情報を記憶する。音声ＤＢ２２２に記憶される情報は、図６に示す音声ＤＢ１２２と同様であるため、詳細な説明は省略する。なお、音声ＤＢ２２２に記憶される情報は、例えば後述するタイムスタンプ判定部２３３により入力される。

タイムスタンプ格納部２２３は、端末１０が送信するスイッチＯＮ情報が取得された時刻と、端末１０が送信するスイッチＯＦＦ情報に付加されたタイムスタンプとを記憶する。なお、タイムスタンプ格納部２２３に記憶される情報は、後述するタイムスタンプ取得部２３２により入力される。

認識結果格納部２２４は、後述する音声認識部２３４による処理結果である文字列及び音声データを一時的に記憶する。なお、認識結果格納部２２４に記憶される情報は、後述する音声認識部２３４により入力され、また後述するタイムスタンプ判定部２３３により破棄又は移動される。

制御部２３０は、音声処理装置２００の全体的な処理を司る処理部であり、例えばプロセッサなどである。この制御部２３０は、音声データ取得部１３１、タイムスタンプ取得部２３２、タイムスタンプ判定部２３３、音声認識部２３４及び音声出力部２３５を有する。

タイムスタンプ取得部２３２は、通信部１１１を通じて、端末１０からスイッチＯＮ情報及びスイッチＯＦＦ情報を取得する。例えば、タイムスタンプ取得部２３２は、端末１０からスイッチＯＮ情報を取得した場合、音声データ取得部１３１に音声データ取得開始を示す情報を出力する。そして、タイムスタンプ取得部２３２は、スイッチＯＮ情報を取得した時刻を特定して、タイムスタンプ格納部２２３に記憶する。

また、タイムスタンプ取得部２３２は、端末１０からスイッチＯＦＦ情報を取得した場合、スイッチＯＦＦ情報に付加されたタイムスタンプを、タイムスタンプ格納部２２３に記憶する。

タイムスタンプ判定部２３３は、バッファリングされた音声データに付加されたタイムスタンプと、タイムスタンプ格納部２２３に格納されたタイムスタンプとが合致するか否かを判定する。タイムスタンプ判定部２３３は、タイムスタンプが合致しない場合、又はタイムスタンプ格納部２２３にタイムスタンプが記憶されていない場合、認識結果格納部２２４に格納された音声データ及び文字列を破棄する。

また、タイムスタンプ判定部２３３は、タイムスタンプが合致する場合、認識結果格納部２２４に格納された音声データ及び文字列を、音声ＤＢ２２２に記憶するとともに、音声出力部２３５に認識完了を示す情報を出力する。

音声認識部２３４は、音声バッファ１２１に記憶された音声データを用いて、音声認識処理を行う。音声認識部２３４は、例えば公知の音声認識技術等を用いて、音声データから文字列を抽出し、音声出力部２３５に出力する。音声認識部２３４は、タイムスタンプ判定部２３３から入力された音声認識開始時刻に到達したか否かを判定し、音声認識開始時刻に到達したタイミングで音声認識処理を開始する。

音声出力部２３５は、音声認識部２３４により認識された音声を出力する。音声出力部２３５は、タイムスタンプ判定部２３３から認識完了を示す情報の入力を受けると、音声ＤＢ２２２に記憶された音声を出力する。なお、音声出力部２３５が、音声出力部１３５と同様に、認識された文字列を図示しない表示部等に出力するような構成であってもよい。

［処理の流れ］
次に、本実施例における音声処理装置２００による音声認識処理について説明する。図１０は、実施例２の音声認識処理の一例を示すフローチャートである。

図１０に示すように、音声処理装置２００のタイムスタンプ取得部２３２は、例えば、端末１０からスイッチＯＮ情報を取得するまで待機する（Ｓ２００：Ｎｏ）。タイムスタンプ取得部２３２は、スイッチＯＮ情報を取得すると（Ｓ２００：Ｙｅｓ）、スイッチＯＮ情報を取得した時刻をタイムスタンプ格納部２２３に記憶する（Ｓ２０１）。

次に、タイムスタンプ取得部２３２は、端末１０からスイッチＯＦＦ情報を取得したか否かを判定する（Ｓ２０２）。タイムスタンプ取得部２３２は、スイッチＯＦＦ情報を取得したと判定した場合（Ｓ２０２：Ｙｅｓ）、スイッチＯＦＦ情報に付加されたタイムスタンプをタイムスタンプ格納部２２３に記憶し（Ｓ２０３）、Ｓ２０４に移行する。

一方、スイッチＯＦＦ情報を取得していないと判定した場合（Ｓ２０２：Ｎｏ）、音声データ取得部１３１は、端末１０から送信される音声データを取得し、音声バッファ１２１に記憶する（Ｓ２０４）。そして、音声認識部２３４は、音声バッファ１２１に記憶された音声データを用いて、音声認識処理を開始し、音声認識結果を認識結果格納部２２４に記憶する（Ｓ２０５）。

次に、タイムスタンプ判定部２３３は、音声バッファ１２１に記憶された音声データに付加されたタイムスタンプと、タイムスタンプ格納部２２３に記憶されたタイムスタンプとが合致するか否かを判定する（Ｓ２０６）。タイムスタンプ判定部２３３は、タイムスタンプが合致しないと判定した場合、（Ｓ２０６：Ｎｏ）、認識結果格納部２２４に記憶された音声認識結果を破棄する（Ｓ２０７）。また、タイムスタンプ判定部２３３は、タイムスタンプ格納部２２３にタイムスタンプが記憶されていない場合についても、認識結果格納部２２４に記憶された音声認識結果を破棄する。そして、タイムスタンプ判定部２３３は、Ｓ２０２に戻って処理を繰り返す。

一方、タイムスタンプ判定部２３３は、タイムスタンプが合致すると判定した場合（Ｓ２０６：Ｙｅｓ）、認識結果格納部２２４に記憶された音声認識結果を音声ＤＢ２２２に記憶する（Ｓ２０８）。そして、音声出力部２３５は、音声ＤＢ２２２に記憶された音声認識結果を出力し（Ｓ２０９）、処理を終了する。

［効果］
以上説明したように、本実施例における音声処理装置２００は、音声データの取得が開始されたタイミングで逐次音声認識を開始し、操作情報に対応する音に関する情報を取得していないと判定した場合は、音声認識により取得されたデータを破棄し、音声認識を繰り返す。これにより、バッファの枯渇による音声の途切れのない音声認識を早く開始できる。

また、本実施例における音声処理装置２００は、操作情報により特定されるタイミングと、音に関する情報に付加されたタイミングを示す情報とが合致するか否かを判定する。そして、音声処理装置２００は、タイミングと情報とが合致しないと判定した場合は、音声認識により取得されたデータを破棄し、音声認識を繰り返す。これにより、音の収集が終了したタイミングを適切に特定できる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

なお、実施例１において、音声処理装置１００のタイミング設定部１３３が、音声データ取得の開始時刻及び終了時刻を特定する構成を開示したが、実施の形態はこれに限られない。例えば、タイミング設定部１３３が開始時刻及び終了時刻を特定する代わりに、スイッチＯＮ情報を取得してからスイッチＯＦＦ情報を取得するまでの経過時間を測定するような構成であってもよい。

また、実施例１において、音声認識部１３４が、音声認識開始時刻に到達したタイミングで音声認識処理を開始する例を説明したが、音声認識処理を開始するタイミングはこれに限られない。例えば、音声認識部１３４が、設定した音声認識開始時刻より遅く、かつ全ての音声データの受信が完了するより早いタイミングで音声認識処理を開始してもよい。

また、実施例２において、音声認識部２３４が、音声データの取得を開始したタイミングで音声認識処理を開始する例を説明したが、これに限られず、例えばスイッチＯＦＦ情報を取得したタイミングで音声認識処理を開始してもよい。これにより、タイムスタンプが記憶されていない状態で音声認識処理が行われることを抑制できる。

［システム］
また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置で行われる各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ（Micro Controller Unit）等のマイクロ・コンピュータ）上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、ＣＰＵ（またはＭＰＵ、ＭＣＵ等のマイクロ・コンピュータ）で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。

［ハードウェア］
上記の実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図１１は、音声処理プログラムを実行するコンピュータの一例を示す図である。なお、以下においては、音声処理装置１００を例として説明するが、音声処理装置２００についても同様のハードウェア構成により実現できる。

図１１が示すように、コンピュータ３００は、ＣＰＵ３１０、ＨＤＤ３２０、ＲＡＭ３４０及びスピーカ３５０を有する。これら３１０〜３５０の各部は、バス４００を介して接続される。

ＨＤＤ３２０には、音声処理装置１００の音声データ取得部１３１、スイッチ情報取得部１３２、タイミング設定部１３３、音声認識部１３４及び音声出力部１３５と同様の機能を発揮する音声処理プログラム３２０ａが予め記憶される。なお、音声処理プログラム３２０ａについては、適宜分離しても良い。また、ＨＤＤ３２０は、各種情報を記憶する。

そして、ＣＰＵ３１０が、音声処理プログラム３２０ａをＨＤＤ３２０から読み出して実行することで、実施例の各処理部と同様の動作を実行する。すなわち、音声処理プログラム３２０ａは、音声データ取得部１３１、スイッチ情報取得部１３２、タイミング設定部１３３、音声認識部１３４及び音声出力部１３５と同様の動作を実行する。

なお、上記した音声処理プログラム３２０ａについては、必ずしも最初からＨＤＤ３２０に記憶させることを要しない。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」にプログラムを記憶させておく。そして、コンピュータ３００がこれらからプログラムを読み出して実行するようにしてもよい。さらには、公衆回線、インターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などを介してコンピュータ３００に接続される「他のコンピュータ（またはサーバ）」などにプログラムを記憶させておく。そして、コンピュータ３００がこれらからプログラムを読み出して実行するようにしてもよい。

１０端末
１１マイク
１２通信部
１４スイッチ
１００、２００音声処理装置
１１１通信部
１２０、２２０記憶部
１２１音声バッファ
１２２、２２２音声ＤＢ
２２３タイムスタンプ格納部
２２４認識結果格納部
１３０、２３０制御部
１３１音声データ取得部
１３２スイッチ情報取得部
１３３タイミング設定部
１３４、２３４音声認識部
１３５、２３５音声出力部
２３２タイムスタンプ取得部
２３３タイムスタンプ判定部

Claims

ユーザの操作に応じて音を収集する端末と無線接続される音声処理装置であって、
前記端末により収集された前記音に関する情報を受信する第１受信部と、
受信した前記音に関する情報を記憶する記憶部と、
前記ユーザの操作の終了に応じて送信される操作情報を受信する第２受信部と、
受信した前記操作情報と無線通信される前記音に関する情報の情報量とに基づいて、音声認識を開始するタイミングを特定する特定部と、
特定されたタイミングに到達した場合に、前記記憶部に記憶された前記音に関する情報を用いた音声認識処理を行い、処理結果を記憶する音声認識部と
を有することを特徴とする音声処理装置。
前記第２受信部は、前記操作情報として、前記端末において前記音の収集が終了したタイミングを示す情報を受信し、
前記特定部は、前記端末において前記音の収集が開始されたタイミングと、前記音の収集が終了したタイミングを示す情報とに基づいて、収集された前記音の長さを特定し、前記記憶部に記憶された前記音に関する情報の情報量と前記音の長さとの比率に基づいて、前記第１受信部が前記音に関する情報の受信を完了するタイミングを特定し、
前記音声認識部は、前記音に関する情報の受信を完了するタイミングから前記音の長さを差し引いたタイミング以後のタイミングに、前記音声認識を開始する
ことを特徴とする請求項１に記載の音声処理装置。
前記音声認識部は、前記音に関する情報の受信を完了するタイミングから前記音の長さを差し引いたタイミングで前記音声認識を開始することを特徴とする請求項２に記載の音声処理装置。
前記音声認識部は、音声データの受信が開始されたタイミングで逐次音声認識を開始し、前記操作情報に対応する前記音に関する情報を取得していないと判定した場合は、前記音声認識により取得されたデータを破棄し、音声認識を繰り返すことを特徴とする請求項１に記載の音声処理装置。
前記音声認識部は、前記操作情報により特定されるタイミングと、前記音に関する情報に付加されたタイミングを示す情報とが合致するか否かを判定し、前記タイミングと前記情報とが合致しないと判定した場合は、前記音声認識により取得されたデータを破棄し、音声認識を繰り返すことを特徴とする請求項４に記載の音声処理装置。
ユーザの操作に応じて音を収集する端末と無線接続されるコンピュータが、
前記端末により収集された前記音に関する情報を受信し、
受信した前記音に関する情報を記憶部に記憶し、
前記ユーザの操作の終了に応じて送信される操作情報を受信し、
受信した前記操作情報と無線通信される前記音に関する情報の情報量とに基づいて、音声認識を開始するタイミングを特定し、
特定されたタイミングに到達した場合に、前記記憶部に記憶された前記音に関する情報を用いた音声認識処理を行い、処理結果を記憶する
処理を実行することを特徴とする音声処理方法。
ユーザの操作に応じて音を収集する端末と無線接続されるコンピュータに、
前記端末により収集された前記音に関する情報を受信し、
受信した前記音に関する情報を記憶部に記憶し、
前記ユーザの操作の終了に応じて送信される操作情報を受信し、
受信した前記操作情報と無線通信される前記音に関する情報の情報量とに基づいて、音声認識を開始するタイミングを特定し、
特定されたタイミングに到達した場合に、前記記憶部に記憶された前記音に関する情報を用いた音声認識処理を行い、処理結果を記憶する
処理を実行させることを特徴とする音声処理プログラム。