JP2022100498A

JP2022100498A - 情報処理装置、制御方法、プログラム

Info

Publication number: JP2022100498A
Application number: JP2020214508A
Authority: JP
Inventors: 敬己下郡山; Itsuki Shimokooriyama
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-07-06

Abstract

【課題】本発明の目的は、音声認識サービスに送信する音声データを適切な位置で区切り、音声認識の精度を向上させる技術を提供することである。
【解決手段】本発明は、音声データの音声認識結果である認識データを取得する情報処理装置であって、一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段とを備えることを特徴とする。
【選択図】図３

Description

本発明は、音声認識エンジンの精度を向上させる技術に関する。

ろう者が聴者と同様に情報を得ることができるよう支援する方法として、話者の発話内容をテキストで表示する方法がある。例えば、テレビの字幕放送、講演会などでの要約筆記、さらに音声認識により発話を自動的に文字列に変換する技術も用いられている。

しかしながら、音声認識が変換した認識結果テキストを表示する際には、画面の表示文字数を表示領域のサイズを考慮し、人間が読みやすいサイズ（文字数など）に区切ることが重要になる。また、人間の音声に対してテキストを表示するのではなく、自動応答するシステムなども研究されているが、この場合はテキストの意味解釈が重要である。音声認識結果のテキストに対して単に読みやすい文字数に区切ったり、無音（発話が停止と判断される状態）で区切ったりすると意味の解釈が変わるため、一律に区切ることなどはできない。

特許文献１に記載の対話装置は、発話者の音声に無音状態があってもすぐに応答せず話し終わり判定部が、音声認識により得られた入力音声をテキスト化した単位メッセージ（認識結果メッセージ）毎に、発話者が話し終わったか否かを判定する技術が記載されている。話し終わり判定部は、発話者が音声を発しない無音時間が所定時間以上続いた場合だけではなく、例えば話し終わりに用いられることが多い語句（例えば、「～でしょうか」、「～ですが」など）が検出された場合に、発話者が話し終えたと判定する。これにより、発話が一旦区切れたとしてもその時点までの音声認識結果（テキスト）に対して不適切な応答をすることはなく、話し終わったと判定されるまで回答を保留し、話し終わったと判定された時点でそれまでの音声認識結果（テキスト）をまとめて解析し、回答する。

特開２０１８－１６５８０５号公報

特許文献１に記載の技術は、無音や言い淀みの前後であっても、音声認識が適切な認識結果（テキスト）を返すことを前提としている。

しかしながら、そもそも無音時間があるという基準で音声認識する範囲を区切ると適切な認識結果が得られない場合がある（本願発明の図４の４０４の例）。さらに音声認識サービスなどでは、アプリケーションから一度に要求可能な音声処理を行うデータ量を制限することがある。その場合、音声データを送るアプリケーション側では音声データを区切って送付する必要がある。アプリケーション側で無音時間が一定時間続く位置を特定して区切る場合でも、前述ように音声認識サービス側で区切る場合と同様、文章の意味的に不適切な位置で区切ったのであればそもそも音声認識結果が適切ではない場合がある。

そもそも特許文献１の技術では、音声認識結果は質問応答の“質問”として十分な内容を含まないという意味で不適切な区切りであるものの、文節内での不適切な位置（場合によっては単語の途中）で区切れてしまうような制限があることを前提としていない。音声データ自体を適切な位置で区切ることは、アプリケーション側で区切る場合でもサービス側で区切る場合でも課題として残っている。

本発明の目的は、音声認識サービスに送信する音声データを適切な位置で区切り、音声認識の精度を向上させる技術を提供することである。

本発明は、音声データの音声認識結果である認識データを取得する情報処理装置であって、一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段とを備えることを特徴とする。

本発明により、音声認識サービスに送信する音声データを適切な位置で区切り、音声認識の精度を向上させる技術を提供することが可能となる。

本発明の実施形態に係るシステム構成の一例を示す図である。本発明の実施形態に係る音声認識サーバ、情報処理端末のハードウェア構成の一例を示すブロック図である。本発明の実施形態に係る機能構成の一例を示す図である。本発明の実施形態に係る発話内容と音声認識結果の一例である。本発明の実施形態に係る音声認識サーバの処理結果として得られるデータの一例である。本発明の実施形態に係る音声認識経過の一例である。本発明の実施形態に係る各種閾値の一例を示す図である。本発明の実施形態に係る音声認識処理のフローチャートの一例を示す図である。本発明の実施形態に係る音声認識サーバの処理結果として得られるデータの一例である。

以下、本発明の実施の形態を、図面を参照して詳細に説明する。

図１は、本発明の実施形態に係るシステム構成の一例を示す図である。本発明の実施形態に拘わるシステムは、音声認識サーバ１０１、情報処理端末１０２（発話者用を１０２ａ、表示用を１０２ｂとする）で構成される。ユーザは情報処理端末１０２ａに接続されたマイク１０４で音声を入力する。情報処理端末１０２ａは、前記音声を音声認識サーバ１０１に送信して文字列に変換し情報処理端末１０２ｂ（校正者用）に送り、情報処理端末１０２ｂ（校正者用）で表示、校正者に提示する。

情報処理端末１０２ａ～ｂは、音声の入力と文字列の出力の入出力双方を兼ね備えていてもよい。また出力は情報処理端末１０２に接続された表示装置上に対して行うが、プロジェクタなどを用いた構成も、本発明の実施形態に拘わるシステム構成とする。プロジェクタを使う場合であれば、情報処理端末１０２は発話者用の一台のみで、当該情報処理端末１０２ａに接続したプロジェクタからスクリーンに表示した音声認識結果の文字列を全員が読んでもよい。その場合、発話者用の前記情報処理端末１０２ａで直接、発話者自身あるいは別のユーザが校正者として誤認識を校正してもよい。

さらに音声認識サーバ１０１は、クラウド上に存在するものであってもよく、その場合には、本システムのユーザは後述する音声認識サーバ１０１上の機能を、クラウドサービスにより利用する形態であってもよい。すなわち、後述する音声認識部３２２は音声認識サーバ１０１から呼び出す他のサーバ上の機能またはクラウド上のサービスであってもよい。すなわちこれらのサービスを他のサーバあるいはクラウドサービスとして利用する形態であっても、本発明の実施形態に拘わるシステム構成とする。

構成例で説明した情報処理端末１０２ａ～ｂは、入出力を兼ね備えていたが、入力専用、出力専用と分かれていてもよい。

音声認識サーバ１０１と情報処理端末１０２ａ～ｂは同一筐体であってもよい。すなわち、図１における情報処理端末１０２ａ～ｂのうちの１つに音声認識可能なソフトウェアがインストールされていて、音声認識サーバ１０１を兼ねていてもよい。

図２は、本発明の実施形態に係る音声認識サーバ１０１、情報処理端末１０２に適用可能なハードウェア構成の一例を示すブロック図である。

図２に示すように、情報処理サーバ１００、音声認識サーバ１０１、情報処理端末１０２は、システムバス２０４を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、入力コントローラ２０５、ビデオコントローラ２０６、メモリコントローラ２０７、通信Ｉ／Ｆコントローラ２０８等が接続された構成を採る。

ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

また、ＲＯＭ２０２あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、各サーバあるいは各ＰＣが実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。また、本発明を実施するために必要な情報が記憶されている。なお外部メモリはデータベースであってもよい。

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１１からＲＡＭ２０３にロードし、ロードしたプログラムを実行することで各種動作を実現する。

また、入力コントローラ２０５は、キーボード（ＫＢ）２０９や不図示のマウス等のポインティングデバイス等からの入力を制御する。

ビデオコントローラ２０６は、ディスプレイ２１０等の表示器への表示を制御する。尚、表示器は液晶ディスプレイ等の表示器でもよい。これらは、必要に応じて管理者が使用する。

メモリコントローラ２０７は、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置（ハードディスク（ＨＤ））や、フレキシブルディスク（ＦＤ）、あるいは、ＰＣＭＣＩＡ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎ）カードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等の外部メモリ２１１へのアクセスを制御する。

通信Ｉ／Ｆコントローラ２０８は、ネットワークを介して外部機器と接続・通信し、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を用いた通信等が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上に表示することが可能である。また、ＣＰＵ２０１は、ディスプレイ２１０上のマウスカーソル（図示しない）等によるユーザ指示を可能とする。

本発明を実現するための後述する各種プログラムは、外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０３にロードされることによりＣＰＵ２０１によって実行されるものである。

図３は、本発明の実施形態に係る機能構成の一例を示す図である。なお、図１で説明したように情報処理端末１０２は、発話者用情報処理端末１０２ａ、表示用情報処理端末１０２ｂの機能をそれぞれ別々の端末に持っても、共通した端末で持ってもよいので、ここではそれぞれを区別せずに説明する。

音声データ受付部では、マイクなどを介して入力された音声データをリアルタイムで受け付けたり、ファイルに保存された音声データを一括で受け付けたりする。後続の図を用いて説明する処理の流れでは、全ての音声データ入力が終わった後、一括して後述する無音部分を特定し音声データを分割しても良いし、リアルタイムで受け付けたデータをバッファ（不図示）に格納し、随時分割しながら処理を進めても良いことはいうまでもない。

また本願発明において「無音部分で音声を分割する／区切る」などの表現を用いるが、必ずしも音声データファイル等を実際に複数に分ける必要は無く、例えば音声データの開始時の時間を基準として特定の位置を分割点とするなどの方法により論理的に分割してもよいことはいうまでもない。

着目位置・範囲決定部３１２は、ある特定の位置、すなわち前述の分割により区切られた音声データのうちの１つに着目し、その前後（複数の分割）を組み合わせた１または複数の範囲を決定する。

音声認識要求部３１３は、前記一又は複数の範囲に相当する音声データの音声認識を音声認識サーバ１０１に要求する。音声認識サーバ１０１の音声認識要求受付部３２１は、音声認識要求部３１３からの要求を受け付け、音声認識部３２２で音声認識を実行する。

音声認識の実行結果には、発話内容を文字列として表現した「文章」（単語、文節など）の他に、音声認識の確信度（図５を参照）、音声データの中に現れる時刻（音声データの最初からの位置）などが記載される。また、連続して認識した結果も形態素などに分割されている場合もあり、この場合、形態素毎の確信度が付与される場合もある。これらは周知の技術であり本願発明では特に説明せずに用いる。

音声認識結果送信部３２３は、前述の音声認識結果を音声認識結果取得部３１４に送信する。実際には、音声認識結果取得部３１４から認識結果を要求し、当該要求に従って送信しても良い。一方向、双方向何れの通信であっても本願発明の実施例に含むものとする。

評価部３１５は、音声認識結果取得部３１４で取得した音声認識結果（１または複数）から最適なものを選択する。また、以前の処理結果と重複した部分（同一の音声データに対応する部分）があるか否かを確認し、重複がある場合は一方を選択する。また、選択結果として次に音声認識するための音声データの位置（着目位置）が決まるので、評価完了時点の情報を着目位置・範囲決定部３１２に送る。

さらに認識結果提示部３１６は、最終的に確定した音声認識結果を情報処理端末１０２に接続された表示装置などに表示する。

図４は、本発明の実施形態に係る発話内容と音声認識結果の一例である。発話例（読み）４０１で示すように、本願発明の実施形態を説明するための発話を便宜上平仮名の文字列として表記する。また認識例（正解）４０２は、音声認識結果として期待する文字列（正解例）を示している。

４０３は、４０１と同じく平仮名文字列であるが、さらに無音時間を「・」または「・・」で表した記号を付与している。無音時間とは発話者が音声を発していない無音状態が続く時間のことであり、文章と文章の区切りや文節間の区切りであれば音声認識にとって都合が良い。音声認識サービスに長時間の音声データを渡すことが可能である場合、音声認識サービスは例えば０．８秒間、音声がない無音時間が続けば文章が区切れたと自動的に判断して、それより前の部分を音声認識処理により文字列に変換する。また、音声認識サービスが自動的に判断しない場合や長時間の音声データを渡すことが出来ない場合（例えば２０秒分の音声データしか渡せないという制約がある場合）には、アプリケーション側で何らかの基準に区切って音声データを渡すことになる。例えば、２０秒以内の音声データの中で、無音時間が閾値より長い部分で区切る、などの方法をとることになる。

しかし閾値で判断すると、２０秒以内の音声データ内に閾値で設定された以上の無音時間がない場合にはやむを得ず２０秒ちょうどで区切ったり、あるいは閾値をさらに小さくしたりするなどして不適切な位置で区切ることになる。即ち、発話者が音声認識サービスやアプリケーションにとって都合良く発話を区切り無音時間を作るわけではないため、問題が発生する。

４０３の例では「・」は閾値を下回る短い無音時間、「・・」は閾値を上回る無音時間の無音状態があることを示している。ここで「・・」で区切った場合は、発話内容は４０４の左の枠内のように４行で表すことが出来る。４０４の左の枠内にある４行をそれぞれ音声認識すると例えば右の枠内のような結果を得る。この例では、４１１、４１２の部分が誤って音声認識処理されている。

また４０５では閾値を下回る短い無音時間「・」および「・・」で区切った場合の例を示す。Ｐ１～Ｐ９の９個の音声データに分割されており（中央の欄「発話（読み）の部分」）、期待される認識結果を右の欄に記載する。実際には文脈をもとに確率的言語モデルを用いて同音異表記語など区別するが、区切りを細かくした場合にはそのようなことができない場合もある。すなわち４０５のように細かく区切れば良いわけではないことはいうまでもない。

図５は、本発明の実施形態に係る音声認識サーバの処理結果として得られるデータの一例である。５００は図４の４０４に相当する認識結果の出力例である。

”ｒｅｓｕｌｔ”の中に４つの認識結果の関連情報がある。本例では閾値（例えば０．８秒以上）の無音時間があると、出力を分けている。なお無音時間は前後の認識結果に含まれないため、連続する認識結果間で時間に空きがある。

個々の認識結果の関連情報には、”ｔｒａｎｓｃｒｉｐｔ”、”ｃｏｎｆｉｄｅｎｃｅ”、”ｓｔａｒｔ＿ｔｉｍｅ”、”ｅｎｄ＿ｔｉｍｅ”が記載されている。

”ｔｒａｎｓｃｒｉｐｔ”は、音声認識の結果として出力される文字列（図４の４０４、右の記載に相当）、”ｃｏｎｆｉｄｅｎｃｅ”は（例えば確率的言語モデルにより）前記認識結果の尤もらしさを０～１の数値で表したものである。また”ｓｔａｒｔ＿ｔｉｍｅ”、”ｅｎｄ＿ｔｉｍｅ”は、処理した音声データの起点（例えば０秒）に対して、”ｔｒａｎｓｃｒｉｐｔ”に記載された発話が成された時間の最初と最後に対応する。例では、秒単位で小数二桁までで表し、また無音時間は前後何れにも含んでいない。

音声認識サービスによっては、さらに細かく単語や形態素毎に分割していたり、また図５のような１つの結果だけではなく、”ｃｏｎｆｉｄｅｎｃｅ”が異なる複数の候補を出力したりするものもある。

また”ｃｏｎｆｉｄｅｎｃｅ”に相当する情報を返さないサービスもあるが、その場合はアプリケーション側によって取得した結果の文字列を確率的言語モデルなどを用いて、尤度を計算することも可能であることは周知の技術であり、詳細の説明は省略する。また尤度の計算にＡＩによる学習モデルを用いてもよい。

次に図６～図９を用いて、実際に音声認識処理を実行する例を説明する。図８は、本発明の実施形態に係る音声認識処理のフローチャートの一例を示す図である。

ステップＳ８０１においては、マイクなどを通して発話者から音声データを受け付け、音声データバッファに格納する。前述の通り、音声データファイルとして予め全データが保存されていても良いが、リアルタイムな入力では時間順に保存され、時間とともに音声データが長くなっていく。以降、この音声データを用いて処理を実行していく。

ステップＳ８０２においては、音声データの先頭を着目位置として設定する。本例では、図４の短い無音状態「・」でも全て分割するものとして、４０５のように分割番号を付与する。そのため最初の着目位置は先頭のＰ１、すなわち「かみきの」の音声となる。

ステップＳ８０３においては、一度に認識させる音声データの範囲を決定する。図７の閾値記憶部７００から、一度に認識させる範囲は着目位置よりも「前方分割数」が”－１”の部分（今回は着目位置が先頭のため存在しない）、「後方分割数」が２までの部分（後方の区切り１つ～２つ）、すなわち「えいぎょうせいせき」（Ｐ２）、「ですが」（Ｐ３）の２つの区切りとなる。ここで、本来であればＰ２とＰ３の間は長い無音時間「・・」であるため、音声認識サーバの処理で自動的に区切られてしまう可能性がある。それを防ぐためには音声認識サーバが無音状態を認識して区切るための時間を前記の０．８秒から例えば１．２秒のように延ばし、自動的には区切られないようにすることが考えられる。また音声データ側の無音時間に相当する部分を削除して、音声認識サーバの設定（前記の０．８秒）以下に短くすることで、自動的には区切られないようにしても良い。１つの音声データとして一括した認識処理が実行されるのであれば、何れの方法であっても本願発明の処理として考えて良い。

ステップＳ８０４においては、図６の実行途中経過（１回目）６０１に記載の通り、初回はＰ１～Ｐ２、またはＰ１～Ｐ３の２パターンの区切りの連続した音声データを認識要求する。

ステップＳ８０５においては、１または複数の音声認識要求を受け付け、ステップＳ８０６においてそれらの音声認識を実行し、図５のような音声認識結果を取得する。ただし今回はＰ１～Ｐ２、Ｐ１～Ｐ３の２パターンの連続した音声認識要求したため、Ｐ１～Ｐ２に対する形式の結果が一つ（図９の５００－Ｐ１～Ｐ２）、同様にＰ１～Ｐ３に対応する図５の形式の結果（図９の５００－Ｐ１～Ｐ３）が一つ、それぞれ得られる（図９は基本的に図５と同じ形式であり、そのうち１つの区切りに対して認識処理した結果のみを記載したものである）。

ステップＳ８０７においては、図９で示した認識結果（例）を情報処理端末に送信し、ステップＳ８０８（情報処理端末１０２の音声認識結果取得部３１４）で受信する。

ステップＳ８０９においては、受信した１または複数の音声認識結果を評価する。音声認識サービスが付与した図９の”ｃｏｎｆｉｄｅｎｃｅ”により評価しても良いし、独自に確率的言語モデルを用いた処理で評価しても良い。

ステップＳ８１０においては、ステップＳ８０９の評価に基づき、最適と思われるものを選択する。例えば図９で”ｃｏｎｆｉｄｅｎｃｅ”の値が高い方の”上期の営業成績ですが”を選択する。これは図６の実行途中経過（１回目）６０１のＰ１～Ｐ３（”☆”マークが付与されているもの）に相当する。

ステップＳ８１１では、前回の音声認識、評価・選択の処理結果がある場合には重複部分があるか否かを判断し重複部分がある場合にはいずれかを選択する。この選択にも確率的言語モデルなどを用いることが出来る。

ステップＳ８１２においては、音声データバッファに入力された音声で、まだ音声認識が未処理のデータがあるか否かを判断する。未処理のデータがない場合には本フローチャートを完了する。未処理のデータがある場合にはステップＳ８１３に進む。

ステップＳ８１３においては、次に音声認識処理を行う範囲を特定するための”着目位置”を決定する。本例では、１回目の処理が終わった時点でＰ１～Ｐ３の認識結果が得られているため、Ｐ４を”着目位置”とし、ステップＳ８０３の処理に戻る。

ステップＳ８０３（２回目）においては、着目位置がＰ４なので、図６の６０２のように前方分割数１つ（Ｐ３）、後方分割数２つ（Ｐ５またはＰ６まで）となる。以降の処理ステップＳ８０４～ステップＳ８１３を繰り返し、図６の６０２の一番最下行Ｐ４～Ｐ６が選択されたとする。前回の処理結果であるＰ１～Ｐ３との間に重複部分がないため、そのまま結果として選択される。さらにＰ７が着目位置となり、ステップＳ８０３に戻る。

ステップＳ８０３（３回目）においては、図６における６０３のＰ６～Ｐ９の範囲で前述同様の処理が繰り返され、ステップＳ８１０までの処理でＰ６～Ｐ８の音声認識結果”デモ営業利益が二億の黒字と”という結果が選択されたとする。

ここで、２回目の処理結果のＰ６「でも」、３回目の処理結果のＰ６「デモ」は重複している。この重複をステップＳ８１１にて判断する。重複しているか否かは、音声データの時刻による位置と、音声認識結果に含まれる（形態素単位の詳細の）時刻（不図示）から判断することが出来る。また音声認識結果に形態素単位の詳細の時刻が付与されていないサービスもあるが、そのような場合にはアプリケーション側で形態素解析を行ったうえでその文字の読みを取得し（例えば平仮名表記に統一）当該読みが一致することで判定するなどしても良い。この判定の方法は如何なる方法でもよいことはいうまでもない。

さらに重複している場合、どちらを選択するか（本例では６０２の「でも」か６０３「デモ」か）を判断する。例えば、２回目の処理の結果として選択したＰ４～Ｐ６と３回目の処理の結果として選択した範囲Ｐ６～Ｐ８をマージしたＰ４～Ｐ８の音声認識結果を２パターン用意し、前述の通り確率的言語モデルを用いて、どちらが尤もらしいかを評価しても良い。本例では例えば６０３の結果の「でも」が選択されたとする。さらに残ったＰ９に対して同様の処理を繰り返し、音声全体の音声認識結果を取得する。

期待する結果は図４の認識例（正解）４０２である。これにて図８のフローチャートの処理の説明を完了する。

以上、図６～図９を用いて、本願発明の実施形態を説明した。前述の通り音声認識は区切りが適切であるだけではなく、文脈（文節、単語の連続）を用いて同音異表記や複数の意味的な区切り方があるうち、確率的に尤もらしいものを選択して結果として取得する。従って、ある一定の長さの音声データをまとめて処理する必要がある。特に図７で例示した「前方分割数：－１」、「後方分割数：２」では十分な音声データ長にならないのであればこれらの数字を変更しても良い。分割無音時間についても「０．４秒」はあくまで例であり、必要に応じて変更して良いことはいうまでもない。

以上、いくつかの実施形態について示したが、本発明は、例えば、システム、装置、方法、コンピュータプログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるコンピュータプログラムは、図８に示すフローチャートの処理方法をコンピュータが実行可能なコンピュータプログラムであり、本発明の記憶媒体は図８の処理方法をコンピュータが実行可能なコンピュータプログラムが記憶されている。なお、本発明におけるコンピュータプログラムは図８の各装置の処理方法ごとのコンピュータプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するコンピュータプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたコンピュータプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたコンピュータプログラム自体が本発明の新規な機能を実現することになり、そのコンピュータプログラムを記憶した記録媒体は本発明を構成することになる。

コンピュータプログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、シリコンディスク、ソリッドステートドライブ等を用いることができる。

また、コンピュータが読み出したコンピュータプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのコンピュータプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたコンピュータプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのコンピュータプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にコンピュータプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのコンピュータプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのコンピュータプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１音声認識サーバ
１０２情報処理端末
３１１音声データ受付部
３１２着目位置・範囲決定部
３１３音声認識要求部
３１４音声認識結果取得部
３１５評価部
３１６音声認識結果提示部
３２１音声認識要求受付部
３２２音声認識部
３２３音声認識結果送信部

Claims

音声データの音声認識結果である認識データを取得する情報処理装置であって、
一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、
前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、
前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段
とを備えることを特徴とする情報処理装置。
前記決定手段は、共通の音声データの範囲を含む複数の部分音声データの開始および終了位置を決定し、
前記判定手段は、前記複数の部分音声データに対する認識データそれぞれを評価した結果に基づいて、いずれの認識データを前記一連の音声データの一部の認識データとして採用するかを判定することを特徴とする請求項１に記載の情報処理装置。
前記決定手段は、前記一連の音声データの中の無音部分を前記部分音声データの開始および終了位置として決定することを特徴とする請求項１または２に記載の情報処理装置。
前記決定手段は、前記一連の音声データの中の無音部分により区分される音声データを所定数含むように前記部分音声データの開始および終了位置を決定することを特徴とする請求項３に記載の情報処理装置。
前記評価手段は、前記認識データが音声認識される際の確からしさに基づいて評価することを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
前記評価手段は、前記認識データの尤度に基づいて評価することを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
音声データの音声認識結果である認識データを取得する情報処理装置の制御方法であって、
決定手段が、一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定ステップと、
評価手段が、前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価ステップと、
判定手段が、前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定ステップ
とを備えることを特徴とする情報処理装置の制御方法。
音声データの音声認識結果である認識データを取得する情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
一連の音声データから、当該音声データの一部となる部分音声データの開始および終了位置を決定する決定手段と、
前記決定された開始および終了位置による部分音声データの音声認識結果として得られる認識データを評価する評価手段と、
前記評価した結果に基づいて、前記部分音声データに対する認識データを前記一連の音声データの一部の認識データとして採用するかを判定する判定手段
として機能させるためのプログラム。