JP6429294B2

JP6429294B2 - 音声認識処理装置、音声認識処理方法およびプログラム

Info

Publication number: JP6429294B2
Application number: JP2016574636A
Authority: JP
Inventors: 久坂本
Original assignee: NEC Solutions Innovators Ltd
Current assignee: NEC Solutions Innovators Ltd
Priority date: 2015-02-10
Filing date: 2015-12-24
Publication date: 2018-11-28
Anticipated expiration: 2035-12-24
Also published as: JPWO2016129188A1; WO2016129188A1

Description

本発明は、人の音声による情報を認識する音声認識処理装置、音声認識処理方法、およびその方法をコンピュータに実行させるためのプログラムに関する。

音声認識に関する技術はこの十数年の間大きな変化はなく、認識の精度を向上させるためにはより多くの言語モデルや教師データを蓄積する必要があるとされている。特許文献１および非特許文献１に開示された音声認識システムは、これら言語モデルや教師データに関して大量のデータの全てをシステムに内包していた。このような音声認識システムの稼動は、パーソナルコンピュータ（ＰＣ）や、近年利用が拡大しているスマートフォンおよびタブレット端末等の端末装置内で行われることが多い。しかし、これらの端末装置の主記憶装置および補助記憶装置が大容量化しているとはいえ、音声認識システムに必要な大量のデータの全てを端末装置に蓄積させることは、処理速度やデータ運用の観点から難しい。

この問題に対して、クラウド型の音声認識サービスが提供されている（非特許文献２参照）。このようなクラウド型音声認識サービスでは、音声認識処理に必要な大量のデータは、端末装置内ではなく、データセンタに構築されたクラウド基盤上に蓄積されている。このサービスを用いれば、端末装置がデータセンタとネットワークを介して接続することで、当該大量のデータを利用した音声認識処理の結果を得られる。ネットワーク技術や通信技術の進歩により情報処理の速度が速くなったことで、端末装置を操作するユーザは、音声を端末装置に入力すると、クラウド基盤から音声認識結果をすぐに得ることができる。このようにして、大量の言語モデルや教師データを端末装置内に蓄積しなくても、ユーザが高精度の音声認識結果を得ることを可能にしている。さらに、クラウド基盤には大量の記憶領域が存在するため、膨大な言語モデル、さまざまな話者のパターンごとの音声データを蓄積することが可能となり、さらなる精度の向上を実現している。

特許第１６０３５４２号公報

"大語彙連続音声認識エンジン Julius"、［ｏｎｌｉｎｅ］、Julius development team、［平成２７年１月２０日検索］、インターネット＜ＵＲＬ：http:// julius.sourceforge.jp/＞Ｇｏｏｇｌｅ音声検索サービス、［ｏｎｌｉｎｅ］、グーグル株式会社、［平成２７年１月２０日検索］、インターネット＜ＵＲＬ：https:// support. google.com/ websearch/answer/2940021?hl=ja＞

非特許文献２に開示されたクラウド型音声認識サービスは、特許文献１および非特許文献１に開示された技術の課題を解決するものである。しかし、このクラウド型音声認識サービスでは、単語レベルの短い言葉や比較的短い会話文などの短い文を処理の対象としているため、複数の文章から構成される長い会話文の認識処理に適していない。

本発明の目的の一つは、長い会話文の認識処理を可能にした音声認識処理装置、音声認識処理方法およびプログラムを提供することである。

本発明の一側面の音声認識処理装置は、入力される音声を音声データとして取得する音声採取手段と、音声データを複数の音声データ片に分割し、複数の音声データ片のそれぞれに音声採取手段に入力された順番にしたがって順列番号を割り当てる音声分割手段と、順列番号を記憶する記憶手段と、予め設定された複数の通信ポートに順列番号を対応づけながら音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、音声データ片が音声認識サーバによって認識処理された結果である音声認識結果を音声認識サーバから通信ポートを介して受信すると、受信した音声認識結果に通信ポートに対応づけた順列番号を割り当て、割り当てた順列番号に一致する順列番号が記憶される記憶手段の領域に音声認識結果を格納する認識要求送受信手段と、順列番号とともに記憶手段に格納された音声認識結果を順列番号にしたがって並べた認識結果文を生成する認識結果集約手段と、生成された認識結果文を表示する表示手段と、を有する構成である。

本発明の一側面の音声認識処理方法は、情報処理装置による音声認識処理方法であって、入力される音声を音声データとして取得し、音声データを複数の音声データ片に分割して、複数の音声データ片のそれぞれに音声データを取得した順番にしたがって順列番号を割り当て、順列番号を記憶手段に記憶し、予め設定された複数の通信ポートに順列番号を対応づけながら音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、音声データ片が音声認識サーバによって認識処理された結果である音声認識結果を音声認識サーバから通信ポートを介して受信すると、受信した音声認識結果に通信ポートに対応づけた順列番号を割り当て、割り当てた順列番号に一致する順列番号が記憶される記憶手段の領域に音声認識結果を格納し、順列番号とともに記憶手段に格納された音声認識結果を順列番号にしたがって並べた認識結果文を生成し、生成された認識結果文を表示するものである。

本発明の一側面のプログラムは、コンピュータに、入力される音声を音声データとして取得する手順と、音声データを複数の音声データ片に分割して、複数の音声データ片のそれぞれに音声データを取得した順番にしたがって順列番号を割り当てる手順と、順列番号を記憶手段に記憶する手順と、予め設定された複数の通信ポートに順列番号を対応づけながら音声データ片を振り分けてネットワークを介して音声認識サーバに送信する手順と、音声データ片が音声認識サーバによって認識処理された結果である音声認識結果を音声認識サーバから通信ポートを介して受信すると、受信した音声認識結果に通信ポートに対応づけた順列番号を割り当てる手順と、割り当てた順列番号に一致する順列番号が記憶される記憶手段の領域に音声認識結果を格納する手順と、順列番号とともに記憶手段に格納された音声認識結果を順列番号にしたがって並べた認識結果文を生成する手順と、生成された認識結果文を表示する手順を実行させるものである。

図１は本実施形態の音声認識処理装置の構成を説明するためのブロック図である。図２は図１に示した順列番号記憶手段に保存されるデータの構成例を示す図である。図３は図１に示した順列番号記憶手段に保存されるデータの別の構成例を示す図である。図４は本実施形態の音声認識処理装置による動作手順を示すフロー図である。図５は図４に示すステップＳ０２の詳細な動作を示すフロー図である。図６は図４に示すステップＳ０５の詳細な動作を示すフロー図である。図７は実施例１における音声認識処理装置の構成を説明するためのブロック図である。図８は実施例１における順列番号記憶手段に保存されるデータの構成を示す図である。図９は実施例１における認識要求送受信手段の送信内容を示す図である。図１０は実施例１における認識要求送受信手段の受信内容を示す図である。図１１は図８に示したフィールドにデータが保存された場合の一例を示す図である。図１２は実施例１において、図７に示した表示部の画面の一例を示す図である。図１３は本実施形態の音声認識処理装置の別の構成例を示すブロック図である。

本実施形態の音声認識処理装置の構成を説明する。

図１は本実施形態の音声認識処理装置の構成を説明するためのブロック図である。

音声認識処理装置１は、話者４が発する会話を文字化した情報を閲覧者５に閲覧可能に出力する情報処理装置である。音声認識処理装置１は、デスクトップ型またはノートブック型のＰＣであってもよく、ＰＣより小型のＰＤＡ（Personal Digital Assistants）等の携帯型情報端末であってもよい。話者４および閲覧者５のそれぞれの人数は複数であってもよい。

音声認識処理装置１は、クラウド型音声認識サービスを提供する音声認識サーバ３とネットワーク６を介して接続される。クラウド型音声認識サービスは、例えば、非特許文献２に開示されたクラウド型音声認識サービスである。

図１に示すように、音声認識処理装置１は、順列番号記憶手段１３と、認識要求送受信手段１４と、制御部３０とを有する。制御部３０には、コンピュータプログラム（以下では、単にプログラムと称する）を記憶するメモリ（不図示）と、プログラムにしたがって処理を実行するＣＰＵ（Central Processing Unit）（不図示）とが設けられている。

制御部３０は、音声採取手段１１と、音声分割手段１２と、認識結果集約手段１５と、認識結果表示手段１６とを有する。制御部３０内のＣＰＵがプログラムにしたがって処理を実行することで、音声採取手段１１、音声分割手段１２、認識結果集約手段１５および認識結果表示手段１６が音声認識処理装置１に仮想的に構成される。

なお、音声採取手段１１にはマイクが接続され、認識結果表示手段１６には表示部が接続されているが、図に示すことを省略している。また、認識結果文の出力手段として表示部が認識結果表示手段１６に接続された場合で説明するが、プリンタであってもよい。

また、図１に示す音声採取手段１１、音声分割手段１２、認識結果集約手段１５および認識結果表示手段１６のうち、一部または全部が各機能に特化したＡＳＩＣ（Application Specific Integrated Circuit）等の専用集積回路で構成されてもよい。特に、音声認識技術では、音声の入力速度に応じて音声認識処理を行う必要があり、情報処理の速度が重要となる。上記複数の手段のうち、一部でも、その機能に特化した専用集積回路を設けることで、全体の情報処理の速度向上を図れる。

図１に示した音声認識処理装置１の各構成について詳しく説明する。

音声採取手段１１は、単数または複数の話者４が発する音声情報を、マイク（不図示）を介して連続的に入力される音声データをデジタルデータとして受信し、ストリームデータのように連続した情報として取得する。本実施形態では、音声採取手段１１は取得した音声データを無加工で音声分割手段１２に出力する場合で説明するが、音声データを加工して出力してもよい。音声データの加工として、例えば、ノイズを除去するノイズキャンセリング処理や人間の音声を示す周波数帯のみ抽出するフィルタリング処理が考えられる。

音声分割手段１２は、音声採取手段１１が取得した音声データを解析し、音声データをそれよりも小さい単位である音声データ片に分割する。分割する方法は、音声データ内で人の音声情報が存在しない部分（例えば、人の音声が存在しない部分）や息継ぎの部分を検出し、その前後のデータを音声データの断片として抽出するものである。検出した部分に挟まれる領域の音声データが音声データ片に相当する。人の音声が存在するか否かの判定方法として、対象となる音声データにおいて、通常、人の音声として認識される周波数帯域（例えば、約２００Ｈｚ〜約４ＫＨｚ）のデータの有無を調べることで、音声情報があるか否かを判断する方法がある。また、音声情報があるか否かの判定方法として、人の音声が含まれない状態での音声データを採取し、その音声を環境音として記録しておき、環境音と一致する場合に「音声情報がない」と判定する方法が考えられる。音声情報の有無を検出する方法は、ここで説明した方法に限定されず、他の方法であってもよい。

また、音声分割手段１２は、分割した音声データ片に音声データの出現順番を表す順列番号を割り当てる。ここで、音声分割手段１２は音声採取手段１１から受け取る音声データの先頭の音声データ片から順に順列番号を割り当てる。そのため、音声データ片に割り当てられる順列番号は音声採取手段１１に入力される順になる。

認識要求送受信手段１４は、音声分割手段１２が分割した音声データ片とその音声データ片に割り当てられた順列番号とを対にして音声分割手段１２から受け取ると、音声データ片を含む音声要求を音声認識サーバ３に対して送信する。その際、認識要求送受信手段１４は、音声認識サーバ３に対して、音声認識要求を複数、かつ並行に送信する。以下に、このことを具体的に説明する。

認識要求送受信手段１４には、音声認識サーバ３とデータを送受信するための通信ポート（通信チャネル）の数が予め設定されている。通信ポートの数はデータの送受信先となる音声認識サーバ３の情報処理能力によって決められる。本実施形態では、認識要求送受信手段１４に複数の通信ポートが利用可能に設定されている。認識要求送受信手段１４は、論理的に使用可能な複数の通信ポートを有し、複数の通信ポートのそれぞれに音声分割手段１２から渡される、順列番号および音声データ片の対を対応づけ、通信ポートと順列番号の組み合わせの情報を保持する。そして、認識要求送受信手段１４は、各通信ポートを介して音声データ片を含む認識要求を音声認識サーバ３に送信することで、音声認識要求を複数、かつ並行に送信することができる。その際、通信ポート間で同期を取る必要もなく、非同期で送信することができる。なお、一度に音声認識要求できる数は認識要求送受信手段１４内に固定で設定されていてもよく、設定ファイル等により自由に設定できるようにしてもよい。

また、認識要求送受信手段１４は、送信した音声データ片が音声認識サーバ３によって認識処理された結果である音声認識結果を音声認識サーバ３から通信ポートを介して受信すると、その通信ポートに対応づけていた順列番号を受信した音声認識結果に割り当てる。さらに、認識要求送受信手段１４は、音声認識結果と順列番号を関連づけて順列番号記憶手段１３に格納する。

順列番号記憶手段１３は、音声分割手段１２が分割した音声データ片に割り当てられる順列番号を記録する。図２は順列番号記憶手段に保存されるデータの構成例を示す図である。

図２を参照して、順列番号記憶手段１３に設けられた記憶領域に保存されるデータの構成を説明する。

図２に示すＴ１３０１の記憶領域は、音声分割手段１２が分割した音声データ片に割り当てた順列番号の最大値が記録されるフィールドである。順列番号が１つも採番されていない初期段階では、順列番号の最大値の初期値として０が順列番号記憶手段１３のフィールドＴ１３０１に記録されている。初期段階とは、本実施形態の音声認識処理のプログラムが起動したときである。

音声分割手段１２は、順列番号を採番する際、順列番号記憶手段１３から順列番号の最大値を読み出し、読み出した値に１を加えた値を次の音声データ片に割り当て、その後、更新した順列番号の最大値を順列番号記憶手段１３に記録する。また、順列番号記憶手段１３は認識要求送受信手段１４が受信した音声認識結果を順列番号と対にして記憶する。

順列番号記憶手段１３における、図２に示したデータ構造とは別のデータ構造のスキーマを説明する。図３は図１に示した順列番号記憶手段に保存されるデータの別の構成例を示す図である。

図３に示すＴ１３１１の記憶領域は、音声分割手段１２が分割した音声データ片に割り当てられた番号（順列番号）を格納するためのフィールドである。図３に示すＴ１３１２の記憶領域は、認識要求送受信手段１４が受信した音声認識結果を格納するためのフィールドである。

なお、順列番号記憶手段１３は、上述したデータ構造に限らず、上記のようにデータの参照および記録ができるようにデータベース等で実現してもよい。

認識結果集約手段１５は、認識要求送受信手段１４が音声認識サーバ３から受信した音声認識結果とその認識結果に対応づけられた順列番号を順列番号記憶手段１３から読み出し、順列番号の順に音声認識結果を並べ、一定の語数または音節数から構成される認識結果文を作成する。また、認識結果集約手段１５は、定期的に順列番号記憶手段１３を検索することにより、最小の順列番号から一定の個数以上の音声認識結果が格納されているかを判定する。認識結果集約手段１５は、一定の個数以上の音声認識結果が連結できると判断した場合、それらの音声認識結果を順番に繋ぎ合わせて認識結果文を作成し、作成した認識結果文を認識結果表示手段１６に渡す。そして、認識結果集約手段１５は、順列番号記憶手段１３に保存されているデータから、連結した音声認識結果とその順列番号のレコードを削除する。なお、文章を確定する音声認識結果数は、認識結果集約手段１５内に固定で設定されていてもよいし、設定ファイル等で自由に設定できるようにしてもよい。

認識結果表示手段１６は、認識結果集約手段１５から認識結果文を受け取ると、認識結果文を文字列にして閲覧者５が閲覧できるように表示部（不図示）に出力する。表示方法はＧＵＩ（Graphical User Interface）によりウインドウ表示させてもよいし、ファイル等に出力してもよい。また、表示の際には、出力文を全て「ひらがな」または「カタカナ」に変換する処理を行ってもよく、一部または全部をローマ字などに変換する処理を行ってもよい。

次に、本実施形態の音声認識処理装置の動作手順を説明する。

図４は本実施形態の音声認識処理装置の動作手順を示すフロー図である。

ステップＳ０１：音声採取手段１１が、単数または複数の話者４が発する音声情報をマイク（不図示）から連続的に音声データをデジタルデータとして受信し、ストリームデータ等連続した情報として取得する。

ステップＳ０２：音声分割手段１２は、音声採取手段１１によって採取された音声データの中から息継ぎや無音部分を検出してその前後で音声データを分割する。続いて、音声分割手段１２は、分割した音声データ片に順列番号を採番し、順列番号記憶手段１３に順列番号を登録し、分割された音声データ片と採番された順列番号を組みにして認識要求送受信手段１４に渡す。

ここで、図４に示すステップＳ０２の動作を、図５を参照して詳細に説明する。

ステップＳ０２０１：音声分割手段１２は、採取した音声データの中から息継ぎや無音部分を検出する。

ステップＳ０２０２：音声分割手段１２は、検出した息継ぎや無音部分の前後で音声データを分割して音声データ片を作成する。

ステップＳ０２０３：音声分割手段１２は、音声データ片のそれぞれに、分割した順番で順列番号を採番する。そして、音声分割手段１２は順列番号記憶手段１３のフィールドＴ１３０１から順列番号の現在の最大値を取得し、その値を１増加させ順列番号記憶手段１３のフィールドＴ１３０１に記録する。

ステップＳ０２０４：音声分割手段１２は、ステップＳ０２０３にて採番した順列番号を分割した音声データ片に割り当てて認識要求送受信手段１４に渡す。

以上で、ステップＳ０２の動作の詳細な説明を終了する。

図４に示すフロー図の説明に戻る。

ステップＳ０３：認識要求送受信手段１４は、音声分割手段１２によって分割された複数の音声データ片を非同期、かつ並列で音声認識サーバ３に送信することで音声認識を要求する。送信の際、認識要求送受信手段１４は複数の通信ポートをもち、認識要求の送信に使用する通信ポートと音声分割手段１２から渡された順列番号を対応づけ、その対応づけの情報を保持する。

ステップＳ０４：認識要求送受信手段１４は、音声認識サーバ３から音声認識結果を受信すると、ステップＳ０３で保持していた順列番号を用いて、順列番号記憶手段１３のフィールドＴ１３１１の順列番号を検索し、値が一致するレコードのフィールドＴ１３１２に音声認識結果を格納する。

ステップＳ０５：認識結果集約手段１５は、定期的に順列番号記憶手段１３内の音声認識結果格納状態を検索し、音声認識結果がある一定の長さ分連続して格納されている場合、それらの結果を繋ぎ合わせて認識結果文を作成する。

図４に示すステップＳ０５の動作を、図６を参照して詳細に説明する。

ステップＳ０５０１：認識結果集約手段１５は、定期的に順列番号記憶手段１３内の音声認識結果格納状態を検索し、最小の順列番号から連続して一定の数だけ連続して音声認識結果が登録されている状態を見つけ出す。

ステップＳ０５０２：認識結果集約手段１５は、ステップＳ０５０１で見つかった複数の順列番号（フィールドＴ１３１１）と音声認識結果（フィールドＴ１３１２）の対を順列番号記憶手段１３から取得し、順列番号の順番で音声認識結果を並べ直し、それぞれの音声認識結果を繋いで認識結果文を生成する。

ステップＳ０５０３：認識結果集約手段１５は、ステップＳ０５０２で取得した音声認識結果および順列番号が格納されているレコードを順列番号記憶手段１３から削除する。

ステップＳ０５０４：認識結果集約手段１５は、ステップＳ０５０２で生成した認識結果文を認識結果表示手段１６に渡す。

以上で、ステップＳ０５の動作の詳細な説明を終了する。

図４に示すフロー図の説明に戻る。

ステップＳ０６：認識結果表示手段１６は、認識結果集約手段１５が生成した認識結果文を閲覧者５に閲覧可能に表示する。本実施形態では、認識結果表示手段１６は認識結果文を表示部（不図示）に出力する。

本実施形態の音声認識処理装置による音声認識処理方法を、実施例を用いて具体的に説明する。なお、図１に示した構成と同様な構成についての詳細な説明を省略する。

図７は本実施例の音声認識処理装置の構成例を示すブロック図である。

本実施例の音声認識処理装置１は、一般的なＰＣに、上述した音声認識処理方法を実行するためのプログラムが制御部３０内のメモリ（不図示）に予め格納された構成である。音声を入力するための装置として、マイク２１が音声認識処理装置１の音声採取手段１１に接続されている。また、認識結果文を表示するための装置として、表示部２２が音声認識処理装置１の認識結果表示手段１６に接続されている。

本実施例では、ネットワーク６はインタ―ネットを含むネットワークである。音声認識処理装置１と音声認識サーバ３は、通信プロトコルとして、ＴＣＰ（Transmission Control Protocol）／ＩＰ（Internet Protocol）を使用する。音声認識処理装置１と音声認識サーバ３のそれぞれには、自装置および相手装置の端末識別が予め格納されている。

順列番号記憶手段１３のフィールドＴ１３０１には、順列番号最大値の初期値として０が記録されている。また、認識要求送受信手段１４は同時に音声認識要求を送信することのできる通信ポートを５つ有している。認識結果集約手段１５は、３個の音声認識結果が連続してそろえば認識結果文を作成するものとする。

本実施例の音声認識処理装置１の動作を、図４を参照して説明する。

閲覧者５が音声認識処理装置１を操作して音声認識処理のプログラムを起動する指示を入力した後、話者４が「今日は、晴れ、です。」と話す。ただし、この文中において句点は実際の発生では息継ぎを示し、読点は無音部分を示す。

ステップＳ０１：音声採取手段１１が、話者４が発する音声情報（今日は、晴れ、です。）を、マイク２１から連続的に音声データをデジタルデータとして受信し、ストリームデータとして取得する。

ステップＳ０２：音声分割手段１２が採取した音声データ（今日は、晴れ、です。）の中から息継ぎや無音部分を検出してその前後で音声データを分割する。続いて、音声分割手段１２は、分割した音声データ片に順列番号を採番し、順列番号記憶手段１３に順列番号を登録し、分割された音声データ片と採番された順列番号を組みにして認識要求送受信手段１４に渡す。

ここで、上記ステップＳ０２の動作を、図５を参照して詳細に説明する。

ステップＳ０２０１：音声分割手段１２は、採取された音声データ（今日は、晴れ、です。）の中から息継ぎや無音部分を検出する。本実施例では、音声データを表す文面の句読点を検出する。検出する方法は２００Ｈｚ〜４ＫＨｚの音声データが６０デシベル未満であり、その状態が０．５秒以上継続される場合を息継ぎおよび無音と判断する。

ステップＳ０２０２：音声分割手段１２は、検出した息継ぎや無音部分の前後で音声データを分割して音声データ片を作成する。本実施例では「今日は」という音声データ片と「晴れ」という音声データ片と「です」という音声データ片に分割される。

ステップＳ０２０４：音声分割手段１２は、ステップＳ０２０３にて採番した順列番号を分割した音声データ片に割り当て認識要求送受信手段１４に渡し、順列番号の情報を順列番号記憶手段１３に記録する。本実施例では、音声分割手段１２は、「今日は」という音声データ片に順列番号１を採番し、「晴れ」という音声データ片に順列番号２を採番し、「です」という音声データ片に順列番号３を採番する。このときの順列番号記憶手段１３の状態を図８に示す。

以上で、ステップＳ０２の動作の詳細な説明を終了する。

図４に示すフロー図の説明に戻る。

ステップＳ０３：認識要求送受信手段１４は、音声分割手段１２によって分割された複数の音声データ片を非同期、かつ並列に音声認識サーバ３に送信して音声認識を要求する。送信の際、認識要求送受信手段１４は５つの通信ポートをもち、認識要求の送信に使用する通信ポートと音声分割手段１２から渡された順列番号を、図９に示すように対応づけて保持する。図９は認識要求が通信ポート毎に音声認識処理装置から音声認識サーバに送られる状態を示す図である。図９において、ポート１〜３は通信ポートの番号を表し、「ポート１：順列番号１」は通信ポート１に対応づけて順列番号１が保持されていることを意味する。図９では通信ポート４、５を省略している。音声認識処理装置１はプログラムを実行することによりＰＣ上で実現されるので、各通信ポートおよび対応する順列番号はＰＣから割り当てられるメモリ（不図示）上に記録される。

ステップＳ０４：認識要求送受信手段１４は、音声認識サーバ３から音声認識結果を、図１０に示すように受信する。図１０は認識結果が通信ポート毎に音声認識サーバから音声認識処理装置に返信される状態を示す図である。図９と図１０を見比べると、認識要求に対応した認識結果が同じ通信ポートに音声認識サーバ３から返信されることがわかる。
認識要求送受信手段１４は、ステップＳ０３で保持していた順列番号を用いて、順列番号記憶手段１３のフィールドＴ１３１１の順列番号を検索し、値が一致するレコードのフィールドＴ１３１２に音声認識結果を、図１１に示すように格納する。

このとき、音声認識結果が到着した順番は、順列番号２、順列番号３、順列番号１の順番とし、その順番で音声認識結果が順列番号記憶手段１３に格納されたとする。

ステップＳ０５：認識結果集約手段１５は、定期的に順列番号記憶手段１３内の音声認識結果格納状態を検索し、音声認識結果が３個分連続して格納されているデータ列を見つける。そして、認識結果集約手段１５は、その結果を繋ぎ合わせて認識結果文である「今日は晴れです」を作成する。繋ぎ合わせる際に、認識結果集約手段１５は、音声認識結果間に空白文字を挿入する。

上記ステップＳ０５の動作を、図５を参照して詳細に説明する。

ステップＳ０５０１：認識結果集約手段１５は、定期的に順列番号記憶手段１３内の音声認識結果格納状態を検索し、最小の順列番号から連続して３個連続して音声認識結果が登録されている状態、すなわち順列番号１、２、３のレコードを見つけ出す。

ステップＳ０５０２：認識結果集約手段１５は、ステップＳ０５０１で発見した複数の順列番号（フィールドＴ１３１１）と音声認識結果（フィールドＴ１３１２）の対を順列番号記憶手段１３から取得する。本実施例では、認識結果集約手段１５は、順列番号１のレコードから「今日は」を取得し、順列番号２のレコードから「晴れ」を取得し、順列番号３のレコードから「です」を取得する。その後、認識結果集約手段１５は、順列番号の順番にしたがって音声認識結果を並べ直し、それぞれの音声認識結果を繋いで認識結果文「今日は晴れです」を生成する。それぞれの音声認識結果を繋ぐ際は、間に空白を挿入する。

ステップＳ０５０３：認識結果集約手段１５は、ステップＳ０５０２で取得した音声認識結果および順列番号が格納されているレコードを順列番号記憶手段１３から削除する。今回の場合は、順列番号１、２、３のレコードが該当する。

ステップＳ０５０４：認識結果集約手段１５はステップＳ０５０２で生成した認識結果文「今日は晴れです」を認識結果表示手段１６に渡す。

以上で、ステップＳ０５の動作の詳細な説明を終了する。

図４に示すフロー図の説明に戻る。

ステップＳ０６：認識結果表示手段１６は、認識結果集約手段１５が生成した認識結果文「今日は晴れです」を、図１２に示すように、表示部２２の結果表示領域２２０１に出力し認識結果閲覧者に表示する。図１２は表示画面の一例である。

このようにして、長い会話文の音声認識処理を行い、閲覧者は、会話文に対応する認識結果文を閲覧することが可能となる。

なお、実施例１のステップＳ０３〜Ｓ０５で説明したように、先に送った認識要求よりも後に送った認識要求の音声認識結果が先に届けられる場合が考えられる。この場合における次の認識要求の処理方法を説明する。

認識要求送受信手段１４は、ポート１が音声認識結果受信待ちの間に、ポート２を介して受信した音声認識結果に順列番号２を割り当て、ポート３を介して受信した音声認識結果に順列番号３を割り当て、音声認識結果と順列番号の組みを順列番号記憶手段１３に保存する。

認識要求送受信手段１４は、次の認識処理対象となる音声データ片と順列番号の組みを音声分割手段１２から受け取ると、その組を認識結果受信待ちになっていない通信ポートに対応づける。ここで、次の認識処理対象の音声データ片が４つある場合、認識要求送受信手段１４は、４つの音声データ片のそれぞれをポート２から５のそれぞれに対応づける。つまり、認識要求送受信手段１４は、ポート１の音声認識結果の受信を待たずに、使用されていないポート２〜５に順次、次の認識処理対象の音声データ片を振り分ける。

このように、先に送った認識要求よりも後に送った認識要求の音声認識結果が先に届けられても、使用されていない通信ポートに順次、次の認識処理対象の音声データ片を対応づけることで、情報処理を効率よく行うことが可能となる。

本実施形態では、上述したように、長い会話文の音声データをクラウド型音声認識サービスで認識可能な単語レベルである音声データ片に分割し、クラウド型音声認識サービスを利用して各音声データ片の音声認識結果を取得し、取得した音声認識結果を元の順番に並べて長い会話文の認識結果文を出力する。そのため、ユーザは、認識処理に必要な大量のデータを自分のＰＣ、スマートフォンおよびタブレット端末等の端末装置内に蓄積しなくても、複数の文章から構成される長い会話文が文字情報に変換された音声認識結果を取得できる。

また、端末装置内に大量の言語モデルや教師データを配置していないため、これらデータの更新作業やバックアップといった管理を必要とせず、端末装置内の記憶領域を圧迫することなく比較的低負荷で音声認識処理を実現することができる。その理由は、本実施形態では、ネットワークを介して提供されるクラウド型音声認識サービスに音声認識を依頼し、その結果を受け取って認識結果文を提示するようにしているからである。

なお、上述の実施形態および実施例では、本発明の音声認識処理装置を理解しやすくするために具体的に説明したが、音声認識処理装置は図１３に示すような情報処理装置であってもよい。

図１３は本実施形態の音声認識処理装置の別の構成例を示すブロック図である。図１３に示すように音声認識処理装置は、記憶部３３と、通信部３４と、制御部３０とを有する。図１３に示す通信部３４および記憶部３３のそれぞれは、図１に示した認識要求送受信手段１４および順列番号記憶手段１３のそれぞれに相当する。

図１３に示す装置でも、上述の実施形態と同様な効果を得ることができる。

なお、本実施形態で説明した音声認識処理方法をコンピュータに実行させるためのプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよい。この場合、プログラムを記録媒体から他の情報処理装置にインストールすることで、他の情報処理装置にも上述した情報処理方法を実行させることが可能となる。

本発明の効果の一例を説明する。本発明によれば、ユーザは自分の端末装置に音声認識処理に必要な大量のデータを蓄積していなくても、長い会話文の音声認識結果を取得することができる。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明を、一般生活の中で聴覚に障害を持つ人が周囲の会話を認識する場面において、話者が話した内容を文字化して表示し、コミュニケーションを支援する用途に適用できる。また、音声認識処理を翻訳処理に置き換えることで、本発明を、外国人との意思疎通を支援するという用途にも適用できる。

なお、この出願は、２０１５年２月１０日に出願された日本出願の特願２０１５−０２３８３６の内容が全て取り込まれており、この日本出願を基礎として優先権を主張するものである。

１音声認識処理装置
３音声認識サーバ
６ネットワーク
１１音声採取手段
１２音声分割手段
１３順列番号記憶手段
１４認識要求送受信手段
１５認識結果集約手段
１６認識結果表示手段
２１マイク
２２表示部

Claims

入力される音声を音声データとして取得する音声採取手段と、
前記音声データを複数の音声データ片に分割し、該複数の音声データ片のそれぞれに前記音声採取手段に入力された順番にしたがって順列番号を割り当てる音声分割手段と、
前記順列番号を記憶する記憶手段と、
予め設定された複数の通信ポートに前記順列番号を対応づけながら前記音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、前記音声データ片が該音声認識サーバによって認識処理された結果である音声認識結果を該音声認識サーバから前記通信ポートを介して受信すると、受信した音声認識結果に該通信ポートに対応づけた順列番号を割り当て、割り当てた順列番号に一致する順列番号が記憶される前記記憶手段の領域に該音声認識結果を格納する認識要求送受信手段と、
前記順列番号とともに前記記憶手段に格納された前記音声認識結果を該順列番号にしたがって並べた認識結果文を生成する認識結果集約手段と、
生成された前記認識結果文を表示する表示手段と、
を有する音声認識処理装置。
請求項１に記載の音声認識処理装置において、
前記認識要求送受信手段は、
前記複数の通信ポートのうち、前記音声認識サーバからの認識結果受信待ちになっていない通信ポートに、次の認識処理対象の前記音声データ片を振り分ける、音声認識処理装置。
請求項１または２に記載の音声認識処理装置において、
前記音声分割手段は、
前記音声採取手段が取得した音声データを分割する際、該音声データにおいて人の音声情報が存在しない部分および息継ぎの部分を検出し、検出した部分で挟まれる領域の音声データを前記音声データ片として抽出する、音声認識処理装置。
情報処理装置による音声認識処理方法であって、
入力される音声を音声データとして取得し、
前記音声データを複数の音声データ片に分割して、該複数の音声データ片のそれぞれに前記音声データを取得した順番にしたがって順列番号を割り当て、
前記順列番号を記憶手段に記憶し、
予め設定された複数の通信ポートに前記順列番号を対応づけながら前記音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、
前記音声データ片が該音声認識サーバによって認識処理された結果である音声認識結果を該音声認識サーバから前記通信ポートを介して受信すると、受信した音声認識結果に該通信ポートに対応づけた順列番号を割り当て、
割り当てた順列番号に一致する順列番号が記憶される前記記憶手段の領域に該音声認識結果を格納し、
前記順列番号とともに前記記憶手段に格納された前記音声認識結果を該順列番号にしたがって並べた認識結果文を生成し、
生成された前記認識結果文を表示する、音声認識処理方法。
請求項４に記載の音声認識処理方法において、
前記複数の通信ポートのうち、前記音声認識サーバからの認識結果受信待ちになっていない通信ポートに、次の認識処理対象の前記音声データ片を振り分ける、音声認識処理方法。
請求項４または５に記載の音声認識処理方法において、
前記取得した音声データを分割する際、該音声データにおいて人の音声情報が存在しない部分および息継ぎの部分を検出し、検出した部分で挟まれる領域の音声データを前記音声データ片として抽出する、音声認識処理方法。
コンピュータに、
入力される音声を音声データとして取得する手順と、
前記音声データを複数の音声データ片に分割して、該複数の音声データ片のそれぞれに前記音声データを取得した順番にしたがって順列番号を割り当てる手順と、
前記順列番号を記憶手段に記憶する手順と、
予め設定された複数の通信ポートに前記順列番号を対応づけながら前記音声データ片を振り分けてネットワークを介して音声認識サーバに送信する手順と、
前記音声データ片が該音声認識サーバによって認識処理された結果である音声認識結果を該音声認識サーバから前記通信ポートを介して受信すると、受信した音声認識結果に該通信ポートに対応づけた順列番号を割り当てる手順と、
割り当てた順列番号に一致する順列番号が記憶される前記記憶手段の領域に該音声認識結果を格納する手順と、
前記順列番号とともに前記記憶手段に格納された前記音声認識結果を該順列番号にしたがって並べた認識結果文を生成する手順と、
生成された前記認識結果文を表示する手順を実行させるためのプログラム。
請求項７に記載のプログラムにおいて、
前記複数の通信ポートのうち、前記音声認識サーバからの認識結果受信待ちになっていない通信ポートに、次の認識処理対象の前記音声データ片を振り分ける手順を有するプログラム。
請求項７または８に記載のプログラムにおいて、
前記取得した音声データを分割する手順で、該音声データにおいて人の音声情報が存在しない部分および息継ぎの部分を検出し、検出した部分で挟まれる領域の音声データを前記音声データ片として抽出する処理を有するプログラム。