JP6429294B2 - 音声認識処理装置、音声認識処理方法およびプログラム - Google Patents

音声認識処理装置、音声認識処理方法およびプログラム Download PDF

Info

Publication number
JP6429294B2
JP6429294B2 JP2016574636A JP2016574636A JP6429294B2 JP 6429294 B2 JP6429294 B2 JP 6429294B2 JP 2016574636 A JP2016574636 A JP 2016574636A JP 2016574636 A JP2016574636 A JP 2016574636A JP 6429294 B2 JP6429294 B2 JP 6429294B2
Authority
JP
Japan
Prior art keywords
voice
speech recognition
permutation
recognition result
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016574636A
Other languages
English (en)
Other versions
JPWO2016129188A1 (ja
Inventor
久 坂本
久 坂本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solutions Innovators Ltd
Original Assignee
NEC Solutions Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solutions Innovators Ltd filed Critical NEC Solutions Innovators Ltd
Publication of JPWO2016129188A1 publication Critical patent/JPWO2016129188A1/ja
Application granted granted Critical
Publication of JP6429294B2 publication Critical patent/JP6429294B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

本発明は、人の音声による情報を認識する音声認識処理装置、音声認識処理方法、およびその方法をコンピュータに実行させるためのプログラムに関する。
音声認識に関する技術はこの十数年の間大きな変化はなく、認識の精度を向上させるためにはより多くの言語モデルや教師データを蓄積する必要があるとされている。特許文献1および非特許文献1に開示された音声認識システムは、これら言語モデルや教師データに関して大量のデータの全てをシステムに内包していた。このような音声認識システムの稼動は、パーソナルコンピュータ(PC)や、近年利用が拡大しているスマートフォンおよびタブレット端末等の端末装置内で行われることが多い。しかし、これらの端末装置の主記憶装置および補助記憶装置が大容量化しているとはいえ、音声認識システムに必要な大量のデータの全てを端末装置に蓄積させることは、処理速度やデータ運用の観点から難しい。
この問題に対して、クラウド型の音声認識サービスが提供されている(非特許文献2参照)。このようなクラウド型音声認識サービスでは、音声認識処理に必要な大量のデータは、端末装置内ではなく、データセンタに構築されたクラウド基盤上に蓄積されている。このサービスを用いれば、端末装置がデータセンタとネットワークを介して接続することで、当該大量のデータを利用した音声認識処理の結果を得られる。ネットワーク技術や通信技術の進歩により情報処理の速度が速くなったことで、端末装置を操作するユーザは、音声を端末装置に入力すると、クラウド基盤から音声認識結果をすぐに得ることができる。このようにして、大量の言語モデルや教師データを端末装置内に蓄積しなくても、ユーザが高精度の音声認識結果を得ることを可能にしている。さらに、クラウド基盤には大量の記憶領域が存在するため、膨大な言語モデル、さまざまな話者のパターンごとの音声データを蓄積することが可能となり、さらなる精度の向上を実現している。
特許第1603542号公報
"大語彙連続音声認識エンジン Julius"、[online]、Julius development team、[平成27年1月20日検索]、インターネット<URL:http:// julius.sourceforge.jp/> Google音声検索サービス、[online]、グーグル株式会社、[平成27年1月20日検索]、インターネット<URL:https:// support. google.com/ websearch/answer/2940021?hl=ja>
非特許文献2に開示されたクラウド型音声認識サービスは、特許文献1および非特許文献1に開示された技術の課題を解決するものである。しかし、このクラウド型音声認識サービスでは、単語レベルの短い言葉や比較的短い会話文などの短い文を処理の対象としているため、複数の文章から構成される長い会話文の認識処理に適していない。
本発明の目的の一つは、長い会話文の認識処理を可能にした音声認識処理装置、音声認識処理方法およびプログラムを提供することである。
本発明の一側面の音声認識処理装置は、入力される音声を音声データとして取得する音声採取手段と、音声データを複数の音声データ片に分割し、複数の音声データ片のそれぞれに音声採取手段に入力された順番にしたがって順列番号を割り当てる音声分割手段と、順列番号を記憶する記憶手段と、予め設定された複数の通信ポートに順列番号を対応づけながら音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、音声データ片が音声認識サーバによって認識処理された結果である音声認識結果を音声認識サーバから通信ポートを介して受信すると、受信した音声認識結果に通信ポートに対応づけた順列番号を割り当て、割り当てた順列番号に一致する順列番号が記憶される記憶手段の領域に音声認識結果を格納する認識要求送受信手段と、順列番号とともに記憶手段に格納された音声認識結果を順列番号にしたがって並べた認識結果文を生成する認識結果集約手段と、生成された認識結果文を表示する表示手段と、を有する構成である。
本発明の一側面の音声認識処理方法は、情報処理装置による音声認識処理方法であって、入力される音声を音声データとして取得し、音声データを複数の音声データ片に分割して、複数の音声データ片のそれぞれに音声データを取得した順番にしたがって順列番号を割り当て、順列番号を記憶手段に記憶し、予め設定された複数の通信ポートに順列番号を対応づけながら音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、音声データ片が音声認識サーバによって認識処理された結果である音声認識結果を音声認識サーバから通信ポートを介して受信すると、受信した音声認識結果に通信ポートに対応づけた順列番号を割り当て、割り当てた順列番号に一致する順列番号が記憶される記憶手段の領域に音声認識結果を格納し、順列番号とともに記憶手段に格納された音声認識結果を順列番号にしたがって並べた認識結果文を生成し、生成された認識結果文を表示するものである。
本発明の一側面のプログラムは、コンピュータに、入力される音声を音声データとして取得する手順と、音声データを複数の音声データ片に分割して、複数の音声データ片のそれぞれに音声データを取得した順番にしたがって順列番号を割り当てる手順と、順列番号を記憶手段に記憶する手順と、予め設定された複数の通信ポートに順列番号を対応づけながら音声データ片を振り分けてネットワークを介して音声認識サーバに送信する手順と、音声データ片が音声認識サーバによって認識処理された結果である音声認識結果を音声認識サーバから通信ポートを介して受信すると、受信した音声認識結果に通信ポートに対応づけた順列番号を割り当てる手順と、割り当てた順列番号に一致する順列番号が記憶される記憶手段の領域に音声認識結果を格納する手順と、順列番号とともに記憶手段に格納された音声認識結果を順列番号にしたがって並べた認識結果文を生成する手順と、生成された認識結果文を表示する手順を実行させるものである。
図1は本実施形態の音声認識処理装置の構成を説明するためのブロック図である。 図2は図1に示した順列番号記憶手段に保存されるデータの構成例を示す図である。 図3は図1に示した順列番号記憶手段に保存されるデータの別の構成例を示す図である。 図4は本実施形態の音声認識処理装置による動作手順を示すフロー図である。 図5は図4に示すステップS02の詳細な動作を示すフロー図である。 図6は図4に示すステップS05の詳細な動作を示すフロー図である。 図7は実施例1における音声認識処理装置の構成を説明するためのブロック図である。 図8は実施例1における順列番号記憶手段に保存されるデータの構成を示す図である。 図9は実施例1における認識要求送受信手段の送信内容を示す図である。 図10は実施例1における認識要求送受信手段の受信内容を示す図である。 図11は図8に示したフィールドにデータが保存された場合の一例を示す図である。 図12は実施例1において、図7に示した表示部の画面の一例を示す図である。 図13は本実施形態の音声認識処理装置の別の構成例を示すブロック図である。
本実施形態の音声認識処理装置の構成を説明する。
図1は本実施形態の音声認識処理装置の構成を説明するためのブロック図である。
音声認識処理装置1は、話者4が発する会話を文字化した情報を閲覧者5に閲覧可能に出力する情報処理装置である。音声認識処理装置1は、デスクトップ型またはノートブック型のPCであってもよく、PCより小型のPDA(Personal Digital Assistants)等の携帯型情報端末であってもよい。話者4および閲覧者5のそれぞれの人数は複数であってもよい。
音声認識処理装置1は、クラウド型音声認識サービスを提供する音声認識サーバ3とネットワーク6を介して接続される。クラウド型音声認識サービスは、例えば、非特許文献2に開示されたクラウド型音声認識サービスである。
図1に示すように、音声認識処理装置1は、順列番号記憶手段13と、認識要求送受信手段14と、制御部30とを有する。制御部30には、コンピュータプログラム(以下では、単にプログラムと称する)を記憶するメモリ(不図示)と、プログラムにしたがって処理を実行するCPU(Central Processing Unit)(不図示)とが設けられている。
制御部30は、音声採取手段11と、音声分割手段12と、認識結果集約手段15と、認識結果表示手段16とを有する。制御部30内のCPUがプログラムにしたがって処理を実行することで、音声採取手段11、音声分割手段12、認識結果集約手段15および認識結果表示手段16が音声認識処理装置1に仮想的に構成される。
なお、音声採取手段11にはマイクが接続され、認識結果表示手段16には表示部が接続されているが、図に示すことを省略している。また、認識結果文の出力手段として表示部が認識結果表示手段16に接続された場合で説明するが、プリンタであってもよい。
また、図1に示す音声採取手段11、音声分割手段12、認識結果集約手段15および認識結果表示手段16のうち、一部または全部が各機能に特化したASIC(Application Specific Integrated Circuit)等の専用集積回路で構成されてもよい。特に、音声認識技術では、音声の入力速度に応じて音声認識処理を行う必要があり、情報処理の速度が重要となる。上記複数の手段のうち、一部でも、その機能に特化した専用集積回路を設けることで、全体の情報処理の速度向上を図れる。
図1に示した音声認識処理装置1の各構成について詳しく説明する。
音声採取手段11は、単数または複数の話者4が発する音声情報を、マイク(不図示)を介して連続的に入力される音声データをデジタルデータとして受信し、ストリームデータのように連続した情報として取得する。本実施形態では、音声採取手段11は取得した音声データを無加工で音声分割手段12に出力する場合で説明するが、音声データを加工して出力してもよい。音声データの加工として、例えば、ノイズを除去するノイズキャンセリング処理や人間の音声を示す周波数帯のみ抽出するフィルタリング処理が考えられる。
音声分割手段12は、音声採取手段11が取得した音声データを解析し、音声データをそれよりも小さい単位である音声データ片に分割する。分割する方法は、音声データ内で人の音声情報が存在しない部分(例えば、人の音声が存在しない部分)や息継ぎの部分を検出し、その前後のデータを音声データの断片として抽出するものである。検出した部分に挟まれる領域の音声データが音声データ片に相当する。人の音声が存在するか否かの判定方法として、対象となる音声データにおいて、通常、人の音声として認識される周波数帯域(例えば、約200Hz〜約4KHz)のデータの有無を調べることで、音声情報があるか否かを判断する方法がある。また、音声情報があるか否かの判定方法として、人の音声が含まれない状態での音声データを採取し、その音声を環境音として記録しておき、環境音と一致する場合に「音声情報がない」と判定する方法が考えられる。音声情報の有無を検出する方法は、ここで説明した方法に限定されず、他の方法であってもよい。
また、音声分割手段12は、分割した音声データ片に音声データの出現順番を表す順列番号を割り当てる。ここで、音声分割手段12は音声採取手段11から受け取る音声データの先頭の音声データ片から順に順列番号を割り当てる。そのため、音声データ片に割り当てられる順列番号は音声採取手段11に入力される順になる。
認識要求送受信手段14は、音声分割手段12が分割した音声データ片とその音声データ片に割り当てられた順列番号とを対にして音声分割手段12から受け取ると、音声データ片を含む音声要求を音声認識サーバ3に対して送信する。その際、認識要求送受信手段14は、音声認識サーバ3に対して、音声認識要求を複数、かつ並行に送信する。以下に、このことを具体的に説明する。
認識要求送受信手段14には、音声認識サーバ3とデータを送受信するための通信ポート(通信チャネル)の数が予め設定されている。通信ポートの数はデータの送受信先となる音声認識サーバ3の情報処理能力によって決められる。本実施形態では、認識要求送受信手段14に複数の通信ポートが利用可能に設定されている。認識要求送受信手段14は、論理的に使用可能な複数の通信ポートを有し、複数の通信ポートのそれぞれに音声分割手段12から渡される、順列番号および音声データ片の対を対応づけ、通信ポートと順列番号の組み合わせの情報を保持する。そして、認識要求送受信手段14は、各通信ポートを介して音声データ片を含む認識要求を音声認識サーバ3に送信することで、音声認識要求を複数、かつ並行に送信することができる。その際、通信ポート間で同期を取る必要もなく、非同期で送信することができる。なお、一度に音声認識要求できる数は認識要求送受信手段14内に固定で設定されていてもよく、設定ファイル等により自由に設定できるようにしてもよい。
また、認識要求送受信手段14は、送信した音声データ片が音声認識サーバ3によって認識処理された結果である音声認識結果を音声認識サーバ3から通信ポートを介して受信すると、その通信ポートに対応づけていた順列番号を受信した音声認識結果に割り当てる。さらに、認識要求送受信手段14は、音声認識結果と順列番号を関連づけて順列番号記憶手段13に格納する。
順列番号記憶手段13は、音声分割手段12が分割した音声データ片に割り当てられる順列番号を記録する。図2は順列番号記憶手段に保存されるデータの構成例を示す図である。
図2を参照して、順列番号記憶手段13に設けられた記憶領域に保存されるデータの構成を説明する。
図2に示すT1301の記憶領域は、音声分割手段12が分割した音声データ片に割り当てた順列番号の最大値が記録されるフィールドである。順列番号が1つも採番されていない初期段階では、順列番号の最大値の初期値として0が順列番号記憶手段13のフィールドT1301に記録されている。初期段階とは、本実施形態の音声認識処理のプログラムが起動したときである。
音声分割手段12は、順列番号を採番する際、順列番号記憶手段13から順列番号の最大値を読み出し、読み出した値に1を加えた値を次の音声データ片に割り当て、その後、更新した順列番号の最大値を順列番号記憶手段13に記録する。また、順列番号記憶手段13は認識要求送受信手段14が受信した音声認識結果を順列番号と対にして記憶する。
順列番号記憶手段13における、図2に示したデータ構造とは別のデータ構造のスキーマを説明する。図3は図1に示した順列番号記憶手段に保存されるデータの別の構成例を示す図である。
図3に示すT1311の記憶領域は、音声分割手段12が分割した音声データ片に割り当てられた番号(順列番号)を格納するためのフィールドである。図3に示すT1312の記憶領域は、認識要求送受信手段14が受信した音声認識結果を格納するためのフィールドである。
なお、順列番号記憶手段13は、上述したデータ構造に限らず、上記のようにデータの参照および記録ができるようにデータベース等で実現してもよい。
認識結果集約手段15は、認識要求送受信手段14が音声認識サーバ3から受信した音声認識結果とその認識結果に対応づけられた順列番号を順列番号記憶手段13から読み出し、順列番号の順に音声認識結果を並べ、一定の語数または音節数から構成される認識結果文を作成する。また、認識結果集約手段15は、定期的に順列番号記憶手段13を検索することにより、最小の順列番号から一定の個数以上の音声認識結果が格納されているかを判定する。認識結果集約手段15は、一定の個数以上の音声認識結果が連結できると判断した場合、それらの音声認識結果を順番に繋ぎ合わせて認識結果文を作成し、作成した認識結果文を認識結果表示手段16に渡す。そして、認識結果集約手段15は、順列番号記憶手段13に保存されているデータから、連結した音声認識結果とその順列番号のレコードを削除する。なお、文章を確定する音声認識結果数は、認識結果集約手段15内に固定で設定されていてもよいし、設定ファイル等で自由に設定できるようにしてもよい。
認識結果表示手段16は、認識結果集約手段15から認識結果文を受け取ると、認識結果文を文字列にして閲覧者5が閲覧できるように表示部(不図示)に出力する。表示方法はGUI(Graphical User Interface)によりウインドウ表示させてもよいし、ファイル等に出力してもよい。また、表示の際には、出力文を全て「ひらがな」または「カタカナ」に変換する処理を行ってもよく、一部または全部をローマ字などに変換する処理を行ってもよい。
次に、本実施形態の音声認識処理装置の動作手順を説明する。
図4は本実施形態の音声認識処理装置の動作手順を示すフロー図である。
ステップS01:音声採取手段11が、単数または複数の話者4が発する音声情報をマイク(不図示)から連続的に音声データをデジタルデータとして受信し、ストリームデータ等連続した情報として取得する。
ステップS02:音声分割手段12は、音声採取手段11によって採取された音声データの中から息継ぎや無音部分を検出してその前後で音声データを分割する。続いて、音声分割手段12は、分割した音声データ片に順列番号を採番し、順列番号記憶手段13に順列番号を登録し、分割された音声データ片と採番された順列番号を組みにして認識要求送受信手段14に渡す。
ここで、図4に示すステップS02の動作を、図5を参照して詳細に説明する。
ステップS0201:音声分割手段12は、採取した音声データの中から息継ぎや無音部分を検出する。
ステップS0202:音声分割手段12は、検出した息継ぎや無音部分の前後で音声データを分割して音声データ片を作成する。
ステップS0203:音声分割手段12は、音声データ片のそれぞれに、分割した順番で順列番号を採番する。そして、音声分割手段12は順列番号記憶手段13のフィールドT1301から順列番号の現在の最大値を取得し、その値を1増加させ順列番号記憶手段13のフィールドT1301に記録する。
ステップS0204:音声分割手段12は、ステップS0203にて採番した順列番号を分割した音声データ片に割り当てて認識要求送受信手段14に渡す。
以上で、ステップS02の動作の詳細な説明を終了する。
図4に示すフロー図の説明に戻る。
ステップS03:認識要求送受信手段14は、音声分割手段12によって分割された複数の音声データ片を非同期、かつ並列で音声認識サーバ3に送信することで音声認識を要求する。送信の際、認識要求送受信手段14は複数の通信ポートをもち、認識要求の送信に使用する通信ポートと音声分割手段12から渡された順列番号を対応づけ、その対応づけの情報を保持する。
ステップS04:認識要求送受信手段14は、音声認識サーバ3から音声認識結果を受信すると、ステップS03で保持していた順列番号を用いて、順列番号記憶手段13のフィールドT1311の順列番号を検索し、値が一致するレコードのフィールドT1312に音声認識結果を格納する。
ステップS05:認識結果集約手段15は、定期的に順列番号記憶手段13内の音声認識結果格納状態を検索し、音声認識結果がある一定の長さ分連続して格納されている場合、それらの結果を繋ぎ合わせて認識結果文を作成する。
図4に示すステップS05の動作を、図6を参照して詳細に説明する。
ステップS0501:認識結果集約手段15は、定期的に順列番号記憶手段13内の音声認識結果格納状態を検索し、最小の順列番号から連続して一定の数だけ連続して音声認識結果が登録されている状態を見つけ出す。
ステップS0502:認識結果集約手段15は、ステップS0501で見つかった複数の順列番号(フィールドT1311)と音声認識結果(フィールドT1312)の対を順列番号記憶手段13から取得し、順列番号の順番で音声認識結果を並べ直し、それぞれの音声認識結果を繋いで認識結果文を生成する。
ステップS0503:認識結果集約手段15は、ステップS0502で取得した音声認識結果および順列番号が格納されているレコードを順列番号記憶手段13から削除する。
ステップS0504:認識結果集約手段15は、ステップS0502で生成した認識結果文を認識結果表示手段16に渡す。
以上で、ステップS05の動作の詳細な説明を終了する。
図4に示すフロー図の説明に戻る。
ステップS06:認識結果表示手段16は、認識結果集約手段15が生成した認識結果文を閲覧者5に閲覧可能に表示する。本実施形態では、認識結果表示手段16は認識結果文を表示部(不図示)に出力する。
本実施形態の音声認識処理装置による音声認識処理方法を、実施例を用いて具体的に説明する。なお、図1に示した構成と同様な構成についての詳細な説明を省略する。
図7は本実施例の音声認識処理装置の構成例を示すブロック図である。
本実施例の音声認識処理装置1は、一般的なPCに、上述した音声認識処理方法を実行するためのプログラムが制御部30内のメモリ(不図示)に予め格納された構成である。音声を入力するための装置として、マイク21が音声認識処理装置1の音声採取手段11に接続されている。また、認識結果文を表示するための装置として、表示部22が音声認識処理装置1の認識結果表示手段16に接続されている。
本実施例では、ネットワーク6はインタ―ネットを含むネットワークである。音声認識処理装置1と音声認識サーバ3は、通信プロトコルとして、TCP(Transmission Control Protocol)/IP(Internet Protocol)を使用する。音声認識処理装置1と音声認識サーバ3のそれぞれには、自装置および相手装置の端末識別が予め格納されている。
順列番号記憶手段13のフィールドT1301には、順列番号最大値の初期値として0が記録されている。また、認識要求送受信手段14は同時に音声認識要求を送信することのできる通信ポートを5つ有している。認識結果集約手段15は、3個の音声認識結果が連続してそろえば認識結果文を作成するものとする。
本実施例の音声認識処理装置1の動作を、図4を参照して説明する。
閲覧者5が音声認識処理装置1を操作して音声認識処理のプログラムを起動する指示を入力した後、話者4が「今日は、晴れ、です。」と話す。ただし、この文中において句点は実際の発生では息継ぎを示し、読点は無音部分を示す。
ステップS01:音声採取手段11が、話者4が発する音声情報(今日は、晴れ、です。)を、マイク21から連続的に音声データをデジタルデータとして受信し、ストリームデータとして取得する。
ステップS02:音声分割手段12が採取した音声データ(今日は、晴れ、です。)の中から息継ぎや無音部分を検出してその前後で音声データを分割する。続いて、音声分割手段12は、分割した音声データ片に順列番号を採番し、順列番号記憶手段13に順列番号を登録し、分割された音声データ片と採番された順列番号を組みにして認識要求送受信手段14に渡す。
ここで、上記ステップS02の動作を、図5を参照して詳細に説明する。
ステップS0201:音声分割手段12は、採取された音声データ(今日は、晴れ、です。)の中から息継ぎや無音部分を検出する。本実施例では、音声データを表す文面の句読点を検出する。検出する方法は200Hz〜4KHzの音声データが60デシベル未満であり、その状態が0.5秒以上継続される場合を息継ぎおよび無音と判断する。
ステップS0202:音声分割手段12は、検出した息継ぎや無音部分の前後で音声データを分割して音声データ片を作成する。本実施例では「今日は」という音声データ片と「晴れ」という音声データ片と「です」という音声データ片に分割される。
ステップS0203:音声分割手段12は、音声データ片のそれぞれに、分割した順番で順列番号を採番する。そして、音声分割手段12は順列番号記憶手段13のフィールドT1301から順列番号の現在の最大値を取得し、その値を1増加させ順列番号記憶手段13のフィールドT1301に記録する。
ステップS0204:音声分割手段12は、ステップS0203にて採番した順列番号を分割した音声データ片に割り当て認識要求送受信手段14に渡し、順列番号の情報を順列番号記憶手段13に記録する。本実施例では、音声分割手段12は、「今日は」という音声データ片に順列番号1を採番し、「晴れ」という音声データ片に順列番号2を採番し、「です」という音声データ片に順列番号3を採番する。このときの順列番号記憶手段13の状態を図8に示す。
以上で、ステップS02の動作の詳細な説明を終了する。
図4に示すフロー図の説明に戻る。
ステップS03:認識要求送受信手段14は、音声分割手段12によって分割された複数の音声データ片を非同期、かつ並列に音声認識サーバ3に送信して音声認識を要求する。送信の際、認識要求送受信手段14は5つの通信ポートをもち、認識要求の送信に使用する通信ポートと音声分割手段12から渡された順列番号を、図9に示すように対応づけて保持する。図9は認識要求が通信ポート毎に音声認識処理装置から音声認識サーバに送られる状態を示す図である。図9において、ポート1〜3は通信ポートの番号を表し、「ポート1:順列番号1」は通信ポート1に対応づけて順列番号1が保持されていることを意味する。図9では通信ポート4、5を省略している。音声認識処理装置1はプログラムを実行することによりPC上で実現されるので、各通信ポートおよび対応する順列番号はPCから割り当てられるメモリ(不図示)上に記録される。
ステップS04:認識要求送受信手段14は、音声認識サーバ3から音声認識結果を、図10に示すように受信する。図10は認識結果が通信ポート毎に音声認識サーバから音声認識処理装置に返信される状態を示す図である。図9と図10を見比べると、認識要求に対応した認識結果が同じ通信ポートに音声認識サーバ3から返信されることがわかる。
認識要求送受信手段14は、ステップS03で保持していた順列番号を用いて、順列番号記憶手段13のフィールドT1311の順列番号を検索し、値が一致するレコードのフィールドT1312に音声認識結果を、図11に示すように格納する。
このとき、音声認識結果が到着した順番は、順列番号2、順列番号3、順列番号1の順番とし、その順番で音声認識結果が順列番号記憶手段13に格納されたとする。
ステップS05:認識結果集約手段15は、定期的に順列番号記憶手段13内の音声認識結果格納状態を検索し、音声認識結果が3個分連続して格納されているデータ列を見つける。そして、認識結果集約手段15は、その結果を繋ぎ合わせて認識結果文である「今日は 晴れ です」を作成する。繋ぎ合わせる際に、認識結果集約手段15は、音声認識結果間に空白文字を挿入する。
上記ステップS05の動作を、図5を参照して詳細に説明する。
ステップS0501:認識結果集約手段15は、定期的に順列番号記憶手段13内の音声認識結果格納状態を検索し、最小の順列番号から連続して3個連続して音声認識結果が登録されている状態、すなわち順列番号1、2、3のレコードを見つけ出す。
ステップS0502:認識結果集約手段15は、ステップS0501で発見した複数の順列番号(フィールドT1311)と音声認識結果(フィールドT1312)の対を順列番号記憶手段13から取得する。本実施例では、認識結果集約手段15は、順列番号1のレコードから「今日は」を取得し、順列番号2のレコードから「晴れ」を取得し、順列番号3のレコードから「です」を取得する。その後、認識結果集約手段15は、順列番号の順番にしたがって音声認識結果を並べ直し、それぞれの音声認識結果を繋いで認識結果文「今日は 晴れ です」を生成する。それぞれの音声認識結果を繋ぐ際は、間に空白を挿入する。
ステップS0503:認識結果集約手段15は、ステップS0502で取得した音声認識結果および順列番号が格納されているレコードを順列番号記憶手段13から削除する。今回の場合は、順列番号1、2、3のレコードが該当する。
ステップS0504:認識結果集約手段15はステップS0502で生成した認識結果文「今日は 晴れ です」を認識結果表示手段16に渡す。
以上で、ステップS05の動作の詳細な説明を終了する。
図4に示すフロー図の説明に戻る。
ステップS06:認識結果表示手段16は、認識結果集約手段15が生成した認識結果文「今日は 晴れ です」を、図12に示すように、表示部22の結果表示領域2201に出力し認識結果閲覧者に表示する。図12は表示画面の一例である。
このようにして、長い会話文の音声認識処理を行い、閲覧者は、会話文に対応する認識結果文を閲覧することが可能となる。
なお、実施例1のステップS03〜S05で説明したように、先に送った認識要求よりも後に送った認識要求の音声認識結果が先に届けられる場合が考えられる。この場合における次の認識要求の処理方法を説明する。
認識要求送受信手段14は、ポート1が音声認識結果受信待ちの間に、ポート2を介して受信した音声認識結果に順列番号2を割り当て、ポート3を介して受信した音声認識結果に順列番号3を割り当て、音声認識結果と順列番号の組みを順列番号記憶手段13に保存する。
認識要求送受信手段14は、次の認識処理対象となる音声データ片と順列番号の組みを音声分割手段12から受け取ると、その組を認識結果受信待ちになっていない通信ポートに対応づける。ここで、次の認識処理対象の音声データ片が4つある場合、認識要求送受信手段14は、4つの音声データ片のそれぞれをポート2から5のそれぞれに対応づける。つまり、認識要求送受信手段14は、ポート1の音声認識結果の受信を待たずに、使用されていないポート2〜5に順次、次の認識処理対象の音声データ片を振り分ける。
このように、先に送った認識要求よりも後に送った認識要求の音声認識結果が先に届けられても、使用されていない通信ポートに順次、次の認識処理対象の音声データ片を対応づけることで、情報処理を効率よく行うことが可能となる。
本実施形態では、上述したように、長い会話文の音声データをクラウド型音声認識サービスで認識可能な単語レベルである音声データ片に分割し、クラウド型音声認識サービスを利用して各音声データ片の音声認識結果を取得し、取得した音声認識結果を元の順番に並べて長い会話文の認識結果文を出力する。そのため、ユーザは、認識処理に必要な大量のデータを自分のPC、スマートフォンおよびタブレット端末等の端末装置内に蓄積しなくても、複数の文章から構成される長い会話文が文字情報に変換された音声認識結果を取得できる。
また、端末装置内に大量の言語モデルや教師データを配置していないため、これらデータの更新作業やバックアップといった管理を必要とせず、端末装置内の記憶領域を圧迫することなく比較的低負荷で音声認識処理を実現することができる。その理由は、本実施形態では、ネットワークを介して提供されるクラウド型音声認識サービスに音声認識を依頼し、その結果を受け取って認識結果文を提示するようにしているからである。
なお、上述の実施形態および実施例では、本発明の音声認識処理装置を理解しやすくするために具体的に説明したが、音声認識処理装置は図13に示すような情報処理装置であってもよい。
図13は本実施形態の音声認識処理装置の別の構成例を示すブロック図である。図13に示すように音声認識処理装置は、記憶部33と、通信部34と、制御部30とを有する。図13に示す通信部34および記憶部33のそれぞれは、図1に示した認識要求送受信手段14および順列番号記憶手段13のそれぞれに相当する。
図13に示す装置でも、上述の実施形態と同様な効果を得ることができる。
なお、本実施形態で説明した音声認識処理方法をコンピュータに実行させるためのプログラムを、コンピュータ読み取り可能な記録媒体に格納してもよい。この場合、プログラムを記録媒体から他の情報処理装置にインストールすることで、他の情報処理装置にも上述した情報処理方法を実行させることが可能となる。
本発明の効果の一例を説明する。本発明によれば、ユーザは自分の端末装置に音声認識処理に必要な大量のデータを蓄積していなくても、長い会話文の音声認識結果を取得することができる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明を、一般生活の中で聴覚に障害を持つ人が周囲の会話を認識する場面において、話者が話した内容を文字化して表示し、コミュニケーションを支援する用途に適用できる。また、音声認識処理を翻訳処理に置き換えることで、本発明を、外国人との意思疎通を支援するという用途にも適用できる。
なお、この出願は、2015年2月10日に出願された日本出願の特願2015−023836の内容が全て取り込まれており、この日本出願を基礎として優先権を主張するものである。
1 音声認識処理装置
3 音声認識サーバ
6 ネットワーク
11 音声採取手段
12 音声分割手段
13 順列番号記憶手段
14 認識要求送受信手段
15 認識結果集約手段
16 認識結果表示手段
21 マイク
22 表示部

Claims (9)

  1. 入力される音声を音声データとして取得する音声採取手段と、
    前記音声データを複数の音声データ片に分割し、該複数の音声データ片のそれぞれに前記音声採取手段に入力された順番にしたがって順列番号を割り当てる音声分割手段と、
    前記順列番号を記憶する記憶手段と、
    予め設定された複数の通信ポートに前記順列番号を対応づけながら前記音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、前記音声データ片が該音声認識サーバによって認識処理された結果である音声認識結果を該音声認識サーバから前記通信ポートを介して受信すると、受信した音声認識結果に該通信ポートに対応づけた順列番号を割り当て、割り当てた順列番号に一致する順列番号が記憶される前記記憶手段の領域に該音声認識結果を格納する認識要求送受信手段と、
    前記順列番号とともに前記記憶手段に格納された前記音声認識結果を該順列番号にしたがって並べた認識結果文を生成する認識結果集約手段と、
    生成された前記認識結果文を表示する表示手段と、
    を有する音声認識処理装置。
  2. 請求項1に記載の音声認識処理装置において、
    前記認識要求送受信手段は、
    前記複数の通信ポートのうち、前記音声認識サーバからの認識結果受信待ちになっていない通信ポートに、次の認識処理対象の前記音声データ片を振り分ける、音声認識処理装置。
  3. 請求項1または2に記載の音声認識処理装置において、
    前記音声分割手段は、
    前記音声採取手段が取得した音声データを分割する際、該音声データにおいて人の音声情報が存在しない部分および息継ぎの部分を検出し、検出した部分で挟まれる領域の音声データを前記音声データ片として抽出する、音声認識処理装置。
  4. 情報処理装置による音声認識処理方法であって、
    入力される音声を音声データとして取得し、
    前記音声データを複数の音声データ片に分割して、該複数の音声データ片のそれぞれに前記音声データを取得した順番にしたがって順列番号を割り当て、
    前記順列番号を記憶手段に記憶し、
    予め設定された複数の通信ポートに前記順列番号を対応づけながら前記音声データ片を振り分けてネットワークを介して音声認識サーバに送信し、
    前記音声データ片が該音声認識サーバによって認識処理された結果である音声認識結果を該音声認識サーバから前記通信ポートを介して受信すると、受信した音声認識結果に該通信ポートに対応づけた順列番号を割り当て、
    割り当てた順列番号に一致する順列番号が記憶される前記記憶手段の領域に該音声認識結果を格納し、
    前記順列番号とともに前記記憶手段に格納された前記音声認識結果を該順列番号にしたがって並べた認識結果文を生成し、
    生成された前記認識結果文を表示する、音声認識処理方法。
  5. 請求項4に記載の音声認識処理方法において、
    前記複数の通信ポートのうち、前記音声認識サーバからの認識結果受信待ちになっていない通信ポートに、次の認識処理対象の前記音声データ片を振り分ける、音声認識処理方法。
  6. 請求項4または5に記載の音声認識処理方法において、
    前記取得した音声データを分割する際、該音声データにおいて人の音声情報が存在しない部分および息継ぎの部分を検出し、検出した部分で挟まれる領域の音声データを前記音声データ片として抽出する、音声認識処理方法。
  7. コンピュータに、
    入力される音声を音声データとして取得する手順と、
    前記音声データを複数の音声データ片に分割して、該複数の音声データ片のそれぞれに前記音声データを取得した順番にしたがって順列番号を割り当てる手順と、
    前記順列番号を記憶手段に記憶する手順と、
    予め設定された複数の通信ポートに前記順列番号を対応づけながら前記音声データ片を振り分けてネットワークを介して音声認識サーバに送信する手順と、
    前記音声データ片が該音声認識サーバによって認識処理された結果である音声認識結果を該音声認識サーバから前記通信ポートを介して受信すると、受信した音声認識結果に該通信ポートに対応づけた順列番号を割り当てる手順と、
    割り当てた順列番号に一致する順列番号が記憶される前記記憶手段の領域に該音声認識結果を格納する手順と、
    前記順列番号とともに前記記憶手段に格納された前記音声認識結果を該順列番号にしたがって並べた認識結果文を生成する手順と、
    生成された前記認識結果文を表示する手順を実行させるためのプログラム
  8. 請求項7に記載のプログラムにおいて、
    前記複数の通信ポートのうち、前記音声認識サーバからの認識結果受信待ちになっていない通信ポートに、次の認識処理対象の前記音声データ片を振り分ける手順を有するプログラム
  9. 請求項7または8に記載のプログラムにおいて、
    前記取得した音声データを分割する手順で、該音声データにおいて人の音声情報が存在しない部分および息継ぎの部分を検出し、検出した部分で挟まれる領域の音声データを前記音声データ片として抽出する処理を有するプログラム
JP2016574636A 2015-02-10 2015-12-24 音声認識処理装置、音声認識処理方法およびプログラム Active JP6429294B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015023836 2015-02-10
JP2015023836 2015-02-10
PCT/JP2015/086000 WO2016129188A1 (ja) 2015-02-10 2015-12-24 音声認識処理装置、音声認識処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2016129188A1 JPWO2016129188A1 (ja) 2017-11-09
JP6429294B2 true JP6429294B2 (ja) 2018-11-28

Family

ID=56614333

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016574636A Active JP6429294B2 (ja) 2015-02-10 2015-12-24 音声認識処理装置、音声認識処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JP6429294B2 (ja)
WO (1) WO2016129188A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019090917A (ja) * 2017-11-14 2019-06-13 株式会社情報環境デザイン研究所 音声テキスト化装置、方法、及びコンピュータプログラム
JP2020184007A (ja) * 2019-05-07 2020-11-12 株式会社チェンジ 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
CN113053380B (zh) * 2021-03-29 2023-12-01 海信电子科技(武汉)有限公司 服务器及语音识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4483428B2 (ja) * 2004-06-25 2010-06-16 日本電気株式会社 音声認識/合成システム、同期制御方法、同期制御プログラム、および同期制御装置
JP2008107624A (ja) * 2006-10-26 2008-05-08 Kddi Corp 文字起こしシステム
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
JP2012190088A (ja) * 2011-03-09 2012-10-04 Nec Corp 音声記録装置、方法及びプログラム
JP5811642B2 (ja) * 2011-07-05 2015-11-11 ヤマハ株式会社 音声記録サーバ装置及び音声記録システム

Also Published As

Publication number Publication date
JPWO2016129188A1 (ja) 2017-11-09
WO2016129188A1 (ja) 2016-08-18

Similar Documents

Publication Publication Date Title
US10586541B2 (en) Communicating metadata that identifies a current speaker
CN112115706B (zh) 文本处理方法、装置、电子设备及介质
JP6327848B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
KR20170030297A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
JP2008225068A (ja) 議事録作成方法、その装置及びそのプログラム
US9196253B2 (en) Information processing apparatus for associating speaker identification information to speech data
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
JP6429294B2 (ja) 音声認識処理装置、音声認識処理方法およびプログラム
CN114168710A (zh) 一种会议记录的生成方法、装置、系统、设备及存储介质
JP2018045639A (ja) 対話ログ分析装置、対話ログ分析方法およびプログラム
WO2019123854A1 (ja) 翻訳装置、翻訳方法、及びプログラム
JPWO2018037956A1 (ja) 情報処理装置及び情報処理方法
WO2018198807A1 (ja) 翻訳装置
JP2014149571A (ja) コンテンツ検索装置
KR20160131730A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
US20200243092A1 (en) Information processing device, information processing system, and computer program product
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
CN113221514A (zh) 文本处理方法、装置、电子设备和存储介质
CN111582708A (zh) 医疗信息的检测方法、系统、电子设备及计算机可读存储介质
JP2016024378A (ja) 情報処理装置、その制御方法及びプログラム
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
US20230069287A1 (en) Server device, conference assistance system, conference assistance method, and non-transitory computer readable storage medium
JP7243145B2 (ja) 情報処理装置、情報処理システム及び情報処理方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181025

R150 Certificate of patent or registration of utility model

Ref document number: 6429294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150