JP2021110911A

JP2021110911A - 音声認識表示装置、音声認識表示方法およびプログラム

Info

Publication number: JP2021110911A
Application number: JP2020004809A
Authority: JP
Inventors: 浩一浅野; Koichi Asano; 康孝浦川; Yasutaka Urakawa
Original assignee: Fuetrek Co Ltd
Current assignee: Fuetrek Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2021-08-02

Abstract

【課題】発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝える。【解決手段】音声認識表示装置１は、入力される音声を、発話された時間順の音声データとして取得する音声入力部１０と、音声入力部１０で取得した音声データを音声認識して、発話された時間順に文字データに変換する認識処理部１２と、認識処理部１２で変換された文字データの全部または一部を、視認可能な文字として表示する表示部１３と、を備える。表示部１３は、所定の条件で、変換された文字データのうちの表示する文字数を少なくして表示する。【選択図】図１

Description

本発明は、発話された音声を認識して文字データを表示する音声認識表示装置、音声認識表示方法およびプログラムに関する。

スマートフォンなど、音声認識を行い、その結果をリアルタイムで表示するデバイスが普及している。例えば特許文献１の会議システムでは、発言者が英語で発言した音声が音声認識される。聞き手が使用するディスプレイの字幕表示領域は、上半分が訳振り領域として用いられ、下半分が原文領域として用いられる。訳振り領域には、音声認識結果である原文に、原文を日本語に翻訳した訳文がルビ状に併記された訳振り字幕が表示される。このように、原文及び訳文の両方が表示され、しかも、原文に含まれる単語又は連語に、訳文として、この単語又は連語を翻訳した語句が表示されるため、聞き手が理解し易く、また、誤訳に気付き易い。更に、原文領域には、まだ翻訳されていない原文を含む原文字幕が表示される。

特許文献２の携帯端末は、留守番メッセージとして録音され、メモリに格納された音声データの文字変換指示が入力されると、制御部の音声認識機能により、当該音声データをテキストデータに変換する。次に、入力された音声データの音量、周波数、音声速度を解析し、また発呼者ＩＤに対するデータ表示変更情報が予めメモリに格納されているか否かを調べる。データ表示変更情報がメモリに格納されていない場合は、音声データの解析結果に基づいて変換されたテキストデータの表示文字を変更して表示する。データ表示変更情報がメモリに格納されている場合は、当該発呼者ＩＤに対するデータ表示変更情報を参照し、該データ表示変更情報を更に加味した表示の変更を行って表示する。

特開２０１１−１８２１２５号公報特開２００９−１７１３３６号公報

音声認識装置では、入力された音声の１００％をテキスト化できるとは限らない。エージェントと呼ばれる利用者の手助けをするアシスタント機能に呼びかける際の音声認識には高い精度が求められる場合がある。音声認識の精度を高くするために、より多くの学習データ（モデル）を取り込むと、認識に必要な処理時間は一般的に長くなる傾向にある。すなわち認識精度の向上と処理速度はトレードオフの関係にある。

発話された音声をすべて文字データに精度よく変換するためには、処理に要する時間が長くかかり、発話から文字を表示するまでの遅れが大きく、会話に追従するのは困難である。また、映像の音声を音声認識して表示する場合は、映像からの時間遅れが大きく、映像をリアルタイムに理解するのが困難であった。

通常の発話音声の認識結果をすべて表示すると、多くの内容を短時間で把握する必要があり、特に高齢者などにとっては使いづらかった。また、表示領域が限られているデバイスの場合、音声認識結果が多く、限られた表示領域内にすべて表示することが難しいという問題があった。

本発明は、発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝えることを目的とする。

本発明の第１の観点に係る音声認識表示装置は、
入力される音声を、発話された時間順の音声データとして取得する音声入力部と、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部と、
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部と、
を備え、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。

本発明によれば、発話速度に応じて、変換された文字データのうちの表示する文字数の条件を変更するので、発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝えることができる。

前記認識処理部は、前記音声入力部で取得した音声データを第１の言語として音声認識して単語を抽出し、該抽出した単語を第２の言語に翻訳して前記文字データに変換するように構成してもよい。

音声認識表示装置が第１の言語で入力された音声を音声認識して、異なる第２の言語に翻訳して文字データを表示するので、利用者の母語とは異なる言語で発話された内容の概要をリアルタイムに把握することができる。

好ましくは、前記入力される音声の発話速度を推定する速度推定部をさらに備え、
前記表示部は、前記速度推定部で推定された発話速度に応じて、前記変換された文字データのうちの表示する文字数の条件を変える。

好ましくは、前記表示部は、前記発話速度が速いほど、変換された文字データのうち、文字数を少なく表示する。

好ましくは、前記認識処理部は、前記変換した文字データに単語ごとの品詞の情報を付加して前記表示部に送り、
前記表示部は、変換された文字データのうち、前記発話速度に応じて特定の品詞の文字データを表示する。

好ましくは、前記表示部は、表示してから所定の時間を経過した文字データの表示を消去する。

本発明の第２の観点に係る音声認識表示方法は、
入力された音声を音声認識して文字を表示する音声認識表示装置が行う音声認識表示方法であって、
入力される音声を、発話された時間順の音声データとして取得する音声入力ステップと、
前記音声入力ステップで取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理ステップと、
前記認識処理ステップで変換された文字データの全部または一部を、視認可能な文字として表示する表示ステップと、
を備え、
前記表示ステップでは、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。

本発明の第３の観点に係るプログラムは、コンピュータを、
入力される音声を、発話された時間順の音声データとして取得する音声入力部、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部、および
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部、
として機能させ、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。

本発明によれば、所定の条件で、変換された文字データのうちの表示する文字数を少なくして表示するので、発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝えることができる。

本発明の実施の形態１に係る音声認識表示装置を示すブロック図実施の形態１に係る判断ルールと認識および表示の例を示す図実施の形態１に係る音声認識表示装置の外観例を示す図実施の形態１に係る音声認識表示処理の動作の例を示すフローチャート本発明の実施の形態２に係る音声認識表示装置を示すブロック図実施の形態２に係る音声認識翻訳表示処理の動作の例を示すフローチャート実施の形態に係る音声認識表示装置のハードウェア構成の一例を示すブロック図

以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。

実施の形態１．
図１は、本発明の実施の形態１に係る音声認識表示装置を示すブロック図である。音声認識表示装置１は、マイクロフォン２から入力される音声を音声認識して文字データに変換し、変換した文字データの全部または一部を視認可能な文字としてディスプレイ３に表示する。

音声認識表示装置１は、音声入力部１０、速度推定部１１、認識処理部１２および表示部１３を備える。認識処理部１２には、音声を認識するときに参照する音響モデル２１、言語モデル２２および辞書データ２３が付随している。表示部１３は、表示判断部１４と文字出力部１５を含む。

音声入力部１０は、マイクロフォン２から入力される音声を、発話された時間順の音声データとして取得する。音声入力部１０は、取得した音声データを速度推定部１１と認識処理部１２に送る。

速度推定部１１は、音声データに基づいて、マイクロフォン２から入力される音声の発話速度を推定する。発話速度は、例えば、モーラ長などから求めることができる。簡易的には、パワーの変動などをみて話速を推定してもよい。その他、入力音声の特徴量の時間微分の平均で算出したり、文字単位で得られる発話継続時間の逆数、音声認識に要した時間と音声認識のマッチング対象の登録語（最尤登録後）の長さ、または、音声データにおける母音数並びに子音数と登録語の長さ、などを用いて発話速度を算出してもよい。速度推定部１１は、発話速度を直近の移動区間平均で推定することが望ましい。

速度推定部１１は、音声認識の一部として通常は認識処理部１２に含まれるが、ここでは理解を容易にするように分けて記載している。速度推定部１１は、推定した発話速度の情報を表示部１３に送る。

認識処理部１２は、音響モデル２１、言語モデル２２および辞書データ２３を参照して、音声データを音声認識し、文字データに変換する。音声認識は、例えば、発話終了を待たずに音声データを時間順に逐次に認識して文字データを確定する逐次認識を用いる。発話終了時に１回のパスで得られる結果、さらに第１パスの結果を利用する第２パスで得られる最適解を用いることもできる。できるだけ早く認識結果を表示するためには、音声データを時間順に逐次に認識する方法が望ましい。

認識処理部１２は、音声認識して文字データに変換する際に、言語モデルを用いて単語ごとの品詞の情報を得る。認識処理部１２は、音声データを音声認識して変換した文字データと単語ごとの品詞の情報を、表示部１３に送る。

表示部１３は表示判断部１４で、速度推定部１１から送られた発話速度に応じて、認識処理部１２から送られた文字データのうちの表示する文字数の条件を変更する。表示部１３の文字出力部１５は、発話速度に応じた表示する文字数の条件に従って、文字データを取捨選択し、表示する文字データを視認可能な文字としてディスプレイ３に出力する。ディスプレイ３は、例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）または有機ＥＬディスプレイである。

表示する文字数の条件は、例えば、極めてゆっくり発話されて、全ての文字データを表示しても発話に追随して表示することができるような場合は、すべての文字データを表示する。表示判断部１４は、発話速度が速いほど、変換された文字データのうちの表示する文字数を少なくする。

表示判断部１４は、例えば、音声データの単語ごとの品詞情報を参照して、特定の品詞の文字データを表示する。例えば、名詞、動詞、形容詞および形容動詞を表示し、副詞、接続詞、接続助詞および補助動詞を破棄する。発話速度が速い場合は、格助詞および助動詞を省略し、さらに速い場合は、形容詞および形容動詞を省略して表示しないこともある。また、動詞または形容詞の語幹のみ表示し、語尾を省略してもよい。特にサ行変格活用の動詞では、語幹のみ表示して語尾を省略することができる。名詞についても、重要度のランクで分類しておいて、重要度の低いものから省略する。さらに、「キロメートル」または「キログラム」などの単位を「キロ」などに短縮して表示してもよい。その他、カナで発音された単位を、記号に変換して表示してもよい。例えば、「キロメートル」を「ｋｍ」、「ヘクトパスカル」を「ｈＰａ」に変換して表示してもよい。

図２は、実施の形態１に係る判断ルールと認識および表示の例を示す図である。図２の例では、表示ルールとして、中速発話時と高速発話時の２段階のルールが規定されている。前述のとおり、発話速度が低速の場合は、すべての文字データを表示する。表示ルールでは、重要な５Ｗ１Ｈの文字データを表示し、原則として名詞および動詞を表示する。

例えば、中速発話時の表示ルールでは、副詞、接続詞、接続助詞、副詞的名詞、補助動詞を破棄し、単位を短縮して表示する。高速発話時の表示ルールでは、さらに、格助詞、名詞の修飾的用法と考えられる形容詞＋名詞＋格助詞、および助動詞を破棄する。また、２つの動詞が接続助詞を挟んで連続する場合に、後者の接続助詞＋動詞を破棄する。そして、単位を記号に変換する。表示ルールは、図２の例に限らず、異なるものであってもよい。また、発話速度に応じて３段階以上に分けてもよい。

図２では、認識結果のテキスト（文字データ）の例として、「非常に強い勢力の台風１９号は午後７時現在高知県を暴風域に巻き込みながら足摺岬の南約１００キロメートルの海上を時速２０キロメートルの速さで北北東に向かって進んでいます」を記載している。認識処理部１２は、認識して変換した文字データに単語の品詞を含む形態素を付加する。

図２では、認識結果のテキストに、それぞれの単語の品詞が付加されている例が記載されている。例えば、“非常に／副詞”、“強い／形容詞”、“勢力／名詞”、“の／格助詞”などである。“キロメートル”は名詞であるが、ここでは後に短縮または記号に変換するので、“単位”として扱う。

速度推定部１１で、発話が「中速」と推定された場合は、中速発話時のルールが適用され、認識結果のテキストは、例えば、「強い勢力の台風１９号は午後７時高知県を暴風域に巻き込み足摺岬の南１００キロの海上を時速２０キロの速さ北北東に向かって進む」が表示する文字データとして生成される。動詞に続く補助動詞および助動詞を削除する場合は、動詞を終止形に変形して表示してもよい。

図２の表示内容の例は、発話が「高速」と推定された場合を示す。高速発話時には、さらに、格助詞などが破棄され、単位が記号に変換されて、例えば、「台風１９号午後７時高知県暴風域巻き込み足摺岬南１００ｋｍ海上時速２０ｋｍ速さ北北東向かう」が表示する文字データとして生成される。

図２の例では、認識結果のテキストが８２文字、スペースを含めて８３文字であるのに対して、中速発話時は６０文字、スペースを含めて６３文字であり、約７５％の文字数である。さらに高速発話時は、４４文字、スペースを含めて５１文字であり、約６０％の文字数である。上述の例を見てわかるように、認識結果の「非常に強い勢力の」が、中速発話時は「強い勢力の」に削減され、高速発話時には「台風」を修飾する語句が破棄されており、厳密さには欠けるかもしれないが、表示される文字データでも、話されている内容の概要を充分に把握することができる。

実施の形態１の音声認識表示装置１によれば、発話内容の重要な文字データを表示しながら、表示する文字数を少なくするので、発話の速度で読んで内容を把握できる。音声認識に、発話終了時に１回のパスで得られる結果、さらに第１パスの結果を利用する第２パスで得られる最適解を用いる場合であっても、発話速度に応じて表示する文字数の条件を変化させ、発話速度が速いほど表示する文字数を少なくするので、発話された時間で表示された文字を読んで内容を把握することができ、また、発話から表示するまでの時間遅れが延びていくことがない。

さらに、音声認識を時間順に逐次に文字データに変換することにより、発話から文字表示までの時間遅れを小さくして、発話に追随することができる。その結果、例えば災害時などにテレビ受像器が使えない場合でも、音声認識表示装置１を用いてラジオ放送の音声を音声認識表示することによって、聴覚障害者でも放送内容を把握することができる。

図３は、実施の形態１に係る音声認識表示装置の外観例を示す図である。図３の音声認識表示装置１は、マイクロフォン２およびディスプレイ３が一体に組み込まれた携帯型の装置である。音声認識表示装置１は、右下の操作ボタンを例えば、１回の短時間押下（クリック）または長押しすることによって、有効／無効の切り替え、および電源のオン／オフを操作できる。ディスプレイ３は、例えば１行表示のＬＣＤであり、文字を右から左に向かってスクロールさせながら、発話された時間順に文字データを視認可能な文字として表示する。

音声認識表示装置１に音声を入力するのは、マイクロフォン２に限らない。テレビ受像器、ラジオ受信機または録音再生機などの音声出力端子に、信号線で接続するライン入力端子を設けて、マイクロフォン２を介さず音声信号を入力してもよい。音声データの入力は、ＵＳＢ、光ケーブル、無線ＬＡＮその他の無線通信などを経由するディジタル信号でもよい。

音声認識表示装置１に接続するマイクロフォン２は１台に限らず、２台以上のマイクロフォン２を接続して、複数の話者の発話を認識してそれぞれの話者の発話の文字データを区別して表示してもよい。例えば、会議の参加者、またはパネルディスカッションのパネラーのそれぞれに割り当てたマイクロフォン２から音声データを取得し、それぞれの話者の音声データを音声認識して文字データに変換し、マイクロフォン２ごとに区別して文字データを視認可能な文字としてディスプレイ３に表示することができる。

文字データを表示するディスプレイ３は、１行表示に限らず、複数行にわたって表示できる画面を有するディスプレイ３でもよい。また、文字をスクロールするのではなく、表示されている文字を移動せずに、先に表示されている文字に上書きする表示方法でもよい。その際、例えば、上書きしている位置でカーソルを点滅させることによって、どの文字が最新に表示されたのか分かるようにすることが望ましい。

図４は、実施の形態１に係る音声認識表示処理の動作の例を示すフローチャートである。図４の動作の例では、最後に文字を表示してから所定の時間が経過したときに、文字の表示を消去する。音声認識表示装置１は、電源オン、または、認識表示開始によって音声認識表示処理を開始する。開始した直後は、所定時間は経過していないので（ステップＳ１０；Ｎ）、文字データの表示を消去（ステップＳ１１）することなく、音声入力する（ステップＳ１２）。入力した音声データが終話（無音）である場合は（ステップＳ１３；Ｙ）、ステップＳ１０に戻って、所定時間の経過判断から繰り返す。

入力した音声データが終話でなければ（ステップＳ１３；Ｎ）、速度推定部１１は発話速度を推定する（ステップＳ１４）。同時に、認識処理部１２は音声データを音声認識して文字データに変換する音声認識処理を行う（ステップＳ１５）。入力された音声データが、音声認識できる有効な音声でなければ（ステップＳ１６；Ｎ）、すなわち、音声データが騒音または歌詞のない音楽のような場合は、ステップＳ１０に戻って、所定時間の経過判断から繰り返す。

入力された音声データが、音声認識できた有効な音声である場合（ステップＳ１６；Ｙ）、表示部１３は、推定された発話速度に応じて、変換された文字データのうちの表示する文字数の条件を設定し、文字データを表示するか否か決定する（ステップＳ１７）。表示判断は、文字データの取捨選択、強調、および、破棄した文字データの部分に区切りを入れるなどの処理を含む。

表示部１３は、表示する文字データを視認可能な文字としてディスプレイ３に出力して、文字データを表示する（ステップＳ１８）。表示部１３は、文字データを出力すると同時に、所定時間の経過をカウントするタイマをリセットする。そして、ステップＳ１０に戻って、所定時間の経過判断から繰り返す。

終話を検出したのち、有効な音声データが入力されずに所定の時間が経過した場合は（ステップＳ１０；Ｙ）、表示部１３は、ディスプレイ３に表示していた文字データの表示を消去する（ステップＳ１１）。

実施の形態１では、速度推定部１１を備え、発話速度に応じて表示する文字数の条件を変更しているが、発話速度にかかわらず、常に所定の条件で変換された文字データのうちの表示する文字数を少なくして表示するように構成してもよい。例えば、常に図２に示す中速発話時または高速発話時の表示ルールで、変換された文字データを表示するように構成してもよい。その場合、速度推定部１１は、なくてもよい。

さらに、利用者の好みに応じて、複数の段階の表示ルールを切り替えて、変換された文字データを表示してもよい。例えば、図２に示す中速発話時の表示ルールと、高速発話時の表示ルールを利用者が切り替えて、変換された文字データを表示するように構成してもよい。

実施の形態１の音声認識表示装置１によれば、所定の条件で、変換された文字データのうちの表示する文字数を少なくして表示するので、表示領域が狭いディスプレイ３であっても、発話の内容の概要を把握することができる。その結果、発話の概要をリアルタイムに伝えることができる。さらに、速度推定部１１を備える場合は、発話速度に応じて表示する文字データの数が調節されるので、発話速度に合わせて、発話の概要をリアルタイムに伝えることができる。

また、文字データを表示したのち、所定の時間が経過すると表示を消去するので、会議の音声を認識表示していたような場合であっても、セキュリティ上の問題がない。

音声認識表示装置１は、専用のスタンドアロンの装置以外に、スマートフォンまたはタブレット端末のアプリケーションとして提供することができる。また、クラウドサーバに速度推定部１１、認識処理部１２および表示部１３の機能を実現するアプリケーションを実装して、クラウドサービスとして提供することもできる。専用のスタンドアロンの装置、または、スマートフォンもしくはタブレット端末のアプリケーションのように、速度推定部１１、認識処理部１２および表示部１３が装置のなかにあって閉じたシステムの場合は、音声データが装置の外部に送信されることがないので、プライバシー情報の流出するおそれがない。

実施の形態２．
図５は、本発明の実施の形態２に係る音声認識表示装置を示すブロック図である。実施の形態２では、音声データを第１の言語として音声認識して単語を抽出し、該抽出した単語を第２の言語に翻訳して文字データに変換する。

実施の形態２の認識処理部１２は、翻訳部１６を含み、音声認識表示装置１は、第２の言語に翻訳するために参照する翻訳モデル２４、言語モデル２５および第２の言語の辞書データ２６を備える。認識処理部１２が翻訳部１６を備え、表示部１３は第２の言語に翻訳された文字データを扱うこと以外は、実施の形態１と同様である。

認識処理部１２は、音声入力部１０から入力される音声データを第１の言語として音声認識して単語を抽出する。そして、翻訳モデル２４、言語モデル２５および辞書データ２６を参照して、抽出した単語を第２の言語に翻訳する。速度推定部１１は、音声データを第１の言語として発話速度を推定する。表示部１３は、認識処理部１２から送られる文字データを第２の言語として、速度推定部１１で推定された発話速度に応じて、表示判断および文字出力する。表示判断のルールは第２の言語について規定されている。

第１の言語は、例えば、英語、スペイン語、中国語、ドイツ語またはフランス語などであり、第２の言語は日本語である。あるいは、第１の言語は日本語であり、第２の言語は、英語、スペイン語、中国語、ドイツ語またはフランス語などである。第１の言語と第２の言語は任意であって、例えば、音声認識表示装置１のプログラムとデータを入れ替えることによって、第１の言語と第２の言語を任意に設定できる。記憶容量に余裕があれば、複数の言語からそれぞれ選択するように構成することもできる。

実施の形態２では、例えば図３に示す音声認識表示装置１で、右下の操作ボタンを例えば、短時間に２回押下（クリック）することによって、翻訳の有効／無効の切り替えを操作できる。翻訳の有効／無効を切り替えられる場合、一般的には翻訳しないときに音声認識する言語は第２の言語、例えば日本語であり、翻訳するときには第１の言語、例えば英語から第２の言語に翻訳する。

図６は、実施の形態２に係る音声認識翻訳表示処理の動作の例を示すフローチャートである。音声認識翻訳表示処理は、図４の音声認識表示処理の有効音声か否かを判断するステップＳ１６の後に、翻訳処理を行い、表示判断および文字出力を第２の言語に翻訳された文字データについて行うことが異なる。音声認識翻訳表示処理のステップＳ１０からステップＳ１６は、図４と同様である。

音声認識翻訳表示処理では、入力された音声データが、音声認識できた有効な音声である場合（ステップＳ１６；Ｙ）、認識処理部１２の翻訳部１６は、音声認識して抽出した単語を第２の言語に翻訳して、第２の言語の文字データに変換する翻訳処理を行う（ステップＳ２１）。

表示部１３は、推定された発話速度に応じて、音声認識され第２の言語に翻訳された文字データのうちの表示する文字数の条件を設定し、第２の言語として文字データを表示するか否か決定する（ステップＳ２２）。表示判断は、第２の言語として文字データの取捨選択、強調、および、破棄した文字データの部分に区切りを入れるなどの処理を含む。

表示部１３は、表示する第２の言語の文字データを視認可能な文字としてディスプレイ３に出力して、文字データを表示する（ステップＳ２３）。第１の言語を第２の言語に翻訳する場合、第２の言語の単語の標準的な順序は、第１の言語の単語の順序から変化することがある。標準的な第２の言語の語順で表示するためには、先に表示する文字が出現するまで待たなければならない。先に表示する文字が出現するまで待っていては、表示が遅れるので、表示部１３では、内容に誤りがなく理解可能な範囲で、第１の言語における発話された時間順に近い語順で表示してもよい。

表示部１３は、文字データを出力すると同時に、所定時間の経過をカウントするタイマをリセットする。そして、ステップＳ１０に戻って、所定時間の経過判断から繰り返す。

実施の形態２の音声認識表示装置１では、入力される音声データを第１の言語として発話速度を推定し、発話速度に応じて、第２の言語に翻訳した文字データのうちの表示する文字数の条件を設定して、第２の言語の文字データを表示する。その結果、異なる言語で発話された内容の概要をリアルタイムに把握することができる。

実施の形態２の音声認識表示装置１によれば、会議などで母語が異なる人の発話を聞いたり、外国で公共機関のアナウンスまたはテレビ放送を視聴するときに、発話の内容の概要をリアルタイムに把握することができる。

実施の形態２においても、実施の形態１と同様、発話速度にかかわらず、常に所定の条件で変換された文字データのうちの表示する文字数を少なくして表示するように構成してもよい。また、利用者の好みに応じて、複数の段階の表示ルールを切り替えて、変換された文字データを表示するように構成してもよい。

図７は、実施の形態に係る音声認識表示装置のハードウェア構成の一例を示すブロック図である。音声認識表示装置１は、図７に示すように、制御部４１、主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７を備える。主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７はいずれも内部バス４０を介して制御部４１に接続されている。

制御部４１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部４３に記憶されている制御プログラム５０に従って、音声認識表示装置１の音声入力部１０、速度推定部１１、認識処理部１２および表示部１３の各処理を実行する。

主記憶部４２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部４３に記憶されている制御プログラム５０をロードし、制御部４１の作業領域として用いられる。

外部記憶部４３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、音声認識表示装置１の処理を制御部４１に行わせるためのプログラムならびに音響モデル２１、言語モデル２２および辞書データ２３の各データを予め記憶し、また、制御部４１の指示に従って、このプログラムが記憶するデータを制御部４１に供給し、制御部４１から供給されたデータを記憶する。

操作部４４はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス４０に接続するインタフェース装置から構成されている。操作部４４を介して、音声認識して変換された文字データの記憶、記憶された文字データの表示または消去、あるいは、翻訳対象の言語の選択指示などが入力され、制御部４１に供給される。

表示部４５は、ＬＣＤ（Liquid Crystal Display）または有機ＥＬディスプレイなどから構成され、音声認識して変換された文字データを表示する。

入出力部４６は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部４６は、マイクロフォン２を接続して音声信号を入力する。また、音声を出力する機器の音声出力端子に接続し、音声信号または音声データを入力する。

送受信部４７は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインタフェースまたはＬＡＮ（Local Area Network）インタフェースから構成されている。送受信部４７は、ネットワークを介して、例えば、辞書データ２３の更新、または、翻訳する対象の言語の翻訳プログラムのダウンロードを行う。

図１に示す音声認識表示装置１の音声入力部１０、速度推定部１１、認識処理部１２および表示部１３の処理は、制御プログラム５０が、制御部４１、主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７などを資源として用いて処理することによって実行する。

なお、各実施の形態で説明した音声認識表示装置１の構成は一例であり、任意に変更および修正が可能である。音声認識表示装置１の構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。例えば、実施の形態で説明したように、スマートフォンまたはタブレット端末を音声認識表示装置１として用いてもよい。また、ネットワーク上に音声認識表示装置１を設置して、ネットワークを介して音声認識表示装置１の機能を提供してもよい。

その他、前記のハードウェア構成やフローチャートは一例であり、任意に変更および修正が可能である。

音声入力部１０、速度推定部１１、認識処理部１２、表示部１３、音響モデル２１、言語モデル２２、および、辞書データ２３等から構成される音声認識表示装置１の音声認識表示処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体（ＵＳＢメモリ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する音声認識表示装置１を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで音声認識表示装置１を構成してもよい。

また、音声認識表示装置１を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

１音声認識表示装置
２マイクロフォン
３ディスプレイ
１０音声入力部
１１速度推定部
１２認識処理部
１３表示部
１４表示判断部
１５文字出力部
１６翻訳部
２１音響モデル
２２言語モデル
２３辞書データ
２４翻訳モデル
２５言語モデル
２６辞書データ

Claims

入力される音声を、発話された時間順の音声データとして取得する音声入力部と、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部と、
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部と、
を備え、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する音声認識表示装置。
前記認識処理部は、前記音声入力部で取得した音声データを第１の言語として音声認識して単語を抽出し、該抽出した単語を第２の言語に翻訳して前記文字データに変換する、請求項１に記載の音声認識表示装置。
前記入力される音声の発話速度を推定する速度推定部をさらに備え、
前記表示部は、前記速度推定部で推定された発話速度に応じて、前記変換された文字データのうちの表示する文字数の条件を変える、請求項１または２に記載の音声認識表示装置。
前記表示部は、前記発話速度が速いほど、変換された文字データのうち、文字数を少なく表示する、請求項３に記載の音声認識表示装置。
前記認識処理部は、前記変換した文字データに単語ごとの品詞の情報を付加して前記表示部に送り、
前記表示部は、変換された文字データのうち、前記発話速度に応じて特定の品詞の文字データを表示する、
請求項３または４に記載の音声認識表示装置。
前記表示部は、表示してから所定の時間を経過した文字データの表示を消去する、請求項１から５のいずれか１項に記載の音声認識表示装置。
入力された音声を音声認識して文字を表示する音声認識表示装置が行う音声認識表示方法であって、
入力される音声を、発話された時間順の音声データとして取得する音声入力ステップと、
前記音声入力ステップで取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理ステップと、
前記認識処理ステップで変換された文字データの全部または一部を、視認可能な文字として表示する表示ステップと、
を備え、
前記表示ステップでは、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する音声認識表示方法。
コンピュータを、
入力される音声を、発話された時間順の音声データとして取得する音声入力部、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部、および
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部、
として機能させ、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示するプログラム。