JP2021110911A - 音声認識表示装置、音声認識表示方法およびプログラム - Google Patents
音声認識表示装置、音声認識表示方法およびプログラム Download PDFInfo
- Publication number
- JP2021110911A JP2021110911A JP2020004809A JP2020004809A JP2021110911A JP 2021110911 A JP2021110911 A JP 2021110911A JP 2020004809 A JP2020004809 A JP 2020004809A JP 2020004809 A JP2020004809 A JP 2020004809A JP 2021110911 A JP2021110911 A JP 2021110911A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- display
- character data
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
【課題】発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝える。【解決手段】音声認識表示装置1は、入力される音声を、発話された時間順の音声データとして取得する音声入力部10と、音声入力部10で取得した音声データを音声認識して、発話された時間順に文字データに変換する認識処理部12と、認識処理部12で変換された文字データの全部または一部を、視認可能な文字として表示する表示部13と、を備える。表示部13は、所定の条件で、変換された文字データのうちの表示する文字数を少なくして表示する。【選択図】図1
Description
本発明は、発話された音声を認識して文字データを表示する音声認識表示装置、音声認識表示方法およびプログラムに関する。
スマートフォンなど、音声認識を行い、その結果をリアルタイムで表示するデバイスが普及している。例えば特許文献1の会議システムでは、発言者が英語で発言した音声が音声認識される。聞き手が使用するディスプレイの字幕表示領域は、上半分が訳振り領域として用いられ、下半分が原文領域として用いられる。訳振り領域には、音声認識結果である原文に、原文を日本語に翻訳した訳文がルビ状に併記された訳振り字幕が表示される。このように、原文及び訳文の両方が表示され、しかも、原文に含まれる単語又は連語に、訳文として、この単語又は連語を翻訳した語句が表示されるため、聞き手が理解し易く、また、誤訳に気付き易い。更に、原文領域には、まだ翻訳されていない原文を含む原文字幕が表示される。
特許文献2の携帯端末は、留守番メッセージとして録音され、メモリに格納された音声データの文字変換指示が入力されると、制御部の音声認識機能により、当該音声データをテキストデータに変換する。次に、入力された音声データの音量、周波数、音声速度を解析し、また発呼者IDに対するデータ表示変更情報が予めメモリに格納されているか否かを調べる。データ表示変更情報がメモリに格納されていない場合は、音声データの解析結果に基づいて変換されたテキストデータの表示文字を変更して表示する。データ表示変更情報がメモリに格納されている場合は、当該発呼者IDに対するデータ表示変更情報を参照し、該データ表示変更情報を更に加味した表示の変更を行って表示する。
音声認識装置では、入力された音声の100%をテキスト化できるとは限らない。エージェントと呼ばれる利用者の手助けをするアシスタント機能に呼びかける際の音声認識には高い精度が求められる場合がある。音声認識の精度を高くするために、より多くの学習データ(モデル)を取り込むと、認識に必要な処理時間は一般的に長くなる傾向にある。すなわち認識精度の向上と処理速度はトレードオフの関係にある。
発話された音声をすべて文字データに精度よく変換するためには、処理に要する時間が長くかかり、発話から文字を表示するまでの遅れが大きく、会話に追従するのは困難である。また、映像の音声を音声認識して表示する場合は、映像からの時間遅れが大きく、映像をリアルタイムに理解するのが困難であった。
通常の発話音声の認識結果をすべて表示すると、多くの内容を短時間で把握する必要があり、特に高齢者などにとっては使いづらかった。また、表示領域が限られているデバイスの場合、音声認識結果が多く、限られた表示領域内にすべて表示することが難しいという問題があった。
本発明は、発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝えることを目的とする。
本発明の第1の観点に係る音声認識表示装置は、
入力される音声を、発話された時間順の音声データとして取得する音声入力部と、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部と、
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部と、
を備え、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。
入力される音声を、発話された時間順の音声データとして取得する音声入力部と、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部と、
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部と、
を備え、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。
本発明によれば、発話速度に応じて、変換された文字データのうちの表示する文字数の条件を変更するので、発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝えることができる。
前記認識処理部は、前記音声入力部で取得した音声データを第1の言語として音声認識して単語を抽出し、該抽出した単語を第2の言語に翻訳して前記文字データに変換するように構成してもよい。
音声認識表示装置が第1の言語で入力された音声を音声認識して、異なる第2の言語に翻訳して文字データを表示するので、利用者の母語とは異なる言語で発話された内容の概要をリアルタイムに把握することができる。
好ましくは、前記入力される音声の発話速度を推定する速度推定部をさらに備え、
前記表示部は、前記速度推定部で推定された発話速度に応じて、前記変換された文字データのうちの表示する文字数の条件を変える。
前記表示部は、前記速度推定部で推定された発話速度に応じて、前記変換された文字データのうちの表示する文字数の条件を変える。
好ましくは、前記表示部は、前記発話速度が速いほど、変換された文字データのうち、文字数を少なく表示する。
好ましくは、前記認識処理部は、前記変換した文字データに単語ごとの品詞の情報を付加して前記表示部に送り、
前記表示部は、変換された文字データのうち、前記発話速度に応じて特定の品詞の文字データを表示する。
前記表示部は、変換された文字データのうち、前記発話速度に応じて特定の品詞の文字データを表示する。
好ましくは、前記表示部は、表示してから所定の時間を経過した文字データの表示を消去する。
本発明の第2の観点に係る音声認識表示方法は、
入力された音声を音声認識して文字を表示する音声認識表示装置が行う音声認識表示方法であって、
入力される音声を、発話された時間順の音声データとして取得する音声入力ステップと、
前記音声入力ステップで取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理ステップと、
前記認識処理ステップで変換された文字データの全部または一部を、視認可能な文字として表示する表示ステップと、
を備え、
前記表示ステップでは、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。
入力された音声を音声認識して文字を表示する音声認識表示装置が行う音声認識表示方法であって、
入力される音声を、発話された時間順の音声データとして取得する音声入力ステップと、
前記音声入力ステップで取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理ステップと、
前記認識処理ステップで変換された文字データの全部または一部を、視認可能な文字として表示する表示ステップと、
を備え、
前記表示ステップでは、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。
本発明の第3の観点に係るプログラムは、コンピュータを、
入力される音声を、発話された時間順の音声データとして取得する音声入力部、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部、および
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部、
として機能させ、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。
入力される音声を、発話された時間順の音声データとして取得する音声入力部、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部、および
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部、
として機能させ、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する。
本発明によれば、所定の条件で、変換された文字データのうちの表示する文字数を少なくして表示するので、発話速度が速い場合でも、話されている内容の概要をリアルタイムに伝えることができる。
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。
実施の形態1.
図1は、本発明の実施の形態1に係る音声認識表示装置を示すブロック図である。音声認識表示装置1は、マイクロフォン2から入力される音声を音声認識して文字データに変換し、変換した文字データの全部または一部を視認可能な文字としてディスプレイ3に表示する。
図1は、本発明の実施の形態1に係る音声認識表示装置を示すブロック図である。音声認識表示装置1は、マイクロフォン2から入力される音声を音声認識して文字データに変換し、変換した文字データの全部または一部を視認可能な文字としてディスプレイ3に表示する。
音声認識表示装置1は、音声入力部10、速度推定部11、認識処理部12および表示部13を備える。認識処理部12には、音声を認識するときに参照する音響モデル21、言語モデル22および辞書データ23が付随している。表示部13は、表示判断部14と文字出力部15を含む。
音声入力部10は、マイクロフォン2から入力される音声を、発話された時間順の音声データとして取得する。音声入力部10は、取得した音声データを速度推定部11と認識処理部12に送る。
速度推定部11は、音声データに基づいて、マイクロフォン2から入力される音声の発話速度を推定する。発話速度は、例えば、モーラ長などから求めることができる。簡易的には、パワーの変動などをみて話速を推定してもよい。その他、入力音声の特徴量の時間微分の平均で算出したり、文字単位で得られる発話継続時間の逆数、音声認識に要した時間と音声認識のマッチング対象の登録語(最尤登録後)の長さ、または、音声データにおける母音数並びに子音数と登録語の長さ、などを用いて発話速度を算出してもよい。速度推定部11は、発話速度を直近の移動区間平均で推定することが望ましい。
速度推定部11は、音声認識の一部として通常は認識処理部12に含まれるが、ここでは理解を容易にするように分けて記載している。速度推定部11は、推定した発話速度の情報を表示部13に送る。
認識処理部12は、音響モデル21、言語モデル22および辞書データ23を参照して、音声データを音声認識し、文字データに変換する。音声認識は、例えば、発話終了を待たずに音声データを時間順に逐次に認識して文字データを確定する逐次認識を用いる。発話終了時に1回のパスで得られる結果、さらに第1パスの結果を利用する第2パスで得られる最適解を用いることもできる。できるだけ早く認識結果を表示するためには、音声データを時間順に逐次に認識する方法が望ましい。
認識処理部12は、音声認識して文字データに変換する際に、言語モデルを用いて単語ごとの品詞の情報を得る。認識処理部12は、音声データを音声認識して変換した文字データと単語ごとの品詞の情報を、表示部13に送る。
表示部13は表示判断部14で、速度推定部11から送られた発話速度に応じて、認識処理部12から送られた文字データのうちの表示する文字数の条件を変更する。表示部13の文字出力部15は、発話速度に応じた表示する文字数の条件に従って、文字データを取捨選択し、表示する文字データを視認可能な文字としてディスプレイ3に出力する。ディスプレイ3は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機ELディスプレイである。
表示する文字数の条件は、例えば、極めてゆっくり発話されて、全ての文字データを表示しても発話に追随して表示することができるような場合は、すべての文字データを表示する。表示判断部14は、発話速度が速いほど、変換された文字データのうちの表示する文字数を少なくする。
表示判断部14は、例えば、音声データの単語ごとの品詞情報を参照して、特定の品詞の文字データを表示する。例えば、名詞、動詞、形容詞および形容動詞を表示し、副詞、接続詞、接続助詞および補助動詞を破棄する。発話速度が速い場合は、格助詞および助動詞を省略し、さらに速い場合は、形容詞および形容動詞を省略して表示しないこともある。また、動詞または形容詞の語幹のみ表示し、語尾を省略してもよい。特にサ行変格活用の動詞では、語幹のみ表示して語尾を省略することができる。名詞についても、重要度のランクで分類しておいて、重要度の低いものから省略する。さらに、「キロメートル」または「キログラム」などの単位を「キロ」などに短縮して表示してもよい。その他、カナで発音された単位を、記号に変換して表示してもよい。例えば、「キロメートル」を「km」、「ヘクトパスカル」を「hPa」に変換して表示してもよい。
図2は、実施の形態1に係る判断ルールと認識および表示の例を示す図である。図2の例では、表示ルールとして、中速発話時と高速発話時の2段階のルールが規定されている。前述のとおり、発話速度が低速の場合は、すべての文字データを表示する。表示ルールでは、重要な5W1Hの文字データを表示し、原則として名詞および動詞を表示する。
例えば、中速発話時の表示ルールでは、副詞、接続詞、接続助詞、副詞的名詞、補助動詞を破棄し、単位を短縮して表示する。高速発話時の表示ルールでは、さらに、格助詞、名詞の修飾的用法と考えられる形容詞+名詞+格助詞、および助動詞を破棄する。また、2つの動詞が接続助詞を挟んで連続する場合に、後者の接続助詞+動詞を破棄する。そして、単位を記号に変換する。表示ルールは、図2の例に限らず、異なるものであってもよい。また、発話速度に応じて3段階以上に分けてもよい。
図2では、認識結果のテキスト(文字データ)の例として、「非常に強い勢力の台風19号は午後7時現在 高知県を暴風域に巻き込みながら足摺岬の南約100キロメートルの海上を時速20キロメートルの速さで北北東に向かって進んでいます」を記載している。認識処理部12は、認識して変換した文字データに単語の品詞を含む形態素を付加する。
図2では、認識結果のテキストに、それぞれの単語の品詞が付加されている例が記載されている。例えば、“非常に/副詞”、“強い/形容詞”、“勢力/名詞”、“の/格助詞”などである。“キロメートル”は名詞であるが、ここでは後に短縮または記号に変換するので、“単位”として扱う。
速度推定部11で、発話が「中速」と推定された場合は、中速発話時のルールが適用され、認識結果のテキストは、例えば、「強い勢力の台風19号は午後7時 高知県を暴風域に巻き込み 足摺岬の南100キロの海上を時速20キロの速さ 北北東に向かって進む」が表示する文字データとして生成される。動詞に続く補助動詞および助動詞を削除する場合は、動詞を終止形に変形して表示してもよい。
図2の表示内容の例は、発話が「高速」と推定された場合を示す。高速発話時には、さらに、格助詞などが破棄され、単位が記号に変換されて、例えば、「台風19号 午後7時 高知県 暴風域 巻き込み 足摺岬南100km海上 時速20km速さ 北北東向かう」が表示する文字データとして生成される。
図2の例では、認識結果のテキストが82文字、スペースを含めて83文字であるのに対して、中速発話時は60文字、スペースを含めて63文字であり、約75%の文字数である。さらに高速発話時は、44文字、スペースを含めて51文字であり、約60%の文字数である。上述の例を見てわかるように、認識結果の「非常に強い勢力の」が、中速発話時は「強い勢力の」に削減され、高速発話時には「台風」を修飾する語句が破棄されており、厳密さには欠けるかもしれないが、表示される文字データでも、話されている内容の概要を充分に把握することができる。
実施の形態1の音声認識表示装置1によれば、発話内容の重要な文字データを表示しながら、表示する文字数を少なくするので、発話の速度で読んで内容を把握できる。音声認識に、発話終了時に1回のパスで得られる結果、さらに第1パスの結果を利用する第2パスで得られる最適解を用いる場合であっても、発話速度に応じて表示する文字数の条件を変化させ、発話速度が速いほど表示する文字数を少なくするので、発話された時間で表示された文字を読んで内容を把握することができ、また、発話から表示するまでの時間遅れが延びていくことがない。
さらに、音声認識を時間順に逐次に文字データに変換することにより、発話から文字表示までの時間遅れを小さくして、発話に追随することができる。その結果、例えば災害時などにテレビ受像器が使えない場合でも、音声認識表示装置1を用いてラジオ放送の音声を音声認識表示することによって、聴覚障害者でも放送内容を把握することができる。
図3は、実施の形態1に係る音声認識表示装置の外観例を示す図である。図3の音声認識表示装置1は、マイクロフォン2およびディスプレイ3が一体に組み込まれた携帯型の装置である。音声認識表示装置1は、右下の操作ボタンを例えば、1回の短時間押下(クリック)または長押しすることによって、有効/無効の切り替え、および電源のオン/オフを操作できる。ディスプレイ3は、例えば1行表示のLCDであり、文字を右から左に向かってスクロールさせながら、発話された時間順に文字データを視認可能な文字として表示する。
音声認識表示装置1に音声を入力するのは、マイクロフォン2に限らない。テレビ受像器、ラジオ受信機または録音再生機などの音声出力端子に、信号線で接続するライン入力端子を設けて、マイクロフォン2を介さず音声信号を入力してもよい。音声データの入力は、USB、光ケーブル、無線LANその他の無線通信などを経由するディジタル信号でもよい。
音声認識表示装置1に接続するマイクロフォン2は1台に限らず、2台以上のマイクロフォン2を接続して、複数の話者の発話を認識してそれぞれの話者の発話の文字データを区別して表示してもよい。例えば、会議の参加者、またはパネルディスカッションのパネラーのそれぞれに割り当てたマイクロフォン2から音声データを取得し、それぞれの話者の音声データを音声認識して文字データに変換し、マイクロフォン2ごとに区別して文字データを視認可能な文字としてディスプレイ3に表示することができる。
文字データを表示するディスプレイ3は、1行表示に限らず、複数行にわたって表示できる画面を有するディスプレイ3でもよい。また、文字をスクロールするのではなく、表示されている文字を移動せずに、先に表示されている文字に上書きする表示方法でもよい。その際、例えば、上書きしている位置でカーソルを点滅させることによって、どの文字が最新に表示されたのか分かるようにすることが望ましい。
図4は、実施の形態1に係る音声認識表示処理の動作の例を示すフローチャートである。図4の動作の例では、最後に文字を表示してから所定の時間が経過したときに、文字の表示を消去する。音声認識表示装置1は、電源オン、または、認識表示開始によって音声認識表示処理を開始する。開始した直後は、所定時間は経過していないので(ステップS10;N)、文字データの表示を消去(ステップS11)することなく、音声入力する(ステップS12)。入力した音声データが終話(無音)である場合は(ステップS13;Y)、ステップS10に戻って、所定時間の経過判断から繰り返す。
入力した音声データが終話でなければ(ステップS13;N)、速度推定部11は発話速度を推定する(ステップS14)。同時に、認識処理部12は音声データを音声認識して文字データに変換する音声認識処理を行う(ステップS15)。入力された音声データが、音声認識できる有効な音声でなければ(ステップS16;N)、すなわち、音声データが騒音または歌詞のない音楽のような場合は、ステップS10に戻って、所定時間の経過判断から繰り返す。
入力された音声データが、音声認識できた有効な音声である場合(ステップS16;Y)、表示部13は、推定された発話速度に応じて、変換された文字データのうちの表示する文字数の条件を設定し、文字データを表示するか否か決定する(ステップS17)。表示判断は、文字データの取捨選択、強調、および、破棄した文字データの部分に区切りを入れるなどの処理を含む。
表示部13は、表示する文字データを視認可能な文字としてディスプレイ3に出力して、文字データを表示する(ステップS18)。表示部13は、文字データを出力すると同時に、所定時間の経過をカウントするタイマをリセットする。そして、ステップS10に戻って、所定時間の経過判断から繰り返す。
終話を検出したのち、有効な音声データが入力されずに所定の時間が経過した場合は(ステップS10;Y)、表示部13は、ディスプレイ3に表示していた文字データの表示を消去する(ステップS11)。
実施の形態1では、速度推定部11を備え、発話速度に応じて表示する文字数の条件を変更しているが、発話速度にかかわらず、常に所定の条件で変換された文字データのうちの表示する文字数を少なくして表示するように構成してもよい。例えば、常に図2に示す中速発話時または高速発話時の表示ルールで、変換された文字データを表示するように構成してもよい。その場合、速度推定部11は、なくてもよい。
さらに、利用者の好みに応じて、複数の段階の表示ルールを切り替えて、変換された文字データを表示してもよい。例えば、図2に示す中速発話時の表示ルールと、高速発話時の表示ルールを利用者が切り替えて、変換された文字データを表示するように構成してもよい。
実施の形態1の音声認識表示装置1によれば、所定の条件で、変換された文字データのうちの表示する文字数を少なくして表示するので、表示領域が狭いディスプレイ3であっても、発話の内容の概要を把握することができる。その結果、発話の概要をリアルタイムに伝えることができる。さらに、速度推定部11を備える場合は、発話速度に応じて表示する文字データの数が調節されるので、発話速度に合わせて、発話の概要をリアルタイムに伝えることができる。
また、文字データを表示したのち、所定の時間が経過すると表示を消去するので、会議の音声を認識表示していたような場合であっても、セキュリティ上の問題がない。
音声認識表示装置1は、専用のスタンドアロンの装置以外に、スマートフォンまたはタブレット端末のアプリケーションとして提供することができる。また、クラウドサーバに速度推定部11、認識処理部12および表示部13の機能を実現するアプリケーションを実装して、クラウドサービスとして提供することもできる。専用のスタンドアロンの装置、または、スマートフォンもしくはタブレット端末のアプリケーションのように、速度推定部11、認識処理部12および表示部13が装置のなかにあって閉じたシステムの場合は、音声データが装置の外部に送信されることがないので、プライバシー情報の流出するおそれがない。
実施の形態2.
図5は、本発明の実施の形態2に係る音声認識表示装置を示すブロック図である。実施の形態2では、音声データを第1の言語として音声認識して単語を抽出し、該抽出した単語を第2の言語に翻訳して文字データに変換する。
図5は、本発明の実施の形態2に係る音声認識表示装置を示すブロック図である。実施の形態2では、音声データを第1の言語として音声認識して単語を抽出し、該抽出した単語を第2の言語に翻訳して文字データに変換する。
実施の形態2の認識処理部12は、翻訳部16を含み、音声認識表示装置1は、第2の言語に翻訳するために参照する翻訳モデル24、言語モデル25および第2の言語の辞書データ26を備える。認識処理部12が翻訳部16を備え、表示部13は第2の言語に翻訳された文字データを扱うこと以外は、実施の形態1と同様である。
認識処理部12は、音声入力部10から入力される音声データを第1の言語として音声認識して単語を抽出する。そして、翻訳モデル24、言語モデル25および辞書データ26を参照して、抽出した単語を第2の言語に翻訳する。速度推定部11は、音声データを第1の言語として発話速度を推定する。表示部13は、認識処理部12から送られる文字データを第2の言語として、速度推定部11で推定された発話速度に応じて、表示判断および文字出力する。表示判断のルールは第2の言語について規定されている。
第1の言語は、例えば、英語、スペイン語、中国語、ドイツ語またはフランス語などであり、第2の言語は日本語である。あるいは、第1の言語は日本語であり、第2の言語は、英語、スペイン語、中国語、ドイツ語またはフランス語などである。第1の言語と第2の言語は任意であって、例えば、音声認識表示装置1のプログラムとデータを入れ替えることによって、第1の言語と第2の言語を任意に設定できる。記憶容量に余裕があれば、複数の言語からそれぞれ選択するように構成することもできる。
実施の形態2では、例えば図3に示す音声認識表示装置1で、右下の操作ボタンを例えば、短時間に2回押下(クリック)することによって、翻訳の有効/無効の切り替えを操作できる。翻訳の有効/無効を切り替えられる場合、一般的には翻訳しないときに音声認識する言語は第2の言語、例えば日本語であり、翻訳するときには第1の言語、例えば英語から第2の言語に翻訳する。
図6は、実施の形態2に係る音声認識翻訳表示処理の動作の例を示すフローチャートである。音声認識翻訳表示処理は、図4の音声認識表示処理の有効音声か否かを判断するステップS16の後に、翻訳処理を行い、表示判断および文字出力を第2の言語に翻訳された文字データについて行うことが異なる。音声認識翻訳表示処理のステップS10からステップS16は、図4と同様である。
音声認識翻訳表示処理では、入力された音声データが、音声認識できた有効な音声である場合(ステップS16;Y)、認識処理部12の翻訳部16は、音声認識して抽出した単語を第2の言語に翻訳して、第2の言語の文字データに変換する翻訳処理を行う(ステップS21)。
表示部13は、推定された発話速度に応じて、音声認識され第2の言語に翻訳された文字データのうちの表示する文字数の条件を設定し、第2の言語として文字データを表示するか否か決定する(ステップS22)。表示判断は、第2の言語として文字データの取捨選択、強調、および、破棄した文字データの部分に区切りを入れるなどの処理を含む。
表示部13は、表示する第2の言語の文字データを視認可能な文字としてディスプレイ3に出力して、文字データを表示する(ステップS23)。第1の言語を第2の言語に翻訳する場合、第2の言語の単語の標準的な順序は、第1の言語の単語の順序から変化することがある。標準的な第2の言語の語順で表示するためには、先に表示する文字が出現するまで待たなければならない。先に表示する文字が出現するまで待っていては、表示が遅れるので、表示部13では、内容に誤りがなく理解可能な範囲で、第1の言語における発話された時間順に近い語順で表示してもよい。
表示部13は、文字データを出力すると同時に、所定時間の経過をカウントするタイマをリセットする。そして、ステップS10に戻って、所定時間の経過判断から繰り返す。
実施の形態2の音声認識表示装置1では、入力される音声データを第1の言語として発話速度を推定し、発話速度に応じて、第2の言語に翻訳した文字データのうちの表示する文字数の条件を設定して、第2の言語の文字データを表示する。その結果、異なる言語で発話された内容の概要をリアルタイムに把握することができる。
実施の形態2の音声認識表示装置1によれば、会議などで母語が異なる人の発話を聞いたり、外国で公共機関のアナウンスまたはテレビ放送を視聴するときに、発話の内容の概要をリアルタイムに把握することができる。
実施の形態2においても、実施の形態1と同様、発話速度にかかわらず、常に所定の条件で変換された文字データのうちの表示する文字数を少なくして表示するように構成してもよい。また、利用者の好みに応じて、複数の段階の表示ルールを切り替えて、変換された文字データを表示するように構成してもよい。
図7は、実施の形態に係る音声認識表示装置のハードウェア構成の一例を示すブロック図である。音声認識表示装置1は、図7に示すように、制御部41、主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47を備える。主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47はいずれも内部バス40を介して制御部41に接続されている。
制御部41はCPU(Central Processing Unit)等から構成され、外部記憶部43に記憶されている制御プログラム50に従って、音声認識表示装置1の音声入力部10、速度推定部11、認識処理部12および表示部13の各処理を実行する。
主記憶部42はRAM(Random-Access Memory)等から構成され、外部記憶部43に記憶されている制御プログラム50をロードし、制御部41の作業領域として用いられる。
外部記憶部43は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、音声認識表示装置1の処理を制御部41に行わせるためのプログラムならびに音響モデル21、言語モデル22および辞書データ23の各データを予め記憶し、また、制御部41の指示に従って、このプログラムが記憶するデータを制御部41に供給し、制御部41から供給されたデータを記憶する。
操作部44はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス40に接続するインタフェース装置から構成されている。操作部44を介して、音声認識して変換された文字データの記憶、記憶された文字データの表示または消去、あるいは、翻訳対象の言語の選択指示などが入力され、制御部41に供給される。
表示部45は、LCD(Liquid Crystal Display)または有機ELディスプレイなどから構成され、音声認識して変換された文字データを表示する。
入出力部46は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部46は、マイクロフォン2を接続して音声信号を入力する。また、音声を出力する機器の音声出力端子に接続し、音声信号または音声データを入力する。
送受信部47は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェースから構成されている。送受信部47は、ネットワークを介して、例えば、辞書データ23の更新、または、翻訳する対象の言語の翻訳プログラムのダウンロードを行う。
図1に示す音声認識表示装置1の音声入力部10、速度推定部11、認識処理部12および表示部13の処理は、制御プログラム50が、制御部41、主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47などを資源として用いて処理することによって実行する。
なお、各実施の形態で説明した音声認識表示装置1の構成は一例であり、任意に変更および修正が可能である。音声認識表示装置1の構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。例えば、実施の形態で説明したように、スマートフォンまたはタブレット端末を音声認識表示装置1として用いてもよい。また、ネットワーク上に音声認識表示装置1を設置して、ネットワークを介して音声認識表示装置1の機能を提供してもよい。
その他、前記のハードウェア構成やフローチャートは一例であり、任意に変更および修正が可能である。
音声入力部10、速度推定部11、認識処理部12、表示部13、音響モデル21、言語モデル22、および、辞書データ23等から構成される音声認識表示装置1の音声認識表示処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体(USBメモリ、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する音声認識表示装置1を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで音声認識表示装置1を構成してもよい。
また、音声認識表示装置1を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
1 音声認識表示装置
2 マイクロフォン
3 ディスプレイ
10 音声入力部
11 速度推定部
12 認識処理部
13 表示部
14 表示判断部
15 文字出力部
16 翻訳部
21 音響モデル
22 言語モデル
23 辞書データ
24 翻訳モデル
25 言語モデル
26 辞書データ
2 マイクロフォン
3 ディスプレイ
10 音声入力部
11 速度推定部
12 認識処理部
13 表示部
14 表示判断部
15 文字出力部
16 翻訳部
21 音響モデル
22 言語モデル
23 辞書データ
24 翻訳モデル
25 言語モデル
26 辞書データ
Claims (8)
- 入力される音声を、発話された時間順の音声データとして取得する音声入力部と、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部と、
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部と、
を備え、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する音声認識表示装置。 - 前記認識処理部は、前記音声入力部で取得した音声データを第1の言語として音声認識して単語を抽出し、該抽出した単語を第2の言語に翻訳して前記文字データに変換する、請求項1に記載の音声認識表示装置。
- 前記入力される音声の発話速度を推定する速度推定部をさらに備え、
前記表示部は、前記速度推定部で推定された発話速度に応じて、前記変換された文字データのうちの表示する文字数の条件を変える、請求項1または2に記載の音声認識表示装置。 - 前記表示部は、前記発話速度が速いほど、変換された文字データのうち、文字数を少なく表示する、請求項3に記載の音声認識表示装置。
- 前記認識処理部は、前記変換した文字データに単語ごとの品詞の情報を付加して前記表示部に送り、
前記表示部は、変換された文字データのうち、前記発話速度に応じて特定の品詞の文字データを表示する、
請求項3または4に記載の音声認識表示装置。 - 前記表示部は、表示してから所定の時間を経過した文字データの表示を消去する、請求項1から5のいずれか1項に記載の音声認識表示装置。
- 入力された音声を音声認識して文字を表示する音声認識表示装置が行う音声認識表示方法であって、
入力される音声を、発話された時間順の音声データとして取得する音声入力ステップと、
前記音声入力ステップで取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理ステップと、
前記認識処理ステップで変換された文字データの全部または一部を、視認可能な文字として表示する表示ステップと、
を備え、
前記表示ステップでは、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示する音声認識表示方法。 - コンピュータを、
入力される音声を、発話された時間順の音声データとして取得する音声入力部、
前記音声入力部で取得した音声データを音声認識して、前記発話された時間順に文字データに変換する認識処理部、および
前記認識処理部で変換された文字データの全部または一部を、視認可能な文字として表示する表示部、
として機能させ、
前記表示部は、所定の条件で、前記変換された文字データのうちの表示する文字数を少なくして表示するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020004809A JP2021110911A (ja) | 2020-01-16 | 2020-01-16 | 音声認識表示装置、音声認識表示方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020004809A JP2021110911A (ja) | 2020-01-16 | 2020-01-16 | 音声認識表示装置、音声認識表示方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021110911A true JP2021110911A (ja) | 2021-08-02 |
Family
ID=77060507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020004809A Pending JP2021110911A (ja) | 2020-01-16 | 2020-01-16 | 音声認識表示装置、音声認識表示方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021110911A (ja) |
-
2020
- 2020-01-16 JP JP2020004809A patent/JP2021110911A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
CN108615527B (zh) | 基于同声传译的数据处理方法、装置和存储介质 | |
CN100424632C (zh) | 用于高级交互接口的语义对象同步理解 | |
RU2491617C2 (ru) | Способ и устройство для реализации распределенных мультимодальных приложений | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
CN110493123B (zh) | 即时通讯方法、装置、设备及存储介质 | |
JPWO2008126355A1 (ja) | キーワード抽出装置 | |
JP2010085536A (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
JP2005513619A (ja) | リアルタイム翻訳機および多数の口語言語のリアルタイム翻訳を行う方法 | |
CN108073572B (zh) | 信息处理方法及其装置、同声翻译系统 | |
WO2023029904A1 (zh) | 文本内容匹配方法、装置、电子设备及存储介质 | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN106980640B (zh) | 针对照片的交互方法、设备和计算机可读存储介质 | |
JP2019215449A (ja) | 会話補助装置、会話補助方法及びプログラム | |
JP2009122989A (ja) | 翻訳装置 | |
JP2021110911A (ja) | 音声認識表示装置、音声認識表示方法およびプログラム | |
WO2022213943A1 (zh) | 消息发送方法、消息发送装置、电子设备和存储介质 | |
CN112836476B (zh) | 一种纪要生成方法、装置、设备及介质 | |
TWM515143U (zh) | 語音翻譯系統及翻譯處理裝置 | |
JP6310950B2 (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
JP7335460B2 (ja) | テキストエコー消去 | |
WO2017122657A1 (ja) | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム | |
JP6401488B2 (ja) | 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム |