JP6728116B2

JP6728116B2 - 音声認識装置、音声認識方法およびプログラム

Info

Publication number: JP6728116B2
Application number: JP2017180965A
Authority: JP
Inventors: 布目　光生; 光生布目; 山本　雅裕; 雅裕山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2020-07-22
Anticipated expiration: 2037-09-21
Also published as: JP2019056791A; US20190088258A1; US11176943B2

Description

本発明の実施形態は、音声認識装置、音声認識方法およびプログラムに関する。

近年、音声認識装置は、利用可能な計算機リソースの拡大に伴い、大規模なコーパスおよび複雑で膨大なモデルを取り扱うことができるようになった。これにより、音声認識装置は、従来では難しかった話し言葉および連続する発話等も、実用的な精度で、リアルタイムに認識することができるようになった。このようなリアルタイム音声認識装置は、対話システム等の人と機械とのインターフェースに適用することができる。また、リアルタイム音声認識装置は、音声信号の書き起しおよび要約を行う自動認識装置にも適用することができる。

さらに、リアルタイム音声認識装置は、聴覚障碍者の理解支援のための、いわゆる「情報保障ツール」に適用することもできる。また、さらに、リアルタイム音声認識装置は、セミナーでの講演または教育現場または講義等において、受講者に情報を提供するための情報提供装置に適用することもできる。

このように、リアルタイム音声認識装置は、様々な場面に適用される。しかし、リアルタイム音声認識装置は、適用される場面によって、要求される精度および内容が異なる。リアルタイム音声認識装置は、例えば音声信号の書き起しおよび要約等に適用される場合には、話者の話し方の特徴（例えば、発話のボリューム、発話速度等）の情報を出力する必要が少ない。しかし、リアルタイム音声認識装置は、例えば、聴覚障碍者の理解支援またはセミナー等の受講者に情報保障をする場合には、臨場感を伝えるため、話者の状態および感情等の情報も、テキストとともに出力することが望ましい。

しかしながら、従来、リアルタイム音声認識装置は、話者の状態および感情等のテキストに含まれない情報を適切に出力することが困難であった。

特開２００９−１８７３４９号公報

発明が解決しようとする課題は、テキストとともに、テキストに含まれない情報を適切に出力することにある。

実施形態に係る音声認識装置は、認識部と、ベクトル生成部と、比較部と、出力制御部とを備える。前記認識部は、対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する。前記ベクトル生成部は、前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成する。前記比較部は、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する。前記出力制御部は、前記テキストを出力する。さらに、前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する。

実施形態に係る音声認識装置の構成を示す図。音声認識装置の処理の流れを示すフローチャート。資料データの取得処理（Ｓ１１）の処理の流れを示すフローチャート。認識処理（Ｓ１５）の処理の流れを示すフローチャート。比較処理（Ｓ１６）の処理の流れを示すフローチャート。出力制御処理（Ｓ１７）の処理の流れを示すフローチャート。テキスト、メタ情報および資料データの関連領域の表示例を示す図。変形例に係る音声認識装置の構成を示す図。音声認識装置のハードウェアブロック図。

以下、図面を参照しながら実施形態について詳細に説明する。本実施形態に係る音声認識装置１０は、対象話者が発話した音声を表す音声信号を認識し、認識して得られたテキストを出力する。さらに、音声認識装置１０は、メタ情報を、必要に応じてテキストに付加して出力する。また、さらに、音声認識装置１０は、必要に応じて、予め取得した資料データにおける関連領域をテキストに付加して出力する。

なお、メタ情報は、例えば、音声信号に含まれる情報であって、テキストに含まれない情報を表す。例えば、メタ情報は、音声信号のボリューム、発話の速度、音声信号から検出された対象話者の感情、フィラー、吃音、言い淀み、言い怠け、および、沈黙期間等を表す情報である。

資料データは、例えば、テキストを含むデータである。資料データは、画像または動画像が含まれていてもよい。また、資料データは、コンピュータプログラムが記述されたデータであってもよい。また、資料データは、記録媒体に格納されたデータであっても、ネットワーク上のサーバに格納されたデータであってもよい。また、資料データは、音声認識装置１０により取扱い可能であれば、どのようなファイル形式であってもよい。

音声認識装置１０は、例えば、人と人との対話を仲介する対話システムに適用される。また、音声認識装置１０は、例えば、対象話者が発話した音声を表す音声信号の内容または要約をテキストにして記録するための装置に適用されてもよい。また、音声認識装置１０は、例えば、対象話者の発話内容を聴覚障碍者に知らせるための情報保障ツールに適用されてもよい。また、音声認識装置１０は、例えば、セミナー等の講師等の映像および音声を受講者に提供するための情報提供装置に適用されてもよい。

図１は、実施形態に係る音声認識装置１０の構成を示す図である。音声認識装置１０は、資料取得部２２と、解析部２４と、資料記憶部２６と、ベクトル取得部２８と、ベクトル記憶部３０と、設定情報取得部３２と、音声取得部３４と、特徴量算出部３６と、認識部３８と、ベクトル生成部４０と、比較部４２と、出力制御部４４とを備える。

資料取得部２２は、予め、対象話者が発話する音声に関する資料データを取得する。例えば、資料取得部２２は、対象話者が予め準備した資料および予稿集等を電子化したデータを記録媒体またはネットワークを介してサーバ等から読み込む。また、資料取得部２２は、対象話者が発話する音声に関連する情報を、インターネット等を検索してサーバから取得してもよい。

解析部２４は、取得した資料データの構造を解析する。解析部２４は、解析結果に応じて、資料データを、テキストに付加して出力可能な複数の領域に分割する。解析部２４は、複数の領域のそれぞれについて、その内容を表すテキストを抽出する。解析部２４は、複数の領域のそれぞれについて、資料データにおける位置（ファイル名、ページ番号、行番号および見出しか本文かの識別情報等）を特定する。解析部２４は、複数の領域のそれぞれについて、検索用のインデックスを生成する。そして、解析部２４は、複数の領域のそれぞれについて、テキスト、位置およびインデックスを含む領域情報を生成する。

資料記憶部２６は、資料取得部２２により取得された資料データ、および、解析部２４により生成された複数の領域のそれぞれの領域情報を記憶する。

ベクトル取得部２８は、他の装置で生成された、または、音声認識装置１０により生成された基準プレゼンテーションベクトルを、予め取得する。ベクトル記憶部３０は、取得した基準プレゼンテーションベクトルを記憶する。

基準プレゼンテーションベクトルは、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。例えば、音声認識装置１０が、セミナーの講師の映像および音声を受講者に提供するための情報提供装置に適用される場合、基準プレゼンテーションベクトルは、経験の多い講師の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。

基準プレゼンテーションベクトルに含まれる複数のパラメータのそれぞれは、基準話者が発話した音声信号、基準話者が発話した音声信号を認識して得られたテキストまたはメタ情報に基づき、予め定められた処理により算出される値である。基準プレゼンテーションベクトルには、予め定められた形式で、予め定められた種類の複数のパラメータが含まれている。

例えば、複数のパラメータは、基準話者が発話した音声信号の音響特徴量を解析することにより得られる情報を含む。例えば、複数のパラメータは、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチ（音高）およびメル周波数ケプストラム係数の少なくとも１つを含む。また、複数のパラメータは、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数の少なくとも１つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも１つを含んでもよい。

また、例えば、複数のパラメータは、基準話者が発話した音声信号を認識して得られたテキストまたはメタ情報を解析することにより得られる情報を含む。例えば、複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも１つの発生割合または発生パターンを表す値を含む。また、複数のパラメータは、意味の通ったわかりやすい文章、フィラー、吃音、未知語、言い淀み、言い怠け、および、擬音語の少なくとも１つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも１つを含んでもよい。

設定情報取得部３２は、音声認識装置１０を使用するユーザによる操作に応じて、設定情報を取得する。設定情報は、テキストに対してメタ情報を付加するか否か、および、テキストに対して資料データの関連領域を付加するか否かを決定するための情報である。音声認識装置１０は、音声認識の処理に先だって設定情報を受け付ける。また、音声認識装置１０は、音声認識の処理中に、設定情報の変更を受け付けてもよい。また、音声認識装置１０は、例えばスライダーバーのようなユーザインターフェイスにより、メタ情報および関連領域の発生割合をユーザに変更させてもよい。

音声取得部３４は、対象話者が発話した音声を表す音声信号を取得する。音声取得部３４は、例えば集音装置により検出された音声信号を取得する。

特徴量算出部３６は、音響フレーム毎に、音声信号を解析して音声の特徴を表す複数の音響特徴量を算出する。音響フレームは、音響特徴量を算出するための音声信号の区間である。音響フレームは、中心時刻が所定間隔毎にずれるように設定される。例えば、特徴量算出部３６は、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数等を算出する。

認識部３８は、特徴量算出部３６により算出された複数の音響特徴量に基づき音声信号を認識して、テキストおよびメタ情報を生成する。例えば、認識部３８は、音響モデルおよび言語モデルを用いて探索等を行い、テキスト列およびメタ情報列を生成する。

ベクトル生成部４０は、特徴量算出部３６により算出された複数の音響特徴量、認識部３８により生成されたテキストおよびメタ情報、および、認識部３８の認識処理中に生成された各種の情報を取得する。ベクトル生成部４０は、これらの情報を解析して、対象プレゼンテーションベクトルを生成する。

対象プレゼンテーションベクトルは、対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。例えば、音声認識装置１０が、セミナーの講師の映像および音声を受講者に提供するための情報提供装置に適用される場合、対象プレゼンテーションベクトルは、そのセミナーの講師の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。

対象プレゼンテーションベクトルに含まれる複数のパラメータのそれぞれは、基準プレゼンテーションベクトルに含まれる複数のパラメータと同一の処理により算出される値である。すなわち、対象プレゼンテーションベクトルに含まれる複数のパラメータのそれぞれは、対象話者が発話した音声信号、対象話者が発話した音声信号を認識して得られたテキストまたはメタ情報に基づき、基準プレゼンテーションベクトルと同一の演算により算出される。そして、対象プレゼンテーションベクトルには、このように算出された複数のパラメータが、基準プレゼンテーションベクトルと同一の形式で含まれている。

例えば、ベクトル生成部４０は、複数のパラメータとして、対象話者が発話した音声信号の音響特徴量を解析することにより得られる情報を含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部４０は、複数のパラメータとして、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数の少なくとも１つを含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部４０は、複数のパラメータとして、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数の少なくとも１つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも１つを含む対象プレゼンテーションベクトルを生成してもよい。

また、例えば、ベクトル生成部４０は、複数のパラメータとして、対象話者が発話した音声信号を認識して得られたテキストまたはメタ情報を解析することにより得られる情報を含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部４０は、複数のパラメータとして、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも１つの発生割合または発生パターンを表す値を含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部４０は、複数のパラメータとして、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも１つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも１つを含む対象プレゼンテーションベクトルを生成してもよい。

比較部４２は、ベクトル記憶部３０に記憶された基準プレゼンテーションベクトルと、ベクトル生成部４０により生成された対象プレゼンテーションベクトルとを取得する。そして、比較部４２は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとの類似度を算出する。

例えば、比較部４２は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとのベクトル間距離を算出し、算出したベクトル間距離を類似度としてもよい。例えば、比較部４２は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとが一致している場合には０となり、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの間のベクトル間距離が大きくなるほど大きくなる値を、類似度としてもよい。

出力制御部４４は、認識部３８からテキストおよびメタ情報を取得する。また、出力制御部４４は、比較部４２から類似度を取得し、設定情報取得部３２から設定情報を取得する。

出力制御部４４は、テキストを、フレーズ毎に分割して出力する。フレーズは、テキストを出力するための単位である。フレーズは、例えば、センテンスであってもよいし、話者が連続して話したまとまった複数個のセンテンスであってもよい。なお、フレーズには、テキストが空白の場合（例えば、無言）があってもよい。

出力制御部４４は、フレーズ毎に、類似度および設定情報に基づき、メタ情報を出力するか否かを判断する。そして、出力制御部４４は、メタ情報を出力すると判断した場合、対応するテキストに付加してメタ情報を出力する。すなわち、出力制御部４４は、フレーズ毎に、類似度および設定情報に基づき、テキストに付加してメタ情報を出力するか否かを切り換える。

なお、設定情報は、メタ情報をテキストに付加するか否かを類似度に基づき切り替えるための第１制御モデルであってもよい。この場合、出力制御部４４は、類似度および第１制御モデルに基づき、メタ情報をテキストに付加するか否かを切り換える。第１制御モデルは、例えば、明示的な条件判断を行って、メタ情報を出力するか否かを判断するモデルであってもよい。また、第１制御モデルは、確率的にメタ情報を出力するか否かを定める確率モデルであってもよい。

また、例えば、設定情報は、第１閾値を含んでもよい。この場合、出力制御部４４は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第１閾値よりも類似している場合には、メタ情報を出力しない。また、出力制御部４４は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第１閾値よりも類似していない場合には、メタ情報をテキストに付加して出力する。

出力制御部４４は、フレーズ毎に、類似度および設定情報に基づき、資料データを出力するか否かを判断する。出力制御部４４は、資料データを出力すると判断した場合、資料記憶部２６にアクセスして、資料データにおける対応するテキストに関連する関連領域を特定する。例えば、出力制御部４４は、テキストの主要用語（例えば名詞）を抽出する。続いて、出力制御部４４は、資料記憶部２６に記憶された複数の領域情報を検索して、主要用語を含む領域情報を抽出する。続いて、出力制御部４４は、抽出した領域情報に含まれる位置に基づき、資料データにおける関連領域を特定する。続いて、出力制御部４４は、特定した関連領域を表すデータを資料記憶部２６から取得する。

そして、出力制御部４４は、資料データを出力すると判断した場合、取得した関連領域を表すデータを、テキストに付加して出力する。すなわち、出力制御部４４は、フレーズ毎に、類似度および設定情報に基づき、テキストに付加して資料データを出力するか否かを切り換える。

なお、設定情報は、資料データをテキストに付加するか否かを類似度に基づき切り替えるための第２制御モデルであってもよい。この場合、出力制御部４４は、類似度および第２制御モデルに基づき、資料データ（関連領域）をテキストに付加するか否かを切り換える。第２制御モデルは、例えば、明示的な条件判断を行って、資料データ（関連領域）を出力するか否かを判断するモデルであってもよい。また、第２制御モデルは、確率的に資料データ（関連領域）を出力するか否かを定める確率モデルであってもよい。

また、例えば、設定情報は、第２閾値を含んでもよい。この場合、出力制御部４４は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第２閾値よりも類似している場合には、資料データ（関連領域）を出力しない。また、出力制御部４４は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第２閾値よりも類似していない場合には、資料データ（関連領域）をテキストに付加して出力する。

本実施形態においては、出力制御部４４は、表示部に対してテキスト、メタ情報および資料データ（関連領域）を表示させる。例えば、メタ情報を出力するか否かを切り替える制御とともに、出力制御部４４は、メタ情報の内容に応じて、テキストに対するメタ情報の付加位置、メタ情報の色、フォントおよびサイズの少なくとも１つ、メタ情報を表すアイコン、または、メタ情報を表すオブジェクトを変更してもよい。また、出力制御部４４は、メタ情報の内容に応じて、テキストの表示速度および滞留時間の少なくとも一方を変更してもよい。

図２は、音声認識装置１０の処理の流れを示すフローチャートである。まず、Ｓ１１において、音声認識装置１０は、資料データの取得処理をする。資料データの取得処理の詳細については、図３を参照してさらに説明する。

続いて、Ｓ１２において、音声認識装置１０は、他の装置で生成された、または、音声認識装置１０により生成された基準プレゼンテーションベクトルを取得する。そして、音声認識装置１０は、取得した基準プレゼンテーションベクトルをベクトル記憶部３０に格納する。

続いて、Ｓ１３において、音声認識装置１０は、ユーザによる操作に応じて設定情報を取得する。続いて、Ｓ１４において、音声認識装置１０は、ユーザによる開始操作を受け付ける。音声認識装置１０は、開始操作を受け付けた後、Ｓ１５、Ｓ１６およびＳ１７の処理を開始する。

Ｓ１５において、音声認識装置１０は、認識処理を実行する。認識処理の詳細については、図４を参照してさらに説明する。

Ｓ１６において、音声認識装置１０は、比較処理を実行する。比較処理の詳細については、図５を参照してさらに説明する。

Ｓ１７において、音声認識装置１０は、出力制御処理を実行する。出力制御処理の詳細については、図６を参照してさらに説明する。

そして、音声認識装置１０は、ユーザによる終了操作を受け付けると、Ｓ１５、Ｓ１６およびＳ１７の処理を終了して、図２のフローを終了する。

図３は、資料データの取得処理（Ｓ１１）の詳細な処理の流れを示すフローチャートである。音声認識装置１０は、Ｓ１１の資料データの取得処理において、以下のＳ２１からＳ２５の処理を実行する。

Ｓ２１において、音声認識装置１０は、対象話者が準備した資料および予稿集等を電子化したデータ（ユーザデータ）を取得する。続いて、Ｓ２２において、音声認識装置１０は、ユーザデータ以外の対象話者が発話する音声に関連する情報（外部データ）を、インターネット等を検索してサーバから取得する。

続いて、Ｓ２３において、音声認識装置１０は、取得した資料データ（ユーザデータおよび外部データ）の構造を解析する。音声認識装置１０は、解析結果に応じて、資料データを、テキストに付加して出力可能な複数の領域に分割する。音声認識装置１０は、複数の領域のそれぞれについて、その内容を表すテキストを抽出する。

続いて、Ｓ２４において、音声認識装置１０は、複数の領域のそれぞれについて、資料データにおける位置（ファイル名、ページ番号、行番号および見出しか本文かの識別情報等）を特定する。そして、音声認識装置１０は、複数の領域のそれぞれについて、検索用のインデックスを生成する。

続いて、Ｓ２５において、音声認識装置１０は、複数の領域のそれぞれについて、テキスト、位置およびインデックスを含む領域情報を生成する。そして、音声認識装置１０は、資料データ、および、解析部２４により生成された複数の領域のそれぞれの領域情報を資料記憶部２６に格納する。音声認識装置１０は、Ｓ２５の処理を終えると、図３のフローを終了する。

図４は、認識処理（Ｓ１５）の詳細な処理の流れを示すフローチャートである。音声認識装置１０は、Ｓ１５の認識処理において、以下のＳ３１からＳ４４の処理を実行する。

Ｓ３１とＳ３４との間のループ処理において、音声認識装置１０は、Ｓ３２およびＳ３３の処理を、音響フレーム毎に実行する。音声認識装置１０は、ユーザにより終了操作がされるまで、Ｓ３１とＳ３４との間のループ処理を実行する。Ｓ３２において、音声認識装置１０は、対象話者が発話した音声を表す音声信号を取得する。Ｓ３３において、音声認識装置１０は、音声信号を解析して音声の特徴を表す複数の音響特徴量を算出する。例えば、音声認識装置１０は、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数等を算出する。

続いて、Ｓ３５とＳ４１との間のループ処理において、音声認識装置１０は、Ｓ３６〜Ｓ４０までの処理を、フレーズ毎に実行する。フレーズは、テキストを出力するための単位であり、１個のセンテンスであってもよいし、話者が連続して話したまとまった複数個のセンテンスであってもよい。音声認識装置１０は、ユーザにより終了操作がされるまで、Ｓ３５とＳ４１との間のループ処理を実行する。

Ｓ３６において、音声認識装置１０は、Ｓ３３で算出された複数の音響特徴量に基づき音声信号を認識して、テキストを生成する。続いて、Ｓ３７において、音声認識装置１０は、Ｓ３３で算出された複数の音響特徴量に基づき、音声信号に含まれるテキスト以外の情報を抽出する。音声認識装置１０は、例えば、対象話者の感情、フィラー、吃音、言い淀み、言い怠け、および、沈黙期間等を抽出する。

続いて、Ｓ３８において、音声認識装置１０は、Ｓ３６で生成されたテキストの構文解析を行う。続いて、Ｓ３９において、音声認識装置１０は、Ｓ３６で生成されたテキストに対して、未知語の抽出処理を行う。

続いて、Ｓ４０において、音声認識装置１０は、メタ情報を生成する。例えば、音声認識装置１０は、音声信号のボリューム、発話の速度、音声信号から検出された対象話者の感情、フィラー、吃音、言い淀み、言い怠け、および、沈黙期間等の少なくとも１つを含むメタ情報を生成する。

続いて、Ｓ４２とＳ４４との間のループ処理において、音声認識装置１０は、Ｓ４２の処理をフレーズ毎に実行する。音声認識装置１０は、ユーザにより終了操作がされるまで、Ｓ４２とＳ４４との間のループ処理を実行する。

Ｓ４３において、音声認識装置１０は、Ｓ３３の処理で抽出された複数の音響特徴量、および、Ｓ３６〜Ｓ４０の処理により生成されたテキスト、メタ情報およびその他の各種の情報を取得する。音声認識装置１０は、これらの情報を解析して、対象プレゼンテーションベクトルを生成する。

そして、音声認識装置１０は、ユーザにより終了操作がされると、図４のフローを終了する。

図５は、比較処理（Ｓ１６）の詳細な処理の流れを示すフローチャートである。音声認識装置１０は、Ｓ１６の比較処理において、以下のＳ５１からＳ５５の処理を実行する。

Ｓ５１とＳ５５との間のループ処理において、音声認識装置１０は、Ｓ５２、Ｓ５３およびＳ５４の処理をフレーズ毎に実行する。音声認識装置１０は、ユーザにより終了操作がされるまで、Ｓ５１とＳ５５との間のループ処理を実行する。

Ｓ５２において、音声認識装置１０は、基準プレゼンテーションベクトルをベクトル記憶部３０から読み出して取得する。続いて、Ｓ５３において、音声認識装置１０は、Ｓ４３で生成した対象プレゼンテーションベクトルを取得する。

続いて、Ｓ５４において、音声認識装置１０は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの類似度を算出する。例えば、音声認識装置１０は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとのベクトル間距離を算出し、算出したベクトル間距離を類似度とする。例えば、音声認識装置１０は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとが一致している場合には０となり、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの間のベクトル間距離が大きくなるほど大きくなる値を、類似度として算出する。

そして、音声認識装置１０は、ユーザにより終了操作がされると、図５のフローを終了する。

図６は、出力制御処理（Ｓ１７）の詳細な処理の流れを示すフローチャートである。音声認識装置１０は、Ｓ１７の出力制御処理において、以下のＳ６１からＳ７２の処理を実行する。

Ｓ６１とＳ７２との間のループ処理において、音声認識装置１０は、Ｓ６２〜Ｓ７１の処理を、フレーズ毎に実行する。音声認識装置１０は、ユーザにより終了操作がされるまで、Ｓ６１とＳ７２との間のループ処理を実行する。

Ｓ６２において、音声認識装置１０は、類似度の算出処理（Ｓ５４）において算出された類似度を取得する。なお、本例において、音声認識装置１０は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが一致している場合には０となり、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの間のベクトル間距離が大きくなるほど大きくなる値を、類似度として取得する。

続いて、Ｓ６３において、音声認識装置１０は、設定情報を取得する。本例においては、音声認識装置１０は、第１閾値（α）および第２閾値（β）を取得する。第１閾値（α）は、０より大きい値であって、第２閾値（β）より小さい。なお、音声認識装置１０は、音声認識の処理中に、ユーザによる設定情報の変更を受け付けてもよい。例えば、音声認識装置１０は、例えばスライダーバーのようなユーザインターフェイスにより、第１閾値（α）および第２閾値（β）の値の変更を受け付ける。

続いて、Ｓ６４において、音声認識装置１０は、類似度が第１閾値（α）未満であるか否かを判断する。類似度が第１閾値（α）未満である場合（Ｓ６４のＹｅｓ）、Ｓ６５において、音声認識装置１０は、対応するテキストを出力する。すなわち、音声認識装置１０は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第１閾値（α）よりも類似している場合には、メタ情報および資料データの関連領域を付加せずに、テキストを出力する。そして、Ｓ６５の処理を終えると、音声認識装置１０は、処理をＳ６２に戻し、次のフレーズについて処理を進める。

類似度が第１閾値（α）未満ではない場合（Ｓ６４のＮｏ）、音声認識装置１０は、処理をＳ６６に進める。Ｓ６６において、音声認識装置１０は、類似度が第２閾値（β）未満であるか否かを判断する。

類似度が第２閾値（β）未満である場合（Ｓ６６のＹｅｓ）、Ｓ６７において、音声認識装置１０は、対応するテキストに対応するメタ情報を付加して出力する。すなわち、音声認識装置１０は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第２閾値（β）よりも類似している場合には、資料データの関連領域を付加せずに、テキストにメタ情報を付加して出力する。そして、Ｓ６７の処理を終えると、音声認識装置１０は、処理をＳ６２に戻し、次のフレーズについて処理を進める。

類似度が第２閾値（β）未満ではない場合（Ｓ６６のＮｏ）、音声認識装置１０は、処理をＳ６８に進める。Ｓ６８において、音声認識装置１０は、対応するテキストから検索用ワードを抽出する。例えば、音声認識装置１０は、対応するテキストの主要用語（例えば名詞）を、検索用ワードとして抽出する。

続いて、Ｓ６９において、音声認識装置１０は、資料記憶部２６に記憶された複数の領域情報を検索して、検索用ワードに一致または近似するテキストを含む関連領域が、資料データ内に存在するか否かを判断する。関連領域が資料データに存在する場合（Ｓ６９のＹｅｓ）、音声認識装置１０は、処理をＳ７０に進める。関連領域が資料データに存在しない場合（Ｓ６９のＮｏ）、音声認識装置１０は、処理をＳ７１に進める。

Ｓ７０において、音声認識装置１０は、対応するテキストに、対応するメタ情報および対応する関連情報を付加して出力する。すなわち、音声認識装置１０は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第２閾値（β）以上類似していない場合には、テキストに、メタ情報および資料データの関連領域を付加して出力する。そして、Ｓ７０の処理を終えると、音声認識装置１０は、処理をＳ６２に戻し、次のフレーズについて処理を進める。

Ｓ７１において、音声認識装置１０は、対応するテキストに対応するメタ情報を付加して出力する。すなわち、音声認識装置１０は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第２閾値（β）以上類似していない場合であっても、資料データの関連領域が存在しない場合には、資料データの関連領域を付加せずに、テキストにメタ情報を付加して出力する。そして、Ｓ７１の処理を終えると、音声認識装置１０は、処理をＳ６２に戻し、次のフレーズについて処理を進める。

そして、音声認識装置１０は、ユーザにより終了操作がされると、図６のフローを終了する。

図７は、音声認識装置１０から出力されるテキスト、メタ情報および資料データの関連領域の表示例を示す図である。音声認識装置１０は、フレーズ毎に、対象話者が発話した音声を表す音声信号を認識したテキストを表示部に表示する。図７の例においては、音声認識装置１０は、「これから、景気と商品の関係にいて説明します」「家庭の必需品は、売れ行きが、景気の影響をうけにくい商品です」「自動車は、売れ行きが、景気の影響をｘｘｘｘｘｘｘｘｘｘ商品です」「現在の景気は、……非常に悪い」「このため、えー、ｘｘｘｘｘｘｘｘｘｘを売れば儲かるはずです」というテキストを表示している。なお、「ｘ」は、認識ができなかった文字または認識を誤ったため不明な文字を表す。これにより、音声認識装置１０は、対象話者の音声を聴くことが困難なユーザ等に対して、対象話者の音声の内容を伝えることができる。

さらに、音声認識装置１０は、テキストに付加してメタ情報を表示する。図７の例においては、音声認識装置１０は、「大きな声」「早口のため不明」「沈黙」「小声のため不明」というメタ情報を表示している。これにより、音声認識装置１０は、テキストでは伝わらないような対象話者の状態、感情および個性、並びに、プレゼンテーションの臨場感等を、対象話者の音声を聴くことが困難なユーザ等に対して伝えることができる。

さらに、音声認識装置１０は、テキストに付加して資料データの関連領域を表示する。図７の例においては、音声認識装置１０は、四角で囲まれた情報（「売れ行きが景気の影響を受けやすい商品の一覧」）を、資料データの関連領域として表示する。これにより、音声認識装置１０は、認識が困難なためテキストおよびメタ情報でも内容が伝わらない情報および追加の情報等を、ユーザに対して伝えることができる。

また、さらに、音声認識装置１０は、基準話者の発話によるプレゼンテーションの特徴を表す複数の種類のパラメータを含む基準プレゼンテーションベクトルと、対象話者の発話によるプレゼンテーションの特徴を表す複数の種類のパラメータを含む対象プレゼンテーションベクトルとを比較して、メタ情報の表示割合および資料データの関連領域の表示割合を制御する。具体的には、音声認識装置１０は、対象プレゼンテーションベクトルが基準プレゼンテーションベクトルに近い場合には、メタ情報および関連情報の表示割合を小さくし、遠い場合には、メタ情報および関連情報の表示割合を大きくするように制御する。これにより、音声認識装置１０は、対象話者が、例えば手本となる基準話者に近いプレゼンテーションをしている場合には、メタ情報および関連領域の表示割合を小さくすることができる。また、音声認識装置１０は、対象話者が、基準話者から大きく異なるプレゼンテーションをしている場合には、メタ情報および関連領域の表示割合を大きくすることができる。

さらに、音声認識装置１０は、このようなメタ情報および関連領域の表示割合をユーザの操作に応じてコントロールすることができる。例えば、メタ情報および関連領域の発生頻度が多いと感じた場合には、ユーザは、音声認識装置１０を操作して、メタ情報および関連領域の発生頻度を小さくすることができる。反対に、メタ情報および関連領域の発生頻度が少ないと感じた場合には、ユーザは、音声認識装置１０を操作して、メタ情報および関連領域の発生頻度を大きくすることができる。これにより、音声認識装置１０は、ユーザの個人的な感覚に応じて、適切な頻度でメタ情報および関連領域を発生させることができる。

なお、音声認識装置１０は、資料データの関連領域を表示した場合には、引用先が分かるようにインデントまたは引用符を付けてもよい。また、音声認識装置１０は、資料データの関連領域を表示した場合には、ファイルフォーマット等を表示して、由来の根拠を示してもよい。これにより、音声認識装置１０は、発言そのものが出力されているわけでは無いこと、および、関連領域の由来の根拠を、ユーザに視覚的に示すことができる。

また、音声認識装置１０は、メタ情報の内容に応じて、テキストに対するメタ情報の付加位置、メタ情報の色、フォントおよびサイズの少なくとも１つ、メタ情報を表すアイコン、または、メタ情報を表すオブジェクトを変更してもよい。また、音声認識装置１０は、メタ情報の内容に応じて、テキストの表示速度および滞留時間の少なくとも一方を変更してもよい。これにより、音声認識装置１０は、対象話者の状態、感情および個性、並びに、プレゼンテーションの臨場感等をより強調してユーザに知らせることができる。

以上のように、本実施形態に係る音声認識装置１０によれば、対象話者が発話した音声を表す音声信号を認識して、テキストとともに、テキストに含まれない情報（メタ情報および資料データの関連領域）を適切に出力することができる。

図８は、変形例に係る音声認識装置１０の構成を示す図である。変形例に係る音声認識装置１０は、ベクトル選択部５２をさらに備える。

変形例に係るベクトル記憶部３０は、異なる複数の状況において基準話者が発話することにより得られる複数の基準プレゼンテーションベクトルを記憶する。例えば、ベクトル記憶部３０は、学校の講義において教師が発話することにより得られる教師用の基準プレゼンテーションベクトル、セミナーの講師が発話することにより得られるセミナー用の基準プレゼンテーションベクトル、および、製品発表の発表者が発話することにより得られる製品発表用の基準プレゼンテーションベクトル等を記憶する。ベクトル記憶部３０は、これら以外の用途の基準プレゼンテーションベクトルをさらに記憶してもよい。

ベクトル選択部５２は、予め設定されたモードに応じて、ベクトル記憶部３０に記憶された複数の基準プレゼンテーションベクトルのうちの何れか１つの基準プレゼンテーションベクトルを選択する。そして、変形例に係る比較部４２は、ベクトル選択部５２により選択された基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとの類似度を算出する。

これにより、変形例に係る音声認識装置１０は、適用される場面に応じて、テキストに含まれない情報（メタ情報および資料データの関連領域）を適切に出力することができる。

図９は、音声認識装置１０のハードウェアブロック図である。音声認識装置１０は、一例として、一般のコンピュータ（情報処理装置）と同様のハードウェア構成により実現される。音声認識装置１０は、ＣＰＵ（Central Processing Unit）１０１と、操作装置１０２と、表示装置１０３、マイクロフォン１０４と、ＲＯＭ（Read Only Memory）１０５と、ＲＡＭ（Random Access Memory）１０６と、記憶装置１０７と、通信装置１０８と、バス１０９とを備える。各部は、バス１０９により接続される。

ＣＰＵ１０１は、ＲＡＭ１０６の所定領域を作業領域としてＲＯＭ１０５または記憶装置１０７に予め記憶された各種プログラムとの協働により各種処理を実行し、音声認識装置１０を構成する各部の動作を統括的に制御する。また、ＣＰＵ１０１は、ＲＯＭ１０５または記憶装置１０７に予め記憶されたプログラムとの協働により、操作装置１０２、表示装置１０３、マイクロフォン１０４および通信装置１０８等を動作させる。

操作装置１０２は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をＣＰＵ１０１に出力する。

表示装置１０３は、ＬＣＤ（Liquid Crystal Display）等の表示部である。表示装置１０３は、ＣＰＵ１０１からの表示信号に基づいて、各種情報を表示する。例えば、表示装置１０３は、テキスト、メタ情報および資料データの関連領域を表示する。さらに、表示装置１０３は、設定情報を入力するためのスライダーバー等のユーザインターフェイスを表示してもよい。なお、通信装置１０８または記憶装置１０７等にテキスト、メタ情報および資料データの関連領域を出力する場合には、音声認識装置１０は、表示装置１０３を備えなくてもよい。

マイクロフォン１０４は、音声信号を入力するデバイスである。予め記録された音声信号または通信装置１０８から入力される音声信号を認識する場合には、音声認識装置１０は、マイクロフォン１０４を備えなくてもよい。

ＲＯＭ１０５は、音声認識装置１０の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。ＲＡＭ１０６は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等の揮発性の記憶媒体である。ＲＡＭ１０６は、ＣＰＵ１０１の作業領域として機能する。

記憶装置１０７は、フラッシュメモリ等の半導体による記憶媒体、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶装置１０７は、音声認識装置１０の制御に用いられるプログラムを記憶する。また、記憶装置１０７は、資料記憶部２６およびベクトル記憶部３０として機能する。

通信装置１０８は、サーバから資料データを取得する。また、通信装置１０８は、外部の機器と通信して、テキスト、メタ情報および資料データの関連領域等を出力する。

本実施形態の音声認識装置１０で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の音声認識装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の音声認識装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の音声認識装置１０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施形態の音声認識装置１０で実行されるプログラムは、資料取得モジュールと、解析モジュールと、ベクトル取得モジュールと、設定情報取得モジュールと、音声取得モジュールと、特徴量算出モジュールと、認識モジュールと、ベクトル生成モジュールと、比較モジュールと、出力制御モジュールとを含むモジュール構成となっている。ＣＰＵ１０１（プロセッサ）は、記憶媒体等からこのようなプログラムを読み出して、上記各モジュールがＲＡＭ１０６（主記憶装置）にロードする。そして、ＣＰＵ１０１（プロセッサ）は、このようなプログラムを実行することにより、資料取得部２２、解析部２４、ベクトル取得部２８、設定情報取得部３２、音声取得部３４、特徴量算出部３６、認識部３８、ベクトル生成部４０、比較部４２および出力制御部４４として機能する。なお、資料取得部２２、解析部２４、ベクトル取得部２８、設定情報取得部３２、音声取得部３４、特徴量算出部３６、認識部３８、ベクトル生成部４０、比較部４２および出力制御部４４の一部または全部がハードウェアにより構成されていてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１０音声認識装置
２２資料取得部
２４解析部
２６資料記憶部
２８ベクトル取得部
３０ベクトル記憶部
３２設定情報取得部
３４音声取得部
３６特徴量算出部
３８認識部
４０ベクトル生成部
４２比較部
４４出力制御部
５２ベクトル選択部

Claims

対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する認識部と、
前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成するベクトル生成部と、
基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する比較部と、
前記テキストを出力する出力制御部と、
を備え、
前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
音声認識装置。
前記対象話者が発話する音声に関する資料データを取得する資料取得部をさらに備え、
前記出力制御部は、前記資料データにおける前記テキストに対応する関連領域を出力するか否かを前記類似度に基づき判断し、前記関連領域を出力すると判断した場合、前記関連領域を前記テキストに付加して出力する
請求項１に記載の音声認識装置。
前記複数のパラメータは、前記音声信号の音響特徴量を解析することにより得られる情報を含む
請求項１または２に記載の音声認識装置。
前記複数のパラメータは、前記音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長およびピッチの少なくとも１つを含む
請求項３に記載の音声認識装置。
前記複数のパラメータは、前記音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長およびピッチの少なくとも１つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも１つを含む
請求項３に記載の音声認識装置。
前記複数のパラメータは、前記テキストまたは前記メタ情報を解析することにより得られる情報を含む
請求項１から５の何れか１項に記載の音声認識装置。
前記複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも１つの発生割合または発生パターンを表す値を含む
請求項６に記載の音声認識装置。
前記複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも１つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも１つを含む
請求項６に記載の音声認識装置。
第１閾値を含む設定情報を取得する設定情報取得部をさらに備え、
前記出力制御部は、
前記基準プレゼンテーションベクトルと前記対象プレゼンテーションベクトルとが前記第１閾値よりも類似している場合には、前記メタ情報を付加せずに前記テキストを出力し、
前記基準プレゼンテーションベクトルと前記対象プレゼンテーションベクトルとが前記第１閾値よりも類似していない場合には、前記テキストに前記メタ情報を付加して出力する
請求項１から８の何れか１項に記載の音声認識装置。
異なる複数の状況において前記基準話者が発話することにより得られる複数の基準プレゼンテーションベクトルを記憶するベクトル記憶部と、
予め設定されたモードに応じて、前記複数の基準プレゼンテーションベクトルのうちの何れか１つの基準プレゼンテーションベクトルを選択するベクトル選択部と、
をさらに備え、
前記比較部は、選択された基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する
請求項１から９の何れか１項に記載の音声認識装置。
前記出力制御部は、表示部に対して前記テキストおよび前記メタ情報を表示させる
請求項１から１０の何れか１項に記載の音声認識装置。
前記出力制御部は、前記メタ情報の内容に応じて、前記テキストに対する前記メタ情報の付加位置、前記メタ情報の色、フォントおよびサイズの少なくとも１つ、前記メタ情報を表すアイコン、または、前記メタ情報を表すオブジェクトを変更する
請求項１１に記載の音声認識装置。
前記出力制御部は、前記メタ情報の内容に応じて、前記テキストの表示速度および滞留時間の少なくとも一方を変更する
請求項１１に記載の音声認識装置。
情報処理装置により実行される音声認識方法であって、
認識部が、対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成し、
ベクトル生成部が、前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成し、
比較部が、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出し、
出力制御部が、前記テキストを出力し、
前記出力制御部が、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
音声認識方法。
情報処理装置を音声認識装置として機能させるためのプログラムであって、
前記情報処理装置を、
対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する認識部と、
前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成するベクトル生成部と、
基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する比較部と、
前記テキストを出力する出力制御部と
して機能させ、
前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
プログラム。