JP6728116B2 - 音声認識装置、音声認識方法およびプログラム - Google Patents

音声認識装置、音声認識方法およびプログラム Download PDF

Info

Publication number
JP6728116B2
JP6728116B2 JP2017180965A JP2017180965A JP6728116B2 JP 6728116 B2 JP6728116 B2 JP 6728116B2 JP 2017180965 A JP2017180965 A JP 2017180965A JP 2017180965 A JP2017180965 A JP 2017180965A JP 6728116 B2 JP6728116 B2 JP 6728116B2
Authority
JP
Japan
Prior art keywords
text
recognition device
meta information
voice recognition
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017180965A
Other languages
English (en)
Other versions
JP2019056791A (ja
Inventor
布目 光生
光生 布目
山本 雅裕
雅裕 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017180965A priority Critical patent/JP6728116B2/ja
Priority to US15/896,677 priority patent/US11176943B2/en
Publication of JP2019056791A publication Critical patent/JP2019056791A/ja
Application granted granted Critical
Publication of JP6728116B2 publication Critical patent/JP6728116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は、音声認識装置、音声認識方法およびプログラムに関する。
近年、音声認識装置は、利用可能な計算機リソースの拡大に伴い、大規模なコーパスおよび複雑で膨大なモデルを取り扱うことができるようになった。これにより、音声認識装置は、従来では難しかった話し言葉および連続する発話等も、実用的な精度で、リアルタイムに認識することができるようになった。このようなリアルタイム音声認識装置は、対話システム等の人と機械とのインターフェースに適用することができる。また、リアルタイム音声認識装置は、音声信号の書き起しおよび要約を行う自動認識装置にも適用することができる。
さらに、リアルタイム音声認識装置は、聴覚障碍者の理解支援のための、いわゆる「情報保障ツール」に適用することもできる。また、さらに、リアルタイム音声認識装置は、セミナーでの講演または教育現場または講義等において、受講者に情報を提供するための情報提供装置に適用することもできる。
このように、リアルタイム音声認識装置は、様々な場面に適用される。しかし、リアルタイム音声認識装置は、適用される場面によって、要求される精度および内容が異なる。リアルタイム音声認識装置は、例えば音声信号の書き起しおよび要約等に適用される場合には、話者の話し方の特徴(例えば、発話のボリューム、発話速度等)の情報を出力する必要が少ない。しかし、リアルタイム音声認識装置は、例えば、聴覚障碍者の理解支援またはセミナー等の受講者に情報保障をする場合には、臨場感を伝えるため、話者の状態および感情等の情報も、テキストとともに出力することが望ましい。
しかしながら、従来、リアルタイム音声認識装置は、話者の状態および感情等のテキストに含まれない情報を適切に出力することが困難であった。
特開2009−187349号公報
発明が解決しようとする課題は、テキストとともに、テキストに含まれない情報を適切に出力することにある。
実施形態に係る音声認識装置は、認識部と、ベクトル生成部と、比較部と、出力制御部とを備える。前記認識部は、対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する。前記ベクトル生成部は、前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成する。前記比較部は、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する。前記出力制御部は、前記テキストを出力する。さらに、前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する。
実施形態に係る音声認識装置の構成を示す図。 音声認識装置の処理の流れを示すフローチャート。 資料データの取得処理(S11)の処理の流れを示すフローチャート。 認識処理(S15)の処理の流れを示すフローチャート。 比較処理(S16)の処理の流れを示すフローチャート。 出力制御処理(S17)の処理の流れを示すフローチャート。 テキスト、メタ情報および資料データの関連領域の表示例を示す図。 変形例に係る音声認識装置の構成を示す図。 音声認識装置のハードウェアブロック図。
以下、図面を参照しながら実施形態について詳細に説明する。本実施形態に係る音声認識装置10は、対象話者が発話した音声を表す音声信号を認識し、認識して得られたテキストを出力する。さらに、音声認識装置10は、メタ情報を、必要に応じてテキストに付加して出力する。また、さらに、音声認識装置10は、必要に応じて、予め取得した資料データにおける関連領域をテキストに付加して出力する。
なお、メタ情報は、例えば、音声信号に含まれる情報であって、テキストに含まれない情報を表す。例えば、メタ情報は、音声信号のボリューム、発話の速度、音声信号から検出された対象話者の感情、フィラー、吃音、言い淀み、言い怠け、および、沈黙期間等を表す情報である。
資料データは、例えば、テキストを含むデータである。資料データは、画像または動画像が含まれていてもよい。また、資料データは、コンピュータプログラムが記述されたデータであってもよい。また、資料データは、記録媒体に格納されたデータであっても、ネットワーク上のサーバに格納されたデータであってもよい。また、資料データは、音声認識装置10により取扱い可能であれば、どのようなファイル形式であってもよい。
音声認識装置10は、例えば、人と人との対話を仲介する対話システムに適用される。また、音声認識装置10は、例えば、対象話者が発話した音声を表す音声信号の内容または要約をテキストにして記録するための装置に適用されてもよい。また、音声認識装置10は、例えば、対象話者の発話内容を聴覚障碍者に知らせるための情報保障ツールに適用されてもよい。また、音声認識装置10は、例えば、セミナー等の講師等の映像および音声を受講者に提供するための情報提供装置に適用されてもよい。
図1は、実施形態に係る音声認識装置10の構成を示す図である。音声認識装置10は、資料取得部22と、解析部24と、資料記憶部26と、ベクトル取得部28と、ベクトル記憶部30と、設定情報取得部32と、音声取得部34と、特徴量算出部36と、認識部38と、ベクトル生成部40と、比較部42と、出力制御部44とを備える。
資料取得部22は、予め、対象話者が発話する音声に関する資料データを取得する。例えば、資料取得部22は、対象話者が予め準備した資料および予稿集等を電子化したデータを記録媒体またはネットワークを介してサーバ等から読み込む。また、資料取得部22は、対象話者が発話する音声に関連する情報を、インターネット等を検索してサーバから取得してもよい。
解析部24は、取得した資料データの構造を解析する。解析部24は、解析結果に応じて、資料データを、テキストに付加して出力可能な複数の領域に分割する。解析部24は、複数の領域のそれぞれについて、その内容を表すテキストを抽出する。解析部24は、複数の領域のそれぞれについて、資料データにおける位置(ファイル名、ページ番号、行番号および見出しか本文かの識別情報等)を特定する。解析部24は、複数の領域のそれぞれについて、検索用のインデックスを生成する。そして、解析部24は、複数の領域のそれぞれについて、テキスト、位置およびインデックスを含む領域情報を生成する。
資料記憶部26は、資料取得部22により取得された資料データ、および、解析部24により生成された複数の領域のそれぞれの領域情報を記憶する。
ベクトル取得部28は、他の装置で生成された、または、音声認識装置10により生成された基準プレゼンテーションベクトルを、予め取得する。ベクトル記憶部30は、取得した基準プレゼンテーションベクトルを記憶する。
基準プレゼンテーションベクトルは、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。例えば、音声認識装置10が、セミナーの講師の映像および音声を受講者に提供するための情報提供装置に適用される場合、基準プレゼンテーションベクトルは、経験の多い講師の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。
基準プレゼンテーションベクトルに含まれる複数のパラメータのそれぞれは、基準話者が発話した音声信号、基準話者が発話した音声信号を認識して得られたテキストまたはメタ情報に基づき、予め定められた処理により算出される値である。基準プレゼンテーションベクトルには、予め定められた形式で、予め定められた種類の複数のパラメータが含まれている。
例えば、複数のパラメータは、基準話者が発話した音声信号の音響特徴量を解析することにより得られる情報を含む。例えば、複数のパラメータは、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチ(音高)およびメル周波数ケプストラム係数の少なくとも1つを含む。また、複数のパラメータは、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数の少なくとも1つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも1つを含んでもよい。
また、例えば、複数のパラメータは、基準話者が発話した音声信号を認識して得られたテキストまたはメタ情報を解析することにより得られる情報を含む。例えば、複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを表す値を含む。また、複数のパラメータは、意味の通ったわかりやすい文章、フィラー、吃音、未知語、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも1つを含んでもよい。
設定情報取得部32は、音声認識装置10を使用するユーザによる操作に応じて、設定情報を取得する。設定情報は、テキストに対してメタ情報を付加するか否か、および、テキストに対して資料データの関連領域を付加するか否かを決定するための情報である。音声認識装置10は、音声認識の処理に先だって設定情報を受け付ける。また、音声認識装置10は、音声認識の処理中に、設定情報の変更を受け付けてもよい。また、音声認識装置10は、例えばスライダーバーのようなユーザインターフェイスにより、メタ情報および関連領域の発生割合をユーザに変更させてもよい。
音声取得部34は、対象話者が発話した音声を表す音声信号を取得する。音声取得部34は、例えば集音装置により検出された音声信号を取得する。
特徴量算出部36は、音響フレーム毎に、音声信号を解析して音声の特徴を表す複数の音響特徴量を算出する。音響フレームは、音響特徴量を算出するための音声信号の区間である。音響フレームは、中心時刻が所定間隔毎にずれるように設定される。例えば、特徴量算出部36は、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数等を算出する。
認識部38は、特徴量算出部36により算出された複数の音響特徴量に基づき音声信号を認識して、テキストおよびメタ情報を生成する。例えば、認識部38は、音響モデルおよび言語モデルを用いて探索等を行い、テキスト列およびメタ情報列を生成する。
ベクトル生成部40は、特徴量算出部36により算出された複数の音響特徴量、認識部38により生成されたテキストおよびメタ情報、および、認識部38の認識処理中に生成された各種の情報を取得する。ベクトル生成部40は、これらの情報を解析して、対象プレゼンテーションベクトルを生成する。
対象プレゼンテーションベクトルは、対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。例えば、音声認識装置10が、セミナーの講師の映像および音声を受講者に提供するための情報提供装置に適用される場合、対象プレゼンテーションベクトルは、そのセミナーの講師の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む。
対象プレゼンテーションベクトルに含まれる複数のパラメータのそれぞれは、基準プレゼンテーションベクトルに含まれる複数のパラメータと同一の処理により算出される値である。すなわち、対象プレゼンテーションベクトルに含まれる複数のパラメータのそれぞれは、対象話者が発話した音声信号、対象話者が発話した音声信号を認識して得られたテキストまたはメタ情報に基づき、基準プレゼンテーションベクトルと同一の演算により算出される。そして、対象プレゼンテーションベクトルには、このように算出された複数のパラメータが、基準プレゼンテーションベクトルと同一の形式で含まれている。
例えば、ベクトル生成部40は、複数のパラメータとして、対象話者が発話した音声信号の音響特徴量を解析することにより得られる情報を含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部40は、複数のパラメータとして、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数の少なくとも1つを含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部40は、複数のパラメータとして、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数の少なくとも1つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも1つを含む対象プレゼンテーションベクトルを生成してもよい。
また、例えば、ベクトル生成部40は、複数のパラメータとして、対象話者が発話した音声信号を認識して得られたテキストまたはメタ情報を解析することにより得られる情報を含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部40は、複数のパラメータとして、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを表す値を含む対象プレゼンテーションベクトルを生成する。また、例えば、ベクトル生成部40は、複数のパラメータとして、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも1つを含む対象プレゼンテーションベクトルを生成してもよい。
比較部42は、ベクトル記憶部30に記憶された基準プレゼンテーションベクトルと、ベクトル生成部40により生成された対象プレゼンテーションベクトルとを取得する。そして、比較部42は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとの類似度を算出する。
例えば、比較部42は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとのベクトル間距離を算出し、算出したベクトル間距離を類似度としてもよい。例えば、比較部42は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとが一致している場合には0となり、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの間のベクトル間距離が大きくなるほど大きくなる値を、類似度としてもよい。
出力制御部44は、認識部38からテキストおよびメタ情報を取得する。また、出力制御部44は、比較部42から類似度を取得し、設定情報取得部32から設定情報を取得する。
出力制御部44は、テキストを、フレーズ毎に分割して出力する。フレーズは、テキストを出力するための単位である。フレーズは、例えば、センテンスであってもよいし、話者が連続して話したまとまった複数個のセンテンスであってもよい。なお、フレーズには、テキストが空白の場合(例えば、無言)があってもよい。
出力制御部44は、フレーズ毎に、類似度および設定情報に基づき、メタ情報を出力するか否かを判断する。そして、出力制御部44は、メタ情報を出力すると判断した場合、対応するテキストに付加してメタ情報を出力する。すなわち、出力制御部44は、フレーズ毎に、類似度および設定情報に基づき、テキストに付加してメタ情報を出力するか否かを切り換える。
なお、設定情報は、メタ情報をテキストに付加するか否かを類似度に基づき切り替えるための第1制御モデルであってもよい。この場合、出力制御部44は、類似度および第1制御モデルに基づき、メタ情報をテキストに付加するか否かを切り換える。第1制御モデルは、例えば、明示的な条件判断を行って、メタ情報を出力するか否かを判断するモデルであってもよい。また、第1制御モデルは、確率的にメタ情報を出力するか否かを定める確率モデルであってもよい。
また、例えば、設定情報は、第1閾値を含んでもよい。この場合、出力制御部44は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第1閾値よりも類似している場合には、メタ情報を出力しない。また、出力制御部44は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第1閾値よりも類似していない場合には、メタ情報をテキストに付加して出力する。
出力制御部44は、フレーズ毎に、類似度および設定情報に基づき、資料データを出力するか否かを判断する。出力制御部44は、資料データを出力すると判断した場合、資料記憶部26にアクセスして、資料データにおける対応するテキストに関連する関連領域を特定する。例えば、出力制御部44は、テキストの主要用語(例えば名詞)を抽出する。続いて、出力制御部44は、資料記憶部26に記憶された複数の領域情報を検索して、主要用語を含む領域情報を抽出する。続いて、出力制御部44は、抽出した領域情報に含まれる位置に基づき、資料データにおける関連領域を特定する。続いて、出力制御部44は、特定した関連領域を表すデータを資料記憶部26から取得する。
そして、出力制御部44は、資料データを出力すると判断した場合、取得した関連領域を表すデータを、テキストに付加して出力する。すなわち、出力制御部44は、フレーズ毎に、類似度および設定情報に基づき、テキストに付加して資料データを出力するか否かを切り換える。
なお、設定情報は、資料データをテキストに付加するか否かを類似度に基づき切り替えるための第2制御モデルであってもよい。この場合、出力制御部44は、類似度および第2制御モデルに基づき、資料データ(関連領域)をテキストに付加するか否かを切り換える。第2制御モデルは、例えば、明示的な条件判断を行って、資料データ(関連領域)を出力するか否かを判断するモデルであってもよい。また、第2制御モデルは、確率的に資料データ(関連領域)を出力するか否かを定める確率モデルであってもよい。
また、例えば、設定情報は、第2閾値を含んでもよい。この場合、出力制御部44は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第2閾値よりも類似している場合には、資料データ(関連領域)を出力しない。また、出力制御部44は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第2閾値よりも類似していない場合には、資料データ(関連領域)をテキストに付加して出力する。
本実施形態においては、出力制御部44は、表示部に対してテキスト、メタ情報および資料データ(関連領域)を表示させる。例えば、メタ情報を出力するか否かを切り替える制御とともに、出力制御部44は、メタ情報の内容に応じて、テキストに対するメタ情報の付加位置、メタ情報の色、フォントおよびサイズの少なくとも1つ、メタ情報を表すアイコン、または、メタ情報を表すオブジェクトを変更してもよい。また、出力制御部44は、メタ情報の内容に応じて、テキストの表示速度および滞留時間の少なくとも一方を変更してもよい。
図2は、音声認識装置10の処理の流れを示すフローチャートである。まず、S11において、音声認識装置10は、資料データの取得処理をする。資料データの取得処理の詳細については、図3を参照してさらに説明する。
続いて、S12において、音声認識装置10は、他の装置で生成された、または、音声認識装置10により生成された基準プレゼンテーションベクトルを取得する。そして、音声認識装置10は、取得した基準プレゼンテーションベクトルをベクトル記憶部30に格納する。
続いて、S13において、音声認識装置10は、ユーザによる操作に応じて設定情報を取得する。続いて、S14において、音声認識装置10は、ユーザによる開始操作を受け付ける。音声認識装置10は、開始操作を受け付けた後、S15、S16およびS17の処理を開始する。
S15において、音声認識装置10は、認識処理を実行する。認識処理の詳細については、図4を参照してさらに説明する。
S16において、音声認識装置10は、比較処理を実行する。比較処理の詳細については、図5を参照してさらに説明する。
S17において、音声認識装置10は、出力制御処理を実行する。出力制御処理の詳細については、図6を参照してさらに説明する。
そして、音声認識装置10は、ユーザによる終了操作を受け付けると、S15、S16およびS17の処理を終了して、図2のフローを終了する。
図3は、資料データの取得処理(S11)の詳細な処理の流れを示すフローチャートである。音声認識装置10は、S11の資料データの取得処理において、以下のS21からS25の処理を実行する。
S21において、音声認識装置10は、対象話者が準備した資料および予稿集等を電子化したデータ(ユーザデータ)を取得する。続いて、S22において、音声認識装置10は、ユーザデータ以外の対象話者が発話する音声に関連する情報(外部データ)を、インターネット等を検索してサーバから取得する。
続いて、S23において、音声認識装置10は、取得した資料データ(ユーザデータおよび外部データ)の構造を解析する。音声認識装置10は、解析結果に応じて、資料データを、テキストに付加して出力可能な複数の領域に分割する。音声認識装置10は、複数の領域のそれぞれについて、その内容を表すテキストを抽出する。
続いて、S24において、音声認識装置10は、複数の領域のそれぞれについて、資料データにおける位置(ファイル名、ページ番号、行番号および見出しか本文かの識別情報等)を特定する。そして、音声認識装置10は、複数の領域のそれぞれについて、検索用のインデックスを生成する。
続いて、S25において、音声認識装置10は、複数の領域のそれぞれについて、テキスト、位置およびインデックスを含む領域情報を生成する。そして、音声認識装置10は、資料データ、および、解析部24により生成された複数の領域のそれぞれの領域情報を資料記憶部26に格納する。音声認識装置10は、S25の処理を終えると、図3のフローを終了する。
図4は、認識処理(S15)の詳細な処理の流れを示すフローチャートである。音声認識装置10は、S15の認識処理において、以下のS31からS44の処理を実行する。
S31とS34との間のループ処理において、音声認識装置10は、S32およびS33の処理を、音響フレーム毎に実行する。音声認識装置10は、ユーザにより終了操作がされるまで、S31とS34との間のループ処理を実行する。S32において、音声認識装置10は、対象話者が発話した音声を表す音声信号を取得する。S33において、音声認識装置10は、音声信号を解析して音声の特徴を表す複数の音響特徴量を算出する。例えば、音声認識装置10は、音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長、ピッチおよびメル周波数ケプストラム係数等を算出する。
続いて、S35とS41との間のループ処理において、音声認識装置10は、S36〜S40までの処理を、フレーズ毎に実行する。フレーズは、テキストを出力するための単位であり、1個のセンテンスであってもよいし、話者が連続して話したまとまった複数個のセンテンスであってもよい。音声認識装置10は、ユーザにより終了操作がされるまで、S35とS41との間のループ処理を実行する。
S36において、音声認識装置10は、S33で算出された複数の音響特徴量に基づき音声信号を認識して、テキストを生成する。続いて、S37において、音声認識装置10は、S33で算出された複数の音響特徴量に基づき、音声信号に含まれるテキスト以外の情報を抽出する。音声認識装置10は、例えば、対象話者の感情、フィラー、吃音、言い淀み、言い怠け、および、沈黙期間等を抽出する。
続いて、S38において、音声認識装置10は、S36で生成されたテキストの構文解析を行う。続いて、S39において、音声認識装置10は、S36で生成されたテキストに対して、未知語の抽出処理を行う。
続いて、S40において、音声認識装置10は、メタ情報を生成する。例えば、音声認識装置10は、音声信号のボリューム、発話の速度、音声信号から検出された対象話者の感情、フィラー、吃音、言い淀み、言い怠け、および、沈黙期間等の少なくとも1つを含むメタ情報を生成する。
続いて、S42とS44との間のループ処理において、音声認識装置10は、S42の処理をフレーズ毎に実行する。音声認識装置10は、ユーザにより終了操作がされるまで、S42とS44との間のループ処理を実行する。
S43において、音声認識装置10は、S33の処理で抽出された複数の音響特徴量、および、S36〜S40の処理により生成されたテキスト、メタ情報およびその他の各種の情報を取得する。音声認識装置10は、これらの情報を解析して、対象プレゼンテーションベクトルを生成する。
そして、音声認識装置10は、ユーザにより終了操作がされると、図4のフローを終了する。
図5は、比較処理(S16)の詳細な処理の流れを示すフローチャートである。音声認識装置10は、S16の比較処理において、以下のS51からS55の処理を実行する。
S51とS55との間のループ処理において、音声認識装置10は、S52、S53およびS54の処理をフレーズ毎に実行する。音声認識装置10は、ユーザにより終了操作がされるまで、S51とS55との間のループ処理を実行する。
S52において、音声認識装置10は、基準プレゼンテーションベクトルをベクトル記憶部30から読み出して取得する。続いて、S53において、音声認識装置10は、S43で生成した対象プレゼンテーションベクトルを取得する。
続いて、S54において、音声認識装置10は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの類似度を算出する。例えば、音声認識装置10は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとのベクトル間距離を算出し、算出したベクトル間距離を類似度とする。例えば、音声認識装置10は、基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとが一致している場合には0となり、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの間のベクトル間距離が大きくなるほど大きくなる値を、類似度として算出する。
そして、音声認識装置10は、ユーザにより終了操作がされると、図5のフローを終了する。
図6は、出力制御処理(S17)の詳細な処理の流れを示すフローチャートである。音声認識装置10は、S17の出力制御処理において、以下のS61からS72の処理を実行する。
S61とS72との間のループ処理において、音声認識装置10は、S62〜S71の処理を、フレーズ毎に実行する。音声認識装置10は、ユーザにより終了操作がされるまで、S61とS72との間のループ処理を実行する。
S62において、音声認識装置10は、類似度の算出処理(S54)において算出された類似度を取得する。なお、本例において、音声認識装置10は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが一致している場合には0となり、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとの間のベクトル間距離が大きくなるほど大きくなる値を、類似度として取得する。
続いて、S63において、音声認識装置10は、設定情報を取得する。本例においては、音声認識装置10は、第1閾値(α)および第2閾値(β)を取得する。第1閾値(α)は、0より大きい値であって、第2閾値(β)より小さい。なお、音声認識装置10は、音声認識の処理中に、ユーザによる設定情報の変更を受け付けてもよい。例えば、音声認識装置10は、例えばスライダーバーのようなユーザインターフェイスにより、第1閾値(α)および第2閾値(β)の値の変更を受け付ける。
続いて、S64において、音声認識装置10は、類似度が第1閾値(α)未満であるか否かを判断する。類似度が第1閾値(α)未満である場合(S64のYes)、S65において、音声認識装置10は、対応するテキストを出力する。すなわち、音声認識装置10は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第1閾値(α)よりも類似している場合には、メタ情報および資料データの関連領域を付加せずに、テキストを出力する。そして、S65の処理を終えると、音声認識装置10は、処理をS62に戻し、次のフレーズについて処理を進める。
類似度が第1閾値(α)未満ではない場合(S64のNo)、音声認識装置10は、処理をS66に進める。S66において、音声認識装置10は、類似度が第2閾値(β)未満であるか否かを判断する。
類似度が第2閾値(β)未満である場合(S66のYes)、S67において、音声認識装置10は、対応するテキストに対応するメタ情報を付加して出力する。すなわち、音声認識装置10は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第2閾値(β)よりも類似している場合には、資料データの関連領域を付加せずに、テキストにメタ情報を付加して出力する。そして、S67の処理を終えると、音声認識装置10は、処理をS62に戻し、次のフレーズについて処理を進める。
類似度が第2閾値(β)未満ではない場合(S66のNo)、音声認識装置10は、処理をS68に進める。S68において、音声認識装置10は、対応するテキストから検索用ワードを抽出する。例えば、音声認識装置10は、対応するテキストの主要用語(例えば名詞)を、検索用ワードとして抽出する。
続いて、S69において、音声認識装置10は、資料記憶部26に記憶された複数の領域情報を検索して、検索用ワードに一致または近似するテキストを含む関連領域が、資料データ内に存在するか否かを判断する。関連領域が資料データに存在する場合(S69のYes)、音声認識装置10は、処理をS70に進める。関連領域が資料データに存在しない場合(S69のNo)、音声認識装置10は、処理をS71に進める。
S70において、音声認識装置10は、対応するテキストに、対応するメタ情報および対応する関連情報を付加して出力する。すなわち、音声認識装置10は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第2閾値(β)以上類似していない場合には、テキストに、メタ情報および資料データの関連領域を付加して出力する。そして、S70の処理を終えると、音声認識装置10は、処理をS62に戻し、次のフレーズについて処理を進める。
S71において、音声認識装置10は、対応するテキストに対応するメタ情報を付加して出力する。すなわち、音声認識装置10は、基準プレゼンテーションベクトルと対象プレゼンテーションベクトルとが第2閾値(β)以上類似していない場合であっても、資料データの関連領域が存在しない場合には、資料データの関連領域を付加せずに、テキストにメタ情報を付加して出力する。そして、S71の処理を終えると、音声認識装置10は、処理をS62に戻し、次のフレーズについて処理を進める。
そして、音声認識装置10は、ユーザにより終了操作がされると、図6のフローを終了する。
図7は、音声認識装置10から出力されるテキスト、メタ情報および資料データの関連領域の表示例を示す図である。音声認識装置10は、フレーズ毎に、対象話者が発話した音声を表す音声信号を認識したテキストを表示部に表示する。図7の例においては、音声認識装置10は、「これから、景気と商品の関係にいて説明します」「家庭の必需品は、売れ行きが、景気の影響をうけにくい商品です」「自動車は、売れ行きが、景気の影響をxxxxxxxxxx商品です」「現在の景気は、……非常に悪い」「このため、えー、xxxxxxxxxxを売れば儲かるはずです」というテキストを表示している。なお、「x」は、認識ができなかった文字または認識を誤ったため不明な文字を表す。これにより、音声認識装置10は、対象話者の音声を聴くことが困難なユーザ等に対して、対象話者の音声の内容を伝えることができる。
さらに、音声認識装置10は、テキストに付加してメタ情報を表示する。図7の例においては、音声認識装置10は、「大きな声」「早口のため不明」「沈黙」「小声のため不明」というメタ情報を表示している。これにより、音声認識装置10は、テキストでは伝わらないような対象話者の状態、感情および個性、並びに、プレゼンテーションの臨場感等を、対象話者の音声を聴くことが困難なユーザ等に対して伝えることができる。
さらに、音声認識装置10は、テキストに付加して資料データの関連領域を表示する。図7の例においては、音声認識装置10は、四角で囲まれた情報(「売れ行きが景気の影響を受けやすい商品の一覧」)を、資料データの関連領域として表示する。これにより、音声認識装置10は、認識が困難なためテキストおよびメタ情報でも内容が伝わらない情報および追加の情報等を、ユーザに対して伝えることができる。
また、さらに、音声認識装置10は、基準話者の発話によるプレゼンテーションの特徴を表す複数の種類のパラメータを含む基準プレゼンテーションベクトルと、対象話者の発話によるプレゼンテーションの特徴を表す複数の種類のパラメータを含む対象プレゼンテーションベクトルとを比較して、メタ情報の表示割合および資料データの関連領域の表示割合を制御する。具体的には、音声認識装置10は、対象プレゼンテーションベクトルが基準プレゼンテーションベクトルに近い場合には、メタ情報および関連情報の表示割合を小さくし、遠い場合には、メタ情報および関連情報の表示割合を大きくするように制御する。これにより、音声認識装置10は、対象話者が、例えば手本となる基準話者に近いプレゼンテーションをしている場合には、メタ情報および関連領域の表示割合を小さくすることができる。また、音声認識装置10は、対象話者が、基準話者から大きく異なるプレゼンテーションをしている場合には、メタ情報および関連領域の表示割合を大きくすることができる。
さらに、音声認識装置10は、このようなメタ情報および関連領域の表示割合をユーザの操作に応じてコントロールすることができる。例えば、メタ情報および関連領域の発生頻度が多いと感じた場合には、ユーザは、音声認識装置10を操作して、メタ情報および関連領域の発生頻度を小さくすることができる。反対に、メタ情報および関連領域の発生頻度が少ないと感じた場合には、ユーザは、音声認識装置10を操作して、メタ情報および関連領域の発生頻度を大きくすることができる。これにより、音声認識装置10は、ユーザの個人的な感覚に応じて、適切な頻度でメタ情報および関連領域を発生させることができる。
なお、音声認識装置10は、資料データの関連領域を表示した場合には、引用先が分かるようにインデントまたは引用符を付けてもよい。また、音声認識装置10は、資料データの関連領域を表示した場合には、ファイルフォーマット等を表示して、由来の根拠を示してもよい。これにより、音声認識装置10は、発言そのものが出力されているわけでは無いこと、および、関連領域の由来の根拠を、ユーザに視覚的に示すことができる。
また、音声認識装置10は、メタ情報の内容に応じて、テキストに対するメタ情報の付加位置、メタ情報の色、フォントおよびサイズの少なくとも1つ、メタ情報を表すアイコン、または、メタ情報を表すオブジェクトを変更してもよい。また、音声認識装置10は、メタ情報の内容に応じて、テキストの表示速度および滞留時間の少なくとも一方を変更してもよい。これにより、音声認識装置10は、対象話者の状態、感情および個性、並びに、プレゼンテーションの臨場感等をより強調してユーザに知らせることができる。
以上のように、本実施形態に係る音声認識装置10によれば、対象話者が発話した音声を表す音声信号を認識して、テキストとともに、テキストに含まれない情報(メタ情報および資料データの関連領域)を適切に出力することができる。
図8は、変形例に係る音声認識装置10の構成を示す図である。変形例に係る音声認識装置10は、ベクトル選択部52をさらに備える。
変形例に係るベクトル記憶部30は、異なる複数の状況において基準話者が発話することにより得られる複数の基準プレゼンテーションベクトルを記憶する。例えば、ベクトル記憶部30は、学校の講義において教師が発話することにより得られる教師用の基準プレゼンテーションベクトル、セミナーの講師が発話することにより得られるセミナー用の基準プレゼンテーションベクトル、および、製品発表の発表者が発話することにより得られる製品発表用の基準プレゼンテーションベクトル等を記憶する。ベクトル記憶部30は、これら以外の用途の基準プレゼンテーションベクトルをさらに記憶してもよい。
ベクトル選択部52は、予め設定されたモードに応じて、ベクトル記憶部30に記憶された複数の基準プレゼンテーションベクトルのうちの何れか1つの基準プレゼンテーションベクトルを選択する。そして、変形例に係る比較部42は、ベクトル選択部52により選択された基準プレゼンテーションベクトルと、対象プレゼンテーションベクトルとの類似度を算出する。
これにより、変形例に係る音声認識装置10は、適用される場面に応じて、テキストに含まれない情報(メタ情報および資料データの関連領域)を適切に出力することができる。
図9は、音声認識装置10のハードウェアブロック図である。音声認識装置10は、一例として、一般のコンピュータ(情報処理装置)と同様のハードウェア構成により実現される。音声認識装置10は、CPU(Central Processing Unit)101と、操作装置102と、表示装置103、マイクロフォン104と、ROM(Read Only Memory)105と、RAM(Random Access Memory)106と、記憶装置107と、通信装置108と、バス109とを備える。各部は、バス109により接続される。
CPU101は、RAM106の所定領域を作業領域としてROM105または記憶装置107に予め記憶された各種プログラムとの協働により各種処理を実行し、音声認識装置10を構成する各部の動作を統括的に制御する。また、CPU101は、ROM105または記憶装置107に予め記憶されたプログラムとの協働により、操作装置102、表示装置103、マイクロフォン104および通信装置108等を動作させる。
操作装置102は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をCPU101に出力する。
表示装置103は、LCD(Liquid Crystal Display)等の表示部である。表示装置103は、CPU101からの表示信号に基づいて、各種情報を表示する。例えば、表示装置103は、テキスト、メタ情報および資料データの関連領域を表示する。さらに、表示装置103は、設定情報を入力するためのスライダーバー等のユーザインターフェイスを表示してもよい。なお、通信装置108または記憶装置107等にテキスト、メタ情報および資料データの関連領域を出力する場合には、音声認識装置10は、表示装置103を備えなくてもよい。
マイクロフォン104は、音声信号を入力するデバイスである。予め記録された音声信号または通信装置108から入力される音声信号を認識する場合には、音声認識装置10は、マイクロフォン104を備えなくてもよい。
ROM105は、音声認識装置10の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。RAM106は、SDRAM(Synchronous Dynamic Random Access Memory)等の揮発性の記憶媒体である。RAM106は、CPU101の作業領域として機能する。
記憶装置107は、フラッシュメモリ等の半導体による記憶媒体、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶装置107は、音声認識装置10の制御に用いられるプログラムを記憶する。また、記憶装置107は、資料記憶部26およびベクトル記憶部30として機能する。
通信装置108は、サーバから資料データを取得する。また、通信装置108は、外部の機器と通信して、テキスト、メタ情報および資料データの関連領域等を出力する。
本実施形態の音声認識装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の音声認識装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の音声認識装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の音声認識装置10で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施形態の音声認識装置10で実行されるプログラムは、資料取得モジュールと、解析モジュールと、ベクトル取得モジュールと、設定情報取得モジュールと、音声取得モジュールと、特徴量算出モジュールと、認識モジュールと、ベクトル生成モジュールと、比較モジュールと、出力制御モジュールとを含むモジュール構成となっている。CPU101(プロセッサ)は、記憶媒体等からこのようなプログラムを読み出して、上記各モジュールがRAM106(主記憶装置)にロードする。そして、CPU101(プロセッサ)は、このようなプログラムを実行することにより、資料取得部22、解析部24、ベクトル取得部28、設定情報取得部32、音声取得部34、特徴量算出部36、認識部38、ベクトル生成部40、比較部42および出力制御部44として機能する。なお、資料取得部22、解析部24、ベクトル取得部28、設定情報取得部32、音声取得部34、特徴量算出部36、認識部38、ベクトル生成部40、比較部42および出力制御部44の一部または全部がハードウェアにより構成されていてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
10 音声認識装置
22 資料取得部
24 解析部
26 資料記憶部
28 ベクトル取得部
30 ベクトル記憶部
32 設定情報取得部
34 音声取得部
36 特徴量算出部
38 認識部
40 ベクトル生成部
42 比較部
44 出力制御部
52 ベクトル選択部

Claims (15)

  1. 対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する認識部と、
    前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成するベクトル生成部と、
    基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する比較部と、
    前記テキストを出力する出力制御部と、
    を備え、
    前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
    音声認識装置。
  2. 前記対象話者が発話する音声に関する資料データを取得する資料取得部をさらに備え、
    前記出力制御部は、前記資料データにおける前記テキストに対応する関連領域を出力するか否かを前記類似度に基づき判断し、前記関連領域を出力すると判断した場合、前記関連領域を前記テキストに付加して出力する
    請求項1に記載の音声認識装置。
  3. 前記複数のパラメータは、前記音声信号の音響特徴量を解析することにより得られる情報を含む
    請求項1または2に記載の音声認識装置。
  4. 前記複数のパラメータは、前記音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長およびピッチの少なくとも1つを含む
    請求項3に記載の音声認識装置。
  5. 前記複数のパラメータは、前記音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長およびピッチの少なくとも1つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも1つを含む
    請求項3に記載の音声認識装置。
  6. 前記複数のパラメータは、前記テキストまたは前記メタ情報を解析することにより得られる情報を含む
    請求項1から5の何れか1項に記載の音声認識装置。
  7. 前記複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを表す値を含む
    請求項6に記載の音声認識装置。
  8. 前記複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも1つを含む
    請求項6に記載の音声認識装置。
  9. 第1閾値を含む設定情報を取得する設定情報取得部をさらに備え、
    前記出力制御部は、
    前記基準プレゼンテーションベクトルと前記対象プレゼンテーションベクトルとが前記第1閾値よりも類似している場合には、前記メタ情報を付加せずに前記テキストを出力し、
    前記基準プレゼンテーションベクトルと前記対象プレゼンテーションベクトルとが前記第1閾値よりも類似していない場合には、前記テキストに前記メタ情報を付加して出力する
    請求項1から8の何れか1項に記載の音声認識装置。
  10. 異なる複数の状況において前記基準話者が発話することにより得られる複数の基準プレゼンテーションベクトルを記憶するベクトル記憶部と、
    予め設定されたモードに応じて、前記複数の基準プレゼンテーションベクトルのうちの何れか1つの基準プレゼンテーションベクトルを選択するベクトル選択部と、
    をさらに備え、
    前記比較部は、選択された基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する
    請求項1から9の何れか1項に記載の音声認識装置。
  11. 前記出力制御部は、表示部に対して前記テキストおよび前記メタ情報を表示させる
    請求項1から10の何れか1項に記載の音声認識装置。
  12. 前記出力制御部は、前記メタ情報の内容に応じて、前記テキストに対する前記メタ情報の付加位置、前記メタ情報の色、フォントおよびサイズの少なくとも1つ、前記メタ情報を表すアイコン、または、前記メタ情報を表すオブジェクトを変更する
    請求項11に記載の音声認識装置。
  13. 前記出力制御部は、前記メタ情報の内容に応じて、前記テキストの表示速度および滞留時間の少なくとも一方を変更する
    請求項11に記載の音声認識装置。
  14. 情報処理装置により実行される音声認識方法であって、
    認識部が、対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成し、
    ベクトル生成部が、前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成し、
    比較部が、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出し、
    出力制御部が、前記テキストを出力し、
    前記出力制御部が、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
    音声認識方法。
  15. 情報処理装置を音声認識装置として機能させるためのプログラムであって、
    前記情報処理装置を、
    対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する認識部と、
    前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成するベクトル生成部と、
    基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する比較部と、
    前記テキストを出力する出力制御部と
    して機能させ、
    前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
    プログラム。
JP2017180965A 2017-09-21 2017-09-21 音声認識装置、音声認識方法およびプログラム Active JP6728116B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017180965A JP6728116B2 (ja) 2017-09-21 2017-09-21 音声認識装置、音声認識方法およびプログラム
US15/896,677 US11176943B2 (en) 2017-09-21 2018-02-14 Voice recognition device, voice recognition method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017180965A JP6728116B2 (ja) 2017-09-21 2017-09-21 音声認識装置、音声認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019056791A JP2019056791A (ja) 2019-04-11
JP6728116B2 true JP6728116B2 (ja) 2020-07-22

Family

ID=65720541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017180965A Active JP6728116B2 (ja) 2017-09-21 2017-09-21 音声認識装置、音声認識方法およびプログラム

Country Status (2)

Country Link
US (1) US11176943B2 (ja)
JP (1) JP6728116B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022102987A1 (ko) * 2020-11-12 2022-05-19 삼성전자 주식회사 전자 장치 및 그의 제어 방법
EP4198967A4 (en) 2020-11-12 2024-01-24 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
CN114863906B (zh) * 2022-07-07 2022-10-28 北京中电慧声科技有限公司 一种文本转语音处理的别名标记方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004072310A (ja) 2002-08-05 2004-03-04 Matsushita Electric Ind Co Ltd テレビ電話装置
JP2005309065A (ja) 2004-04-21 2005-11-04 Toshiba Tec Corp 音声認識結果出力装置
AU2008204404B2 (en) * 2007-01-09 2013-05-30 Spinvox Limited Detection of unanswered call in order to give calling party the option to alternatively dictate a text message for delivery to the called party
JP2009187349A (ja) 2008-02-07 2009-08-20 Nec Corp 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム
JP5141695B2 (ja) * 2008-02-13 2013-02-13 日本電気株式会社 記号挿入装置および記号挿入方法
JP5159853B2 (ja) * 2010-09-28 2013-03-13 株式会社東芝 会議支援装置、方法およびプログラム
EP2704024B1 (en) 2011-04-26 2017-09-06 NEC Corporation Input assistance device, input asssistance method, and program
GB2513822A (en) * 2011-08-24 2014-11-12 Ibm Context-based messaging system
JP6221301B2 (ja) * 2013-03-28 2017-11-01 富士通株式会社 音声処理装置、音声処理システムおよび音声処理方法
JP6327745B2 (ja) 2014-02-24 2018-05-23 日本放送協会 音声認識装置、及びプログラム
US9324324B2 (en) * 2014-05-22 2016-04-26 Nedelco, Inc. Adaptive telephone relay service systems
JP6605995B2 (ja) 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
JP2017167433A (ja) 2016-03-17 2017-09-21 株式会社東芝 サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
JP6678545B2 (ja) 2016-09-12 2020-04-08 株式会社東芝 修正システム、修正方法及びプログラム

Also Published As

Publication number Publication date
JP2019056791A (ja) 2019-04-11
US20190088258A1 (en) 2019-03-21
US11176943B2 (en) 2021-11-16

Similar Documents

Publication Publication Date Title
Eyben et al. Unsupervised clustering of emotion and voice styles for expressive TTS
US8204747B2 (en) Emotion recognition apparatus
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
KR20160111292A (ko) 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
JP6111802B2 (ja) 音声対話装置及び対話制御方法
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
KR20230150377A (ko) 대화 동안 텍스트 음성 변환에서의 즉각적인 학습
US20190206386A1 (en) Method and system for text-to-speech synthesis
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
Csapó et al. Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis
JP5079718B2 (ja) 外国語学習支援システム、及びプログラム
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
JP2006139162A (ja) 語学学習装置
JP2007071904A (ja) 地域別発音学習支援装置
Kaveri et al. A novel approach for hindi text description to speech and expressive speech synthesis
Di Maro et al. Prosodic analysis in human-machine interaction
JP6957069B1 (ja) 学習支援システム
KR102480607B1 (ko) 인토네이션, 스트레스 및 리듬을 표기한 영어 말하기 학습 서비스 제공 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R151 Written notification of patent or utility model registration

Ref document number: 6728116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151