JP2014240940A

JP2014240940A - 書き起こし支援装置、方法、及びプログラム

Info

Publication number: JP2014240940A
Application number: JP2013124196A
Authority: JP
Inventors: 康太中田; Kota Nakata; 平芦川; Taira Ashikawa; 朋男池田; Tomoo Ikeda; 上野　晃嗣; Akitsugu Ueno; 晃嗣上野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-06-12
Filing date: 2013-06-12
Publication date: 2014-12-25
Also published as: US20140372117A1; CN104240718A

Abstract

【課題】利便性の向上を図ることができる書き起こし支援装置、方法、及びプログラムを提供する。【解決手段】第１音声取得部は、再生される第１音声を取得する。第２音声取得部は、ユーザが発話した第２音声を取得する。認識部は、第２音声を認識して第１テキストを生成する。テキスト取得部は、第１テキストがユーザにより修正された第２テキストを取得する。情報取得部は、第１音声の再生区間を表す再生情報を取得する。決定部は、第１音声と、第２音声と、第２テキストと、再生情報とに基づき、第１音声の再生速度を決定する。制御部は、第１音声を、決定した再生速度で再生する。【選択図】図４

Description

本発明の実施形態は、書き起こし支援装置、方法、及びプログラムに関する。

書き起こし作業とは、例えば、録音された音声データを聞きながら、音声の内容を文章にする（テキストに書き起こす）作業のことである。そこで、従来から、書き起こす音声を聞いた後に同じ内容が再発話された音声を認識することで、書き起こし作業の負担を軽減する技術が知られている。

特開２００９−２１０９４２号公報

しかしながら、従来の技術は、ユーザの作業習熟度に応じて、書き起こし作業を支援するものではない。そのため、従来の技術を用いた支援サービスは、ユーザにとって利便性のよいものではない。

実施形態に係る書き起こし支援装置は、第１音声取得部と、第２音声取得部と、認識部と、テキスト取得部と、情報取得部と、決定部と、制御部とを備える。第１音声取得部は、再生される第１音声を取得する。第２音声取得部は、ユーザが発話した第２音声を取得する。認識部は、前記第２音声を認識して第１テキストを生成する。テキスト取得部は、前記第１テキストがユーザにより修正された第２テキストを取得する。情報取得部は、前記第１音声の再生区間を表す再生情報を取得する。決定部は、前記第１音声と、前記第２音声と、前記第２テキストと、前記再生情報とに基づき、前記第１音声の再生速度を決定する。制御部は、前記第１音声を、決定した前記再生速度で再生する。

第１の実施形態に係る書き起こし支援システムの構成例を示す図。第１の実施形態に係る書き起こし支援サービスの利用例を示す図。第１の実施形態に係る書き起こし支援サービスの操作画面例を示す図。第１の実施形態に係る書き起こし支援システムの機能構成例を示す図。第１の実施形態に係るユーザ話速推定時の処理例を示すフローチャート。第１の実施形態に係る音素列への変換例を示す図。第１の実施形態に係るユーザ音声の発話区間を示す図。第１の実施形態に係るオリジナル話速推定時の処理例を示すフローチャート。第１の実施形態に係るオリジナル音声の発話区間を示す図。第１の実施形態に係る連続モードにおける再生速度の調整量算出時の処理例を示すフローチャート。第１の実施形態に係る断続モードにおける再生速度の調整量算出時の処理例を示すフローチャート。実施形態に係る書き起こし支援装置の構成例を示す図。

以下に、添付図面を参照して、書き起こし支援装置、方法、及びプログラムの実施形態を詳細に説明する。

［第１の実施形態］
＜概要＞
本実施形態に係る書き起こし支援装置が有する機能（以下「書き起こし支援機能」という）について説明する。本実施形態に係る書き起こし支援装置は、ユーザからの操作指示を受け付けて、書き起こす音声（以下「オリジナル音声」という）を再生又は停止する。このとき書き起こし支援装置は、オリジナル音声の再生開始時刻と再生停止時刻とが記録された再生情報を得る。本実施形態に係る書き起こし支援装置は、ユーザがオリジナル音声を聞いた後に、当該オリジナル音声と同じ内容の文章を再発話した音声（以下「ユーザ音声」という）を認識し、音声認識結果として認識文字列（第１テキスト）を得る。本実施形態に係る書き起こし支援装置は、認識文字列を画面に表示し、ユーザからの編集入力を受け付けて、編集中のテキスト（第２テキスト）を得る。本実施形態に係る書き起こし支援装置は、オリジナル音声の音声データと、ユーザ音声の音声データと、編集中のテキストと、オリジナル音声の再生情報とに基づき、ユーザの作業習熟度を判定し、オリジナル音声の再生速度を決定する。本実施形態に係る書き起こし支援装置は、オリジナル音声を、決定した再生速度で再生する。これにより、本実施形態に係る書き起こし支援装置は、ユーザの利便性の向上を図ることができる。

以下に、本実施形態に係る書き起こし支援機能の構成とその動作について説明する。

《システム構成》
図１は、本実施形態に係る書き起こし支援システム１０００の構成例を示す図である。図１に示すように、本実施形態に係る書き起こし支援システム１０００は、書き起こし支援装置１００と、１又は複数のユーザ端末２００_１〜２００_ｎ（以下総称する場合「ユーザ端末２００」という）などを備える。書き起こし支援システム１０００は、各装置１００，２００がデータ伝送路Ｎを介して相互に接続されている。

本実施形態に係る書き起こし支援装置１００は、演算装置を備えサーバ機能を有する機器であり、サーバ装置などに相当する。本実施形態に係るユーザ端末２００は、演算装置を備えクライアント機能を有する機器であり、例えばＰＣ（Personal Computer）などのクライアント装置に相当する。なお、ユーザ端末２００には、タブレットなどの情報端末も含まれる。本実施形態に係るデータ伝送路Ｎは、例えばＬＡＮ（Local Area Network）、イントラネット、イーサネット（登録商標）、又はインターネットなどの各種ネットワーク通信路に相当する。なお、ネットワーク通信路では、有線又は無線を問わない。

本実施形態に係る書き起こし支援システム１０００は、次のような利用場面を想定している。図２は、本実施形態に係る書き起こし支援サービスの利用例を示す図である。図２に示すように、例えばユーザＵは、まず、ユーザ端末２００に接続されたヘッドフォン（以下「スピーカー」という）９３を耳にあて、再生したオリジナル音声を聞く。ユーザＵは、オリジナル音声を一定時間聞くと、オリジナル音声の再生を停止し、ユーザ端末２００に接続されたマイク９１に向かって、オリジナル音声から聞き取った内容を発話する。その結果、ユーザ端末２００は、マイク９１を介して入力されたユーザ音声を、書き起こし支援装置１００に送信する。これを受けて書き起こし支援装置１００は、受信したユーザ音声を認識し、音声認識結果として得た認識文字列を、ユーザ端末２００に送信する。これにより、ユーザ端末２００の画面には、ユーザ音声の音声認識結果がテキスト表示される。その後、ユーザＵは、表示されたテキストの内容が、再発話したオリジナル音声の内容と同じか否かを確認し、誤った認識箇所があれば、ユーザ端末２００が備えるキーボード９２からの入力により、該当箇所を修正し、音声認識結果を編集する。

図３は、本実施形態に係る書き起こし支援サービスの操作画面例を示す図である。ユーザ端末２００には、再発話によるテキスト書き起こし作業を支援するＵＩ（User Interface）として、例えば図３に示すような操作画面Ｗが表示される。本実施形態に係る操作画面Ｗは、音声の再生操作を受け付ける操作領域Ｒ１と、音声認識結果の編集操作を受け付ける操作領域Ｒ２となどを有する。

本実施形態に係る操作領域Ｒ１は、音声の再生時間を表すタイムゲージＧと、音声の再生操作を制御する制御ボタンＢ１などのＵＩ部品（ソフトウェア部品）を備える。これにより、ユーザＵは、オリジナル音声の再生時間を確認しながら、音声を再生又は停止し、オリジナル音声から聞き取った内容を発話することができる。

また、本実施形態に係る操作領域Ｒ１は、音声の再生方法（以下「再生モード」という）を選択する選択ボタンＢ２を備える。本実施形態では、［連続］と［断続］との２つの再生モード（以下「連続モード」と「断続モード」という）を選択可能となっている。連続モードは、ユーザＵがオリジナル音声を聞きながら、少し後に再発話する場合に利用する再生モードに相当する。連続モードでは、再発話時にオリジナル音声を停止しないため、ユーザ音声の音声認識結果が正確であれば、オリジナル音声と同じ速さで音声をテキストに書き起こすことができる。一方、断続モードは、ユーザＵがオリジナル音声を聞き、一度オリジナル音声を停止し、再発話した後に、再生を再開する場合に利用する再生モード（再生と停止を繰り返す再生モード）に相当する。作業習熟度の低いユーザＵにとっては、再発話の際にオリジナル音声が聞こえると発話がしにくい場合がある。そのため、断続モードは、再生中のオリジナル音声を一度停止し、ユーザＵに対して、再発話のタイミングを与えることで、スムーズな発話を促し、音声をテキストに書き起こすことができる。

このように、ユーザＵは、作業習熟度に応じた再生モードを利用して、再発話によるテキスト書き起こし作業を行うことができる。

また、本実施形態に係る操作領域Ｒ２は、テキストを編集するテキストボックスＴＢなどのＵＩ部品を備える。図３には、音声認識結果として「私の名前は太郎です。」のテキストＴをテキストボックスＴＢ内に表示する例が示されている。これにより、ユーザＵは、表示されたテキストＴの内容が、再発話したオリジナル音声の内容と同じか否かを確認し、誤った認識箇所を修正することで、音声認識結果を編集することができる。

以上のように、本実施形態に係る書き起こし支援システム１０００は、上記構成とＵＩにより、再発話によるテキスト書き起こし作業を支援する書き起こし支援機能を提供する。

《機能構成》
図４は、本実施形態に係る書き起こし支援システム１０００の機能構成例を示す図である。図４に示すように、本実施形態に係る書き起こし支援システム１０００は、オリジナル音声取得部１１と、ユーザ音声取得部１２と、ユーザ音声認識部１３と、再生制御部１４と、テキスト取得部１５と、再生情報取得部１６と、再生速度決定部１７とを有する。また、本実施形態に係る書き起こし支援システム１０００は、音声入力部２１と、テキスト処理部２２と、再生ＵＩ部２３と、再生部２４とを有する。

オリジナル音声取得部１１と、ユーザ音声取得部１２と、ユーザ音声認識部１３と、再生制御部１４と、テキスト取得部１５と、再生情報取得部１６と、再生速度決定部１７とは、本実施形態に係る書き起こし支援装置１００が有する機能部である。また、音声入力部２１と、テキスト処理部２２と、再生ＵＩ部２３と、再生部２４とは、本実施形態に係るユーザ端末２００が有する機能部である。

《ユーザ端末２００の機能》
本実施形態に係る音声入力部２１は、音声の外部入力を受け付ける。音声入力部２１は、例えば図２に示すマイク９２などの外部装置を介して、音声入力を受け付ける。よって、本実施形態に係る書き起こし支援システム１０００では、音声入力部２１が、再発話によるユーザ音声の入力を受け付ける。

本実施形態に係るテキスト処理部２２は、テキスト編集を処理する。テキスト処理部２２は、例えば図３に示す操作領域Ｒ２に音声認識結果のテキストＴを表示する。テキスト処理部２２は、例えば図２に示すキーボード９３などの外部装置を介して、表示されたテキストＴに対する文字入力や文字削除などの編集操作を受け付ける。よって、本実施形態に係る書き起こし支援システム１０００では、テキスト処理部２２が、誤った認識箇所の修正など編集入力を受け付けて、ユーザ音声の音声認識結果を正しい内容に編集する。

本実施形態に係る再生ＵＩ部２３は、音声の再生操作を受け付ける。再生ＵＩ部２３は、例えば図３に示す操作領域Ｒ１に制御ボタンＢ１や選択ボタンＢ２（以下総称する場合「ボタンＢ」という）を表示する。再生ＵＩ部２３は、例えば図２に示すキーボード９２（又はマウスなどのポインティングデバイス）などの外部装置を介して、表示されたボタンＢの押下による音声の再生制御指示を受け付ける。よって、本実施形態に係る書き起こし支援システム１０００では、再生ＵＩ部２３が、再発話時のオリジナル音声の再生・停止の制御指示や再生モードの選択指示を受け付ける。

本実施形態に係る再生部２４は、音声を再生する。再生部２４は、例えば図２に示すスピーカー９３などの外部装置を介して、再生された音声を出力する。よって、本実施形態に係る書き起こし支援システム１０００では、再生部２４が、再発話時に再生されたオリジナル音声を出力する。

《書き起こし支援装置１００の機能》
本実施形態に係るオリジナル音声取得部（第１音声取得部）１１は、書き起こし対象に相当するオリジナル音声（第１音声）を取得する。オリジナル音声取得部１１は、例えば書き起こし支援装置１００が備える記憶装置（又は接続される外部記憶装置）の所定の記憶領域に保持されるオリジナル音声を取得する。このとき取得するオリジナル音声は、例えば会議や講義などを録音した音声に相当し、数分から数時間の間、連続して録音された音声データである。なお、オリジナル音声取得部１１は、例えば図３に示す操作画面Ｗのように、ユーザＵがオリジナル音声を選択可能なＵＩ機能を提供するようにしてもよい。この場合、オリジナル音声取得部１１は、１又は複数の音声データをオリジナル音声の候補として表示し、ユーザＵの選択結果を受け付ける。オリジナル音声取得部１１は、受け付けた選択結果から特定した該当音声データをオリジナル音声として取得する。

本実施形態に係るユーザ音声取得部（第２音声取得部）１２は、ユーザがオリジナル音声を聞いた後に、当該オリジナル音声と同じ内容の文章を再発話した音声であるユーザ音声（第２音声）を取得する。ユーザ音声取得部１２は、音声入力部２１により入力されたユーザ音声をユーザ端末２００が有する音声入力部２１から取得する。なお、ユーザ音声の取得方法は、受動的な取得又は能動的な取得であってもよい。ここでいう受動的な取得とは、ユーザ端末２００から送信されたユーザ音声の音声データを書き起こし支援装置１００が受信する方法である。一方、能動的な取得とは、書き起こし支援装置１００がユーザ端末２００に対して音声データの取得を要求し、ユーザ端末２００で一時保持されるユーザ音声の音声データを取得する方法である。

本実施形態に係るユーザ音声認識部１３は、ユーザ音声の音声認識処理を行う。ユーザ音声認識部１３は、ユーザ音声取得部１２が取得した音声データに対して音声認識処理を行い、ユーザ音声をテキストＴ（第１テキスト）に変換し、音声認識結果を得る。ユーザ音声認識部１３は、音声認識結果として得たテキストＴをユーザ端末２００が有するテキスト処理部２２に送信する。なお、本実施形態では、公知技術を用いて上記音声認識処理を実現する。そのため、本実施形態に係る音声認識処理については、その説明を省略する。

本実施形態に係る再生制御部１４は、オリジナル音声の再生速度を制御する。再生制御部１４は、オリジナル音声取得部１１が取得した音声データの再生速度を制御する。このとき再生制御部１４は、再生速度決定部１７が決定した再生速度に従って、ユーザ端末２００が有する再生部２４を制御することで、オリジナル音声の音声データを再生する。また、再生制御部１４は、ユーザ端末２００（再生ＵＩ部２３）やユーザ音声取得部１２などから、オリジナル音声の再生又は停止の制御指示（再生又は停止の制御信号）を受け付けた場合、受け付けた操作指示に従って、オリジナル音声の再生・停止を制御する。

本実施形態に係るテキスト取得部１５は、ユーザに提示されたテキストＴがユーザにより修正されたテキストＴ２（第２テキスト）を取得する。テキスト取得部１５は、テキスト処理部２２により編集中のテキストＴ２をユーザ端末２００が有するテキスト処理部２２から取得する。このとき取得するテキストＴ２は、ユーザ音声認識部１３によるユーザ音声の音声認識結果に相当し、オリジナル音声の再発話内容と同じ文字列、又は、誤った認識箇所が修正された内容の文字列となる。なお、テキストＴ２の取得方法は、受動的な取得又は能動的な取得であってもよい。ここでいう受動的な取得とは、ユーザ端末２００から送信された編集中のテキストＴ２を書き起こし支援装置１００が受信する方法である。一方、能動的な取得とは、書き起こし支援装置１００がユーザ端末２００に対してテキストＴ２の取得を要求し、ユーザ端末２００で一時保持される編集中のテキストＴ２を取得する方法である。

本実施形態に係る再生情報取得部１６は、オリジナル音声の再生区間を表す再生情報を取得する。再生情報取得部１６は、再発話時に、再生制御部１４により再生中のオリジナル音声が停止された場合、ユーザＵが聞いたオリジナル音声の再生区間を表す時刻情報を再生情報として取得する。このとき取得する再生情報は、例えば（式１）の時刻情報（タイムスタンプ情報）に相当する。
（ｔ＿ｏｓ，ｔ＿ｏｅ）＝（０：２１．１，０：３９．４）・・・（式１）
式中のｔ＿ｏｓはオリジナル音声の再生開始時刻を表し、式中のｔ＿ｏｅはオリジナル音声の再生停止時刻を表している。（式１）には、オリジナル音声が０分２１．１［秒］の時点から再生開始され、０分３９．４［秒］の時点で停止された場合に取得される再生情報が示されている。このように、再生情報取得部１６は、再生制御部１４の再生制御結果に基づき、再発話時に再生されたオリジナル音声の再生開始時刻ｔ＿ｏｓと再生停止時刻ｔ＿ｏｅとが組み合わされた時刻情報を、オリジナル音声の再生情報として取得する。

本実施形態に係る再生速度決定部１７は、再発話時のオリジナル音声の再生速度を決定する。再生速度決定部１７は、オリジナル音声取得部１１からオリジナル音声の音声データを受け取り、ユーザ音声取得部１２からユーザ音声の音声データを受け取る。また、再生速度決定部１７は、テキスト取得部１５から編集中のテキスト（第２テキスト）を受け取り、再生情報取得部１６からオリジナル音声の再生情報を受け取る。再生速度決定部１７は、これらの機能部から受け取ったデータに基づき、ユーザＵの作業習熟度に応じた、再発話時のオリジナル音声の適切な再生速度を決定する。具体的には、再生速度決定部１７は、オリジナル音声の音声データと、ユーザ音声の音声データと、編集中のテキストと、オリジナル音声の再生情報と、に基づき、ユーザＵの作業習熟度を判定する。再生速度決定部１７は、判定結果から、再発話時のオリジナル音声の再生速度をユーザＵごとに決定する。そこで、本実施形態に係る再生速度決定部１７は、ユーザ話速推定部１７１と、オリジナル話速推定部１７２と、速度調整量算出部１７３とを有している。

＜詳細＞
ここからは、本実施形態に係る再生速度決定部１７の詳細な動作について、上記機能部ごとに説明する。

《再生速度決定部１７の詳細》
（ユーザ話速推定部１７１）
本実施形態に係るユーザ話速推定部（第２話速推定部）１７１は、再発話時のユーザＵの話速（以下「ユーザ話速」という）を推定する。ユーザ話速推定部１７１は、音声認識結果として取得したテキストＴを、発音単位に相当する音素列に変換し、音素列とユーザ音声との強制アラインメント（forced alignment）をとる。このときユーザ話速推定部１７１は、例えば音素などの言語的要素の単位時間あたりの出現回数から、ユーザ音声における音素列の位置を特定する。これにより、ユーザ話速推定部１７１は、ユーザ音声におけるユーザＵの発話区間（以下「ユーザ発話区間」という）を特定する。ユーザ話速推定部１７１は、音素列の長さ（テキストＴの音素数）とユーザ発話区間（第２発話区間）の長さ（発話した期間）とから、ユーザ話速（第２話速）を推定する。具体的には、ユーザ話速推定部１７１は、次のような処理により、ユーザ音声におけるユーザ話速を推定する。

図５は、本実施形態に係るユーザ話速推定時の処理例を示すフローチャートである。図５に示すように、本実施形態に係るユーザ話速推定部１７１は、まず、テキストＴを音素列に変換する（ステップＳ１１）。このときの音素列の変換は、例えば辞書や文脈による読み仮名変換などの公知技術を用いる。

図６は、本実施形態に係る音素列への変換例を示す図である。ユーザ話速推定部１７１は、例えば「私の名前は太郎です。」というテキストＴを音声認識結果として得た場合、「私の名前は太郎です。」を読み仮名に変換した後に、音素列に変換する。その結果、ユーザ話速推定部１７１は、図６に示すような２４音素（音素数）を有する音素列「ｗａｔａｓｈｉｎｏｎａｍａｅｗａｔａｒｏｏｄｅｓｕ」を得る。

図５の説明に戻る。次にユーザ話速推定部１７１は、音素列とユーザ音声とから、ユーザ音声におけるユーザ発話区間を推定する（ステップＳ１２）。このときユーザ話速推定部１７１は、音素列とユーザ音声とを強制アラインメントにより対応させることで、ユーザ発話区間を推定する。

例えばユーザＵは、再発話時に、録音開始と同時に発話を開始し、録音終了と同時に発話を終了するとは限らない。そのため、ユーザ音声には、オリジナル音声において、書き起こし対象箇所の前後で書き起こされなかったフィラーや、録音環境による周囲の雑音などが録音されてしまう可能性がある。このように、ユーザ音声の録音時間には、ユーザ発話区間とユーザ非発話区間とが含まれている。そのため、ユーザ話速推定部１７１は、正確なユーザ話速を推定するために必要なユーザ発話区間を推定する。

図７は、本実施形態に係るユーザ音声の発話区間（ユーザ発話区間）を示す図である。図７には、録音時間が４．５［秒］（ｔ＿ｕｓ＝０．０［秒］〜ｔ＿ｕｅ＝４．５［秒］）のユーザ音声が示されている。その中で、「私の名前は太郎です。」の音素列に対応するユーザ発話区間は、ｔ＿ｕｖｓ＝１．１［秒］からｔ＿ｕｖｅ＝３．２［秒］までの２．１［秒］の間である。ユーザ話速推定部１７１は、強制アラインメントにより、「私の名前は太郎です。」の音素列とユーザ音声との対応関係をとることで、ユーザ音声におけるユーザＵの発話開始時刻ｔ＿ｕｖｓと発話終了時刻ｔ＿ｕｖｅとを推定する。これにより、ユーザ話速推定部１７１は、ユーザ音声におけるユーザ発話区間を、ユーザ非発話区間を含む録音時間の４．５［秒］ではなく、２．１［秒］と正確に推定できる。

図５の説明に戻る。次にユーザ話速推定部１７１は、音素列の長さとユーザ発話区間の長さとから、ユーザ音声におけるユーザ話速Ｖ＿ｕを推定する（ステップＳ１３）。このときユーザ話速推定部１７１は、（式２）を用いて、ユーザ音声におけるユーザ話速Ｖ＿ｕの推定値を算出する。
Ｖ＿ｕ＝ｌ＿ｐｈ／ｄｔ＿ｕ・・・（式２）
式中のｌ＿ｐｈはテキストＴの音素列の長さを表し、式中のｄｔ＿ｕはユーザ発話区間の長さを表している。よって、（式２）で算出されるユーザ話速の推定値Ｖ＿ｕは、ユーザ発話区間において、１［秒］あたりに発話される音素数の平均値に相当する。例えば本実施形態の場合には、ユーザ発話区間の長さｄｔ＿ｕが２．１［秒］、また、テキストＴの音素列の長さｌ＿ｐｈが２４［音素］であることから、ユーザ話速の推定値Ｖ＿ｕは１１．５となる。このように、ユーザ話速推定部１７１は、ユーザ発話区間における単位時間あたりの音素数の平均値を算出し、算出値をユーザ話速の推定値Ｖ＿ｕとしている。

（オリジナル話速推定部１７２）
本実施形態に係るオリジナル話速推定部（第１話速推定部）１７２は、再発話時に再生されるオリジナル音声の話速（以下「オリジナル話速」という）を推定する。オリジナル話速推定部１７２は、音声認識結果として取得したテキストＴを、発音単位に相当する音素列に変換する。オリジナル話速推定部１７２は、再発話時のオリジナル音声の再生情報に基づき、テキストＴの内容に対応する音声に相当すると考えられる音声データ（以下「オリジナル関連音声」という）をオリジナル音声から取得する。なお、ここでいうテキストＴの内容とは、オリジナル音声の中で、ユーザＵにより再発話された内容に相当する。オリジナル話速推定部１７２は、音素列とオリジナル関連音声との強制アラインメントをとる。このときオリジナル話速推定部１７２は、オリジナル関連音声における音素列の位置を特定する。これにより、オリジナル話速推定部１７２は、オリジナル関連音声においてユーザＵが再発話した区間（以下「オリジナル発話区間」という）を特定する。オリジナル話速推定部１７２は、音素列の長さとオリジナル発話区間（第１発話区間）の長さ（再発話された期間）から、オリジナル話速（第１話速）を推定する。具体的には、オリジナル話速推定部１７２は、次のような処理により、オリジナル音声におけるオリジナル話速を推定する。

図８は、本実施形態に係るオリジナル話速推定時の処理例を示すフローチャートである。図８に示すように、本実施形態に係るオリジナル話速推定部１７２は、まず、テキストＴを音素列に変換する（ステップＳ２１）。このときの音素列の変換は、ユーザ話速推定部１７１と同様に公知技術を用いる。オリジナル話速推定部１７２は、例えば「私の名前は太郎です。」というテキストＴを音声認識結果として得た場合、「私の名前は太郎です。」を読み仮名に変換した後に、音素列に変換する。その結果、オリジナル話速推定部１７２は、図６に示すような２４音素（音素数）を有する音素列を得る。

次にオリジナル話速推定部１７２は、再生情報に基づき、オリジナル関連音声をオリジナル音声から取得する（ステップＳ２２）。

図９は、本実施形態に係るオリジナル音声の発話区間（オリジナル発話区間）を示す図である。図９には、再生時間が１８．３［秒］（ｔ＿ｏｓ＝２１．１［秒］〜ｔ＿ｏｅ＝３９．４［秒］）のオリジナル音声が示されている。この再生時間は、ユーザＵが、オリジナル音声を再生・停止し、聞き取った「私の名前は太郎です。」を再発話し、再発話した音声の音声認識が完了したことを意味している。そのため、オリジナル話速推定部１７２は、再生開始時刻ｔ＿ｏｓ＝２１．１［秒］から再生停止時刻ｔ＿ｏｅ＝３９．４［秒］までの音声データを、オリジナル関連音声として取得する。

次にオリジナル話速推定部１７２は、音素列とオリジナル関連音声とから、オリジナル関連音声におけるオリジナル発話区間を推定する（ステップＳ２３）。このときオリジナル話速推定部１７２は、音素列とオリジナル関連音声とを強制アラインメントにより対応させることで、オリジナル発話区間を推定する。

例えば再発話時には、ユーザＵが、再生したオリジナル音声の内容をすべて再発話するとは限らない。なぜなら、オリジナル音声には、例えば会議中に資料を探す音や休憩中の雑談など、書き起こす必要のない区間が含まれている可能性がある。このように、オリジナル音声の録音時間には、書き起こすためにユーザＵが再発話するオリジナル発話区間と書き起こす必要がないためユーザＵが再発話しないオリジナル非発話区間とが含まれている。そのため、オリジナル話速推定部１７２は、正確なオリジナル話速を推定するためにオリジナル発話区間を推定する。

図９には、オリジナル音声の中で、再生開始時刻ｔ＿ｏｓ＝２１．１［秒］から再生停止時刻ｔ＿ｏｅ＝３９．４［秒］までの音声データを、オリジナル関連音声として取得した場合の例が示されている。その中で、「私の名前は太郎です。」の音素列に対応する音声を含むことが想定されるオリジナル発話区間は、ｔ＿ｏｖｓ＝３３．６［秒］からｔ＿ｏｖｅ＝３５．０［秒］までの１．４［秒］の間である。オリジナル話速推定部１７２は、強制アラインメントにより、「私の名前は太郎です。」の音素列とオリジナル関連音声との対応関係をとることで、オリジナル関連音声におけるユーザＵの再発話開始時刻ｔ＿ｏｖｓと再発話終了時刻ｔ＿ｏｖｅとを推定する。これにより、オリジナル話速推定部１７２は、オリジナル関連音声におけるオリジナル発話区間を、オリジナル非発話区間を含む録音時間の１８．３［秒］ではなく、１．４［秒］と推定できる。

図８の説明に戻る。次にオリジナル話速推定部１７２は、音素列の長さとオリジナル発話区間の長さから、オリジナル音声におけるオリジナル話速Ｖ＿ｏを推定する（ステップＳ２４）。このときオリジナル話速推定部１７２は、（式３）を用いて、オリジナル関連音声におけるオリジナル話速Ｖ＿ｏの推定値を算出する。
Ｖ＿ｏ＝ｌ＿ｐｈ／ｄｔ＿ｏ・・・（式３）
式中のｌ＿ｐｈはテキストＴの音素列の長さを表し、式中のｄｔ＿ｏはオリジナル発話区間の長さを表している。よって、（式３）で算出されるオリジナル話速の推定値Ｖ＿ｏは、オリジナル発話区間において、１［秒］あたりに再発話された音素数の平均値に相当する。例えば本実施形態の場合には、オリジナル発話区間の長さｄｔ＿ｏが１．４［秒］、また、テキストＴの音素列の長さｌ＿ｐｈが２４［音素］であることから、オリジナル話速の推定値Ｖ＿ｏは１８．０となる。このように、オリジナル話速推定部１７２は、オリジナル発話区間における単位時間あたりの音素数の平均値を算出し、算出値をオリジナル話速の推定値Ｖ＿ｏとしている。

（速度調整量算出部１７３）
本実施形態に係る速度調整量算出部１７３は、ユーザＵの作業習熟度に応じて、再発話時のオリジナル音声の再生速度を決定するための調整量を算出する。速度調整量算出部１７３が算出する調整量は、例えば音声の１［秒］あたりのデータサンプリング数に乗算することで、速度調整可能な係数値に相当する。

速度調整量算出部１７３は、再発話時のオリジナル音声の再生モードごとに異なる算出処理を行う。具体的には、速度調整量算出部１７３は、再生モードが連続モード（連続再生）の場合、オリジナル話速推定部１７２から受け取ったオリジナル話速の推定値Ｖ＿ｏと、音声認識話速の設定値Ｖ＿ａとの比率に基づき、音声認識精度を考慮した調整量を算出する。また、速度調整量算出部１７３は、再生モードが断続モード（断続再生）の場合、ユーザ話速推定部１７１から受け取ったユーザ話速の推定値Ｖ＿ｕと、オリジナル話速推定部１７２から受け取ったオリジナル話速の推定値Ｖ＿ｏとの比率に基づき、ユーザＵの作業習熟度を判定し、作業習熟度に応じた調整量を算出する。なお、音声認識話速は、音声認識に好適な話速に相当し、例えば音声認識の学習手法（ユーザ音声認識部１３の認識性能）に応じて予め設定できる（学習手法によって事前に与えることができる）。本実施形態では、便宜上、音声認識話速の設定値Ｖ＿ａを１０．０とする。

（Ａ）．連続モードの場合
図１０は、本実施形態に係る連続モードにおける再生速度の調整量算出時の処理例を示すフローチャートである。図１０に示すように、本実施形態に係る速度調整量算出部１７３は、まず、オリジナル話速Ｖ＿ｏと音声認識話速Ｖ＿ａとの比率を表す話速比（以下「第１話速比」という）ｒ＿ｏａを算出する（ステップＳ３１）。このとき速度調整量算出部１７３は、（式４）を用いて、第１話速比ｒ＿ｏａを算出する。
ｒ＿ｏａ＝Ｖ＿ｏ／Ｖ＿ａ・・・（式４）

次に速度調整量算出部１７３は、算出した第１話速比ｒ＿ｏａと閾値（以下「第１閾値」という）ｒ＿ｔｈ１とを比較し、第１話速比ｒ＿ｏａが第１閾値ｒ＿ｔｈ１より大きいか否かを判定する（ステップＳ３２）。なお、第１閾値ｒ＿ｔｈ１は、オリジナル話速Ｖ＿ｏが音声認識話速Ｖ＿ａよりも十分大きいかを判定する基準として予め設定できる（判定基準として事前に与えることができる）。本実施形態では、便宜上、第１閾値ｒ＿ｔｈ１を１．４とする。

その結果、速度調整量算出部１７３は、第１話速比ｒ＿ｏａが第１閾値ｒ＿ｔｈ１より大きい場合（ステップＳ３２：Ｙｅｓ）、再発話時のオリジナル音声の再生速度の調整量ａを算出する（ステップＳ３３）。このとき速度調整量算出部１７３は、（式５）を用いて、再生速度の調整量ａを算出する。
ａ＝Ｖ＿ａ／Ｖ＿ｏ・・・（式５）

一方、速度調整量算出部１７３は、第１話速比ｒ＿ｏａが第１閾値ｒ＿ｔｈ１より小さい、又は、等しい場合（ステップＳ３２：Ｎｏ）、再発話時のオリジナル音声の再生速度の調整量ａを１．０に設定する（ステップＳ３４）。

これにより、再生速度決定部１７は、速度調整量算出部１７３で求めた（又は設定された）調整量ａから、再発話時のオリジナル音声の再生速度Ｖを決定する（ステップＳ３５）。このとき再生速度決定部１７は、現在のオリジナル音声の１［秒］あたりのデータサンプリング数に調整量ａを乗算し、乗算値を調整後のデータサンプリング数とすることで、再生速度Ｖを決定する。

これを受けて再生制御部１４は、再生速度決定部１７により決定された再生速度Ｖで、オリジナル音声を再生する。このようにして、本実施形態に係る書き起こし支援装置１００では、連続モードにおける再発話時のオリジナル音声の再生速度Ｖが調整される。

以下に、具体的な値を用いて上記処理例を説明する。本実施形態では、オリジナル話速の推定値Ｖ＿ｏが１８．０、音声認識話速の設定値Ｖ＿ａが１０．０であることから、ステップＳ３１の算出処理では、第１話速比ｒ＿ｏａが１．８と算出される。よって、ステップＳ３２の判定処理では、第１話速比ｒ＿ｏａが第１閾値ｒ＿ｔｈ１より大きい（１．８＞１．４）と判定される。その結果、処理は、ステップＳ３３の算出処理に進み、オリジナル話速の推定値Ｖ＿ｏが１８．０、音声認識話速の設定値Ｖ＿ａが１０．０であることから、再生速度Ｖの調整量ａが０．５５６と算出される。これにより、本実施形態では、再発話時のオリジナル音声が現在より４４．４［％］遅い速度で再生される。

これに対して、例えばオリジナル話速の推定値Ｖ＿ｏが１２．０であった場合には、ステップＳ３１の算出処理では、第１話速比ｒ＿ｏａが１．２と算出される。よって、ステップＳ３２の判定処理では、第１話速比ｒ＿ｏａが第１閾値ｒ＿ｔｈ１より小さい（１．２＜１．４）と判定される。その結果、処理は、ステップＳ３４の設定処理に進み、再生速度Ｖの調整量ａが１．０に設定される。この場合、再発話時のオリジナル音声が現在と同じ速度で再生される。

ユーザＵは、連続モードで再生を行う場合、オリジナル音声を聞きながら、少し遅れて再発話を行う。その際、ユーザＵは、なるべく発話が途切れないように、オリジナル音声と同じ話速で再発話を行う。しかし、例えばオリジナル音声が、会議などの日常会話を録音した音声データの場合、オリジナル音声の話速が、音声認識に好適な話速に比べて速いことが考えられる。そのため、ユーザＵが、オリジナル音声と同じ話速で再発話してしまうことで、再発話を録音したユーザ音声の音声認識の精度が低下する可能性がある。

そこで、本実施形態では、図１０の処理Ｐ１に示すように、速度調整量算出部１７３が、第１話速比ｒ＿ｏａと第１閾値ｒ＿ｔｈ１とを比較し、オリジナル話速Ｖ＿ｏが音声認識に好適な話速か否かを、比較結果から判定する。その結果、速度調整量算出部１７３は、オリジナル話速Ｖ＿ｏが音声認識話速Ｖ＿ａより速く、音声認識に好適な話速でなかった場合、音声認識話速Ｖ＿ａに近い話速でオリジナル音声を再生する再生速度Ｖを決定する。これにより、本実施形態に係る書き起こし支援装置１００では、音声認識に好適な話速に調整されたオリジナル音声を聞き、書き起こし作業が可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置１００では、再発話を録音したユーザ音声を精度よく認識でき、ユーザＵの書き起こし作業にかかる負担を軽減できる（書き起こし作業にかかるコストを低減できる）。

（Ｂ）．断続モードの場合
図１１は、本実施形態に係る断続モードにおける再生速度の調整量算出時の処理例を示すフローチャートである。図１１に示すように、本実施形態に係る速度調整量算出部１７３は、まず、オリジナル話速Ｖ＿ｏとユーザ話速Ｖ＿ｕとの比率を表す話速比（以下「第２話速比」という）ｒ＿ｏｕを算出する（ステップＳ４１）。このとき速度調整量算出部１７３は、（式６）を用いて、第２話速比ｒ＿ｏｕを算出する。
ｒ＿ｏｕ＝Ｖ＿ｏ／Ｖ＿ｕ・・・（式６）

次に速度調整量算出部１７３は、ユーザ話速Ｖ＿ｕと音声認識話速Ｖ＿ａとの比率を表す話速比（以下「第３話速比」という）ｒ＿ｕａを算出する（ステップＳ４２）。このとき速度調整量算出部１７３は、（式７）を用いて、第３話速比ｒ＿ｕａを算出する。
ｒ＿ｕａ＝Ｖ＿ｕ／Ｖ＿ａ・・・（式７）

次に速度調整量算出部１７３は、算出した第２話速比ｒ＿ｏｕと閾値（以下「第２閾値」という）ｒ＿ｔｈ２とを比較し、第２話速比ｒ＿ｏｕが第２閾値ｒ＿ｔｈ２より大きいか否かを判定する（ステップＳ４３）。なお、第２閾値ｒ＿ｔｈ２は、オリジナル話速Ｖ＿ｏがユーザ話速Ｖ＿ｕよりも十分大きいかを判定する基準として予め設定できる（判定基準として事前に与えることができる）。本実施形態では、便宜上、第２閾値ｒ＿ｔｈ２を１．４とする。

速度調整量算出部１７３は、第２話速比ｒ＿ｏｕが第２閾値ｒ＿ｔｈ２より大きい場合（ステップＳ４３：Ｙｅｓ）、算出した第３話速比ｒ＿ｕａが１の近似値か否かを判定する（ステップＳ４４）。このとき速度調整量算出部１７３は、（条件式１）を用いて、第３話速比ｒ＿ｕａが１の近似値か否かを判定する。
１−ｅ＜ｒ＿ｕａ＜１＋ｅ・・・（条件式１）
式中のｅは、第３話速比ｒ＿ｕａが１の近似値かを判定する基準の数値範囲として予め設定できる（判定基準の数値範囲として事前に与えることができる）。よって、（条件式１）では、式中のｅに１より小さい値を設定することで、第３話速比ｒ＿ｕａが、±ｅの数値範囲内で１の近似値の場合に条件を満たすように調整できる。本実施形態では、便宜上、ｅを０．２とする。よって、本実施形態では、第３話速比ｒ＿ｕａが、０．８より大きく、かつ、１．２より小さい値の場合に（条件式１）を満たすことになる。

その結果、速度調整量算出部１７３は、第３話速比ｒ＿ｕａが１の近似値の場合（ステップＳ４４：Ｙｅｓ）、再発話時のオリジナル音声の再生速度Ｖの調整量ａを１より大きい所定値に設定する（ステップＳ４５）。本実施形態では、便宜上、調整量ａに設定する所定値を１．５とする。

また、速度調整量算出部１７３は、第２話速比ｒ＿ｏｕが第２閾値ｒ＿ｔｈ２より小さい、又は、等しい場合（ステップＳ４３：Ｎｏ）、第２話速比ｒ＿ｏｕが１の近似値か否かを判定する（ステップＳ４６）。このとき速度調整量算出部１７３は、（条件式２）を用いて、第２話速比ｒ＿ｏｕが１の近似値か否かを判定する。
１−ｅ＜ｒ＿ｏｕ＜１＋ｅ・・・（条件式２）
式中のｅは、第２話速比ｒ＿ｏｕが１の近似値かを判定する基準の数値範囲として予め設定できる（判定基準の数値範囲として事前に与えることができる）。よって、（条件式２）では、式中のｅに１より小さい値を設定することで、第２話速比ｒ＿ｏｕが、±ｅの数値範囲内で１の近似値の場合に条件を満たすように調整できる。本実施形態では、便宜上、ｅを０．２とする。よって、本実施形態では、第２話速比ｒ＿ｏｕが、０．８より大きく、かつ、１．２より小さい値の場合に（条件式２）を満たすことになる。

速度調整量算出部１７３は、第２話速比ｒ＿ｏｕが１の近似値の場合（ステップＳ４６：Ｙｅｓ）、第３話速比ｒ＿ｕａと閾値（以下「第３閾値」という）ｒ＿ｔｈ３とを比較し、第３話速比ｒ＿ｕａが第３閾値ｒ＿ｔｈ３より大きいか否かを判定する（ステップＳ４７）。なお、第３閾値ｒ＿ｔｈ３は、ユーザ話速Ｖ＿ｕが音声認識話速Ｖ＿ａよりも十分大きいかを判定する基準として予め設定できる（判定基準として事前に与えることができる）。本実施形態では、便宜上、第３閾値ｒ＿ｔｈ３を１．４とする。

その結果、速度調整量算出部１７３は、第３話速比ｒ＿ｕａが第３閾値ｒ＿ｔｈ３より大きい場合（ステップＳ４７：Ｙｅｓ）、再発話時のオリジナル音声の再生速度Ｖの調整量ａを算出する（ステップＳ４８）。このとき速度調整量算出部１７３は、（式８）を用いて、再生速度Ｖの調整量ａを算出する。
ａ＝Ｖ＿ａ／Ｖ＿ｕ・・・（式８）

また、速度調整量算出部１７３は、第３話速比ｒ＿ｕａが１の近似値でない場合（ステップＳ４４：Ｎｏ）、再発話時のオリジナル音声の再生速度Ｖの調整量ａを１．０に設定する（ステップＳ４９）。同様に、速度調整量算出部１７３は、第２話速比ｒ＿ｏｕが１の近似値でない場合（ステップＳ４６：Ｎｏ）、第３話速比ｒ＿ｕａが第３閾値ｒ＿ｔｈ３より小さい、又は、等しい場合（ステップＳ４７：Ｎｏ）、調整量ａを１．０に設定する。

これにより、再生速度決定部１７は、速度調整量算出部１７３で求めた（又は設定された）調整量ａから、再発話時のオリジナル音声の再生速度を決定する（ステップＳ５０）。このとき再生速度決定部１７は、連続モード時と同様に、オリジナル音声の１［秒］あたりの現在のデータサンプリング数に調整量ａを乗算し、乗算値を調整後のデータサンプリング数とすることで、再生速度Ｖを決定する。

これを受けて再生制御部１４は、再生速度決定部１７により決定された再生速度Ｖで、オリジナル音声を再生する。このようにして、本実施形態に係る書き起こし支援装置１００では、断続モードにおける再発話時のオリジナル音声の再生速度Ｖが調整される。

以下に、具体的な値を用いて上記処理例を説明する。本実施形態では、オリジナル話速の推定値Ｖ＿ｏが１８．０、ステップＳ４１の算出処理では、第２話速比ｒ＿ｏｕが１．５６５と算出される。また、本実施形態では、ユーザ話速の推定値Ｖ＿ｕが１１．５、音声認識話速の設定値Ｖ＿ａが１０．０であることから、ステップＳ４２の算出処理では、第３話速比ｒ＿ｕａは１．１５と算出される。よって、ステップＳ４３の判定処理では、第２話速比ｒ＿ｏｕが第２閾値ｒ＿ｔｈ２より大きい（１．５６５＞１．４）と判定され、ステップＳ４４の判定処理では、第３話速比ｒ＿ｕａが１の近似値である（０．８＜１．１５＜１．２）と判定される。その結果、処理は、ステップＳ４５の設定処理に進み、再生速度Ｖの調整量ａが１．５に設定される。これにより、本実施形態では、再発話時のオリジナル音声が現在より１．５倍速い速度で再生される。

また、例えばオリジナル話速の推定値Ｖ＿ｏが１５．０であった場合には、ステップＳ４１の算出処理では、ユーザ話速の推定値Ｖ＿ｕが１１．５であることから、第２話速比ｒ＿ｏｕが１．３０４と算出される。よって、ステップＳ４３の判定処理では、第２話速比ｒ＿ｏｕが第２閾値ｒ＿ｔｈ２より小さい（１．３０４＜１．４）と判定される。これを受けて、処理は、ステップＳ４６の判定処理に進み、第２話速比ｒ＿ｏｕが１の近似値でない（１．３０４＞１．２）と判定され、ステップＳ４７の判定処理では、第３話速比ｒ＿ｕａが第３閾値ｒ＿ｔｈ３より大きい（１．５６５＞１．４）と判定される。その結果、処理は、ステップＳ４８の設定処理に進み、ユーザ話速の推定値Ｖ＿ｕが１１．５、音声認識話速の設定値Ｖ＿ａが１０．０であることから、再生速度Ｖの調整量ａが０．８７と算出される。この場合、再発話時のオリジナル音声が現在より１３［％］遅い速度で再生される。

これに対して、例えば第３話速比ｒ＿ｕａ又は第２話速比ｒ＿ｏｕが１の近似値でない場合、処理は、ステップＳ４９の設定処理に進み、再生速度Ｖの調整量ａが１．０に設定される。第３話速比ｒ＿ｕａが第３閾値ｒ＿ｔｈ３より小さい、又は、等しい場合も同様である。この場合、再発話時のオリジナル音声が現在と同じ速度で再生される。

ユーザＵが、断続モードで再生を行う場合、オリジナル音声を一定期間聞いた後に、再生を停止した状態で再発話を行う。このとき作業習熟度の高いユーザＵは、オリジナル音声の話速につられることなく、ユーザ音声の音声認識に好適な話速で再発話できる。このことから、書き起こし作業を効率よく行うために、オリジナル音声の再生速度Ｖを速めることが好ましい。

そこで、本実施形態では、図１１の処理Ｐ２に示すように、速度調整量算出部１７３が、第２話速比ｒ＿ｏｕと第２閾値ｒ＿ｔｈ２とを比較し、ユーザ話速Ｖ＿ｕがオリジナル話速Ｖ＿ｏより遅い話速か否かを、比較結果から判定する。また、速度調整量算出部１７３が、第３話速ｒ＿ｕａが１の近似値か否かを判定する。つまり、速度調整量算出部１７３は、オリジナル話速Ｖ＿ｏとユーザ話速Ｖ＿ｕとを比較して、ユーザ話速Ｖ＿ｕがオリジナル話速Ｖ＿ｏよりも遅いかを確認する。さらに、速度調整量算出部１７３は、ユーザ話速Ｖ＿ｕがオリジナル話速Ｖ＿ｏよりも遅い場合、ユーザ話速Ｖ＿ｕと音声認識話速Ｖ＿ａとを比較して、ユーザ話速Ｖ＿ｕと音声認識話速Ｖ＿ａとが近似した話速かを確認する。その結果、速度調整量算出部１７３は、ユーザ話速Ｖ＿ｕが、オリジナル話速Ｖ＿ｏより遅く、音声認識話速Ｖ＿ａと近似した話速である場合、ユーザＵが、オリジナル音声の話速に関わらず、音声認識に好適な話速で安定した再発話を行える作業習熟度の高いユーザＵであると判断する。これを受けて速度決定部１７は、現在の再生速度よりも速い速度でオリジナル音声を再生する再生速度Ｖを決定する。

これにより、本実施形態に係る書き起こし支援装置１００では、書き起こし作業を効率よく行うための話速に調整されたオリジナル音声を聞き、書き起こし作業が可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置１００では、書き起こし作業の効率化を図ることができ、作業習熟度の高いユーザＵの書き起こし作業にかかる負担を軽減できる（書き起こし作業にかかるコストを低減できる）。本実施形態に係る書き起こし支援システム１０００は、エキスパート向けの支援サービスを提供できる。

一方、作業習熟度の低いユーザＵは、直前に聞いたオリジナル音声の話速につられて再発話することが考えられる。そのため、オリジナル話速Ｖ＿ｏが、音声認識話速Ｖ＿ａに比べて速い場合には、ユーザＵが、オリジナル音声と同じ話速で再発話してしまうことで、再発話を録音したユーザ音声の音声認識の精度が低下する可能性がある。

そこで、本実施形態では、図１１の処理Ｐ３に示すように、速度調整量算出部１７３が、第２話速ｒ＿ｏｕが１の近似値か否かを判定する。また、速度調整量算出部１７３が、第３話速比ｒ＿ｕａと第３閾値ｒ＿ｔｈ３とを比較し、ユーザ話速Ｖ＿ｕが音声認識話速Ｖ＿ａより速い話速か否かを、比較結果から判定する。つまり、速度調整量算出部１７３は、オリジナル話速Ｖ＿ｏとユーザ話速Ｖ＿ｕとを比較して、ユーザ話速Ｖ＿ｕとオリジナル話速Ｖ＿ｏとが近似した話速かを確認する。さらに、速度調整量算出部１７３は、ユーザ話速Ｖ＿ｕとオリジナル話速Ｖ＿ｏとが近似した話速の場合、ユーザ話速Ｖ＿ｕと音声認識話速Ｖ＿ａとを比較して、ユーザ話速Ｖ＿ｕが音声認識話速Ｖ＿ａに比べて速いかを確認する。その結果、速度調整量算出部１７３は、ユーザ話速Ｖ＿ｕが、オリジナル話速Ｖ＿ｏと近似した話速で、音声認識話速Ｖ＿ａに比べて速い場合、ユーザＵが、オリジナル音声の話速につられて、音声認識の精度を低下させる可能性のある話速で再発話を行う作業習熟度の低いユーザＵであると判断する。これを受けて速度決定部１７は、現在の再生速度よりも遅い速度でオリジナル音声を再生する再生速度Ｖを決定する。

これにより、本実施形態に係る書き起こし支援装置１００では、ユーザＵが、音声認識に好適な話速に調整されたオリジナル音声を聞き、書き起こし作業が可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置１００では、再発話を録音したユーザ音声を精度よく認識でき、作業習熟度の低いユーザＵの書き起こし作業にかかる負担を軽減できる（書き起こし作業にかかるコストを低減できる）。本実施形態に係る書き起こし支援システム１０００は、ビギナー向けの支援サービスを提供できる。

＜まとめ＞
以上のように、本実施形態に係る書き起こし支援装置１００によれば、ユーザＵからの操作指示を受け付けて、オリジナル音声を再生又は停止する。このとき書き起こし支援装置１００は、オリジナル音声の再生開始時刻と再生停止時刻とが記録された再生情報を得る。本実施形態に係る書き起こし支援装置１００は、オリジナル音声を聞いた後に、ユーザＵにより同じ内容が再発話され入力されたユーザ音声を認識し、音声認識結果としてテキストＴ（認識文字列）を得る。本実施形態に係る書き起こし支援装置１００は、テキストＴを画面に表示し、ユーザＵからの編集入力を受け付けて、編集中のテキストＴ２を得る。本実施形態に係る書き起こし支援装置１００は、オリジナル音声の音声データと、ユーザ音声の音声データと、編集中のテキストＴ２と、オリジナル音声の再生情報とに基づき、ユーザＵの作業習熟度を判定し、再発話時のオリジナル音声の再生速度Ｖを決定する。本実施形態に係る書き起こし支援装置１００は、再発話時に再生されるオリジナル音声を、決定した再生速度Ｖで再生する。

これによって、本実施形態に係る書き起こし支援装置１００は、再発話時のオリジナル音声の再生速度Ｖを、ユーザＵごとの適正速度に調整可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置１００は、再発話によるテキスト書き起こし作業を、ユーザＵの作業習熟度に応じて作業支援できる。また、本実施形態に係る書き起こし支援装置１００は、再発話時のオリジナル音声の再生速度Ｖを、再生・停止が行われるたびに調整可能な環境を提供する。その結果、本実施形態に係る書き起こし支援装置１００は、ユーザＵの作業習熟度に応じた作業支援を迅速に行うことができる。これにより、本実施形態に係る書き起こし支援装置１００は、利便性の向上を図ることができる（利便性の高い支援サービスを実現できる）。

＜本実施形態の効果の詳細＞
以下に、従来の技術、および、本実施形態の効果についてさらに説明する。書き起こし作業では、一般的に、書き起こす速度がオリジナル音声の再生速度より遅い。そのため、書き起こし作業には、コスト（時間的・経済的なコスト）がかかる。そのため、音声認識を用いた書き起こし作業を支援する技術が提案されている。しかし、オリジナル音声には、録音環境により雑音が混入していることが多く、精度のよい音声認識結果が得られない。そこで、オリジナル音声を聞いた後に同じ内容が再発話され入力されたユーザ音声を認識することで、精度のよい音声認識を実現し、書き起こし作業を支援するシステムが提案されている。

しかし、このような従来のシステムでは、再発話時にオリジナル音声を再生する適正速度について、次のような問題がある。例えばオリジナル音声を一定時間聞いた後に再発話する利用場面を想定する。このとき作業習熟度の低いユーザは、オリジナル音声が早口の場合、再発話も早口になる傾向がある。そのため、ユーザの作業習熟度が低い場合には、再発話を録音したユーザ音声の音声認識の精度が低下する。よって、作業習熟度の低いユーザに対しては、再発話時のオリジナル音声の再生速度を遅くすることが望ましい。一方、作業習熟度の高いユーザは、オリジナル音声の再生速度につられることなく、安定した再発話ができる。そのため、ユーザの作業習熟度が高い場合には、速い話速でオリジナル音声を聞き、再発話を行いたい。よって、作業習熟度の高いユーザに対しては、再発話時のオリジナル音声の再生速度を速くすることが望ましい。このように、再発話時にオリジナル音声を再生する適正速度は、ユーザの作業習熟度によって異なる。これに対して従来のシステムは、ユーザの作業習熟度に応じて、再発話時のオリジナル音声の再生速度を適正速度に調整するものではない。つまり、従来のシステムは、再発話によるテキスト書き起こし作業を、ユーザごとに支援するものではない。そのため、従来のシステムを用いた支援サービスは、ユーザにとって利便性のよいものではない。

そこで、本実施形態に係る書き起こし支援装置は、書き起こし対象のオリジナル音声と、再発話を録音したユーザ音声と、認識文字列（第１テキスト）を編集したテキスト（第２テキスト）と、オリジナル音声の再生情報とに基づき、ユーザの作業習熟度を判定する。本実施形態に係る書き起こし支援装置は、ユーザの作業習熟度の判定結果から、再発話時のオリジナル音声の再生速度を決定する。つまり、本実施形態に係る書き起こし支援装置は、再発話時のオリジナル音声の再生速度を、ユーザの作業習熟度に応じて決定する仕組みとした。

その結果、本実施形態に係る書き起こし支援装置は、再発話時のオリジナル音声の再生速度を、ユーザごとの適正速度に調整できる。これにより、本実施形態に係る書き起こし支援装置は、再発話によるテキスト書き起こし作業を、ユーザの作業習熟度に応じて作業支援できることから、利便性の向上を図ることができる（利便性の高い支援サービスを実現できる）。

＜装置＞
図１２は、上記実施形態に係る書き起こし支援装置１００の構成例を示す図である。図１２に示すように、実施形態に係る書き起こし支援装置１００は、ＣＰＵ（Central Processing Unit）１０１と、主記憶装置１０２とを含む。また、書き起こし支援装置１００は、補助記憶装置１０３と、通信ＩＦ（interface）１０４と、外部ＩＦ１０５と、ドライブ装置１０７とを含む。書き起こし支援装置１００は、各デバイスがバスＢを介して相互に接続される。このように、実施形態に係る書き起こし支援装置１００は、一般的な情報処理装置に相当する。

ＣＰＵ１０１は、装置全体の制御や搭載機能を実現するための演算装置である。主記憶装置１０２は、プログラムやデータなどを所定の記憶領域に保持する記憶装置（メモリ）である。主記憶装置１０２は、例えば、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などである。また、補助記憶装置１０３は、主記憶装置１０２より容量の大きい記憶領域を備える記憶装置である。補助記憶装置１０３は、例えば、ＨＤＤ（Hard Disk Drive）やメモリカード（Memory Card）などの不揮発性の記憶装置である。よって、ＣＰＵ１０１は、例えば、補助記憶装置１０３から主記憶装置１０２上に、プログラムやデータを読み出し、処理を実行することで、装置全体の制御や搭載機能を実現する。

通信ＩＦ１０４は、装置をデータ伝送路Ｎに接続するインタフェースである。これにより、書き起こし支援装置１００は、データ伝送路Ｎを介して接続される他の外部機器（ユーザ端末２００などの他の情報処理装置）とデータ通信が行える。外部ＩＦ１０５は、装置と外部装置１０６との間でデータを送受信するためのインタフェースである。外部装置１０６には、例えば処理結果などの各種情報を表示する表示装置（例えば「液晶ディスプレイ」）や操作入力を受け付ける入力装置（例えば「テンキー」、「キーボード」、又は「タッチパネル」）などがある。ドライブ装置１０７は、記憶媒体１０８の書き込み又は読み取りを行う制御装置である。記憶媒体１０８は、例えばフレキシブルディスク（ＦＤ）、ＣＤ（Compact Disk）、及びＤＶＤ（Digital Versatile Disk）などである。

また、上記実施形態に係る書き起こし支援機能は、例えば書き起こし支援装置１００において、プログラムを実行することで、上記各機能部が連携動作することで実現される。この場合、プログラムは、実行環境の装置（コンピュータ）が読み取り可能な記憶媒体に、インストール可能な形式又は実行可能な形式のファイルで記録され提供される。例えば書き起こし支援装置１００の場合には、プログラムは、上記各機能部を含むモジュール構成となっており、ＣＰＵ１０１が記憶媒体１０８からプログラムを読み出し実行することで、主記憶装置１０２のＲＡＭ上に各機能部が生成される。なお、プログラムの提供方法は、この限りでない。例えばプログラムを、インターネットなどに接続された外部機器に格納し、データ伝送路Ｎ経由でダウンロードする方法であってもよい。また、主記憶装置１０２のＲＯＭや補助記憶装置１０３のＨＤＤなどに予め組み込んで提供する方法であってもよい。なお、ここでは、書き起こし支援機能をソフトウェアの実装により実現する例を説明したが、この限りでない。例えば書き起こし支援機能が有する各機能部の一部又は全部を、ハードウェアの実装により実現してもよい。

また、上記実施形態では、書き起こし支援装置１００が、オリジナル音声取得部１１と、ユーザ音声取得部１２と、ユーザ音声認識部１３と、再生制御部１４と、テキスト取得部１５と、再生情報取得部１６と、再生速度決定部１７とを有する構成について説明を行ったが、この限りでない。例えば、書き起こし支援装置１００が、これらの機能部の一部の機能を有する外部機器と、通信ＩＦ１０４を介して接続され、接続された外部機器とデータ通信を行い、各機能部を連携動作させることで、上記書き起こし支援機能を提供する構成であってもよい。具体的には、書き起こし支援装置１００が、ユーザ音声取得部１２及びユーザ音声認識部１３を有する外部機器とデータ通信を行い、各機能部を連携動作させることで、上記書き起こし支援機能を提供する。これにより、上記実施形態に係る書き起こし支援装置１００は、クラウド環境などにも適用できる。

最後に、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

１１オリジナル音声取得部
１２ユーザ音声取得部
１３ユーザ音声認識部
１４再生制御部
１５テキスト取得部
１６再生情報取得部
１７再生速度決定部
１７１ユーザ話速推定部
１７２オリジナル話速推定部
１７３速度調整量算出部
２１音声入力部
２２テキスト処理部
２３再生ＵＩ部
２４再生部
１００書き起こし支援装置
１０００書き起こし支援システム

Claims

再生される第１音声を取得する第１音声取得部と、
ユーザが発話した第２音声を取得する第２音声取得部と、
前記第２音声を認識して第１テキストを生成する認識部と、
前記第１テキストがユーザにより修正された第２テキストを取得するテキスト取得部と、
前記第１音声の再生区間を表す再生情報を取得する情報取得部と、
前記第１音声と、前記第２音声と、前記第２テキストと、前記再生情報とに基づき、前記第１音声の再生速度を決定する決定部と、
前記第１音声を、決定した前記再生速度で再生する制御部と、
を備える書き起こし支援装置。
前記決定部は、
前記第１音声と、前記第２テキストと、前記再生情報とに基づき、再生される前記第１音声の話速に相当する第１話速の推定値を算出する第１話速推定部と、
前記第２音声と前記第２テキストとに基づき、前記第２音声の話速に相当する第２話速の推定値を算出する第２話速推定部と、
前記第１話速の推定値と前記第２話速の推定値とに基づき、前記第１音声の前記再生速度を決定するための調整量を算出する調整量算出部と、を備え、
前記第１音声の単位時間あたりのデータサンプリング数に前記調整量を乗算し、乗算値を調整後のデータサンプリング数とすることで、前記再生速度を決定する、
請求項１に記載の書き起こし支援装置。
前記第１話速推定部は、
前記再生情報に基づき、前記第２テキストに対応する音声を前記第１音声から取得し、
前記第２テキストを発音単位で変換した音素列と取得した前記音声との対応関係をとることで、取得した前記音声においてユーザが発話した第１発話区間を特定し、
前記音素列の長さと前記第１発話区間の長さから、前記第１話速の推定値を算出する、
請求項２に記載の書き起こし支援装置。
前記第２話速推定部は、
前記第２テキストを発音単位で変換した音素列と前記第２音声との対応関係をとることで、前記第２音声においてユーザが発話した第２発話区間を特定し、
前記音素列の長さと前記第２発話区間の長さから、前記第２話速の推定値を算出する、
請求項２に記載の書き起こし支援装置。
前記調整量算出部は、
前記第１音声の再生方法が、連続再生であった場合、
前記第２音声を音声認識するために設定された音声認識話速の値と前記第１話速の推定値とに基づき、前記調整量を算出し、
前記第１音声の再生方法が、再生と停止を繰り返す断続再生であった場合、
前記音声認識話速の設定値と、前記第１話速の推定値と、前記第２話速の推定値とに基づき、前記調整量を算出する、
請求項２に記載の書き起こし支援装置。
前記調整量算出部は、
前記連続再生時に、
前記第１話速の推定値と前記音声認識話速の設定値との第１話速比を算出し、
前記第１話速比が第１閾値より大きい場合、
前記音声認識話速の設定値を前記第１話速の推定値で除算し、除算値を前記調整量として算出する、
請求項５に記載の書き起こし支援装置。
前記調整量算出部は、
前記連続再生時に、
前記第１話速の推定値と前記音声認識話速の設定値との第１話速比を算出し、
前記第１話速比が第１閾値より小さい又は等しい場合、
前記調整量に１を設定する、
請求項５に記載の書き起こし支援装置。
前記調整量算出部は、
前記断続再生時に、
前記第１話速の推定値と前記第２話速の推定値との第２話速比及び前記第２話速の推定値と前記音声認識話速の設定値との第３話速比を算出し、
前記第２話速比が第２閾値より大きく、かつ、前記第３話速比が１の近似値である場合、
前記調整量に１より大きい所定値を設定する、
請求項５に記載の書き起こし支援装置。
前記調整量算出部は、
前記断続再生時に、
前記第１話速の推定値と前記第２話速の推定値との第２話速比及び前記第２話速の推定値と前記音声認識話速の設定値との第３話速比を算出し、
前記第２話速比が第２閾値より小さい又は等しい、かつ、前記第２話速比が１の近似値、かつ、前記第３話速比が第３閾値より大きい場合、
前記音声認識話速の設定値を前記第１話速の推定値で除算し、除算値を前記調整量として算出する、
請求項５に記載の書き起こし支援装置。
前記調整量算出部は、
前記断続再生時に、
前記第１話速の推定値と前記第２話速の推定値との第２話速比及び前記第２話速の推定値と前記音声認識話速の設定値との第３話速比を算出し、
前記第３話速比が１の近似値でない場合、前記第２話速比が１の近似値でない場合、前記第３話速比が第３閾値より小さい又は等しい場合のいずれかの条件を満たす場合、
前記調整量に１を設定する、
請求項５に記載の書き起こし支援装置。
再生される第１音声を取得し、
ユーザが発話した第２音声を取得し、
前記第２音声を認識して第１テキストを生成し、
前記第１テキストがユーザにより修正された第２テキストを取得し、
前記第１音声の再生区間を表す再生情報を取得し、
前記第１音声と、前記第２音声と、前記第２テキストと、前記再生情報とに基づき、前記第１音声の再生速度を決定し、
前記第１音声を、決定した前記再生速度で再生する、
書き起こし支援方法。
コンピュータを、
再生される第１音声を取得する手段と、
ユーザが発話した第２音声を取得する手段と、
前記第２音声を認識して第１テキストを生成する手段と、
前記第１テキストがユーザにより修正された第２テキストを取得する手段と、
前記第１音声の再生区間を表す再生情報を取得する手段と、
前記第１音声と、前記第２音声と、前記第２テキストと、前記再生情報とに基づき、前記第１音声の再生速度を決定する手段と、
前記第１音声を、決定した前記再生速度で再生する手段と、
して機能させる書き起こし支援プログラム。